UNA DISTRIBUCIÓN ASINTÓTICA PARA UN ESTIMADOR NATURAL DEL NÚMERO DE CLUSTERS EN UNA POBLACIÓN

¨ ´ , vol. 22, 3, p. 417-441, 1998 Q UESTII O ´ ASINTOTICA ´ UNA DISTRIBUCION PARA UN ´ ESTIMADOR NATURAL DEL NUMERO DE ´ CLUSTERS EN UNA POBLACION J

0 downloads 15 Views 152KB Size

Recommend Stories


PASOS PARA FORMALIZAR UNA EMPRESA (PERSONA NATURAL)
PASOS PARA FORMALIZAR UNA EMPRESA (PERSONA NATURAL) A continuación se describe en forma breve los pasos que una persona natural que se dedique al come

Una I?ropuesta natural,
'Vli\ 'VwrO FJI-: MI'LAli (ORAn -IT() AIIIlIL 1"'17 ~ ':-re' GEDECO , r."" W ; ho. CIooO\ I UrIL COVJIAI ''''' ... 09U "l :MLROI\.'i ....; . .

La gratitud: una cualidad natural
R E V I S T A LATINOAMERICANA DE PSICOPATOLOGIA F U N D A M E N T A L an o VI, n. 4, dez/ 2 0 03 Rev. Latinoam. Psicopat. Fund., VI, 4, 54-67 La gra

ADN : una herramienta para la enseñanza de la Deducción Natural
ADN : una herramienta para la enseñanza de la Deducción Natural Faraón Llorens, Sergio Mira Dpto. Ciencia de la Computación e Inteligencia Artificial

Story Transcript

¨ ´ , vol. 22, 3, p. 417-441, 1998 Q UESTII O

´ ASINTOTICA ´ UNA DISTRIBUCION PARA UN ´ ESTIMADOR NATURAL DEL NUMERO DE ´ CLUSTERS EN UNA POBLACION J.J. PRIETO MART´INEZ Universidad Carlos III de Madrid ˆ es propuesto para estimar el n´umero de clusUn estimador natural, K, ters, K, existentes en una poblaci´on heterog´enea. Una ley l´ımite normal es rigurosamente probada para dicho estimador. La demostraci´on utiliza un m´etodo de Holst (1979). Un ejemplo para un conjunto de datos reales y un estudio realizado por simulaci´on es presentado para el estimador propuesto.

A little law for a natural estimator of number of clusters in a population. Palabras clave: Clusters, poblaci´on heterog´enea, ley l´ımite normal. Clasificaci´on AMS:

1162G05

* Universidad Carlos III de Madrid. Dpto. de Estad´ıstica y Econometr´ıa. C/Madrid, 126. 28903 Getafe (Madrid) – Recibido en octubre de 1997. – Aceptado en abril de 1998.

417

´ 1. INTRODUCCION Sea una poblaci´on constituida por un n´umero desconocido K de clusters. Existe una gran cantidad de trabajos en la literatura estad´ıstica sobre los m´etodos de estimaci´on del n´umero de clusters, pero la mayor´ıa han sido desarrollados en torno a la idea de que las probabilidades de observaci´on de los diferentes clusters son iguales. Ver, por ejemplo, Lewontin y Prout (1956), Darroch (1958), Harris (1968), Johnson y Kotz (1977), Marchand y Schroeck (1982) Darroch y Ratcliff (1980), Holst (1981) y Esty (1985). Existe un concepto que est´a muy ligado con el de n´umeros de clusters de una poblaci´on, que es el cubrimiento muestral. Se define como la suma de las probabilidades de los clusters observados en una muestra. En el caso de clusters igualmente probables, el cubrimiento viene dado por el n´umero de clusters observados en una muestra, D, dividido por el n´umero de clusters que constituyen la poblaci´on, K. Darroch y Ratcliff (1980) utilizaron exactamente la idea del cubrimiento muestral para estimar K. Ahora bien, considerar la hip´otesis de que las probabilidades de los distintos clusters son iguales es, en principio, un caso muy particular y poco frecuente, ya que poblaciones con clusters constituidos por una misma cantidad de elementos es pr´acticamente imposible. Por ejemplo, no existe una misma cantidad de animales para cada especie en un ecosistema; no se repite con la misma frecuencia cada una de las diferentes palabras que constituyen un texto; no se acu˜na la misma cantidad de las distintas monedas utilizadas en un pa´ıs durante un centenario, etc. La mayor´ıa de los trabajos realizados para poblaciones heterog´eneas (es decir, constituidos por clusters no equiprobables) adoptan un enfoque param´etrico. Por ejemplo, Fisher, Corbet y Williams (1943) asumen que para cada cluster, el n´umero de observaciones en la muestra se distribuye seg´un una distribuci´on de Poisson, y el par´ametro de dicha distribuci´on se asume que sigue una distribuci´on Gamma. Muchos otros art´ıculos sobre modelos de abundancia de especies en un ecosistema tambi´en hacen consideraciones param´etricas. Ver, por ejemplo, McNeil (1973), Engen (1978), Efron y Thisted (1976). Esty (1985) estima el n´umero de clusters en una poblaci´on heterog´enea mediante el concepto de cubrimiento muestral, aunque bajo un modelo param´etrico. Chao y Shen-Ming Lee (1992) propone una t´ecnica de estimaci´on no param´etrica, utilizando tambi´en la idea del cubrimiento muestral. Pero hay que subrayar que ninguno de los autores mencionados, como s´ı hacen algunos autores en el caso equiprobable, estudian cu´al es la distribuci´on asint´otica del estimador que proponen. La propuesta de este art´ıculo es justamente el estudio de la distribuci´on asint´otica de un estimador para K. Aunque el estimador que aqu´ı se propone es sesgado, lo importante es subrayar la t´ecnica empleada para llegar a dicha distribuci´on, la cual puede ser utilizada pr´oximamente para otros estimadores.

418

Por tanto, consid´erese una poblaci´on cerrada en la cual las observaciones est´an agrupadas en K clusters. El significado de cerrada hace alusi´on a que durante el estudio no se producen entradas o salidas de los clusters existentes. A partir de la informaci´on obtenida de una muestra aleatoria de tama˜no n se propone en el apartado ˆ El c´alculo de su esperanza matem´atica 2 un estimador natural-sesgado para K, K. va a ser importante para c´alculos posteriores. Ver el apartado 2.1. Justamente es el apartado 3 el de gran inter´es. Se estudia la distribuci´on asint´otica del estimador propuesto, aplicando un m´etodo de Holst (1979). Se prueba que el estimador se distribuye asint´oticamente como una normal. En el u´ ltimo apartado se presenta un estudio realizado por simulaci´on para el estimador propuesto. Adem´as se da un ejemplo para un conjunto de datos reales, el cual han sido aplicado por otros autores. A la vista de los resultados se proponen t´ecnicas de reducci´on del sesgo del estimador.

2. UN ESTIMADOR NATURAL SESGADO As´umase que una muestra aleatoria de tama˜no n con reemplazamiento ha sido extra´ıda de la poblaci´on, la cual est´a formada por K clusters. La probabilidad de observar el cluster j es p j

> 0, con

K

j = 1;

::: ;

Ky

∑ p j = 1.

j =1

Un estimador natural, sesgado y que bajo-estima K cuando e´ ste es grande con respecto K

a n es: Kˆ =

∑ I j , donde

j=1

Ij =

(

1

si el cluster j es observado en la muestra.

0

en otro caso.

2.1. Momentos del estimador natural ˆ Son presentados a continuaci´on los operadores esperanza y varianza del estimador K. El segundo no tiene m´as inter´es que saber cu´al es la varianza del estimador propuesto. En cambio el primero es de gran importancia por su utilizaci´on en el c´alculo de la ˆ distribuci´on asint´otica de K.

419

2.1.1. La esperanza de Kˆ Teorema. La esperanza del estimador natural Kˆ viene expresada por Z∞ K E (Kˆ ) = K ? ∑ (1 ? p j )n = K 1 ? e?x d F (x);

?



0

j =1

siendo F (x) una funci´on de distribuci´on. Demostraci´on.

Se tiene que:

(1) K

E (Kˆ ) = E

∑ Ij

!

∑ p (I j = 1) = ∑ [1 ? p(I j = 0)] = K ? ∑ K

=

j =1

K

j =1

K

j=1

(1

j=1

? p j )n

:

A continuaci´on se demuestra que (1) se puede expresar como: Z∞ K 1 ? e?x d F (x);

?



0

siendo F (x) una funci´on de distribuci´on, dada en la demostraci´on.



El inter´es que tiene dicha expresi´on es su utilizaci´on en el c´alculo de la distribuci´on asint´otica. Consid´erese la expresi´on:



∑ ? (1 ? p j)n] ? ∑ 1 ? e?np K

K

[1

j=1



j =1

6

pj

6



j=1

K

donde 0

j

1 ? e?np 

;

j

K

1y



pj

=

1. Ver el art´ıculo de Harris (1968) donde se utiliza

j =1

= ∑ ?1 ? e?np . K

esta expresi´on, y demostrando que E (Kˆ )

j

Para ello se aplica el

j =1

siguiente lema.

Lema. Si ai ; bi

>

0;

1 i = 1; 2; : : : ; y b

ai a = sup , entonces b b i i

>

∑ ai i

∑ bi i

420

. Entonces se

tiene que:

∑ [1 ? (1 ? p j )n ] ? ∑ K

K

j =1

j =1

K



j =1

1 ? e?np  j

6 sup e

1 ? e?np 

pj

j

?np j ? (1 ? p j )n 1 ? e?np j

=

e?np ? (1 ? p)n ; 1 ? e?np

donde p es justamente una de las p j ’s donde se alcanza dicho supremo. Como (1 ? p)n = en log(1? p) = e?np? e?np ? (1 ? p)n 1 ? e?np

6

n p2 2

, entonces

?np

np2 2

e?np ? e 1 ? e?np



6

Consid´erese dos casos posibles para p: cuando p (n ∞ en ambos casos). Si p

1 ? e?np

n p2 2

 :

p

1= n y cuando p

<

> 1 pn =

> p1n , entonces e?np ? (1 ? p)n 1 ? enp

e?np 1 ? e?np

6

= ∑ ∑ [1 ? (1 ? p j )n ]  K

(2)

K

j =1

<

6

p

e? n p ; 1 ? e? n

∞. Por consiguiente, y teniendo en cuenta la expresi´on

que tiende a cero cuando n de partida, se tiene que:

Si p

e?np 1 ? e?

j =1

1 ? e?np  j

:

p1n , consid´erese (1

? p)n = en log 1? p (

)

=e

?np? np2

Entonces: e?np ? (1 ? p)n 1 ? e?np

2

?np?  = e

np2 2(1?x)2

(0

?np? 2 1? 1 pn e?np ? e 1 ? e?np

6x6

np2

6

(

(

=

))

2

=

?n2 p2

?np? 2 pn?1 2 e?np 1 ? e (

1 ? e?np

=

421

)

!

p):

Llamando hn ( p) a esta u´ ltima expresi´on, calculando la funci´on derivada e igualando a cero, se obtiene:

! 0 ?p ? np ? e?np BB ?ne 1 ? e BB + 2 (1 ? e?np) @ n2 p2 2( n 1)2

h0n ( p)

=

?

e?np 1 ? e (1

2 2

pn p 2( n?1)2

!

n (e?np )

n2 2p

p

e

2 ( n ? 1) 2 (1 ? e?np)

2

n2 p2

?ne?np 1 ? e 2 pn?1 2 (

p

2 ( n ? 1)

2

(1

?ne?np

!

)

=

2 2 pn p 2( n?1)2

+ e?np (1 (1

e

2 2 pn p 2( n?1)2

(1

n2 p2

2

?1 + e

1+ p

Tomando logaritmos,

?n2 p2 + log p 2 2 ( n ? 1)

pn ? 1)2

(

" 1+ p

pn ? 1)2

(

?1 ? e?np

Como el segundo sumando se puede aproximar por p

?

)

! ?1 ? e?np = 0

n

n 1 ? e?np p 2 ( n ? 1)



:

# = 0:

;

haciendo log(1 + p) = p ? ( p2=2) + ( p3=3) ?  = p + 0( p), entonces

?n2 p2 + p n ?1 ? e?np  =0 p p 2 2 2 ( n ? 1) ( n ? 1) 422

? e?np)

n e?np

:

=

2 2 pn p 2( n?1)2

? e?np)2

n

!

?

+

? e?np)2

n2 p2

2 2

(1

)

? e?np) pn 2p 2 e 2 ( n ? 1) (

? e?np)

? e?np)2 (

(1

!

2 2

p 2 e?np 1 ? e 2 n?1

?

(1

pn p 2( n?1)2

p 2 Dividiendo por ne?np y sacando factor com´un a e 2 n?1 , pn p 2( n?1)2

!!

? e?np)2

1?e

=

? e?np)2

e?np (1 ? e?np) +

!

n2 2p

= 0:

As´ı, p

?1 ? e?np = n2 p2 , que es equivalente a decir n p p 2 2 ( n ? 1) 2 ( n ? 1) np 1 ? e?np  = :

2

Al resolver dicha ecuaci´on computacionalmente se obtiene que el m´aximo de hn ( p) es p  = (1; 6=n). Por consiguiente,

hn

1 6 ;

n



 =

?2 56

p 2 e?1;6 1 ? e 2( n?1) ;



1 ? e?1;6

0;

∞:

cuando n

De esta manera se llega a la misma conclusi´on que (2), es decir, K



?

?np ? (1 ? p j)n)  = ∑ 1?e K

(1

j =1

j



:

j =1

Con esto,

E (Kˆ  =

K



j=1

?1 ? e?np  j

:

Sup´ongase ahora que cuando K y n tiende a infinito, con las p j ’s distintas, la distribuci´on emp´ırica de np1 ; np2 ; : : : ; npk , definida como Fn (x) =

1 K I (n p j K j∑ =1

6 x)

converge en probabilidad a F (x) sobre (0; ∞). I (A) es la conocida funci´on indicadora. Entonces, se tiene que E (Kˆ )  =

K



Z



?1 ? e?x d F (x) = K Z ∞ ?1 ? e?x d F (x)

:

j =1 0

0

Se define X j como una variable aleatoria que indica el n´umero de veces que se ha observado el cluster j en la muestra, con j = 1; : : : ; K; y consid´erese el siguiente lema de Holst (1979). Lema. P(x1 = xk

.

K

=

∑ Yj = n

j=1

!x1

;

X2

=

x2 ;

::: ;

Xk

=

xk )

=

p (Y1 = x1 ; Y2 = x2 ;

::: ;

Yk =

, donde fYn g son variables aleatorias independientes de Poisson con

media np j .

423

!

Entonces: K

E (Kˆ )

=

∑ I (X j

E

>

!

K

0)

∑ I (Y j

=E

j =1

>

0)

j =1

K

=

∑ Prob (Y j

>

0) =

j=1

∑ [1 ? ProbI (Y j = 0)] = K

=

j=1

1 ? e?np  =

K



=

j

j=1

Z

=



K



Z



1 ? e?np  d F (x) j

K 0

1 ? e?np  d F (x) = j

j=1 0

;

justamente lo que se quer´ıa demostrar. 2.1.2. La varianza de Kˆ Se tiene que: var (Kˆ ) = E (Kˆ 2 ) ? E 2(Kˆ ): La esperanza de Kˆ ha sido calculada anteriormente. Ahora queda por determinar qui´en es E (Kˆ 2 ). K

E (Kˆ 2 ) =

K

K

K

∑ ∑ p(I j = Il = 1) = ∑ ∑

j =1l =1

 p(I

j = 1) + p(Il = 1)

j=1l =1

? p(I j o Il = 1)



:

Como p(I j = 1) = 1 ? p(I j = 0) = 1 ? (1 ? p j)n , y la probabilidad de elegir el cluster j o el cluster l es p j + pl ( j 6= l ), entonces p ((I j = 1) o

(Il = 1)) = 1

? (1 ? ( p j + pl )n )

j 6= 1:

;

[ (Il = 1) = (Il = 1), y p ((Il = 1) o (Il = 1)) = 1 ? (1 ? p j )n

Pero si l = j, entonces, (I1 = 1)

:

Por consiguiente: 2K ∑ p(Il = 1) ? K

E (Kˆ 2 )

=

l =1

K

K

∑∑

 p (I

j=1l =1

j 6= l

424

j = 1) + p(Il = 1)

?

K

∑ p(Il = 1) =

l =1

=

(2K

? 1)

K ? ∑ (1 ? pl ) K

! n

K 2 (2K ? 1) ∑ (1 ? pl )n + l =1

K

K

=

l =1

K

=

? K (K ? 1) + ∑ ∑ j 1l 1 6 l j= K

K

∑∑

(1

j=1l =1

(1

=

? p j ? pl ) n

? p j ? p l )n =

:

j 6= l

Por tanto, K 2 ? (2K ? 1) ∑ (1 ? pl )n + K

var (Kˆ )

=

l =1

K

+

? p j ? pl ) ?

K

∑∑

"

(1

n

j =1l =1

K ? ∑ (1 ? p j ) K

=

j=1

j 6= l

K 2 ? (2K ? 1) ∑ (1 ? pl )n + K

=

#2 n

l =1

K

K

∑∑

(1

j=1l =1

? p j ? p l )n ?

j 6= l

3 2 !2 ? 4K 2 + ∑ (1 ? p j)n ? 2K ∑ (1 ? p j)n 5 = j 1 j 1 ( K

=

=

∑ ( 1 ? pl ) K

=

K

l =1

n

K

+

K

∑∑

(1

j =1l =1

? p j ? pl ) ? ∑ (1 ? p j) n

K

)2 n

:

j=1

j 6= l

Hay que notar que dicha expresi´on coincide por la dada por McNeil (1973).

´ ASINTOTICA ´ 3. DISTRIBUCION A continuaci´on se prueba la normalidad asint´otica de Kˆ mediante el m´etodo de Holst (1979) (ver tambi´en Esty (1985)). Teorema. La distribuci´on asint´otica de la expresi´on

?

? 

K ?1=2 Kˆ ? E Kˆ 425

converge a una distribuci´on normal de media cero y varianza σ21 , la cual est´a dada en la demostraci´on. Demostraci´on. N´otese que Kˆ = K ? N0 , donde N0 es una variable aleatoria que indica el n´umero de clusters no observados en la muestra que se define como N0 = K

∑ I (X j = 0) y E (N0 ), utilizando la variable aleatoria indicatriz

(

j=1

(3)

(i; n)

Zj

=

K

es igual a



j=1

(1

1

si el cluster j ocurre i veces en la muestra.

0

en otro caso.

? p j)n . Entonces:

"

#

Kˆ ? E (Kˆ ) = Kˆ ? K ? ∑ (1 ? p j ) K

n

j =1

Sea:

?N0 + ∑ (1 ? p j) K

=

:

j=1

f (X j ) = [I (X j = 0) ? (1 ? p j )n ] :

Se define

K

ZM =



f (x j );

M

<

K:

j =1

Obs´ervese que si M es todo K, K

Z = ZM =



K

f (X j ) =

j =1



j =1

? (1 ? p j)n ] = N0 ? ∑ (1 ? p j)n K

[I (X j )

:

j =1

K

Ahora, el problema consiste en encontrar la distribuci´on asint´otica de Z =



f (X j ).

j =1

Para ello se va a seguir el m´etodo de Holst (1979), demostrando que la funci´on caracter´ıstica de K ?1

!

N0 ? ∑ (1 ? p j ) K

2

=

n

j=1

converge a una distribuci´on normal de media cero y varianza σ21 , dada en la demostraci´on. Para ello se prueba primero a continuaci´on cu´al es la distribuci´on asint´otica de K ?1=2 ZM . Consid´erese de nuevo el lema enunciado en el apartado anterior: P(X1 = x1 ; X2 = x2 ;

::: ;

Xk = xk ) = P Y1 = y1 ; Y2 = y2 ;

::: ;

Yk = yk

.

K

∑ Yj = n

j=1

426

! ;

donde fY j g son variables aleatorias independientes de Poisson con media np j . Entonces:

8 9 9 8 > > > > > > > f (X j ) > ? ∑ f (Y j )  < isK? ∑ = < = j 1 j 1 E e = E eisK Yj = n ∑ > > > > j 1 > > > : ; : ; > M

M

1=2

1=2

=

K

=

(M

<

K ):

=



Consid´erese ahora el siguiente lema de Holst (1979). Lema. Si Si (U ; V ) es un vector bidimensional con U entero, entonces Z +π 1 E eis =U = n = E eiu(U ?n)+isV d u: 2 π P(U = n) ?π

?







0 1 ? ( X ) f ∑ j BB CC j 1 isK B E Be ∑ Y j = nC CA = @ j 1

Entonces,

M

1=2

K

=

=

1 0 ? 1 2 ( Y ? np ) + isK f ( Y ) Z π j ∑ j ∑ jC j 1 CA d u ! ?π E BB@e j 1 K

K

=

+

1 2πP

K

∑ Yj = n

j =1

K

Ahora bien, como E

∑ Yj

=

!

n

∑ n p j = n y n! = e?n K

=

j=1

P

=

∑ Yj = n

!

p

2 π n nn , entonces

j =1

=e

j=0

?n

p

e

n ?n p

n

2 π nnn

Haciendo el cambio de variable t = u n,

=

p1

0 1 BB ? j∑1 f (X j )  CC isK EB e Y n ∑ j C B@ CA = j 1 M

1=2

K

=

=

427

2πn

:

:

0 1 ? 1 2 ( Y ? np ) + isK ( Y ) itn? f ∑ jC Be j∑1 j j j 1 CA n?1 2 d t = EB @ K

=

1

Z

+π n1=2

1 ?π n1 2 2πp 2πn =

M

=

1=2

=

=

0 1 ?1 2 f (Y j ) (Y j ? np j ) + isK itn? ∑ ∑ Be j 1 CC d t j 1 EB @ A K

=

p1

Z

+π n1=2

2 π ?π n1 2 =

=

M

=

1=2

=

Sea

Z

p1

Hn (s) =

=

+π n1=2

h1n (s; t ) h2n (t ) d t ;

2 π ?π n1 2

donde

=



M

:

h1n (s; t ) = ∏ E eitn

?1 2 (Y j ?np j )+isK ?1 =

2 f (Y ) j

=



j =1



y

E eit (Y j ?np j ) n

K



h2n (s; t ) =

?1

2

=



:

j=M+1

Ahora,



K

h2n (t )

=

∏ ∑

eitn

?1

m

?np j ) e?np j (n p j )

2 (m

=

e?itn

K

=



?1

2 np

=

j=M+1

=





j

eitn

?itn?1



2

=

e

pj

e?np j

j=M+1

m!

1=2

e

np j

?itn?1



2

e

pj

?np j



e

eitn

j=M+1 K

e?itn

?1

2

=

n

K



pj e

j=M+1

428



j=M+1

?1 2 ?1 =





p j eitn

?1

2

=

=

=

=

=

m

m

m!

=

K

=

(n p j )

?1 2 itn?1 2 = ∏ e?itn p j e?np j enp j e

j=M+1

=

e?np j

 itn?





2m

=

m=0

K

=

?1

m=0

K

=

m!

j=M+1m=0

?1



Como eitn

?1

2

=

= 1 + (it =

pn) ? ?t 2

=

K



pj



n

e

?

K



?

p j 1 + it = n

j=M+1

e

j=M+1

e

? ? p  ? ?t 2 2n ? 1

K



K

?itn?1 2

=

n

j=M+1

e

=

pj

2n

K

=

=

 + 0(n), entonces:



?itn?1 2 h2n (t )

=

p j t 2 =2n

j=M+1

p j itn?1=2 ? n

M



h1n (s; t ) = ∏ E eitn

?1 2 (Y j ?np j )+isK ?1 =

2 f (Y ) j

=



donde



E eitn

?1 2 (Y j ?np j )+isK ?1

2 f (Y ) j

=

E eitn

?1 2 (Y j ?np j )+isK ?1

2 I (Y =0) j



=

=

=

=

?1 2 (Y j ?np j )+isK ?1 =

?1

2 I (Y =0) j

=

2

=

p j +isK ?1=2



M

;

t );

=

 ?isK?

1=2

e

(1 ? p j )

n

e?np j +

 itn?  9 8 < = ∞ (n p j ) e p e?np ? 1 :R∑0 ;= R!   ?itn? p ?np ?itn? p isK?

2

=

∏ g j (s

=

1=2

R

?itn?1

+e



=

R

j

j

=

= e?np j e

1=2

e

j

1=2

?1

1=2

+e

e

j

j

El primer sumando se puede poner de la forma: nt 2 p2j e?np j 1 ? itn?1 2 p j ? =



= e?np j isK ?1

2

2

=

!

isK ?1

2

=

itn?1=2

en p j e

 =

 ?  + 0 K ?1

s2 ts ? 2K + (n p j ) 1 =2 n K 1=2 429

s2 ? 2K

=

=

j =1

Ahora bien, el primer factor es igual a:

= e?itn

j =M+1

=

j=1





p j t 2 =2n



Considerando h1n (s; t ), se tiene:

E eitn

?

K



j =M+1

e

g j (s; t )

=

:



:

Y el segundo sumando se puede escribir recordando el desarrollo de h2n (t ), como 2 e(? p j =2) t .



Por consiguiente, E eitn

?1 2 (Y j ?np j )+isK ?1 =

= e?np j

2 I (Y =0) j

=



s2 2K

isK ?1=2 ?

+



=



ts (np j ) n1=2 K 1=2

?p j

+ e(

2) t 2

=

+0

?K ?1

:

El segundo factor, teniendo en cuenta que

e?isK

?np  =e

? p j)n

=

elog(1? p j )

?1 2 (1? p j )n

=

1 ? isK ?1=2 e?np j ?

(1 =

n

j;

? 

s2 ?2np j ?1 +0 K e 2K

:

De esta forma, g j (s; t )

e?( p j =2) t

=







 Haciendo e( p j =2) t g j (s; t )

=

? =

2

1+e

2



( p j =2 ) t 2



e?np j isK ?1

1 ? isK ?1=2 e?np j ?

2

=

s2 ? 2K



ts + (n p j ) 1 =2 n K 1=2

? 



s2 ?2np j ?1 +0 K e 2K

= 1 + 0( p j t 2 ),

e?( p j =2) t

2



1 ? isK ?1=2 e?np j ?

s2 ?2np j ?np j iKsK ?1=2 ? e +e 2K

s2 ?np j ts + e e?np j (np j ) + e?2np j s2 K ?1 2K n1=2 K 1=2 e?( p j

2) t 2

=





=

ts(np j ) ?np j s2 ?2np j s2 ?np j e e e 1+ ? + 2K 2K n1=2 K 1=2



Por tanto:

?t 2

M

∏ g j (s

;

t)

=

M

=

2

∑ pj

j =1

e

j =1

 ∏ M

j=1



1?



s2 2K

e?np j +

s2 2K

e?2np j +

430

ts(np j ) ?np j e n1=2 K 1=2



?t 2

 =e

M

2

=

∑ pj

j=1



?s2

M

?∑



e



j =1

Entonces:

Hn (s)

0

Z

p1

=

M

?t 2 2@ ∑ p j + j =1

e

+





tsnp j =n1=2 K 1=2 e?np j

M



j =1

1

K

=

+π n1=2

2 π ?π n1 2

M

p jA



j=M+1







tsnp j =n1=2 K 1=2 e?np j

j

e

=

8 9 < = ? np j ? 2np j ? (1=K ) ∑ e ; e :(1 K) j∑ j =1 =1 M

?

s2 =2





?

2K e?np j ? s2 =2K e?2np j

=

e

d t

M

=

8 92 > ? np j > > > > > < ∑j n p j e = ?1 2>t ? n1 2 K1 2 s> > > > > : ;

=

M

=

Z =

+π n1=2

?

π n1=2

?(

s2 =2



e

p1



e

=

=

8 92 . < = ? np j 2 ) ∑ (np j ) e : j =1 ; nK (?s M

d t M

2)

=



j =1

e

(1 K ) e?np ? (1 K ) e?2np j

=

j

=

Si el n´umero de clusters en la poblaci´on y el tama˜no de la muestra son sumamente grandes, tomando el l´ımite de Hn (s) cuando n y K tienden a infinito, se tiene:

8 92 > > > n p j e?np j > > > ∑ < j = ?1 2>t ? n1 2 K1 2 s> > > > > : ; M

=

Z n; K

lim



Hn (s)

=





n; K

n; K

lim

lim

?(s2 e



+π n1=2

?π n1 2 =

8 > > < ?(s e ∞ > > :

p1



=

=

e

92 . 8 = < ? np j ) ∑ (np j ) e ; nK : j=1 M

2 =2

(1 K ) e?np ? (1 K ) e?2np 9 > ∑ = j 1 > ; M

2)

=



=

=

431

j

=

j

d t

Aplicando el teorema de convergencia dominada:

8 92 > ? np j > > > n p e > > < ∑j j = ?1 2>t ? n1 2 K1 2 s> > > > > : ; M

=

Z n; K

lim

+π n1=2

?π n1 2



=

p1

e



=

=

8 8 > > > > ∑ n p j e?np > > < > ?1 2>t ? j > > > > < 1 : p e ∞ > 2π > > > > > :

dt =

M

=

Z =

+π n1=2

?π n1 2

Z =

lim

n; K

=

+π n1=2

p1

?π n1 2

n1=2 K 1=2

92 9 > > > > > => s > > > > > > ;=

dt = > > > > > > ;

e?1=2t d t = 1: 2



=

j

Por consiguiente: n; K

lim



Hn (s) =

9 8 < ?np j (1=K ) e?2np j ? (1=nK ) ?(np j ) e?np j 2 = ( 1 = K ) e ∑ ∑ ; : j∑ =1 j=1 j=1 M

(?s2 =2) =

n; K

lim

?(s2



2)

=

=e

e

n; K

(

lim



M

M



?np j (1=K ) e

j=1

M

?2np j ? (1=K ) e

M



j =1

M



? ?np 2 (1 nK ) (np ) e =

)

j

j

j=1

As´ı, K ?1=2 ZM se distribuye asint´oticamente como una N (0; σ2M ), con σ2M =

8 )29 < 1 ?np 1 ?2np 1 ( = ?np e e n p e ? ? j ∑ ∞ :K ; K j∑1 nK j∑1 j 1 M

n; K

lim

M

M

j

=

j

j

=

:

=

K

Ahora bien, Z = ZM + ZMC , siendo ZMC =



f (X j ). Se puede probar exactamente

j =M+1

igual que K ?1=2 ZMC se distribuye asint´oticamente seg´un una N (0; σ2MC ), donde σ2MC =

8 ( )29

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.