Tema 2. Inferencia en poblaciones normales multivariantes

Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008  2009. Profesor: César Sánchez Sellero. Tema 2. Inferencia en poblaciones normales m

0 downloads 146 Views 243KB Size

Recommend Stories


TEMA 5 Inferencia no paramétrica. Guía docente:
TEMA 5 Inferencia no paramétrica Guía docente: Pruebas estadísticas unidireccionales (una cola) y pruebas estadísticas bidireccionales (dos colas) An

TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 6.1. Introducción 6.2. Conceptos básicos 6.3. Muestreo aleatorio simple 6.4. Distribuciones asociadas

V. INFERENCIA ESTADÍSTICA
V. I NFERENCIA ESTADÍSTICA . V.1. Concepto de inferencia estadística. Es el procedimiento por medio del cual se llega a conclusiones acerca de una p

LA INFERENCIA SOCIAL EN EDUCACIÓN
ISSN 1988-6047 DEP. LEGAL: GR 2922/2007 Nº 40 – MARZO DE 2011 “LA INFERENCIA SOCIAL EN EDUCACIÓN” AUTORÍA ÁLVARO DÍAZ ORTIZ TEMÁTICA INFERENCIAS E

Inteligencia Artificial Inferencia en lógica
Inteligencia Artificial Inferencia en lógica Primavera 2007 profesor: Luigi Ceccaroni Inferencia en lógica • Se quieren conseguir algoritmos que pue

Story Transcript

Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008  2009. Profesor: César Sánchez Sellero. Tema 2. Inferencia en poblaciones normales multivariantes

2.1. Introducción. En este tema realizaremos tareas de inferencia sobre el vector de medias y la matriz de covarianzas de una población normal multivariante, en base a una muestra aleatoria simple extraída de ella. También se tratarán poblemas que involucren a varias poblaciones. Muchos procedimientos resultarán ser extensiones naturales de los métodos ya conocidos para poblaciones normales univariantes, mientras que en algún caso surgirán problemas nuevos, por ejemplo, comparación entre componentes del vector de medias o cuestiones de inferencia simultánea; en denitiva, situaciones provocadas por la dimensión múltiple. Pero para comenzar conviene recordar la situación univariante, en la cual la inferencia se apoya en el teorema de Fisher que dice que la media tiene distribución normal (con cierta media y varianza), la varianza muestral tiene distribución ji-cuadrado, y son independientes. De igual modo, en el tema anterior se obtuvo un resultado que arma que el vector de medias muestral es normal multivariante, la matriz de covarianzas muestral tiene distribución de Wishart, y son independientes. Así, por ejemplo, en base a este resultado se puede hacer inferencia sobre el vector de medias cuando la matriz de covarianzas es desconocida, recurriendo a la distribución Γ2 de Hotelling. Aunque el vector de medias muestral y la matriz de covarianzas muestral son estimadores naturales de sus análogos poblacionales, también vamos a ver que son los estimadores de máxima verosimilitud, y de paso, introducimos la función de verosimilitud y en general la idea de verosimilitud, que será empleada en varias ocasiones a lo largo de este tema.

2.2. Vectores aleatorios. En esta sección vamos a recordar los conceptos básicos relacionados con un vector aleatorio. Los contenidos coinciden con la sección 3.1 de los apuntes de la asignatura "Modelos de regresión", del primer cuatrimestre del máster. Se ha optado por reproducirlos de nuevo aquí. Un vector aleatorio es una colección de variables aleatorias   X1   X =  ... 

Xd medidas simultáneamente sobre el mismo individuo o sobre el mismo resultado de un experimento aleatorio. Cada una de las componentes de un vector aleatorio es una variable aleatoria, y por tanto se puede calcular su media, su varianza y su distribución. Sin embargo, hay algunas propiedades conjuntas dentro de un vector aleatorio, como son la covarianza (o la correlación) y 5

Máster en Técnicas Estadísticas

6 la distribución conjunta. En concreto, se dene el vector de   E (X1 )   .. E(X) =   .

medias como

E (Xd ) y la

matriz de covarianzas como:    Σ = Cov(X, X) =  

V ar (X1 ) Cov (X1 , X2 ) Cov (X2 , X1 ) V ar (X2 ) .. .. . . Cov (Xd , X1 ) Cov (Xd , X2 )

· · · Cov (X1 , Xd ) · · · Cov (X2 , Xd ) .. .. . . ··· V ar (Xd )

    

El vector de medias y la matriz de covarianzas se comportan de la siguiente manera ante formaciones lineales:

trans-

Cov(α + AX, β + BY ) = ACov(X, Y )B 0

E(α + AX) = α + AE(X)

siendo α y β vectores de dimensión q ≤ d, y A y B matrices q × d. Como caso particular de transformaciones lineales, se encuentran los cambios de localización y escala. Así, ante un cambio de localización, como el que representa sumar el vector α, el vector de medias queda desplazado en la misma dirección α, para situarse de nuevo en el centro de la distribución. La matriz de covarianzas, sin embargo, es invariante ante cambios de localización. Respecto de cambios de escala, podemos decir que cada componente del vector de medias está medido en la misma escala que la variable (por ejemplo, en centímetros o en metros si la variable representa una longitud), mientras que cada varianza se mide en la escala de la variable elevada al cuadrado, y la covarianza en el producto de las escalas de las dos variables involucradas. Hay una transformación lineal que tiene un interés especial, que se conoce como estandarización. La estandarización de una variable aleatoria se consigue restando la media y dividiendo por la desviación típica (raíz cuadrada de la varianza). En el caso de un vector aleatorio, su estandarización sería Y = Σ−1/2 (X − µ) que así construido verica E(Y ) = 0 y Cov(Y, Y ) = Id . Puede surgir alguna duda sobre cómo obtener la matriz Σ−1/2 . A este respecto es útil tener presente que toda matriz de covarianzas es una matriz simétrica y semidenida positiva. Recordemos ciertos resultados algebraicos para este tipo de matrices. Si A es una matriz simétrica, entonces



λ1

 A = (v1 , . . . , vd )  0

 v10   ..  ..  .  . λd vd0 0



siendo v1 , . . . , vd una base ortonormal de autovectores de A y λ1 , . . . , λd sus autovalores asociados. A se dice denida positiva si todos los autovalores de A son positivos. En ese caso se puede emplear para denir una norma (y una distancia): kxk2 = x0 Ax.

Análisis Multivariante

7

A se dice semidenida positiva si todos los autovalores son no negativos. En ese caso los autovalores nulos provocan una reducción de dimensión. Como ya se dijo, toda matriz de covarianzas es una matriz simétrica y semidenida positiva. Su rango, número de autovalores no nulos, coincide con la dimensión del espacio lineal en el que se puede incluir el vector aleatorio. De hecho, dicho espacio lineal es el generado por los autovectores asociados a los autovalores no nulos. Las potencias de una matriz simétrica se pueden obtener, simplemente elevando a la potencia correspondiente la matriz diagonal de los autovalores, esto es, si k ∈ R, entonces  k  0  λ1 0 v1    .  k . .. A = (v1 , . . . , vd )    .. 

0

vd0

λkd

Por supuesto para las potencias negativas es necesario que todos los autovalores sean distintos de cero, y en el caso de la matriz de covarianzas, que sea denida positiva.

2.3. Inferencia sobre el vector de medias, como extensión del univariante. Supongamos una muestra aleatoria simple de un vector aleatorio normal multivariante. La podemos denotar por X1 , . . . , Xn ∈ Nd (µ, Σ) independientes. Entonces   n X 1 1 ¯= X Xi ∈ Nd µ, Σ n n i=1

y este resultado es suciente para obtener un pivote para µ cuando la matriz de covarianzas es ¯ . Así, conocida, el cual resulta de la estandarización de X   ¯ − µ 0 Σ−1 X ¯ − µ ∈ χ2 n X d

Por ejemplo, en base a este pivote se puede obtener una región de conanza para el vector de medias, con nivel de conanza (1 − α), de la forma: n o   ¯ − µ 0 Σ−1 X ¯ − µ < χ2 µ ∈ Rd : n X d,α Observamos que la región de conanza que se encuentra dentro del corchete, es la región limitada por una elipse en el plano (si d = 2), un balón de rugby en el espacio (si d = 3), y así ¯ , cuyos ejes van en la dirección sucesivamente. Se trata de un elipsoide en Rd , centrado en X de los autovectores de Σ y la longitud de los radios (semilongitud de los ejes) viene dada por p q 2 λj χd,α /n con j ∈ {1, . . . , d}, siendo λ1 , . . . , λd los autovalores de Σ. En el caso bidimensional, d = 2, se puede representar la elipse, aplicando la siguiente expresión para los puntos que la forman: q hp i p ¯ + χ2 /n X λ v cos(θ) + λ v sen (θ) con θ ∈ [0, 2π) 1 1 2 2 d,α siendo v1 y v2 los autovectores de Σ, y λ1 y λ2 sus autovalores respectivos.

Máster en Técnicas Estadísticas

8

Al igual que ocurría en el caso univariante con la desviación típica, ahora si la matriz de covarianzas es desconocida, es necesario estimarla mediante su análogo muestral, lo cual conduce a una distribución diferente, que se puede considerar una extensión de la T de Student. Es la distribución de Hotelling, cuya denición y propiedades básicas se pueden encontrar en el tema anterior. Todo ello nace de la extensión del Teorema de Fisher al caso multivariante, que dice lo siguiente: Si X1 , . . . , Xn ∈ Nd (µ, Σ) independientes, entonces

  n X 1 1 ¯= X Xi ∈ Nd µ, Σ n n

n

nS =

i=1

  1X ¯ Xi − X ¯ 0 ∈ Wd (Σ, n − 1) Xi − X n i=1

y además son independientes. De ello y de la denición de la distribución Γ2 de Hotelling, se obtiene el pivote siguiente:   ¯ − µ ∈ Γ2 (d, n − 1) ¯ − µ 0 S −1 X (n − 1) X La distribución de Hotelling se puede transformar en una F de Snédecor, y en este caso resulta

0  n−d ¯ ¯ − µ ∈ Fd,(n−d) X − µ S −1 X d

Ejemplo 2.1 Representa la región de conanza, al nivel del 95%, para el vector de medias en base a los siguientes datos de las extremidades de diez animales: Longitud: 65, 46, 53, 57, 71, 49, 58, 68, 54, 53 Anchura: 21.5, 18.5, 20.6, 24.5, 26.3, 17.8, 22.2, 24.9, 21.2, 21.0 suponiendo que la distribución es normal con matriz de covarianzas  Σ=

2.5 1 1 2



Obtén y representa la región de conanza en el caso de que la matriz de covarianzas sea desconocida.

2.4. Estimadores de máxima verosimilitud. Consideremos disponible una muestra aleatoria simple

X1 , . . . , Xn ∈ Nd (µ, Σ) de vectores aleatorios independientes y con la misma distribución normal multivariante. Vamos a obtener los estimadores de máxima verosimilitud del vector de medias, µ, y de la matriz de covarianzas, Σ. La función de verosimilitud sería:

) n 1X 0 −1 exp − (xi − µ) Σ (xi − µ) 2 (

L(x, µ, Σ) = (2π)

−nd/2

−n/2

|Σ|

i=1

Análisis Multivariante

9

Observamos que n X

(xi − µ)0 Σ−1 (xi − µ) =

i=1

n X  (xi − x ¯)0 Σ−1 (xi − x ¯) + (¯ x − µ)0 Σ−1 (¯ x − µ) i=1

+2 (¯ x − µ)0 Σ−1 (xi − x ¯) =

n X



(xi − x ¯)0 Σ−1 (xi − x ¯) + n (¯ x − µ)0 Σ−1 (¯ x − µ)

i=1

ya que la suma de los dobles productos vale cero. Entonces la logverosimilitud se puede expresar así: n 1X n (xi − µ)0 Σ−1 (xi − µ) log L(x, µ, Σ) = c − log |Σ| − 2 2 i=1

= c−

n 1X

n log |Σ| − 2 2

(xi − x ¯)0 Σ−1 (xi − x ¯) −

i=1

n (¯ x − µ)0 Σ−1 (¯ x − µ) 2

siendo c = − nd 2 log(2π). Observamos que, por ser Σ denida positiva, (y en consecuencia, también lo será Σ−1 ), (¯ x− 0 −1 µ) Σ (¯ x − µ) > 0, salvo que µ = x ¯, en cuyo caso vale cero. Por tanto, la función de log verosimilitud alcanza su máximo en µ ˆ =x ¯, que de este modo se convierte en el estimador de máxima verosimilitud del vector de medias. Además, n

n 1X sup log L(x, µ, Σ) = c − log |Σ| − (xi − x ¯)0 Σ−1 (xi − x ¯) 2 2 µ

(2.1)

i=1

para cualquier matriz de covarianzas Σ. A continuación calcularemos el máximo de aquella función respecto de Σ. Podemos expresar " n # X n 1 0 −1 sup log L(x, µ, Σ) = c − log |Σ| − traza (xi − x ¯) Σ (xi − x ¯) 2 2 µ i=1

= c−

n 1X

n log |Σ| − 2 2

  traza (xi − x ¯)0 Σ−1 (xi − x ¯)

i=1

n 1X

  n log |Σ| − traza Σ−1 (xi − x ¯) (xi − x ¯ )0 2 2 i=1  n log |Σ| + traza Σ−1 S = c− 2 = c−

(2.2)

donde hemos aplicado que traza(A+B)=traza(A)+traza(B) y que traza(AB)=traza(BA). Ahora debemos obtener el máximo de esta función respecto del argumento Σ. Para ello, apelamos al resultado siguiente.

Lema Supongamos una matriz A denida positiva. La función  f (Σ) = log |Σ| + traza Σ−1 A ,

restringida a las matrices Σ denidas positivas, alcanza su mínimo en Σ = A.

Máster en Técnicas Estadísticas

10

Entonces, aplicando este lema llegamos a la conclusión de que los estimadores de máxima ¯ y S, verosimilitud del vector de medias y la matriz de covarianzas (sin restricciones) son X respectivamente. Asimismo, la función de verosimilitud tiene como máximo:  n n sup sup log L(x, µ, Σ) = c − log |S| + traza S −1 S = c − (log |S| + d) (2.3) 2 2 µ Σ

2.5. Contraste sobre el vector de medias, mediante el test de razón de verosimilitudes. A continuación veremos cómo se puede usar el test de razón de verosimilitudes para hacer inferencia en poblaciones normales multivariantes. En esta sección ilustraremos el caso del problema de inferencia sobre el vector de medias cuando la matriz de covarianzas es conocida, y también cuando es desconocida.

Vector de medias con matriz de covarianzas conocida Partimos como antes de una muestra aleatoria simple

X1 , . . . , Xn ∈ Nd (µ, Σ) de vectores aleatorios independientes y con la misma distribución normal multivariante. Suponiendo que la matriz de covarianzas Σ es conocida, deseamos llevar a cabo tareas de inferencia relativas al vector de medias µ. En concreto, podemos estar interesados en una región de conanza para µ, o podemos querer contrastar una hipótesis nula del tipo H0 : µ = µ0 . Centrándonos en el contraste de la hipótesis nula H0 : µ = µ0 , vamos a abordar este problema mediante el procedimiento de razón de verosimilitudes. En esta situación, el estadístico de contraste sería: L(X, µ0 , Σ) −2 log λ(X) = −2 log supµ L(X, µ, Σ) donde la función de verosimilitud es la que se ha tratado en la sección anterior. De lo allí expuesto extraemos que, bajo la hipótesis nula, H0 : µ = µ0 , la función de logverosimilitud adopta la forma: n

log L(x, µ0 , Σ) = c −

1X n n log |Σ| − (xi − x ¯)0 Σ−1 (xi − x ¯) − (¯ x − µ0 )0 Σ−1 (¯ x − µ0 ) 2 2 2 i=1

mientras que bajo la alternativa, n

sup log L(x, µ, Σ) = c − µ

n 1X log |Σ| − (xi − x ¯)0 Σ−1 (xi − x ¯) 2 2 i=1

En denitiva, el estadístico de contraste resulta:

−2 log λ(X) = −2 log

  L(X, µ0 , Σ) ¯ − µ0 0 Σ−1 X ¯ − µ0 =n X supµ L(X, µ, Σ)

Análisis Multivariante

11

Observamos que si H0 : µ = µ0 es cierta,

¯ ∈ Nd (µ0 , Σ/n) X y, en consecuencia,

  ¯ − µ0 0 Σ−1 X ¯ − µ0 ∈ χ2 n X d

Así, rechazaremos la hipótesis nula H0 : µ = µ0 cuando   ¯ − µ0 0 Σ−1 X ¯ − µ0 > χ2 n X d,α siendo χ2d,α el cuantil 1 − α de la distribución χ2d .

Vector de medias con matriz de covarianzas desconocida. El problema de inferencia coincide con el anterior, esto es, disponemos de una muestra aleatoria simple X1 , . . . , Xn ∈ Nd (µ, Σ) y deseamos realizar tareas de inferencia relativas al vector de medias µ. La única diferencia consiste en que ahora la matriz de covarianzas Σ es desconocida. El estadístico de razón de verosimilitudes para el contraste de la hipótesis nula H0 : µ = µ0 sería:

−2 log λ(X) = −2 log

supΣ L(X, µ0 , Σ) supµ,Σ L(X, µ, Σ)

Nótese que ahora, al ser Σ desconocida, se convierte en un parámetro tanto bajo la hipótesis nula como bajo la alternativa, parámetro que será estimado por máxima verosimilitud. Bajo la alternativa, hemos visto en la sección anterior que los estimadores de máxima verosimili¯ y S , respectivamente. tud del vector de medias y la matriz de covarianzas (sin restricciones) son X Asimismo, la función de verosimilitud tiene como máximo:

sup sup log L(x, µ, Σ) = c − Σ

µ

 n n log |S| + traza S −1 S = c − (log |S| + d) 2 2

A continuación maximizamos la verosimilitud bajo la hipótesis nula. Para ello basta con expresar la verosimilitud en una forma similar a la anterior: " n # X n 1 0 −1 log L(x, µ0 , Σ) = c − log |Σ| − traza (xi − µ0 ) Σ (xi − µ0 ) 2 2 i=1

n 1X

  n log |Σ| − traza Σ−1 (xi − µ0 ) (xi − µ0 )0 2 2 i=1    n ˆµ = c− log |Σ| + traza Σ−1 Σ 0 2

= c−

ˆ µ = 1 Pn (xi − µ0 ) (xi − µ0 )0 , el cual resulta ser un estimador razonable de la matriz siendo Σ 0 i=1 n de covarianzas bajo la hipótesis de que la media vale µ0 . Por lo demás los pasos son idénticos al caso anterior, salvo que se ha puesto µ0 allí donde se hallaba x ¯. Aplicando de nuevo el lema,

Máster en Técnicas Estadísticas

12

ˆ µ es el estimador de máxima verosimilitud de la matriz de covarianzas bajo la concluimos que Σ 0 hipótesis nula, y que la función de verosimilitud bajo dicha hipótesis alcanza el valor máximo:  n ˆµ | + d sup log L(x, µ0 , Σ) = c − log |Σ 0 2 Σ Entonces el estadístico de contraste mediante la razón de verosimilitudes resulta:   supΣ L(X, µ0 , Σ) ˆ µ | − log |S| −2 log λ(X) = −2 log = n log |Σ 0 supµ,Σ L(X, µ, Σ) Descomponemos n

ˆµ Σ 0

=

1X (Xi − µ0 ) (Xi − µ0 )0 n

=

n      i 1 Xh ¯ Xi − X ¯ 0+ X ¯ − µ0 X ¯ − µ0 0 + 2 X ¯ − µ0 Xi − X ¯ 0 Xi − X n

i=1

i=1

= S + rr0 ¯ − µ0 . Sustituyendo en el estadístico de contraste obtenemos siendo r = X  −2 log λ(X) = n log |S + rr0 | − log |S|   = n log |S| · I + S −1 rr0 − log |S| = n log I + S −1 rr0 Estudiemos, pues, el determinante que aparece en el último término. En (a) denotamos mediante λ1 , . . . , λd a los autovalores de S −1 rr0 , y observamos que 1 + λ1 , . . . , 1 + λd son los autovalores de I + S −1 rr0 . En (b) y (c) usamos que la matriz S −1 rr0 es de rango uno. d Y   (b) (c) I + S −1 rr0 (a) = (1 + λj ) = 1 + λ1 = 1 + traza S −1 rr0 = 1 + traza r0 S −1 r = 1 + r0 S −1 r j=1

Finalmente,

−2 log λ(X) = n log 1 + r0 S −1 r



será el estadístico de contraste y rechazaremos la hipótesis nula si este estadístico toma un valor demasiado grande. Será equivalente si consideramos el estadístico   ¯ − µ0 0 S −1 X ¯ − µ0 r0 S −1 r = X y rechazamos la hipótesis nula cuando este nuevo estadístico toma un valor demasiado grande. Nótese que el estadístico anterior se obtiene tras aplicar una transformación creciente a este último. La distribución del estadístico ha sido obtenida en el tema anterior: 0  n−d ¯ ¯ − µ0 ∈ Fd,n−d X − µ0 S −1 X d En denitiva, rechazaremos la hipótesis nula H0 : µ = µ0 si 0  n−d ¯ ¯ − µ0 > fd,n−d,α X − µ0 S −1 X d

Análisis Multivariante

13

2.6. Regiones de conanza y comparaciones simultáneas. A partir del estadístico Γ2 de Hotelling, podemos obtener una región de conanza para el vector de medias, de la forma:    0 −1 d n−d ¯ ¯ X − µ < fd,n−d,α X −µ S µ∈R : d

¯ , cuyos ejes van en la dirección de los Esta región constituye un elipsoide en Rd , centrado en X autovectores de S y la longitud de los radios (semilongitud de los ejes) viene dada por r p d λj fd,n−d,α j ∈ {1, . . . , d} n−d siendo λ1 , . . . , λd los autovalores de S . A continuación planteamos el problema de conseguir intervalos de conanza para las componentes del vector de medias, o más en general, para combinaciones lineales del tipo

l0 µ = l1 µ1 + · · · + ld µd Observando que l0 X1 , . . . , l0 Xn ∈ N (l0 µ, l0 Σl) y además son independientes, podemos abordar este problema, que ya es univariante, mediante el procedimiento de la T de Student. Así, como la media y la cuasivarianza muestrales calculadas sobre las observaciones l0 X1 , . . . , l0 Xn resultan ¯ y l0 Sc l, respectivamente, el intervalo de conanza adopta la forma ser l0 X √0 √0   l Sc l 0 ¯ l Sc l 0 ¯ l X − tn−1,α/2 √ , l X + tn−1,α/2 √ n n siendo tn−1,α/2 el cuantil 1 − α/2 de la distribución T de Student con n − 1 grados de libertad. De este modo, para un l jo, el intervalo anterior contiene a l0 µ con una probabilidad 1 − α. En particular, podemos pensar en un vector de la forma l = (1, 0, . . . , 0)0 que serviría para extraer la primera componente del vector aleatorio. Igual se haría con las demás componentes mediante los vectores canónicos correspondientes. Así obtendríamos p intervalos de conanza, uno para cada componente del vector de medias. Sin embargo, el nivel de conanza se reere a la probabilidad individual de cada intervalo, de modo que la probabilidad de que todos los intervalos simultáneamente contengan a la componente correspondiente del vector de medias será en general inferior al nivel de conanza jado. Para satisfacer un nivel de conanza simultáneo, debemos modicar la construcción de los intervalos haciéndolos más amplios. Vamos a plantear este objetivo de manera simultánea en todos los vectores l. Si seguimos partiendo como pivote de la media estudentizada, la idea podría ser cambiar el valor tn−1,α/2 por otra constante adecuada, previsiblemente más grande. Así, si ( √ )  n l0 X 0µ ¯ − l √0 P ∀l ∈ Rp = 1 − α

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.