Métodos Estadísticos Multivariados

M´etodos Estad´ısticos Multivariados Victor Mu˜ niz ITESM Victor Mu˜ niz (ITESM) M´ etodos Estad´ısticos Multivariados Agosto-Diciembre 2011 1 / 2

Author: Javier Botella San Segundo

0 downloads 73 Views 418KB Size

Report

DOWNLOAD PDF

Recommend Stories

No stories

Story Transcript

M´etodos Estad´ısticos Multivariados Victor Mu˜ niz ITESM

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

1 / 20

Regresi´on lineal multivariada

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

2 / 20

Regresi´on lineal multivariada Una t´ecnica para analizar la relaci´ on entre una variable dependiente y varias variables independientes.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

3 / 20

Regresi´on lineal multivariada Una t´ecnica para analizar la relaci´ on entre una variable dependiente y varias variables independientes. Consideremos un conjunto de n observaciones y (respuesta), las cuales suponemos, dependen de cierta cantidad d de variables x (predictores) que consideramos fijas. En el modelo de regresi´ on cl´asico, cada respuesta y como una funci´on lineal de las x 0 s mas un error aleatorio : y1 = β0 + β1 x11 + β2 x12 + · · · + βd x1d + 1 y2 = β0 + β1 x21 + β2 x22 + · · · + βd x2d + 2 .. .. .. . . . yn = β0 + β1 xn1 + β2 xn2 + · · · + βd xnd + n

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

3 / 20

Regresi´on lineal multivariada

O en forma m´as compacta como y = Xβ +     

y1 y2 .. .





    =  

yn

1 x11 x12 · · · 1 x21 x22 · · · .. .. .. .. . . . . 1 xn1 xn2 · · ·

x1d x2d .. .

(1)     

xnd

β0 β1 .. . βn





    +  

1 2 .. .

   , 

n

donde hacemos los siguientes supuestos: E () = 0 cov() = σ 2 I

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

4 / 20

Regresi´on lineal multivariada

Los anteriores supuestos implican que: E y = Xβ, es decir, el modelo es lineal y no se necesitan m´as t´erminos para predecir y. Cualquier otra variaci´ on en y es aleatoria.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

5 / 20

Regresi´on lineal multivariada

Los anteriores supuestos implican que: E y = Xβ, es decir, el modelo es lineal y no se necesitan m´as t´erminos para predecir y. Cualquier otra variaci´ on en y es aleatoria. cov (y) = σ 2 I, lo que implica que las y 0 s est´an decorrelacionadas, consecuencia de que los errores tambi´en tienen esta caracter´ıstica.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

5 / 20

Regresi´on lineal multivariada

¿C´ omo estimar los par´ametros β? M´ınimos cuadrados M´axima verosimilitud (supuestos distribucionales en )

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

6 / 20

Regresi´on lineal multivariada

¿C´ omo estimar los par´ametros β? M´ınimos cuadrados M´axima verosimilitud (supuestos distribucionales en )

Resultado (Estimaci´on por m´ınimos cuadrados) Sea X una matriz de rango completo d + 1 ≤ n, entonces, la estimaci´on por m´ınimos cuadrados de β est´a dada por ˆ = (XT X)−1 XT y β La demostraci´on en clase...

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

6 / 20

Regresi´on lineal multivariada

Estimaci´on por m´axima verosimilitud Supongamos que ∼ N (0, Σ) e independiente de X, la log-verosimilitud para y est´a dada por (recordar notas anteriores): 1 n l(β, Σ) = − log |2πΣ| − tr(y − Xβ)Σ−1 (y − Xβ)T 2 2

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

7 / 20

Regresi´on lineal multivariada

Resultado Los estimadores de m´axima verosimilitud, seg´ un la funci´on de log-verosimilitud dada anteriormente est´an dados por ˆ = (XT X)−1 XT y β ˆ = 1 (yT Py)I Σ n donde P = I − X(XT X)−1 XT La demostraci´on en clase...

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

8 / 20

Regresi´on lineal multivariada Algunos resultados importantes sobre el modelo de regresi´on lineal.

Resultado ˆ es insesgado para β El estimador β ˆ = σ 2 (XT X)−1 Cov(β) E (ˆ ) = 0, Cov(ˆ ) = σ 2 (I − H), donde H = X(XT X)−1 XT es la llamada “hat matrix”. Recuerda que ˆ = y − ˆ y. E (SSE ) = E (ˆ T ˆ) = σ 2 (n − q − 1), donde q ≤ d, y d es la dimensi´on de x. Define s 2 =

SSE n−q−1 ,

entonces s 2 es un estimador insesgado de σ 2 .

Si asumimos que ∼ N (0, σ 2 I), el estimador por m´ınimos cuadrados para β es tambi´en el estimador de m´axima verosimilitud. Bajo el supuesto anterior, βˆ y ˆ son normales multivariadas e independientes. Las demostraciones se incluir´an en la tarea (son f´aciles) Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

9 / 20

Regresi´on lineal multivariada

Algunos resultados importantes sobre el modelo de regresi´on lineal.

Resultado (Gauss-Markov) Considera el modelo de regresi´ on lineal (1) y los supuestos dados sobre el modelo. El estimador por m´ınimos cuadrados βˆ es de varianza m´ınima entre todos los estimadores lineales insesgados. Para una demostraci´on, ver Multivariate Analysis de Mardia, Kent & Bibby, Academic Press.2

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

10 / 20

Regresi´on lineal multivariada

Observa tambi´en que, como el modelo es lineal en los coeficientes β, podemos incluir transformaciones de las variables de entrada x, por ejemplo, xt para cualquier t o (xij ) × (xik ). Nuestra matriz de covariables (o matriz de dise˜ no) ser´a entonces de la forma   1 x11 x12 · · · x1q  1 x21 x22 · · · x2q    X= . .. .. ..  . . .  . . . . .  1 xn1 xn2 · · · xnq para q ≥ 1

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

11 / 20

Regresi´on lineal multivariada El esquema general para el an´alisis de regresi´ on m´ ultiple podriamos escribirlo en la siguiente forma: 1 2

Crear la matriz de dise˜ no X apropiada. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 .

3

Verificar el impacto de cada variable (a trav´es de su coeficiente respectivo) en la respuesta y.

4

Verificar el ajuste del modelo.

5

Seleccionar el modelo adecuado (¿podemos reducir el n´ umero de variables predictoras?). Usualmente esto requiere algunas iteraciones entre el paso anterior y este.

6

Realizar predicciones de nuevas observaciones.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

12 / 20

Regresi´on lineal multivariada

1. Crear la matriz de dise˜ no X apropiada. I

Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera).

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

13 / 20

Regresi´on lineal multivariada

1. Crear la matriz de dise˜ no X apropiada. I

I

Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera). ¿Es l´ ogico suponer interacciones entre las variables? ¿Podria mejorar esto el ajuste? ¿Son l´ ogicas las interacciones?

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

13 / 20

Regresi´on lineal multivariada

1. Crear la matriz de dise˜ no X apropiada. I

I

I

Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera). ¿Es l´ ogico suponer interacciones entre las variables? ¿Podria mejorar esto el ajuste? ¿Son l´ ogicas las interacciones? Por supuesto, para contestar lo anterior hace falta ajustar un modelo tomando en cuenta las interacciones, pero la persona que investiga el fen´ omeno puede recurrir a su experiencia e informaci´on apriori para responder algunas de estas preguntas.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

13 / 20

Regresi´on lineal multivariada

2. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 . I

Ya vimos usando m´ınimos cuadrados obtenemos el mejor estimador para β.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

14 / 20

Regresi´on lineal multivariada

2. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 . I

I

Ya vimos usando m´ınimos cuadrados obtenemos el mejor estimador para β. SSE Tambi´en tenemos un estimador insesgado para σ 2 = n−q−1

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

14 / 20

Regresi´on lineal multivariada 3. Verificar el impacto de las variables en la respuesta y. I

Un aspecto importante respecto al impacto de las variables es averiguar primero si estas nos ayudan a predecir y, considerandolas todas en conjunto. Usando el supuesto de normalidad en los errores, podemos establecer una prueba de hip´ otesis al respecto, junto con su estad´ıstico de prueba correspondiente.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

15 / 20

Regresi´on lineal multivariada 3. Verificar el impacto de las variables en la respuesta y. I

I

Un aspecto importante respecto al impacto de las variables es averiguar primero si estas nos ayudan a predecir y, considerandolas todas en conjunto. Usando el supuesto de normalidad en los errores, podemos establecer una prueba de hip´ otesis al respecto, junto con su estad´ıstico de prueba correspondiente. Partiendo de la definici´ on de SSE podemos expresar la suma de cuadrados total (SST) alrededor de la media como SST = SSR + SSE donde F F

F

SST = yT y − n¯ y2 T 2 SSR = (ˆ y − n¯ y ) = (βˆ XT y − n¯ y 2 ), es la suma de cuadrados de la regresi´ on y SSE es la suma de cuadrados del error.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

15 / 20

Regresi´on lineal multivariada

3. Verificar el impacto de las variables en la respuesta y. I

Ahora, para probar la hip´ otesis H0 : β = 0, podemos usar el estad´ıstico F =

SSR/q , SSE /(n − q − 1)

el cual puede mostrarse que tiene una distribuci´ on de probabilidad Fq,n−q−1 bajo la hip´ otesis nula.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

16 / 20

Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I

Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0

I

para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ )

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

17 / 20

Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I

Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0

I

I

para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ ) Tambi´en, puede mostrarse que βˆi − βi ∼ tn−q−1 , sβˆi bajo la hip´ otesis nula, es decir, cuando βi = H0 .

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

17 / 20

Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I

Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0

I

I

para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ ) Tambi´en, puede mostrarse que βˆi − βi ∼ tn−q−1 , sβˆi bajo la hip´ otesis nula, es decir, cuando βi = H0 . Esta prueba de hip´ otesis ya la conocemos! Recuerden los intervalos de confianza simult´aneos.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

17 / 20

Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I

Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

18 / 20

Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I

I

Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables?

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

18 / 20

Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I

I

Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables? ˆ y − n¯ y2 SSR = = R2 − n¯ y2 SST

yT y

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

18 / 20

Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I

I

Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables? ˆ y − n¯ y2 SSR = = R2 − n¯ y2 SST

yT y I

La medida R 2 es llamado coeficiente de determinaci´ on. Tambi´en puede escribirse como SSE R2 = 1 − , SST y nos da la proporci´ on de la variaci´ on total en la respuesta atribuible a la introducci´ on de los predictores X

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

18 / 20

Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I

R 2 ajustada: Una medida de ajuste que toma en cuenta los grados de libertad de la variaci´ on y evita dar una medida “alta de ajuste” R 2 que podria deberse, por ejemplo, a introducir m´as covariables en el modelo R 2 adj = 1 −

MSE MST

donde, MSE y MST son los errores cuadrados promedio seg´ un la tabla anova:

Source Total Regression Residual

Victor Mu˜ niz (ITESM)

df n−1 q n−q−1

SS SST SSR SSE

MS MST = SST /n − 1 MSR = SSR/q MSE = SSE /n − q − 1

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

19 / 20

Regresi´on lineal multivariada

5. Seleccionar el modelo adecuado Supongamos que tenemos un modelo reducido, denotado por β r , y un modelo con todas las variables, donde hay algunas de ellas que queremos eliminar, el cual denotaremos con β d . Entonces β = (β r , β d )T , y queremos probar H0 : β d = 0 Para esto, ajustamos el modelo con todas las variables y el modelo reducido.

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

20 / 20

Regresi´on lineal multivariada 5. Seleccionar el modelo adecuado El modelo reducido es y = Xr β r + ( y hacemos la comparaci´ on T T βˆ XT y = βˆr XT r y = SSRF − SSRr

La prueba de hip´otesis se realiza mediante F =

SSRF − SSRr /h ∼ Fh,n−q−1 , SSEF /(n − q − 1)

donde h es el n´ umero de par´ametros a eliminar

Victor Mu˜ niz (ITESM)

M´ etodos Estad´ısticos Multivariados

Agosto-Diciembre 2011

21 / 20