Story Transcript
M´etodos Estad´ısticos Multivariados Victor Mu˜ niz ITESM
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
1 / 20
Regresi´on lineal multivariada
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
2 / 20
Regresi´on lineal multivariada Una t´ecnica para analizar la relaci´ on entre una variable dependiente y varias variables independientes.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
3 / 20
Regresi´on lineal multivariada Una t´ecnica para analizar la relaci´ on entre una variable dependiente y varias variables independientes. Consideremos un conjunto de n observaciones y (respuesta), las cuales suponemos, dependen de cierta cantidad d de variables x (predictores) que consideramos fijas. En el modelo de regresi´ on cl´asico, cada respuesta y como una funci´on lineal de las x 0 s mas un error aleatorio : y1 = β0 + β1 x11 + β2 x12 + · · · + βd x1d + 1 y2 = β0 + β1 x21 + β2 x22 + · · · + βd x2d + 2 .. .. .. . . . yn = β0 + β1 xn1 + β2 xn2 + · · · + βd xnd + n
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
3 / 20
Regresi´on lineal multivariada
O en forma m´as compacta como y = Xβ +
y1 y2 .. .
=
yn
1 x11 x12 · · · 1 x21 x22 · · · .. .. .. .. . . . . 1 xn1 xn2 · · ·
x1d x2d .. .
(1)
xnd
β0 β1 .. . βn
+
1 2 .. .
,
n
donde hacemos los siguientes supuestos: E () = 0 cov() = σ 2 I
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
4 / 20
Regresi´on lineal multivariada
Los anteriores supuestos implican que: E y = Xβ, es decir, el modelo es lineal y no se necesitan m´as t´erminos para predecir y. Cualquier otra variaci´ on en y es aleatoria.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
5 / 20
Regresi´on lineal multivariada
Los anteriores supuestos implican que: E y = Xβ, es decir, el modelo es lineal y no se necesitan m´as t´erminos para predecir y. Cualquier otra variaci´ on en y es aleatoria. cov (y) = σ 2 I, lo que implica que las y 0 s est´an decorrelacionadas, consecuencia de que los errores tambi´en tienen esta caracter´ıstica.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
5 / 20
Regresi´on lineal multivariada
¿C´ omo estimar los par´ametros β? M´ınimos cuadrados M´axima verosimilitud (supuestos distribucionales en )
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
6 / 20
Regresi´on lineal multivariada
¿C´ omo estimar los par´ametros β? M´ınimos cuadrados M´axima verosimilitud (supuestos distribucionales en )
Resultado (Estimaci´on por m´ınimos cuadrados) Sea X una matriz de rango completo d + 1 ≤ n, entonces, la estimaci´on por m´ınimos cuadrados de β est´a dada por ˆ = (XT X)−1 XT y β La demostraci´on en clase...
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
6 / 20
Regresi´on lineal multivariada
Estimaci´on por m´axima verosimilitud Supongamos que ∼ N (0, Σ) e independiente de X, la log-verosimilitud para y est´a dada por (recordar notas anteriores): 1 n l(β, Σ) = − log |2πΣ| − tr(y − Xβ)Σ−1 (y − Xβ)T 2 2
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
7 / 20
Regresi´on lineal multivariada
Resultado Los estimadores de m´axima verosimilitud, seg´ un la funci´on de log-verosimilitud dada anteriormente est´an dados por ˆ = (XT X)−1 XT y β ˆ = 1 (yT Py)I Σ n donde P = I − X(XT X)−1 XT La demostraci´on en clase...
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
8 / 20
Regresi´on lineal multivariada Algunos resultados importantes sobre el modelo de regresi´on lineal.
Resultado ˆ es insesgado para β El estimador β ˆ = σ 2 (XT X)−1 Cov(β) E (ˆ ) = 0, Cov(ˆ ) = σ 2 (I − H), donde H = X(XT X)−1 XT es la llamada “hat matrix”. Recuerda que ˆ = y − ˆ y. E (SSE ) = E (ˆ T ˆ) = σ 2 (n − q − 1), donde q ≤ d, y d es la dimensi´on de x. Define s 2 =
SSE n−q−1 ,
entonces s 2 es un estimador insesgado de σ 2 .
Si asumimos que ∼ N (0, σ 2 I), el estimador por m´ınimos cuadrados para β es tambi´en el estimador de m´axima verosimilitud. Bajo el supuesto anterior, βˆ y ˆ son normales multivariadas e independientes. Las demostraciones se incluir´an en la tarea (son f´aciles) Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
9 / 20
Regresi´on lineal multivariada
Algunos resultados importantes sobre el modelo de regresi´on lineal.
Resultado (Gauss-Markov) Considera el modelo de regresi´ on lineal (1) y los supuestos dados sobre el modelo. El estimador por m´ınimos cuadrados βˆ es de varianza m´ınima entre todos los estimadores lineales insesgados. Para una demostraci´on, ver Multivariate Analysis de Mardia, Kent & Bibby, Academic Press.2
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
10 / 20
Regresi´on lineal multivariada
Observa tambi´en que, como el modelo es lineal en los coeficientes β, podemos incluir transformaciones de las variables de entrada x, por ejemplo, xt para cualquier t o (xij ) × (xik ). Nuestra matriz de covariables (o matriz de dise˜ no) ser´a entonces de la forma 1 x11 x12 · · · x1q 1 x21 x22 · · · x2q X= . .. .. .. . . . . . . . . 1 xn1 xn2 · · · xnq para q ≥ 1
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
11 / 20
Regresi´on lineal multivariada El esquema general para el an´alisis de regresi´ on m´ ultiple podriamos escribirlo en la siguiente forma: 1 2
Crear la matriz de dise˜ no X apropiada. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 .
3
Verificar el impacto de cada variable (a trav´es de su coeficiente respectivo) en la respuesta y.
4
Verificar el ajuste del modelo.
5
Seleccionar el modelo adecuado (¿podemos reducir el n´ umero de variables predictoras?). Usualmente esto requiere algunas iteraciones entre el paso anterior y este.
6
Realizar predicciones de nuevas observaciones.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
12 / 20
Regresi´on lineal multivariada
1. Crear la matriz de dise˜ no X apropiada. I
Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera).
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
13 / 20
Regresi´on lineal multivariada
1. Crear la matriz de dise˜ no X apropiada. I
I
Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera). ¿Es l´ ogico suponer interacciones entre las variables? ¿Podria mejorar esto el ajuste? ¿Son l´ ogicas las interacciones?
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
13 / 20
Regresi´on lineal multivariada
1. Crear la matriz de dise˜ no X apropiada. I
I
I
Podemos empezar con las variables con las que disponemos y utilizar m´etodos exploratorios para verificar las relaciones entre las covariables y las respuestas (scatterplot matrix, boxplots, etc´etera). ¿Es l´ ogico suponer interacciones entre las variables? ¿Podria mejorar esto el ajuste? ¿Son l´ ogicas las interacciones? Por supuesto, para contestar lo anterior hace falta ajustar un modelo tomando en cuenta las interacciones, pero la persona que investiga el fen´ omeno puede recurrir a su experiencia e informaci´on apriori para responder algunas de estas preguntas.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
13 / 20
Regresi´on lineal multivariada
2. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 . I
Ya vimos usando m´ınimos cuadrados obtenemos el mejor estimador para β.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
14 / 20
Regresi´on lineal multivariada
2. Estimar los coeficientes de regresi´ on βˆ y la varianza σ 2 . I
I
Ya vimos usando m´ınimos cuadrados obtenemos el mejor estimador para β. SSE Tambi´en tenemos un estimador insesgado para σ 2 = n−q−1
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
14 / 20
Regresi´on lineal multivariada 3. Verificar el impacto de las variables en la respuesta y. I
Un aspecto importante respecto al impacto de las variables es averiguar primero si estas nos ayudan a predecir y, considerandolas todas en conjunto. Usando el supuesto de normalidad en los errores, podemos establecer una prueba de hip´ otesis al respecto, junto con su estad´ıstico de prueba correspondiente.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
15 / 20
Regresi´on lineal multivariada 3. Verificar el impacto de las variables en la respuesta y. I
I
Un aspecto importante respecto al impacto de las variables es averiguar primero si estas nos ayudan a predecir y, considerandolas todas en conjunto. Usando el supuesto de normalidad en los errores, podemos establecer una prueba de hip´ otesis al respecto, junto con su estad´ıstico de prueba correspondiente. Partiendo de la definici´ on de SSE podemos expresar la suma de cuadrados total (SST) alrededor de la media como SST = SSR + SSE donde F F
F
SST = yT y − n¯ y2 T 2 SSR = (ˆ y − n¯ y ) = (βˆ XT y − n¯ y 2 ), es la suma de cuadrados de la regresi´ on y SSE es la suma de cuadrados del error.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
15 / 20
Regresi´on lineal multivariada
3. Verificar el impacto de las variables en la respuesta y. I
Ahora, para probar la hip´ otesis H0 : β = 0, podemos usar el estad´ıstico F =
SSR/q , SSE /(n − q − 1)
el cual puede mostrarse que tiene una distribuci´ on de probabilidad Fq,n−q−1 bajo la hip´ otesis nula.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
16 / 20
Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I
Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0
I
para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ )
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
17 / 20
Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I
Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0
I
I
para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ ) Tambi´en, puede mostrarse que βˆi − βi ∼ tn−q−1 , sβˆi bajo la hip´ otesis nula, es decir, cuando βi = H0 .
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
17 / 20
Regresi´on lineal multivariada 3. Verificar el impacto de cada variable en la respuesta y. I
Si suponemos que los errores son iid con distribuci´on normal, podemos obtener un estad´ıstico para la prueba de hip´otesis: H 0 : βi = 0
I
I
para i = 1, 2, . . . , q Bajo el supuesto de normalidad en los errores (van a mostrar que), los coeficientes βˆ tienen una distribuci´ on normal multivariada con matriz de covarianzas Sβ = s 2 (XT X)−1 , por lo tanto, q sβˆ = diag(Sβ ) Tambi´en, puede mostrarse que βˆi − βi ∼ tn−q−1 , sβˆi bajo la hip´ otesis nula, es decir, cuando βi = H0 . Esta prueba de hip´ otesis ya la conocemos! Recuerden los intervalos de confianza simult´aneos.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
17 / 20
Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I
Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
18 / 20
Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I
I
Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables?
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
18 / 20
Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I
I
Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables? ˆ y − n¯ y2 SSR = = R2 − n¯ y2 SST
yT y
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
18 / 20
Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I
I
Una medida para verificar qu´e tan bien se ajusta nuestro modelo est´a dada por la cantidad de variaci´ on que es explicada por nuestro modelo. Recordemos que, la predicci´ on m´as sencilla (y la menos exacta tambi´en) que podemos hacer sobre y es mediante el promedio, si es que no tuvieramos ninguna otra covariable. Entonces, ¿qu´e tanto mejora nuestra predicci´ on respecto al promedio al agregar m´as covariables? ˆ y − n¯ y2 SSR = = R2 − n¯ y2 SST
yT y I
La medida R 2 es llamado coeficiente de determinaci´ on. Tambi´en puede escribirse como SSE R2 = 1 − , SST y nos da la proporci´ on de la variaci´ on total en la respuesta atribuible a la introducci´ on de los predictores X
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
18 / 20
Regresi´on lineal multivariada 4. Verificar el ajuste del modelo I
R 2 ajustada: Una medida de ajuste que toma en cuenta los grados de libertad de la variaci´ on y evita dar una medida “alta de ajuste” R 2 que podria deberse, por ejemplo, a introducir m´as covariables en el modelo R 2 adj = 1 −
MSE MST
donde, MSE y MST son los errores cuadrados promedio seg´ un la tabla anova:
Source Total Regression Residual
Victor Mu˜ niz (ITESM)
df n−1 q n−q−1
SS SST SSR SSE
MS MST = SST /n − 1 MSR = SSR/q MSE = SSE /n − q − 1
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
19 / 20
Regresi´on lineal multivariada
5. Seleccionar el modelo adecuado Supongamos que tenemos un modelo reducido, denotado por β r , y un modelo con todas las variables, donde hay algunas de ellas que queremos eliminar, el cual denotaremos con β d . Entonces β = (β r , β d )T , y queremos probar H0 : β d = 0 Para esto, ajustamos el modelo con todas las variables y el modelo reducido.
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
20 / 20
Regresi´on lineal multivariada 5. Seleccionar el modelo adecuado El modelo reducido es y = Xr β r + ( y hacemos la comparaci´ on T T βˆ XT y = βˆr XT r y = SSRF − SSRr
La prueba de hip´otesis se realiza mediante F =
SSRF − SSRr /h ∼ Fh,n−q−1 , SSEF /(n − q − 1)
donde h es el n´ umero de par´ametros a eliminar
Victor Mu˜ niz (ITESM)
M´ etodos Estad´ısticos Multivariados
Agosto-Diciembre 2011
21 / 20