CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN

CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez E

7 downloads 34 Views 126KB Size

Recommend Stories


3. 2. Pendiente de una recta. Definición 3. 3
3. 2. Pendiente de una recta. Definición 3. 3. Y Se llama Angulo de Inclinación α de una recta L, al que se forma entre el eje X en su dirección posi

+0' &1 -' + ' ) ) 3 3
!""#$!""! % & ' ( ) *' + ' ( & -' .'& - +*& / / +0 -' - 3 33 3 4 - 2 ' &1 + ' 5 -' +' - - + -& + 3 4 6 , ' %+ ) ) 3 3 1 !""#$!""!

Story Transcript

CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez

Edgar Acuña

Analisis de Regresion

1

3.1 “Outliers”, puntos de leverage alto y valores influenciales Una observación (y*,x*1,……..x*p) es considerado un “outlier” si está bastante alejado de la mayoría de los datos sea en la dirección vertical o en la horizontal. Sin embargo, la mayoría de los textos llaman “outlier” a un valor alejado solamente en la dirección vertical y Punto de leverage alto a una observación alejada en la dirección horizontal.

Edgar Acuña

Analisis de Regresion

2

Valor Influencial Una observación (y*,x*1,……..x*p) es considerado un valor influencial si su presencia afecta tremendamente el comportamiento del modelo. Por ejemplo, en el caso de regresión simple remover un valor influencial podría cambiar dramáticamente el valor de la pendiente.

Edgar Acuña

Analisis de Regresion

3

Ejemplo de una observación que es “outlier” y punto leverage alto pero que no es influencial.

Edgar Acuña

Analisis de Regresion

4

Ejemplo de una observación que es punto de leverage alto y que también es influencial.

Este punto tendrá un gran efecto sobre el R2 y el cambio drástico en la pendiente. Edgar Acuña Analisis de Regresion

5

3.2 Residuales y detección de “outliers”. • Consideremos el modelo Y=XB+e , donde E(e)=0 y Var(e)=σ2I ) ) ) Luego Y = Xβ,donde β = (X'X) X'Y ) la matriz HAT (sombrero) H de Y = X(X' X))X' Y = HY actúa como una transformación de Y a Y . n ) - En particular yi = ∑ hij y j j =1 h es el elemento de la matríz H que está en la i-ésima fila y j-ésima columna. Así ) ) ) e = Y − Y = Y − HY = (I − H)Y donde e = y − ∑ h y −1

−1

ij

n

i

Edgar Acuña

Analisis de Regresion

i

j =1

ij

j

6

3.2.1 Media y Varianza del vector de residuales i

) E (e ) = (I − H) E ( Y ) = 0

ii

) Var (e) = Var[(I − H)Y] = σ 2 (I − H)

, I-H es simétrica e idempotente.

En particular ) Var (ei ) = σ 2 (1 − hii ) ) ) Cov(ei , e j ) = −hij σ 2

se estima por s2(1-hii).

Notar que : a) Tanto los errores ei como los residuales tienen media 0. b) La varianza de los errores es constante, pero la de los residuales no lo es. c) Los errores no están correlacionados, pero los residuales si. Edgar Acuña

Analisis de Regresion

7

3.2.2 Residuales Estudentizados internamente • Se define por

ri∗ =

) ei

σ 1 − hii

También son llamados residuales estandarizados. • La covarianza de los residuales estudentizados es igual a ) ) ) ) − hij e Cov ( e e j i,ej ) i = Cov (ri∗ , rj∗ ) = Cov ( , )= 2 σ 1 − hii σ 1 − h jj σ (1 − hii )(1 − h jj ) (1 − hii )(1 − h jj )

Edgar Acuña

Analisis de Regresion

8

3.2.4 Residuales estudentizados externamente • Supongamos que la i-ésima observación es eliminada del conjunto de datos y que se ajusta el modelo lineal con las n-1 observaciones restantes. Luego, usando la identidad de Gauss (X'X)−1 xi x'i (X'X)−1 (X'(i) X(i) ) = (X'X) + 1− hii −1

−1

• Se obtienen las siguientes relaciones entre

βˆ y

) β (i) y

2 entre s2 y s (i )

−1 ˆβ = βˆ − ( X' X) x i eˆi (i) 1 − hii

eˆi2 n − p −1 2 2 s (i ) = s − n− p−2 (n − p − 2)(1 − hii )

Edgar Acuña

Analisis de Regresion

9

La identidad de Gauss • Es un caso particular de la Identidad de ShermanMorrison-Woodburry (1950) (A ± uv')

−1

A −1 uv' A −1 =A m 1 ± v' A −1 u −1

Donde: A es una matríz cuadrada nosingular n x n, y u y v son dos vectores de dimensión n. En nuestro caso, A=X’X y u = v = xi y X'(i)X(i) = X'X− xi x'i Donde x’i es la i-ésima fila de X Edgar Acuña

Analisis de Regresion

10

Varianza del Residual yi -~yi Si ~yi representa el valor estimado de la variable de respuesta para la i-ésima observación ) ~ y i = x'i β (i)

yi son independientes, (la i-ésima observación no yi y ~ fue usada en la estimación del modelo ) Var ( yi − ~ yi ) = Var ( yi ) + Var ( ~ yi ) = σ 2 + σ 2 x'i (X' ( i ) X ( i ) ) −1 x i

Edgar Acuña

Analisis de Regresion

11

Residual Estudentizado Externamente σ2

2 s por (iy)

• Estimando considerando que si yi no es un outlier entonces E(yi - ~yi ) = 0 se obtiene ti =

yi − ~ yi s (i ) 1 + x'i (X ' ( i ) X ( i ) ) −1 x i

ti es llamado un residual estudentizado externamente y tiene n-p-2 grados de libertad. Edgar Acuña

Analisis de Regresion

12

Propiedad: • Relación entre el residual usual y el residual usando un modelo eliminando la i-ésima observación êi ~ y i - yi = 1 - hii

• Relación entre los distintos tipos de residuales 1/ 2

) ei

⎛ n− p−2 ⎞ ∗⎜ ⎟ ti = = ri ⎜ n − p − 1 − r *2 ⎟ s(i ) 1 − hii i ⎠ ⎝ Edgar Acuña

Analisis de Regresion

13

3.2 Diagnósticos para detectar “outliers” y puntos de leverage alto • Los diagnósticos más básicos son: • Si |hii|>2p/n (algunos usan 3p/n. Aquí p es el número de parámetros) entonces la i-ésima observación es considerado un “punto de leverage alto” y pudiera ser influencial • Si |ti|>2 ( o si |ri|>2) entonces la i-ésima observación es considerada un “outlier” y también puede ser influencial. Edgar Acuña

Analisis de Regresion

14

Otros Diagnósticos i) La Distancia Cook (Cook, 1977) Mide el cambio que ocurriría en el vector de coeficientes estimados de regresión si la i-ésima observación fuera omitida. Se calcula por: CDi2 =

(βˆ − βˆ (i) )' X' X(βˆ − βˆ (i) ) ps 2

=

) ) ) ) (y − y (i) )' (y − y (i) ) ps 2

= r *i2

hii p (1 − hii )

Un CD > 1 indica que la i-ésima observación es potencialmente influencial. Una observación con CD 2

Un Notar que:

p n

) ) ) ) ( y − y (i) )' (y − y (i) ) s(2i )

= ti2

hii (1 − hii )

indica un posible valor influencial. ri2 2 CDi = DFFITS i2 2 pt i

Edgar Acuña

Analisis de Regresion

16

Otros Diagnósticos iii) DFBETAS (Belsley, Kuh, y Welsch, 1980). Mide la influencia de la i-ésima observación en cada uno de los coeficientes de regresión. Se calcula por β j − β j ,( i ) i=1,..,n, j=0,…,p ( DFBETAS ) = ji

s ( i ) c jj

Donde cjj es el j-ésimo elemento de la diagonal de (X’X)-1. • Si |DFBETAS|ji > 2n para algun j entonces la i-esima observacion es posiblemente un valor influencial. Edgar Acuña

Analisis de Regresion

17

Otros Diagnósticos iv) COVRATIO (Belsley, Kuh, y Welsch, 1980) Mide el efecto en la variabilidad de los coeficientes de regresión al remover la i-ésima observación. COVRATIOi =

det[s(2i ) ( X ' (i ) X (i ) ) −1 ] det[s 2 ( X ' X ) −1 ]

i =1,…,n.

Usando propiedades de determinantes se tiene p

⎛ s2 ⎞ 1 ⎜ (i ) ⎟ (COVRATIO) i = ⎜ ⎟ ⎜ s 2 ⎟ (1 − hii ) ⎝ ⎠

Si (COVRATIO)i >1+3p/n o si (COVRATIO)i5) es el número de observaciones en la muestra. Edgar Acuña

Analisis de Regresion

26

Plot de normalidad acompañado de pruebas noparamétricas para detectar normalidad.

1 0 -2

-1

Sam pleQuantiles

2

3

Normal Q-Q Plot

-2

-1

0

1

2

Theoretical Quantiles

El “p-value” de la prueba de Kolmogrov-Smirnov es mayor que 0.05 por lo tanto se acepta la hipótesis de que hay normalidad de los residuales. Edgar Acuña

Analisis de Regresion

27

3.5 Detectando varianza no constante La suposición de que en el modelo de regresión lineal múltiple, los errores tienen varianza constante es importante para que los estimadores mínimos cuadráticos sean óptimos. • La varianza no constante viene acompañado del hecho que no hay normalidad. • Para detectar si la varianza es constante o no se hace un plot de residuales estudentizados versus los valores ajustados yˆ i‘s. Edgar Acuña

Analisis de Regresion

28

La varianza de los errores no es constante Este plot muestra que la varianza de los errores no es constante y que varia En forma proporcional a la media de la variable de respuesta Este plot es típico cuando los errores siguen una distribución Poisson o log-normal. Edgar Acuña

Analisis de Regresion

29

Remedios cuando la varianza poblacional σ2 no es constante • Usar mínimos cuadrados ponderados donde los pesos que se usan son hallados en base a los datos tomados. • Transformar la variable de respuesta Y usando tranfomación que estabiliza la varianza

Edgar Acuña

Analisis de Regresion

30

3.6 Errores correlacionados en Regresión • Una de las suposiciones que se hace en regresión lineal es que los errores no se correlacionan entre si • Cov( ei , e j )=E( ei e j)=0 para i ≠ j .

Edgar Acuña

Analisis de Regresion

31

Autocorrelación • Cuando la variable predictora es tiempo, pudiera ocurrir que E (ei , ei +k ) ≠ 0 para un cierto k en este caso se dice que los errores tiene una correlación serial y estan autocorrelacionados . • Gráficamente, cuando los residuales cambian frecuentemente de signo hay autocorrelación negativa y si hay un conglomerado de residuales de un mismo signo antes de cambiar a otro entonces la autocrrelación es positiva. Edgar Acuña

Analisis de Regresion

32

Gráfica de las 3 series de tiempo

• En los dos primeros plots la autocorrelación es negativa y en la última es positiva Edgar Acuña

Analisis de Regresion

33

Plot de los residuales en el tiempo t versus los residuales en el tiempo t-1.

Edgar Acuña

Analisis de Regresion

34

La prueba de Durbin-Watson • Se usa para detectar si hay una positiva correlación serial de orden uno. • Ho: ρ = 0 vs Ha: ρ > 0. n 2 ( − ) e e t t −1 • La prueba está dada porD = ∑ t =2 n

2 e ∑t t =1

• Se rechaza Ho si DDU • La prueba no lleva a ninguna conclusión si DL

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.