Story Transcript
Regresión lineal simple
_______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.- Linealidad 4.2- Normalidad 4.3- Homocedasticidad 5.- Datos alejados 6.- Otro tipo de ajustes no lineales 7.- El supuesto de independencia de los errores 7.1.- Estimación de parámetros por mínimos cuadrados ordinarios 7.2.- Modelo autorregresivo
_____________________________________________________
1
1.-Introducción Como se sabe, la regresión lineal simple se aplica en aquellas investigaciones en las que deseamos conocer la posible relación (lineal) entre dos variables. Normalmente, ambas variables son cuantitativas, aunque se verá que este requisito puede ser salvado en lo que respecta a la variable independiente, que puede ser una variable cualitativa, con lo que el modelo de regresión puede extenderse a los contrastes de medias y análisis de la varianza, sin pérdida de generalidad. Trabajaremos con varios archivos. El primero de ellos, denominado mundial.sav, y que hace referencia a distintos indicadores correspondientes a 26 países europeos tomados del anuario de EL PAIS 2000. Las variables consideradas son:
PAÍS SUPERFI POBLACIÓ DENSIDAD ESPERANZ TASA RENTA EXPORTA IMPORTA INFLACIO INGTURI GASTOEDU GASTOSAL TELÉFONO ORDENADO ENERELEC ENERGIA
País Superficie Población Densidad de población Esperanza de vida Tasa de fecundidad Renta per cápita Exportaciones Importaciones Inflación Ingresos por turismo Gasto en educación % Gasto en salud % Teléfonos por 1000 habitantes Ordenadores por 1000 habitantes Energía eléctrica per cápita en kw/h Energía per cápita en kilos
Figura 1.- Relación de variables
2
Una imagen parcial de este fichero de datos aparece en el siguiente cuadro:
2.- Regresión simple. Gráficos Los gráficos nos proporcionan la forma más sencilla e intuitiva de estudiar la relación entre dos variables. Nos ofrece una cierta idea de la naturaleza de la relación; si es lineal o no, su intensidad, así como el sentido (negativa o positiva). En el ejemplo que estamos tratando, además, como se conocen los sujetos de las observaciones –países- tendremos la facilidad de situar los mismos en relación a los restantes países. Seleccionemos gráficos/dispersión. Obtendremos el cuadro de diálogo de la siguiente figura. A continuación elijamos Simple y Definir.
3
Obtendremos el siguiente cuadro de diálogo:
Deseamos ver el efecto de la Renta per cápita sobre Ordenadores por 1000 habitantes. Además deseamos que lo puntos del diagrama de dispersión se identifiquen por el país correspondiente. Para ello, marcamos Opciones y dentro de este cuadro de diálogo, Mostrar el gráfico con las etiquetas de caso:
4
La salida será:
400,00
Suiza
Ordenadores por 1000 habitantes
Suecia
Noruega Dinamarca
Finlandia
300,00
Holanda Reino Unido Alemania Bélgica Irlanda
Eslovaquia
Austria
200,00
Eslovenia Francia
España 100,00
Italia
R. Checa Portugal Hungría
0,00
Bulgaria Polonia Lituania Croacia Moldavia
0,0
Grecia
10000,0
20000,0
30000,0
40000,0
Renta per cápita
Aparte de algunas superposiciones, se observa una relación lineal, positiva y de cierta intensidad. Si deseamos profundizar algo más en estos últimos aspectos, haremos doble clic sobre el gráfico obtenido, y obtendremos este otro gráfico:
5
Llevando el cursor a cualquiera de los círculos que indican los países, y pulsando doble clic, se activa la pestaña que nos permitirá ajustar una línea:
6
Marcamos, y nos encontramos con el siguiente cuadro de dialogo:
7
Marcamos Lineal y Aplicar, obteniendo:
8
400,00
Suiza
Ordenadores por 1000 habitantes
Suecia
Noruega Dinamarca
Finlandia
300,00
Holanda Reino Unido Alemania Bélgica Irlanda
Eslovaquia
Austria
200,00
Eslovenia Francia
España 100,00
Italia
R. Checa Portugal Hungría
0,00
Bulgaria Polonia Lituania Croacia Moldavia
0,0
R2 lineal = 0,773
Grecia
10000,0
20000,0
30000,0
40000,0
Renta per cápita
Podemos complicar algo estos resultados definiendo el intervalo de confianza al 95% alrededor de las puntuaciones medias. Resolvemos así problemas de predicción. En el cuadro de diálogo en Intervalo de confianza marcamos Media, y luego Aplicar:
9
Obtendremos:
10
400,00
Suiza
Ordenadores por 1000 habitantes
Suecia
Noruega Dinamarca
Finlandia
300,00
Holanda Reino Unido Alemania Bélgica Irlanda
Eslovaquia
Austria
200,00
Eslovenia Francia
España 100,00
Italia
R. Checa Portugal
R2 lineal = 0,773
Grecia
R2 lineal = 0,773
Hungría
0,00
Bulgaria Polonia Lituania Croacia Moldavia
0,0
10000,0
20000,0
30000,0
40000,0
Renta per cápita
Algunos países quedan fuera, como Eslovaquia, con muchos ordenadores para su renta per cápita, o el caso de Italia, que ocurre al revés. Ya trataremos más adelante este aspecto, cuando tratemos los residuos. Por otro lado, vemos que la renta per cápita da cuenta del 77.29% de la variabilidad en la adquisición de ordenadores
11
3.- Ecuación de regresión, bondad de ajuste y validez del modelo
Los procedimiento gráficos son convenientes para una primera aproximación, pero si queremos ser rigurosos hemos de recurrir a aspectos más formales A este respecto, entramos en el comando Regresión/lineal y rellenamos el cuadro de diálogo de las siguiente manera:
En primer lugar se nos ofrece una información que ya conocíamos, pero algo más completada:
Resumen del modelo
Modelo 1
R ,879a
R cuadrado ,773
R cuadrado corregida ,763
Error típ. de la estimación 62,2186
a. Variables predictoras: (Constante), Renta per cápita
12
La correlación es 0.879. Su cuadrado, 0.773, lo que nos indica una proporción de variación explicada de 77.3%. Para compensar los efectos del tamaño de la muestra sobre R cuadrado, se suele hacer un pequeño ajuste con lo que obtenemos un valor más aproximado de 0.763. Por otro lado, el error típico de la estimación no es más que la raíz cuadrada de la varianza residual, que veremos en la próxima tabla:
ANOVAb
Modelo 1
Suma de cuadrados 316220,909 92907,657 409128,566
Regresión Residual Total
gl 1 24 25
Media cuadrática 316220,909 3871,152
F 81,687
Sig. ,000a
a. Variables predictoras: (Constante), Renta per cápita b. Variable dependiente: Ordenadores por 1000 habitantes
Se observa una F de 81.687, cuya probabilidad asociada según las expectativas de la Hipótesis nula es inferior a 0.0001. Altamente significativo, aunque no hay que olvidar que aquí estamos trabajando con colectivos -países- en lugar de individuos, lo que conlleva una R cuadrado sobrevalorada. En cuanto a la ecuación de regresión, sus valores son: Coeficientesa
Modelo 1
(Constante) Renta per cápita
Coeficientes no estandarizados B Error típ. 18,084 20,840 9,487E-03 ,001
Coeficient es estandari zados Beta ,879
t ,868 9,038
Sig. ,394 ,000
a. Variable dependiente: Ordenadores por 1000 habitantes
De aquí se deduce que la ecuación de regresión en directas es: Yˆ =18.084 + 0.00948 X
Prescindiendo de la ordenada en el origen, que aquí carece de significado puesto que no hay ningún país con cero dólares de renta per cápita, tenemos que por cada dólar per cápita hay 0.00948 ordenadores por cada mil habitantes, o mejor dicho, por cada incremento de mil dólares hay aproximadamente 9 ordenadores más cada mil habitantes. En estandarizadas, tendremos: Zˆ = 0.879 Z x
13
4.- Estudio de los supuestos del modelo
Como se sabe, el modelo de regresión lineal ha de cumplir una serie de supuestos que garanticen su correcta aplicación, a saber, a) linealidad, b) normalidad, c) homocedasticidad y d) independencia de errores. Una última condición de ausencia de multicolinealidad hace referencia a la regresión múltiple y será vista más adelante. Todos estos supuestos pueden ser estudiados mediante el recurso de las puntuaciones residuales, que indican la diferencia entre las puntuaciones observadas y predichas por el modelo. Aparte de ello, una simple ojeada a los gráficos nos permitirá grosso modo detectar algunas anomalías. Para un primer análisis de residuales entraremos en guardar y en el cuadro de diálogo correspondiente marcaremos en Valores pronosticados No tipificados y Residuos No tipificados
Generaremos con ello dos variables pre_1 y err_1. Con ellos procederemos a iniciar el estudio de los supuestos del modelo.
4.1.- Linealidad El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa al estudio de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en el que se comparan las puntuaciones residuales y predichas. Recurrimos a gráficos/dispersión y hacemos la siguiente selección:
14
Obteniendo el siguiente resultado:
200,00000
Unstandardized Residual
150,00000
100,00000
50,00000
0,00000
-50,00000
-100,00000
0,00000
100,00000
200,00000
300,00000
400,00000
Unstandardized Predicted Value
15
Si la relación o fuera lineal habría alguna configuración manifiesta. No lo parece, así que corroboramos la supuesta linealidad. Además esto mismo lo podemos hacer de una manera más directa recurriendo a gráficos dentro del comando Regresión. Aquí los resultados están en estandarizadas, que ofrece la ventaja de que todas las variables están en la misma escala. Así pues, en Regresión lineal/gráficos elijamos:
Obteniendo:
Gráfico de dispersión
Variable dependiente: Ordenadores por 1000 habitantes
Regresión Residuo tipificado
4
3
2
1
0
-1
-2 -1
0
1
2
Regresión Valor pronosticado tipificado
16
4.2- Normalidad
Para facilitar la estimación por intervalo del modelo de regresión es exigible la normalidad de la distribución de los errores. Aquí vamos a utilizar dos procedimientos, uno gráfico y otro analítico. El gráfico hace referencia simplemente al histograma de los residuales estandarizados (ZRESID) así como al gráfico P-P normal. En el subcuadro anterior añadimos las siguientes marcas en Histograma y Gráfico de probabilidad normal:
Los resultados en cuanto al histograma son:
Histograma
Variable dependiente: Ordenadores por 1000 habitantes
10
Frecuencia
8
6
4
2
0 -2
-1
0
1
2
3
4
Mean = -4,35E-16 Std. Dev. = 0,98 N = 26
Regresión Residuo tipificado
Y en relación al gráfico de probabilidad normal:
17
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Ordenadores por 1000 habitantes 1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0 0,0
0,2
0,4
0,6
0,8
1,0
Prob acum observada
Se observa en ambos casos una buena aproximación a la normalidad. No obstante, si deseamos ser más rigurosos podemos recurrir a procedimiento analíticos. Aquí, como se sabe, disponemos de la prueba Kolmogorov-Smirnov para la normalidad. Así pues, como hemos generado la variable err_1, iremos a Pruebas no paramétricas y seleccionamos K-S de 1 muestra, tal como se indica en el siguiente cuadro de diálogo:
18
El resultado será: Prueba de Kolmogorov-Smirnov para una muestra
N Parámetros normales a,b
Diferencias más extremas
Media Desviación típica Absoluta Positiva Negativa
Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)
Unstandardiz ed Residual 26 .0000000 60.96151476 .135 .135 -.076 .687 .733
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
Obsérvese que la probabilidad asociada desde la perspectiva de la hipótesis nula (de normalidad) es 0.733. Es alta, luego aceptamos dicha hipótesis.
4.3- Homocedasticidad El supuesto de homocedasticidad exige que para todo el recorrido de la variable X la varianza del error sea constante. Esto es importante de cara a la predicción de valores en los cuales la desviación tipo de los residuos forma parte del cálculo del intervalo de confianza. El recurso gráfico para comprobar la homocedasticidad es el ya conocido de Residuos frente a Valores predichos. Si queremos librarnos de la escala, ZRESID frente a ZPRED. Habrá heterocedasticidad si la configuración de la nube de puntos tiene forma de "embudo", bien a la derecha o a la izquierda, lo que es indicativo que la magnitud de los residuos varía en un sentido o en otro. Así, en el siguiente gráfico, ya conocido:
19
Gráfico de dispersión
Variable dependiente: Ordenadores por 1000 habitantes
Regresión Residuo tipificado
4
3
2
1
0
-1
-2 -1
0
1
2
Regresión Valor pronosticado tipificado
Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una dirección u otra, aunque hay que decir que con tan pocos individuos no hay mucha fundamentación para afirmarlo. De todas formas, si queremos ser más rigurosos también aquí disponemos de recursos analíticos; calcularemos la correlación entre las puntuaciones residuales en valores absolutos y las puntuaciones predichas. Decimos en valores absolutos porque si no la correlación sería de cero. Para ello, previamente hemos de calcular los valores absolutos de la variable err_1. Vamos a Transformar/Calcular:
A continuación nos dirigimos a Correlaciones/bivariadas:
20
Y obtendremos:
Correlaciones Unstandardiz ed Predicted Value Unstandardized Predicted Value ABSRES1
Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N
ABSRES1
-,070 ,732 26
Con lo que se confirma que no hay ningún tipo de relación entre los residuos y los valores predichos.
21
5.- Datos alejados
Frecuentemente se dan casos que parecen no conformarse con el modelo. Son valores especialmente distanciados de aquellos que predice el modelo, aquí la recta de regresión. Tienen especial interés porque de su consistencia/inconsistencia derivará nuestro comportamiento con el modelo, si interesa mantenerse en él o por el contrario merece ser modificado. La magnitud de la distancia de un caso determinado respecto al promedio de la variable independiente nos lo proporciona la distancia de Mahalanobis. Un valor alejado, además, puede ser especialmente influyente, en el sentido que su presencia modifique sustancialmente la ecuación de regresión. Para saber esto último existe la distancia de Cook que muestra la cuantía del cambio que se produciría en los residuales si el caso en cuestión fuera eliminado. También el denominado valor de influencia, cuyo valor oscila entre 0 y (n-1)/n, siendo n el número de observaciones, y que nos indica la importancia que tiene la variable dependiente de un determinado caso sobre la predicción del valor ajustado. Para detectar los caso alejados, una primera visual del diagrama del dispersión puede ser suficiente. En el ejemplo que estamos tratando, Eslovenia, con poco renta per cápita y muchos ordenadores es un caso de ellos. Si queremos profundizar un poco en ello y detectar la magnitud de la distancia e desviaciones típicas recurriremos al subcuadro de Estadísticos en Diagnóstico por caso. Elegimos todos los casos.
22
Diagnósticos por caso
Número de caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
PAÍS Alemania Austria Bélgica Bulgaria Croacia Dinamarc a Eslovaqui a Eslovenia España Finlandia Francia Grecia Holanda Hungría Irlanda Italia Lituania Moldavia Noruega Polonia Portugal Reino Unido R. Checa Rumania Suecia Suiza
a
Residuo tip. -,126 -,998 -,379 -,001 -,626
Ordenadores por 1000 habitantes 255,50 210,70 235,30 29,70 22,00
Valor pronosticado 263,3105 272,7970 258,8518 29,7528 60,9634
Residual -7,8105 -62,0970 -23,5518 -5,28E-02 -38,9634
,427
360,20
333,6054
26,5946
3,028
241,60
53,1844
188,4156
1,257 -,475 1,027 -1,290 -1,347 ,439 -,191 ,791 -1,562 -,558 -,292 ,274 -,303 -,725
188,90 122,10 310,70 174,40 44,80 280,30 49,00 241,30 113,00 6,50 3,80 360,80 36,20 74,40
110,6726 151,6543 246,8039 254,6777 128,6021 252,9702 60,8685 192,0668 210,1860 41,2314 21,9738 343,7560 55,0817 119,4951
78,2274 -29,5543 63,8961 -80,2777 -83,8021 27,3298 -11,8685 49,2332 -97,1860 -34,7314 -18,1738 17,0440 -18,8817 -45,0951
,342
242,40
221,0955
21,3045
,267 -,360 1,433 -,055
82,50 8,90 350,30 394,90
65,8963 31,2706 261,1286 398,3034
16,6037 -22,3706 89,1714 -3,4034
a. Variable dependiente: Ordenadores por 1000 habitantes
Se observa Eslovaquia, que se encuentra a más de 3 desviaciones típicas, con una dotación de 241 ordenadores por 1000 habitantes, cuando lo previsto son 53. Además podemos conocer algunos otros indicadores interesantes en diagnóstico por caso, tales como la distancia de Mahalanobis y la distancia de Cook (y algunos otros). Pero no todas las posibilidades de SPSS se consiguen a través de las distintas ventanas. Algunas veces, como ahora, habremos de recurrir a la sintaxis, que ya contiene toda la potencialidad del SPSS. Aquí para no complicarnos la vida seguiremos un procedimiento un tanto híbrido; por un lado, con la opción de pegar guardaremos en la sintaxis las distintas instrucciones, para ampliarlas posteriormente mediante teclado:
23
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT ordenado /METHOD=ENTER pnb /RESIDUALS ID( país ) /CASEWISE PLOT(ZRESID) ALL PRED ADJPRED MAHAL COOK.
El resultado correspondiente a CASEWISE PLOT (el resto es conocido) será: a Diagnósticos por caso
Número de caso PAÍS Residuo tip. 1 Alemania -,126 2 Austria -,998 3 Bélgica -,379 4 Bulgaria -,001 5 Croacia -,626 6 Dinamarc ,427 a 7 Eslovaqui 3,028 a 8 Eslovenia 1,257 9 España -,475 10 Finlandia 1,027 11 Francia -1,290 12 Grecia -1,347 13 Holanda ,439 14 Hungría -,191 15 Irlanda ,791 16 Italia -1,562 17 Lituania -,558 18 Moldavia -,292 19 Noruega ,274 20 Polonia -,303 21 Portugal -,725 22 Reino ,342 Unido 23 R. Checa ,267 24 Rumania -,360 25 Suecia 1,433 26 Suiza -,055
Ordenadores Valor Valor Dist. de por 1000 pronosticado Mahalanobis habitantes pronosticado corregido 255,50 263,3105 263,8582 ,677 210,70 272,7970 277,5698 ,823 235,30 258,8518 260,4351 ,613 29,70 29,7528 29,7587 1,572 22,00 60,9634 64,1954 ,953
Distancia de Cook ,001 ,041 ,005 ,000 ,018
360,20
333,6054
329,8995
2,096
,015
241,60
53,1844
36,3117
1,093
,447
188,90 122,10 310,70 174,40 44,80 280,30 49,00 241,30 113,00 6,50 3,80 360,80 36,20 74,40
110,6726 151,6543 246,8039 254,6777 128,6021 252,9702 60,8685 192,0668 210,1860 41,2314 21,9738 343,7560 55,0817 119,4951
106,5653 152,8735 242,9604 259,8675 132,4671 251,2311 61,8539 190,0211 214,5924 44,7308 24,1853 341,1395 56,7413 121,7081
,286 ,029 ,457 ,557 ,141 ,534 ,955 ,036 ,123 1,327 1,751 2,366 1,058 ,208
,044 ,005 ,034 ,057 ,044 ,007 ,002 ,014 ,058 ,017 ,006 ,007 ,004 ,014
242,40
221,0955
220,0573
,200
,003
82,50 8,90 350,30 394,90
65,8963 31,2706 261,1286 398,3034
64,5841 33,7564 255,0032 399,1658
,870 1,539 ,645 4,093
,003 ,008 ,075 ,000
a. Variable dependiente: Ordenadores por 1000 habitantes
24
Se observa que, por ejemplo, Eslovaquia es un valor muy alejado (más de 3 desviaciones tipo). Si este país no hubiera estado presente en la estimación de los parámetros del modelo su valor predicho hubiera sido de 36 ordenadores por 1000 habitantes. Su renta per cápita es bastante baja en relación a la media, luego la distancia de Mahalanobis es alta. Es además un valor bastante influyente, al ser su valor pronosticado muy diferente del real. Por el contra, un país como Noruega, que también estaba bastante alejado de la media de la variable independiente (esta vez por exceso), lo que implica una alta distancia de Mahalanobis, sin embargo, al ser su valor predicho muy próximo al real, su presencia no altera mucho la recta de regresión; la distancia de Cook será pequeña, y en consecuencia será poco influyente. Estas mismas variables que hemos expresado el listado anterior, pueden ser guardadas en el fichero de datos por si fuera necesario trabajar con ellas posteriormente. De esta forma, podemos seleccionar la opción de guardar:
25
6.- Otro tipo de ajustes no lineales
Aunque estamos acostumbrados siempre que trabajamos con la regresión, a hacerlo con la regresión lineal, hay que decir que ésta es tan sólo un caso de los posibles. Aunque por razones de simplicidad el modelo lineal es muy conveniente no hay razones de peso para mantenerlo en exceso. Bien es cierto que podemos mantenerlo si linealizamos la relación mediante algunas transformaciones, aunque lo más conveniente es encontrar el modelo que realmente encaje con los datos en cuestión. Por ejemplo, si quisiéramos relacionar la renta per cápita con la esperanza de vida, tendríamos (opción gráficos/dispersión) la siguiente salida:
80
Suecia
Suiza
Grecia España Italia Holanda Francia Noruega 78
Reino Unido Alemania Bélgica Austria Finlandia Irlanda
76
Portugal Eslovenia
Dinamarca
R. Checa 74
Polonia Eslovaquia Croacia
Esperanza de vida
72
Lituania Hungría Bulgaria 70 Rumania 68 Moldavia 66
R² = 0,6546
-10000
0
10000
20000
30000
40000
50000
Renta per cápita Obsérvese que no hay un mal ajuste. Hay una proporción de variabilidad explicada de 65.46%, lo que es bastante. Sin embargo una visual al gráfico nos indica que las cosas quizás puedan ir mejor con otro tipo de ajuste. Vamos para ello a la opción de Regresión/estimación curvilínea. Después de algunos tanteos comprobamos que la función potencial es la que mejor se ajusta. Su ecuación es: Yˆ =b0 X b1
26
Vamos al cuadro de diálogo correspondiente:
El resultado numérico es: Dependent variable.. ESPERANZ
Method.. POWER
Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error
,93539 ,87496 ,86975 ,01618
Analysis of Variance: DF
Sum of Squares
Mean Square
1 24
,04397012 ,00628354
,04397012 ,00026181
167,94398
Signif F =
Regression Residuals F =
,0000
-------------------- Variables in the Equation -------------------Variable PNB (Constant)
B
SE B
Beta
T
Sig T
,034646 54,537758
,002673 1,354327
,935395
12,959 40,269
,0000 ,0000
27
Cuya proporción de variabilidad explicada (0.8749) es muy superior a la del modelo lineal. Si queremos ver el gráfico:
Esperanza de vida 80
78
76
74
72
70
68
Observada Potencia
66 -10000
0
10000
20000
30000
40000
50000
Renta per cápita
Se observan los datos mucho mejor ajustados. Es razonable suponer que la renta per cápita mejora las condiciones sanitarias y por tanto la esperanza de vida, pero no siempre de forma lineal, proporcional a los recursos económicos. Lógicamente la naturaleza humana tiene un límite a partir del cual las condiciones económicas dejan de tener efecto.
28
7.- El supuesto de independencia de los errores A los supuestos de linealidad, normalidad y homocedasticidad, tratados anteriormente, hay que añadir el de incorrelación de errores. Para datos transversales en las que se supone que las observaciones son independientes entre sí, probablemente no sucederá que éstas se encuentren relacionadas entre sí. Otra circunstancia sucede para datos longitudinales en los que la natural inercia de los acontecimientos da lugar a que hay aun resto que se mantiene en el tiempo .Cuando se realizan diferentes observaciones de una misma variable en el tiempo, cabe esperar que éstas presenten un cierto parecido, que haya una cierta inercia en el sistema que haga que los valores sucesivos no se alejen demasiado entre sí. No se cumple el supuesto de independencia de los errores, cuya expresión es: rei e j = 0 Vamos a trabajar con unos datos que hacen referencia al consumo de bebidas alcohólicas en Inglaterra durante el periodo comprendido entre 1870 y 1938. Estudiaremos al influencia que sobre este consumo ejercen los salarios y el precio de estas bebidas. Los datos (alcohol.sav) son lo siguientes:
29
Cuyo gráfico es el siguiente:
2.2
2.0
1.8
CONSUMO
1.6
1.4
1.2 1870
1878
1874
1886
1882
1894
1890
1902
1898
1910
1906
1918
1914
1926
1922
1934
1930
1938
Fecha
Como en los otros supuestos, el supuesto de independencia de los errores podemos comprobarlo de forma gráfica o analítica. De forma gráfica, representaremos los errores a lo largo del tiempo y observaremos si su distribución refleja una cierta estructura o configuración o por el contrario si su distribución es aleatoria, y concluiremos así si están relacionados o no.
Para ello, vayamos a gráficos/dispersión:
30
Y obtendremos:
.2
Unstandardized Residual
.1
0.0
-.1
-.2 1860
1870
1880
1890
1900
1910
1920
1930
1940
YEAR, not periodic
Obsérvese que los residuales suben progresivamente, descienden luego y se repite el mismo proceso a continuación, lo que es indicativo de su no distribución aleatoria.
31
De forma analítica el test de Durbin-Watson nos permite conocer si existe correlación entre residuos adyacentes. Su expresión es:
∑ (e − e ) ∑e
2
d=
i −1
i
2 i
(
≅ 2 1 − rei ei −1
)
donde rei ei −1 hace referencia a la correlación entre residuales adyacentes (autocorrelación de orden uno). Como puede comprobarse, el valor d oscila entre 0 y 4. Cuando la correlación es perfecta positiva, d=0 y cuando sea perfecta negativa, d=4. En ausencia de correlación, d=2. Podemos calcular la correlación entre residuales adyacentes recurriendo a autocorrelación en gráficos/serie temporal:
donde obtendremos el siguiente cuadro de diálogo:
32
Obteniendo:
Autocorrelations: Lag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
RES_1
Auto- Stand. Corr. Err. -1 _ .861 .118 .758 .117 .651 .116 .515 .115 .396 .114 .280 .113 .139 .112 -.012 .112 -.101 .111 -.221 .110 -.279 .109 -.335 .108 -.417 .107 -.446 .106 -.437 .105 -.390 .104
Plot Symbols: Total cases: _
-.75
Unstandardized Residual -.5 -.25
0
. . . . . .
.5
.75
****.************ ****.********** ****.******** ****.***** ****.*** ****.* . ***. . * . . ** . **** . **.*** . ***.*** . ****.*** . *****.*** . *****.*** . ****.*** .
Autocorrelations * 70
.25
1
Box-Ljung
Prob.
53.430 95.416 126.836 146.859 158.880 164.961 166.482 166.494 167.324 171.387 177.984 187.624 202.859 220.607 237.948 251.992
.000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000
Two Standard Error Limits .
Computable first lags:
68
Se observa que la correlación entre residuales adyacentes es de 0.861 (lag=1). Cuando la distancia es de t=2, la correrlación disminuye hasta 0.758 ..etc. Para conocer el coeficiente de Durbin-Watson:
33
(
)
d = 2 1 − rei ei −1 = 2(1 − 0.861) = 0.278
7.1.- Estimación de parámetros por mínimos cuadrados ordinarios
Aunque más adelante veremos que mediante es procedimiento AREG pueden estimarse parámetros para datos secuenciales de forma adecuada, veremos por el momento, un procedimiento alternativo, más artesanal, pero que permitirá comprender mejor la lógica de la regresión. Se trata de transformar las variables de forma tal que el efecto de autocorrelación quede eliminado. Y con los nuevo datos, libres de autocorrelación, aplicaremos mínimos cuadrados ordinarios. A este respecto, tengamos el siguiente modelo de regresión: Yt = α + β X t + e t (1)
Por otro lado, tengamos la siguiente ecuación de regresión entre residuales adyacentes: et = ρ et −1 + ε t
donde ρ hace referencia a la correlación entre errores adyacentes. Tengamos ahora: Yt −1 = α + βX t −1 + et −1
multipliquemos todo ello por ρ :
ρYt −1 = ρα + ρβ X t −1 + ρet −1 Restándolo de (1): Yt − ρ Yt −1 = α (1 − ρ ) + β ( X t − ρ X t −1 ) + ( et − ρet −1 )
Se observa que el error de este nuevo modelo:
ε t = et − ρ et −1 es aleatorio. Así pues, definiendo las siguientes variables: Yt * = Yt − ρ Yt −1 X t* = X t − ρX t −1
obtendremos al siguiente ecuación con residuales aleatorios: 34
Yt* = α (1 − ρ ) + βX t* + ε t A este respecto, hemos de generar dos nuevas variables (concorre y precorre), de la siguiente manera:
donde conmas1 es el consumo en el periodo t+1 y consumo, la variable consumo en el momento t. Esto es, la siguiente expresión:
Yt * = Yt − ρYt −1 Lo mismo hacemos con la variable precio:
Esto es:
35
X t* = X t − ρX t −1
Como consecuencia de ello, calculamos la regresión entre estas variables transformadas:
Con los siguientes resultados:
Regresión Resumen del modelo Modelo 1
R R cuadrado .883a .780
R cuadrado corregida .777
Error típ. de la estimación .02664421
a. Variables predictoras: (Constante), precio transformada
36
Coeficientesa
Modelo 1
Coeficientes no estandarizados B Error típ. .573 .022 -1.114 .073
(Constante) precio transformada
Coeficientes estandarizad os Beta -.883
t 25.806 -15.294
Sig. .000 .000
a. Variable dependiente: consumo transformada
Obsérvese que las estimaciones de los parámetros son las mismas que el modelo sin tratar la autocorrelación (insesgados) pero en este caso las estimaciones de las varianzas de estos estimadores son correctas. Véase el error tipo de precio cuyo valor es 0.073, muy diferente al caso anterior. En cuanto a los residuales, no se observa ninguna estructura particular en la configuración gráfica:
.1
Unstandardized Residual
0.0
-.1
-.2 1860
1870
1880
1890
1900
1910
1920
1930
1940
YEAR, not periodic
E igualmente carecen de autocorrelación:
MODEL:
MOD_2.
Variable: _
RES_2
Autocorrelations:
Missing cases:
RES_2
2
Valid cases:
68
Unstandardized Residual
37
Lag 1
Auto- Stand. Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú .031 .119 . ó* .
Box-Ljung
Prob.
.066
.797
2 3
.145 .218
.118 .117
. .
ó*** . ó****.
1.580 5.076
.454 .166
4 5
.135 .144
.116 .115
. .
ó*** . ó*** .
6.439 7.997
.169 .156
6 7
.127 .117
.114 .113
. .
ó*** . ó** .
9.226 10.296
.161 .172
8 9
-.102 .170
.112 .111
11.125 13.466
.195 .143
10 11
-.249 .028
.110 .109
. .
18.569 18.635
.046 .068
12 13
.136 -.175
.108 .107
. ó***. ****ó .
20.201 22.861
.063 .043
14 15
-.073 -.106
.107 .106
. *ó . **ó
. .
23.331 24.338
.055 .060
16
.051
.105
.
.
24.579
.078
Plot Symbols: Total cases: _
. **ó . . ó***. *.***ó . ó*
Autocorrelations * 70
ó*
Two Standard Error Limits .
Computable first lags:
67
7.2.-.- Modelo autorregresivo
Hay que decir que existen procedimientos estadísticos adecuados para tratar series de datos cuando existe autocorrelación de orden 1 entre sus valores. Se trata de un caso especial de los modelos ARIMA. Se denomina AREG y se encuentra disponible en el SPSS. Así, para los datos que estamos tratando:
38
Con el siguiente cuadro de diálogo:
Cuyo resultado es:
39
Variables in the Model:
AR1 PRECIO CONSTANT
B
SEB
T-RATIO
APPROX. PROB.
.9667144 -.9486926 3.7388321
.03364885 .08535896 .19566689
28.729495 -11.114153 19.108149
.0000000 .0000000 .0000000
Se observan valores parecidos a los estimados anteriormente.
40