Regresión lineal simple

Regresión lineal simple _______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regres

Author: José Ángel Alcaraz Mora

80 downloads 56 Views 882KB Size

Report

DOWNLOAD PDF

Recommend Stories

REGRESION LINEAL SIMPLE

REGRESION LINEAL SIMPLE Jorge Galbiati Riesco Se dispone de una mustra de observaciones formadas por pares de variables: (x1, y1) (x2, y2) .. (xn, yn

Regresión lineal simple

1 Índice Regresión lineal simple José Gabriel Palomo Sánchez [email protected] E.U.A.T. U.P.M. Julio de 2011 Índice Índice I 1 El problem

PAST SIMPLE (PASADO SIMPLE)

La oración simple. Oración simple

La oración simple Oración simple Unidad de la gramática con sentido completo, con entonación propia. Hay una sola estructura Sujeto-Predicado. La ora

PASADO SIMPLE. PAST SIMPLE TENSE

IES Jardín de Málaga PASADO SIMPLE. PAST SIMPLE TENSE • Para qué sirve • Expresiones que aparecen en oraciones en pasado • Cómo se forma • Afirmativa

Duschrinnen. Easy Drain. Lineal Total. Lineal Total

Movimiento lineal

Econometria. 4. Modelo de Regresión Lineal Simple: Inferencia. Prof. Ma. Isabel Santana

Econometria 4. Modelo de Regresión Lineal Simple: Inferencia Prof. Ma. Isabel Santana MRLS: Inferencia • Hasta ahora nos hemos ocupado solamente de

Y = ßo + ß1X + ε. La función de regresión lineal simple es expresado como:

1 Regresión Lineal Simple Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es una línea recta, se tiene una regre

Algebra lineal

Story Transcript

Regresión lineal simple

_______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regresión, bondad de ajuste y validez del modelo 4.- Estudio de los supuestos del modelo 4.1.- Linealidad 4.2- Normalidad 4.3- Homocedasticidad 5.- Datos alejados 6.- Otro tipo de ajustes no lineales 7.- El supuesto de independencia de los errores 7.1.- Estimación de parámetros por mínimos cuadrados ordinarios 7.2.- Modelo autorregresivo

_____________________________________________________

1

1.-Introducción Como se sabe, la regresión lineal simple se aplica en aquellas investigaciones en las que deseamos conocer la posible relación (lineal) entre dos variables. Normalmente, ambas variables son cuantitativas, aunque se verá que este requisito puede ser salvado en lo que respecta a la variable independiente, que puede ser una variable cualitativa, con lo que el modelo de regresión puede extenderse a los contrastes de medias y análisis de la varianza, sin pérdida de generalidad. Trabajaremos con varios archivos. El primero de ellos, denominado mundial.sav, y que hace referencia a distintos indicadores correspondientes a 26 países europeos tomados del anuario de EL PAIS 2000. Las variables consideradas son:

PAÍS SUPERFI POBLACIÓ DENSIDAD ESPERANZ TASA RENTA EXPORTA IMPORTA INFLACIO INGTURI GASTOEDU GASTOSAL TELÉFONO ORDENADO ENERELEC ENERGIA

País Superficie Población Densidad de población Esperanza de vida Tasa de fecundidad Renta per cápita Exportaciones Importaciones Inflación Ingresos por turismo Gasto en educación % Gasto en salud % Teléfonos por 1000 habitantes Ordenadores por 1000 habitantes Energía eléctrica per cápita en kw/h Energía per cápita en kilos

Figura 1.- Relación de variables

2

Una imagen parcial de este fichero de datos aparece en el siguiente cuadro:

2.- Regresión simple. Gráficos Los gráficos nos proporcionan la forma más sencilla e intuitiva de estudiar la relación entre dos variables. Nos ofrece una cierta idea de la naturaleza de la relación; si es lineal o no, su intensidad, así como el sentido (negativa o positiva). En el ejemplo que estamos tratando, además, como se conocen los sujetos de las observaciones –países- tendremos la facilidad de situar los mismos en relación a los restantes países. Seleccionemos gráficos/dispersión. Obtendremos el cuadro de diálogo de la siguiente figura. A continuación elijamos Simple y Definir.

3

Obtendremos el siguiente cuadro de diálogo:

Deseamos ver el efecto de la Renta per cápita sobre Ordenadores por 1000 habitantes. Además deseamos que lo puntos del diagrama de dispersión se identifiquen por el país correspondiente. Para ello, marcamos Opciones y dentro de este cuadro de diálogo, Mostrar el gráfico con las etiquetas de caso:

4

La salida será:

400,00

Suiza

Ordenadores por 1000 habitantes

Suecia

Noruega Dinamarca

Finlandia

300,00

Holanda Reino Unido Alemania Bélgica Irlanda

Eslovaquia

Austria

200,00

Eslovenia Francia

España 100,00

Italia

R. Checa Portugal Hungría

0,00

Bulgaria Polonia Lituania Croacia Moldavia

0,0

Grecia

10000,0

20000,0

30000,0

40000,0

Renta per cápita

Aparte de algunas superposiciones, se observa una relación lineal, positiva y de cierta intensidad. Si deseamos profundizar algo más en estos últimos aspectos, haremos doble clic sobre el gráfico obtenido, y obtendremos este otro gráfico:

5

Llevando el cursor a cualquiera de los círculos que indican los países, y pulsando doble clic, se activa la pestaña que nos permitirá ajustar una línea:

6

Marcamos, y nos encontramos con el siguiente cuadro de dialogo:

7

Marcamos Lineal y Aplicar, obteniendo:

8

400,00

Suiza

Ordenadores por 1000 habitantes

Suecia

Noruega Dinamarca

Finlandia

300,00

Holanda Reino Unido Alemania Bélgica Irlanda

Eslovaquia

Austria

200,00

Eslovenia Francia

España 100,00

Italia

R. Checa Portugal Hungría

0,00

Bulgaria Polonia Lituania Croacia Moldavia

0,0

R2 lineal = 0,773

Grecia

10000,0

20000,0

30000,0

40000,0

Renta per cápita

Podemos complicar algo estos resultados definiendo el intervalo de confianza al 95% alrededor de las puntuaciones medias. Resolvemos así problemas de predicción. En el cuadro de diálogo en Intervalo de confianza marcamos Media, y luego Aplicar:

9

Obtendremos:

10

400,00

Suiza

Ordenadores por 1000 habitantes

Suecia

Noruega Dinamarca

Finlandia

300,00

Holanda Reino Unido Alemania Bélgica Irlanda

Eslovaquia

Austria

200,00

Eslovenia Francia

España 100,00

Italia

R. Checa Portugal

R2 lineal = 0,773

Grecia

R2 lineal = 0,773

Hungría

0,00

Bulgaria Polonia Lituania Croacia Moldavia

0,0

10000,0

20000,0

30000,0

40000,0

Renta per cápita

Algunos países quedan fuera, como Eslovaquia, con muchos ordenadores para su renta per cápita, o el caso de Italia, que ocurre al revés. Ya trataremos más adelante este aspecto, cuando tratemos los residuos. Por otro lado, vemos que la renta per cápita da cuenta del 77.29% de la variabilidad en la adquisición de ordenadores

11

3.- Ecuación de regresión, bondad de ajuste y validez del modelo

Los procedimiento gráficos son convenientes para una primera aproximación, pero si queremos ser rigurosos hemos de recurrir a aspectos más formales A este respecto, entramos en el comando Regresión/lineal y rellenamos el cuadro de diálogo de las siguiente manera:

En primer lugar se nos ofrece una información que ya conocíamos, pero algo más completada:

Resumen del modelo

Modelo 1

R ,879a

R cuadrado ,773

R cuadrado corregida ,763

Error típ. de la estimación 62,2186

a. Variables predictoras: (Constante), Renta per cápita

12

La correlación es 0.879. Su cuadrado, 0.773, lo que nos indica una proporción de variación explicada de 77.3%. Para compensar los efectos del tamaño de la muestra sobre R cuadrado, se suele hacer un pequeño ajuste con lo que obtenemos un valor más aproximado de 0.763. Por otro lado, el error típico de la estimación no es más que la raíz cuadrada de la varianza residual, que veremos en la próxima tabla:

ANOVAb

Modelo 1

Suma de cuadrados 316220,909 92907,657 409128,566

Regresión Residual Total

gl 1 24 25

Media cuadrática 316220,909 3871,152

F 81,687

Sig. ,000a

a. Variables predictoras: (Constante), Renta per cápita b. Variable dependiente: Ordenadores por 1000 habitantes

Se observa una F de 81.687, cuya probabilidad asociada según las expectativas de la Hipótesis nula es inferior a 0.0001. Altamente significativo, aunque no hay que olvidar que aquí estamos trabajando con colectivos -países- en lugar de individuos, lo que conlleva una R cuadrado sobrevalorada. En cuanto a la ecuación de regresión, sus valores son: Coeficientesa

Modelo 1

(Constante) Renta per cápita

Coeficientes no estandarizados B Error típ. 18,084 20,840 9,487E-03 ,001

Coeficient es estandari zados Beta ,879

t ,868 9,038

Sig. ,394 ,000

a. Variable dependiente: Ordenadores por 1000 habitantes

De aquí se deduce que la ecuación de regresión en directas es: Yˆ =18.084 + 0.00948 X

Prescindiendo de la ordenada en el origen, que aquí carece de significado puesto que no hay ningún país con cero dólares de renta per cápita, tenemos que por cada dólar per cápita hay 0.00948 ordenadores por cada mil habitantes, o mejor dicho, por cada incremento de mil dólares hay aproximadamente 9 ordenadores más cada mil habitantes. En estandarizadas, tendremos: Zˆ = 0.879 Z x

13

4.- Estudio de los supuestos del modelo

Como se sabe, el modelo de regresión lineal ha de cumplir una serie de supuestos que garanticen su correcta aplicación, a saber, a) linealidad, b) normalidad, c) homocedasticidad y d) independencia de errores. Una última condición de ausencia de multicolinealidad hace referencia a la regresión múltiple y será vista más adelante. Todos estos supuestos pueden ser estudiados mediante el recurso de las puntuaciones residuales, que indican la diferencia entre las puntuaciones observadas y predichas por el modelo. Aparte de ello, una simple ojeada a los gráficos nos permitirá grosso modo detectar algunas anomalías. Para un primer análisis de residuales entraremos en guardar y en el cuadro de diálogo correspondiente marcaremos en Valores pronosticados No tipificados y Residuos No tipificados

Generaremos con ello dos variables pre_1 y err_1. Con ellos procederemos a iniciar el estudio de los supuestos del modelo.

4.1.- Linealidad El gráfico del diagrama de dispersión constituye una primera aproximación no muy rigurosa al estudio de la linealidad. Aparentemente lo es. Podemos completarlo mediante un gráfico en el que se comparan las puntuaciones residuales y predichas. Recurrimos a gráficos/dispersión y hacemos la siguiente selección:

14

Obteniendo el siguiente resultado:

200,00000

Unstandardized Residual

150,00000

100,00000

50,00000

0,00000

-50,00000

-100,00000

0,00000

100,00000

200,00000

300,00000

400,00000

Unstandardized Predicted Value

15

Si la relación o fuera lineal habría alguna configuración manifiesta. No lo parece, así que corroboramos la supuesta linealidad. Además esto mismo lo podemos hacer de una manera más directa recurriendo a gráficos dentro del comando Regresión. Aquí los resultados están en estandarizadas, que ofrece la ventaja de que todas las variables están en la misma escala. Así pues, en Regresión lineal/gráficos elijamos:

Obteniendo:

Gráfico de dispersión

Variable dependiente: Ordenadores por 1000 habitantes

Regresión Residuo tipificado

4

3

2

1

0

-1

-2 -1

0

1

2

Regresión Valor pronosticado tipificado

16

4.2- Normalidad

Para facilitar la estimación por intervalo del modelo de regresión es exigible la normalidad de la distribución de los errores. Aquí vamos a utilizar dos procedimientos, uno gráfico y otro analítico. El gráfico hace referencia simplemente al histograma de los residuales estandarizados (ZRESID) así como al gráfico P-P normal. En el subcuadro anterior añadimos las siguientes marcas en Histograma y Gráfico de probabilidad normal:

Los resultados en cuanto al histograma son:

Histograma

Variable dependiente: Ordenadores por 1000 habitantes

10

Frecuencia

8

6

4

2

0 -2

-1

0

1

2

3

4

Mean = -4,35E-16 Std. Dev. = 0,98 N = 26

Regresión Residuo tipificado

Y en relación al gráfico de probabilidad normal:

17

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: Ordenadores por 1000 habitantes 1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

Se observa en ambos casos una buena aproximación a la normalidad. No obstante, si deseamos ser más rigurosos podemos recurrir a procedimiento analíticos. Aquí, como se sabe, disponemos de la prueba Kolmogorov-Smirnov para la normalidad. Así pues, como hemos generado la variable err_1, iremos a Pruebas no paramétricas y seleccionamos K-S de 1 muestra, tal como se indica en el siguiente cuadro de diálogo:

18

El resultado será: Prueba de Kolmogorov-Smirnov para una muestra

N Parámetros normales a,b

Diferencias más extremas

Media Desviación típica Absoluta Positiva Negativa

Z de Kolmogorov-Smirnov Sig. asintót. (bilateral)

Unstandardiz ed Residual 26 .0000000 60.96151476 .135 .135 -.076 .687 .733

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

Obsérvese que la probabilidad asociada desde la perspectiva de la hipótesis nula (de normalidad) es 0.733. Es alta, luego aceptamos dicha hipótesis.

4.3- Homocedasticidad El supuesto de homocedasticidad exige que para todo el recorrido de la variable X la varianza del error sea constante. Esto es importante de cara a la predicción de valores en los cuales la desviación tipo de los residuos forma parte del cálculo del intervalo de confianza. El recurso gráfico para comprobar la homocedasticidad es el ya conocido de Residuos frente a Valores predichos. Si queremos librarnos de la escala, ZRESID frente a ZPRED. Habrá heterocedasticidad si la configuración de la nube de puntos tiene forma de "embudo", bien a la derecha o a la izquierda, lo que es indicativo que la magnitud de los residuos varía en un sentido o en otro. Así, en el siguiente gráfico, ya conocido:

19

Gráfico de dispersión

Variable dependiente: Ordenadores por 1000 habitantes

Regresión Residuo tipificado

4

3

2

1

0

-1

-2 -1

0

1

2

Regresión Valor pronosticado tipificado

Se observa que no hay una apariencia de un mayor grosor de la nube de puntos en una dirección u otra, aunque hay que decir que con tan pocos individuos no hay mucha fundamentación para afirmarlo. De todas formas, si queremos ser más rigurosos también aquí disponemos de recursos analíticos; calcularemos la correlación entre las puntuaciones residuales en valores absolutos y las puntuaciones predichas. Decimos en valores absolutos porque si no la correlación sería de cero. Para ello, previamente hemos de calcular los valores absolutos de la variable err_1. Vamos a Transformar/Calcular:

A continuación nos dirigimos a Correlaciones/bivariadas:

20

Y obtendremos:

Correlaciones Unstandardiz ed Predicted Value Unstandardized Predicted Value ABSRES1

Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N

ABSRES1

-,070 ,732 26

Con lo que se confirma que no hay ningún tipo de relación entre los residuos y los valores predichos.

21

5.- Datos alejados

Frecuentemente se dan casos que parecen no conformarse con el modelo. Son valores especialmente distanciados de aquellos que predice el modelo, aquí la recta de regresión. Tienen especial interés porque de su consistencia/inconsistencia derivará nuestro comportamiento con el modelo, si interesa mantenerse en él o por el contrario merece ser modificado. La magnitud de la distancia de un caso determinado respecto al promedio de la variable independiente nos lo proporciona la distancia de Mahalanobis. Un valor alejado, además, puede ser especialmente influyente, en el sentido que su presencia modifique sustancialmente la ecuación de regresión. Para saber esto último existe la distancia de Cook que muestra la cuantía del cambio que se produciría en los residuales si el caso en cuestión fuera eliminado. También el denominado valor de influencia, cuyo valor oscila entre 0 y (n-1)/n, siendo n el número de observaciones, y que nos indica la importancia que tiene la variable dependiente de un determinado caso sobre la predicción del valor ajustado. Para detectar los caso alejados, una primera visual del diagrama del dispersión puede ser suficiente. En el ejemplo que estamos tratando, Eslovenia, con poco renta per cápita y muchos ordenadores es un caso de ellos. Si queremos profundizar un poco en ello y detectar la magnitud de la distancia e desviaciones típicas recurriremos al subcuadro de Estadísticos en Diagnóstico por caso. Elegimos todos los casos.

22

Diagnósticos por caso

Número de caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

PAÍS Alemania Austria Bélgica Bulgaria Croacia Dinamarc a Eslovaqui a Eslovenia España Finlandia Francia Grecia Holanda Hungría Irlanda Italia Lituania Moldavia Noruega Polonia Portugal Reino Unido R. Checa Rumania Suecia Suiza

a

Residuo tip. -,126 -,998 -,379 -,001 -,626

Ordenadores por 1000 habitantes 255,50 210,70 235,30 29,70 22,00

Valor pronosticado 263,3105 272,7970 258,8518 29,7528 60,9634

Residual -7,8105 -62,0970 -23,5518 -5,28E-02 -38,9634

,427

360,20

333,6054

26,5946

3,028

241,60

53,1844

188,4156

1,257 -,475 1,027 -1,290 -1,347 ,439 -,191 ,791 -1,562 -,558 -,292 ,274 -,303 -,725

188,90 122,10 310,70 174,40 44,80 280,30 49,00 241,30 113,00 6,50 3,80 360,80 36,20 74,40

110,6726 151,6543 246,8039 254,6777 128,6021 252,9702 60,8685 192,0668 210,1860 41,2314 21,9738 343,7560 55,0817 119,4951

78,2274 -29,5543 63,8961 -80,2777 -83,8021 27,3298 -11,8685 49,2332 -97,1860 -34,7314 -18,1738 17,0440 -18,8817 -45,0951

,342

242,40

221,0955

21,3045

,267 -,360 1,433 -,055

82,50 8,90 350,30 394,90

65,8963 31,2706 261,1286 398,3034

16,6037 -22,3706 89,1714 -3,4034

a. Variable dependiente: Ordenadores por 1000 habitantes

Se observa Eslovaquia, que se encuentra a más de 3 desviaciones típicas, con una dotación de 241 ordenadores por 1000 habitantes, cuando lo previsto son 53. Además podemos conocer algunos otros indicadores interesantes en diagnóstico por caso, tales como la distancia de Mahalanobis y la distancia de Cook (y algunos otros). Pero no todas las posibilidades de SPSS se consiguen a través de las distintas ventanas. Algunas veces, como ahora, habremos de recurrir a la sintaxis, que ya contiene toda la potencialidad del SPSS. Aquí para no complicarnos la vida seguiremos un procedimiento un tanto híbrido; por un lado, con la opción de pegar guardaremos en la sintaxis las distintas instrucciones, para ampliarlas posteriormente mediante teclado:

23

REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT ordenado /METHOD=ENTER pnb /RESIDUALS ID( país ) /CASEWISE PLOT(ZRESID) ALL PRED ADJPRED MAHAL COOK.

El resultado correspondiente a CASEWISE PLOT (el resto es conocido) será: a Diagnósticos por caso

Número de caso PAÍS Residuo tip. 1 Alemania -,126 2 Austria -,998 3 Bélgica -,379 4 Bulgaria -,001 5 Croacia -,626 6 Dinamarc ,427 a 7 Eslovaqui 3,028 a 8 Eslovenia 1,257 9 España -,475 10 Finlandia 1,027 11 Francia -1,290 12 Grecia -1,347 13 Holanda ,439 14 Hungría -,191 15 Irlanda ,791 16 Italia -1,562 17 Lituania -,558 18 Moldavia -,292 19 Noruega ,274 20 Polonia -,303 21 Portugal -,725 22 Reino ,342 Unido 23 R. Checa ,267 24 Rumania -,360 25 Suecia 1,433 26 Suiza -,055

Ordenadores Valor Valor Dist. de por 1000 pronosticado Mahalanobis habitantes pronosticado corregido 255,50 263,3105 263,8582 ,677 210,70 272,7970 277,5698 ,823 235,30 258,8518 260,4351 ,613 29,70 29,7528 29,7587 1,572 22,00 60,9634 64,1954 ,953

Distancia de Cook ,001 ,041 ,005 ,000 ,018

360,20

333,6054

329,8995

2,096

,015

241,60

53,1844

36,3117

1,093

,447

188,90 122,10 310,70 174,40 44,80 280,30 49,00 241,30 113,00 6,50 3,80 360,80 36,20 74,40

110,6726 151,6543 246,8039 254,6777 128,6021 252,9702 60,8685 192,0668 210,1860 41,2314 21,9738 343,7560 55,0817 119,4951

106,5653 152,8735 242,9604 259,8675 132,4671 251,2311 61,8539 190,0211 214,5924 44,7308 24,1853 341,1395 56,7413 121,7081

,286 ,029 ,457 ,557 ,141 ,534 ,955 ,036 ,123 1,327 1,751 2,366 1,058 ,208

,044 ,005 ,034 ,057 ,044 ,007 ,002 ,014 ,058 ,017 ,006 ,007 ,004 ,014

242,40

221,0955

220,0573

,200

,003

82,50 8,90 350,30 394,90

65,8963 31,2706 261,1286 398,3034

64,5841 33,7564 255,0032 399,1658

,870 1,539 ,645 4,093

,003 ,008 ,075 ,000

a. Variable dependiente: Ordenadores por 1000 habitantes

24

Se observa que, por ejemplo, Eslovaquia es un valor muy alejado (más de 3 desviaciones tipo). Si este país no hubiera estado presente en la estimación de los parámetros del modelo su valor predicho hubiera sido de 36 ordenadores por 1000 habitantes. Su renta per cápita es bastante baja en relación a la media, luego la distancia de Mahalanobis es alta. Es además un valor bastante influyente, al ser su valor pronosticado muy diferente del real. Por el contra, un país como Noruega, que también estaba bastante alejado de la media de la variable independiente (esta vez por exceso), lo que implica una alta distancia de Mahalanobis, sin embargo, al ser su valor predicho muy próximo al real, su presencia no altera mucho la recta de regresión; la distancia de Cook será pequeña, y en consecuencia será poco influyente. Estas mismas variables que hemos expresado el listado anterior, pueden ser guardadas en el fichero de datos por si fuera necesario trabajar con ellas posteriormente. De esta forma, podemos seleccionar la opción de guardar:

25

6.- Otro tipo de ajustes no lineales

Aunque estamos acostumbrados siempre que trabajamos con la regresión, a hacerlo con la regresión lineal, hay que decir que ésta es tan sólo un caso de los posibles. Aunque por razones de simplicidad el modelo lineal es muy conveniente no hay razones de peso para mantenerlo en exceso. Bien es cierto que podemos mantenerlo si linealizamos la relación mediante algunas transformaciones, aunque lo más conveniente es encontrar el modelo que realmente encaje con los datos en cuestión. Por ejemplo, si quisiéramos relacionar la renta per cápita con la esperanza de vida, tendríamos (opción gráficos/dispersión) la siguiente salida:

80

Suecia

Suiza

Grecia España Italia Holanda Francia Noruega 78

Reino Unido Alemania Bélgica Austria Finlandia Irlanda

76

Portugal Eslovenia

Dinamarca

R. Checa 74

Polonia Eslovaquia Croacia

Esperanza de vida

72

Lituania Hungría Bulgaria 70 Rumania 68 Moldavia 66

R² = 0,6546

-10000

0

10000

20000

30000

40000

50000

Renta per cápita Obsérvese que no hay un mal ajuste. Hay una proporción de variabilidad explicada de 65.46%, lo que es bastante. Sin embargo una visual al gráfico nos indica que las cosas quizás puedan ir mejor con otro tipo de ajuste. Vamos para ello a la opción de Regresión/estimación curvilínea. Después de algunos tanteos comprobamos que la función potencial es la que mejor se ajusta. Su ecuación es: Yˆ =b0 X b1

26

Vamos al cuadro de diálogo correspondiente:

El resultado numérico es: Dependent variable.. ESPERANZ

Method.. POWER

Listwise Deletion of Missing Data Multiple R R Square Adjusted R Square Standard Error

,93539 ,87496 ,86975 ,01618

Analysis of Variance: DF

Sum of Squares

Mean Square

1 24

,04397012 ,00628354

,04397012 ,00026181

167,94398

Signif F =

Regression Residuals F =

,0000

-------------------- Variables in the Equation -------------------Variable PNB (Constant)

B

SE B

Beta

T

Sig T

,034646 54,537758

,002673 1,354327

,935395

12,959 40,269

,0000 ,0000

27

Cuya proporción de variabilidad explicada (0.8749) es muy superior a la del modelo lineal. Si queremos ver el gráfico:

Esperanza de vida 80

78

76

74

72

70

68

Observada Potencia

66 -10000

0

10000

20000

30000

40000

50000

Renta per cápita

Se observan los datos mucho mejor ajustados. Es razonable suponer que la renta per cápita mejora las condiciones sanitarias y por tanto la esperanza de vida, pero no siempre de forma lineal, proporcional a los recursos económicos. Lógicamente la naturaleza humana tiene un límite a partir del cual las condiciones económicas dejan de tener efecto.

28

7.- El supuesto de independencia de los errores A los supuestos de linealidad, normalidad y homocedasticidad, tratados anteriormente, hay que añadir el de incorrelación de errores. Para datos transversales en las que se supone que las observaciones son independientes entre sí, probablemente no sucederá que éstas se encuentren relacionadas entre sí. Otra circunstancia sucede para datos longitudinales en los que la natural inercia de los acontecimientos da lugar a que hay aun resto que se mantiene en el tiempo .Cuando se realizan diferentes observaciones de una misma variable en el tiempo, cabe esperar que éstas presenten un cierto parecido, que haya una cierta inercia en el sistema que haga que los valores sucesivos no se alejen demasiado entre sí. No se cumple el supuesto de independencia de los errores, cuya expresión es: rei e j = 0 Vamos a trabajar con unos datos que hacen referencia al consumo de bebidas alcohólicas en Inglaterra durante el periodo comprendido entre 1870 y 1938. Estudiaremos al influencia que sobre este consumo ejercen los salarios y el precio de estas bebidas. Los datos (alcohol.sav) son lo siguientes:

29

Cuyo gráfico es el siguiente:

2.2

2.0

1.8

CONSUMO

1.6

1.4

1.2 1870

1878

1874

1886

1882

1894

1890

1902

1898

1910

1906

1918

1914

1926

1922

1934

1930

1938

Fecha

Como en los otros supuestos, el supuesto de independencia de los errores podemos comprobarlo de forma gráfica o analítica. De forma gráfica, representaremos los errores a lo largo del tiempo y observaremos si su distribución refleja una cierta estructura o configuración o por el contrario si su distribución es aleatoria, y concluiremos así si están relacionados o no.

Para ello, vayamos a gráficos/dispersión:

30

Y obtendremos:

.2

Unstandardized Residual

.1

0.0

-.1

-.2 1860

1870

1880

1890

1900

1910

1920

1930

1940

YEAR, not periodic

Obsérvese que los residuales suben progresivamente, descienden luego y se repite el mismo proceso a continuación, lo que es indicativo de su no distribución aleatoria.

31

De forma analítica el test de Durbin-Watson nos permite conocer si existe correlación entre residuos adyacentes. Su expresión es:

∑ (e − e ) ∑e

2

d=

i −1

i

2 i

(

≅ 2 1 − rei ei −1

)

donde rei ei −1 hace referencia a la correlación entre residuales adyacentes (autocorrelación de orden uno). Como puede comprobarse, el valor d oscila entre 0 y 4. Cuando la correlación es perfecta positiva, d=0 y cuando sea perfecta negativa, d=4. En ausencia de correlación, d=2. Podemos calcular la correlación entre residuales adyacentes recurriendo a autocorrelación en gráficos/serie temporal:

donde obtendremos el siguiente cuadro de diálogo:

32

Obteniendo:

Autocorrelations: Lag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

RES_1

Auto- Stand. Corr. Err. -1 _ .861 .118 .758 .117 .651 .116 .515 .115 .396 .114 .280 .113 .139 .112 -.012 .112 -.101 .111 -.221 .110 -.279 .109 -.335 .108 -.417 .107 -.446 .106 -.437 .105 -.390 .104

Plot Symbols: Total cases: _

-.75

Unstandardized Residual -.5 -.25

0

. . . . . .

.5

.75

****.************ ****.********** ****.******** ****.***** ****.*** ****.* . ***. . * . . ** . **** . **.*** . ***.*** . ****.*** . *****.*** . *****.*** . ****.*** .

Autocorrelations * 70

.25

1

Box-Ljung

Prob.

53.430 95.416 126.836 146.859 158.880 164.961 166.482 166.494 167.324 171.387 177.984 187.624 202.859 220.607 237.948 251.992

.000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000

Two Standard Error Limits .

Computable first lags:

68

Se observa que la correlación entre residuales adyacentes es de 0.861 (lag=1). Cuando la distancia es de t=2, la correrlación disminuye hasta 0.758 ..etc. Para conocer el coeficiente de Durbin-Watson:

33

(

)

d = 2 1 − rei ei −1 = 2(1 − 0.861) = 0.278

7.1.- Estimación de parámetros por mínimos cuadrados ordinarios

Aunque más adelante veremos que mediante es procedimiento AREG pueden estimarse parámetros para datos secuenciales de forma adecuada, veremos por el momento, un procedimiento alternativo, más artesanal, pero que permitirá comprender mejor la lógica de la regresión. Se trata de transformar las variables de forma tal que el efecto de autocorrelación quede eliminado. Y con los nuevo datos, libres de autocorrelación, aplicaremos mínimos cuadrados ordinarios. A este respecto, tengamos el siguiente modelo de regresión: Yt = α + β X t + e t (1)

Por otro lado, tengamos la siguiente ecuación de regresión entre residuales adyacentes: et = ρ et −1 + ε t

donde ρ hace referencia a la correlación entre errores adyacentes. Tengamos ahora: Yt −1 = α + βX t −1 + et −1

multipliquemos todo ello por ρ :

ρYt −1 = ρα + ρβ X t −1 + ρet −1 Restándolo de (1): Yt − ρ Yt −1 = α (1 − ρ ) + β ( X t − ρ X t −1 ) + ( et − ρet −1 )

Se observa que el error de este nuevo modelo:

ε t = et − ρ et −1 es aleatorio. Así pues, definiendo las siguientes variables: Yt * = Yt − ρ Yt −1 X t* = X t − ρX t −1

obtendremos al siguiente ecuación con residuales aleatorios: 34

Yt* = α (1 − ρ ) + βX t* + ε t A este respecto, hemos de generar dos nuevas variables (concorre y precorre), de la siguiente manera:

donde conmas1 es el consumo en el periodo t+1 y consumo, la variable consumo en el momento t. Esto es, la siguiente expresión:

Yt * = Yt − ρYt −1 Lo mismo hacemos con la variable precio:

Esto es:

35

X t* = X t − ρX t −1

Como consecuencia de ello, calculamos la regresión entre estas variables transformadas:

Con los siguientes resultados:

Regresión Resumen del modelo Modelo 1

R R cuadrado .883a .780

R cuadrado corregida .777

Error típ. de la estimación .02664421

a. Variables predictoras: (Constante), precio transformada

36

Coeficientesa

Modelo 1

Coeficientes no estandarizados B Error típ. .573 .022 -1.114 .073

(Constante) precio transformada

Coeficientes estandarizad os Beta -.883

t 25.806 -15.294

Sig. .000 .000

a. Variable dependiente: consumo transformada

Obsérvese que las estimaciones de los parámetros son las mismas que el modelo sin tratar la autocorrelación (insesgados) pero en este caso las estimaciones de las varianzas de estos estimadores son correctas. Véase el error tipo de precio cuyo valor es 0.073, muy diferente al caso anterior. En cuanto a los residuales, no se observa ninguna estructura particular en la configuración gráfica:

.1

Unstandardized Residual

0.0

-.1

-.2 1860

1870

1880

1890

1900

1910

1920

1930

1940

YEAR, not periodic

E igualmente carecen de autocorrelación:

MODEL:

MOD_2.

Variable: _

RES_2

Autocorrelations:

Missing cases:

RES_2

2

Valid cases:

68

Unstandardized Residual

37

Lag 1

Auto- Stand. Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 ùòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòôòòòòú .031 .119 . ó* .

Box-Ljung

Prob.

.066

.797

2 3

.145 .218

.118 .117

. .

ó*** . ó****.

1.580 5.076

.454 .166

4 5

.135 .144

.116 .115

. .

ó*** . ó*** .

6.439 7.997

.169 .156

6 7

.127 .117

.114 .113

. .

ó*** . ó** .

9.226 10.296

.161 .172

8 9

-.102 .170

.112 .111

11.125 13.466

.195 .143

10 11

-.249 .028

.110 .109

. .

18.569 18.635

.046 .068

12 13

.136 -.175

.108 .107

. ó***. ****ó .

20.201 22.861

.063 .043

14 15

-.073 -.106

.107 .106

. *ó . **ó

. .

23.331 24.338

.055 .060

16

.051

.105

.

.

24.579

.078

Plot Symbols: Total cases: _

. **ó . . ó***. *.***ó . ó*

Autocorrelations * 70

ó*

Two Standard Error Limits .

Computable first lags:

67

7.2.-.- Modelo autorregresivo

Hay que decir que existen procedimientos estadísticos adecuados para tratar series de datos cuando existe autocorrelación de orden 1 entre sus valores. Se trata de un caso especial de los modelos ARIMA. Se denomina AREG y se encuentra disponible en el SPSS. Así, para los datos que estamos tratando:

38

Con el siguiente cuadro de diálogo:

Cuyo resultado es:

39

Variables in the Model:

AR1 PRECIO CONSTANT

B

SEB

T-RATIO

APPROX. PROB.

.9667144 -.9486926 3.7388321

.03364885 .08535896 .19566689

28.729495 -11.114153 19.108149

.0000000 .0000000 .0000000

Se observan valores parecidos a los estimados anteriormente.

40

Recommend Stories

Story Transcript

Get in touch

Social