Story Transcript
T4. Modelos con variables cualitativas Ana J. L´ opez y Rigoberto P´erez Dpto Econom´ıa Aplicada. Universidad de Oviedo
Curso 2010-2011
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
1 / 28
´Indice
1
Las variables cualitativas en el ´ambito econ´ omico
2
La ”trampa”de las variables ficticias
3
Variables cualitativas dependientes Modelos Logit
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
2 / 28
Modelos con variables cualitativas Competencias
Este tema analiza la posibilidad de incorporar caracter´ısticas cualitativas para mejorar la capacidad explicativa de los modelos y presenta a t´ıtulo introductorio los modelos de variable cualitativa dependiente. Se pretende que a su finalizaci´on los alumnos hayan adquirido las siguientes competencias: Definir e interpretar las variables dummy Comprender las razones que impiden plantear modelos de regresi´on con variables dependientes cualitativas Interpretar los coeficientes estimados de un modelo logit
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
3 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Las variables cualitativas en el ´ambito econ´omico
Algunas variables econ´ omicas pueden depender de caracter´ısticas tales como el g´enero, el sector de actividad, el lugar de residencia, la ideolog´ıa pol´ıtica... I
Ejemplos: Discriminaci´ on salarial por g´enero, impacto sobre el gasto del tipo de gobierno
En el an´alisis temporal pueden existir efectos asociados a la estacionalidad, o cambios de tendencia que tambi´en ser´an recogidos mediante variables cualitativas I
Ejemplos: Estacionalidad en el turismo, impacto de la ampliaci´on de la Uni´ on Europea, ...
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
4 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Incorporaci´on de variables cualitativas
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
5 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Incorporaci´on de variables cualitativas
( 1 Introducci´on de variable dummy: D = 0
si el trabajador es hombre si el trabajador es mujer
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
6 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Modelos con variable dummy: Y = β1 + β2 X + β3 D + u
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
7 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Modelos con variable dummy: Y = β1 + β2 X + β3 D + β4 DX + u
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
8 / 28
Las variables cualitativas en el ´ ambito econ´ omico
Modelos con variable dummy: Y = β1 + β2 X + β3 D + β4 DX + u
En estos gr´aficos, ¿β3 y β4 son significativos? Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
9 / 28
La ”trampa”de las variables ficticias
La ”trampa”de las variables ficticias ( 1 DA = 0
si el trabajador pertenece al sector agricultura en otro caso
( 1 DI = 0
si el trabajador pertenece al sector industria en otro caso
( 1 DC = 0
si el trabajador pertenece al sector construcci´on en otro caso
( 1 DS = 0
si el trabajador pertenece al sector servicios en otro caso
Y = β1 + β2 X + β3 DA + β4 DI + β5 DC + β6 DS + u Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
10 / 28
La ”trampa”de las variables ficticias
La ”trampa”de las variables ficticias Y = β1 + β2 X + β3 DA + β4 DI + β5 DC + β6 DS + u DAi + DIi + DCi + DSi = 1 , ∀i = 1, . . . , n
1 X1 DA1 DI 1 DC 1 DS1 1 X2 DA2 DI 2 DC 2 DS2 X = . . .. .. .. .. .. .. . . . . 1 Xn DAn DIn DCn DSn Relaci´ on lineal o Multicolinealidad entre las variables explicativas (rango no pleno ρ(X) 6= k; |X0 X| = 0 ⇒ X0 X no es invertible, EMC no definidos ) ´ SOLUCION: Excluir una de las r categor´ıas consideradas, definiendo r-1 variables dummy (la categor´ıa excluida es la referencia para la interpretaci´on de coeficientes). Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
11 / 28
La ”trampa”de las variables ficticias
Modelo salarial en funci´on de experiencia y sector econ´omico: Y = β1 + β2 X + β3 DI + β4 DC + β5 DS + u β1 + β2 X + β5 β1 + β2 X + β4 β1 + β2 X + β3 β1 + β2 X
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
12 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada al g´enero Modelo 1: MCO, usando las observaciones 1--50 Variable dependiente: salario
const experiencia
Coeficiente
Desv. T´ ıpica
Estad´ ıstico t
Valor p
831.818 36.5540
310.984 9.19926
2.6748 3.9736
0.0102 0.0002
Media de la vble. dep. Suma de cuad. residuos R2 F (1, 48) Log-verosimilitud Criterio de Schwarz
2010.320 20997328 0.247523 15.78935 −394.6440 797.1120
D.T. de la vble. dep. D.T. de la regresi´ on R2 corregido Valor p (de F ) Criterio de Akaike Hannan--Quinn
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
754.6359 661.3958 0.231847 0.000237 793.2880 794.7442
Curso 2010-2011
13 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada al g´enero Modelo 2: MCO, usando las observaciones 1--50 Variable dependiente: salario
const experiencia masculino
Coeficiente
Desv. T´ ıpica
Estad´ ıstico t
Valor p
185.252 33.8524 1264.94
89.3293 2.52513 52.0198
2.0738 13.4062 24.3165
0.0436 0.0000 0.0000
Media de la vble. dep. Suma de cuad. residuos R2 F (2, 47) Log-verosimilitud Criterio de Schwarz
2010.320 1546114 0.944592 400.6285 −329.4277 670.5915
D.T. de la vble. dep. D.T. de la regresi´ on R2 corregido Valor p (de F ) Criterio de Akaike Hannan--Quinn
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
754.6359 181.3726 0.942234 2.98e–30 664.8555 667.0398
Curso 2010-2011
14 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada al g´enero Modelo 3: MCO, usando las observaciones 1--50 Variable dependiente: salario
const experiencia masculino exp masc
Coeficiente
Desv. T´ ıpica
Estad´ ıstico t
Valor p
857.022 12.6705 225.344 32.4578
64.4528 1.95120 80.9078 2.41534
13.2969 6.4937 2.7852 13.4382
0.0000 0.0000 0.0077 0.0000
Media de la vble. dep. Suma de cuad. residuos R2 F (3, 46) Log-verosimilitud Criterio de Schwarz
2010.320 313882.3 0.988751 1347.808 −289.5657 594.7795
D.T. de la vble. dep. D.T. de la regresi´ on R2 corregido Valor p (de F ) Criterio de Akaike Hannan--Quinn
754.6359 82.60465 0.988018 8.19e–45 587.1314 590.0438
Los trabajadores de g´enero MASCULINO ven aumentado su salario esperado y tambi´en el efecto marginal de la experiencia sobre el salario Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
15 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada a la estacionalidad 700000
600000
turismo
500000
400000
300000
200000
100000
0
1960
1970
1980
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
1990
2000 Curso 2010-2011
16 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada a la estacionalidad
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
17 / 28
La ”trampa”de las variables ficticias
Ilustraci´on: Variable dummy asociada a la estacionalidad Modelo 3: MCO, usando las observaciones 1983:3--2004:4 (T = 86) Variable dependiente: turismo
const dq2 dq3 dq4
Coeficiente
Desv. T´ ıpica
Estad´ ıstico t
Valor p
239171. 74095.4 75382.9 −108457.
28294.6 40014.7 39557.3 39557.3
8.4529 1.8517 1.9057 −2.7418
0.0000 0.0677 0.0602 0.0075
Media de la vble. dep. Suma de cuad. residuos R2 F (3, 82) Log-verosimilitud Criterio de Schwarz ρˆ
248803.2 1.38e+12 0.262667 9.737208 −1132.432 2282.681 0.528413
D.T. de la vble. dep. D.T. de la regresi´ on R 2 corregido Valor p (de F ) Criterio de Akaike Hannan--Quinn Durbin--Watson
148313.1 129662.3 0.235691 0.000014 2272.864 2276.815 0.942326
Respecto al primer trimestre el turismo aumenta sistem´aticamente el segundo trimestre y tambi´en el tercero. Por el contrario en el cuarto se reduce Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
18 / 28
Variables cualitativas dependientes
Modelos de variable cualitativa dependiente
En algunas ocasiones nuestro objetivo es explicar una variable dependiente cualitativa: Con dos modalidades: Modelos binomiales Con m´as de dos modalidades: Modelos multinomiales Con varias modalidades que presentan un orden natural: Modelos ordenados Con modalidades asociadas a una decisi´ on que condiciona las siguientes: Modelos secuenciales
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
19 / 28
Variables cualitativas dependientes
Modelos de variable cualitativa dependiente El modelo lineal y = Xβ + u no es aplicable para variables dependientes dicot´omicas Las perturbaciones u son dicot´ omicas y por tanto no normales Al ser y dicot´omica se cumple E (y) = p No est´a garantizado que E (y) = Xβ adopte valores entre 0 y 1 1
Y = 0.473 + 0.000478t
0.8
0.6
0.4
0.2
0
1985
1990
1995
2000
2005
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
2010
Curso 2010-2011
20 / 28
Variables cualitativas dependientes
Modelos de variable cualitativa dependiente ´ SOLUCION:
Introducir una variable auxiliar (˝variable ´ındice˝) Z continua que se interpreta como ˝propensi´ on˝ a la categor´ıa investigada (encontrar empleo, afiliarse a un sindicato, realizar una compra, ...) ( 1, si Z > 0 Y = 0, si Z ≤ 0 pi 1 − pi
= P(Y = 1) = P(Z > 0) = P(x0 β + u > 0) = P(u > −x0 β) = 1 − Fu (−x0 β) = P(Y = 0) = P(Z ≤ 0) = P(x0 β + u ≤ 0) = P(u ≤ −x0 β) = Fu (−x0 β)
Asumiendo ciertas distribuciones probabil´ısticas para u (log´ıstica, Normal, uniforme, ... ) es posible conocer la distribuci´ on de probabilidad de la variable Y. Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
21 / 28
Variables cualitativas dependientes
Modelos Logit, Probit y Uniforme
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
22 / 28
Variables cualitativas dependientes
Modelos Logit
Modelos Logit Funci´on log´ıstica de distribuci´ on de los errores: Fu (x) =
1 1 + e −x 0
pi = P(Yi = 1) = 1 − Fu (−x0i β) = 1 −
e xi β 1 = 0 0 1 + e xi β 1 + e xi β
0 0 0 pi 1 + e xi β = e xi β ⇒ e xi β =
ln e
ln
x0i β
pi 1 − pi
= ln
pi 1 − pi
pi 1 − pi
= x0i β
= β1 + β2 X2i + · · · + βk Xki
Logit expresados como funci´ on lineal de las variables explicativas Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
23 / 28
Variables cualitativas dependientes
Modelos Logit
Ilustraci´on: Modelo logit para el empleo
Modelo logit para explicar si una persona est´a ocupada en funci´on de sus estudios
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
24 / 28
Variables cualitativas dependientes
Modelos Logit
Ilustraci´on: Modelo logit para el empleo
Iteraci´ on 0: log-verosimilitud = -504.571221559 Iteraci´ on 1: log-verosimilitud = -491.183952849 Iteraci´ on 2: log-verosimilitud = -491.172320140 Iteraci´ on 3: log-verosimilitud = -491.172320124 Criterio de parada basado en Log-Verosimilitud
Modelo 2: Logit, usando las observaciones 1--740 Variable dependiente: empleo
const estudios
Coeficiente
Desv. T´ ıpica
−1.74855 0.168757
0.429247 0.0347109
Media de la vble. dep. R 2 de McFadden Log-verosimilitud Criterio de Schwarz
0.578378 0.025064 −491.1723 995.5579
z
Pendiente∗
−4.0735 4.8618
. 0.0410787
D.T. de la vble. dep. R 2 corregido Criterio de Akaike Hannan--Quinn
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
0.243419 0.021094 986.3446 989.8969
Curso 2010-2011
25 / 28
Variables cualitativas dependientes
Modelos Logit
Ilustraci´on: Modelo logit para el empleo 402 403 404 405
1.000000 1.000000 1.000000 1.000000
0.401674 0.648864 0.568697 0.568697
0.598326 0.351136 0.431303 0.431303
423 424
1.000000 1.000000
0.754049 0.484760
0.245951 0.515240
429 430 431 432 433 434 435 436 437 438
0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000
0.568697 0.721430 0.568697 0.568697 0.568697 0.568697 0.609520 0.568697 0.568697 0.484760
-0.568697 -0.721430 -0.568697 -0.568697 -0.568697 -0.568697 -0.609520 -0.568697 -0.568697 -0.484760
Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Falso negativo
Falso negativo Falso Falso Falso Falso Falso Falso Falso Falso Falso
positivo positivo positivo positivo positivo positivo positivo positivo positivo
Curso 2010-2011
26 / 28
Variables cualitativas dependientes
Modelos Logit
Bondad de los modelos Logit −2 ln
Medida basada en raz´on de verosimilitudes
R2 = 1 −
Medida de Mc Fadden (1974)
Proporci´on de aciertos
LNR LR ln LNR ln LR
N´ um, predicciones correctas N´ um. observaciones
LNR: M´ax de L respecto a todos los par´ametros LR: M´aximo de L restringido (con βi = 0, ∀i) La raz´on de verosimilitudes contrasta la nulidad de β Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
27 / 28
Variables cualitativas dependientes
Modelos Logit
Ilustraci´on: Modelo logit para el empleo const estudios
Coeficiente
Desv. T´ ıpica
−1.74855 0.168757
0.429247 0.0347109
Media de la vble. dep. R 2 de McFadden Log-verosimilitud Criterio de Schwarz
0.578378 0.025064 −491.1723 995.5579 ∗ Evaluado
z
Pendiente∗
−4.0735 4.8618
. 0.0410787
D.T. de la vble. dep. R 2 corregido Criterio de Akaike Hannan--Quinn
0.243419 0.021094 986.3446 989.8969
en la media
N´ umero de casos ´´correctamente predichos´´ = 442 (59.7 percent) f (β 0 X ) en la media de las variables independientes = 0.243 Contraste de raz´ on de verosimilitudes: χ2 (1) = 25.254 [0.0000]
Observado
0 1
Predicho 0 1 64 248 50 378
Este modelo logit clasifica correctamente 442 casos (casi el 60 %). Hay 248 falsos positivos (34 %) y 50 falsos negativos (6 %) Ana J. L´ opez y Rigoberto P´ erez (Dpto Econom´ıaT4. Aplicada. Modelos Universidad con variables de Oviedo) cualitativas
Curso 2010-2011
28 / 28