TALLER INTERNACIONAL CREANDO RECOLECCIÓN Y ANÁLISIS DE DATOS. Lima Feb, Análisis Econométrico

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL TALLER INTERNACIONAL “CREANDO CAPACIDAD

Author: Sofia Castro Alcaraz

2 downloads 129 Views 7MB Size

Report

DOWNLOAD PDF

Recommend Stories

modelos aditivos y multiplicativos en el anlisis de matrices multitrazos-multimtodos de cuestionarios de intereses profesionales

´ tica: Teor´ıa y Aplicaciones 1998 5(1) : 49–56 Revista de Matema cimpa – ucr – ccss issn: 1409-2433 modelos aditivos y multiplicativos en el anlis

CREANDO UNA BASE DE DATOS DE INVENTARIO

Lima, Organismo Internacional

creando... creando

CURSO-TALLER INTERNACIONAL

I Taller Internacional

Seminario-Taller Internacional

:?Poderc1d,:Cial. ')(' O'H -looj-997y' Lima, 1 9 FEB. 7107

Feb

COORDINACION ELA - AMEM TALLER CONSTRUYENDO IDENTIDAD, CREANDO NUESTRA IMAGEN

COORDINACION ELA - AMEM TALLER CONSTRUYENDO IDENTIDAD, CREANDO NUESTRA IMAGEN XIOMARA ASITRID HURTADO SANCHEZ - COORDINACION ELA AMEM TALLERISTA: C

Story Transcript

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL” INFANTIL Lima 19-23 Feb, 2007 Análisis Econométrico 1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresió Regresión La regresión es la técnica estadística más extendida y se utiliza para estimar las relaciones entre variables independientes (explicatorias) y la variable dependiente.

Los modelos de regresión ayudan a entender y explicar las relaciones entre varias variables; también sirven para predecir resultados.

2

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple

3

El análisis de regresió regresión lineal simple trata de modelar la relacióón entre dos variables ajustando una ecuació relaci ecuación lineal a los datos observados. Una de las variables se considera la variable explicatoria p y la otra,, la variable dependiente.

Antes de ajustar un modelo lineal a los datos observados, el investigador debe determinar si entre las variables de interé interés existe una relació relación. n Esto no significa que obligatoriamente una variable cause la otra, sino que existe algún q g tipo p de asociaci asociació ón entre ellas.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple Para iinvestigar P ti ell alcance l d de cualquier l i asociación i ió entre t dos d variables se puede recurrir tanto a gráficos como a métodos numéricos.

Scatterplot

0

20

chil_labor c

40

60

0

4

500 0

10 000

gd p

15 000

2 0000

2500 0

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple

Coeficiente de correlación y covarianza La covarianza y el coeficiente de correlación son parámetros estrechamente relacionados entre sí e indican el grado en el que dos variables aleatorias co-varian.

cov( x, y ) =

∑ (x

i

− x )( yi − y )

i

n −1

Para cuantificar la asociación lineal entre dos variables se utiliza el coeficiente de correlación

r= 5

∑ ( x − x )( y − y ) ∑ ( x − x )∑ ( y − y 2

2

)

− 1 ≤ r ≤ +1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple

y = α + βx + ε Estimación de los parámetros

cov( x, y ) β= = var( x)

∑ ( x − x )( y − y ) ∑ (x − x)

y = dependent variable α = constant term (intercept) x = independent variable β = slope l off the th line li

ε = error term 6

α = y − bx

2

Variable dependiente Término constante Variable independiente Pendiente de la recta Término de error

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple Inferencia Es la obtención de conclusiones estadísticas sobre las propiedades de una población basándose en la observación de una muestra obtenida de la propia población. La inferencia estadística se basa en el Contraste de Hipótesis

H 0 : β1 = 0 H1 : β1 ≠ 0 Predicciones:

yˆ = αˆ + βˆx Los valores L l predichos di h se calculan l l substituyendo b tit d los l parámetros á t estimados en la ecuación de la recta de regresión

7

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Regresión Lineal :Bondad del ajuste

El Coeficiente de Determinación mide la bondad del ajuste

explained variation R= = total variation

2 ˆ ( y − y ) ∑ i i

2 ( y − y ) ∑ i i

El coeficiente de determinación mide la proporción de la variabilidad de la variable dependiente que es explicada por el modelo de regresión; es una medida sobre bondad del ajuste de nuestro modelo. Puede variar entre 0 y 1.

8

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltiple y = α + β1 x1 + β 2 x2 + ..... + β n xn + ε Por lo que:

b0 = Y − bˆ1 X 1 − bˆ2 X 2 − ..... − bˆk X k + ε N

b1 =

∑(X i =1

N

∑(X i =1

i2

i2

N

N

N

i =1

N

i =1 N

i =1 N

i =1

i =1

i =1

− X 2 ) X i 2 ∑ (Yi − Y ) X 1i −∑ ( X i 2 − X 2 ) X i1 ∑ (Yi − Y ) X 2i

− X 2 ) X i 2 ∑ ( X i1 − X 1 ) X 1i −∑ ( X i 2 − X 2 ) X i1 ∑ ( X i1 − X 1 ) X 2i

Coeficiente de correlación múltiple: es una estimación de la influencia combinada de 2 o más variables sobre la variable observada (dependiente).

9

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Supuestos del método de Mínimos Cuadrados Ordinarios (MCO)

Linealidad: la relación entre los parámetros y la variable debe ser lineal.

Normalidad: los errores deben tener una distribución normal -técnicamente sólo la normalidad es necesaria para que el constraste de hipótesis sea válido. La estimación de los coeficientes sólo requiere que los errores estén idénticamente e independientemente distribuidos distribuidos.

Homogeneidad de la varianza (homocedasticidad): la varianza del error debe ser constante. constante

Independencia: los errores asociados a una observación no están correlacionados con los errores asociados a otra observación observación.

Colinearidad: los parámetros fuertemente correlacionados (linealmente relacionados) pueden causar problemas a la hora de estimar los coeficientes de la regresión.

10

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltiple Ejemplo y=α+β1 X1+β2X2+ε; Trabajo infantil= α+β1 gdp+β2 gastos salud+ comercio +ε

Sourcea | SSb dfc MSd -------------+-----------------------------Model | 1297.21951 3 432.406502 Residual | 1430.0413 13 110.003177 -------------+-----------------------------Total | 2727.2608 16 170.4538

Number of obse F( 3, 13)f Prob > F R-squaredg Adj R-squaredh Root MSEi

= 17 = 3.93 = 0.0337 = 0.4756 = 0.3546 = 10.488

-----------------------------------------------------------------------------Coef.k Std. Err.l tm P>|t|m [95% Conf. Interval]n chil_laborj | -------------+---------------------------------------------------------------gdp | -.0065468 .0032733 -2.00 0.067 -.0136184 .0005248 h lth | -1.791425 health 1 791425 1.666642 1 666642 -1.07 1 07 0 0.302 302 -5.391986 5 391986 1 1.809136 809136 trade | .4884833 .285445 1.71 0.111 -.128183 1.10515 _cons | 27.30993 5.63761 4.84 0.000 15.13062 39.48925 ------------------------------------------------------------------------------

11

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltiple: Interpretación de los resultados

a: Es la fuente de la varianza: modelada (Model), residual y total. La varianza total se divide en la varianza explicada por las variables independientes (Modelada) y la varianza que las variables independientes no logran explicar (Residual). Nótese que la Suma de los Cuadrados (Sums of Squares ) del Modelo y del Residual es igual a la Varianza Total.

b: Son las Sumas de los Cuadrados asociadas a cada una de las tres fuentes de varianza (total, modelada y residual). Pueden calcularse de diversos modos. Conceptualmente, estas fórmulas pueden expresarse como: SStotal La variabilidad total alrededor de la media S(Y-Ybar)2 L suma d de llos cuadrados d d d dell error d de lla predicción di ió S(Y - Ypredicted)2. Y di d)2 SSResidual La La mejora de la predicción derivada de la utilización de la predicción de Y en lugar de la SSModel simple media de Y. Asi, este valor es la suma de las diferencias entre los valores predichos de Y y la media de Y, S(Ypredicted - Ybar)2. Otra forma de interpretarlo es pensar que SSModel= SSTotal - SSResidual. SSResidual Nótese que SSTotal = SSModel + SSResidual SSResidual. Nótese que SSModel / SSTotal es igual a 0.47, el valor de R-cuadrado (R-squared). Esto se debe a que R-cuadrado es la proporción de la varianza total que viene explicada por las variables independientes, y por lo tanto puede calcularse como SSModel / SSTotal.

c: Son S los l grados d d de lib libertad t d (GL) asociados i d a cada d una d de llas ffuentes t d de varianza. i L La varianza i ttotal t l titiene N N-1 1 grados de libertad. En este caso existen N=17 observaciones, por lo tanto los GL Totales son 16. Los grados de libertad del Modelo corresponden al número de parámetros menos 1 (K -1). Podría pensarse que esto sería 3-1 (puesto que existen 3 variables independientes en el modelo), pero la constante se incluye automáticamente en el modelo (a no ser que se omita de forma explícita) explícita). Al incluir la constante constante, existen 4 parámetros parámetros, por lo tanto tanto, los grados de libertad del Modelo son 4-1=3. Los grados de libertad del Residuo son los GL Totales menos los GL del Modelo, 16-3=13.

12

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

d: Es d E la l M Media di d de llos C Cuadrados d d (M (Mean S Squares), ) es decir, d i lla S Suma d de llos C Cuadrados d d (S (Sum off S Squares ) di dividida idid por los Grados de Libertad. Para el Modelo sería 1297/3=432. Para el Residuo, 1430/13=110. Se calculan para calcular el F-ratio: se divide el Cuadrado de la Media del Modelo (Mean Square Model ) entre el Cuadrado de la Media del Residuo (Mean Square residual). Se uliliza para contrastar la significancia de los parámetros del modelo.

e: Es el número de observaciones que se utilizan en el análisis de regresión.

f: El F-valor es el Cuadrado de la Media del Modelo (Mean Square Model ) dividida por el Cuadrado de la Media del Residuo (Mean Square Residual), en este caso el F-valor=3.93. El p-valor asociado a este F-valor es muy bajo (0.03). Estos valores se utilizan para responder a la pregunta: “¿Las variables independientes predicen correctamente la variable dependiente?”. El p-valor se compara con un nivel de alpha (suele usarse un alpha=0.05). Si el p-valor es inferior a alpha se concluye que “Las variables independientes predicen correctamente la variable dependiente ” Si el p dependiente. p-valor valor es superior a alpha, alpha se concluye que las variables independientes no están significativamente relacionadas con la variable dependiente, es decir que las variables independientes no predicen correctamente la variable dependiente.

g: El R-cuadrado R cuadrado es la proporción de la variabilidad de la variable dependiente (trabajo infantil) que puede predecirse con las variables independientes (gdp, gastos en salud y comercio). El valor indica que alrededor del 50% de la variabilidad del trabajo infantil es explicada por las variables gdp, salud y comercio.

13

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

14

h: Es el R-cuadrado Ajustado (Adjusted R-square). Al incluir nuevos parámetros en el modelo, cada uno de ellos explicaría algo de la variabilidad de la variable dependiente debido simplemente a la casualidad. Por lo tanto la inclusión de nuevos parámetros al modelo aumentará la habilidad de los parámetros para predecir la variable dependiente, pero una parte de esta mejora se deberá únicamente a la casualidad en esa muestra particular. El Rcuadrado Ajustado ofrece un valor más confiable para estimar el R-cuadrado de la población. El valor del Rcuadrado es aproximadamente 0.5, mientras que el R-cuadrado Ajustado = 0.35. El R-cuadrado Ajustado se calcula tal que: 1 - ( (1-R-sq)(N-1 / N - k - 1) ). De esta fórmula se deriva que si el número de observaciones es pequeño y el número de parámetros es elevado, elevado la diferencia entre el R R-cuadrado cuadrado Ajustado y el R R-cuadrado cuadrado es amplia (ya que el ratio (N-1 / N - k - 1) será muy inferior a 1). Si en cambio, el número de observaciones es grande comparado con el número de parámetros, el valor del R-cuadrado Ajustado será parecido al valor del R-cuadrado Ajustado, ya que el ratio (N-1)/(N-k-1) estará próximo a 1. i: La raiz de la Media de la Suma de cuadrados es la desviación típica del error, y es la raiz cuadrada de la Media de Cuadrados Residual (o Error) j: Esta columna muestra la variable dependiente (trabajo infantil) y más abajo las variables independientes (gdp, gastos en salud y comercio). La última variable (_cons), representa la constante del modelo, también es el valor de la recta de regresión en el punto en el que esta cruza el eje Y. k: Son los valores de la ecuación para predecir la variable dependiente a través de las variables independientes independientes. Estas estimaciones muestran la relación entre la variable dependiente y las independientes. Indican el incremento del trabajo infantil que se produce por el incremento en una unidad de las variables independientes. Nota: Si una de las variables independientes no es significativa, su coeficiente no será significativamente diferente de 0, lo que deberá tenerse en cuenta a la hora de interpretar el coeficiente. (observar las columnas del p-valor y t-valor para contrastar t t la l significancia i ifi i de d llos coeficientes). fi i t ) gdp- El coeficiente (parámetro estimado) es -0.065. Por lo tanto, el aumento en una unidad del producto interior bruto provoca la disminución del trabajo infantil en 0.065 unidades.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

ll: Son S los l errores tí típicos i asociados i d a llos coeficientes. fi i t L Los errores tí típicos i se utilizan tili para d determinar t i sii llos parámetros son o no significativamente diferentes de 0. Dividiendo los parámetros estimados por el error típico se obtiene el t-valor (observar la columna con el p-valor y t-valor ). Los errores típicos se utilizan también para construir los intervalos de confianza del parámetro (últimas dos columnas de la tabla 2).

m: Estas columnas proporcionan el t-valor y el p-valor bilateral (de dos colas) para contrastar la hipótesis nula (el coeficiente o parámetro es igual a 0). Si se utiliza un contraste bilateral, entonces debe compararse cada p-valor con el valor seleccionado de alpha. Los coeficientes con un p-valor inferior a alpha son significativos. Por ejemplo, si se elige un alpha de 0 0.05, 05 los coeficientes con un valor inferior o igual a 0 0.05 05 serán estadísticamente significativos (es decir que se rechaza la hipótesis nula y por lo tanto los coeficientes son significativamente diferentes de 0). Si se utiliza un contraste unilateral ( es decir que se predice que el parámetro se distribuye en una determinada dirección), se debe dividir el p-valor entre 2, y comparar este resultado con el valor elegido de alpha. Con un contraste bilateral y un valor de alpha p de 0.05 se rechaza la hipótesis p nula p para los coficientes del g gdp p y de los g gastos en salud. La constante es significativamente diferente de 0 para un alpha de 0.05 (aunque una constante significativa es de poca importancia).

n: Son los intervalos de confianza de los coeficientes al 95%. Son muyy útiles p puesto q que muestran cuan alto o cuan bajo podría ser el valor poblacional del parámetro. El intervalo de confianza permite observar cuanto podría variar la estimación del coeficiente.

15

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión: Violación de los supuestos

Cuando C d se realiza li una regresión ió lilineall se asume que relación l ió entre lla variable i bl respuesta y llos parámetros es lineal. Si este supuesto no se cumple, la regresión lineal intentará ajustar a una recta datos que no se distribuyen de tal forma.

Multicolinearidad: Este problema se produce cuando existe una elevada correlación entre las variables explicativas. La presencia de multicolinearidad en un modelo se debe a la presencia de coeficientes inestables. La Variación del Factor de Expansión ayuda al investigador a detectar la multicolinearidad:

VIF = 1 /(1 − R 2 ) Si xj está fuertemente correlacionada con el resto de variables x, la VFE será alto. Esto aumentaría la varianza de bj lo que haría difícil la obtención de t-ratios t ratios significativos. significativos Generalmente se utiliza un valor de 10 como frontera para detectar la multicolinearidad.

16

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Normalidad: El supuesto de normalidad asegura que los p-valores para los contrastes t y F son válidos. La normalidad de los residuos sólo se requiere para validar el contraste de hipótesis.

0

.01

Density .02

.0 03

.04

-20

-10

0 Residuals

10

Kernel density estimate Normal density

17

20

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Homocedasticidad: homogeneidad de la varianza de los residuos. Si el modelo se ajusta correctamente no debería existir ningún patrón en la distribución de los residuos contra los valores predichos.

-10

0

duals Resid 10

20

30

-10

18

0

10 Fitted values

20

30

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelos con variables categóricas Considérese una variable dependiente discreta: 1. Participación en la fuerza laboral:0,1; Asistencia a escuela:0,1 2. Variable categórica; rankings, 3 Actividades de los niños: sólo categorías 3. categorías, no rankings. rankings En cada uno de estos casos, se pueden construir modelos que relacionan l resultados los l d con un conjunto j d de ffactores en lla regresión. ió Cada uno de estos modelos p puede ser analizado dentro del marco g general de modelos probabilísticos. Prob(evento j ocurra )=Prob(Y=j)=F[efectos relevantes: parámetros]

19

(1)

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Elección binaria: Modelos Logit y Probit Elección simple: Probabilidad estimada de que un niño trabaje Los modelos Probit y Logit son una extensión de los principios de los Modelos Lineales Generales (ej: regresiones), pero tratan de forma más adecuada la presencia de variables dependientes dicotómicas dicotómicas. Además, los modelos Probit y Logit son no-lineales y predicen probabilidades entre 0 y 1 1, evitando resultados negativos para las probabilidades. Estos métodos difieren de las regresiones estandar ya que utilizan la estimación por máxima verosimilitud de una función relacionada con la variable dependiente en lugar de la estimación por mínimos cuadrados de la propia variable.

20

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo para explicar una variable binaria (0/1): participación en la fuerza laboral

Y=1 si trabaja j Y=0 si no trabaja Formalmente:

Pr ob(Y = 1) = F ( x, β ) Pr ob(Y = 0) = 1 − F ( x, β ) Donde : x representa el vector del conjunto de factores (variables independientes) que explican la decisión; β refleja el impacto de los cambios de x sobre la probabilidad de observar el resultado.

21

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Dado (1), y un vector de regresores, se espera que: lim Pr ob(Y = 1) = 1 β ′x → +∞

lim Pr ob(Y = 1) = 0 β ′x → −∞

and

Asumiendo que el error del modelo se distribuye según una distribución normal εi ~ N(0,σ2)

⎛ β 0 + β1 X 1i ⎞ Prob(Yi = 1) = F ⎜ ⎟ σ ⎝ ⎠ Donde F es la función de densidad acumulativa normal (fdc). El modelo probit sería:

β ′x

Pr ob(Y = 1) = ∫ φ (t )dt = Φ ( β ′x) −∞

22

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

P Para ell modelo d l logit l i se especifica: ifi

e β ′x Pr obb(Y = 1) = β ′x 1+ e La estimación L ti ió de d ambos b modelos d l se b basa en ell método ét d d de máxima á i verosimilitud. i ilit d El modelo con una probabilidad de suceso F(β’x) y observaciones independientes lleva a la siguiente función de verosimilitud:

Prob(Y1 = y1 , Y2 = y2 ,...., Yn = yn ) = ∏ [1 − F ( β ' xi )]∏ F ( β ' xi ) yi = 0

n

L = ∏ [ F ( β ' xi )] yi [1 − F ( β ' xi )]1− yi i =1

23

yi =1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Ejemplo: Modelo Logit Análisis de Regresión Logit: niños de 7-14, Cambodia SIMPOC, 1999 Logit estimates

Log likelihood = -11271.908 -11271 908 a Employ f age age2 female heduc _cons

24

Coef. g .8399446 -.0255606 .0228988 -.1934458 -5.614562

Std. Err. h .0771764 .0036217 .0318416 .0220245 .401064

Number of obs =17706 b LR chi2(4) =1955.12 c Prob > chi2 =0.0000 d Pseudo R2 = 0 0798 e 0.0798 zi

P>z l

[95% Conf. Interval]

10.88 -7.06 0.72 -8.78 -14.00

0.000 0.000 0.472 0.000 0.000

.6886816 -.032659 -.0395096 -.2366131 -6.400633

.9912076 -.0184621 .0853072 -.1502786 -4.828491

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Análisis de Regresión Logit: Interpretación de los resultados a) Log verosimilud- es el log de la verosimilitud del modelo final

b) Es el número de observaciones que se utiliza en el análisis. Este número puede ser inferior al número total de observaciones de la base de datos si existen valores omitidos (“missing values”) en las variables incluidas en el análisis . Si existe algún valor omitido en una de las variables de la regresión regresión, se excluye la totalidad de la observación del análisis. análisis c) Este es el ratio de verosimilitud, el contraste chi-cuadrado. Se define como la diferencia (en té i términos absolutos) b l t ) entre t ell primer i (it (iteración ió 0) y ell último últi valor l d dell llog d de lla verosimilitud i ilit d multiplicado por 2. Entre paréntesis se muestran los grados de libertad. d) Muestra la probabilidad de obtener el estadístico chi-cuadrado si las variables independientes no tienen efecto sobre la variable dependiente. Es el p-valor y puede compararse con 0.05 o 0.01 para determinar si el modelo es estadísticamente significativo o no.

25

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

e) Es el pseudo R-cuadrado R cuadrado del modelo logit, pero no es equivalente al R-cuadrado R cuadrado de la regresión de MCO. f) El empleo es la variable dependiente que toma el valor 1 si el entrevistado declara que trabaja y 0 en caso contrario. Las variables enumeradas a continuación son las variables independientes. g) Son los coeficientes, es decir los valores predichos de la variable dependiente. Se expresan en unidades log-odds. g(p p) log(p/1-p)=b0+b1*x1+b2*x2….. La estimación muestra el aumento en el incremento del log-odds predicho (cuando empleo=1) que sería predicho con el aumento en 1 unidad, manteniendo el resto de variables constante. h) Los errores típicos se utilizan para contrastar si los parámetros difieren estadísticamente de 0. Dividiendo el parámetro entre el error típico, se obtiene el z-valor. P>z son los p-valores relativos.

26

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelos Logit y Probit: Efectos marginales Considérese el siguiente modelo probabilístico

E[ y | x] = 0[1 − F ( β ′x)] + 1[ F ( β ′x)] = F ( β ′x)

En general, se define el efecto marginal como ∂E[ y | x] ⎧ dF ( β ′x) ⎫ =⎨ ⎬β = f ( β ′x) β ∂x ⎩ d ( β ′x) ⎭

E ell M En Modelo d l L Logit it dΛ ( β ′x) e β ′x = = Λ ( β ′x)[1 − Λ ( β ′x)] β ′x 2 d ( β ′x) (1 + e )

27

Es posible calcular los efectos marginales en la media muestral de los datos, o en cada observación, utilizando la media muestral de los efectos marginales individuales.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Ejemplo: Efectos marginales después de una estimación Logit Efectos marginales después de Logit y = Pr(employ) (predict)= .46822922 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | .2091383 .01919 10.90 0.000 .171521 .246756 10.5481 age2 | -.0063643 .0009 -7.06 0.000 -.00813 -.004598 116.384 f female*| l *| .0057016 0057016 .00793 00793 0 0.72 72 0 0.472 472 -.009837 009837 .021241 021241 .489834 489834 heduc | -.0481662 .00548 -8.78 0.000 -.058914 -.037418 2.11352 -----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1

28

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Probit Bivariante Actividades de los niños: Empleo=0,1; Asistencia a la escuela=0,1

La especificación general de un modelo de dos ecuaciones es

y1* = β1′x1 + ε 1 , y1 = 1

if y1* > 0, 0 otherwise h i

y2* = β 2′ x2 + ε 2 , y 2 = 1 if y*2 > 0, 0 otherwise E[ε 1 ] = E[ε 2 ] = 0 Var[ε 1 ] = Var[ε 2 ] = 1 Cov[ε 1,ε 2 ] = ρ 29

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Probit Bivariante La función de densidad acumulativa (fdc) bivariante es Pr ob( X 1 < x1 , X 2 < x2 ) =

x2 x1

∫ ∫ φ ( z , z , ρ )dz dz 2

1

2

1

2

− ∞− ∞

the density function is

φ2 ( z1 , z 2 , ρ ) =

e

− (1 / 2 )( x12 + x22 − 2 ρx1 x2 ) /(1− ρ 2 )

2π (1 − ρ 2 ) (1/ 2)

ρ = correlation coefficient between the two equations X1 and X 2 = row vectors of explanatory variables which determine the probability of the outcome 1 Coeficiente de correlación entre dos ecuaciones 1. 2. Vectores fila de las variables explicativas que determinan la probabilidad del resultado

30

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Para P construir t i ell modelo d l llog d de verosimilitud i ilit d sea:

qi1 = 2 yi1 − 1 and qi 2 = 2 yi 2 − 1. qi1 = 1 if yi1 = 1 and qi1 = −1 if yi1 = 0, j = 1,2 Sea zij = β 'j x ij and wij = qij zij , j = 1,2 and ρ i* = qi1qi 2 ρ

L probabilidades Las b bilid d que entran t en lla ffunción ió de d verosimilitud i ilit d son

Pr ob(Y1 = yi1 , Y2 = yi 2 ) = Φ 2 ( wi1 , wi 2 , ρ i* ) n

Thus

log L = ∑ ln Φ 2 ( wi1 , wi 2 , ρ i* ) i =1

31

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Bivariate probit regression Log likelihood = -18312.713 Coef.

Number of obs = 17706 Wald chi2(8) = 3429.94 Prob > chi2 = 0.0000 Std. Err.

z

P>z

Interval]

Employ age age2 female heduc _cons Attend age age2 2 female heduc _cons

0.502 -0.015 0.013 -0.117 0 117 -3.379

0.046 0.002 0.020 0 013 0.013 0.240

10.81 -6.87 0.68 -8.73 8 73 -14.08

0.000 0.000 0.496 0 000 0.000 0.000

0.411 -0.019 -0.025 -0.144 0 144 -3.849

0.592 -0.011 0.051 -0.091 0 091 -2.909

1.470 -0.066 0 066 -0.063 0.426 -7.646

0.054 0 003 0.003 0.024 0.017 0.273

27.46 -25.75 25 75 -2.66 24.98 -28.01

0.000 0 000 0.000 0.008 0.000 0.000

1.365 -0.071 0 071 -0.110 0.393 -8.181

1.575 -0.061 0 061 -0.017 0.459 -7.111

/athrho

-0.0448

0.016

-2.84

0.005

-0.076

-0.014

-0.0756

-0.0139

rho -0.0447 0.0157 Likelihood-ratio test of rho=0: chi2(1) = 8.07329 Prob > chi2 = 0.0045 Niños de 7-14, Cambodia SIMPOC, 1999

32

[95% Conf.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Probit Bivariante: Efectos marginales

Un modelo probit bivariante permite evaluar diversos “efectos marginales”. Se empieza p p por los términos q que se introducen en la función log g de verosimilitud

Pr ob(Y1 = yi1 , Y2 = yi 2 ) Y considerando el modelo,

Pr ob[ y1 = 1, y2 = 1 | x1 , x2 ] = Φ 2 ( β1' x1 , β 2' x2 , ρ )

Se derivan la totalidad de los efectos marginales

P11 = Φ2 (β x , β x , ρ) ' 1 1

' 2 2

P01 = Φ2 (−β1' x1, β2' x2 ,−ρ) 33

P10 = Φ2 (β x ,−β x , ρ) ' 1 1

' 2 2

P00 = Φ2 (−β1' x1,−β2' x2 , ρ)

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Marginal effects after Bivariate Probit y = Pr(employ=1,attend=0) (predict, p10)= .06922911 -----------------------------------------------------------------------------variable | dy/dx / Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.13143 .00681 -19.30 0.000 -.144775 -.118085 10.5481 age2 | .0062839 .00032 19.53 0.000 .005653 .006915 116.384 female*| .0076068 .00282 2.69 0.007 .002071 .013143 .489834 heduc | -.0526446 .00212 -24.78 0.000 -.056809 -.048481 2.11352 -----------------------------------------------------------------------------y = Pr(employ=0,attend=1) (predict, p01)= .46045381 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.0053984 .01724 -0.31 0.754 -.039183 .028386 10.5481 age2 | -.0022955 .00081 -2.83 0.005 -.003887 -.000704 116.384 f female*| l *| -.0117152 0117152 .00725 00725 -1.62 1 62 0 0.106 106 -.025926 025926 .002495 002495 .489834 489834 heduc | .0883269 .00505 17.48 0.000 .078422 .098232 2.11352 -----------------------------------------------------------------------------y = Pr(employ=1,attend=1) (predict, p11) = .40060938 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------+ age | .3309435 .01684 19.66 0.000 .297946 .363941 10.5481 age2 | -.0122512 .00079 -15.43 0.000 -.013807 -.010695 116.384 female*| -.0023253 .0071 -0.33 0.743 -.016249 .011599 .489834 heduc | .0059911 .00497 1.21 0.228 -.003746 .015729 2.11352 -----------------------------------------------------------------------------y = Pr(employ=0,attend=0) P ( l 0 tt d 0) ( (predict, di t p00) 00) = .06970771 06970771 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.1941151 .00712 -27.28 0.000 -.208062 -.180168 10.5481 age2 | .0082628 .00033 24.76 0.000 .007609 .008917 116.384 female*| .0064337 .00289 2.23 0.026 .000778 .01209 .489834 h d heduc | -.0416734 0416734 .00213 00213 -19.56 19 56 0 0.000 000 -.045849 045849 -.037498 037498 2 2.11352 11352 -----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1

34

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

Considérese que quiere estudiarse cómo distribuyen el tiempo los niños entre diversas elecciones no ordenadas

Actividades: 1=sólo trabajo,2: sólo estudio, 3=estudio y trabajo, 4= ninguna En general el modelo Logit Multinomial puede aplicarse a elecciones no noordenadas y mutuamente excluyentes. Sea X un conjunto de regresores

Re-etiquetando las elecciones desde 0, el modelo Logit Multinomial relativo se define como: β' x

Pr ob(Yi = j ) = 35

e

3

j i

∑e

K =0

β k' xi

, j = 0,1,2,3

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial La ecuación estimada provee un conjunto de probabilidades para las j+1 elecciones de las niños con características Xj Xj.

Prob(Y = j ) =

e

β 'j xi j

1+ ∑ e

for j = 1,2,..., j β k' xi

k =1

Prob(Y = 0) =

1 j

1+ ∑ e k =1

36

β k' xi

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

El modelo permite calcular j ratios log-odds para una variable categórica con j categorias y baseline j=0

⎡ Pij ⎤ ln ⎢ ⎥ = β 'j xi ⎣ Pi 0 ⎦

Normalizando cualquier otra probabilidad, se obtiene

⎡ Pij ⎤ ln ⎢ ⎥ = xi' ( β j − β k ) ⎣ Pik ⎦ 37

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

Se define para cada individuo dij=1 si la alternativa j es elegida por el individuo i, y dij=0 en caso contrario para los j+1 posibles resultados. Para cada i, únicamente una de las actividades dij puede ser igual a 1 1.

L ffunción La ió log l d de verosimilitud i ilit d se define d fi ttall que: n

J

ln L = ∑∑ dij ln Prob(Yi = j ) i =1 j = 0

38

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Multinomial logistic regression

Log likelihood = -18278.948

Number of obs =

LR chi2(12)

=

3703.19

Prob > chi2

=

0.0000

Pseudo R2

=

activity Coef. Std. Err. z work only y age -1.658 0.144 age2 0.088 0.007 female 0.195 0.062 heduc -0.916 0.046 _cons 7.177 0.744 work and study age 0.832 0.087 age2 -0.026 0.004 female -0.003 0.034 heduc -0.197 0.024 _cons -5.419 0.460 nothing age -2.297 2 297 0 138 0.138 age2 0.098 0.007 female 0.023 0.058 heduc -0.816 0.042 _cons cons 12 575 12.575 0 676 0.676 (Outcome activity==study only is the comparison group)

39

Niños de 7-14, Cambodia SIMPOC, 1999

17706

0.0920 P>z

[95% Conf.

Interval]

-11.5 13.0 3.1 -20.0 9.7

0.00 0.00 0.00 0.00 0.00

-1.940 0.074 0.073 -1.006 5.720

-1.376 0.101 0.316 -0.827 8.634

9.6 -6.5 -0.1 -8.3 -11.8

0.00 0.00 0.92 0.00 0.00

0.662 -0.034 -0.070 -0.244 -6.320

1.003 -0.018 0.063 -0.150 -4.518

-16.6 16 6 14.3 0.4 -19.5 18 6 18.6

0.00 0 00 0.00 0.69 0.00 0 00 0.00

-2.568 2 568 0.084 -0.090 -0.898 11 249 11.249

-2.026 2 026 0.111 0.136 -0.734 13 900 13.900

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Marginal effects after Multinomial Logit Estimation y = Pr(activity==1) y (predict, p outcome(1))= .06534961 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.1139782 .00842 -13.53 0.000 -.13049 -.097466 10.5481 age2 | .0056507 .00039 14.43 0.000 .004883 .006418 116.384 female*| .01192 .00364 3.27 0.001 .004786 .019054 .489834 heduc | -.04741 .00248 -19.10 0.000 -.052275 -.042545 2.11352 -----------------------------------------------------------------------------y = Pr(activity==2) (predict, outcome(2)) = .46563439 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.0401039 .01932 -2.08 0.038 -.077977 -.00223 10.5481 age2 | -.0005047 .00091 -0.55 0.579 -.002287 .001278 116.384 female*| -.0059461 .0078 -0.76 0.446 -.021236 .009344 .489834 heduc | .0889259 .00546 16.30 0.000 .078233 .099618 2.11352 -----------------------------------------------------------------------------y = Pr(activity==3) (predict, outcome(3))= .40642869 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | .3032122 .01976 15.35 0.000 .264485 .34194 10.5481 age2 | -.0111858 .00092 -12.19 0.000 -.012985 -.009387 116.384 female*| -.0066111 .00776 -0.85 0.394 -.021816 .008594 .489834 heduc | -.0023793 .00539 -0.44 0.659 -.01295 .008192 2.11352 -----------------------------------------------------------------------------y = Pr(activity==4) (predict, outcome(4))= .06258731 -----------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X ---------+-------------------------------------------------------------------age | -.1491301 .00862 -17.29 0.000 -.166033 -.132227 10.5481 age2 | .0060398 .00042 14.37 0.000 .005216 .006864 116.384 female*| .0006371 .00329 0.19 0.847 -.005815 .007089 .489834 heduc | -.0391366 .00235 -16.67 0.000 -.043738 -.034535 2.11352 -----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1

40

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo probit Ordenado

Algunas g variables de elección multinomial están inherentemente ordenadas. Para analizar este tipo de variables se usa un modelo logit o probit ordenado. ordenado El modelo se construye entorno a una regresión latente como en el modelo probit binomial. De tal forma que:

y* = β ' x + ε

we observe :

y = 0 if y* ≤ 0 y = 1 if 0 < y* ≤ µ1 y = 2 if µ1 < y* ≤ µ 2 . .

41

y = j if µ j-1 ≤ y*

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Modelo probit ordenado Dado este mecanismo de observaciones, la probabilidad de cada categoría viene dada por '

P b( y = 0) = Φ (− β x) Prob(

Prob( y = 1) = Φ ( µ1 − β ' x) − Φ (− β ' x) Prob( y = 2) = Φ ( µ 2 − β ' x) − Φ ( µ1 − β ' x) . . Prob( y = J ) = 1 − Φ ( µ j −1 − β ' x) Para que todas las probabilidades sean positivas se debe cumplir

0 < µ1 < µ 2 < ........ < µ j −1

42

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL

Estimaciones probit ordenado Log likelihood = -5152.0213

Most serious illness

43

Number of obs = 6204 LR chi2(7) = 132.60 Prob > chi2 = 0.0000 Pseudo R2 = 0.0127

Coef.

Std. Err.

z

P>z

[95% Conf.

Interval]

Educ. Level Female Age Age2 working hours Ln expenditure Rural residence

-0.0245 -0.0618 0.0078 0.0008 0.0031 0.1093 0.2619

0.0335 0.0312 0.0415 0.0017 0.0011 0.0205 0.0337

-0.73 -1.98 0.19 0.51 2.89 5.32 7.78

0.465 0.048 0.851 0.611 0.004 0.000 0.000

-0.0902 -0.1230 -0.0736 -0.0024 0.0010 0.0691 0.1959

0.0412 -0.0005 0.0892 0.0041 0.0053 0.1495 0.3279

_cut1 _

1.9707

0.3328

((Ancillary y

parameters)) p

_cut2

3.0902

0.3340

_cut3

4.0758

0.3376

_cut4

5.0242

0.3833

_cut5 t5

5 2014 5.2014

0 4181 0.4181