Modelos dinámicos de variables latentes aplicados a la. construcción de indicadores económicos y sociales

UNIVERSIDAD DE EXTREMADURA DEPARTAMENTO DE ECONOMIA APLICADA Y ORGANIZACIÓN DE EMPRESAS Modelos dinámicos de variables latentes aplicados a la constr

Author: Gregorio Rubio San Segundo

47 downloads 89 Views 1MB Size

Report

DOWNLOAD PDF

Recommend Stories

Modelos Científicos y Modelos Sociales:

Modelos Científicos y Modelos Sociales. Andrés Monares A Parte Rei 20 Modelos Científicos y Modelos Sociales: La influencia de Newton en el Neoliber

Hipótesis, variables e indicadores

Hipótesis, variables e indicadores Asignatura: Metodología de la Investigación en Ciencias Sociales Programa de Licenciaturas Ejecutivas Hipótesis y

Indicadores sociales y de evaluación

TESIS DESARROLLO REGIONAL INDICADORES SOCIALES, POBREZA Y DESARROLLO HUMANO DOCUMENTO AUXILIAR N° 9 DANIEL CAUAS - 15 JUN 2013 Indicadores sociales

Modelos de gestión de la calidad aplicados a la Atencion Primaria*. Opina la Universidad

MODELOS DE CALIDAD ASISTENCIAL EN ATENCIÓN PRIMARIA Modelos de gestión de la calidad aplicados a la Atencion Primaria*. Opina la Universidad D. Pedro

T4. Modelos con variables cualitativas

Modelos de los Servicios Sociales

6. INDICADORES SOCIALES

HACIA LA TOLERANCIA Y LA CONVIVENCIA: IDENTIFICANDO PERCEPCIONES NEGATIVAS Y HABILIDADES SOCIALES LATENTES EN CONFLICTOS ADOLESCENTES

HACIA LA TOLERANCIA Y LA CONVIVENCIA: IDENTIFICANDO PERCEPCIONES NEGATIVAS Y HABILIDADES SOCIALES LATENTES EN CONFLICTOS ADOLESCENTES JULIO, 2008 DRA

Fundamentos de imagen digital aplicados a radiología

Fundamentos de imagen digital aplicados a radiología Poster no.: S-1330 Congreso: SERAM 2012 Tipo del póster: Presentación Electrónica Educativa A

Modelos de evaluación de proyectos sociales 1

Modelos de evaluación de proyectos sociales1. Marcos Valdés Sociólogo 1 Estas reflexiones arrancan de una evaluación ex-post realizada para CORECE M

Story Transcript

UNIVERSIDAD DE EXTREMADURA DEPARTAMENTO DE ECONOMIA APLICADA Y ORGANIZACIÓN DE EMPRESAS

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Doctorando: Jesús Pérez Mayo Director: Miguel A. Fajardo Caldera

Tesis presentada para la obtención del grado de Doctor en Ciencias Económicas y Empresariales 2002

Edita: Universidad de Extremadura Servicio de Publicaciones c/ Pizarro, 8 Cáceres 10071 Correo e.: [email protected] http://www.pcid.es/public.htm

A Espe, María, Carlos y Carmen

Índice general

i

Índice general ÍNDICE GENERAL .............................................................................................. i ÍNDICE DE FIGURAS ...................................................................................... vii ÍNDICE DE TABLAS Y CUADROS................................................................... ix AGRADECIMIENTOS ..................................................................................... xiii INTRODUCCIÓN................................................................................................ 1 1. LOS MODELOS LOG-LINEALES LONGITUDINALES................................. 7 1.1. Introducción ............................................................................................................. 7 1.2. El modelo log-lineal ................................................................................................. 7 1.2.1 La estimación de los modelos ........................................................................... 12 1.2.2 El contraste y la selección de los modelos ........................................................ 15 1.3. Los modelos log-lineales aplicados al análisis de la movilidad .......................... 20 1.3.1 Introducción ...................................................................................................... 20 1.3.2 El análisis de una tabla de movilidad de dos vías ............................................. 23 1.3.2.1 Independencia y cuasi-independencia ......................................................... 23 1.3.2.2 Simetría, cuasi-simetría y homogeneidad marginal..................................... 25 1.3.2.3 Otros modelos aplicables ............................................................................. 27 1.3.3 El análisis de una tabla de movilidad multidimensional................................... 28 1.3.3.1 El modelo logit............................................................................................. 29 1.3.3.2 Los modelos log-lineales causales............................................................... 30 La parametrización según Goodman ..................................................................... 30

ii

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Restricciones sobre los parámetros........................................................................ 32 Los modelos de Markov para tiempo discreto .................................................... 33 Modelos markovianos para tiempo discreto con variables ajenas y modelos logit de duración para tiempo discreto ........................................................................ 34 2. LOS MODELOS LOG-LINEALES LONGITUDINALES CON VARIABLES LATENTES....................................................................................................... 37 2.1. Introducción ........................................................................................................... 37 2.2. El modelo de clases latentes clásico ...................................................................... 37 2.2.1 La estimación de los modelos ........................................................................... 39 2.2.2 Identificabilidad y contraste del modelo ........................................................... 43 2.2.3 Asignación a las clases...................................................................................... 44 2.2.4 Extensiones del modelo clásico ........................................................................ 46 2.3. Los modelos dinámicos de variables latentes ...................................................... 50 2.3.1 Algunos modelos log-lineales causales con variables latentes aplicables a las tablas de movilidad .................................................................................................... 54 2.3.1.1 El modelo latente de Markov....................................................................... 55 Estimación del modelo latente de Markov ............................................................ 59 2.3.1.2 El modelo mixto de Markov ........................................................................ 62 Casos particulares del modelo de Markov............................................................. 66 El modelo mover-stayer ...................................................................................... 67 El modelo “black and white” .............................................................................. 67 El modelo “independencia-estabilidad”.............................................................. 68 Los modelos estacionarios .................................................................................. 68 Estimación del modelo mixto de Markov ............................................................. 68 2.3.1.3 El modelo mixto markoviano de clases latentes.......................................... 72 Estimación del modelo latente mixto de Markov.................................................. 75

Índice general

iii

3. LA INFLUENCIA DE ALGUNAS VARIABLES AJENAS EN LOS MODELOS LATENTES DINÁMICOS ................................................................................. 81 3.1. Introducción ........................................................................................................... 81 3.2. Covariables constantes .......................................................................................... 83 3.2.1 Estimación del modelo...................................................................................... 84 3.3. Covariables dinámicas........................................................................................... 90 3.3.1 Estimación del modelo...................................................................................... 95 3.4. Covariables discretas y continuas: los modelos gráficos de cadena.................. 96 3.4.1 Introducción ...................................................................................................... 96 3.4.2 La distribución gaussiana condicionada............................................................ 99 3.4.3 La regresión gaussiana condicionada.............................................................. 101 3.4.4 Propiedades de Markov e interpretación......................................................... 103 3.4.5 Estimación y selección del modelo ................................................................. 105 3.4.5.1 La estrategia de selección del modelo ....................................................... 107 3.4.6 Los modelos gráficos dinámicos de interacción ............................................. 109 4. LOS PERFILES DE LA PRIVACIÓN EN ESPAÑA: UN ESTUDIO ESTÁTICO Y DINÁMICO ............................................................................... 121 4.1. Introducción ......................................................................................................... 121 4.1.1 La construcción de los indicadores de privación ............................................ 123 4.1.1.1 La selección de los indicadores ................................................................. 124 4.1.1.2 La evaluación de los hogares ..................................................................... 125 4.1.1.3 La ponderación de los indicadores............................................................. 127 4.1.1.4 La agregación de los indicadores............................................................... 128 4.1.1.5 La determinación de un umbral ................................................................. 131

iv

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

4.2 Un estudio sobre la privación a partir del PHOGUE........................................ 132 4.2.1 La base de datos .............................................................................................. 132 4.2.2 La construcción de los indicadores de la privación ........................................ 134 4.2.3 Las diferentes facetas de la privación ............................................................. 136 4.2.3.1 Privación básica ......................................................................................... 138 4.2.3.2 Vivienda..................................................................................................... 140 4.2.3.3 Privación secundaria .................................................................................. 141 4.2.4 La privación general o conjunta...................................................................... 143 4.2.5 La relación entre la privación y la pobreza económica................................... 147 4.2.5.1 Relación entre la privación, la pobreza monetaria y las dificultades económicas............................................................................................................. 151 4.2.6 Algunos determinantes de la privación ........................................................... 152 4.3. Un análisis temporal de la privación.................................................................. 168 4.3.1 Un análisis temporal de la privación por sectores........................................... 177 4.3.2 Un modelo latente dinámico que combina los criterios de la renta y las condiciones de vida .................................................................................................. 184 4.3.3 La influencia de algunas variables externas sobre un modelo latente dinámico de la privación .......................................................................................................... 191 CONCLUSIONES........................................................................................... 207 APÉNDICE 1. Conceptos básicos de los modelos gráficos ..................... 217 ANEXO 1. Codificación de las variables..................................................... 221 ANEXO 2. Relación entre las categorías de la privación general y sectorial con la renta ................................................................................................... 231

Índice general

v

ANEXO 3. Un análisis de sensibilidad para distintas líneas de pobreza . 233 ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo............................................................................................................ 234 REFERENCIAS .............................................................................................. 243

Índice de figuras

vii

Índice de figuras

Figura 1.1. Un modelo log-lineal de caminos modificado para cuatro variables ........... 30 Figura 1.2. Un modelo de Markov para tiempo discreto ................................................ 33 Figura 2.1. Un modelo de clases latentes........................................................................ 38 Figura 2.2. El modelo de clases latentes con dos variables latentes ............................... 46 Figura 2.3. Un modelo de clases latentes con variables externas ................................... 47 Figura 2.4. Un modelo de dependencia local.................................................................. 49 Figura 2.5. Reexpresión de un modelo de dependencia local......................................... 50 Figura 2.6. Un modelo LISREL modificado .................................................................. 51 Figura 2.7. Un modelo LISREL modificado con más de una variable latente ............... 52 Figura 2.8. Modelos dinámicos de variables latentes ..................................................... 55 Figura 2.9. Un modelo latente de Markov para tres momentos de tiempo..................... 57 Figura 2.10. Relaciones y parámetros que estimar en un modelo latente de Markov dicotómico en tres períodos ............................................................................................ 58 Figura 2.11. Un modelo mixto de Markov ..................................................................... 64 Figura 2.12. Relaciones entre los parámetros del modelo mixto de Markov ................. 65 Figura 2.13. Un modelo mixto markoviano de clases latentes para tres ocasiones ........................................................................................................................................ 73 Figura 2.14. Parámetros y sus relaciones del modelo markoviano mixto de clases latentes ............................................................................................................................ 74

viii

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Figura 3.1. Un modelo para tres ocasiones con covariables exógenas y endógenas ........................................................................................................................................ 93 Figura 3.2. Un ejemplo de grafo de cadena .................................................................... 99 Figura 3.3. Un esquema de la estrategia de selección aplicada a cada regresión univariante múltiple ...................................................................................................... 108 Figura 3.4. Un modelo gráfico dinámico de interacción. ............................................. 112 Figura 3.5. Una variable latente en relación con las propiedades de Markov de independencia condicionada ......................................................................................... 114 Figura 3.6. Un modelo mixto de Markov como modelo gráfico .................................. 117 Figura 3.7. Un modelo gráfico para un modelo latente mixto de Markov ................... 118 Figura 4.1. Estrategias para medir la privación ............................................................ 129

Índice de tablas y cuadros

ix

Índice de tablas y cuadros

Tabla 4.1. Modelos latentes para la privación básica ................................................... 138 Tabla 4.2. Las probabilidades latentes y condicionadas para la privación básica latente ...................................................................................................................................... 139 Tabla 4.3. Modelos latentes para la privación de la vivienda....................................... 140 Tabla 4.4. Las probabilidades latentes y condicionadas para la privación latente de la vivienda......................................................................................................................... 141 Tabla 4.5. Modelos latentes para la privación secundaria ............................................ 142 Tabla 4.6. Las probabilidades latentes y condicionadas para la privación latente secundaria ..................................................................................................................... 142 Tabla 4.7. Modelos latentes para la privación conjunta................................................ 144 Tabla 4.8. Las probabilidades latentes y condicionadas para la privación latente conjunta......................................................................................................................... 145 Tabla 4.9. Hogares clasificados según la pobreza monetaria y la privación ................ 149 Tabla 4.10. La relación entre la privación y el sexo y edad de la persona de referencia ...................................................................................................................................... 153 Tabla 4.11. La relación entre la pobreza consistente y el sexo y edad de la persona de referencia ...................................................................................................................... 155 Tabla 4.12. La relación entre la privación y el tipo de hogar ....................................... 156 Tabla 4.13. La relación entre la pobreza consistente y el tipo de hogar ....................... 157 Tabla 4.14. La relación entre la privación y la fuente principal de ingresos del hogar 158

x

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.15. La relación entre la pobreza consistente y la fuente principal de ingresos del hogar ............................................................................................................................. 159 Tabla 4.16. La relación entre la privación y la situación laboral de la persona de referencia ...................................................................................................................... 160 Tabla 4.17. La relación entre la pobreza consistente y la situación laboral de la persona de referencia.................................................................................................................. 161 Tabla 4.18. La relación entre la privación y el nivel educativo de la persona de referencia ...................................................................................................................... 162 Tabla 4.19. La relación entre la pobreza consistente y el nivel educativo de la persona de referencia.................................................................................................................. 163 Cuadro 4.1. Relaciones entre los determinantes de la privación .................................. 164 Tabla 4.20. Un análisis temporal de la privación conjunta........................................... 172 Tabla 4.21. Tamaño de los subgrupos y probabilidades de transición de la privación conjunta......................................................................................................................... 173 Tabla 4.22. Un análisis temporal de la privación básica............................................... 178 Tabla 4.23. Tamaño de los subgrupos y probabilidades de transición de la privación básica ............................................................................................................................ 179 Tabla 4.24. Un análisis temporal de la privación secundaria ....................................... 180 Tabla 4.25. Tamaño de los subgrupos y probabilidades de transición de la privación secundaria ..................................................................................................................... 181 Tabla 4.26. Un análisis temporal de la privación de la vivienda .................................. 182 Tabla 4.27. Tamaño de los subgrupos y probabilidades de transición de la privación de la vivienda..................................................................................................................... 184 Tabla 4.28. Modelos latentes de Markov para la pobreza consistente.......................... 185

Índice de tablas y cuadros

xi

Tabla 4.29. Probabilidades de respuesta ....................................................................... 186 Tabla 4.30. Probabilidades iniciales de las categorías latentes..................................... 187 Tabla 4.31. Probabilidades de transición de la pobreza consistente ............................. 187 Tabla 4.32. Modelos mixtos latentes de Markov para la pobreza consistente.............. 188 Tabla 4.33. Probabilidades no estacionarias de transición de la pobreza consistente ...................................................................................................................................... 190 Tabla 4.34. Resultados del contraste para los modelos estimados ............................... 198 Tabla 4.35. Estimaciones de los parámetros del modelo 2a ......................................... 200 Tabla a2.1 Coeficientes de correlación entre la privación conjunta y las privaciones sectoriales con la renta total y la equivalente................................................................ 231 Tabla a3.1 Hogares clasificados según la privación conjunta y la pobreza (50% de la mediana) en 1994.......................................................................................................... 233 Tabla a3.2 Hogares clasificados según la privación básica y la pobreza (50% de la mediana) en 1994.......................................................................................................... 233 Tabla a3.3 Hogares clasificados según la privación de la vivienda y la pobreza (50% de la mediana) en 1994 ...................................................................................................... 233 Tabla a3.4 Hogares clasificados según la privación secundaria y la pobreza (50% de la mediana) en 1994.......................................................................................................... 233 Tabla a3.5 Hogares clasificados según la privación conjunta y la pobreza (50% de la media) en 1994.............................................................................................................. 234 Tabla a3.6 Hogares clasificados según la privación básica y la pobreza (50% de la media) en 1994.............................................................................................................. 234 Tabla a3.7 Hogares clasificados según la privación de la vivienda y la pobreza (50% de la media) en 1994.......................................................................................................... 234 Tabla a3.8 Hogares clasificados según la privación secundaria y la pobreza (50% de la media) en 1994.............................................................................................................. 234

Agradecimientos

xiii

“Toda persona tiene derecho a un nivel de vida adecuado que le asegure, así como a su familia, la salud y el bienestar y, en especial, la alimentación, el vestido, la vivienda, la asistencia médica y los servicios sociales necesarios...” (Declaración universal de los derechos humanos, artículo 25.1) “To construct an overall picture of poverty, it is necessary to go well beyond identifying the poor” (Amartya Sen) “Not everything that can be counted counts, and not everything that counts can be counted” (Albert Einstein)

Agradecimientos En primer lugar, agradezco a la Universidad de Extremadura y, en concreto, al Departamento de Economía Aplicada y Organización de Empresas el haber permitido desarrollar el trabajo que ha llevado a la finalización de esta tesis. Además, quiero destacar el papel desempeñado por el profesor Miguel Ángel Fajardo Caldera, director de este trabajo, cuya supervisión y apoyo han sido muy importantes para lograr los resultados aquí presentados. Creo necesario reconocer el apoyo prestado por la Consejería de Educación, Ciencia y Tecnología de la Junta de Extremadura con la beca predoctoral para formación del personal investigador y las ayudas para asistir a congresos y seminarios internacionales relacionados con esta tesis y la Comisión Europea por la ayuda para la movilidad de los investigadores recibida para realizar una estancia en el CEPS (Luxemburgo). Asimismo, el Instituto Nacional de Estadística ha puesto a disposición de este investigador los datos necesarios para la realización del estudio, cuyas conclusiones, lógicamente, no reflejan la opinión de dicha institución y los posibles errores son únicamente responsabilidad del autor. Este trabajo ha sido mejorado también con los comentarios y sugerencias de los asistentes a distintos congresos y seminarios. Entre ellos, me gustaría

xiii

Agradecimientos

xiv

citar a los profesores Ruiz-Huerta y Martínez de la Universidad Rey Juan Carlos y al profesor Stephan Klasen de la Universidad de Munich. Otras personas a las que tengo que agradecer su ayuda son los trabajadores y voluntarios de Cáritas que, durante el breve período en que tuvieron que sufrirme como Administrador, me enseñaron que detrás de los números hay personas. Además, no puedo olvidar a Javi, Luisre, Juan, Óscar, María, Antonio, Francis, Ramón, Sergio y el resto de la peña. He tenido la suerte de encontrar muy buenos amigos en el trabajo y han sido un apoyo muy importante. Por último, aunque deberían ser los primeros, tengo que reconocer la ayuda de mi familia. Por un lado, a Espe y los niños porque han tenido que aguantar mis agobios y mi falta de atención en algunos momentos, pero saben que esta tesis es sobre todo para ellos. Por otro, mis padres y Carlos y Esperanza por habernos ayudado a sacar tiempo de donde no había y, en especial, a mis padres por haberme enseñado a hacer bien mi trabajo.

xiv

Introducción

1

Introducción Es indudable que algunos fenómenos objeto del estudio de la teoría económica son difíciles de observar o medir. Entre otros, tenemos el caso del desarrollo o la pobreza. Este trabajo se centra en el análisis del último de ellos: la pobreza. Esta cuestión es objeto de un interés académico y político creciente. De hecho, en los últimos años, la pobreza y la exclusión social son fenómenos de gran actualidad en la agenda política de la Unión Europea. En el Consejo Europeo extraordinario de Lisboa celebrado en marzo de 2000 se decidió considerar la lucha contra la pobreza un eje muy importante en la consecución del objetivo global de la Unión Europea para el próximo milenio, esto es, “convertirse en la economía basada en el conocimiento más competitiva y dinámica del mundo, capaz de crecer económicamente de manera sostenible, acompañada de una mejora cuantitativa y cualitativa del empleo y de una mayor cohesión social”. En esta línea, en el Consejo Europeo de Niza de diciembre de 2000 se aprobó la Agenda Social Europea donde se incluye en los objetivos de la lucha contra la pobreza y la exclusión social y se invitó a los estados miembros a desarrollar un Plan para la inclusión social. Dadas las afirmaciones anteriores, los objetivos de este trabajo, identificar los hogares en situación de pobreza o privación y estudiar su evolución temporal, determinando los factores que influyen en dicha evolución aparecen como cuestiones necesarias para la consecución de las metas propuestas por la Unión Europea así como su seguimiento y evaluación. A partir de la definición de pobreza establecida por el Consejo Europeo en 1984, según la cual son pobres “aquellas personas, familias o grupos cuyos recursos (materiales, culturales y sociales) son tan limitados que les hacen quedar excluidos del modo de vida mínimo aceptable en el estado miembro en que habiten”,

se observa que el concepto definido es claramente multidimensional.

2

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Sin embargo, los instrumentos utilizados para medirla son unidimensionales: la renta o el gasto de los hogares o individuos. Además, debemos considerar que se define un concepto relativo de la pobreza al relacionar los recursos y las capacidades con los del resto de la sociedad. Podríamos utilizar otras definiciones de la pobreza como la pobreza absoluta, tener menos recursos que un mínimo absoluto definido objetivamente como la línea de pobreza utilizada en Estados Unidos o la del Banco Mundial para los países en desarrollo de 1 dólar al día, o la pobreza subjetiva, fijada en un nivel de renta considerada suficiente por el individuo. Como más tarde se muestra en el capítulo dedicado al análisis empírico, la utilización de la renta para medir la pobreza presenta una serie de problemas que hacen plausible plantearse su medición directa. Además, el enfoque de la pobreza como algo más que una insuficiencia de renta no es nuevo. Como Sen (2000) recoge, Adam Smith por ejemplo, define las necesidades (aquellas cuya insatisfacción lleva a la pobreza o privación) como “no sólo los bienes indispensables para la subsistencia, sino también cualquier cosa cuya ausencia se considere indecente para las personas de bien según la costumbre del país...La moda o la costumbre ha convertido los zapatos de piel en una necesidad vital en Inglaterra. La persona de menor crédito se avergonzaría de no llevarlos en público”. Podemos observar que, en la cita anterior, no sólo se relaciona la situación individual con el conjunto del país, sino también se habla de algo más que una simple falta de ingresos. Por otro lado, Ringen (1988) critica el uso de la renta al plantear que la pobreza está relacionada con el nivel o las condiciones de vida y puede existir una baja relación entre la renta y esta última variable, por lo que aconseja la inclusión de indicadores no monetarios en la medición de la pobreza. Uno de los primeros trabajos que proponen la utilización de indicadores no monetarios fue el de Townsend (1979), aunque los utilice para calcular más tarde un umbral de renta. Esta línea de investigación, el uso de algunos indicadores no monetarios, ha sido desarrollada entre otros por Mack y Lansley (1984) o Halleröd

Introducción

3

(1994) y en los últimos años por Nolan y Whelan (1996), Layte et al, (1999, 2000), Whelan et al (2001a y b) o Muffels y Fouarge (2001). En estos trabajos se ha introducido un nuevo concepto, la privación, para diferenciarla de la pobreza, reducida a su aspecto meramente económico. En España, además de los trabajos de Zarzosa (1992) y Zarzosa et al. (1996) sobre la medición multidimensional del bienestar social, Martínez y Ruiz-Huerta (1999, 2000) están abriendo una línea de investigación sobre la medición de la pobreza como una variable multidimensional. En esta línea, aunque a una escala más reducida, podemos hablar de algunos trabajos realizados por este autor, Pérez-Mayo et al. (2000), PérezMayo et al. (2001) y Pérez-Mayo (próximamente), donde se realiza una aproximación a este fenómeno. Además de la multidimensionalidad, otra línea de investigación de gran actualidad en el análisis de la pobreza es el estudio dinámico. La creciente disponibilidad en los países desarrollados de bases de datos extendidas a lo largo del tiempo ha impulsado este nuevo enfoque. De esta manera, es posible determinar la persistencia en tal situación, identificar los grupos de mayor riesgo así como evaluar las políticas realizadas para acabar con la pobreza o la privación. Hasta ahora, en España dicho análisis se ha realizado a partir de la ECPF (Encuesta Continua de Presupuestos Familiares) como es el caso de Cantó (1996, 2000, 2000b y 2002). Sin embargo, la creación del Panel de Hogares de la Unión Europea permite medir la evolución de la pobreza, tanto monetaria como no monetaria, así como su comparación con el resto de los países de la Unión, al ser una encuesta armonizada. Los modelos propuestos hasta ahora pueden ser revisados en Jenkins (1999). Dentro de su clasificación, la línea que se va a seguir en este trabajo está relacionada con los modelos de probabilidades de transición. Una vez expuesto el problema objeto de nuestro estudio, cabe exponer la metodología utilizada. Dicho método viene dado por el objetivo planteado, por un lado, y los datos disponibles por el otro. Como ya se ha expuesto anteriormente, se plantea la

4

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

identificación de los hogares en situación de privación o pobreza entendida multidimensionalmente. Por tanto, la variable es categórica. No creemos que tenga sentido estimar una “pobreza” métrica para más tarde definir arbitrariamente un umbral que separe los “pobres” de los “no pobres”. Además, es necesario utilizar una herramienta del análisis estadístico multivariante al tener más de una variable. De una parte, está la pobreza no observada y de la otra, las variables observadas sobre las condiciones de vida que sirven de indicadores de la anterior. En consecuencia, estaríamos frente a un modelo de estructuras latentes. Si observamos las variables indicadoras, en el Panel de Hogares de la Unión Europea las variables referidas a las condiciones de vida son todas categóricas. Por lo tanto, la herramienta utilizada en este trabajo es el modelo de clases latentes (Lazarsfeld, 1950; Lazarsfeld y Henry, 1968, Haberman, 1979), puesto que consideramos que es la más adecuada al problema y los datos que tenemos. Además, presenta una ventaja muy útil para el logro del segundo objetivo del trabajo, el análisis de la evolución o la movilidad de la pobreza, ya que permite la inclusión del análisis estático dentro de los modelos utilizados para estudiar la movildad de las variables categóricas. En este caso, debemos hablar de dos líneas de investigación que este trabajo intentamos combinar. Por un lado, se encuentran los modelos LISREL modificados de Hagenaars (1990) que presentan la estimación de las relaciones entre un conjunto de variables categóricas, algunas latentes y otras no. En tales modelos se diferencia una parte estructural y otra de medida. Como casos particulares de estos modelos, están el modelo latente de Markov (Wiggins, 1973), el modelo mixto de Markov (Poulsen, 1982) y el modelo mixto de clases latentes de Markov (Langeheine y Van de Pol, 1990). Más tarde, Vermunt (1997) ha planteado la incorporación de algunas covariables o variables explicativas de los procesos de movilidad al expresar los modelos anteriores como modelos LISREL modificados. En resumen, todos estos modelos descomponen la probabilidad conjunta en un producto de probabilidades marginales y condicionadas.

Introducción

5

Otra enfoque que también se ocupa del aspecto temporal y se basa en las probabilidades condicionadas es el de los modelos gráficos dinámicos de interacción (Lynggaard y Walther, 1993) que permiten incorporar variables continuas al análisis de la movilidad. En este trabajo, combinamos ambas líneas y expresamos por primera vez los modelos antes citados como modelos gráficos dinámicos de interacción para así poder estudiar la movilidad de la pobreza o privación latente estimada en primer lugar de manera estática. Además de esta breve introducción, este estudio se divide en cuatro capítulos. En el primero de ellos, se hace una breve exposición de los modelos log-lineales ya estudiados en otra tesis de este departamento, la realizada por el Dr. Sánchez Rivero (1998), haciendo especial referencia en los modelos log-lineales causales. En el capítulo 2, se desarrollan los modelos de clases latentes, destacando el análisis longitudinal de las variables latentes. Una vez planteado este problema, se contempla en el capítulo 3, la manera de incluir variables exógenas al fenómeno cuya movilidad se analiza en el modelo, de forma que se pueden determinar sus influencias. Por último, en el capítulo cuarto se realiza un análisis empírico de la privación en España, tanto estático como después dinámico, finalizando con el estudio de la movilidad de un indicador combinado de pobreza así como la determinación de la influencia de un conjunto de variables exógenas sobre dicha movilidad.

Introducción

1

Introducción Es indudable que algunos fenómenos objeto del estudio de la teoría económica son difíciles de observar o medir. Entre otros, tenemos el caso del desarrollo o la pobreza. Este trabajo se centra en el análisis del último de ellos: la pobreza. Esta cuestión es objeto de un interés académico y político creciente. De hecho, en los últimos años, la pobreza y la exclusión social son fenómenos de gran actualidad en la agenda política de la Unión Europea. En el Consejo Europeo extraordinario de Lisboa celebrado en marzo de 2000 se decidió considerar la lucha contra la pobreza un eje muy importante en la consecución del objetivo global de la Unión Europea para el próximo milenio, esto es, “convertirse en la economía basada en el conocimiento más competitiva y dinámica del mundo, capaz de crecer económicamente de manera sostenible, acompañada de una mejora cuantitativa y cualitativa del empleo y de una mayor cohesión social”. En esta línea, en el Consejo Europeo de Niza de diciembre de 2000 se aprobó la Agenda Social Europea donde se incluye en los objetivos de la lucha contra la pobreza y la exclusión social y se invitó a los estados miembros a desarrollar un Plan para la inclusión social. Dadas las afirmaciones anteriores, los objetivos de este trabajo, identificar los hogares en situación de pobreza o privación y estudiar su evolución temporal, determinando los factores que influyen en dicha evolución aparecen como cuestiones necesarias para la consecución de las metas propuestas por la Unión Europea así como su seguimiento y evaluación. A partir de la definición de pobreza establecida por el Consejo Europeo en 1984, según la cual son pobres “aquellas personas, familias o grupos cuyos recursos (materiales, culturales y sociales) son tan limitados que les hacen quedar excluidos del modo de vida mínimo aceptable en el estado miembro en que habiten”,

se observa que el concepto definido es claramente multidimensional.

2

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Sin embargo, los instrumentos utilizados para medirla son unidimensionales: la renta o el gasto de los hogares o individuos. Además, debemos considerar que se define un concepto relativo de la pobreza al relacionar los recursos y las capacidades con los del resto de la sociedad. Podríamos utilizar otras definiciones de la pobreza como la pobreza absoluta, tener menos recursos que un mínimo absoluto definido objetivamente como la línea de pobreza utilizada en Estados Unidos o la del Banco Mundial para los países en desarrollo de 1 dólar al día, o la pobreza subjetiva, fijada en un nivel de renta considerada suficiente por el individuo. Como más tarde se muestra en el capítulo dedicado al análisis empírico, la utilización de la renta para medir la pobreza presenta una serie de problemas que hacen plausible plantearse su medición directa. Además, el enfoque de la pobreza como algo más que una insuficiencia de renta no es nuevo. Como Sen (2000) recoge, Adam Smith por ejemplo, define las necesidades (aquellas cuya insatisfacción lleva a la pobreza o privación) como “no sólo los bienes indispensables para la subsistencia, sino también cualquier cosa cuya ausencia se considere indecente para las personas de bien según la costumbre del país...La moda o la costumbre ha convertido los zapatos de piel en una necesidad vital en Inglaterra. La persona de menor crédito se avergonzaría de no llevarlos en público”. Podemos observar que, en la cita anterior, no sólo se relaciona la situación individual con el conjunto del país, sino también se habla de algo más que una simple falta de ingresos. Por otro lado, Ringen (1988) critica el uso de la renta al plantear que la pobreza está relacionada con el nivel o las condiciones de vida y puede existir una baja relación entre la renta y esta última variable, por lo que aconseja la inclusión de indicadores no monetarios en la medición de la pobreza. Uno de los primeros trabajos que proponen la utilización de indicadores no monetarios fue el de Townsend (1979), aunque los utilice para calcular más tarde un umbral de renta. Esta línea de investigación, el uso de algunos indicadores no monetarios, ha sido desarrollada entre otros por Mack y Lansley (1984) o Halleröd

Introducción

3

(1994) y en los últimos años por Nolan y Whelan (1996), Layte et al, (1999, 2000), Whelan et al (2001a y b) o Muffels y Fouarge (2001). En estos trabajos se ha introducido un nuevo concepto, la privación, para diferenciarla de la pobreza, reducida a su aspecto meramente económico. En España, además de los trabajos de Zarzosa (1992) y Zarzosa et al. (1996) sobre la medición multidimensional del bienestar social, Martínez y Ruiz-Huerta (1999, 2000) están abriendo una línea de investigación sobre la medición de la pobreza como una variable multidimensional. En esta línea, aunque a una escala más reducida, podemos hablar de algunos trabajos realizados por este autor, Pérez-Mayo et al. (2000), PérezMayo et al. (2001) y Pérez-Mayo (próximamente), donde se realiza una aproximación a este fenómeno. Además de la multidimensionalidad, otra línea de investigación de gran actualidad en el análisis de la pobreza es el estudio dinámico. La creciente disponibilidad en los países desarrollados de bases de datos extendidas a lo largo del tiempo ha impulsado este nuevo enfoque. De esta manera, es posible determinar la persistencia en tal situación, identificar los grupos de mayor riesgo así como evaluar las políticas realizadas para acabar con la pobreza o la privación. Hasta ahora, en España dicho análisis se ha realizado a partir de la ECPF (Encuesta Continua de Presupuestos Familiares) como es el caso de Cantó (1996, 2000, 2000b y 2002). Sin embargo, la creación del Panel de Hogares de la Unión Europea permite medir la evolución de la pobreza, tanto monetaria como no monetaria, así como su comparación con el resto de los países de la Unión, al ser una encuesta armonizada. Los modelos propuestos hasta ahora pueden ser revisados en Jenkins (1999). Dentro de su clasificación, la línea que se va a seguir en este trabajo está relacionada con los modelos de probabilidades de transición. Una vez expuesto el problema objeto de nuestro estudio, cabe exponer la metodología utilizada. Dicho método viene dado por el objetivo planteado, por un lado, y los datos disponibles por el otro. Como ya se ha expuesto anteriormente, se plantea la

4

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

identificación de los hogares en situación de privación o pobreza entendida multidimensionalmente. Por tanto, la variable es categórica. No creemos que tenga sentido estimar una “pobreza” métrica para más tarde definir arbitrariamente un umbral que separe los “pobres” de los “no pobres”. Además, es necesario utilizar una herramienta del análisis estadístico multivariante al tener más de una variable. De una parte, está la pobreza no observada y de la otra, las variables observadas sobre las condiciones de vida que sirven de indicadores de la anterior. En consecuencia, estaríamos frente a un modelo de estructuras latentes. Si observamos las variables indicadoras, en el Panel de Hogares de la Unión Europea las variables referidas a las condiciones de vida son todas categóricas. Por lo tanto, la herramienta utilizada en este trabajo es el modelo de clases latentes (Lazarsfeld, 1950; Lazarsfeld y Henry, 1968, Haberman, 1979), puesto que consideramos que es la más adecuada al problema y los datos que tenemos. Además, presenta una ventaja muy útil para el logro del segundo objetivo del trabajo, el análisis de la evolución o la movilidad de la pobreza, ya que permite la inclusión del análisis estático dentro de los modelos utilizados para estudiar la movildad de las variables categóricas. En este caso, debemos hablar de dos líneas de investigación que este trabajo intentamos combinar. Por un lado, se encuentran los modelos LISREL modificados de Hagenaars (1990) que presentan la estimación de las relaciones entre un conjunto de variables categóricas, algunas latentes y otras no. En tales modelos se diferencia una parte estructural y otra de medida. Como casos particulares de estos modelos, están el modelo latente de Markov (Wiggins, 1973), el modelo mixto de Markov (Poulsen, 1982) y el modelo mixto de clases latentes de Markov (Langeheine y Van de Pol, 1990). Más tarde, Vermunt (1997) ha planteado la incorporación de algunas covariables o variables explicativas de los procesos de movilidad al expresar los modelos anteriores como modelos LISREL modificados. En resumen, todos estos modelos descomponen la probabilidad conjunta en un producto de probabilidades marginales y condicionadas.

Introducción

5

Otra enfoque que también se ocupa del aspecto temporal y se basa en las probabilidades condicionadas es el de los modelos gráficos dinámicos de interacción (Lynggaard y Walther, 1993) que permiten incorporar variables continuas al análisis de la movilidad. En este trabajo, combinamos ambas líneas y expresamos por primera vez los modelos antes citados como modelos gráficos dinámicos de interacción para así poder estudiar la movilidad de la pobreza o privación latente estimada en primer lugar de manera estática. Además de esta breve introducción, este estudio se divide en cuatro capítulos. En el primero de ellos, se hace una breve exposición de los modelos log-lineales ya estudiados en otra tesis de este departamento, la realizada por el Dr. Sánchez Rivero (1998), haciendo especial referencia en los modelos log-lineales causales. En el capítulo 2, se desarrollan los modelos de clases latentes, destacando el análisis longitudinal de las variables latentes. Una vez planteado este problema, se contempla en el capítulo 3, la manera de incluir variables exógenas al fenómeno cuya movilidad se analiza en el modelo, de forma que se pueden determinar sus influencias. Por último, en el capítulo cuarto se realiza un análisis empírico de la privación en España, tanto estático como después dinámico, finalizando con el estudio de la movilidad de un indicador combinado de pobreza así como la determinación de la influencia de un conjunto de variables exógenas sobre dicha movilidad.

Los modelos log-lineales longitudinales

7

1. Los modelos log-lineales longitudinales 1.1. Introducción Uno de nuestros objetivos, como ya se ha indicado en la introducción general de esta tesis, es el análisis de la movilidad de una o más variables categóricas o discretas a lo largo de un período de tiempo, cuyos datos presentan la forma de datos de panel. Frente a las series temporales, los datos de panel presentan la gran ventaja de que permiten observar el cambio bruto de los individuos, mientras que en las últimas sólo es posible estudiar el cambio neto. Con un panel, se puede posible identificar los sujetos que han cambiado de categoría de una onda a otra, determinar qué características diferencian a los que cambian de los que permanecen, analizar si existe relación entre la categoría a la que el individuo pasa y la ocupada en el momento anterior... En este trabajo pretendemos aclarar y, en la medida que sea posible, dar respuesta a estas cuestiones y otras que, como veremos, irán surgiendo. Dado que estudiaremos las relaciones entre variables categóricas en distintos momentos de tiempo, el punto de partida será una tabla de frecuencias multivariante. Puesto que los modelos log-lineales constituyen la herramienta más natural para trabajar con este tipo de tablas, comenzaremos este capítulo con un repaso de dichos modelos.

1.2. El modelo log-lineal Un modelo aplicable a los datos de tablas de contingencias es el modelo log-lineal, llamado así porque representa el logaritmo natural de las frecuencias teóricas en cada celda como una combinación lineal de efectos principales e interacciones de forma parecida al modelo más conocido del análisis de la varianza. Supongamos una tabla de dos variables de I x J celdas. Bajo la hipótesis de independencia tenemos que

8

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

pij = pi· · p· j , i = 1,, I , j = 1,, J

[1.1]

Es decir, las probabilidades de ocupar cada una de las celdas de la tabla se puede calcular como el producto de las probabilidades marginales de las respectivas filas y columnas. Las frecuencias teóricas o esperadas mij de cada celda se podrían calcular como mij = N pij = N pi· p· j

[1.2]

y así se obtendrían las frecuencias esperadas en cada celda bajo la hipótesis de independencia. Si la ecuación [1.1] se linealiza utilizando logaritmos neperianos, tenemos que se convertiría dicha ecuación en la siguiente expresión. log pij = log pi · + log p· j

[1.3]

y, por tanto, las frecuencias esperadas se expresan como log mij = log mi · + log m· j − log N

[1.4]

Sumando la expresión anterior sobre i, sobre j y sobre i y j, tenemos que I

∑ log m = ∑ log m ij

i =1 J

∑ log m

ij

j =1 I

i·

+ I log m· j − I log N

i

= J log mi· + ∑ log m· j − J log N

J

∑∑ log m i =1 j =1

[1.5]

j

ij

= J ∑ log mi· + I ∑ log m· j − IJ log N i

j

A partir de las ecuaciones dadas en [1.5] tenemos: log mij = u + u1 (i ) + u2 ( j )

donde

[1.6]

Los modelos log-lineales longitudinales

9

I

u=

J

∑∑ log m

ij

i =1 j =1

IJ

J

u1 (i ) =

∑ log mij j =1

J

I

−

u2 ( j ) =

∑∑ log m

ij

i =1 j =1

[1.7]

IJ I

I

I

I

∑ log m ∑∑ log m ij

I =1

I

−

i =1 j =1

ij

IJ

Si existe alguna relación entre las variables, es decir, existe interacción, entonces la expresión del modelo se formula de la siguiente forma: log mij = u + u1 (i ) + u2 ( j ) + u12 (ij )

[1.8],

donde u12(ij) es el error o sesgo de independencia. Dicho modelo que contiene todas las relaciones entre las variables se conoce como modelo saturado, porque reproduce las frecuencias de una tabla de contingencia. Sin embargo, como el interés del modelo reside no en el tamaño de los efectos, sino, sobre todo, en la comparación entre las categorías, el problema de la identificabilidad puede resolverse. Dicha resolución consiste en la introducción de algunas restricciones sobre los parámetros log-lineales. En concreto, vamos a seguir el procedimiento más usual donde se imponen restricciones parecidas a las aplicadas en el análisis de la varianza y, por tanto, los efectos log-lineales se expresan como las desviaciones respecto del efecto medio. Para el modelo [1.8], las restricciones serán las siguientes:

10

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

∑ u1 (i) = ∑ u2 ( j ) = 0 i

j

∑ u12 (ij ) = ∑ u12 (ij ) = 0 i

[1.9]

j

La parametrización utilizada, en la cual cada conjunto de parámetros suma cero para cada subíndice, se conoce como la codificación de los efectos. Con ella, el modelo [1.8] está totalmente identificado. Tenemos I x J frecuencias y, por otro lado, I–1 parámetros independientes u1(i), J–1 parámetros independientes u2(j) y, finalmente, (I–1)(J-1) parámetros independientes u12(ij). Si sumamos todos estos parámetros y el efecto general u, tenderemos IxJ parámetros independientes y podremos calcularlos conociendo las frecuencias observadas. El término u representa la media general de los logaritmos de las frecuencias mij, los parámetros para una sola variable - u1(i), u2(j) – las desviaciones respecto de las medias dentro de las categorías combinadas de la otra variable. Sin embargo, ambos tipos de parámetros no son los más interesantes para la investigación puesto que, usualmente, el objetivo de ésta reside en la búsqueda de relaciones entre algunas variables. Para ello estudiamos, en primer lugar, los términos de la interacción de las dos variables – u12(ij) – que indican la fuerza de la asociación entre ambas variables. Para profundizar en esta cuestión, importante en el desarrollo posterior del trabajo, supongamos una variable más con K categorías. En este caso, el modelo saturado tendrá la expresión siguiente. log mijk = u + u1 (i ) + u2 ( j ) + u3 (k ) + u12 (ij ) + u13 (ik ) + u23 ( jk ) + u123 (ijk )

[1.10]

Los efectos de interacción de dos variables reflejan la asociación parcial entre dichas variables. Podemos interpretar esta asociación parcial como la relación media entre dos variables dentro de los niveles de la tercera. Finalmente, el término de interacción de las tres variables, u123(ijk), indica las diferencias entre las interacciones condicionadas de dos variables para las categorías de la otra.

Los modelos log-lineales longitudinales

11

Como hemos dicho anteriormente, se va a utilizar la codificación de efectos para conseguir la identificabilidad del modelo. Sin embargo, un procedimiento adicional es la codificación dummy en la cual se fijan los parámetros de una categoría de cada variable como cero y los parámetros se interpretan como desviaciones respecto a la categoría de referencia. Hasta ahora, tanto el modelo [1.8] como el modelo [1.10] eran modelos saturados. No obstante, el objetivo de este trabajo es especificar y contrastar modelos más reducidos, es decir, modelos donde se imponen algunas restricciones a priori sobre los parámetros. Este tipo de modelos se conoce como modelos log-lineales no saturados. El procedimiento consiste en contrastar empíricamente las hipótesis de trabajo construyendo el consiguiente modelo log-lineal, calcular las frecuencias esperadas bajo dicho modelo y compararlas con las observadas. Si el modelo no es rechazado, entonces las hipótesis son corroboradas y se estiman los parámetros. Por el contrario, si el modelo se rechaza, es necesario buscar otro que se ajuste mejor a los datos observados, utilizando tanto la teoría subyacente en el trabajo como algunos estadísticos que ayudan a comprender dónde divergen los modelos de lo realmente observado. Una de las restricciones antes comentadas lleva a la familia de los modelos loglineales jerárquicos. Un modelo log-lineal es calificado así si siempre que se incluye un efecto de orden superior, también son incluidos aquellos efectos de orden inferior compuestos por variables que aparecen en el efecto de orden superior. También funciona en sentido opuesto. Así, si un término u concreto vale 0, todos los efectos de orden superior en los que esté la/s variable/s del primero también son 0, es decir, si ua=0, entonces ut=0, para todo a ⊆ t. Por ejemplo, si en la expresión [1.10] suponemos que el término u13(ik) es nulo, el modelo pasaría a ser el siguiente, ya que dicha restricción implicaría que el término de orden superior que contempla la interacción de las tres variables no pudiera existir. log mijk = u + u1 (i ) + u2 ( j ) + u3 (k ) + u12 (ij ) + u23 ( jk )

[1.11]

12

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Estos modelos, los jerárquicos, son los más utilizados ya que en la mayoría de las aplicaciones no tiene mucho sentido incluir términos de orden superior sin incluir los respectivos términos de menor orden (Agresti, 1990). Además, como existen estadísticos suficientes simples, es más fácil estimar los parámetros de los modelos loglineales jerárquicos (Bishop et al., 1975).

1.2.1 La estimación de los modelos Hasta ahora, los modelos presentados son modelos poblacionales. Sin embargo, usualmente sólo es estudiada una muestra extraída de la población y, por tanto, los parámetros de los modelos log-lineales deben estimarse a partir de las frecuencias de las celdas. Dicha estimación se realiza generalmente mediante el método de la máxima verosimilitud, es decir, las estimaciones serán aquellos valores estimados de los parámetros que maximizan la función de verosimilitud. Para determinar la función de verosimilitud, es necesario establecer en primer lugar la distribución muestral de las frecuencias de las celdas. Las más usuales en el análisis log-lineal son las distribuciones multinomial y Poisson. En el caso de los modelos jerárquicos, los totales marginales son los estadísticos suficientes para la estimación de los parámetros de un modelo concreto (Bishop et al., 1975; Hagenaars, 1990). En consecuencia, incluir un parámetro particular en un modelo jerárquico implica siempre que se reproduzca exactamente la frecuencia marginal observada correspondiente por el modelo. Además, las propiedades de los modelos gráficos descomponibles nos permiten encontrar soluciones explícitas para las frecuencias esperadas estimadas, mˆ ij , ya que cualquier modelo log-lineal descomponible posee dicho tipo de soluciones para las frecuencias esperadas estimadas (Whittaker, 1990).

Los modelos log-lineales longitudinales

13

Supongamos tres variables categóricas A, B y C relacionadas según el modelo {AB, AC}, es decir, A y C son independientes dada la variable B. Es un modelo que no sólo cumple las condiciones para ser gráfico, sino también para poderse descomponer. Las frecuencias esperadas estimadas para el modelo vienen dadas por mˆ abc =

mˆ ab·mˆ ·bc nab·n·bc = mˆ ·b· n·b·

[1.12]

Si lo expresamos como probabilidades condicionadas, la forma más corriente de hacerlo con modelos gráficos, tendríamos la siguiente expresión mˆ abc = nab· pc|b = N pab· pc|b

[1.13]

donde pab· es la probabilidad marginal observada de pertenecer a las categorías a y b de las variables A y B, respectivamente y pc|b la probabilidad condicionada observada de pertenecer a la categoría c de la variable C dado un valor b de la variable B. Sin embargo, podemos estar ante casos donde no existan los estadísticos mínimos suficientes o no cumplan las condiciones para la existencia de soluciones explícitas citadas arriba. Cuando esto ocurre, es necesario utilizar un proceso iterativo para estimar las frecuencias esperadas. Citaremos los dos más conocidos: el algoritmo de NewtonRaphson y el ajuste proporcional iterativo (IPF). Hablamos únicamente de los procedimientos iterativos porque los programas informáticos para analizar modelos loglineales sólo utilizan este tipo de algoritmos para estimar los modelos, ya que funcionan para todos los modelos, incluso para aquellos donde existen estimaciones directas de las frecuencias esperadas. El más utilizado es el ajuste proporcional iterativo (Deming y Stephan, 1940; Bishop et al. , 1975; Fienberg, 1980), ya que es muy simple tanto teóricamente como en su cálculo. Se basa en que se satisfacen las restricciones marginales de las ecuaciones de verosimilitud mediante el ajuste de las frecuencias esperadas estimadas. Supongamos tres variables, A, B y C, cuya relación se puede expresar mediante el siguiente modelo.

14

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

log mabc = u + ua + ub + uc + uab + uac + ubc

[1.14]

Para encontrar las frecuencias esperadas estimadas mˆ , el procedimiento comienza con unos valores iniciales para cada frecuencia, denotados por mˆ abc (0) . En principio estos valores pueden ser elegidos libremente con la única restricción de que los efectos que forman parte del modelo no pueden aparecer en las estimaciones iniciales. Generalmente, se supone que todos los valores iniciales toman la unidad, es decir, mˆ abc (0) = 1

[1.15]

El primer paso del primer ciclo consiste en ajustar mˆ abc (0) de forma que se satisfaga la restricción marginal, mˆ ab· = nab· , cuyos resultados son las nuevas estimaciones mˆ abc (1) . Éstas se ajustan entonces para satisfacer la segunda restricción marginal, mˆ a·c = na·c , con lo que obtendríamos las estimaciones mˆ abc (2) , que finalmente se ajustan en el tercer paso del ciclo para satisfacer la última restricción marginal, mˆ ·bc = n·bc . mˆ abc (1) =

mˆ abc (0) nab· mˆ ab· (0)

mˆ abc (2) =

mˆ abc (1) na·c mˆ a·c (1)

mˆ abc (3) =

mˆ abc (2) n·bc mˆ ·bc (2)

[1.16]

Así acaba el primer ciclo y las estimaciones obtenidas son mejores y más cercanas a las estimaciones máximo-verosímiles finales que al comienzo del ciclo. Las iteraciones o ciclos continúan hasta que se alcanza la convergencia, es decir, hasta que los resultados de los distintos ciclos difieren entre sí menos que una pequeña constante arbitraria. Estas estimaciones obtenidas al final son las máximo-verosímiles que reproducen, como se requería, las distintas distribuciones marginales observadas.

Los modelos log-lineales longitudinales

15

El algoritmo IPF puede aplicarse también a los modelos con soluciones explícitas. Si existen las estimaciones directas de las frecuencias esperadas para un modelo concreto, las estimaciones máximo-verosímiles serán las obtenidas tras el primer ciclo del proceso. Haberman (1974) mostró que el algoritmo converge después de dos iteraciones si la tabla analizada no consta de más de seis variables. Una vez estimadas las frecuencias esperadas, pueden calcularse los parámetros loglineales. Esto puede hacerse calculando la media de los logaritmos de las frecuencias esperadas estimadas dados los valores de las variables que aparecen en dichos parámetros u y restándole los efectos de menor orden más tarde (Bishop et al. , 1975; Hagenaars, 1990) o restar de las frecuencias esperadas estimadas el valor de un conjunto de parámetros. Las principales ventajas del algoritmo IPF frente al de Newton-Raphson son, como antes dijimos, su simplicidad y eficiencia de cálculo. Si existen estimaciones directas, las del primer ciclo son ya las máximo-verosímiles y, si no existen, el IPF necesita más iteraciones que el de Newton-Raphson, pero al ser operaciones más sencillas, el tiempo total es menor que el requerido para el segundo. Sin embargo, tienes dos inconvenientes. En primer lugar, no proporciona las varianzas de las estimaciones de los parámetros y, en segundo lugar, sólo puede ser utilizado con los modelos log-lineales jerárquicos.

1.2.2 El contraste y la selección de los modelos La calidad del ajuste de un modelo log-lineal concreto puede determinarse con la comparación de las frecuencias observadas, n, con las esperadas estimadas, mˆ , mediante el contraste de la ji-cuadrado de Pearson y la razón de verosimilitud L2, cuyas expresiones son las siguientes para el modelo de las tres variables consideradas en el apartado anterior.

16

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

(nabc − mˆ abc ) 2 mˆ abc a b c n L2 = 2∑∑∑ nabc log abc mˆ abc a b c

X 2 = ∑∑∑

[1.17]

Si el modelo es válido para la población, ambos estadísticos siguen asintoticamente una distribución ji-cuadrado. Para cada modelo el número de grados de libertad de la distribución se obtiene a partir de la expresión gl = número de celdas – número de parámetros independientes. Si algunas frecuencias esperadas estimadas son ceros estructurales o no pueden calcularse algunos parámetros al existir ceros en algunos estadísticos suficientes, Clogg y Eliason (1987) mostraron que la diferencia anterior pasaría a ser gl = número de celdas sin ceros - número de parámetros estimables. El estadístico L2 tiene una ventaja sobre el de Pearson porque puede descomponerse en distintas componentes referidas a diferentes efectos, submodelos o subgrupos. Esta propiedad es muy interesante cuando busquemos un modelo que se ajuste bien y, simultáneamente, sea reducido. Llegados a este punto, conocemos las herramientas que permiten al investigador determinar en qué medida el modelo propuesto a priori se ajusta o no a los datos observados. Sin embargo, el objetivo es encontrar el mejor modelo, aquél que explica las relaciones existentes entre las variables en la población que generan los datos observados. Por tanto, los errores posibles al seleccionar un modelo se producirán cuando éste contenga más parámetros de los necesarios o se excluyan algunos parámetros que forman parte del mejor modelo. En el proceso lógico de la modelización estadística, se parte de unas hipótesis o supuestos a priori que se reflejan en una formulación determinada del modelo. Dichas hipótesis naturalmente deben basarse en las ideas que el investigador tenga sobre las relaciones existentes entre las variables en la población, es decir, es conveniente utilizar los conceptos teóricos relacionados con el problema que intentemos resolver.

Los modelos log-lineales longitudinales

17

Estadísticamente, pueden existir cientos de modelos para un solo conjunto de datos que se ajusten con la misma calidad. Si no seguimos la orientación proporcionada por el problema teórico que queremos resolver, es difícil dilucidar qué modelo elegir. Si los supuestos de partida lleva a un único modelo log-lineal no saturado, el proceso es fácil, dado que se limitaría a la aplicación de los estadísticos mostrados en la ecuación [1.17]. Sin embargo, como hemos expuesto anteriormente, la dificultad comienza a la hora de descubrir cuál es el mejor modelo dentro de una gama. Si los modelos están anidados jerárquicamente, pueden utilizarse contrastes de L2 condicionados. Dos modelos están anidados jerárquicamente cuando el modelo restringido contiene sólo un subconjunto de los efectos presentes en el modelo libre. Entonces, el estadístico L2 de la razón de verosimilitud contrasta la significatividad de los parámetros libres del modelo libre, dado que el modelo libre es cierto para la población. Utilizando las mismas variables categóricas A, B y C de la expresión [1.17], podemos representar el estadístico condicionado L2r |l , donde el subíndice r se refiere al modelo restringido y l al libre como L2r |l = L2r − L2l = 2∑∑∑ nabc log a

b

c

mˆ abc (l )

[1.18]

mˆ abc ( r )

Los grados de libertad del contraste vienen definidos por el número de parámetros que se fijan en el modelo restringido, es decir, los grados de libertad del modelo restringido menos los del libre. Como se puede observar en la expresión [1.18], el estadístico condicionado L2r |l puede calcularse como la diferencia de los estadísticos L2 no condicionados de ambos modelos. Se confirma el comentario anterior sobre los estadísticos L2 y X2, en el que se comentaba la ventaja del primero por su capacidad de descomponerse y así es posible realizar el estadístico condicionado.

18

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Este estadístico condicionado sigue una distribución ji-cuadrado si el modelo libre es válido y la muestra es grande y la aproximación es buena, incluso en aquellas situaciones, como las muestras pequeñas, en que el contraste no condicionado tiene problemas (Haberman, 1978). Con el estadístico L2r |l , se contrasta la hipótesis nula de que el modelo restringido es válido para la población frente a la hipótesis alternativa del libre. Por tanto, es diferente el significado de la aceptación y el rechazo respecto del contraste del estadístico L2 sin condicionar, ya que en este último la comparación se hace con el modelo saturado, no con otro modelo no saturado. Podríamos decir que el estadístico L2r |l contrasta la validez de las condiciones impuestas al modelo libre para obtener el restringido. A la hora de elegir el mejor modelo, es preferible utilizar los contrastes condicionados entre dos modelos no saturados frente al test no condicionado del modelo restringido contra el modelo saturado. A partir de la teoría de la información, es posible desarrollar otra forma de seleccionar el modelo más adecuado. El objetivo no es descubrir el modelo verdadero, sino aquél que proporciona mayor información sobre la realidad. Por un lado, las frecuencias esperadas estimadas deben ser parecidas a las observadas y, por otro, el modelo debe ser tan reducido como sea posible. Los contrastes más conocidos basados en la teoría de la información son el criterio de información de Akaike (AIC) (Akaike, 1987) y el criterio de información bayesiano (BIC) (Raftery, 1986). El primero, penalizando al modelo según su grado de complejidad, determina hasta qué punto un modelo concreto se desvía de la realidad y su expresión es AIC = −2 log + 2 npar ,

[1.19]

donde representa la función de verosimilitud y npar el número de parámetros desconocidos.

Los modelos log-lineales longitudinales

19

Raftery (1986) desarrolló el AIC dentro del contexto de los modelos log-lineales y propuso el BIC que puede calcularse como BIC = −2 log + (log N ) npar

[1.20]

Cuanto menores sean los valores de los criterios, mejor será el modelo porque mayor información contendrá. Ambos criterios pueden calcularse a partir del estadístico L2 de la siguiente forma AIC = L2 − 2 gl BIC = L2 − (log N ) gl

,

[1.21]

que, como se puede observar, son mucho más sencillas que las anteriores y consisten en la comparación con los respectivos criterios para el modelo saturado. Por tanto, y refiriéndonos al BIC al ser el más adecuado en los modelos log-lineales, se podrá calcular el criterio BIC a partir del estadístico L2 no condicionado. Un valor negativo indica que el modelo es preferible al modelo saturado y además, debe elegirse aquel modelo con el menor valor. Este criterio elimina los problemas del ajuste por exceso y por defecto. Un modelo que no se ajuste bien a las frecuencias observadas tendrá un L2 elevado y, en consecuencia, incrementará el primer término de la diferencia que hará poco probable seleccionarlo. Por otra parte, si un modelo se ajusta muy bien porque posee un gran número de parámetros, al tener una cantidad muy pequeña de grados de libertad, de nuevo, el valor del criterio será muy elevado. Asimismo, una ventaja del BIC se presenta ante las muestras muy grandes (como en la aplicación empírica que nos ocupa). Un tamaño muestral muy elevado provoca que todos los efectos del modelo saturado sean significativos y, por lo tanto, puede llevar al rechazo de los modelos no saturados si la calidad del ajuste se prueba según los estadísticos usuales X2 y L2.

20

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

1.3. Los modelos log-lineales aplicados al análisis de la movilidad 1.3.1 Introducción Una tabla de movilidad es aquella matriz cuadrada nij que muestra los cambios de una característica discreta entre dos momentos de tiempo. En concreto, la frecuencia de cada tabla (i, j) recoge los individuos que ocupan la categoría i en el momento t-1 y la categoría j en el t. Los vectores ni· y n·j representan las distribuciones de la variable en ambos momentos de tiempo. Si en lugar de frecuencias, la matriz recoge probabilidades condicionadas, estamos ante la llamada matriz de transición P. También es cuadrada y cada celda (i, j) muestra la probabilidad condicionada de estar en la categoría j en el período t dada su pertenencia al estado i en el momento t-1. Al ser probabilidades condicionadas, los marginales de las filas deben ser iguales a 1 y no debe tener algún elemento negativo. Si los individuos observados son los mismos en ambos períodos, estaríamos ante una matriz de movilidad o transición intrageneracional. Por el contrario, si son distintos, por ejemplo: padres e hijos, se habla de movilidad intergeneracional. Estas dos clases de tablas nos llevan a dos líneas de análisis distintas: Cambio social o igualdad de oportunidades. Se mide cómo varía una sociedad entre dos generaciones en términos de renta, clase social, categoría profesional, bienestar... Lógicamente, se utilizan tablas intergeracionales ya que interesa comparar la variación entre dos grupos de individuos distintos. Es más, no tienen por qué ser dos momentos de tiempo diferentes ya que la dimensión temporal aparece en la diferencia de edad entre los grupos de individuos. El término “igualdad de oportunidades” se utiliza porque las tablas se analizan para descubrir si existe una relación entre la categoría que ocupe un padre y la que ocupa su hijo (padre e hijo representan las dos generaciones consideradas). Si la clase que ocupe

Los modelos log-lineales longitudinales

21

una persona viene determinada fundamentalmente por la que ocupase su padre tendremos una sociedad en la que existe una desigualdad. Por el contrario, si en la tabla existe independencia entre los grupos de individuos, podemos afirmar que en el grupo social considerado existe igualdad de oportunidades ya que la probabilidad de que un individuo ocupe una categoría no depende de la clase que ocupó su padre. En este tipo de análisis generalmente sólo se usa una tabla y los modelos asociados intentan buscar implicaciones causales del análisis estadístico de la tabla. Movilidad intrageneracional Aquí no se estudia la relación entre dos grupos de individuos distintos, sino que el propósito es el análisis de los cambios que experimenta un único grupo de individuos entre dos momentos distintos. Se estudian las categorías de renta, clase social, bienestar... que los individuos poseen a lo largo del tiempo, o, como caso extremo, a lo largo de su vida. A diferencia del caso anterior, el análisis no se reduce a una única tabla. Dependiendo del horizonte temporal que se considere, podremos tener varias tablas. Dadas las características de este enfoque, entronca directamente con los paneles de datos de variables discretas donde un grupo de individuos es repetidamente entrevistado, valorado o clasificado a lo largo del tiempo. Los modelos asociados con este tipo de tablas no buscan sólo implicaciones causales, sino también predecir la clase o clases que ocupará un individuo cuando transcurra determinado tiempo, identificar subgrupos de individuos que siguen patrones de cambio similares, hallar la probabilidad de que una persona esté un período dado en una categoría, etcétera. Existen dos aspectos distintos que llevan a conclusiones distintas en el análisis: la movilidad entendida como independencia respecto del análisis o impredecibilidad del estado futuro y la movilidad como movimiento a partir del status quo.

22

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Movilidad como independencia o impredecibilidad En un contexto intergeneracional, como se vio anteriormente, hablaríamos de igualdad de oportunidades ya que se estudia si la situación de un individuo depende de la ocupada por su padre o si, por el contrario, influye en mayor medida su esfuerzo personal. Por otro lado, en un análisis intrageneracional, este aspecto se centra en la influencia del estado inicial sobre el final. La independencia completa se presenta en una situación donde la probabilidad de terminar en un estado concreto es la misma para cualquier origen, es decir, es 1i , donde i es el número de estados o categorías. Por tanto, cada individuo se enfrenta a i estados equiprobables. En este caso, la movilidad también puede entenderse como incertidumbre o impredecibilidad. Movilidad como movimiento. Según Atkinson (1981) debe verse como un objetivo y la sociedad puede asignar un valor positivo a tal fluidez. Sin embargo, aunque los dos aspectos coinciden al hablar de inmovilidad (se presenta cuando el estado ocupado no varía), presentan algunas diferencias al determinar qué situación es perfectamente móvil. Lo veremos mediante un ejemplo sencillo ya comentado por varios autores. supongamos dos matrices de transición A y B.

0.5 0.5 A=  0.5 0.5

0 1  B=  1 0 

Si se entiende la movilidad como independencia o impredecibilidad, A es una matriz perfectamente móvil ya que existe igual probabilidad de ocupar cualquier categoría para cualquier origen. Por el contrario, consideramos la matriz B como perfectamente móvil si se analiza la movilidad como movimiento ya que no permanece nadie en el estado que ocupaba. Además, ambos resultados son contradictorios dado que en A cada

Los modelos log-lineales longitudinales

23

individuo puede terminar en cualquier estado con igual probabilidad y, por tanto, también puede permanecer (existe menor movimiento) y en B, existe dependencia respecto del origen ya que P(i|j) = 0 cuando debería ser

1 2

. Esto hace que deba

determinarse qué tipo de movilidad se desea estudiar antes de comenzar el trabajo. El tipo de modelos que vamos a desarrollar en este trabajo pretenden describir y explicar la movilidad considerada como independencia, ya que se encuentran en la parte del análisis estadístico multivariante dedicada al estudio de las relaciones entre variables.

1.3.2 El análisis de una tabla de movilidad de dos vías En este apartado, se consideran las tablas de los cambios experimentados respecto a una variable entre dos momentos de tiempo. Por tanto, las categorías a las que los individuos pueden pertenecer se mantienen a lo largo del período y la información aparece recogida en una tabla de contingencias con igual número de filas que de columnas. Las distintas hipótesis a priori sobre la naturaleza de la relación entre las variables se reflejan en distintas formulaciones del modelo log-lineal, cuya contraste se realiza mediante las pruebas que parecen en las expresiones [1.17], [1.18] y [1.20]. El estudio de la movilidad de una tabla de este tipo comienza probando la existencia de independencia, es decir, la inexistencia de algún tipo de relación entre las categorías origen y las categorías destino.

1.3.2.1 Independencia y cuasi-independencia El primer paso en este análisis es comenzar con el modelo de independencia que se corresponde con el modelo de movilidad perfecta. En este supuesto, las frecuencias esperadas vienen dadas por la expresión mij =

ni·n· j N

[1.22]

24

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

o log mij = u + u j + u j

[1.23]

si lo expresamos como un modelo log-lineal. En este caso, debemos comparar las frecuencias estimadas según este modelo con las observadas y aplicar los contrastes antes definidos con (I-1)2 grados de libertad, donde I es el número de filas o columnas. Si los valores de éstos son mayores que el correspondiente en una distribución ji-cuadrado de Pearson para esos grados de libertad, podemos rechazar la hipótesis nula, es decir, no existe independencia, o en el caso que nos ocupa, no existe movilidad perfecta. No obstante, estos estadísticos sólo revelan la existencia de movilidad perfecta (independencia). Entre los dos casos extremos del fenómeno que estudiamos – movilidad perfecta e inmovilidad- existe una infinidad de situaciones cuyas diferencias no son recogidas. Si se rechaza la independencia, el paso siguiente es considerar un modelo que tiene en cuenta la persistencia de parte de la población, pero al mismo tiempo quiere conocer qué ocurre con aquellos que cambian de categoría. En concreto, este modelo toma como hipótesis nula, que los cambios son independientes de la categoría inicial. Este modelo es conocido como el modelo de cuasi-independencia o de cuasi movilidad perfecta (Goodman, 1968). Separaremos las frecuencias de la diagonal principal y supondremos el modelo de independencia para el resto de las celdas. Una forma de estimar este modelo consistiría en asignar el valor 0 a las frecuencias observadas y esperadas de la diagonal principal y formular para el resto de las celdas el modelo de independencia. log mij = u + ui + u j , ∀(i, j) ∈ M 0 ,

[1.24]

siendo M0 las celdas situadas fuera de la diagonal principal. Si el modelo anterior quiere extenderse a toda la tabla, debe introducirse una ecuación nueva referida a las celdas de la diagonal principal.

Los modelos log-lineales longitudinales

25

log mij = u + ui + u j + uii , para i = j log mij = u + ui + u j , para i ≠ j

[1.25]

con las restricciones usuales de los modelos log-lineales para las ecuaciones [1.24] y [1.25]. Los términos uii son los únicos parámetros de interacción que aparecen en el modelo y reflejan los efectos de la inmovilidad. Miden la desviación entre el modelo de cuasi movilidad perfecta y el de movilidad perfecta en las celdas de la diagonal principal. Como deben ser estimados estos I parámetros, el modelo usa I grados de libertad más que en el modelo de movilidad perfecta y, por tanto, los grados de libertad de este modelo son (I-1)2-I.

1.3.2.2 Simetría, cuasi-simetría y homogeneidad marginal Otro aspecto también importante en el análisis log-lineal de las matrices de movilidad es la posible compensación de los cambios, es decir, los residuos se deben a fluctuaciones muestrales (son aleatorios) y no reflejan un patrón sistemático. La compensación total se contempla en el modelo de simetría, cuya hipótesis nula es la siguiente. mij = m ji , ∀i ≠ j

[1.26]

Al suponer el modelo que los cambios brutos son simétricos, también se supone que las distribuciones marginales serán las mismas y que, por tanto, no existirá movilidad neta. La hipótesis nula se refleja en este modelo log-lineal log mij = u + ui + u j + uij

[1.27]

con las restricciones ui = ui , ∀i = j uij = u ji , ∀i ≠ j

[1.28]

26

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Debido a las restricciones de la ecuación [1.28], los parámetros de la ecuación [1.27] para mij son iguales que los correspondientes a mji. Por tanto, las frecuencias estimadas según este modelo serían (Bishop et al, 1975) mij = nij , para i = j mij = 12 (nij + n ji ), para i ≠ j

[1.29]

Dadas estas frecuencias esperadas, podemos contrastar el ajuste del modelo mediante los estadísticos de la ecuación [1.17], que en este caso seguirán una distribución jicuadrado con I(I-1)/2 grados de libertad. Si este modelo se rechaza, cabe preguntarse si se debe a las diferencias entre las distribuciones marginales. Para poder responder a esta cuestión, se utiliza el modelo de cuasi-simetría. En este modelo se relajan las hipótesis del anterior no exigiendo que las distribuciones marginales sean iguales. El interés se centra en este caso en las celdas situadas fuera de la diagonal principal. Se pretende estudiar hasta qué punto la matriz es simétrica dadas las distribuciones marginales. El modelo log-lineal para representar esta hipótesis es el de la ecuación [1.27] con las restricciones de la expresión [1.28] referidas a los efectos de interacción. Es decir, en el modelo de cuasi-simetría no se exige la igualdad de los efectos de una variable impuestos en el modelo de simetría. Al igual que en el modelo de simetría, las frecuencias esperadas según el modelo de cuasi-simetría reflejan exactamente las frecuencias observadas nii y (nij+nji). Además, los totales marginales esperados son iguales a los observados ni· y n·j. En este modelo, si se cumple que existe homogeneidad marginal, es decir, las distribuciones marginales son iguales, las estimaciones según el modelo de cuasisimetría son idénticas a las del modelo de simetría.

Los modelos log-lineales longitudinales

27

Según Bishop y otros, (1975) “la cuasi-simetría junto a la homogeneidad marginal implica y es implicada por la simetría”. Por lo tanto, podemos interpretar la cuasisimetría como “tanta simetría como permiten las distribuciones marginales”. A partir de las frecuencias esperadas, podemos contrastar la calidad del ajuste del modelo con unos (I-1)(I-2)/2 grados de libertad Finalmente, otra cuestión relacionada con la anterior es la homogeneidad marginal. Bajo esta hipótesis, los totales marginales esperados se suponen iguales, no los efectos marginales. La hipótesis nula de este modelo mi· = m· j , ∀i = j

[1.30]

no puede expresarse dentro de un modelo log-lineal. No obstante, puede contrastarse condicionadamente su existencia mediante modelos log-lineales. Recordemos que la cuasi-simetría con la homogeneidad marginal implican la simetría. En consecuencia, contrastando el modelo de simetría contra el de cuasi-simetría. Homogeneidad marginal = simetría - cuasi-simetría L2HM = L2S − L2CS con grados de libertad (I-1) =

[1.31]

I(I-1) ( I − 1)( I − 2) − 2 2

Sin embargo, este procedimiento, al ser condicionado, presenta el problema de que el modelo sin restricciones, el de cuasi-simetría debe ser válido. Además, sólo se contrasta la existencia de la homogeneidad marginal, pero no es posible presentar las frecuencias esperadas según dicho modelo. Para ello debemos recurrir a técnicas no relacionadas con los modelos log-lineales como se puede observar en Bishop et al (1975).

1.3.2.3 Otros modelos aplicables No sólo la independencia, el grado de simetría y la homogeneidad marginal son objeto de interés en el análisis de la movilidad. Cuando las variables sean ordinales,

28

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

puede ser importante también ver la influencia de la distancia que separa la categoría origen de la categoría destino o considerar que la asociación entre ambas categorías depende de un efecto por fila, por columna, un efecto que combina ambos. Los modelos de distancias intentan encontrar si cuando los individuos cambian entre dos períodos de tiempo, es más probable cambiar a una categoría cercana a la original o, por el contrario, más lejana. Llamemos i-j a la distancia entre las categorías inicial y final y, entonces, uij = u* | i − j |

[1.32]

Por tanto, en el modelo log-lineal, el término de interacción que refleja la existencia de relación entre las variables dependería de las categorías consideradas y, como se ve en la expresión anterior, sólo es necesario estimar un único u* para todo el modelo. Finalmente, dado que los modelos de asociación de variables ordinales están fuera del campo de este trabajo, remitimos al lector a los trabajos de Goodman (1979), Clogg (1982), Hout (1983), Yamaguchi (1987), Xie (1992) y Vermunt (1997), donde puede encontrar tanto una exposición de este tipo de modelos como una aplicación al análisis de la movilidad.

1.3.3 El análisis de una tabla de movilidad multidimensional Aunque provenga de datos de panel, una tabla de movilidad de dos vías presenta limitaciones para el análisis longitudinal, ya que compara la situación inicial con la final sin estudiar cómo se llega a dicha situación final. Existen muchas maneras de llegar desde la distribución inicial a la final, número que se amplía a medida que aumenta la cantidad de períodos. Además, esta línea de investigación que se inserta en la modelización causal, no sólo busca describir distintas maneras de cambiar, sino también permite introducir variables explicativas en el proceso de cambio.

Los modelos log-lineales longitudinales

29

Las relaciones entre las distintas variables se expresan mediante probabilidades condicionadas, para lo cual se hace necesario introducir en la exposición los modelos logit.

1.3.3.1 El modelo logit Este modelo incorpora la noción de causalidad en la asociación entre algunas variables, ya que distingue entre variables dependientes e independientes. Por tanto, es una especie de análisis de la regresión para las variables categóricas. En el modelo estándar (Goodman, 1972), se supone que la variable dependiente es dicotómica. Sin embargo, Haberman (1979) o Agresti (1990) muestran el modelo cuando la variable dependiente posee más de dos categorías, modelo conocido como el modelo logit multinomial. Supongamos una variable dependiente o de respuesta C y dos variables explicativas categóricas, A y B, sin interacción en sus efectos sobre C. De esta forma, se podría representar la probabilidad condicionada de C dadas A y B, πc|ab, como

π c|ab =

exp(uc + uac + ubc ) ∑c exp(uc + uac + ubc )

[1.33]

Este modelo logit se puede expresar como un modelo log-lineal ya expuesto log mabc = α ab + uc + uac + ubc

[1.34]

donde α ab = u + ua + ub + uab . Es decir, el modelo de la ecuación [1.33] es equivalente al modelo log lineal {AB, AC, BC} para una tabla con frecuencias nabc.

30

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

1.3.3.2 Los modelos log-lineales causales La parametrización según Goodman

Goodman (1973) propuso una extensión del modelo logit al análisis causal, conocida en la literatura como modified path analysis approach. En resumen, se trata de un modelo log-lineal que tiene en cuenta información a priori sobre la ordenación causal de las variables. Consiste, por tanto, en la especificación de un sistema recursivo de modelos logit en el cual una variable que aparezca como dependiente en un modelo concreto puede aparecer como independiente en algunas de las ecuaciones siguientes. Supongamos cuatro variables categóricas A, B, C y D, cuya ordenación causal parece en la figura 1.1. Hacemos notar que la relación causal se refleja gráficamente en una flecha, cuya punta señala la variable dependiente y un círculo representa una interacción de mayor orden.

A

C

D

B Figura 1.1. Un modelo log-lineal modified path para cuatro variables

Las variables A y B son variables exógenas y las otras dos son variables dependientes, siendo D posterior a C. Además, tenemos que C depende de la interacción de A y B y D de A y C. Se podría entonces expresar la probabilidad conjunta πabcd como

π abcd = π ab π c|ab π d |abc

[1.35]

Los modelos log-lineales longitudinales

31

Así, se representa la ordenación causal mediante la descomposición de la probabilidad conjunta en un producto de probabilidades marginales y condicionadas. Los tres términos de la parte derecha de la ecuación corresponden las tablas AB, ABC y ABCD, respectivamente. Según Goodman, el sistema de logits sería el siguiente

π ab =

exp(ua + ub + uab ) ∑ab exp(ua + ub + uab )

π c|ab =

exp(uc + uac + ubc + uabc ) . ∑c exp(uc + uac + ubc + uabc )

π d |abc =

[1.36]

exp(ud + uad + ucd ) ∑d exp(ud + uad + ucd )

Dado que podemos escribir los modelos logit como modelos log-lineales suponiendo fija la distribución marginal de las variables independientes, los modelos log-lineales que deben especificarse para dichas tablas son, respectivamente, los modelos {A, B}, {ABC} y {ABC, AD, CD}. El primero refleja la independencia entre las variables A y B en la tabla marginal AB. En segundo lugar, se indica que las variables A y B y su interacción afectan a la variable C en la tabla marginal ABC y, finalmente, el modelo para la tabla ABCD especifica que existen efectos de A y C sobre la variable D, así como el término de interacción ABC. Goodman demostró que se podían estimar por separado las frecuencias esperadas de los distintos submodelos así como las estimaciones máximo-verosímiles de los parámetros log-lineales. Para contrastar la calidad del ajuste, se utiliza la propiedad de descomposición del estadístico de la razón de verosimilitud. Así, en nuestro ejemplo, el estadístico sería L* = L12 + L22 + L23 , donde L* es el valor para el modelo completo y

cuyos grados de libertad viene dados por la suma de los grados de libertad de cada uno de los submodelos. No obstante, esto sólo puede aplicarse cuando cada subtabla contenga todas las variables de la subtabla previa y no se impongan restricciones sobre los parámetros.

32

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Restricciones sobre los parámetros

El modelo presentado en la figura 1.1 podría interpretarse en el contexto del análisis de los grafos de independencia dirigidos (Whittaker, 1990). Así la probabilidad conjunta puede expresarse como

π abcd = π a π b π c|ab π d |ac

[1.37]

La estimación de este modelo sería similar al anterior, excepto en la última probabilidad, ya que se utilizaría la tabla marginal ACD en lugar de la tabla completa ABCD. A pesar de que estas restricciones mejoran el análisis mediante el enfoque de Goodman, presentan un problema: el modelo log-lineal que se debe especificar para estimar la última probabilidad es el {ACD} en lugar de {AC, AD, CD} Esta limitación puede resolverse mediante la utilización de los modelos log-lineales dirigidos. Dichos modelos se componen de un sistema recursivo de modelos logit para tablas simples. Siguiendo esta línea de análisis y, como aparece en la figura 1.1 que D no depende de B, πd|abc=πd|ac, entonces podríamos reescribir la ecuación [1.35] como

π abcd = π ab π c|ab π d |ac

[1.38]

En este caso, para estimar la tercera probabilidad se analizaría la tabla marginal ACD mediante el correspondiente modelo log-lineal {AC, AD, CD}, más sencillo que el procedente de la aplicación de la teoría de los grafos de independencia dirigidos. El estadístico L* antes comentado para contrastar la calidad del ajuste ya no puede ser utilizado, puesto que no se cumplen las condiciones necesarias para su aplicación. Sin embargo, con los parámetros estimados es posible estimar las frecuencias esperadas según el modelo especificado y, más tarde, utilizar dichas frecuencias estimadas para calcular el ya conocido estadístico L2 o el estadístico derivado BIC.

Los modelos log-lineales longitudinales

33

Los modelos de Markov para tiempo discreto

Una cadena de Markov expresa un proceso de cambio que sucede en un período de tiempo, siendo considerado éste discreto, para una variable discreta. En concreto, una cadena de Markov de primer orden (Bishop et al., 1975) es aquella en la que la probabilidad de pertenecer a un estado concreto de la variable en el momento t+1 depende únicamente del estado que presentaba en el período anterior t, como indica la figura 1.2.

X1

X2

X3

Figura 1.2: Un modelo de Markov para tiempo discreto

Claramente, se puede observar que el modelo de Markov para tiempo discreto es un caso particular del modelo modified path, y que, por tanto, la probabilidad conjunta se puede expresar como

π x1 x2 x3 = π x1 π x2 | x1 π x3 | x2

[1.39],

con su correspondiente parametrización como un modelo logit. Además, en el contexto de los modelos de Markov, es corriente imponer la condición de estacionariedad, esto es, la probabilidad de transición se mantiene constante para todos los períodos. En nuestro ejemplo, esto implicaría que π x2 | x1 = π x3 | x2 . Dicha restricción de igualdad se impondría también haciendo que los parámetros log-lineales de los distintos pasos sean iguales, es decir,

π X t | X t −1 =

exp(u X t + u X t −1 X t )

∑X

t

exp(u X t + u X t −1 X t )

con las restricciones u X 2 = u X 3 y u X 1 X 2 = u X 2 X 3 .

[1.40]

34

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Además sería posible incorporar covariables o variables explicativas en el modelo de Markov. Esta estructura con variables que influyen sobre el estado inicial o la interacción entre dos estados podrá representarse mediante un sistema de modelos logit al igual que hemos visto antes. Dicho modelo es equivalente a un modelo de duración para tiempo discreto (Allison, 1982, Yamaguchi, 1990, Vermunt, 1997). Dicha relación se expone en la siguiente sección. Modelos markovianos para tiempo discreto con variables ajenas y modelos logit de duración para tiempo discreto

Suponiendo un modelo de duración con múltiples estados, si las transiciones siguen un proceso de Markov, ambos modelos son equivalentes. Siguiendo a Vermunt (1997), tenemos que la expresión de un modelo de duración logit de tiempo discreto que cumple el supuesto de Markov es

λod (t l | x) =

exp(α odl + ∑ j β odj xodj )

1 + ∑ g (α ogl + ∑ j β ogj xogj )

[1.41],

donde λod(tl|x) es la probabilidad de pasar de la categoría o a la categoría d en el momento tl condicionada a no haber pasado en un período anterior y a los valores de las covariables. Para demostrar que ambos modelos son equivalentes, necesitamos expresar sus funciones de densidad o probabilidad. Si se definen dos indicadores específicos de cada episodio, δ dm y ε om , que toman, respectivamente, el valor 1 si se produce una transición a la categoría destino d o si la categoría de origen es o y 0, si no es así, la función de densidad del modelo de la expresión [1.41] es

Los modelos log-lineales longitudinales

δ dm  t  M O   D*   λ ( t | x )   m od m    ∏ (1 − λ o (t m | x)) | o1 , x) = ∏∏ ∏    − 1 λ ( t | x ) o m  tk =tm −1 m =1 o =1  d =1     *

f (t1 , d1 , , t M , d M

35

*

ε om

[1.42]

Si todos los individuos son observados durante el mismo período y L* es la longitud de dicho período y Sl la categoría ocupada en el momento tl, la expresión anterior sería

{

L*

}

f ( s1 , , s L* | s 0 , x) = ∏ λ sl −1sl (t l | x) δ l 1 − λ sl −1 (t l | x) l =1

(1−δ l )

[1.43].

En esta ecuación, δl es una variable que indica si una transición ocurre o no en el momento tl. Análogamente, la función de probabilidad conjunta de un modelo manifiesto de Markov con covariables es L*

π xs0 s1s L* = π xπ s0 |x ∏ π sl |xsl −1

[1.44].

l =1

Aunque la notación sea distinta, se pueden relacionar como

π sl |xsl −1 = λsl −1sl (tl | x)

si sl ≠ sl −1

π sl |xsl −1 = 1 − λsl −1 (tl | x) si sl = sl −1

,

De esta forma, es posible comprobar que si el período de observación es el mismo para todos los individuos1, la función expresada en la ecuación [1.43] es equivalente a la última parte de la ecuación [1.44], y que, por tanto, ambos modelos son similares. Si se expresa, como ha sido citado antes, un modelo manifiesto de Markov como un modelo modified path, las expresiones son equivalentes y muy similares. Entonces, las probabilidades condicionadas son

1

Dicho requisito es imprescindible para utilizar los modelos markovianos.

36

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

π sl | sl −1 , x =

exp(α sl −1sl + ∑ j β sl −1sl j x s

∑ g exp(α s

l −1sl ij

l −1 g

+ ∑ j β sl −1 gj x s

l −1

) ) gij

[1.45]

Dicha expresión es equivalente a la ecuación [1.41], donde los subíndices o y sl-1, d y sl, respectivamente, son las mismas categorías. No obstante, a pesar de haber expuesto la equivalencia de ambos modelos, presentan algunas diferencias. La primera está relacionada con el período de observación. Debe tener la misma duración para que exista la equivalencia ya que sólo el modelo markoviano exige que todos los individuos deben ser observados durante el mismo período. La segunda discrepancia se refiere a la función de densidad. Mientras que en el modelo markoviano, aparecen las distribuciones marginales2 de las covariables, πx, y del estado inicial dadas las covariables, π s0 |x , tales términos no están en la función de densidad del modelo logit de duración en tiempo discreto.

2

Ver ecuación [1.44]

Los modelos log-lineales longitudinales con variables latentes

37

2. Los modelos log-lineales longitudinales con variables latentes 2.1. Introducción En el capítulo anterior, todas las variables de todos los estudios considerados eran observadas. No obstante, en el día a día de la investigación, es normal encontrarse con algunas variables no observadas total o parcialmente y, por tanto, es necesario poder considerar el error de medida en la especificación de los modelos estadísticos. Este problema, el error de medida, ha dado lugar a una serie de modelos, los modelos de estructuras latentes, basados en la idea de la independencia local. Dicho concepto significa el supuesto de que las variables observadas son independientes entre sí para un valor particular de la variable no observada o latente. Los modelos de estructuras latentes presentan distintas modelizaciones dependiendo del tipo de variables latentes y observadas que tengamos. En el caso que nos ocupa, donde todas las variables son categóricas, el modelo de estructuras latentes se conoce como modelo de clases latentes (Lazarsfeld, 1950; Lazarsfeld y Henry, 1968; Goodman, 1974; Haberman, 1979). Un modelo de clases latentes, por tanto, se compone de un conjunto de variables cuyos valores se observan directamente y una variable latente no observable directamente.

2.2. El modelo de clases latentes clásico Supongamos un modelo de clases latentes con una variable latente X y cuatro indicadores o variables observadas A, B, C y D. Además X* es el número de clases latentes y A*, B*, C* y D*, el número de las categorías de las variables A, B, C y D,

38

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

respectivamente. La representación gráfica de dicho modelo aparece en la figura 2.1 y su ecuación básica es X*

π abcd = ∑ π xabcd ,

[2.1]

π xabcd = π x π abcd | x = π x π a| x π b| x π c| x π d | x

[2.2]

x =1

donde

X

A

B

C

D

Figura 2.1. Un modelo de clases latentes

La formulación anterior del modelo de clases latentes es la clásica debida a Lazarsfeld (1950), donde πxabcd es la probabilidad conjunta de todas las variables (manifiestas y latente), πx la probabilidad de pertenecer a la clase latente x y los distintos términos πi|x, las probabilidades condicionadas de estar en la categoría i de las respectivas variables, dada la pertenencia a la clase latente x. Por tanto, los parámetros del modelo de clases latentes son las probabilidades condicionadas πa|x, πb|x, πc|x, πd|x y las probabilidades de las clases latentes πx, que estarán sometidas a las siguientes restricciones: A*

B*

a =1

b =1

C*

D*

c =1

d =1

∑ π a|x =∑ π b|x =∑ π c|x =∑ π d |x = 1 X*

, ∀ x ∈∈X*

[2.3]

∑ π x =1 x =1

De nuevo, en la ecuación [2.1] se manifiesta la hipótesis de independencia local, ya que la población se divide en X* clases exhaustivas y mutuamente excluyentes por lo

Los modelos log-lineales longitudinales con variables latentes

39

que la probabilidad conjunta de las variables observadas se obtiene sumando sobre las clases latentes. La ecuación [2.1] se puede expresar mediante un modelo log-lineal (Haberman, 1979). El concepto de independencia local provoca que dicho modelo sea {AX, BX, CX, DX}, cuya expresión es log mxabcd = u0 + u x + ua + ub + ub + uc + ud + u xa + u xb + u xc + u xd

[2.4]

donde mxabcd = Nπxabcd. La ecuación anterior, además de la media general y los términos de una variable, contiene sólo los términos de interacción entre la variable latente X y las variables manifiestas. Como las variables manifiestas son independientes entre sí dada la clase latente, no aparecen los términos de interacción entre algunas variables observadas. Finalmente, es posible relacionar los parámetros de las ecuaciones [2.1] y [2.4] según un modelo logit (Haberman, 1979).

π a| x =

exp(ua + u xa ) ∑a exp(ua + uxa )

[2.5]

2.2.1 La estimación de los modelos A pesar de ser también un modelo log-lineal, la determinación de las estimaciones máximo-verosímiles de los parámetros de este modelo es más complicada que en el caso donde se observan todas las variables. Se utilizan distintos métodos de estimación, entre los cuales los más conocidos son el algoritmo de Newton-Raphson y el algoritmo EM (Dempster, Laird y Rubin, 1977). El último es preferible, ya que como el algoritmo IPF, es sencillo tanto en la teoría como en el cálculo. Además, generalmente los valores iniciales elegidos aleatoriamente son suficientes para llegar a una solución. Presenta frente al Newton-Raphson el inconveniente de necesitar más iteraciones para llegar a la solución. Sin embargo,

40

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

puesto que cada iteración del algoritmo EM es más rápida, este inconveniente no es tan importante. Al considerar alguna variable latente en el modelo, podemos hablar de datos completos e incompletos. Los primeros se refieren a la distribución de frecuencias de todas las variables, observadas y no observadas, mientras que los segundos son las frecuencias de las variables observadas. No obstante, según la expresión [2.1], las observaciones nabcd de la tabla colapsada contienen información sobre los datos completos nxabcd. Las ecuaciones [2.1] y [2.2] recogen las relaciones entre los datos completos e incompletos. El algoritmo EM es un procedimiento iterativo y cada iteración está compuesta por dos pasos. En el paso Esperanza se calculan todos los valores esperados dados los valores observados y los “actuales” parámetros del modelo. En el paso Maximización, se maximiza la función de verosimilitud de todos los datos a partir de los valores esperados calculados en el paso anterior. Esto implica el cálculo de estimaciones actualizadas de los parámetros del modelo como si no faltaran datos, es decir, se utilizan las estimaciones nˆ xabcd como si fueran frecuencias observadas. Para hacerlo, se utilizan los mismos procedimientos en la obtención de las estimaciones máximo-verosímiles de un modelo log-lineal normal: Newton-Raphson e IPF. Las estimaciones obtenidas se utilizan en un nuevo paso Esperanza para lograr nuevas estimaciones para las frecuencias de la tabla completa. Las iteraciones continúan hasta que se alcanza la convergencia. Veremos de forma general cómo funciona este algoritmo y, más tarde, a medida que estudiemos los distintos modelos, expondremos qué expresiones surgen de cada uno de ellos. De las expresiones [2.1] y [2.2] podemos concluir que los datos completos nxabcd siguen una distribución multinomial M(N, πxabcd). Por tanto, el logaritmo de la función de verosimilitud es

Los modelos log-lineales longitudinales con variables latentes

41

∑ nxabcd logπ xabcd

[2.6]

xabcd

Es posible obtener unos estadísticos suficientes para los parámetros si, en primer lugar, descomponemos la probabilidad πxabcd mediante las ecuaciones [2.1] y [2.2].

∑ nxabcd logπ xabcd = ∑ nx···· log π x + ∑ nxa··· logπ a| x +∑ nx·b·· logπ b| x +

xabcd

x

x,a

x,b

+ ∑ nx··c· log π c| x + ∑ nx···d log π d | x x,c

[2.7]

x,d

En el paso E, se calculan los valores esperados de las observaciones completas dados los datos observados y los parámetros de la iteración anterior. Al seguir los datos completos una distribución multinomial, la distribución condicionada de dichos datos completos nxabcd dados los datos observados nabcd es una distribución multinomial M(nabcd, πxabcd|πabcd), la cual implica que

E [n xabcd | nabcd , π xabcd ] = nabcd

π xabcd = nabcd π x|abcd π abcd

En consecuencia, en el paso E estamos ante:

E [n x···· | nabcd , πˆ xabcd ( p)] =

∑ nabcd πˆ x|abcd ( p)

a ,b ,c , d

E [nxa··· | nabcd , πˆ xabcd ( p)] =

∑ nabcdπˆ x|abcd ( p)

b,c , d

E [n x·b·· | nabcd , πˆ xabcd ( p)] =

∑ nabcd πˆ x|abcd ( p)

a ,c , d

E [n x··c· | nabcd , πˆ xabcd ( p)] =

∑ nabcd πˆ x|abcd ( p)

a ,b , d

E [n x···d | nabcd , πˆ xabcd ( p)] =

∑ nabcd πˆ x|abcd ( p)

a ,b , c

[2.8]

42

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

En el paso M y dada la expresión [2.8], se determina la estimación del parámetro en la iteración p+1-ésima dados los estadísticos suficientes de los datos completos en la iteración p. E [n x···· | πˆ ( p + 1)] = Nπˆ x ( p + 1) E [n xa··· | πˆ ( p + 1)] = Nπˆ x ( p + 1)πˆ a| x ( p + 1) E [n x·b·· | πˆ ( p + 1)] = Nπˆ x ( p + 1)πˆ b| x ( p + 1) E [n x··c· | πˆ ( p + 1)] = Nπˆ x ( p + 1)πˆ c| x ( p + 1) E [n x···d | πˆ ( p + 1)] = Nπˆ x ( p + 1)πˆ d |x ( p + 1)

A partir de estas expresiones, las estimaciones de las probabilidades son

πˆ x ( p + 1) =

πˆ a| x ( p + 1) =

∑ nabcd πˆ x|abcd ( p)

a ,b ,c ,d

N

,

[2.9.a]

∑ nabcd πˆ x|abcd ( p)

b ,c ,d

∑ nabcd πˆ x|abcd ( p)

,

[2.9.b]

a ,b , c , d

πˆ b|x ( p + 1) =

∑ nabcd πˆ x|abcd ( p)

a ,c , d

∑ nabcd πˆ x|abcd ( p)

[2.9.c]

a ,b , c , d

πˆ c|x ( p + 1) =

∑ nabcd πˆ x|abcd ( p)

a ,b , d

∑ nabcd πˆ x|abcd ( p)

a ,b , c , d

[2.9.d]

Los modelos log-lineales longitudinales con variables latentes

πˆ d | x ( p + 1) =

43

∑ nabcd πˆ x|abcd ( p)

a ,b ,c

∑ nabcd πˆ x|abcd ( p)

[2.9.e]

a ,b ,c , d

El proceso de iteración debe continuar hasta que el incremento del logaritmo de la función de verosimilitud sea menor que un valor arbitrario muy pequeño, por ejemplo 10-6. Incluso si las iteraciones se repiten muchas veces, es posible encontrar un óptimo local. A partir de las ecuaciones [2.9] es posible calcular las probabilidades X*

πˆ xabcd y πˆ abcd = ∑πˆ xabcd .

[2.10]

x =1

2.2.2 Identificabilidad y contraste del modelo Los parámetros de los modelos con variables latentes no pueden determinarse de una única forma. La condición, expuesta en los modelos log-lineales, de que el número de parámetros independientes no debe exceder las frecuencias observadas no es suficiente para los modelos con variables latentes. Según Goodman (1974), una condición suficiente para la identificabilidad local es que la matriz de información sea definido positiva. Mediante tal criterio, es posible resolver el problema de la identificabilidad al utilizar el algoritmo EM. Otra manera de contrastar si un modelo es identificable con el algoritmo EM consiste en estimar el modelo con diferentes valores iniciales. Si con esos valores iniciales distintos, el modelo proporciona el mismo valor del logaritmo de la función de verosimilitud pero distintas estimaciones de los parámetros, el modelo es no identificable. En lo referente al contraste de la calidad del ajuste, remitimos al lector al apartado 1.2.3. En este caso, el número de grados de libertad necesarios para calcular cualquiera de las pruebas se determina como

44

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

[(

)

gl = C M − 1 − S * − 1 − MS * (C − 1)

]

[2.11],

donde C es el número de categorías de las variables observadas y M la cantidad de variables observadas.

2.2.3 Asignación a las clases Una vez estimadas las probabilidades conjuntas, la continuación lógica es la identificación de qué tipo de individuos pertenecen a cada clase de la variable latente X. Para ello se calcula la probabilidad condicionada de que un individuo que se sitúe en las categorías a, b, c y d de las variables manifiestas A, B, C y D, pertenezca a la clase x de la variable X de la siguiente manera:

πˆ abcd | x =

πˆ abcdx X*

∑πˆ abcdx

.

[2.12]

x =1

Dada esta probabilidad, la regla de asignación es mediante la probabilidad modal, es decir, los individuos situados en la celda (a, b, c, d) de la tabla serán asignados a aquella clase latente cuya πˆ abcd | x sea mayor. Como vemos, se utiliza un proceso bayesiano para realizar dicha asignación. Sin embargo, no existe una correspondencia absoluta entre la clase latente que realmente ocupa un individuo y la clase a la cual se le asigna. La probabilidad de mala clasificación para la celda observada (a, b, c, d), εabcd, se calcula como

ε abcd = 1 − π abcd | x*

[2.13],

donde x* se refiere a la clase latente modal. Dada la probabilidad anterior, se puede definir la probabilidad de mala clasificación general para todos los individuos, E, que expresa la proporción esperada de la población mal clasificada al seguir el procedimiento antes comentado.

Los modelos log-lineales longitudinales con variables latentes

45

A* B * C * D*

E = ∑∑∑∑ π abcd ε abcd

[2.14]

a =1 b =1 c =1 d =1

Por tanto, es una medida de la calidad del proceso de asignación, ya que cuanto mayor sea, más probable es que difieran la distribución de la variable latente y la de la variable latente asignada. Clogg (1981) presentó una modificación de E que compara la estimación de la variable latente X mediante la variable ABCD y la estimación sin ella. La expresión de λ es

λ XABCD =

(1 − π x* ) − E (1 − π x* )

[2.15],

donde πx* se refiere a la clase modal. No obstante, queremos aclarar que no son medidas de calidad del ajuste, sólo de mala clasificación. Un modelo puede aceptarse y presentar unas probabilidades de mala clasificación muy altas. Una vez asignados las frecuencias a una clase latente, el siguiente paso en el análisis es descubrir relaciones entre algunas variables externas y la variable latente. Sin embargo, si la probabilidad de mala clasificación es muy alta, dichas relaciones no son iguales para la verdadera variable latente que para la variable fruto de la asignación. Esto nos lleva al problema de la identificabilidad de los valores de los individuos para la variable X (Hagenaars, 1990). Para superar este problema, debemos proponer un modelo en el que se especifiquen las relaciones entre las variables externas y la variable latente X, es decir, un modelo estructural y no un modelo logit para expresar la relación entre las variables externas y la variable latente asignada. No obstante, es más útil éste último si la clasificación es buena, ya que el modelo es más simple.

46

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

2.2.4 Extensiones del modelo clásico En este apartado se contemplan aquellos modelos que superan el marco y las limitaciones del modelo clásico, es decir, varias variables observadas independientes entre sí dadas las clases de una única variable latente. Estos modelos se pueden formular como los modelos modified path vistos en el apartado 1.3.3. Todos ellos, sin embargo, comparten la característica de ser estáticos. A lo largo del resto del capítulo, desarrollaremos sus contrapartidas en el análisis dinámico y comentaremos cómo incorporar cada una de sus particularidades dentro de un modelo dinámico con variables latentes. Modelos con más de una variable latente La especificación de los modelos de clase latente con más de una variable latente se propuso por Goodman (1974) y Haberman (1979). Supongamos un modelo con dos variables latentes, X e Y, con cuatro indicadores, A y B para X y C y D para Y. Además, supongamos que ambas variables latentes están relacionadas como aparece en la figura 2.2. La expresión de dicho modelo será la siguiente,

π xyabcd = π xyπ a| xπ b| xπ c| yπ d | y

[2.16]

que se corresponde con el modelo log-lineal {XY, XA, XB, YC, YD}, es decir, log mxyabcd = u + u x + u y + ua + ub + uc + ud + u xy + u xa + u xb + u yc + u yd

Y

X

A

B

C

Figura 2.2. El modelo de clases latentes con dos variables latentes

D

[2.17]

Los modelos log-lineales longitudinales con variables latentes

47

De nuevo, es posible imponer distintos tipos de restricciones sobre los parámetros del modelo log-lineal o las probabilidades condicionadas. Modelos con variables externas

Este punto (Hagenaars, 1990) está muy relacionado con el apartado 2.3 de este capítulo. A las variables externas introducidas en el modelo, dado que no son indicadores, no se les exige la condición de independencia local dada la variable latente. Clogg (1981) propuso una especificación de un modelo de este tipo similar a los modelos con múltiples indicadores y múltiples causas (MIMIC). Por ejemplo, supongamos una variable latente X con las variables A, B y C como indicadores y dos variables externas M y N, relacionadas como se observa en la figura 2.3.

A M X N

B C

Figura 2.3. Un modelo de clases latentes con variables externas

En el modelo representado por la figura anterior, están relacionadas las variables exógenas, ambas influyen en la variable latente sin que exista un término de interacción entre las tres, de forma que se podría expresar como el modelo log-lineal {MN, MX, NX, XA, XB, XC} cuya ecuación es

log mxabcmn = u + um + un + u x + ua + ub + uc + umn + umx + unx + u xa + u xb + u xc [2.18] Dicho modelo se puede expresar como probabilidades condicionadas de la siguiente manera.

π xabcmn = π mn π x|mn π a| x π b| x π c| x

[2.19]

48

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Finalmente, aunque en este ejemplo las variables exógenas son explicativas, esta cualidad no es obligatoria. Es posible construir un modelo, como se verá en los modelos log-lineales causales con variables latentes, donde una variable exógena sea dependiente. Modelos para varias subpoblaciones

En esta extensión se contempla la existencia de distintos grupos en la población. En consecuencia, la distribución de la variable latente y su relación con las variables indicadores pueden variar para cada grupo o subpoblación. Clogg y Goodman (1984, 1985) presentaron los principios para desarrollar análisis latentes simultáneos para los distintos grupos utilizando la parametrización clásica del modelo de clases latentes. No obstante, el análisis latente simultáneo para varias subpoblaciones se puede entender como un modelo de clases latentes con variables externas puesto que implica la existencia de una variable relativa al grupo. Dicha variable, como hemos dicho antes, puede afectar a la variable latente y las probabilidades condicionadas de respuesta. Si suponemos una variable de grupo G, una latente X y tres indicadores A, B y C, el modelo podría escribirse como

π xabcg = π g π x| g π a| xg π b| xg π c| xg

[2.20].

Este modelo se puede expresar en forma log-lineal como {GXA, GXB, GXC} que también refleja todos los efectos de la variable grupo que, en definitiva, es una variable exógena o covariable. Se pueden imponer distintas restricciones al modelo de la ecuación [2.20] para considerar distintos efectos de la variable grupo, restricciones que se reflejarían en distintos efectos de interacción para el modelo log-lineal que representa la relación entre las variables. Modelos de dependencia local: efectos entre las variables indicadores

Hasta ahora, se ha seguido el supuesto básico del modelo de clases latentes clásico de independencia local en las variables indicadores. Sin embargo, dicho supuesto no es

Los modelos log-lineales longitudinales con variables latentes

49

realista en algunas circunstancias. En ocasiones, existen relaciones entre las variables manifiestas que no pueden explicarse mediante la variable latente. Supongamos, por ejemplo, que en el modelo de la figura 2.1 existe una relación entre las variables observadas A y B. El nuevo modelo, presente en la figura 2.4, se es el modelo log-lineal {XA, XB, XC, XD, AB}.

X

A

B

C

D

Figura 2.4. Un modelo de dependencia local

Al igual que los modelos anteriores se puede expresar como mediante una sucesión de probabilidades condicionadas.

π xabcd = π x π ab| x π c| x π d |x

[2.21].

En la ecuación anterior, el término πab|x debe ser restringido mediante la inexistencia de un parámetro log-lineal de tercer orden uabx. Hagenaars (1988 y 1990) expone cómo estimar estos modelos de dependencia local. Para ello utiliza las llamadas por él variables casi latentes. Este procedimiento consiste en suponer la existencia de unas variables latentes perfectamente conectadas con las variables manifiestas asociadas, es decir, las categorías concuerdan con una probabilidad del 100%. Dichas variables casi latentes estarían relacionadas entre sí y con la variable latente según la figura 2.5, donde las variables A’ y B’ son casi latentes y relacionadas perfectamente con las variables observadas A y B, respectivamente.

50

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

X

A’

A

B’

C

D

B

Figura 2.5. Reexpresión de un modelo de dependencia local

La comparación de las figuras 2.4 y 2.5 permite comprender la transformación experimentada por el modelo de clases latentes cuando algunas variables observadas están relacionadas. De esta forma, la variable latente X se mide directamente por las variables C y D e indirectamente por las variables A y B a través de las variables casi latentes A’ y B’. La estimación de este nuevo modelo se realiza de manera parecida a la expuesta en el apartado 1.3.3. En el próximo apartado de este capítulo, se desarrolla el proceso de estimación de los modelos log-lineales causales con variables latentes.

2.3. Los modelos dinámicos de variables latentes En este caso se habla de modelos dinámicos en general y no de tablas bidimensionales y multidimensionales en particular, puesto que la introducción de una variable latente en una tabla de movilidad bidimensional es un caso muy parecido al modelo clásico de clases latentes. Esta cuestión, la incorporación del tiempo en el análisis, no puede resolverse mediante las extensiones del modelo clásico de clases latentes arriba comentadas. La razón reside en la imposibilidad de especificar un orden causal a priori entre las variables. No obstante, se verá cómo pueden expresarse como unos modelos modified path donde una o algunas de las variables no son observadas, esto es, latentes.

En primer lugar, se expondrá la teoría relacionada con los modelos log-lineales causales con variables latentes. Hagenaars (1990) mostró cómo especificar al mismo

Los modelos log-lineales longitudinales con variables latentes

51

tiempo un sistema de modelos logit para un conjunto de variables latentes y observadas ordenadas causalmente y un modelo de clases latentes para las variables latentes utilizadas en el sistema anterior. Puesto que el modelo general propuesto por él consta de una parte estructural y otra de medida análogamente al modelo LISREL (Jöreskog y Sörbom, 1988) para variables continuas, lo llamó modelo LISREL modificado. El modelo representado en la figura posterior es una versión del modelo de caminos modificado, donde la variable X se considera latente y medida a través de las variables D, E y F. Este modelo no sólo estima la fuerza de la asociación entre las variables, sino

también incorpora alguna información a priori sobre el orden causal de las variables. A

C B

X

D

E

F

Figura 2.6. Un modelo LISREL modificado

En este caso concreto, la variable latente X se considera posterior a C y ésta posterior a las variables A y B. No obstante, es posible encontrar más de una variable latente. Supongamos un modelo en el que se especifican las relaciones causales entre varias variables categóricas A, B, C, X e Y, donde las dos últimas son latentes. A y B son exógenas, mientras que el resto son endógenas. Además se supone que C es posterior a X e Y posterior a C. Finalmente, las variables D y E son indicadores de la variable

latente X y F y G de la variable Y. Dicho modelo aparece reflejado en la figura siguiente.

52

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

A

C

Y

X B

D

E

F

G

Figura 2.7. Un modelo LISREL modificado con más de una variable latente

La probabilidad de pertenecer a una celda determinada de la probabilidad conjunta de todas las variables se representa por πabxcydefg. Es posible utilizar la información sobre el orden causal para descomponer la probabilidad anterior como un productos de distintas probabilidades marginales y condicionadas.

π abxcydefg = π ab π x|ab π c|abx π y|abxc π defg | xy

[2.22]

Son muy visibles las similitudes con el modelo de la expresión [1.35]. La diferencia es la última probabilidad condicionada que recoge la relación entre las variables latentes y sus indicadores, esto es, la parte de medida del modelo. El resto de las probabilidades representan la parte estructural del modelo. Por lo tanto, de nuevo aparece esta división del modelo en dos submodelos de manera análoga al modelo LISREL. Sin embargo, el modelo debe mejorarse ya que la expresión anterior es un modelo saturado donde una variable dependiente depende de todas las variables anteriores, incluso de todas sus interacciones. La manera más sencilla de hacerlo es, como se vio en el capítulo anterior, utilizar la información proporcionada por el grafo del modelo, en este caso, la figura 2.7. Por ejemplo, en ella se puede observar que la variable C depende de las variables A y X, pero no de B. En consecuencia, la expresión [2.22] se podría escribir como

π abxcydefg = π ab π x|ab π c|ax π y|axc π d | x π e| x π f | y π g | y estructural

medida

[2.23]

Los modelos log-lineales longitudinales con variables latentes

53

Puesto que el modelo LISREL modificado de Hagenaars es una extensión del modelo modified path de Goodman, se puede expresar como el siguiente sistema recursivo de modelos logit.

π ab =

π x|ab =

exp(ua + ub ) , ∑ab exp(ua + ub )

exp(u x + uax + ubx + uabx ) , ∑ x exp(u x + uax + ubx + uabx )

π c|ax =

π y|cx =

exp(uc + uac + u xc ) , ∑c exp(uc + uac + u xc ) exp(u y + u xy + ucy )

∑c exp(u y + u xy + ucy )

π d |x =

exp(ud + udx ) , ∑d exp(ud + udx )

π e| x =

exp(ue + uex ) , ∑e exp(ue + uex )

π f |y =

π g| y =

exp(u f + u fy )

∑ f exp(u f

+ u fy )

exp(u g + u gy )

∑ g exp(u g + u gy )

,

,

.

Si suponemos fija la distribución marginal de las variables independientes, cada uno de los anteriores modelos logit se puede expresar como un modelo log-lineal para cada una de las distintas tablas marginales del problema siguiendo la expresión [1.33].

54

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

log mab = u + ua + ub , para la tabla marginal AB log mabx = α ab + uax + ubx + uabx , para la tabla marginal ABX log macx = α ax + u ac + u xc , para la tabla marginal ACX log mcxy = α cx + u y + u cy + u xy , para la tabla marginal CXY

log m xde = u + u x + u d + u e + u dx + u ex , para la tabla marginal XDE log m yfg = u + u y + u f + u g + u yf + u yg , para la tabla marginal YFG.

Como se puede observar, tanto en las tablas como en los modelos, sólo se han considerados aquellas variables precedentes de la que depende una variable concreta. La reducción de la cantidad de las variables condicionantes hace que la estimación sea más eficiente. Dicha reducción provoca que no sea posible calcular la razón de verosimilitud L2 del modelo completo como la suma de las respectivas razones de cada modelo logit tal y como propuso Goodman. No obstante, ya fue comentado en el capítulo anterior que este problema se subsana fácilmente calculando las frecuencias esperadas según el modelo completo y comparándolas con las observadas.

2.3.1 Algunos modelos log-lineales causales con variables latentes aplicables a las tablas de movilidad El análisis de una tabla de movilidad presenta la peculiaridad de que se estudia la misma variable en, al menos, dos momentos de tiempo distintos. En consecuencia, los modelos que reflejan el cambio son más sencillos que los estudiados hasta ahora en este capítulo. Estudiamos la dependencia temporal respecto de sí mismas. La consideración de las variables latentes en este contexto puede deberse a distintas causas. En primer lugar, quizás la variable cuya movilidad o cambio se estudia es una variable no observable (por ejemplo, la calidad de vida o el bienestar). Por tanto, es necesario utilizar una o más variables observadas como indicadores de las latentes. Un fenómeno que también implica la introducción de las variables latentes es el error de

Los modelos log-lineales longitudinales con variables latentes

55

medida. Es decir, se analiza el cambio de una variable observada, cambio formado por un componente real y otro espurio debido a los errores de repuesta. Finalmente, las variables latentes ayudan a reconocer la heterogeneidad de la población respecto de la movilidad. En este caso, la variable latente divide la población en grupos homogéneos para el cambio, esto es, con matrices de movilidad comunes.

2.3.1.1 El modelo latente de Markov El error de medida, razón de existencia de los modelos de clases latentes, atenúa la asociación existente entre las variables. Esto significa que la relación entre dos variables observadas sujetas a algún tipo de error de medida será generalmente más débil que la relación real. Cuando se analiza la movilidad, este hecho implica que la fuerza de las relaciones entre las categorías realmente ocupadas en dos momentos de tiempo será estimada por defecto, o, en otras palabras, la magnitud de la movilidad será estimada por defecto cuando las categorías observadas sufran algún error. Cuando se produce este hecho, las transiciones observadas son, de hecho, una mezcla de la movilidad real y cambio espurio resultante del error de medida (Van de Pol y De Leeuw, 1986; Hagenaars, 1992). Como ejemplos de los modelos latentes para analizar el cambio, se presentan los dos modelos de la figura 2.8.

X

a)

A

B

b)

C

D

W

X

Y

Z

A

B

C

D

Figura 2.8. Modelos dinámicos de variables latentes

El modelo a) refleja aquella situación donde todo el cambio observado se debe al error de medida puesto que sólo existe una variable latente, es decir, no existe cambio

56

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

latente o real. Por otro lado, en el modelo b) se observa una estructura donde se produce un cambio latente analizado mediante las relaciones entre las variables no observadas W, X, Y y Z medidas por las variables indicadores A, B, C y D. Además, tenemos que cada variable manifiesta está relacionada con una y sólo una variable latente y cada una de éstas se asocia sólo con la variable latente que recoge el estado real en el período anterior. Este último modelo es la representación gráfica de un modelo latente de Markov (Wiggins, 1973; Poulsen, 1982) con un único indicador por ocasión. Dicho modelo presenta problemas de identificabilidad que se pueden resolver introduciendo al menos un indicador más o imponiendo restricciones adicionales a las relaciones del modelo. Algunas restricciones posibles son la estacionariedad de la matriz de transición, la independencia de los valores observados en diferentes momentos dados los latentes, la dependencia del error de medida sólo respecto del valor latente actual y no de los previos, entre otras. Para simplificar la exposición, supongamos una única variable indicador por ocasión. Supongamos t valores consecutivos X1, X2, …, Xt de una misma variable discreta X observada con X* categorías. Además, se supone un vector p de probabilidades iniciales y un conjunto de matrices de transición Tt. para cada período. Al ser un modelo de Markov de primer orden, cada matriz de transición T recoge las probabilidades condicionadas de pertenecer a la categoría j de la variable Xt dada la pertenencia al estado j de la variable Xt-1. Además, se introduce una variable discreta latente Y presente en cada uno de los períodos. No es necesario que el número Y* de estados latentes coincida con la cantidad X* de categorías observadas. La estructura de las relaciones entre las distintas variables latentes y observadas para tres momentos de tiempo sigue la asociación representada en la figura 2.9.

Los modelos log-lineales longitudinales con variables latentes

57

Y1

Y2

Y3

X1

X2

X3

Figura 2.9. Un modelo latente de Markov para tres momentos de tiempo

En consecuencia, el vector que recoge la distribución de probabilidad de la variable observada X, pt, depende de la distribución de probabilidad de la variable latente Y, el vector δt, y de la matriz Rt de las probabilidades condicionadas de respuesta o de fiabilidad ρx|y. Estas últimas son las probabilidades de pertenecer a una categoría de la variable X dado un estado latente Y. Por tanto, podemos expresar la distribución observada de probabilidad en el período t como pt = δ t Rt

[2.24]

En el diagrama siguiente, aparecen los parámetros que se estiman si se considera que las variables latentes y observadas son dicotómicas. Se puede observar que el cambio se realiza en la parte latente (estructural) mediante las matrices de transición y que las variables latentes se reflejan en las variables manifiestas a través de las matrices de fiabilidad.

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

58

1 1  τ 12|11 τ 22|11  21 21  τ 1|21 τ 2|21 

[δ

1 1

δ21

[δ

]

 ρ11|1  1  ρ1|2

[P1++

2  τ 13|112 τ 23|11  32 32  τ 1|21 τ 2|21  2 1

ρ 12|1   ρ 12|2 

δ22

]

 ρ12|1  2  ρ1|2

[P+1+

P2++ ]

[δ

3 1

ρ 22|1   ρ 22|2 

δ23

]  ρ13|1  3  ρ1|2

P+2+ ]

[P++1

ρ 23|1   ρ 23|2 

P++2 ]

Figura 2.10. Relaciones y parámetros que estimar en un modelo latente de Markov dicotómico en tres períodos

Por lo tanto, los parámetros que hay que estimar a partir de los datos observados son: • la probabilidad inicial δ y1 de pertenecer a cada una de las Y* clases latentes en el momento inicial. • las probabilidades condicionadas de respuesta ρ xi | yi de estar en cada una de las categorías xt observadas dado el estado latente yt en el momento t. • las probabilidades de transición latente τ yt | yt −1 de pasar de cada clase latente yt-1 en el momento t-1 a la clase latente yt en el momento t. La probabilidad conjunta de pertenecer a una celda determinada de la distribución según este modelo sería3:

π y1 y 2 y3 x1 x2 x3 = δ y1 ρ x1 | y1τ y 2 | y1 ρ x2 | y 2 τ y3 | y 2 ρ x3 | y3

3

[2.25].

Se ha utilizado la notación propuesta por los autores que han trabajado sobre estos modelos.

Creemos que una letra distinta para cada tipo de probabilidad facilita la comprensión del modelo. Siguiendo

la

notación

usada

en

el

trabajo

π y1 y2 y3 x1x2 x3 = π y1π x1| y1π y2 | y1π x2| y2 π y3| y2 π x3| y3

hasta

ahora,

la

ecuación

[2.25]

sería

Los modelos log-lineales longitudinales con variables latentes

59

Sin embargo, sólo se conocen los datos observados px1 x2 x3 y, por tanto, nos enfrentamos al problema de estimar estados no observables. Es decir, sólo las probabilidades de las variables observadas tienen una contrapartida empírica para inferir estadísticamente. No obstante, colapsando sobre las variables latentes la expresión [2.25], podemos obtener una ecuación que relacione la probabilidad de las variables observadas con el producto de probabilidades condicionadas respecto a las latentes.

π x1x2 x3 =

y1*

y*2

y3*

∑ ∑ ∑δ y ρ x |y τ y |y ρ x |y τ y |y 1

y1 =1 y2 =1 y3 =1

1 1

2

1

2

2

3

2

ρ x3| y3

[2.26]

Por consiguiente, con una muestra aleatoria de N individuos en el panel, podemos suponer que el modelo latente de Markov sigue una distribución multinomial paramétrica, cuyo parámetro de probabilidad viene dado por la ecuación [2.26]. Estimación del modelo latente de Markov

Las estimaciones máximo-verosímiles de los parámetros del modelo se obtienen mediante el algoritmo EM, expuesto anteriormente. En primer lugar, para poder aplicar el algoritmo, buscaremos los estadísticos suficientes de los datos completos para los parámetros del modelo. Partimos del logaritmo de la función de verosimilitud según la expresión [2.25].

∑ ∑

y1 y 2 y3 x1 x 2 x3

+

n y1 y 2 y3 x1 x2 x3 log π y1 y 2 y3 x1 x2 x3 = ∑ n y1 ····· log δ y1 + y1

∑ n y y ···· logτ y | y 1 2

y1 , y 2

2

1

+

∑ n· y ·· x · log ρ x | y 2

x2 , y 2

2

2

2

+

∑ n y ·· x ·· log ρ x | y 1

∑ n· y y ··· logτ y | y 2 3

y 2 , y3

1

1

1

+

x1 , y1

3

2

+

∑ n·· y ·· x 3

3

log ρ x3 | y3

x3 , y 3

Como para que el modelo sea identificable se impone la restricción de que las probabilidades de respuesta sean iguales en cada momento, podemos escribir la expresión anterior como

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

60

∑ ∑ ny y y x x x

1 2 3 1 2 3

log π y1 y2 y3 x1 x2 x3 =

y1 y 2 y3 x1 x2 x3

= ∑ n y1 ····· log δ y1 + ∑ (n y·· x·· + n· y·· x· + n·· y·· x ) log ρ x| y + ∑ n y1 y2 ···· log τ y2 | y1 + y1

x, y

y1 , y 2

∑ n· y y ···· log τ y | y 2 3

3

y 2 , y3

[2.27] A partir de esta expresión es posible obtener los estadísticos suficientes para los parámetros. Una vez hecho esto, ya puede aplicarse el algoritmo EM. En primer lugar, se expone el paso E4.

[

] ∑n

E n y1 ····· | πˆ ( p) =

x1 x2 x3

πˆ y1|x1x2 x3 ( p)

x1 , x2 , x3

[

] ∑ nx x x πˆ y | x x x ( p) + ∑ nx x x πˆ y | x x x ( p) + x ,x x ,x

E n y·· x·· + n· y ·· x· + n·· y ·· x | πˆ ( p) =

1 2 3

2

+

[

] ∑n

E n y1 y2 ···· | πˆ ( p) =

1 2 3

∑ nx x x

1 2 3

1 2 3

2

2

1 2 3

3

πˆ y3 | x1 x2 x3 ( p)

x 2 , x3 x1x2 x3

1

3

[

] ∑n

πˆ y1 y2 |x1x2 x3 ( p) E n· y2 y3 ···· | πˆ ( p) =

x1 , x2 , x3

x1x2 x3

πˆ y2 y3| x1x2 x3 ( p) ,

x1 , x2 , x3

donde

4

πˆ y1 | x1 x2 x3 ( p) =

πˆ y1 ·· x1 x2 x3 ( p) , πˆ··· x1 x2 x3 ( p)

πˆ y 2 | x1 x2 x3 ( p) =

πˆ· y 2 · x1 x2 x3 ( p) , πˆ··· x1 x2 x3 ( p)

πˆ y3 | x1 x2 x3 ( p) =

πˆ·· y3 x1 x2 x3 ( p ) , πˆ··· x1 x2 x3 ( p)

El término (p) que aparece junto a las distintas probabilidades refleja la iteración p-ésima del

algoritmo.

2

Los modelos log-lineales longitudinales con variables latentes

πˆ y1 y 2 | x1 x2 x3 ( p) =

61

πˆ y1 y 2 · x1 x2 x3 ( p) y πˆ··· x1 x2 x3 ( p)

πˆ y 2 y3 | x1 x2 x3 ( p) =

πˆ· y 2 y3 x1 x2 x3 ( p) πˆ··· x1 x2 x3 ( p)

Una vez obtenidas las estimaciones de los parámetros del modelo en el paso p-ésimo, se determinan las probabilidades estimadas que maximizan la verosimilitud en la etapa

Maximización.

[

]

E n y1 ····· | N , πˆ ( p + 1) = Nδ y1 ( p + 1) ,

[

]

E n y1 ·· x1 ·· | N , πˆ ( p + 1) = Nδ y1 ( p + 1) ρ x| y ( p + 1) ,

[

]

E n· y2 ·· x2 · | N , πˆ ( p + 1) = Nρ x| y ( p + 1)¦ δ y1τ y2 | y1 ( p + 1) , y1

[

]

E n·· y3 ·· x3 | N , πˆ ( p + 1) = Nρ x| y ( p + 1) ¦ δ y1 ( p + 1)τ y2 | y1 ( p + 1)τ y3| y2 ( p + 1) , y1 , y2

[

]

E n y1 ·· x1 ·· + n· y 2 ·· x 2 · + n·· y3 ·· x3 | N ,πˆ ( p + 1) = Nρ x| y ( p + 1)(δ y1 ( p + 1) + + ¦ δ y1 ( p + 1)τ y 2 | y1 ( p + 1) + y1

[

¦ δ y ( p + 1)τ y | y ( p + 1)τ y | y 1

2

1

3

2

( p + 1)

y1 , y 2

]

E n y1 y2 ···· | N , πˆ ( p + 1) = Nδ y1 ( p + 1)τ y2 | y1 ( p + 1)

[

]

E n· y2 y3 ··· | N , πˆ ( p + 1) = Nτ y3| y2 ( p + 1)¦ δ y1τ y2 | y1 ( p + 1) y1

Partiendo de las expresiones anteriores, podemos encontrar las estimaciones p+1ésimas de los parámetros que maximizan la función de verosimilitud dadas las probabilidades de la iteración anterior.

62

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

∑ nx x x

πˆ y1 | x1 x2 x3 ( p)

1 2 3

δˆ y1 ( p + 1) =

[2.28.a]

N

∑ n x x x (πˆ y |x x x ( p) + πˆ y |x x x ( p) + πˆ y |x x x ( p)) 1 2 3

ρˆ x| y ( p + 1) =

x1 , x 2 , x3

1 1 2 3

2 1 2 3

3 1 2 3

x1 x2 x3

  Nρ x| y  δ y1 + ∑ δ y1τ y2 | y1 + ∑ δ y1τ y2 | y1τ y3 | y2    y1 y1 , y2  

∑ nx x x

πˆ y1 y2 | x1x2 x3 ( p )

1 2 3

τˆ y2 | y1 ( p + 1) =

x1 , x2 , x3

∑ nx x x 1 2

[2.28.b]

πˆ y1|x1x2 x3 ( p ) 3

[2.28.c]

x1 , x2 , x3

∑ nx x x

1 2 3

τˆ y3 | y2 ( p + 1) =

πˆ y2 y3 |x1x2 x3 ( p )

x1 , x2 , x3

∑ ∑ nx x x

1 2 3

πˆ y1 y2 | x1x2 x3 ( p )

[2.28.d].

y1 x1 , x2 , x3

En la ecuación [2.28.b] se comprueba cómo las restricciones de igualdad sobre los parámetros producen una expresión similar a una media ponderada de las probabilidades de respuesta no restringidas. Finalmente, para contrastar la calidad del ajuste, se utilizan los estadísticos ya comentados en este trabajo. Los grados de libertad son gl = ( X * )T − S * ( X * + S * − 1)

[2.29]

2.3.1.2 El modelo mixto de Markov La razón de ser de este modelo es la heterogeneidad de la población respecto del cambio, es decir, no toda la población tiene por qué seguir el mismo patrón de movilidad. A priori el investigador puede dividir la población en subgrupos según una o más variables y hacer un análisis dinámico para cada uno. Sin embargo, el modelo aquí

Los modelos log-lineales longitudinales con variables latentes

63

expuesto no divide a priori según una variable observada, sino que considera que el proceso dinámico es una mixtura de distintos procesos dinámicos. Su origen se remonta al trabajo de Blumen et al. (1955). Encontraron que los procesos de Markov predecían demasiado cambio tras muchas transiciones. En concreto, expusieron que los elementos de la diagonal principal de la matriz de transición observada tendían a ser subestimados. Para solucionar este problema5, propusieron un modelo, llamado Mover-stayer, que divide la población en dos grupos. Uno de ellos, mover, se caracteriza por comportarse según un modelo de Markov, es decir, la probabilidad de pasar de la categoría i en el período t a la categoría j en el t+1 se recoge en una usual matriz de transición; mientras que el otro, stayer, es un grupo de individuos estables, esto es, su matriz de transición es la matriz identidad. Más tarde, Poulsen (1982) extiende el modelo a una mixtura de S* grupos con patrones de cambio comunes, es decir, matrices de transición comunes. Por tanto, este modelo supone que las probabilidades de transición observadas son una mixtura de las probabilidades de un conjunto de grupos no observados, de manera que podemos decir que una variable no observada (latente) influye las probabilidades de transición. A continuación, haremos una exposición del modelo. Sea X una variable discreta politómica con X* categorías observada durante T períodos y sea Xt, la observación concreta de dicha variable en el momento t, es decir, se considera la existencia de T variables discretas politómicas Xi, donde i varía desde 1 a T, con el mismo número de categorías que miden el mismo fenómeno. Además, se supone la existencia de una variable discreta no observada S que influye sobre las probabilidades de transición observadas entre las variables Xt. Dicha variable latente recoge la heterogeneidad de la población, como ha sido indicado anteriormente. Se conoce como modelo mixto de Markov porque supone que la transición entre las 5

Otra manera de solucionar el problema puede verse en Shorrocks (1976). Éste señala el

incumplimiento del supuesto de dependencia de primer orden y propone un modelo de mayor orden para estudiar la movilidad de la renta.

64

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

variables observadas sigue un modelo markoviano. En la figura siguiente aparecen representadas las relaciones entre tres variables observadas y una variable latente.

S

X1

X2

X3

Figura 2.11. Un modelo mixto de Markov

Se puede comprobar cómo las variables observadas siguen un proceso de Markov de primer orden, ya que una variable en un período sólo depende de la variables en el momento inmediatamente anterior. Por esta razón, este modelo se conoce también como modelo “sin memoria”. Los parámetros de este modelo son los siguientes: • la probabilidad inicial πs de pertenecer a cada uno de los S* grupos latentes. • la probabilidad inicial δ x1|s de estar en cada una de las categorías de la variable X1 observadas inicialmente dada la pertenencia al subgrupo latente s. • las probabilidades de transición τ xt | xt −1s de pasar de cada categoría de la variable Xt1

en el momento t-1 a las categorías de la variable Xt en el momento t, dada la

pertenencia al grupo latente s. Por ejemplo, consideremos una variable observada dicotómica durante tres períodos y una variable latente que divide la población en dos grupos. En la figura 2.12 se muestra cómo se relacionan los parámetros anteriores para producir las probabilidades observadas del ejemplo antes comentado.

Los modelos log-lineales longitudinales con variables latentes

1 1  τ 12|11 τ 22|11  21 21  τ 1|21 τ 2|21 

[

[

]

[

P2++ ]

π2 δ11|2 δ21|2

]

π1 δ12|1 δ22|1

π1 δ11|1 δ21|1

[P1++

2  τ 13|112 τ 23|11  32 32  τ 1|21 τ 2|21 

[P+1+

[

] 1 1  τ 12|12 τ 22|12  21 21  τ 1|22 τ 2|22 

[

π1 δ13|1 δ23|1

P+2+ ]

π2 δ12|2 δ22|2

65

[P++1

]

[

]

P++2 ]

π2 δ13|2 δ23|2

]

2  τ 13|122 τ 23|12  32 32  τ 1|22 τ 2|22 

Figura 2.12. Relaciones entre los parámetros del modelo mixto de Markov

Dados estos parámetros, la probabilidad de pertenecer a una celda de la distribución completa es6

π sx1 x 2 x3 = π sδ x1 | sτ x 2 | x1sτ x3 | x 2 s

[2.30]

Tal distribución de probabilidad de los datos completos de nuevo se obtiene mediante un conjunto de probabilidades marginales y condicionadas. A partir de la expresión anterior, se puede determinar la probabilidad conjunta de las variables observadas para cada uno de los subgrupos latentes.

π x1x2 x3|s = δ x1|sτ x2 | x1sτ x3| x2 s

6

[2.31]

Remito al lector a la nota 4 para la explicación de esta notación. Con la usada en el trabajo hasta

ahora, la ecuación [2.30] sería

π sx1x2 x3 = π sπ x1|sπ x2 |x1sπ x3| x2 s

66

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Sin embargo, surge el problema de que la variable que describe la pertenencia a cada grupo no es observada. Por tanto, la proporción Px1 x2 x3 de las variables observadas se calcula sumando sobre la variable latente la expresión [2.31].

π x1x2 x3 = ∑ π s δ x1|sτ x2 | x1sτ x3| x2 s

[2.32]

s

La ecuación [2.32] es una media ponderada de la ecuación [2.31] donde las probabilidades grupales πs son los pesos o ponderaciones. Por tanto, según la ecuación anterior, el modelo mixto de Markov es una mixtura de S* cadenas de Markov de primer orden independientes. Si se supone que la muestra aleatoria de N individuos, la frecuencia nx1 x2 x3 se obtiene mediante la distribución multinomial M ( N ,π x1 x2 x3 ) . En consecuencia, el modelo del

que hablamos es un modelo multinomial paramétrico. Casos particulares del modelo de Markov

El modelo expuesto en la ecuación [2.30] recoge dentro de él a otros modelos mediante la imposición de determinadas restricciones. El modelo mover-stayer

Anteriormente, fue expuesto que Blumen et al. propusieron este modelo que considera únicamente dos cadenas, una de ellas formada por individuos estables y la otra por los individuos que cambian de categoría. En este caso se imponen las siguientes restricciones. - S*=2, es decir, únicamente se consideran dos grupos en la población. - las probabilidades de transición entre las categorías i y j para el subgrupo de individuos estables deben cumplir esta condición: τj|is=1, si las categorías son la misma y τj|is=0, si son categorías distintas. Esto es, la matriz de transición para el subgrupo estable se corresponde con la matriz identidad.

Los modelos log-lineales longitudinales con variables latentes

67

El modelo “black and white”

Este modelo se debe a Converse (1964) y sólo se aplica a variables dicotómicas. Es muy similar al anterior ya que impone las mismas restricciones con la diferencia de que se considera que los individuos móviles tienen la misma probabilidad de estar en cada una de las categorías en el período siguiente. El modelo “independencia-estabilidad”

Con iguales restricciones al modelo mover-stayer, además, el subgrupo de los individuos móviles debe cumplir el supuesto de que la probabilidad de cambiar entre los períodos t y t-1 no depende de la categoría ocupada en el momento t, es decir, se supone que todas las filas de la matriz de transición son iguales. Los modelos estacionarios

Como su nombre indica, en estos modelos se exige la condición de que las matrices de transición de cada grupo son iguales para cualquier período considerado. Más tarde, se comentará qué efectos produce esta restricción a la hora de estimar el modelo. Estimación del modelo mixto de Markov

Este modelo puede estimarse utilizando el algoritmo EM como cualquier modelo con variables latentes. En este caso, como ya ha sido comentado, la variable latente o inobservable es la pertenencia a cada subgrupo. Por tanto, se debe maximizar el logaritmo de la función de verosimilitud sujeto a las restricciones de que los parámetros deben sumar para cada uno de sus parámetros la unidad, ya que son probabilidades. Si consideramos sólo los datos incompletos u observados, tenemos que las frecuencias

nx1 x2 x3

siguen

una

distribución

multinomial

M ( N ,π x1x2 x3 )

y,

68

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

consecuentemente, la estimación por máxima verosimilitud consiste en la maximización de la función log L =

∑ nx x x

1 2 3

⋅ log π x1 x2 x3

[2.33]

x1 x 2 x3

respecto de los parámetros que intervienen en π x1 x2 x3 según la expresión [2.32], considerando que se deben cumplir las siguientes restricciones:

∑π s = 1

[2.34.a]

∑ δ x |s = 1, ∀s = 1,, S *

[2.34.b]

s

1

x1

∑ δ x |x t

t −1s

= 1, ∀s = 1,, S *, ∀t = 2, , T .

[2.34.c]

xt

Sin embargo, los parámetros y frecuencias que deseamos estimar son los referidos a los datos completos. Dichos datos n sx1x2 x3 se distribuyen según una distribución multinomial M ( N , π sx1x2 x3 ) , donde π sx1x2 x3 se especifica según la ecuación [2.30]. En este caso, la expresión [2.33] es

∑ nx x x

1 2 3

s , x1 , x 2 , x3

log π sx1 x2 x3 = ∑ ns ··· log π s + ∑ nsx1 ·· log δ x1 | s + s

s , x1

+

∑ ns· x x 2

∑ nsx x · logτ x | x s + 1 2

s , x1, x 2

log τ x3 | x2 s 3

2

1

[2.35].

s , x 2 , x3

Partiendo de esta expresión, se obtienen fácilmente las frecuencias marginales como estadísticos suficientes de los parámetros del modelo y se puede comenzar a aplicar el algoritmo EM. Según la ecuación [2.8], tenemos que

[

]

E nsx1x2 x3 | nx1x2 x3 , π sx1x2 x3 = nx1x2 x3

π sx1x2 x3 π x1x2 x3

= nx1x2 x3π s| x1x2 x3

[2.36]

Los modelos log-lineales longitudinales con variables latentes

69

En la etapa E del algoritmo, se usa la expresión anterior para calcular el valor esperado del estadístico suficiente dadas las frecuencias observadas y la probabilidad conjunta estimada en la iteración anterior del algoritmo. Dada la estimación p-ésima de los parámetros, podemos estimar los estadísticos suficientes para los datos completos como

[

] ¦n

E ns··· | n x1x2 x3 , πˆ sx1x2 x3 ( p) =

x1x2 x3 πˆ s| x1 x2 x3 ( p )

x1 , x2 , x3

[

] ¦n

E nsx1·· | nx1 x2 x3 ,πˆ sx1 x2 x3 ( p) =

x1 x 2 x3 πˆ s | x1 x 2 x3 ( p )

x 2 , x3

[

]

E nsx1 x2· | nx1 x2 x3 ,πˆ sx1 x2 x3 ( p) = ¦ nx1 x2 x3πˆ s| x1 x2 x3 ( p) x3

[

]

E ns· x2 x3 | nx1 x2 x3 ,πˆ sx1 x2 x3 ( p) = ¦ nx1 x2 x3πˆ s| x1 x2 x3 ( p) x1

Las expresiones arriba mostradas son las correspondientes a los valores esperados de los estadísticos suficientes para las probabilidades de pertenecer a la cadena latente s, a la categoría x1 de la variable X1 dada la pertenencia a la cadena latente s, a la categoría x2 de la variable X2 dadas la categoría x1 de la variable X1 y la cadena latente s y a la categoría x3 de la variable X3 dadas la categoría x2 de la variable X2 y la cadena latente s, respectivamente. A continuación, en el paso M se calculan las estimaciones de los parámetros del modelo que maximizan la verosimilitud dados los estadísticos suficientes determinados en la etapa E del algoritmo. E [ns··· | πˆ ( p + 1)] = Nπˆ s ( p + 1)

[

]

E n sx1·· | πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ x1|s ( p + 1)

70

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

[

]

[

]

E nsx1x2· | πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ x1|s ( p + 1)τˆ x2 |sx1 ( p + 1) E n s· x2 x3 | πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ x2 |s ( p + 1)τˆ x3 |sx2 ( p + 1) ,

donde δˆx2 |s ( p + 1) = Nπˆ s ( p + 1)∑ δˆx1 |s ( p + 1)τˆx2 |sx1 ( p + 1) . x1

En concreto, las estimaciones se extraen a partir de las siguientes ecuaciones: Nπˆ s ( p + 1) =

∑ nx x x πˆ s| x x x ( p) 1 2 3

1 2 3

x1 , x 2 , x3

Nπˆ s ( p + 1)δˆ x1|s ( p + 1) =

∑ n x x x πˆ s|x x x ( p) 1 2 3

1 2 3

x2 , x3

Nπˆ s ( p + 1)δˆ x1|s ( p + 1)τˆ x2 |sx1 ( p + 1) = ∑ n x1x2 x3 πˆ s|x1x2 x3 ( p ) x3

Nπˆ s ( p + 1)δˆ x2 |s ( p + 1)τˆ x3 |sx2 ( p + 1) = ∑ n x1x2 x3 πˆ s|x1x2 x3 ( p ) x1

Por tanto, las estimaciones p-ésimas de los parámetros son:

πˆ s ( p + 1) =

1 2 3

1 2 3

N

∑ n x x x πˆ s|x x x ( p) 1 2 3

δˆ x1|s ( p + 1) =

∑ nx x x πˆ s| x x x ( p)

x1 , x 2 , x3

1 2 3

x2 , x3

Nπˆ s ( p + 1)

∑ n x x x πˆ s|x x x ( p) 1 2 3

=

1 2 3

x2 , x3

∑ n x x x πˆ s|x x x ( p) 1 2 3

1 2 3

x1 , x2 , x3

∑ n x x x πˆ s|x x x ( p) 1 2 3

τˆ x2 |sx1 ( p + 1) =

1 2 3

x3

Nπˆ s ( p + 1)δˆ x1|s ( p + 1)

∑ n x x x πˆ s|x x x ( p) 1 2 3

=

1 2 3

x3

∑ n x x x πˆ s|x x x ( p) 1 2 3

x2 , x3

1 2 3

Los modelos log-lineales longitudinales con variables latentes

∑ n x x x πˆ s|x x x ( p) 1 2 3

τˆ x3|sx2 ( p + 1) =

71

1 2 3

x1

Nπˆ s ( p + 1)δˆ x2 |s ( p + 1)

∑ n x x x πˆ s|x x x ( p) 1 2 3

=

1 2 3

x1

∑ n x x x πˆ s|x x x ( p) 1 2 3

1 2 3

x1 , x2

Como ya ha sido indicado en el apartado 2.1 de este capítulo, el proceso se repite hasta que converge. En dicho punto, las estimaciones máximo-verosímiles de las probabilidades son:

∑ nx x x πˆ s| x x x 1 2 3

πˆ s =

1 2 3

x1 , x 2 , x3

[2.37.a]

N

∑ n x x x πˆ s|x x x 1 2 3

δˆ x1|s =

1 2 3

x2 , x3

[2.37.b]

∑ n x x x πˆ s|x x x 1 2 3

1 2 3

x1 , x2 , x3

∑ n x x x πˆ s|x x x 1 2 3

τˆ x2 |sx1 =

1 2 3

x3

[2.37.c]

∑ n x x x πˆ s|x x x 1 2 3

1 2 3

x2 , x3

τˆx3 | sx2 =

∑ nx x x πˆ s| x x x 1 2 3

1 2 3

x1

[2.37.d]

∑ nx x x πˆ s| x x x 1 2 3

1 2 3

x1 , x 2

Una vez obtenidas las estimaciones, debe realizarse el lógico contraste de la calidad del ajuste del modelo. En este caso, los grados de libertad se determinan mediante la expresión

[

(

)(

)]

gl = ( X * )T − 1 − S * − 1 + S * X * − 1 1 + X * (T − 1)

[2.38].

Finalmente, si el modelo presenta la restricción de estacionariedad, es decir, cada subgrupo posee una única matriz de transición para todos los períodos, las ecuaciones [2.37.c] y [2.37.d] se sustituyen por

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

72

τˆxt +1 |sxt =

∑ nx x x πˆ s| x x x 1 2 3

1 2 3

x3

∑ nx x x πˆ s| x x x 1 2 3

∑ nx x x πˆ s| x x x 1 2 3

+

1 2 3

x 2 , x3

1 2 3

x1

∑ nx x x πˆ s| x x x 1 2 3

[2.37.c bis],

1 2 3

x1 , x 2

ecuación a la que se llega a partir de las expresiones arriba comentadas.

2.3.1.3 El modelo mixto markoviano de clases latentes Finalmente, el último modelo que se considera es uno que combina los dos anteriores. Fue propuesto por Van de Pol y Langeheine (1990). Dicho modelo extiende el modelo latente de Markov suponiendo que existe una mixtura de S* grupos latentes y, por tanto, aparece un conjunto adicional de parámetros, las proporciones πs de pertenencia a los subgrupos no observables. Dentro de cada subgrupo, la variable S condiciona al resto de los parámetros del modelo latente de Markov. Al igual que la exposición de este modelo, se supone un único indicador por ocasión para que la presentación sea más simple. Supongamos t observaciones consecutivas de una misma variable discreta X con X* categorías. En consecuencia, existe un vector p de proporciones iniciales a cada categoría y una matriz o matrices (dependiendo de la estacionariedad o no del modelo) de transición que miden la probabilidad de pasar de una categoría a otra entre la ocasión t y la ocasión t+1. Sin embargo, dado que se tiene en cuenta la existencia del error de medida, se introduce una variable categórica latente Y en el modelo. El número de categorías de dicha variable, Y*, no tiene por qué ser igual al de categorías observadas, X*. En consecuencia, suponemos que las matrices observadas de transición con un reflejo de las matrices de transición reales o latente con cierto grado de imperfección. Por último, se supone que existe una variable latente no observada S. De esta manera, se expone la consideración de la heterogeneidad de la población respecto del cambio real. Es decir, este modelo presenta una variable latente que condiciona la relación existe entre un conjunto de variables también latentes.

Los modelos log-lineales longitudinales con variables latentes

73

En la siguiente figura se muestra la estructura de las relaciones existe en un modelo de este tipo para tres ocasiones. Dada esta estructura, el vector de proporciones observadas pt depende de la distribución de probabilidad de la variable latente Yt, δt, y las probabilidades de respuesta ρx|y en cada subgrupo, esto es, los parámetros anteriores están condicionados por la variable S.

S

Y1

Y2

Y3

X1

X2

X3

Figura 2.13. Un modelo mixto markoviano de clases latentes para tres ocasiones

En consecuencia, los parámetros de este modelo son: Los parámetros de este modelo son los siguientes: • la probabilidad inicial πs de pertenecer a cada uno de los S* grupos latentes. • la probabilidad inicial δ y1 | s de estar en cada una de las categorías de la variable latente Y1 observadas inicialmente dada la pertenencia al subgrupo latente s. • las probabilidades condicionadas de respuesta ρ xt | yt s de estar en cada una de las categorías xt observadas dado el estado latente yt en el momento t y el subgrupo latente s. • las probabilidades de transición latente τ yt | yt −1s de pasar de cada clase latente yt-1 en el momento t-1 a la clase latente yt en el momento t dado el subgrupo latente s.

74

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Si se considera un modelo con tres ocasiones y dos subgrupos donde tanto la variable latente como la observada son dicotómicas, la representación gráfica de las asociaciones de las variables y sus parámetros sería la mostrada en la figura 2.14. No se consideran todas las distribuciones de probabilidad latentes ya que dadas la distribución de probabilidad inicial y las matrices de transición latentes, se puede obtener la distribución en cada momento. La probabilidad conjunta de pertenecer a cada celda de la distribución de probabilidad viene dada por la expresión

π sy1 y 2 y3 x1 x2 x3 = π sδ y1 |s ρ x1 | y1sτ y 2 | y1s ρ x2 | y 2 sτ y3 | y 2 s ρ x3 | y3 s

1  τ 12|111 τ 22|11  21 21  τ 1|21 τ 2|21 

[

[

]

 ρ11|11  1  ρ1|21

ρ 12|12   ρ 12|22 

] 1 1  τ 12|12 τ 22|12  21 21  τ 1|22 τ 2|22 

 ρ12|12  2  ρ1|22

[

]

ρ 22|11   ρ 22|21 

P+2+ ]

π2 δ12|2 δ22|2

[

π1 δ13|1 δ23|1

 ρ12|11  2  ρ1|21

[P+1+

 ρ11|12  1  ρ1|22

[

ρ 12|11   ρ 12|21 

P2++ ]

π2 δ11|2 δ21|2

]

π1 δ12|1 δ22|1

π1 δ11|1 δ21|1

[P1++

2  τ 13|112 τ 23|11  32 32  τ 1|21 τ 2|21 

[2.39]

 ρ13|11  3  ρ1|21

[P++1 ρ 22|12   ρ 22|22 

]

P++2 ]

 ρ13|12  3  ρ1|22

[

ρ 23|11   ρ 23|21 

π2 δ13|2 δ23|2

ρ 23|12   ρ 23|22 

]

2  τ 13|122 τ 23|12  32 32  τ 1|22 τ 2|22 

Figura 2.14. Parámetros y sus relaciones del modelo markoviano mixto de clases latentes

Continuando la línea ya expuesta en los apartados anteriores, sólo se conocen las frecuencias incompletas. En consecuencia, se colapsa la ecuación [2.39] para relacionar la probabilidad de las variables observadas con el producto de probabilidades condicionadas respecto de las variables latentes.

Los modelos log-lineales longitudinales con variables latentes

S*

π x1 x2 x3 = ∑

Y2*

Y1*

75

Y3*

∑ ∑ ∑π sδ y |s ρ x | y sτ y | y s ρ x | y sτ y | y s ρ x | y s 1

s =1 y1 =1 y 2 =1 y 3 =1

1

1

2

1

2

2

3

2

3

[2.40]

3

Los modelos anteriores son casos especiales de éste. Si en la ecuación [2.39], S* es igual a la unidad, el modelo se convierte en el modelo latente de Markov y si suponemos que la matriz de fiabilidad es una matriz diagonal, es decir, las probabilidades de respuesta valen la unidad cuando coinciden la categoría observada con la latente y 0 cuando son distintas, la ecuación [2.39] se corresponde con la del modelo mixto de Markov. Estimación del modelo latente mixto de Markov

De nuevo, al existir variables latentes en el modelo, la estimación por máxima verosimilitud de los parámetros se realiza mediante el algoritmo EM. Dada la ecuación [2.39], el logaritmo de la función de verosimilitud es

∑

∑ nx x x

1 2 3

s , y1 , y 2 , y3 x1 , x 2 , x3

+

log π s , y1 y 2 y3 x1 x 2 x3 = ∑ ns ······ log π s + ∑ nsy1 ····· log δ y1 | s + s

∑ nsy ·· x ·· log ρ x | y s + ∑ nsy y ···· logτ y | y s + ∑ ns· y ·· x ·· log ρ x | y s + 1

1

1

1

1 2

s , y1 , x1

+

s , y1

2

1

s , y1 , y 2

∑ ns· y y ··· logτ y | y s + ∑ ns·· y ·· x 2 3

3

s , y 2 , y3

2

2

2

2

[2.41]

s, y 2 , x2

2

3

3

log ρ x3 | y3 s

s , y 3 , x3

En la primera etapa, Esperanza, se calculan los valores esperados de los datos completos dados las probabilidades del modelo, cuyas expresiones en la iteración pésima son las siguientes. E [ns······ | πˆ ( p)] =

¦ nx x x πˆ s| x x x ( p) 1 2 3

1 2 3

x1 , x 2 , x3

[

] ¦n

E nsy1 ····· | πˆ ( p) =

x1 , x 2 , x3

x1 x 2 x3 πˆ sy1 | x1 x 2 x3 ( p )

76

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

[

] ∑n

E nsy1 ·· x1·· | πˆ ( p) =

x1x2 x3 πˆ sy1| x1x2 x3 ( p )

x2 , x3

[

] ¦n

E nsy1 y 2 ···· | πˆ ( p) =

x1 x 2 x3 πˆ sy1 y 2 | x1 x 2 x3 ( p )

x1 , x 2 , x3

[

] ¦n

E ns· y 2 ·· x2 · | πˆ ( p ) =

x1 x 2 x3 πˆ sy 2 | x1 x 2 x3 ( p )

x1 , x3

[

] ¦n

E ns· y 2 y3 ···· | πˆ ( p) =

x1 x 2 x3 πˆ sy 2 y 3 | x1 x 2 x3 ( p )

x1 , x 2 , x3

[

] ¦n

E n s ·· y3 ·· x3 | πˆ ( p ) =

x1 x2 x3 πˆ sy3 | x1x2 x3 ( p )

x1 , x2

donde

πˆ s|x1x2 x3 ( p) =

πˆ s ··· x1x2 x3 ( p) , πˆ ···· x1x2 x3 ( p)

πˆ sy1 | x1 x2 x3 ( p) =

πˆ sy1 ··· x1 x2 x3 ( p) πˆ···· x1 x2 x3 ( p)

πˆ sy 2 | x1 x2 x3 ( p) =

πˆ s· y 2 · x1 x2 x3 ( p) , πˆ···· x1 x2 x3 ( p)

πˆ sy3 | x1 x2 x3 ( p) =

πˆ s ·· y3 x1 x2 x3 ( p) , πˆ···· x1 x2 x3 ( p )

πˆ sy1 y 2 | x1 x2 x3 ( p) =

πˆ sy1 y 2 · x1 x2 x3 ( p) y πˆ··· x1 x2 x3 ( p)

Los modelos log-lineales longitudinales con variables latentes

πˆ sy 2 y3 | x1 x2 x3 ( p) =

77

πˆ s · y 2 y3 x1 x2 x3 ( p) πˆ···· x1 x2 x3 ( p)

Continuando con el algoritmo, en la etapa Maximización, se determinan las estimaciones de los parámetros que maximizan la verosimilitud dados los valores esperados del paso anterior. E [n s······ | πˆ ( p + 1)] = Nπˆ s ( p + 1)

[

]

E nsy1····· | πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ y1|s ( p + 1)

[

]

E nsy1·· x1 ·· |πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ y1|s ( p + 1) ρˆ x1|sy1 ( p + 1)

[

]

E nsy1 y2···· |πˆ ( p + 1) = Nπˆ s δˆ y1|s ( p + 1)τˆ y2 |sy1 ( p + 1)

[

]

[

]

[

]

E ns · y2 ·· x2 · |πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ y2 |s ( p + 1) ρˆ x2 |sy2 ( p + 1) E n s· y2 y3··· |πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ y2 |s ( p + 1)τˆ y3 |sy2 ( p + 1) E n s ·· y3 ·· x3 | πˆ ( p + 1) = Nπˆ s ( p + 1)δˆ y3 |s ( p + 1) ρˆ x3 |sy3 ( p + 1)

donde δˆ y |s = Nπˆ s ∑ δ y |sτ y |sy ( p + 1) y δˆ y |s = Nπˆ s 2 1 2 1 3 y1

∑ δˆ y |s ( p + 1)τˆ y |sy ( p + 1)τˆ y |sy 1

2

1

3

2

( p + 1)

y1 , y 2

Igualando las expresiones de ambas etapas del algoritmo, se obtienen unas expresiones a partir de las cuales despejar las estimaciones p+1-ésimas de las probabilidades, expresiones que aparecen a continuación.

∑ n x x x πˆ s|x x x ( p) 1 2 3

πˆ s ( p + 1) =

x1 , x2 , x3

N

1 2 3

,

78

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

∑ n x x x πˆ sy |x x x ( p) 1 2 3

δˆ y1|s ( p + 1) =

1 1 2 3

x1 , x2 , x3

Nπˆ s ( p + 1)

∑ n x x x πˆ sy |x x x ( p) 1 2 3

=

1 1 2 3

x1 , x2 , x3

∑ n x x x πˆ s|x x x ( p) 1 2 3

,

1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x ( p) 1 2 3

ρˆ x1|sy1 ( p + 1) =

Nπˆ s ( p + 1)δˆ y1|s ( p + 1)

∑ n x x x πˆ sy y |x x x ( p) 1 2 3

τˆ y2 |sy1 ( p + 1) =

Nπˆ s δˆ y1|s ( p + 1)

∑ n x x x πˆ sy |x x x ( p) 1 2 3

ρˆ x2 |sy2 ( p + 1) =

Nπˆ s ( p + 1)δˆ y2 |s ( p + 1)

∑ n x x x πˆ sy y |x x x ( p)

τˆ y3 |sy2 ( p + 1) =

Nπˆ s ( p + 1)δˆ y2 |s ( p + 1)

∑ n x x x πˆ sy |x x x ( p) 1 2 3

ρˆ x3 |sy3 ( p + 1) =

Nπˆ s ( p + 1)δˆ y3 |s ( p + 1)

,

1 1 2 3

∑ n x x x πˆ sy y |x x x ( p) 1 2 3

=

1 2 1 2 3

x1 , x2 , x3

,

∑ n x x x πˆ sy |x x x ( p) 1 2 3

1 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x ( p) 1 2 3

=

2 1 2 3

x1 , x3

,

∑ n x x x πˆ sy |x x x ( p) 1 2 3

2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy y |x x x ( p) 1 2 3

=

2 3 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x ( p) 1 2 3

,

2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x ( p) 1 2 3

3 1 2 3

x1 , x2

∑ n x x x πˆ sy |x x x ( p)

x1 , x2 , x3

2 3 1 2 3

x1 , x2 , x3

1 1 2 3

x2 , x3

1 2 3

2 1 2 3

x1 , x3

1 2 3

=

1 2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x ( p) 1 2 3

1 1 2 3

x2 , x3

=

x1 , x2

3 1 2 3

∑ n x1x2 x3 πˆ sy3|x1x2 x3 ( p)

.

x1 , x2 , x3

Este proceso se repite hasta que se alcance la convergencia, es decir, hasta que el incremento de la verosimilitud sea inferior a un valor arbitrario muy pequeño. En este caso, las estimaciones máximo-verosímiles de los parámetros son las mostradas a continuación.

Los modelos log-lineales longitudinales con variables latentes

79

∑ n x x x πˆ s|x x x 1 2 3

πˆ s =

x1 , x2 , x3

δˆ y1|s =

x1 , x2 , x3

1 2 3

,

N

[2.42.a]

∑ n x x x πˆ sy |x x x 1 2 3

1 1 2 3

∑ n x x x πˆ s|x x x 1 2 3

,

[2.42.b]

1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

ρˆ x1|sy1 =

1 1 2 3

x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

,

[2.42.c]

,

[2.42.d]

,

[2.42.e]

,

[2.42.f]

1 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy y |x x x 1 2 3

τˆ y2 |sy1 =

1 2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

1 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

ρˆ x2 |sy2 =

2 1 2 3

x1 , x3

∑ n x x x πˆ sy |x x x 1 2 3

2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy y |x x x 1 2 3

τˆ y3 |sy2 =

2 3 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

2 1 2 3

x1 , x2 , x3

∑ n x x x πˆ sy |x x x 1 2 3

ρˆ x3 |sy3 =

3 1 2 3

x1 , x2

∑ n x x x πˆ sy |x x x 1 2 3

[2.42.g]

3 1 2 3

x1 , x2 , x3

Estas probabilidades se refieren al modelo no estacionario para las transiciones y la fiabilidad, es decir, las probabilidades de transición y de respuesta no son constantes a lo largo del tiempo. En el caso estacionario, los parámetros τˆ yt |syt −1 y ρˆ xt |syt serían las

80

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

medias ponderadas de las ecuaciones [2.42.d] y [2.42.f] y [2.42.c], [2.42.e] y [2.42.g], respectivamente. Finalmente, este modelo se puede contrastar utilizando los conocidos contrastes de calidad del ajuste, donde los grados de libertad vienen dados por el número de parámetros independientes del modelo.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

81

3. La influencia de algunas variables ajenas en los modelos latentes dinámicos 3.1. Introducción Una vez estudiada la evolución de las variables, considerando algunas cuestiones como la heterogeneidad de la población respecto del cambio o el error de medición, cabe analizar la influencia de otras variables7 en dicha evolución. Antes de estudiar tales efectos, es necesario establecer antes qué tipo o tipos de covariables actúan en el modelo. Dado que se pueden expresar los modelos latentes dinámicos expuestos en el capítulo anterior como modelos de duración en tiempo discreto8, es posible utilizar en este caso la clasificación de las covariables correspondiente a los modelos de duración. Dejando aparte la lógica separación entre variables continuas y discretas9, cabe diferenciar en primer lugar entre covariables constantes y variables en el tiempo, según cambie o no el valor de las variables a medida que el tiempo transcurra. Llegado este momento, definimos, siguiendo a Yamaguchi (1991), el proceso de las covariables y el proceso dependiente. El primero se refiere a los cambios que sufren los valores de las covariables dinámicas, mientras que el segundo expresa las transiciones de la variable dependiente del modelo. Una vez definidos ambos procesos, presentamos la primera clasificación, correspondiente a Lancaster (1990). Dicho autor distingue entre exógenas y endógenas según la relación existente entre los procesos. Una variable es exógena si es 7

En adelante, llamadas covariables.

8

Ver capítulo 1.

9

Puesto que el objetivo de esta tesis se centra fundamentalmente en el análisis de variables

categóricas, nos centraremos en las covariables discretas. Las variables continuas se comentarán con más detalle al final del capítulo.

82

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

independiente y endógena si sus cambios están relacionados con las transiciones de la variable dependiente. Dado que las covariables constantes per se se caracterizan por mantener el mismo valor se incluyen dentro de las variables exógenas en esta clasificación. Por ejemplo, supongamos un modelo con un conjunto de variables latentes Yt y otro de covariables At. Los valores de éstas últimas varían a lo largo del tiempo, es decir, la variable A es una covariable dinámica. Para definir la exogeneidad, debemos observar las probabilidades condicionadas π at |si , donde i es un período concreto, anterior o simultáneo. Si dichos términos aparecen, la covariable es endógena dado que depende de los valores de la variable dependiente. Si no se presentan, es posible concluir que la variable es exógena. Finalmente, Kalbfleisch y Prentice (1980) llaman covariables externas a aquellas variables ajenas que toman valores independientemente de que se produzca el suceso o no. Es decir, extienden el concepto de exogeneidad. Además, dentro del concepto de covariable externa distinguen las covariables constantes, definidas y secundarias o subordinadas. Las primeras, como ya ha sido comentado al comienzo, son aquellas variables cuyos valores no cambian en el período considerado. Los valores de las covariables definidas varían con el tiempo, pero su valor puede conocerse de antemano. Un ejemplo de este tipo de covariables es la edad. Aunque cambia a medida que avanzamos en el período de observación, conocida la edad del individuo en el momento t, es fácil calcular el valor de la covariable en el momento t+1. Finalmente, las covariables secundarias se caracterizan por ser el resultado de un proceso externo a las variables dependientes. En nuestro trabajo, preferimos utilizar la distinción expuesta por Lancaster dado que consideramos que es más sencilla y fácil de comprender. Concretamente, a la hora de estudiar los modelos con covariables incorporadas distinguiremos entre covariables constantes y variables, ya que su formulación y estimación presentan problemas distintos. Posteriormente, al exponer los modelos con covariables dinámicas o variables,

La influencia de algunas variables ajenas en los modelos latentes dinámicos

83

se presentarán las distintas modelizaciones, bien con covariables exógenas o endógenas. En el primer caso, no aparecerán probabilidades de covariables condicionadas a valores de la variable dependiente y en el segundo caso, se podrá observar cómo es necesario incorporar tales términos en el modelo.

3.2. Covariables constantes Por tales, se entiende aquella variable externa al estudio que influye en las transiciones de la variable dependiente e invariante en todo el período de observación. Dentro de los dos grandes grupos de variables ajenas que pueden actuar en los modelos objeto de análisis en este trabajo, son las covariables constantes las primeras introducidas en tales modelos. El primer paso de cualquier estudio en una población es buscar diferencias entre distintas subpoblaciones o subgrupos de dicha población. Tal tarea no es más que el estudio de la influencia de una variable que divide a la población en grupos homogéneos (por ejemplo, sexo) sobre el proceso estudiado, variable que se mantiene constante en el tiempo. No obstante, los modelos no se restringen únicamente a la introducción de una única variable, sino que es posible incorporar más de una (por ejemplo, sexo y país de procedencia). Así, los subgrupos vienen determinados por la clasificación cruzada de dichas variables con los inconvenientes que más tarde se expondrán. Como aparece anteriormente, el caso más simple es aquél que contempla la existencia de subpoblaciones, grupos que condicionan el resto de los parámetros de los modelos. Cabe realizar la distinción respecto del modelo mixto de Markov de que los subgrupos vienen determinados por una variable observada y no son subpoblaciones latentes. Por lo tanto, se mide el efecto de una única variable categórica que no varía a lo largo del período considerado. La extensión del modelo mixto de Markov de clases latentes para varias subpoblaciones es el modelo conocido como modelo general mixto

84

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

de Markov de clases latentes, propuesto por Van de Pol y Langeheine (1990). En concreto, se consideran los efectos de este tipo de covariable introduciendo un nuevo parámetro en el modelo y condicionando el resto de los parámetros a la pertenencia a una determinada categoría de la variable separadora. Dado el modelo de la ecuación [2.39], si se tiene en cuenta la existencia de H* subpoblaciones, la probabilidad conjunta de la distribución es

π hsy1 y 2 y3 x1 x2 x3 = γ hπ s|hδ y1 |sh ρ x1 | y1shτ y 2 | y1sh ρ x2 | y 2 shτ y3 | y 2 sh ρ x3 | y3 sh

[3.1]

Los parámetros de este modelo son los siguientes: • la probabilidad γh de pertenecer a la subpoblación h. • la probabilidad inicial πs de pertenecer a cada uno de los S* grupos latentes dada la subpoblación h. • la probabilidad inicial δ y1 | sh de estar en cada una de las categorías de la variable latente Y1 observadas inicialmente dada la pertenencia al subgrupo latente s y la subpoblación h. • las probabilidades condicionadas de respuesta ρ xi | yi sh de estar en cada una de las categorías xt observadas dado el estado latente yt en el momento t, el subgrupo latente s y la subpoblación h. • las probabilidades de transición latente τ yt | yt −1sh de pasar de cada clase latente yt-1 en el momento t-1 a la clase latente yt en el momento t dado el subgrupo latente s y la subpoblación h. Este modelo se puede restringir si se supone que algunos parámetros particulares toman el mismo valor dentro de los subgrupos.

3.2.1 Estimación del modelo El procedimiento de estimación se basa en el algoritmo EM al presentar algunas variables latentes. Dada la ecuación [3.1], el logaritmo de la función de verosimilitud es

La influencia de algunas variables ajenas en los modelos latentes dinámicos

∑

∑

nhx1x2 x3 s , y1 , y2 , y3 h , x1 , x2 , x3

log π hsy1 y2 y3 x1x2 x3 = ∑ nh······· log γ h +∑ nhs······ log π s|h + h

h,s

∑ nhsy ····· log δ y |sh + ∑ nhsy ·· x ·· log ρ x | y sh + ∑ nhsy y ···· log τ y | y sh +

+

1

1

1

h , s , y1

+

85

1

1 1

1 2

h , s , y1 , x1

2 1

∑ nhs· y ·· x ·· log ρ x | y sh + ∑ nhs· y y ··· log τ y | y sh + ∑ nhs·· y ·· x 2

2

2

h , s , y 2 , x2

[3.2]

h , s , y1 , y2

2

2 3

3

h , s , y2 , y3

2

3

3

log ρ x3| y3sh

h , s , y3 , x3

Mediante la primera fase del algoritmo, Esperanza¸ los valores esperados de los datos completos son calculados dadas las probabilidades del modelo. En su p-ésima repetición, las expresiones son las mostradas a continuación. E [nh······ | πˆ ( p)] =

¦ nhx x x πˆ hx x x ( p) 1 2 3

1 2 3

x1 , x 2 , x3

E [nhs······ | πˆ ( p)] =

¦ nhx x x πˆ s|hx x x ( p) 1 2 3

1 2 3

x1 , x 2 , x3

[

] ¦n

[

] ¦n

E nhsy1 ····· | πˆ ( p ) =

hx1 x 2 x3 πˆ sy1 | hx1 x 2 x3 ( p ) x1 , x 2 , x3

E nhsy1 ·· x1 ·· | πˆ ( p ) =

hx1 x 2 x3 πˆ sy1 | hx1 x 2 x3 ( p )

x 2 , x3

[

] ¦n

E nhsy1 y 2 ···· | πˆ ( p) =

hx1 x 2 x3 πˆ sy1 y 2 | hx1 x 2 x3 ( p )

x1 , x 2 , x3

[

] ¦n

E nhs· y 2 ·· x2 · | πˆ ( p ) =

hx1 x 2 x3 πˆ sy 2 | hx1 x 2 x3 ( p )

x1 , x3

[

] ¦n

E nhs· y 2 y3 ···· | πˆ ( p) =

hx1 x 2 x3 πˆ sy 2 y3 |hx1 x 2 x3 ( p )

x1 , x 2 , x3

[

] ¦n

E nhs·· y3 ·· x3 | πˆ ( p) =

hx1 x 2 x3 πˆ sy 3 | hx1 x 2 x3 ( p )

x1 , x 2

donde

86

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

πˆ s|hx1x2 x3 ( p) =

πˆ hs··· x1x2 x3 ( p) , πˆ h···· x1x2 x3 ( p)

πˆ sy1|hx1x2 x3 ( p) =

πˆ hsy1··· x1x2 x3 ( p) , πˆ h···· x1x2 x3 ( p)

πˆ sy2 |hx1x2 x3 ( p ) =

πˆ hs· y2 · x1x2 x3 ( p) , πˆ h···· x1x2 x3 ( p)

πˆ sy3 |hx1x2 x3 ( p ) =

πˆ hs·· y3 x1x2 x3 ( p) , πˆ h···· x1x2 x3 ( p)

πˆ sy1 y2 |hx1x2 x3 ( p) =

πˆ hsy1 y2 · x1x2 x3 ( p) y πˆ h··· x1x2 x3 ( p)

πˆ sy2 y3 |hx1x2 x3 ( p) =

πˆ hs· y2 y3 x1x2 x3 ( p) πˆ h···· x1x2 x3 ( p)

Determinadas ya las estimaciones de los parámetros en su fase p-ésima, se estiman las probabilidades que maximizan la verosimilitud en la etapa Maximización. E [nh······· | πˆ ( p + 1)] = Nγˆ h ( p + 1) E [nhs······ | πˆ ( p + 1)] = Nγˆ h ( p + 1)πˆ s|h ( p + 1)

[

]

E nhsy1 ····· | πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y1|hs ( p + 1)

[

]

[

]

E nhsy1 ·· x1 ·· |πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y1|hs ( p + 1) ρˆ x1|hsy1 ( p + 1) E nhsy1 y2 ···· |πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y1|hs ( p + 1)τˆ y2 |hsy1 ( p + 1)

La influencia de algunas variables ajenas en los modelos latentes dinámicos

[

]

[

]

[

]

87

E nhs· y2 ·· x2 · |πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y2 |hs ( p + 1) ρˆ x2 |hsy2 ( p + 1) E nhs· y2 y3 ··· |πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y2 |hs ( p + 1)τˆ y3 |hsy2 ( p + 1) E nhs·· y3 ·· x3 | πˆ ( p + 1) = Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y3 |hs ( p + 1) ρˆ x3 |hsy3 ( p + 1)

donde δˆ y

2 | hs

= Nγˆ h πˆ s|h ∑ δˆ y1 |hsτˆ y 2 |hsy1 y δˆ y3 |hs = Nγˆ h πˆ s|h y1

ˆ

∑ δˆ y |hsτˆ y |hsy τˆ y |hsy 1

2

1

3

. 2

y1 , y 2

Las estimaciones p-ésimas de las probabilidades se logran al igualar las expresiones conseguidas en cada etapa del algoritmo.

¦ nhx x x πˆ h····x x x ( p) 1 2 3

γˆ h ( p + 1) =

1 2 3

x1 , x2 , x3

,

N

¦ nhx x x πˆ s|hx x x ( p) 1 2 3

πˆ s|h ( p + 1) =

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ h···· x x x ( p) 1 2 3

,

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ sy |hx x x ( p) 1 2 3

δˆ y1|hs ( p + 1) =

1

¦ nhx x x πˆ sy |hx x x ( p)

1 2 3

x1 , x2 , x3

Nγˆ h ( p + 1)πˆ s|h ( p + 1)

1 2 3

=

1

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ s|hx x x ( p) 1 2 3

,

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ sy |hx x x ( p) 1 2 3

ρˆ x1|hsy1 ( p + 1) =

1 2 3

x2 , x3

Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y1|hs ( p + 1)

¦ nhx x x πˆ sy y |hx x x ( p) 1 2 3

τˆ y2 |hsy1 ( p + 1) =

1

1 2

1 2 3

=

Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y1|hs ( p + 1)

1

1 2 3

x2 , x3

¦ nhx1x2 x3 πˆ sy1|hx1x2 x3 ( p)

,

x1 , x2 , x3

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ sy |hx x x ( p)

¦ nhx x x πˆ sy y |hx x x ( p) 1 2 3

=

1 2

1 2 3

x1 , x2 , x3

¦ nhx x x πˆ sy |hx x x ( p) 1 2 3

x1 , x2 , x3

1

1 2 3

,

88

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

∑ nhx x x πˆ sy |hx x x ( p) 1 2 3

ρˆ x2 |hsy2 ( p + 1) =

ρˆ x3|hsy3 ( p + 1) =

1 2 3

Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y2 |hs ( p + 1)

∑ nhx x x πˆ sy y |hx x x ( p) 2 3

∑ nhx x x πˆ sy |hx x x ( p) 3

1 2 3

1 2 3

∑ nhx x x πˆ sy y |hx x x ( p) 2 3

1 2 3

x1 , x2 , x3

,

∑ nhx x x πˆ sy |hx x x ( p) 1 2 3

2

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x ( p)

1 2 3

1 2 3

Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y3 |hs ( p + 1)

2

,

x1 , x2 , x3

=

x1 , x2

1 2 3

∑ nhx x x πˆ sy |hx x x ( p) 1 2 3

Nγˆ h ( p + 1)πˆ s|h ( p + 1)δˆ y2 |hs ( p + 1)

2

x1 , x3

=

1 2 3

x1 , x2 , x3

1 2 3

∑ nhx x x πˆ sy |hx x x ( p)

1 2 3

x1 , x3

1 2 3

τˆ y3 |hsy2 ( p + 1) =

2

3

1 2 3

x1 , x2

=

∑ nhx x x πˆ sy |hx x x ( p) 1 2 3

3

.

1 2 3

x1 , x2 , x3

Estos parámetros se utilizan de nuevo en la iteración p+1-ésima de la etapa Esperanza del algoritmo y, posteriormente, se repite por p+2-ésima vez la fase de Maximización. Como ya sido citado varias veces en este trabajo, el proceso se repite hasta que se alcance la convergencia, es decir, hasta que el incremento de la verosimilitud sea inferior a un valor arbitrario muy pequeño. Cuando se llegue a dicha situación, las estimaciones máximo-verosímiles son las siguientes.

∑ nhx x x πˆ h····x x x 1 2 3

γˆ h =

1 2 3

x1 , x2 , x3

[3.3.a]

N

∑ nhx x x πˆ s|hx x x 1 2 3

πˆ s|h =

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ h····x x x 1 2 3

,

[3.3.b]

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

δˆ y1|hs =

1

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ s|hx x x 1 2 3

x1 , x2 , x3

1 2 3

,

[3.3.c]

La influencia de algunas variables ajenas en los modelos latentes dinámicos

89

∑ nhx x x πˆ sy |hx x x 1 2 3

ρˆ x1|hsy1 =

1

1 2 3

x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

1

,

[3.3.d]

,

[3.3.e]

,

[3.3.f]

,

[3.3.g]

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy y |hx x x 1 2 3

τˆ y2 |hsy1 =

1 2

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

1

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

ρˆ x2 |hsy2 =

2

1 2 3

x1 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

2

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy y |hx x x 1 2 3

τˆ y3 |hsy2 =

2 3

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

2

1 2 3

x1 , x2 , x3

∑ nhx x x πˆ sy |hx x x 1 2 3

ρˆ x3 |hsy3 =

3

1 2 3

x1 , x2

∑ nhx x x πˆ sy |hx x x 1 2 3

3

[3.3.h]

1 2 3

x1 , x2 , x3

A pesar de que parece una manera válida de incorporar algunas covariables discretas en un modelo markoviano, presenta varias limitaciones. Como se basa en el análisis multigrupo, si se desea incorporar más de una covariable, es preciso cruzar todas las variables y usar dicha covariable conjunta como una variable separadora. No obstante, el gran número de los parámetros por estimar hace sólo factible utilizar este procedimiento si el número de celdas de las covariables no es muy elevado. Por ejemplo, únicamente tres variables dicotómicas dividirían a la población en ocho grupos con el consiguiente aumento del número total de parámetros del modelo ya que sería necesario determinar todas las probabilidades condicionadas a la pertenencia a cada uno

90

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

de tales subconjuntos. Es fácil imaginar el impacto de la inclusión de más variables o de algunas variables con más categorías. Asimismo, esta manera de resolver el problema presenta una restricción adicional en lo relativo al carácter dinámico de los datos. Sólo puede ser aplicado si las variables exógenas son constantes. Sin embargo, la utilidad de los datos longitudinales reside no sólo en la movilidad de las variables dependientes, sino también en los cambios de las variables independientes. En consecuencia, se hace necesario buscar un modelo que exprese las relaciones deseadas o existentes entre las variables del estudio, tanto las principales como las ajenas, pero con un proceso de estimación más simple y un menor número de parámetros por estimar. Dicho modelo, expuesto en el apartado siguiente, puede ser un modelo modified path (Goodman, 1973) o su extensión a los modelos con algunas variables latentes, el modelo LISREL modificado (Hagenaars, 1990). No obstante, posteriormente presentaremos una forma de expresar y estimar las relaciones entre las variables aún mejor.

3.3 Covariables dinámicas Acabamos de mostrar que el modelo multigrupo o modelo general mixto markoviano latente no puede utilizarse si alguna de las variables externas varía con el tiempo. Ahora bien, si todas las variables exógenas son categóricas, puede aplicarse el modelo modified path (Goodman, 1973), expuesto en el primer capítulo al hablar de los modelos log-lineales causales. Recordemos que Goodman demostró cómo especificar un modelo log-lineal causal para un conjunto de variables categóricas utilizando la información a priori sobre su orden causal. En primer lugar, se ilustrará este procedimiento para el modelo markoviano observado. Para ello, supongamos un conjunto de variables observadas Xt relacionadas según un proceso de Markov de primer orden. Además, sea A una covariable constante y Bt un conjunto de variables exógenas variables en el tiempo. Se puede comprobar que

La influencia de algunas variables ajenas en los modelos latentes dinámicos

91

el modelo modified path es más general que el modelo general mixto de Markov de clases latentes ya que permite reflejar la influencia de cualquier tipo de variable independiente categórica. El modelo que refleja las relaciones entre dichas variables puede expresarse como

π ab1x1b2 x2b3 x3 = π aπ b1|aπ x1|ab1π b2 |ab1x1π x2 |ab1x1b2 π b3|ab1x1b2 x2 π x3|ab1b2 x2b3

[3.4]

En la ecuación anterior, se puede observar que los valores de la covariable B dependen de los valores previos de la variable dependiente y, además, existen efectos retardados de la variable exógena B sobre la variable X. Consecuentemente, la covariable B es endógena, según la definición de Lancaster, ya que sus cambios dependen de la movilidad de la variable dependiente X, y A exógena, por definición al ser constante. Si, por el contrario, se impone que no influya la variable dependiente en la variable exógena y que los efectos de la segunda sobre la primera se refieran sólo al valor de cada período, la expresión [3.4] pasaría a ser

π ab1 x1b2 x2b3 x3 = π aπ b1 |aπ x1 |ab1π b2 |ab1π x2 |ax1b2 π b3 |ab1b2 π x3 |ax2b3

[3.5]

Si las relaciones entre las variables independientes no interesan, esto es, no se considera el proceso de las covariables, la expresión se convierte en

π ab1 x1b2 x2b3 x3 = π ab1b2b3 π x1 |ab1π x2 |ax1b2 π x3 |ax2b3

[3.6]

En ambos casos, la covariable B sería exógena, puesto que, aunque es dinámica, no depende de las transiciones de la variable X. Las expresiones anteriores nos sirven para mostrar que así se resuelve uno de los problemas del modelo general mixto de Markov de clases latentes dado que se pueden incorporar covariables dinámicas. Asimismo, la segunda limitación de dicho modelo puede superarse siguiendo a Vermunt (1994, 1997) y Vermunt et al. (1995). En principio, el procedimiento de Goodman permite especificar un sistema de modelos logit para las probabilidades

92

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

condicionadas que aparecen en el término de la derecha de las ecuaciones y así descomponer la probabilidad conjunta. No obstante, esta ventaja aparente no lo es tanto porque cada probabilidad condicionada lo es respecto de todas las variables anteriores a ella en el modelo. De esta forma, la segunda limitación del modelo [3.1] no se supera ya que el número de parámetros que estimar continúa siendo elevado. Sin embargo, Vermunt propone utilizar la información proporcionada por la representación gráfica del modelo. Así, la probabilidad de una variable sólo está condicionada a los valores de las variables unidas a ella por una flecha en dicha representación. Entonces, la cantidad de parámetros que estimar se reduce. Puesto que este trabajo tiene como objetivo principal el análisis de los modelos dinámicos con variables latentes, para considerar la existencia de varias covariables endógenas y exógenas, se utiliza el modelo LISREL modificado propuesto por Hagenaars (1990) y desarrollado en el capítulo anterior. Es más, como es una extensión del modified path, proponemos descomponer la probabilidad conjunta según la información proporcionada por la representación gráfica del modelo al igual que antes. Recordemos que el modelo de Hagenaars se divide, análogamente al LISREL, en un modelo estructural y un modelo de medida. Para ilustrar este procedimiento, comenzaremos con un modelo mixto latente de Markov10 en el cual intervienen, además, tres covariables, una constante, una dinámica exógena y otra endógena. Así, todas las posibles situaciones están incluidas en ésta y sus modelos correspondientes serán particularizaciones del planteado ahora. Asimismo, sólo se presenta una covariable de cada tipo porque la generalización a más de una variable únicamente supone el incremento en el número de parámetros, pero no una diferencia en el método de estimación.

10

Al igual que en el capítulo anterior, hemos optado por mostrar un ejemplo para tres ocasiones. Es el

número mínimo para poder contrastar un modelo de Markov de primer orden y, además, al no presentar muchas variables, las expresiones son mejor comprendidas por el lector.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

93

Entonces, sea Yt un conjunto de T variables latentes con Y* categorías cada una, no observables directamente, sino mediante un conjunto de T variables observadas Xt con X* categorías. Además, se consideran distintas covariables en el modelo: una latente11 constante S con S* clases, una observada constante A con A* categorías, un conjunto de T variables observadas B dinámicas, pero exógenas con B* categorías y, finalmente, un conjunto de T covariables endógenas C con C* clases.

B1

C1 Y1

X1

B2

C2 A

S

Y2

X2 C3

B3 Y3

X3

Figura 3.1. Un modelo para tres ocasiones con covariables exógenas y endógenas

Este modelo propuesto se corresponde gráficamente con la figura 3.1. Podría ser más complicado si cada variable latente tuviese más de un indicador o si la covariable latente S dependiera a su vez de las covariables dinámicas B y C. Aunque tales premisas se

pueden incorporar sin gran dificultad si es necesario en la aplicación empírica, una representación gráfica con todas las relaciones posibles entre cualesquiera de las variables complicaría excesivamente la comprensión de la figura. El modelo expuesto en la figura anterior es una generalización de los vistos hasta ahora en este trabajo. Se convertiría en cualquiera de ellos especificando los tipos de

11

Dicha variable latente se introduce para considerar la posible heterogeneidad de los individuos

respecto de la movilidad, es decir, un modelo mixto de Markov.

94

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

variables, eliminando alguna de las relaciones o imponiendo alguna restricción en dichas interacciones. La función de probabilidad conjunta del modelo se representa en la expresión siguiente. π asb1c1 y1x1b2c2 y2 x2b3c3 y3 x3 = π aπ s|aπ b2 |b1π b3 |b2 π c2 | y1c1π c3 | y2c2 π y1|sb1c1π y2 |sy1b1c1π y3 |sy2b2c2 π x1| y1π x2 | y2 π x3 | y3 [3.7]

Las principales ventajas del modelo arriba mostrado son la menor dimensión de las tablas marginales para los cuales son estimados los distintos modelos y la flexibilidad de los submodelos para las probabilidades condicionadas. Respecto a la primera, mientras que en el modelo de Goodman (1973) un submodelo debe calcularse para la tabla marginal que incluye a todas las variables anteriores a la independiente, en este caso, la tabla marginal sólo se refiere a las variables unidas con una línea a la variable independiente en el gráfico. La flexibilidad del modelo viene dada por la posibilidad de formular las probabilidades condicionadas como modelos logit multinomiales. De esta manera, es posible imponer algún tipo de restricción sobre las relaciones. Por ejemplo, supongamos que en las probabilidades de las variables Y condicionadas a las covariables S, B y C, éstas últimas son independientes condicionadas a la variable Y. Dicha condición se consigue especificando distintos modelos logit para cada una.

π y1|sb1c1 =

exp(u y1 + u y1s + u y1b1 + u y1c1 )

∑ y exp(u y 1

π y2 |sy1b2c2 =

π y3 |sy2b3c3 =

+ u y1s + u y1b1 + u y1c1 )

1

exp(u y2 + u y2 s + u y1 y2 + u y2b2 + u y2c2 )

∑y

2

exp(u y2 + u y2 s + u y2b2 + u y2c2 )

exp(u y3 + u y3s + u y2 y3 + u y3b3 + u y3c3 )

∑ y exp(u y 3

3

+ u y3s + u y3b3 + u y3c3 )

[3.8.a]

[3.8.b]

[3.8.c]

La influencia de algunas variables ajenas en los modelos latentes dinámicos

95

En los modelos logit de las ecuaciones anteriores no aparece ningún término de orden mayor que dos, es decir, no existe interacción entre dos variables condicionantes. Por tanto, se cumple la condición que se deseaba imponer.

3.3.1 Estimación del modelo La presencia de algunas variables latentes provoca, como ha sido citado a lo largo del anterior capítulo, el uso del algoritmo EM (Dempster, Laird y Rubin, 1977) De manera resumida, tenemos que las estimaciones de los parámetros del modelo de la expresión [3.7] se obtienen maximizando el siguiente logaritmo de la función de verosimilitud. log L = nab1c1 x1b2 c2 x2b3c3 x3 log

∑

π asb1c1 y1 x1b2c2 y 2 x2b3c3 y3 x3 s , y1 , y 2 , y3

[3.9]

De nuevo, la función de verosimilitud depende de las frecuencias de las celdas de la tabla observadas, es decir, los datos incompletos y la distribución de probabilidad de todos los valores, esto es, los datos completos. En el algoritmo EM, se producen dos etapas: Esperanza y Maximización. En la primera, tendremos que

masb1c1 y1 x1b2 c2 y 2 x 2b3c3 y3 x3 = nab1c1 x1b2 c2 x2b3c3 x3 πˆ sy1 y 2 y3 |ab1c1 x1b2 c2 x2b3c3 x3

[3.10],

es decir, la esperanza de las frecuencias estimadas completas es igual a la frecuencia incompleta por la probabilidad condicionada de las variables latentes dadas las variables observadas. En el siguiente paso, se maximiza el logaritmo de la función de verosimilitud de los datos completos y así se obtienen unas estimaciones máximo-verosímiles para los parámetros. En esta etapa, si alguna probabilidad condicionada está restringida mediante un modelo logit como los de las ecuaciones [3.8] se determina estimando los modelos log-lineales correspondientes a las respectivas tablas marginales. Tales modelos se estiman utilizando los procedimientos mostrados en el primer capítulo: el algoritmo de Newton-Raphson o el de ajuste proporcional iterativo (IPF).

96

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Finalmente, los ciclos se repiten hasta que se alcanza la convergencia. Recordamos que se logra cuando el incremento en la verosimilitud es menor o igual que un valor arbitrario muy pequeño cuyo tamaño es fijado por el investigador. Para terminar, esta forma de expresar la probabilidad conjunta descomponiéndola utilizando la información proporcionada por la representación gráfica es útil porque simplifica los cálculos en la estimación y, además, permite modelizar la presencia de covariables dinámicas, tanto endógenas como exógenas. No obstante, presenta un gran inconveniente: sólo se puede utilizar con variables categóricas. A la hora de aplicar el modelo, esta restricción impide utilizarlo a menudo, puesto que es frecuente en cualquier estudio la existencia de al menos una variable continua. En la siguiente sección se expondrá una metodología que, basada en la misma idea que la anterior, permite subsanar el problema de la consideración de las covariables continuas.

3.4. Covariables discretas y continuas: los modelos gráficos de cadena12 3.4.1 Introducción Los modelos gráficos de cadena, propuestos por Wermuth y Lauritzen (1990), son modelos de probabilidad para algunas observaciones aleatorias multivariantes cuya estructura de independencia está reflejada en un grafo, llamado grafo de independencia condicionada. Su distribución de probabilidad se caracteriza porque las propiedades de Markov local y global son idénticas y, además, pueden obtenerse a partir del grafo (Lauritzen y Wermuth, 1989; Lauritzen, 1996).

12

En el apéndice 1 se recoge una introducción a la notación y los conceptos básicos de la teoría de los

modelos gráficos.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

97

Los modelos expuestos en este apartado poseen varias ventajas. No sólo permiten simplificar la estructura de las relaciones entre las variables, sino que también permiten la inclusión de variables explicativas continuas. Este último rasgo permite superar las limitaciones de los modelos expuestos en la sección anterior. Además, presentan la importante característica de formular la existencia de variables intermedias, variables explicativas y explicadas al mismo tiempo. Es posible determinar distintos tipos de efectos de las variables explicativas: directos o indirectos a través de la influencia de otra variable. Éstas últimas se conocen como variables explicativas intermedias. Existen tres motivos para considerar este tipo de variables. En primer lugar, para algunas variables no se puede determinar a priori si son explicada o explicativas. Por lo tanto, se hace necesario observar con mayor detenimiento las relaciones entre las variables explicativas. Otra razón para considerar las relaciones entre las variables explicativas es la paradoja de Simpson. Dicha paradoja se produce cuando una asociación coincidente en varios subgrupos puede ser diferente si se considera todo el conjunto. Finalmente, la última razón para considerar las variables intermedias es que hacen posible encontrar influencias indirectas. Tales influencias permiten lograr una mayor compresión del problema. Aunque en el Apéndice 1 se introducen los conceptos básicos, definamos ahora el concepto de grafo. Un grafo G = (V, E) está formado por un conjunto V finito no vacío de vértices que representan las variables aleatorias y un conjunto E ⊆ V x V de arcos que reflejan las relaciones entre las variables. Entre ellos, la clase de grafos que nos interesa es la clase de los grafos de cadena. Son grafos donde el conjunto V de vértices puede dividirse en subconjuntos numerados que forman la cadena de dependencia V = V (1) ∪ ∪ V (T ) , donde T es el número de elementos o subconjuntos de la cadena. Asimismo, deben cumplir una serie de condiciones como veremos a continuación.

98

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Los principios básicos para construir un modelo gráfico de cadena fueron determinados por Wermuth y Cox (1992). En primer lugar, las variables se representan por puntos. En el contexto de la teoría de grafos, también se conocen por nodos. Es común representar las variables continuas con círculos y las discretas con puntos. Después, se agrupan las variables en subconjuntos según su rol en el modelo (explicadas, explicativas o intermedias) o su distribución temporal. En este trabajo se seguirá el segundo criterio de clasificación, es decir, en cada subgrupo aparecerán todas las variables de un período determinado. La representación gráfica de cada subgrupo es una caja. Tales cajas se alinean de derecha a izquierda según la estructura de asociación subyacente. Además, se supone que las variables de una caja están condicionadas por todas las variables que aparecen en las cajas a su derecha. Por último, existen algunas reglas para las relaciones entre las variables. Por un lado, las situadas en una misma caja o elemento de la cadena sólo pueden asociarse simétricamente que, gráficamente, se representa con una línea. Por el otro, aquellas variables pertenecientes a elementos distintos se relacionan asimétricamente, esto es, en el grafo las une una flecha. Además, dos variables no pueden estar unidas por más de una línea o flecha y no se permite la existencia de círculos. Una variable no puede estar conectada consigo misma puesto que una variable no se puede explicar por sí misma. En la siguiente figura, tenemos un ejemplo de un grafo de cadena con seis nodos, todos discretos y tres componentes. Se comprueba cómo los puntos correspondientes a cada elemento están unidos por una línea en caso de que exista relación entre ellos y las asociaciones entre nodos de distintos componentes se unen mediante una flecha.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

99

3 6

4 2 1

5 V(3)

V(2)

V(1)

Figura 3.2. Un ejemplo de grafo de cadena

3.4.2 La distribución gaussiana condicionada13 Una vez determinada la construcción de los grafos de cadena, es necesario definir qué distribución de probabilidad se considera en dichos modelos. La distribución generalmente utilizada es la distribución gaussiana o normal condicionada, donde las variables continuas siguen una distribución normal multivariante dadas las variables discretas. Supongamos que el conjunto V se divide en dos subconjuntos ∆ y Γ, donde ∆ se refiere a las variables discretas y Γ a las continuas. Una observación x se define así:

{

( )γ ∈Γ },

x = ( xα )α ∈V = (i. y ) = (iδ )δ ∈∆ , yγ

donde iδ contiene los valores de las variables discretas y yγ es un vector real. Según Lauritzen y Wermuth (1989), dada la notación anterior, la distribución CG de las variables se expresa canónicamente como14

13

En adelante, se llamará distribución CG.

14

Dicha notación es la usada por Edwards (1995). En la siguiente tabla se muestran las distintas

notaciones utilizadas por distintos autores para los parámetros canónicos y de los momentos.

100

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

f ( x) = f (i, y ) = exp{α (i ) + β (i )' y − 12 y ' Ω(i ) y}

[3.11]

En la anterior expresión para cada i, α(i) es un número real, β(i) un vector qdimensional en RI, donde I es el conjunto de las celdas i, y Ω(i) una matriz definido positiva de orden q × q. Los parámetros anteriores (α(i), β(i), Ω(i)) se conocen como los parámetros canónicos de la distribución. La función [3.11] puede rescribirse usando los momentos (p, µ, Σ), parámetros que se relacionan con los anteriores mediante las siguientes expresiones. Ω(i ) = Σ −1 (i ) ,

β (i ) = Ω(i ) µ (i ) = Σ −1 (i ) µ (i ) , α (i ) = log p(i ) − 12 log | Σ(i ) | − 12 µ ' (i )Σ −1µ (i ) − q2 log(2π ) , donde q es el número de variables continuas, y Σ(i ) = Ω −1 (i ) ,

µ (i ) = Ω −1 (i ) β (i ) , q

−1

p(i ) = (2π ) 2 | Ω(i ) |

2

exp{α (i ) + 12 β ' (i )Ω −1β (i ) .

Por tanto, podemos establecer que la distribución conjunta f(x) = f(i,y) es una normal condicionada si y sólo si ( X Γ | X ∆ ) = N q ( µ (i ), Σ(i ))

[3.12.a]

Edwards (1995) Lauritzen y Wermuth (1989) Whittaker (1990) Lauritzen (1996)

α

g

α

g

β

h

β

h

Ω

K

D

K

p

p

p

p

µ

ξ

µ

ξ

Σ

Σ

V

Σ

La influencia de algunas variables ajenas en los modelos latentes dinámicos

101

y, además, p(i)=P(X∆=i)>0.

[3.12.b]

Es decir, una distribución gaussiana condicionada se caracteriza porque las probabilidades de las celdas deben ser positivas y la distribución condicionada de las variables continuas dadas las discretas es una normal multivariante con el vector de esperanzas y la matriz de varianzas y covarianzas mostrados en la expresión [3.12.a]. Un modelo gráfico de cadena correspondiente al grafo de cadena G es la clase de todas las distribuciones CG para el conjunto de variables aleatorias X.

3.4.3 La regresión gaussiana condicionada15 Uno de los rasgos del modelo gráfico de cadena es la existencia de flechas uniendo las variables asociadas en distintos componentes. Para expresar dichas relaciones causales o de dependencia es necesario utilizar distintas regresiones derivadas a partir de la distribución CG. Si suponemos un conjunto de vértices V perteneciente a un grafo de cadena G, un vector multivariante XV y XV(1),…, XV(T) la partición en subvectores para cada bloque V(1),…,V(T) es posible descomponer la función conjunta de verosimilitud en un producto de distribuciones condicionadas correspondientes cada uno de los bloques dadas las variables de los bloques anteriores. Entonces, la función de densidad conjunta f(xV) se factoriza como T

f ( xV ) = fVT |VT −1 V1 ⋅ fVT −1 |VT − 2 V1 fV2 |V1 ⋅ fV1 = fV1 ∏ fVt |V1VT −1

[3.13]

t =2

Cada uno de los términos condicionados de expresión anterior se corresponde con una regresión CG.

15

En adelante, regresión CG

102

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Es posible definir la regresión CG como un sistema de funciones que para cada elemento (j,z) de un conjunto de dimensión J × Z de estados de distintas variables discretas y continuas especifican una distribución CG en el conjunto I × J. Esto es, describe la dependencia de una distribución CG de variables explicadas (i, y) respecto de unas variables explicativas (j, z), donde j∈J, un conjunto de variables explicativas discretas y z∈Z.= R ΓE . Lauritzen y Wermuth (1989) mostraron que una regresión CG se puede caracterizarse por una séxtupla (u, v, W, a, B, C), tales que para cada (i, j) - u (i | j ) es un número real, - v(i | j ) = {v(i | j )γ }γ ∈Γ es un vector de dimensión q, - W (i | j ) = {W (i | j )γη }γ ,η∈Γ es una matriz simétrica de dimensión qE x qE, donde qE es la dimensión del vector de variables explicativas continuas, - a (i | j ) = {a (i | j )γ }γ ∈Γ es un vector de dimensión q, - B (i | j ) = {B (i | j )γη }γ ,η∈Γ es una matriz de dimensión q x qE, - C (i | j ) = {C (i | j )γη }γ ,η∈Γ es una matriz simétrica y definido positiva de dimensión q x q. Partiendo de estos parámetros canónicos, los momentos de la distribución CG de las variables explicadas dadas las variables explicativas tienen la expresión: log p (i | j , z ) = u (i | j ) + v(i | j )' z − z 'W (i | j ) z − log κ ( j , z ) ,

[3.14.a]

µ (i | j ) = a(i | j ) + B(i | j ) z ,

[3.14.b]

Σ(i | j , z ) = C (i | j ) ,

[3.14.c]

donde κ ( j , z ) es una constante normalizadora cuya expresión es

κ ( j , z ) = ∑i exp{u (i | j ) + v(i | j )' z + z 'W (i | j ) z

La influencia de algunas variables ajenas en los modelos latentes dinámicos

103

Para cada regresión CG existe una distribución CG conjunta de la cual la primera es la distribución condicionada. Sólo en el caso en que se conozcan los parámetros de la distribución marginal de las variables explicativas puede la regresión CG determinar la distribución conjunta. Finalmente, podríamos decir que la distribución conjunta del vector multivariante XV es una regresión CG multivariante recursiva si todas las distribuciones condicionadas de la factorización de dicha distribución conjunta son regresiones CG (Lauritzen y Wermuth, 1989).

3.4.4 Propiedades de Markov e interpretación La noción básica que subyace en un modelo gráfico y que, además, es clave para su interpretación es el concepto de la independencia condicionada. Así, mediante la representación gráfica del modelo se puede determinar qué variables están relacionadas con otras o cuáles son independientes dada otra u otras. Para poder extraer las independencias condicionadas a partir del grafo es necesario que las distribuciones satisfagan las propiedades de Markov16. Las propiedades de Markov para los grafos de cadena engloban las propiedades para los grafos no dirigidos y los dirigidos acíclicos, ya que son una generalización de ambos. Sea T el número de componentes de la cadena de dependencia del grafo. Entonces, el conjunto V de vértices puede dividirse en T componentes tales que cada uno de los subconjuntos V(t), con t=1,…,T, sólo presenta líneas entre sus vértices y aparecen flechas desde algunos vértices de los conjuntos con menor orden hacia aquellos con mayor orden.

16

En el Apéndice 1 se recogen las propiedades de Markov para los grafos no dirigidos y los grafos

dirigidos acíclicos.

104

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Antes de establecer las propiedades, es necesario definir el grafo moral, Gm. Éste puede obtenerse a partir de un grafo de cadena sustituyendo todos los arcos dirigidos por arcos no dirigidos y conectando con una línea todos los vértices que tienen hijos en el mismo componente de la cadena. Así, las probabilidades P en un grafo de cadena satisfacen las siguientes propiedades: - (PB) propiedad por parejas de Markov recursiva de bloques respecto a una cadena de dependencia V(1),…,V(T) si X i ⊥ X j | X Vi \{i,j}∀(i, j ), ( j , i ) ∉ E , i ∈ Vl , j ∈ Vk , k ≤ l , V j =

l

Vm

m =1

Es decir, cualquier par de variables no adyacentes es independiente condicionado a todas las variables del mismo o anteriores componentes de la cadena. - (PC) propiedad por parejas de Markov de cadena, relativa a un grafo G, si X i ⊥ X j | X {V \ de(j)}\{i,j}∀(i, j ), ( j , i ) ∉ E , i ∉ de( j )

Dado el conjunto de todas las variables menos las unidas por un camino a una de ellas, si ambas no son adyacentes en el grafo y una no es descendiente de la otra, son independientes dadas las variables del conjunto antes definido. - (LC) propiedad local de Markov de cadena, relativa a un grafo G, si para cualquier vértice i perteneciente a V, X i ⊥ X {V \ de(i)}\ cl{i} | X bd (i ) .

Una variable es independiente de un conjunto de variables condicionada a las variables que forman su frontera si no le une ningún arco (flecha o línea) con las variables del conjunto anterior o no existe ningún camino que las enlace. - (GC) propiedad global de Markov de cadena, relativa a un grafo G, X A ⊥ X B | X C , ∀A, B, C ⊆ V ,

La influencia de algunas variables ajenas en los modelos latentes dinámicos

105

m donde C separa los conjuntos A y B en el grafo modal Gan ( A∪ B ∪C ) y an(A∪B∪C)

representa el conjunto de ancestros menor que contiene A∪B∪C. Por ejemplo, aplicando las propiedades a la figura 3.2, se obtiene que: X 3 ⊥ X 5 | { X 1 , X 2 , X 4 , X 6 } por la propiedad recursiva de bloques, X 5 ⊥ X 3 | { X 1 , X 2 } , por la propiedad por parejas, X 1 ⊥ { X 1 , X 2 , X 4 , X 6 } | X 3 por la local, y { X 2 , X 3 } ⊥ { X 5 , X 6 } | { X 1 , X 4 } por la global. Siguiendo las propiedades antes establecidas, se puede interpretar un grafo de cadena. Podemos decir que la ausencia de un arco entre dos vértices significa que las variables no conectadas son independientes condicionadamente dadas las variables anteriores o aquellas en el mismo nivel. Formalmente, sea un grafo de cadena G=(V, E), donde V es el conjunto de vértices que representan los componentes de un vector multivariante XV=(X1,…,XR) y E ⊆ V × V es un conjunto de pares ordenados tales que (i, j ) ∧ ( j , i ) ∈ E se representa por una línea no dirigida y corresponde a una relación simétrica y (i, j ) ∈ E ∧ ( j , i ) ∉ E se refleja como una flecha. Entonces, el supuesto de independencia condicionada se puede expresar como X i ⊥ X j | X V *\{i , j} , para cualquier (i, j ) ∧ ( j , i ) ∉ E , donde V* está formado por todas las variables anteriores o en el mismo nivel recursivo que i o j.

3.4.5 Estimación y selección del modelo Un modelo gráfico de cadena está caracterizado por las propiedades de Markov relativas al grafo de cadena G antes enunciadas y por el supuesto de que cada distribución condicionada de las variables en un componente τ de la cadena dados los padres pa(τ) es una regresión CG.

106

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Entonces, tenemos que, según la expresión [3.13], la función de densidad conjunta se puede factorizar como el producto de las verosimilitudes de las variables en cada componente de la cadena dados los elementos situados a la derecha. A pesar de que el algoritmo TM (Edwards y Lauritzen, 2001) ha sido propuesto para estimar en su conjunto todas las regresiones CG, no ha sido desarrollado convenientemente en ningún programa informático17, por lo cual no puede ser aplicado18. En las situaciones puras, esto es, cuando todas las variables son continuas o discretas, el ajuste no supone un gran problema puesto que se puede estimar cada densidad condicionada por separado utilizando la regresión lineal múltiple (caso continuo) o la regresión logística múltiple (caso discreto). Ahora bien, la situación se complica cuando tenemos un modelo mixto con variables discretas y continuas y éste es el caso que nos interesa. Hasta ahora, en este trabajo se ha mostrado la representación y la estimación de la movilidad de las variables discretas, considerando finalmente la existencia de otras variables que explican o afectan tales cambios, éstas últimas consideradas también discretas. Sin embargo, no siempre ocurre esto en la realidad y puede afectar una variable continua al menos. Consideramos que la metodología aquí mostrada puede iluminar esta cuestión. Una manera de seleccionar un modelo gráfico de cadena con variables mixtas es la propuesta por Cox y Wermuth (1996), quienes sugieren que cada densidad o

17

Se ha incluido en la última versión del programa MIM (Edwards, 2000), pero para modelos gráficos

de cadena muy simples (Blauth y Pigeot, 2000). 18

Existen condiciones especiales bajo las cuales se puede estimar la densidad de todo el modelo.

Según la proposición 6.33 de Lauritzen (1996), en un modelo gráfico de cadena G si todos las componentes de la cadena cumplen la condición

τ ⊆ Γ ∨ bd (τ ) ⊆ ∆ , puede obtenerse directamente la estimación máximo-verosímil de la densidad conjunta a partir de las densidades marginales.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

107

probabilidad condicionada sea descrita por un sistema de regresiones univariantes múltiples. Este método se basa en la idea de las regresiones recursivas de bloque (Wermuth, 1992). Dichas regresiones permiten analizar las dependencias entre un conjunto de varias variables explicadas y otro de variables explicativas mediante un sistema de regresiones univariantes. Entonces, cada variable se regresa respecto de todas las variables situadas en su mismo bloque y en todos los anteriores con el tipo de regresión que corresponda dado el tipo de variable explicada que se considere. Aunque esta forma de estimar las relaciones presenta las ventajas de la manejabilidad y de la fácil interpretación de los arcos ausentes en el grafo, el proceso de estimación no asegura la equivalencia de las propiedades de Markov para todo el grafo y, además, no se tiene en cuenta la estructura multivariante de los datos. A pesar de los inconvenientes arriba mencionados, creemos que es una estrategia útil para determinar las influencias entre las distintas variables y bloques, siempre que existan variables mixtas.

3.4.5.1 La estrategia de selección del modelo Basada en el procedimiento de estimación de los modelos gráficos de cadena mostrado en el apartado anterior, una buena estrategia debe lograr un modelo con tan pocas variables como sea posible y tantas variables como sea necesario para describir adecuadamente la estructura de relación entre los datos. Mientras que, por una parte, una cantidad pequeña de parámetros estimados hace que disminuya el sesgo provocado por pequeños errores de estimación y, además, se evita el coste de estimar parámetros que no se necesitan; por el otro; no se puede reducir excesivamente la complejidad del modelo ya que se podrían omitir variables importantes. El primer paso consiste en la determinación de los bloques o elementos recursivos dado que informan sobre el número de regresiones por estimar y qué variables son

108

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

explicadas en cada una de las anteriores. Para fijar tales bloques es recomendable utilizar la teoría del problema que se estudie. Pigeot et al. (1997) proponen un procedimiento para elegir las variables que forman parte de cada una de las regresiones. Este método, mostrado en la figura 3.3, considera todos los posibles tipos de variables, y, por ello, comienza buscando los términos de interacción y las no-linealidades para las variables continuas. Para cada regresión univariante el proceso se divide en cinco fases. Primera fase

Como se ha comentado antes, se toman las variables continuas para determinar la existencia de términos de interacción y relaciones no lineales. Para los términos de interacción se observan los estadísticos t de regresiones de tres variables como Y respecto de Xi, Xj y Xi × Xj. Para las no linealidades, la regresión es Y respecto de Xi y el cuadrado de ésta. Se introducen los términos si |t| es superior al percentil 99 de la distribución normal o de la t de Student19, dependiendo del número de observaciones. Segunda fase

Depende de la etapa anterior. Si algunos términos parecen producir un efecto importante, se incluyen en la regresión junto a los efectos principales y se calculan los valores de los estadísticos t de Student de las correspondientes variables. En caso de que se cumpla la condición expuesta en el paso precedente, se incluyen en el modelo y viceversa.

19

Este valor se elige siguiendo a Cox y Wermuth (1994) al igual que el valor tope del 97.5% utilizado

en la tercera fase.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

109

S c r e e n in g p a r a e n c o n t r a r t é r m in o s d e in t e r a c c ió n y r e la c io n e s n o lin e a le s

E x is t e n p r u e b a s d e q u e p u e d e n c o n s id e r a r s e a lg u n o s t é r m in o s

C á lc u lo d e lo s c o e f ic ie n t e s d e r e g r e s ió n d e lo s t é r m in o s d e in t e r a c c ió n o n o lin e a le s c o m o s i s e in c lu y e r a n e n e l m o d e lo d e e f e c t o s p r in c ip a le s d e l s ig u ie n t e p a s o

S e c o m p ru e b a q u e la r e g r e s ió n c o n lo s e f e c t o s p r in c ip a le s d e s c r ib e b ie n t o d a s la s d e p e n d e n c ia s e n t r e la s v a r ia b le s

S e c o m p ru e b a q u e la r e g r e s ió n c o n lo s e f e c t o s p r in c ip a le s d e s c r ib e b ie n t o d a s la s d e p e n d e n c ia s e n t r e la s v a r ia b le s

E x is t e n p r u e b a s d e q u e p u e d e n c o n s id e r a r s e a lg u n o s t é r m in o s

U n a r e g r e s ió n b a s a d a e n lo s e f e c t o s p r in c ip a le s , lo s t é r m in o s d e in t e r a c c ió n y lo s n o lin e a le s u s a n d o u n a s e le c c ió n “ h a c ia a trá s ” p ro d u c e una p r im e r a s e le c c ió n d e v a r ia b le s

U n a r e g r e s ió n b a s a d a s ó lo e n lo s e f e c t o s p r in c ip a le s , usando una s e le c c ió n “ h a c ia a t r á s ” p r o d u c e u n a p r im e r a s e le c c ió n de v a r ia b le s

B ú s q u e d a d e in t e r a c c io n e s e n e l m o d e lo r e d u c id o . S e in c lu y e c u a lq u ie r t é r m in o d e in t e r a c c ió n c u a lit a t iv o o m ix t o s e g ú n la s v a r ia b le s y e f e c t o s s e le c c io n a d o s e n e l p a s o a n t e r io r . U n a s e le c c ió n “ h a c ia a t r á s ” lle v a a u n m o d e lo r e d u c id o .

B ú s q u e d a d e e f e c t o s n o lin e a le s . S e in c lu y e n t o d o s lo s e f e c t o s n o lin e a le s c u a n t ita t iv o s e in t e r a c c io n e s c u a lit a t iv a s p o s ib le s s e g ú n la s v a r ia b le s y e f e c t o s s e le c c io n a d o s h a s t a e l m o m e n t o . U n a s e le c c ió n “ h a c ia a t r á s ” lle v a a u n m o d e lo r e d u c id o .

Figura 3.3.Un esquema de la estrategia de selección aplicada a cada regresión univariante múltiple

Tercera fase

La regresión aquí calculada depende de los resultados de las fases anteriores. Si ningún término de interacción o no linealidad produce un efecto significativo, se

110

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

comienza con una regresión con efectos principales. Por el contrario, la regresión inicial es un modelo expandido. Entonces, se realiza una selección “hacia atrás” donde se elimina aquella con el menor valor absoluto del estadístico t hasta que no se encuentre ningún término con valor absoluto del t menor que el percentil 97.5 de las distribuciones antes consideradas para los efectos principales y 99 para las interacciones y no linealidades. Cuarta fase

Una vez determinado el modelo reducido en la etapa tercera, se introducen en la ecuación las interacciones de las variables discretas y las mixtas entre continuas y categóricas. De nuevo, se realiza una selección “hacia atrás” hasta que todos los términos cumplan las condiciones de la fase anterior. Quinta fase

Se incluyen todas las interacciones posibles en el modelo obtenido antes y se vuelve a refinar el modelo según las premisas ya comentadas. Una vez finalizado el proceso, se trasladaría la información contenida en el modelo considerando que cualquier par de variables con un coeficiente de regresión deberán estar unidas en el grafo por un arco, flecha o línea según el bloque respectivo donde se encuentren. Para terminar, es necesario comentar que la división en bloques en los modelos gráficos de cadena puede venir determinada por la estructura temporal de las variables. Si éste es el caso, estamos ante una subclase de los modelos gráficos de cadena: los modelos dinámicos de interacción, expuestos en el apartado siguiente.

3.4.6 Los modelos gráficos dinámicos de interacción En este punto impondremos una dependencia del tiempo para el conjunto de variables que forman parte del modelo y relacionaremos tales modelos dinámicos con los mostrados en capítulos anteriores. En concreto, se definirán las condiciones que deben darse para que sean equivalentes. De esta forma, se podrá comprobar cómo los

La influencia de algunas variables ajenas en los modelos latentes dinámicos

111

modelos dinámicos de variables latentes con covariables son una subclase de los modelos gráficos dinámicos de interacción. El primer trabajo donde se planteó este tipo de modelos fue el de Lynggaard y Walther (1993), en el cual presentaron los modelos gráficos dinámicos de interacción para el estudio de las series temporales, relacionándolos con los modelos VAR. Se basaron en las propiedades de Markov para grafos de cadena (Lauritzen y Wermuth, 1989) definidas en el apartado anterior. Más tarde, otros autores, Dahlhaus (1999), Didelez (1999), Dahlhaus y Eichler (2000), y Eichler (1999, 2001) han desarrollado esta línea de investigación sobre la dimensión temporal de los modelos gráficos, centrándose como los anteriores en las relaciones entre las componentes de distintas series temporales o procesos estocásticos. Consideremos un conjunto de datos de panel en el que en cada momento los individuos toman valores en las variables X(t), t∈[0;T], variables que pueden sen continuas y discretas. Gráficamente, dichas variables aparecen en los componentes V(t) de una cadena de dependencia. Apliquemos además la definición de la distribución CG recursiva de bloques del apartado anterior de manera que podemos definir la distribución CG recursiva de bloques de Markov de orden m. Entonces, una distribución CG recursiva de bloques para un grafo de cadena es de Markov de orden m si se cumple que (V (t ) | W (t − 1) = (V (t ) | V (t − 1),V (t − 2),,V (t − m)),

donde W (t ) = {Vs }s ≤ t y t ∈ Tm = {m,, T } . Es decir, las relaciones entre las variables en un período determinado dependen de los valores que toman en los m períodos anteriores. Recordemos que en los capítulos precedentes, la idea de la estacionariedad era importante al estudiar la movilidad de las variables. En este caso, una distribución CG recursiva de bloques de orden m es estacionaria si (V (t ) | V (t − 1),V (t − 2),,V (t − m)) = (V (m) | W (m − 1) ∀t ∈ Tm = {m,, T }

112

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

A partir de la expresión arriba mostrada, las probabilidades de las variables condicionadas a las variables anteriores son independientes del tiempo. Es equivalente dicha relación a la expuesta en los capítulos 2 y 3, donde la estacionariedad implicaba que las probabilidades de transición se mantenían constantes. Al igual que en la sección anterior, se asocia el modelo a un grafo, grafo que en este caso se conoce como grafo dinámico de cadena. Sea DT = {V (0),,V (T )} una cadena

de dependencia y V(t) una copia de un conjunto fijo de vértices V = Γ∪∆. Entonces, el grafo G DT = (VT , E DT ) , donde VT indica que el conjunto de vértices está compuesto por T copias de V, se llama un grafo dinámico de cadena. B0

B1

B2

X0 A

Y0

S

X1 A

C0 V(0)

Y1

S C1 V(1)

X2 A

Y2

S C2 V(2)

Figura 3.4. Un modelo gráfico dinámico de interacción.

Finalmente, un modelo gráfico dinámico de interacción asociado a un grafo dinámico de cadena se corresponde con todas las distribuciones CG recursivas de orden m representadas por tal grafo y se denota con M (G DT ) .Arriba tenemos la traducción de la figura 3.1 como un grafo dinámico de cadena20. No se ha incluido ninguna variable continua, pero no habría ningún inconveniente en hacerlo. Mediante el grafo anterior, presentamos un conjunto de definiciones que permiten expresar los modelos dinámicos de variables latentes y los conceptos asociados desarrollados en los temas anteriores como modelos gráficos dinámicos de interacción.

20

Respecto a la primera representación de un gráfico de cadena (fig. 2), hemos cambiado el sentido

de los bloques para una mejor comprensión.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

113

Sea Xl una variable discreta21 no observable presente en un componente V(t) de una cadena de dependencia DT y XO un conjunto no vacío de variables discretas observables Xi, i=1,…,k presentes también en dicho bloque. Entonces, diremos que la variable XL es una variable latente determinada por k variables indicadores Xi si se cumple que X i ⊥ X j | X l , ∀X i , X j ∈ X O

X i ⊥ X V (t ) \ XO | X l , ∀X i ∈ X O Puesto que los indicadores son independientes entre sí dada la variable latente, quiere decir que deben cumplir la propiedad de Markov de la independencia por parejas. Por otro lado, se satisface la propiedad local ya que son independientes de cualquier otra variable del bloque dada la variable latente. En la siguiente representación, tomamos uno de los componentes de la cadena del modelo mostrado en la figura 3.4 donde se puede comprobar que las anteriores relaciones de independencia condicionada se cumplen para el caso de Y y X. Únicamente un arco une a la variable X con alguna de las demás. En consecuencia, dada la propiedad local de Markov, es independiente al resto de las variables del componente de la cadena condicionada a la variable Y. Se puede comprobar que cumple así la condición mostrada en la figura 2.1 y la ecuación 2.2. Una vez definidas las condiciones para la existencia de una variable latente, mostremos las relaciones de independencia condicionada necesarias para expresar un modelo latente de Markov.

21

En adelante, se utilizarán letras minúsculas en los subíndices para indicar que es una única variable

y mayúsculas para referir un conjunto de variables.

114

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

B0 X0 A

Y0

S C0

V(0) Figura 3.5. Una variable latente en relación con las propiedades de Markov de independencia condicionada

El modelo gráfico para un modelo latente de Markov es un modelo gráfico de cadena GLM=(VLM,ELM), donde para cualquier componente V(t) de la cadena tenemos VLM (t ) = {( X l , X i ) | X i ∈ X O (t ), i = 1, , k ,{ X l (t )} ∈ X L }, es decir, los vértices se dividen en un subconjunto XO(t) de variables discretas observadas y otro XL(t) de variables latentes o no observables formado por un solo elemento en cada componente. Además, el conjunto ELM de arcos está determinado por las siguientes relaciones: X l (t − u ) → X l (t ) ∉ E LM ⇔ u ≤ 0 o X l (t − u ) ⊥ X l (t ) | X V (t ) \ { X l (t − u )} (a) X i (t − u )  X l (t ) ∉ E LM ⇔ u ≠ 0 X i (t ) ⊥ X l (t ) | X V (t ) \{ X i , X l } ∪ paG ( X l (t ) ∨ ( X i (t )) (b)

X i (t − u )  X j (t ) ∉ E LM ⇔ u ≠ 0 o X i (t ) ⊥ X j (t ) | { X l (t )}, ∀X i , X j ∈ X O (t ) (c)

En otras palabras, únicamente podrá existir una flecha entre dos variables latentes que estén situadas en dos bloques distintos de la cadena. El sentido será siempre desde el componente referido a un período anterior al posterior y su ausencia se interpreta como independencia condicionada al resto de variables del grafo. Por el contrario, nos encontramos dos situaciones donde se trazan líneas entre vértices. Mientras que en el primer caso, (b), aparece una línea entre una variable observada y la latente si están en el mismo bloque y además no son independientes dado el resto de componentes del mismo así como sus respectivos padres, en la otra se

La influencia de algunas variables ajenas en los modelos latentes dinámicos

115

establece la condición de independencia local de las variables indicadores. El caso (c) es equivalente a la segunda condición mostrada al hablar de las variables latentes. En el capítulo anterior se consideraba un modelo latente de Markov de primer orden. En consecuencia, en el grafo cada bloque está unido a los inmediatamente anterior y posterior y las variables latentes son los respectivos elementos de conexión de los bloques. Es fácil comprobar en la figura 3.9 del capítulo anterior la traducción gráfica de las relaciones de independencia condicionada antes expuestas. Para continuar con el resto de los modelos, es necesario establecer la condición para determinar la existencia de una covariable. Sin embargo, puesto que la definición de tal variable está muy relacionada con la existencia del proceso de movilidad de otra variable, proceso en el cual actúa, llamaremos variable principal a la variable cuya movilidad es objeto de estudio. Será representada por X p 22. Sea Xp(t) el valor que toma la variable principal en el componente V(t) del grafo dinámico. Diremos que la variable Xi(s), s ≤ t, es una covariable en sentido estricto de la primera si se cumple que X i ( s ) ∈ pa ( X p (t )), s < t ,

(i)

X i ( s ) ∈ ne( X p (t )), s = t .

(ii)

Esto es, si es una covariable y está en un bloque anterior las une una flecha y si comparten el elemento de la cadena, una línea. Si se observan detenidamente las condiciones anteriores, se refieren a una idea de covariable directa, es decir, no se tienen en cuenta los efectos que pueda producir una variable sobre la principal a través de otra intermedia. Recordemos que ésta era una de las ventajas de proponer estos modelos: la posibilidad de considerar en los modelos efectos directos e indirectos sobre la movilidad de una variable. Dada la misma variable Xp(t), diremos que la que la variable Xi(s), s ≤ t, es una covariable de la primera si 22

En el caso anterior, la variable principal Xp es la variable latente Xl.

116

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

X i ( s ) ∈ an( X p (t )), s < t

(i’)

X i ( s ) ∈ ne( X p (t )), s = t

(ii)

Estas condiciones, en concreto la primera, son menos rígidas que las anteriores dado que sólo exigen la existencia de un camino dirigido entre ambas variables. Así, en la figura 3.5, tenemos que A, S, Bt y Ct son covariables de la variable principal Yt. Partiendo de la condición (i’), es posible establecer la definición de una covariable intermedia. Una variable Xi será una covariable intermedia de la variable principal Xp si

se

satisface

que

X i ( s ) ∈ an( X p (t )), s < t ,

X j (r ) ∈ an( X p (t )), r < t

y

X j (r ) ∈ an( X i ( s )), r < s . En otras palabras, si existe un camino entre Xj(r) y Xp(t)

dentro del cual está la variable Xi(s), entonces ésta última es una variable intermedia y recoge los efectos indirectos de la primera sobre la variable principal. Un aspecto muy relacionado con los anteriores es la dimensión temporal de los efectos. Por tanto, hablaremos de covariables instantáneas si cumplen la condición (ii); conclusión inmediata dado el significado temporal de cada bloque y la restricción de la condición (ii) a las variables existentes en cada uno de ellos. Por otro lado, las covariables se llamarán covariables retardadas si se cumple la condición (i’) o su versión más restrictiva (i). Es decir, cuando los valores anteriores de las covariables afecten al valor actual de la variable principal. Finalmente, para terminar con las variables explicativas es necesario tratar la cuestión de la exogeneidad o endogeneidad, esto es, la relación entre la movilidad de la variable principal o explicada y los cambios de las explicativas. Creemos preciso aclarar que tales conceptos se refieren a la posibilidad de explicar los cambios de las covariables dados los valores anteriores de la explicada o principal. De otro modo, estaríamos ante el problema de determinar el sentido de la causalidad, cuestión que consideramos como futura extensión de este trabajo.

La influencia de algunas variables ajenas en los modelos latentes dinámicos

117

Una variable externa Xi(t) es exógena si se cumple que X p (t ) ∉ an( X i (u )) , donde u > t. En otras palabras, si no existe ningún camino dirigido que una ambas variables. Únicamente se consideran los arcos dirigidos por la razón citada en el párrafo anterior. Por el contrario, tal variable es endógena si la condición anterior no se satisface. Es decir, los valores retardados de la variable principal influyen sobre los valores actuales de las covariables. Una vez mostradas las condiciones para las covariables, estamos en disposición de definir el modelo gráfico dinámico de interacción correspondiente al modelo mixto de Markov. En este caso, se introduce una covariable S latente y constante que recoge los

diferentes subgrupos no observados en que se divide la población. Al ser constante y, puesto que influye sobre cada una de las variables, se coloca un vértice representando a dicha variable en cada bloque. En consecuencia, el modelo gráfico dinámico de interacción correspondiente a un modelo mixto de Markov es un modelo gráfico de cadena GMM=(VMM,EMM), donde

para cualquier componente V(t) de la cadena tenemos VMM (t ) = {( X p (t ),{S })}, es decir,

los vértices se dividen en una variable principal dinámica y observada y una covariable latente S constante, y, por tanto, la misma en todos los elementos de la cadena. Asimismo, el conjunto EMM de arcos se construye siguiendo las condiciones mostradas a continuación. X p (t − u ) → X p (t ) ∉ E MM ⇔ u ≤ 0 o X p (t − u ) ⊥ X p (t ) | X V (t ) \ { X p (t − u )} (a) S (t − u )  X p (t ) ∉ E LMM ⇔ u ≠ 0 S (t ) ⊥ X p (t ) | X V (t ) \{Si , X p } ∪ paG ( X p (t )) (b) Xp

Xp

Xp

S

S

S

V(1)

V(2)

V(3)

Figura 3.6. Un modelo mixto de Markov como modelo gráfico

118

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Definidos ambos modelos, es sencillo combinarlos para determinar el modelo gráfico que corresponde a un modelo latente mixto de Markov. Tal modelo es un modelo gráfico de cadena GLMM=(VLMM,ELMM), donde para cualquier componente V(t) de la cadena tenemos VLMM (t ) = {( X l , X i ,{S}) | X i ∈ X O (t ), i = 1, , k ,{ X l (t )} ∈ X L } , es decir, los vértices se dividen en un subconjunto XO(t) de variables discretas observadas y otro XL(t) de variables latentes o no observables formado por un solo elemento en cada componente con la inclusión dentro del conjunto de los vértices de la variable ajena latente S. Dadas estas premisas, es posible fijar el conjunto ELMM de arcos según las reglas siguientes. X l (t − u ) → X l (t ) ∉ E LMM ⇔ u ≤ 0 o X l (t − u ) ⊥ X l (t ) | X V (t ) \ { X l (t − u )} (a) X i (t − u )  X l (t ) ∉ E LMM ⇔ u ≠ 0 X i (t ) ⊥ X l (t ) | X V (t ) \{ X i , X l } ∪ paG ( X l (t ) ∨ ( X i (t )) (b) X i (t − u )  X j (t ) ∉ E LMM ⇔ u ≠ 0 o X i (t ) ⊥ X j (t ) | { X l (t )}, ∀X i , X j ∈ X O (t ) (c) X i (t − u )  S (t ) ∉ E LMM ⇔ u ≠ 0 o X i (t ) ⊥ S | { X l (t )}, ∀X i , X j ∈ X O (t ) (d)

S

S

S

Xl

Xl

Xl

Xi

Xi

Xi

V(1)

V(2)

V(3)

Figura 3.7. Un modelo gráfico para un modelo latente mixto de Markov

A lo largo de este apartado y del anterior, se ha desarrollado toda una metodología que permite incorporar distintas variables explicativas en los modelos dinámicos

La influencia de algunas variables ajenas en los modelos latentes dinámicos

119

latentes, tanto discretas como continuas y formular distintas hipótesis sobre las relaciones entre dichas variables y la principal, así como entre ellas. Además, es posible descomponer los efectos de una covariable en efectos directos o indirectos según sea un padre o un ancestro, por lo que presenta la gran ventaja de determinar un nuevo tipo de variables explicativas: las covariables intermedias. Para construir el modelo gráfico dinámico de interacción para un modelo dinámico latente con covariables basta con incorporar a los modelos gráficos básicos expuestos en este capítulo las variables y arcos, flechas o líneas, necesarios para reflejar las asociaciones relacionadas con las variables externas. Finalmente, a la hora de la estimación del modelo, se factoriza en componentes la probabilidad conjunta como en el caso del modelo gráfico de cadena y se aplican los procedimientos ya expuestos. No obstante, creemos que la propiedad de Markov recursiva de bloques alternativa (Andersson, Madigan y Perlman, 2001) puede ser interesante porque, a simple vista, permite una estimación más sencilla. Dicha propiedad dice que dos variables no adyacentes en un bloque son independientes dados sus padres, es decir, ya no se consideran también las variables del mismo elemento de la cadena. La aproximación a la teoría de los modelos gráficos hecha en la última parte del capítulo nos suscita futuros temas de investigación como el estudio más detallado de los modelos gráficos dinámicos bajo la propiedad arriba citada, la extensión a otros campos del análisis estadístico dinámico multivariante, la estimación mediante simulaciones repetidas como el bootstrapping o el método de Monte Carlo, la determinación mediante los modelos gráficos de cuestiones como la causalidad inversa, la disyuntiva causalidad-correlación, la causalidad espuria..., entre otros, o la consideración de las nuevas ideas sobre inferencia causal en los modelos gráficos esbozadas por Lauritzen (1999), o Lauritzen y Richardson (2001). En definitiva, creemos que las líneas abiertas por este trabajo son variadas e interesantes.

Los perfiles de la privación en España: un estudio estático y dinámico

121

4. Los perfiles de la privación en España: un estudio estático y dinámico 4.1. Introducción Según la definición de pobreza establecida por el Consejo Europeo en 1984, citada en EUROSTAT (2000) son pobres “aquellas personas, familias o grupos cuyos recursos (materiales, culturales y sociales) son tan limitados que les hacen quedar excluidos del modo de vida mínimo aceptable en el estado miembro en que habiten”.

En la cita anterior se establece una idea amplia de la pobreza relacionada con el nivel de vida de la persona o el hogar, más que la simple incapacidad de satisfacer las necesidades relativas a la subsistencia. En adelante, hablaremos de pobreza y privación como términos equivalentes, puesto que las definiciones realizadas sobre la privación son muy similares a la de la pobreza antes citada. No obstante, se plantean ciertos problemas a la hora de abordar el problema de la medida de la pobreza: ¿cómo medir el nivel de vida?, ¿cuál es ese “nivel de vida mínimo”? ¿Cuándo se dice que alguien está bajo tal mínimo?. En la mayoría de los estudios empíricos sobre pobreza, se han eludido las cuestiones anteriores tomando como indicador del nivel de vida la renta monetaria familiar ajustada mediante escalas de equivalencia al tamaño del hogar. Así se define como pobre el hogar cuya renta monetaria equivalente se sitúa bajo un umbral (llamado línea o umbral de pobreza) definido como el 50 o 60% de la renta media o mediana, según los estudios. Aunque este método presenta la ventaja de la facilidad de su construcción así como la posibilidad de comparar distintos períodos o territorios, la utilización de la renta posee ciertos inconvenientes enumerados a continuación, siguiendo a Martínez y Ruiz-Huerta (1999):

122

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

a) la longitud del período de referencia: la mayoría de las encuestas utilizadas recogen un dato de renta referido como máximo al año. Por tanto, no se puede incorporar la influencia del ahorro o desahorro o de las rentas irregulares sobre las condiciones de vida en el momento actual así como los efectos de algunos factores dinámicos. b) La necesidad de incluir algunas variables no monetarias. Existen componentes que no se consideran en la renta dada su difícil valoración como el autoconsumo de la producción agraria, la propiedad o las prestaciones recibidas de los servicios públicos. c) La no inclusión de la riqueza. Este aspecto es importante porque, además de afectar al nivel de vida de más de un período, permite acceder a recursos adicionales a los ingresos corrientes. d) La difícil evaluación de las necesidades de los hogares según sus características. e) El problema de la subestimación provocado por la ocultación voluntaria como por el olvido de algunos datos. Otros autores proponen el uso del gasto como indicador indirecto del nivel de vida puesto que, como indican Martínez y Ruiz-Huerta (1999), el grado de la subestimación de los datos es menor y, además, se eliminan las distorsiones derivadas del rasgo corriente de los ingresos. La última ventaja se relaciona con las hipótesis de la teoría del consumo según las cuales el consumo actual se aproxima mejor a la renta permanente que la renta corriente. Sin embargo, también se encuentran inconvenientes en el uso del gasto como indicador. Por un lado, la dificultad de estimar el gasto anual a partir de los datos de una semana y, por otro, depende de los patrones de consumo del individuo u hogar. En consecuencia, la asociación de un bajo nivel de gasto con una escasez de medios no es correcta siempre. Una vez expuestos los problemas de los indicadores indirectos de la pobreza, cabe plantearse la medición directa. Las críticas de Ringen (1988) a la metodología tradicional de medición de la pobreza apoyan teóricamente la decisión de incorporar indicadores directos no monetarios. En concreto, dicho autor planteó la inconsistencia

Los perfiles de la privación en España: un estudio estático y dinámico

123

de medir indirectamente a través de la renta un concepto definido directa y multidimensionalmente. Además, no siempre se aplican los recursos para el logro de bienes considerados necesarios, por lo cual los bajos niveles de renta no son totalmente fiables para identificar los hogares con mayor grado de privación. Otras ventajas de los indicadores directos son: a) Describen mejor a los calificados como pobres según el criterio de la renta. En este caso, se podría hablar de las condiciones de vida de la población pobre. b) Sin abandonar el criterio de la renta, permiten mejorar la identificación de los pobres. En el supuesto de una fuerte relación entre la renta y el nivel de vida, pueden ser útiles para determinar el umbral de pobreza23. Si, como plantea Ringen (1988), tal hipótesis se rechaza, entonces una combinación de ambos indicadores puede proporcionar una identificación correcta de la población pobre. c) Pueden usarse como un indicador alternativo para medir la pobreza. Como exponen Martínez y Ruiz-Huerta (2000), el apoyo teórico se halla en el enfoque del “nivel de vida” (Atkinson, 1989). Por tanto, la pobreza no se mide como una insuficiencia de los recursos, sino de los bienes y actividades comunes en una sociedad y momento concretos. No obstante, no está libre esta metodología de inconvenientes. Dichos problemas se derivan del carácter multidimensional de los datos y de las variables no monetarias y se relacionan con la agregación de los indicadores así como la dificultad de combinar o sustituir los indicadores indirectos por los directos.

4.1.1 La construcción de los indicadores de privación Para llegar a la determinación de la privación es necesario completar una serie de etapas: elegir el conjunto de indicadores que consideran en el estudio, evaluar la situación del hogar para cada uno de los indicadores anteriores, definir una estructura de

23

Éste es el método propuesto por Townsend (1979) o Muffels (1993).

124

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

ponderación, agregar los indicadores y, finalmente, determinar un umbral que separe la población con privación de la no privada.

4.1.1.1 La selección de los indicadores Dicha elección depende de los objetivos de la investigación. Lógicamente, si se pretende analizar el nivel de vida general se necesita considerar más indicadores que si el objetivo es completar el indicador indirecto. De todas maneras, y sobre todo en el primer caso, no es fácil determinar qué y cuántos indicadores deben tenerse en cuenta para medir la privación. La elección es el fruto de un intercambio entre la posible redundancia provocada por la selección de indicadores cuya información se solapa y el riesgo de obviar algunas variables importantes en el estudio. Además, existen dos líneas diferentes en la investigación de la privación, líneas que llevan a conjuntos de indicadores diferentes. Por un lado, aquellos que buscan los elementos intrínsecos de la pobreza y, por el otro, los autores que consideran una visión más compleja y completa relacionada con el bienestar. Ello provoca que los últimos consideren aspectos como la salud, la situación laboral, el nivel educativo, la integración social, el ocio... cuestiones más relacionadas con el concepto de exclusión social que con el de pobreza o privación. Una vez delimitada la cuestión anterior, se abre una nueva dicotomía: optar entre un estudio restringido a las necesidades (Mack y Lansley, 1985) o una investigación que incorpore un conjunto mayor de indicadores referidos al nivel de vida (Halleröd, 1994). En el primer caso, la información sobre los bienes no necesarios no se tiene en cuenta. Sin embargo, se cierne sobre el investigador una cuestión: ¿cómo distinguir si un bien es necesario o no?. Para evitar la arbitrariedad y los juicios de valor por parte del investigador, Mack y Lansley (1985) proponen una línea de trabajo basada en el consenso: se califican como necesarios aquellos bienes así comúnmente considerados por la sociedad. En concreto, en su trabajo determinaron que un bien era necesario si

Los perfiles de la privación en España: un estudio estático y dinámico

125

más del 50% de la población lo pensaba. A pesar de todo, el gran inconveniente del enfoque de las “necesidades” es la definición del concepto de necesidad. La segunda línea citada, el enfoque del “estilo de vida”, evita la distinción entre necesidades y no necesidades al considerar más variables. En este caso, los indicadores se refieren más al nivel de vida que a la privación para distintos componentes de las condiciones mínimas de vida. Es decir, se considera la pobreza o privación como bajo nivel de vida. No obstante todo lo anterior, el principal riesgo en la selección de los indicadores es la influencia de la arbitrariedad. Por ejemplo, Townsend (1979) parte de 60 indicadores de los que, más tarde, selecciona doce.

4.1.1.2 La evaluación de los hogares En la mayoría de los estudios empíricos, los indicadores elegidos para expresar la posesión de un cierto bien o la participación en una determinada actividad son variables binarias que. En el contexto de indicadores dicotómicos, se puede evaluar la citación de un hogar para cada uno de ellos según la siguiente función24 z(xij), donde xij es la cantidad del bien o la actividad j poseída o realizada por el hogar i.

1 si xij < x j z ( xij ) =  0 si xij ≥ x j

→ privación , → no privación

[4.1]

donde xj es la “norma social” o la cantidad o valor más común en la sociedad que se trate. Un problema presentado por este tipo de variables es que sólo informan sobre la presencia del bien o la actividad. No lo hacen sobre la cantidad ni la calidad. Para solucionarlo, Desai y Shah (1988) generalizan la función de la expresión [4.1], considerando una función de distancia o disparidad respecto del valor modal de la

24

Tomada de Brandolini y D’Alessio (2000).

126

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

variable j. No obstante, como Martínez y Ruiz-Huerta (2000) apuntan, al tener como objetivo la detección de situaciones de privación y no una descripción completa del bienestar, esta cuestión no es tan importante. Otro inconveniente se refiere a la relación entre ausencia y privación. La consideración de un bien como necesario y su adquisición dados loes recursos del hogar o individuo pueden verse afectadas por las preferencias y los estilos de vida. Por ejemplo, ¿cómo calificar a un hogar que no posee un bien considerado necesario por la mayoría de la población porque lo han decidido así?. Para resolver este problema, Mack y Lansley definen que la situación de privación viene provocada por una incapacidad forzosa para poseer o realizar el bien o actividad. Según esta definición, utilizada por la gran parte de los estudios posteriores, tienen privación aquellos hogares sin valor en un indicador considerado como necesario sólo si no pueden permitírselo. Sin embargo, la definición de privación anterior sólo puede utilizarse cuando la información necesaria se recoge.. Aunque se dispusiera de ella para todos los indicadores, surge un nuevo problema: la fiabilidad de la respuesta de los hogares al afirmar que la ausencia del ítem se debe a una falta de recursos. Esta cuestión ha sido manifestada por Piachaud (1981, 1987) al criticar los trabajos de Townsend (1979) y Mack y Lansley (1985). Puede suceder que un hogar afirme no poder permitirse la satisfacción de una necesidad y, por otro lado, puede acceder a bienes no considerados como necesarios. Además, la reducción de las expectativas provocada por la persistencia en la situación de pobreza o privación hace posible encontrar hogares con una situación objetiva de privación que sostienen no necesitar los bienes básicos de los que carecen. A pesar de lo dicho en el párrafo anterior, creemos que un análisis combinado de insuficiencias objetivas y subjetivas puede describir bien una situación de privación.

Los perfiles de la privación en España: un estudio estático y dinámico

127

Otros autores25 han optado por una metodología alternativa: los conjuntos borrosos o fuzzy sets. En este caso, un hogar no es pobre o no pobre, sino que entre ambos estados se supone una privación con diferentes grados. En consecuencia, los valores extremos implican una situación de privación o ausencia de privación y otro valor en el intervalo (0,1) supone una privación parcial. Respecto a esta metodología, consideramos que nuestro objetivo, la mejor identificación de la población pobre, se logra mejor con una diferenciación clara definida entre la privación y su ausencia. Si la identificación es el primer paso para tomar medidas que reduzcan la pobreza, es importante sabe quién debe ser el objeto de tales medidas.

4.1.1.3 La ponderación de los indicadores Antes de realizar el proceso de la agregación de los indicadores, es preciso establecer una estructura de ponderaciones para cada uno de ellos dada su naturaleza diferente. Por ejemplo, ¿tienen la misma importancia “tener retrasos en el pago de hipotecas”, “poseer un microondas” y “tener problemas de luz en la vivienda”?. Si se considera que cada uno es un indicador de la privación, pero con una importancia dispar, entonces el investigador debe asignar un peso distinto a cada variable para reflejar sus diferencias en el resultado de la asignación. La primera opción es determinar una ponderación igual para cada elemento. Aparece en algunos trabajos como Townsend (1979), Mack y Lansley (1985) o Mayer y Jencks (1989). Esta estructura de pesos puede justificarse, por un lado, por un intento de reducir al mínimo las interferencias de las decisiones del investigador sobre los resultados y, por otro, por la falta de información sobre la consideración como “necesarios” de los bienes o actividades. El inconveniente de seguir esta estrategia 25

Cerioli y Zani (1990), Cheli et al (1994), Cheli y Lemmi (1995), Lemmi et al (1996), Betti y Cheli

(2001). En España, el grupo de investigación sobre Economía cuantitativa del bienestar de la Universidad

128

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

reside en la ausencia de discriminación entre algunos componentes que claramente tienen diferente importancia en la privación. Alternativamente, se puede optar por la extracción de las ponderaciones a partir de los datos. Una de las posibles estrategias consiste en una estructura de pesos basada en las frecuencias, de manera que se calculen como una función de las frecuencias relativas de las variables. Por ejemplo, Halleröd (1994) concede más importancia a la ausencia de los bienes considerados necesarios por la mayoría de la población o Desai y Shah (1988), al construir su índice de privación, ponderan cada atributo por la proporción de individuos u hogares que los poseen en un valor mayor que el modal. Respecto al primero de ellos, además de la ventaja ya comentada de que el método consensuado (Halleröd) se acerca a la percepción social sobre la privación, es más estable dado que es lógico suponer que dicha percepción cambia lentamente. Por el contrario, el gran inconveniente es la falta de datos en algunas bases sobre esta información. Otros trabajos realizados con el Panel de Hogares de la Unión Europea (en adelante, PHOGUE) utilizan otras estructuras puesto que dicha base de datos no recoge las percepciones sociales sobre la necesidad de los bienes o actividades. Martínez y RuizHuerta (1999, 2000) aplican a cada atributo una ponderación calculada como el cociente entre la proporción de la población donde la variable j no está ausente y la suma de las proporciones para cada indicador. Whelan et al (2001a y b) al igual que Muffels y Fouarge (2001), por otra parte, ponderan cada atributo por la proporción de hogares que posee el ítem. Éstos últimos justifican su elección en la definición de privación de Runciman (1966) según la cual una persona se siente más pobre cuánto mejor vea a los demás. La importancia de cada indicador se puede incluir también mediante distintas técnicas estadísticas multivariantes, como el análisis factorial (Nolan y Whelan, 1996;

de Málaga ha desarrollado varias aplicaciones para el caso español.

Los perfiles de la privación en España: un estudio estático y dinámico

129

Layte et al, 1999, 2000), el análisis de componentes principales (Ram, 1982; Maasoumi y Nickelsburg, 1988; y Maasoumi, 1989) o el análisis cluster (Hirschberg et al., 1991). Una última metodología para establecer los pesos es el uso de los precios de mercado. No obstante, no existen para todos los atributos.

4.1.1.4 La agregación de los indicadores Una vez realizado las etapas anteriores, el investigador se enfrenta a la decisión más importante: cómo trabajar con la multidimensionalidad de la pobreza o privación. Existen distintas estrategias según la transformación que se haga de los datos. A medida que se les imponga una estructura mayor, más cerca se estará de una medida cardinal completa. En la figura siguiente, tomada del trabajo de Brandolini y D’Alessio (2000) sobre el bienestar, aparecen las principales estrategias en función del nivel y el método de agregación de los indicadores.

Análisis individual

Estrategia de complementación

Dominancia de vectores Estrategias no agregativas

Dominancia secuencial Técnicas multivariantes

Análisis conjunto

Índices multidimensionales de pobreza Estrategias agregativas

Indicador de bienestar

Figura 4.1. Estrategias para medir la privación (Brandolini y D’Alessio, 2000)

Por tanto, el rango de posibles métodos va desde la estrategia de complementación hasta el cálculo de un indicador sintético de bienestar. La primera consiste en considerar

130

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

uno a uno todos los indicadores, estudiando sus características univariantes y su estructura de correlación, junto a alguna información sobre la distribución de la renta. Su sencillez, una ventaja, provoca un gran inconveniente si existe mucha información sobre los hogares o individuos: no resume y, por tanto, no se puede realizar una descripción bien definida. La alternativa es considerar conjuntamente todos los indicadores, para agregarlos y obtener una medida o medidas resumen o para comparar respecto de los valores de todos. Entre las posibles estrategias, destacamos el uso de - las técnicas estadísticas multivariantes, método ya citado al hablar de la ponderación de los indicadores, - los índices de pobreza multidimensionales, desarrollados por Bourguignon y Chavrakarty (1999) a partir de una función de valoración de los atributos, que en la práctica son equivalentes a la estrategia siguiente. - la construcción de un indicador de bienestar, indicador que puede estar medido en unidades monetarias o en otra unidad de medida de “bienestar”. Mientras que, para la última opción, se puede utilizar el análisis estadístico multivariante para construirlo, el ajuste de las rentas a los valores de los atributos es posible hacerlo mediante algún tipo de escalas de equivalencia. Existe una relación de intercambio entre la síntesis y la mejor descripción, cuestión no definida aún en la literatura. Aunque, por un lado, la reunión de todos los atributos en un único índice ofrece la ventaja de resumir la complejidad del problema de una manera simple, tal agregación provoca una pérdida de información. Puesto que el objeto de la investigación es un fenómeno multifacético, la búsqueda de una mejor descripción de dicha variedad es un objetivo importante. Sen (1987: 33) expone una razón para optar por la alternativa no agregativa: “La pasión por la agregación es muy sensata en muchos contextos, pero puede ser fútil o sin sentido en otros. ... Cuando se habla de variedad, no es necesario lograr un indicador agregado”.

Los perfiles de la privación en España: un estudio estático y dinámico

131

Nolan y Whelan (1996), Layte et al (1999, 2000), Martínez y Ruiz-Huerta (1999, 2000) y Whelan et al (2001a y b) consideran diferentes dimensiones en el análisis de la pobreza o privación, correspondientes cada una de ellas a distintos aspectos como las necesidades básicas, necesidades secundarias o condiciones de la vivienda.

4.1.1.5 La determinación de un umbral La última etapa está relacionada con el propósito de cualquier análisis de pobreza o privación: la identificación de la población pobre. Para conseguir este objetivo pueden seguirse tres caminos: 1) Establecer un umbral de renta, para cuya construcción se utiliza la información sobre el nivel de vida. Se analiza el valor de la renta bajo el cual la privación aumenta marcadamente. Un ejemplo de esta línea de trabajo es el estudio de Townsend (1979), criticado porque se basa en el supuesto de una relación estrecha entre el nivel de vida y la renta. Si dicha hipótesis no se cumple, tal y como ha sido expuesto en varios estudios ya citados en este trabajo, es difícil encontrar una clara línea de pobreza. 2) Identificar a la población pobre mediante los indicadores sobre las condiciones de vida. Es preciso, entonces, establecer un valor para el (los) índice(s) de privación que divida a la población en dos grupos. Sin embargo, esta tarea no está libre de dificultad. Por ejemplo, Mack y Lansley (1985) proponen dos condiciones para determinar el umbral (la población pobre también carece de algunos bienes no necesarios y usualmente su renta es baja) y Muffels y Fouarge (2001) optan por la media ponderada del índice de privación. 3) Identificar la población pobre mediante una combinación de los criterios de la renta monetaria y del nivel de vida. Este método se basa en las críticas, ya citadas al comienzo del capítulo, de Ringen (1987) a la hipótesis de la existencia de una fuerte asociación entre la renta monetaria y el nivel de vida para los menores valores de ambas variables. Como Martínez y Ruiz-Huerta (2000) citaron, este método ha sido aplicado

132

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

en los trabajos de Halleröd (1995) y Nolan y Whelan (1996) para identificar a los “pobres reales” y los “pobres consistentes”, respectivamente.

4.2 Un estudio sobre la privación a partir del PHOGUE En este apartado se presenta un análisis de la privación en España utilizando los microdatos del Panel de Hogares de la Unión Europea correspondientes a las únicas olas disponibles26. A lo largo de la sección se comentan distintas cuestiones sobre la base de datos, los indicadores y la metodología utilizados en este estudio así como los resultados de la aplicación de dicha metodología. Más tarde, se analiza la relación entre privación, renta así como otras variables socioeconómicas. Por último, se estudia la movilidad de los hogares respecto de la privación, utilizando los modelos dinámicos latentes expuestos en el capítulo 2 de este trabajo. Así, se pueden buscar grupos de hogares caracterizados por la persistencia en altos niveles de privación, aspecto muy destacable puesto que tan importante como el análisis estático de la pobreza es el dinámico. Asimismo, al igual que en el estudio estático de la privación se introducen variables externas para observar sus efectos, en este caso se consideran dichas variables en la movilidad de la privación. El objetivo es claro: buscar las condiciones que permiten a un hogar salir de la situación de privación transitoria y persistentemente. Un ejemplo de este estudio, aunque con un concepto estrictamente monetario de la pobreza, son los trabajos de Cantó (1996, 2000a y 2000b).

4.2.1 La base de datos Los datos utilizados en este trabajo forman parte del Panel de Hogares de la Unión Europea (PHOGUE) para las tres primeras olas (1994, 1995 y 1996). Es una encuesta longitudinal comenzada en 1994 para todos los países miembros de la Unión Europea. El objetivo perseguido por EUROSTAT al crear este panel era la comparabilidad de los 26

Son los únicos datos disponibles en el momento de finalizar el estudio empírico: diciembre de 2001.

Los perfiles de la privación en España: un estudio estático y dinámico

133

dados y los resultados entre los distintos países miembros. Para lograr dicha comparabilidad, se armonizaron el máximo posible los cuestionarios, la recogida de los datos, la codificación y las ponderaciones. Su gran ventaja reside en su carácter temporal. Al extenderse a lo largo del tiempo es posible observar, por ejemplo, los efectos producidos por la movilidad de la renta o los procesos de empobrecimiento. Además, al ser un panel, esto es, la información se refiere a las mismas unidades muestrales, se pueden determinar las trayectorias seguidas por cada uno (Hills, 1998a y 1998b) o la persistencia o transitoriedad en los estados como en los estudios de Stevens (1994 y 1999), Cantó (1996, 1998, 2000a y 200b), Fouarge y Muffels (2000) o Devicenti (2001). Además, se diseñó para recoger información detallada sobre la renta de cada miembro del hogar así como otros aspectos importantes relativos a las características materiales y demográficas de los hogares. Este contenido hace que sea preferible a la Encuesta de Presupuestos Familiares para realizar estudios como el que nos ocupa. La razón es la inclusión de algunas variables válidas para analizar la pobreza e incluso la exclusión social. A pesar de las ventajas citadas arriba, esta base de datos presenta algunos inconvenientes. No aparece ninguna información sobre el gasto de consumo del hogar, y, por tanto, no se puede completar la descripción obtenida mediante la renta y las condiciones de vida. Por ejemplo, si se conocieran los patrones de consumo, se podría eliminar la influencia de la estructura de preferencias sobre las respuestas a algunas preguntas sobre la capacidad económica. Asimismo, la información sobre la situación económica y las condiciones de vida sólo se refiere a la capacidad de adquirir o realizar respectivamente el bien o la actividad y no mide cuántas veces se adquiere o realiza. Para los años considerados en este estudio, el panel ha experimentado cambios en su composición. Los tamaños muestrales son 7206, 6522 y 6268 para cada uno de los años. Puesto que en el análisis posterior de la movilidad se requiere un panel completo, se ha

134

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

construido uno a partir de los tres primeros ciclos considerando sólo aquellos hogares que se han mantenido en todos los períodos. Del total de 7641 hogares que al menos son encuestados un año, una vez aplicada la restricción anterior, se obtiene un panel con 5728 observaciones. En otras palabras, se mantienen el 79,49% de los hogares, es decir, el desgaste del panel asciende al 20,51%.

4.2.2 La construcción de los indicadores de la privación En el apartado anterior, se comenta que una de las ventajas del PHOGUE es la inclusión de algunas variables relativas a la situación de los hogares que permiten completar la información proporcionada por la renta. Entre ellas, podemos citar la capacidad de satisfacer una serie de necesidades o adquirir determinados bienes, las dificultades en diversos pagos como los de vivienda o las condiciones de la misma. Creemos necesario realizar algunos comentarios antes de exponer la metodología empleada para la obtención de los grupos de hogares según su nivel de privación. a) Para evitar los efectos producidos por la arbitrariedad al elegir las variables indicadoras se utilizará un criterio derivado del método estadístico multivariante empleado en este trabajo, el análisis de clases latentes. Así, se consideran aquellos atributos que dividen a la población en grupos homogéneos y si una variable parece presentar una distribución parecida en los subgrupos según el nivel de vida o privación, es eliminada del conjunto de atributos indicadores. b) A diferencia de otros estudios sobre la privación y siguiendo a Martínez y Ruiz Huerta (1999, 2000), no se consideran aspectos como la salud, las relaciones sociales o la situación laboral. Se excluyen debido a la consideración de la pobreza o la privación como conceptos relacionados con el nivel de vida y los recursos y los aspectos citados anteriormente están más ligados al concepto más general de “exclusión social”. c) Se sigue el criterio de “ausencia forzosa” (Mack y Lansley, 1985) para determinar qué se entiende por privación en cada variable. En consecuencia, solamente se considera la presencia de la privación en una variable cuando la ausencia del atributo se deba a la

Los perfiles de la privación en España: un estudio estático y dinámico

135

falta de recursos. Esta información sólo aparece en el PHOGUE relativa a la posesión de ciertos bienes duraderos y a la capacidad de realizar diversas actividades. Sin embargo, para otras variables no se posee dicha información27. Tampoco es posible utilizar un criterio “consensuado” como el de Halleröd puesto que no se recoge en el PHOGUE la información sobre la percepción como necesidad de un bien o actividad. d) En nuestro estudio se consideran distintos aspectos de la privación al igual que en las referencias citadas en el apartado 1.1.5 de este capítulo como las condiciones de la vivienda, las necesidades básicas o los bienes duraderos. Aclaradas estas cuestiones, es posible plantear la metodología utilizada en este trabajo. El objetivo pretendido es la identificación de distintos grupos en la población española según su nivel de privación. Para lograr esta identificación y resumir la información recogida por los indicadores seleccionados se emplea un método estadístico multivariante, el análisis de clases latentes expuesto en el segundo capítulo. Se elige esta técnica porque es la más adecuada para el objetivo perseguido, encontrar grupos homogéneos en la población respecto de una variable no observable, y el tipo de variables indicadoras, categóricas. Para seleccionar las variables indicadoras, se partió de un conjunto de 33 cuestiones relativas a la situación económica, las condiciones de las viviendas y la posesión de algunos bienes duraderos por parte de los hogares. La gran dimensión de la tabla por analizar provocó la imposibilidad de estimar ningún modelo. En consecuencia, se optó por realizar, en primer lugar, un análisis latente sectorial y, una vez, determinados los grupos latentes para cada faceta del problema, estimar una variable latente conjunta que correspondería con un concepto teórico de “privación general”. Es decir, se seguirá un proceso bietápico28 para la determinación de la privación: privación sectorial y, después, privación general. 27

Por ejemplo, al preguntar al hogar si dispone de agua caliente, no se diferencia entre la ausencia por

no poder permitírselo o por preferirlo así. 28

El análisis se ha realizado mediante el programa lEM (Vermunt, 1997).

136

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

4.2.3 Las diferentes facetas de la privación Algunos autores como Layte et al. (1999) o Whelan et al (2001a y b) consideran la situación económica del hogar y a la posesión de bienes duraderos, llamándolas “necesidades básicas” y “necesidades secundarias”, respectivamente, y, además, establecen una división en las condiciones de la vivienda, teniendo en cuenta, por un lado, la calidad del entorno (contaminación, ruidos, inseguridad ciudadana...) y, por el otro, la calidad física de la vivienda (falta de luz, goteras, grietas, falta de espacio...). Sin embargo, el estudio empírico ha mostrado que las características del entorno no parecen discriminar entre los hogares de nuestra muestra. En consecuencia, dichas variables no se han considerado en nuestro estudio. Por otro lado, Martínez y Ruiz-Huerta (1999, 2000) a partir de algunas variables relacionadas con la situación económica y la posesión de bienes duraderos construyeron una dimensión más de la privación, la relacionada con el estilo de vida. En nuestro caso, un estudio exploratorio inicial mostró que las variables relacionadas con la privación podrían agruparse en tres dimensiones: necesidades básicas, calidad de la vivienda y necesidades secundarias o estilo de vida. Ésta última es una combinación de algunas variables relacionadas con la situación económica y otras con la posesión de algunos bienes duraderos. Una vez decidida la consideración de estos tres aspectos, se exponen las variables contempladas en cada uno de ellos, seleccionadas tras comprobar su capacidad de discriminar entre situaciones distintas. • Necesidad básica: incluye no permitirse una calefacción adecuada, no permitirse la

compra de prendas de vestir nuevas, no permitirse una comida de carne o pescado al menos cada dos días, no permitirse invitar a una copa o a una comida en el hogar al

Los perfiles de la privación en España: un estudio estático y dinámico

137

menos una vez al mes, tener retrasos en pagos ordinarios29, poseer un automóvil y teléfono. Mientras que las cuatro primeras variables miden la capacidad del hogar para hacer frente a esas necesidades, no su satisfacción, en las dos últimas se ha elegido como indicador la ausencia la incapacidad de permitirse poseer tales bienes y no la ausencia por otros motivos, intentando así reducir el efecto de la estructura de preferencias sobre las respuestas. • Condiciones de la vivienda: entre ellas, se considera la ausencia de una cocina

independiente, la ausencia de instalación fija de baño o ducha, la presencia de inodoro con agua corriente en el interior de la vivienda, la ausencia de agua corriente caliente y la ausencia de grietas o humedades30. Estas variables sólo reflejan la ausencia o presencia de dichas características, no la capacidad de evitar su ausencia o presencia. • Necesidad secundaria o estilo de vida: entre las variables contempladas en esta

dimensión, se cuentan no permitirse vacaciones pagadas fuera de casa al menos una semana al año, no permitirse la renovación parcial del mobiliario, poseer un televisor en color, vídeo, microondas y lavavajillas. De nuevo, se deben realizar las precisiones expuestas al hablar de la privación o necesidad básica puesto que se presentan los mismos tipos de variables. Sin embargo, se diferencia de la dimensión antes citada al depender de capacidades y bienes más relacionados con el estilo de vida que con la subsistencia. Llegados a este punto, cabe mostrar los modelos referidos a cada dimensión31.

29

Se ha considerado que existe un retraso en los pagos ordinarios cuando se presenta al menos una de

las siguientes circunstancias: retrasos en el pago del alquiler de la vivienda, retrasos en la devolución de la hipoteca, retrasos en el pago de suministros o retrasos en el pago de compras aplazadas. 30

Ésta última es también una variable compuesta que computa la presencia de tales problemas si

existe uno de los siguientes: goteras, humedades o podredumbre en suelos o ventanas de madera. 31

Este análisis empírico se realiza para el año 1994 y se extenderá a los años siguientes. Así se podrá

analizar la evolución de la privación.

138

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

4.2.3.1 Privación básica

El análisis de los contrastes de la calidad del ajuste de los distintos modelos que se pueden considerar manifiesta, en primer lugar, que la hipótesis de la independencia de las variables debe rechazarse.

Tabla 4.1. Modelos latentes para la privación básica Modelo Independencia Dos clases Tres clases Cuatro clases Cinco clases

L2 3607,4542 555,3101 201,0944 135,9809 114,8330

Prob. 0,0000 0,0000 0,0000 0,0046 0,0290

G.L. 120 112 104 96 88

BIC 2569,0796 -413,8395 -698,8303 -694,7188 -646,6417

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Aunque podría objetarse a la vista de esta tabla que ninguno de los modelos presentados es lo bastante significativo como para ser aceptado, debemos recordar la cuestión del contraste de los modelos ya expuesta en capítulos anteriores de este trabajo. Recordemos que, cuando estamos en presencia de un tamaño muestral elevado, pequeñas diferencias “relativas” sumadas suponen una gran diferencia “absoluta” y, por tanto, debe rechazarse el modelo. En consecuencia, se recomienda utilizar el contraste BIC en tal situación. Según este contraste, debemos aceptar la presencia de tres grupos distintos en la población para la privación básica. Cabe comentar antes del análisis pormenorizado de cada clase que la variable referida a los retrasos en los pagos presenta como categoría modal la inexistencia de éstos. La diferencia reside en las probabilidades, puesto que la clase con mayor privación presenta la mayor probabilidad para la categoría “existencia de retrasos”.

Los perfiles de la privación en España: un estudio estático y dinámico

139

Tabla 4.2. Las probabilidades latentes y condicionadas para la privación básica latente Clases Variable observada 1 2 3 32 HF003 1 0,0724 0,0935 0,6675 2 0,9276 0,9065 0,3325 HF006 1 0,2234 0,8574 0,9862 2 0,7766 0,1426 0,0138 HF007 1 0,6117 0,9796 0,9999 2 0,3883 0,0204 0,0001 HF008 1 0,1252 0,7781 0,9755 2 0,8748 0,2219 0,0245 HF010x 1 0,3172 0,1248 0,0283 2 0,6828 0,8752 0,9717 HB001 1 0,4943 0,7196 0,9636 2 0,5057 0,2804 0,0364 HB006 1 0,6432 0,8136 0,9944 2 0,3568 0,1864 0,0056 Probabilidad de clase latente 0,0904 0,3495 0,5601 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

El grupo caracterizado por una mayor privación comprende al 9,04% de la población. Son hogares que sólo pueden hacer frente a la necesidad de hacer una comida de carne o pescado al menos cada dos días y pueden poseer teléfono. Además, se estima que no son capaces de afrontar el resto de las necesidades. En el otro extremo se sitúa el 56,01% de los hogares, los cuales tienen la capacidad de satisfacer todas las necesidades contempladas. Se podría decir que son de “baja privación” más que de “alto nivel de vida”, ya que no se debe olvidar que sólo se contempla la posibilidad de satisfacer una necesidad, no la satisfacción real y tampoco la extensión de la satisfacción. Por ejemplo, la compra de prendas de vestir nuevas no refleja el precio o calidad de éstas, sólo la capacidad de adquirirlas. Finalmente, el 34,95% de las familias pueden hacer frente a la mayoría de las necesidades, excepto la capacidad de mantener caliente el hogar. La diferencia con la clase comentada en el párrafo anterior no reside únicamente en el hecho antes

32

Para el significado de los nombres y la codificación de las variables, remitimos al lector al Anexo 1.

140

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

comentado, sino también en las probabilidades condicionadas. En este caso, aunque no mayoritarias, las probabilidades condicionadas de las respectivas incapacidades son mayores que la clase de “baja privación”. Esta clase puede calificarse como “privación ligera”al corresponderse con una situación intermedia. 4.2.3.2 Vivienda

De nuevo, se rechaza la independencia de las variables y se acepta la hipótesis de la existencia de tres grupos diferenciados en la población. El contraste utilizado para llegar a tal conclusión es el BIC por razones ya expuestas.

Tabla 4.3. Modelos latentes para la privación de la vivienda Modelo Independencia Dos clases Tres clases Cuatro clases Cinco clases

L2 1380,5271 78,2951 22,7893 22,7890 19,5475

Prob. 0,0000 0,0000 0,0638 0,0036 0,0001

G.L. 26 20 14 8 2

BIC 1155,5459 -94,7674 -98,3544 -46,4359 2,2413

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

El estudio de las probabilidades latentes muestra que la situación mayoritaria de los hogares españoles es la buena calidad de la vivienda, dato que concuerda con trabajos anteriores sobre privación en España ya citados. El 86,87% de los hogares, los que pertenecen a la clase 3, no presentan privación en ningún indicador. Disponen de cocina independiente, de instalación fija de baño o ducha, de inodoro en el interior de la vivienda así como de agua caliente. Asimismo, residen en una vivienda libre de humedades, variable que indica que el hogar no tiene goteras, humedades o podredumbre en suelos o ventanas de madera. Por otro lado, se estima que la clase caracterizada por el mayor nivel de privación es muy pequeña, apenas el 2%. Son hogares que, excepto la cocina independiente, no disponen del resto de la dotación considerada. Aún más, la probabilidad de la ausencia de la cocina independiente es la más elevada en este grupo. Por último, estos hogares

Los perfiles de la privación en España: un estudio estático y dinámico

141

residen en viviendas con goteras, grietas o humedades, podredumbre en suelos o ventanas de madera.

Tabla 4.4. Las probabilidades latentes y condicionadas para la privación latente de la vivienda Clases Variable observada 1 2 3 HA008 1 0,7423 0,9453 0,9942 2 0,2577 0,0547 0,0058 HA009 1 0,0000 0,9733 1,0000 2 1,0000 0,0267 0,0000 HA010 1 0,4522 0,9554 1,0000 2 0,5478 0,0446 0,0000 HA011 1 0,1492 0,8265 0,9928 2 0,8508 0,1735 0,0072 HA020X 1 0,8053 0,6773 0,2645 2 0,1947 0,3227 0,7335 Probabilidad de clase latente 0,0213 0,1099 0,8687 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

El último grupo que comentar, aunque algo mayor (un 10,99%), es también reducido. Poseen niveles de privación similares al primer tipo ya que se caracterizan por la satisfacción de todas las condiciones de la vivienda, excepto la residencia en un hogar libre de humedades. 4.2.3.3 Privación secundaria

El análisis de esta dimensión revela el rechazo de la hipótesis de independencia como hasta ahora. No obstante, la elección del mejor modelo es más complicada. Aunque, según el contraste BIC, debería elegirse el modelo que contempla cuatro clases ya que presenta el menor valor, la mejor opción consiste en la selección del modelo con tres clases.

142

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.5. Modelos latentes para la privación secundaria Modelo Independencia Dos clases Tres clases Cuatro clases Cinco clases

L2 9448,3832 1397.1209 282,8417 117.5902 108,0737

Prob. 0,0000 0,0000 0,0000 0,0000 0,0000

G.L. 57 50 43 36 29

BIC 8955,1553 964,4648 -89,2426 -193,9222 -142,8669

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Esta decisión se basa en el examen de las probabilidades condicionadas y latentes de ambos modelos. Dos de las clases del modelo con cuatro clases acogen a hogares con similares características, esto es, se estima que la ausencia o presencia de los bienes o capacidades es la misma en ambas. De hecho, la suma de las probabilidades latentes es prácticamente idéntica al valor de dicha probabilidad para la clase que refleja el mismo fenómeno en el modelo con 3 clases. Únicamente se diferencian ligeramente en los valores de las probabilidades condicionadas. Puesto que el principal objetivo de este trabajo es encontrar grupos distintos en la población, consideramos que es preferible seleccionar el modelo con tres clases.

Tabla 4.6. Las probabilidades latentes y condicionadas para la privación latente secundaria Clases Variable observada 1 2 3 HF004 1 0,1213 0,1787 0,9089 2 0,8787 0,8213 0,0911 HF005 1 0,1047 0,1092 0,7865 2 0,8953 0,8908 0,2135 HB002 1 0,9458 0,9959 0,9999 2 0,0542 0,0041 0,0001 HB003 1 0,4162 0,9482 0,9967 2 0,5838 0,0518 0,0033 HB004 1 0,0555 0,9762 0,9962 2 0,9945 0,0238 0,0038 HB005 1 0,0338 0,7765 0,9685 2 0,9662 0,2235 0,0315 Probabilidad de clase latente 0,2824 0,3133 0,4044 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Los perfiles de la privación en España: un estudio estático y dinámico

143

El rasgo principal de este modelo es la paridad de los porcentajes de pertenencia a cada una de las clases latentes. La razón de esta igualdad reside en el carácter de esta dimensión de la privación. No se refiere a necesidades básicas o de subsistencia, sino a cuestiones relacionadas con el estilo de vida como poder disfrutar de una semana de vacaciones pagadas o disponer de lavavajillas. El grupo menor, formado por un 28,24% de los hogares, presenta un mayor nivel de privación. Excepto para la disponibilidad de un televisor en color, no pueden hacer frente al resto de las necesidades. Por otro lado, el 40,44% de las familias pertenece a la clase con menor privación, ya que pueden satisfacer las necesidades contempladas y permitirse la posesión de todos los bienes considerados. Es decir, los poseen o no los tienen debido a otros motivos diferentes a la incapacidad. En este caso, podemos hablar de hogares con un mayor nivel de vida y no de privación por las razones antes citadas. La última clase, compuesta por el 31,33%, se caracteriza por no poder afrontar las necesidades relativas a las vacaciones y el mobiliario, pudiendo hacer frente a la posesión de los bienes duraderos. Por tanto, se podría calificarla como “dotación media”.

4.2.4 La privación general o conjunta Una vez estudiadas las diferentes dimensiones, el siguiente paso en el estudio consiste en conjugarlas e identificar así distintos grupos en la población para este concepto global. Ha sido comentado anteriormente que la gran dimensión de la tabla conjunta hace imposible la estimación de un modelo estructural donde se contemplen todas las variables observadas, las latentes de primer orden y la latente de orden superior. Entonces, se hace necesario asignar en primer lugar cada una de las celdas de las distribuciones multidimensionales a las distintas clases latentes según el criterio de la probabilidad modal. Es decir, conocidas las probabilidades latentes y las probabilidades

144

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

de las variables observadas condicionadas a las clases latentes, se puede calcular, mediante el teorema de Bayes, las probabilidades de pertenecer a cada clase latente condicionadas a una combinación de variables observadas dada. Determinadas estas últimas probabilidades, se asigna cada combinación observada a la clase latente cuya probabilidad condicionada sea mayor. En nuestro caso, se han asignado las celdas de las distribuciones conjuntas de las variables observadas para cada dimensión de la privación a las clases correspondientes de las respectivas variables latentes. Así, en este segundo paso del análisis se trabaja con tres variables: HP001 (privación básica), HP002 (vivienda) y HP003 (privación secundaria) con tres categorías cada una, puesto que en la primera etapa del estudio se seleccionaron en cada dimensión los modelos con tres clases latentes. De nuevo, se busca la existencia de subgrupos en la población, no establecidos a priori, que presenten características homogéneas y se diferencien entre sí. El análisis de la tabla posterior muestra cómo existe algún tipo de relación entre las variables, dado que la hipótesis de independencia es rechazada. El único modelo que puede ser aceptado, utilizando el contraste BIC por las razones ya expuestas, es el que considera tres clases en la población para la privación.

Tabla 4.7. Modelos latentes para la privación conjunta Modelo Independencia Dos clases Tres clases Cuatro clases

L2 2097.9239 101,5593 9,9133 2,9615

Prob. 0,0000 0,0000 0,1284 0,0000

G.L. 20 13 6 -

BIC 1924,8614 -10,9313 -42,0054 11,6146

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Las tres clases que se han determinado, como cabría esperar, reflejan las distintas situaciones que se han manifestado a lo largo de los estudios parciales. La relación entre categorías sectoriales y categorías conjuntas es más fuerte para la privación básica que

Los perfiles de la privación en España: un estudio estático y dinámico

145

para la secundaria, hecho provocado por las diferencias en los porcentajes de las clases en cada sector. Al ser más parecidos en la dimensión secundaria, no existe una diferenciación tan clara en la categoría de un grado medio de pobreza multidimensional conjunta. El mismo motivo, los porcentajes de pertenencia, provoca que las probabilidades condicionadas en el sector de la vivienda sean mayores para la categoría “privación baja o nula”. Recordemos que se estima una probabilidad superior al 85% de pertenecer a tal categoría. Se estima que el primer grupo, formado por el 12,61% de las familias, presenta un mayor nivel de privación en las parcelas básica y secundaria, superando el 75% en ambos casos. Además, la probabilidad condicionada estimada para la categoría de “privación baja o nula” es muy próxima a cero, por lo que, en consecuencia, podemos afirmar que existe una identificación casi perfecta entre los niveles elevados de privación en la variable conjunta y las respectivas variables sectoriales.

Tabla 4.8. Las probabilidades latentes y condicionadas para la privación latente conjunta Clases Variable observada 1 2 3 HP001 1 0,7659 0,1357 0,0001 2 0,2341 0,3428 0,0293 3 0,0001 0,5215 0,9707 HP002 1 0,1124 0,0103 0,0056 2 0,1399 0,0413 0,0161 3 0,7477 0,9484 0,9783 HP003 1 0,8487 0,4543 0,0002 2 0,1513 0,4967 0,3194 3 0,0001 0,0490 0,6805 Probabilidad de clase latente 0,1261 0,3987 0,4752 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

El análisis de las frecuencias asignadas a este grupo muestra que las facetas básica y secundaria son las más importantes. Un grado elevado de privación en al menos una de ellas (categoría 1) provoca la pertenencia a la categoría 1 de la privación conjunta si en

146

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

la otra no presenta el mínimo nivel. De hecho, un hogar con privación alta en ambos sectores se encuentra en esa situación para la general incluso con un grado mínimo en la vivienda. El siguiente grupo, un 39,87% de las familias, se corresponde con un grado leve o medio de pobreza multidimensional. De nuevo, el estudio de las frecuencias asociadas permite comprobar que la dimensión “vivienda” no influye en la pertenencia a esta clase, puesto que aparecen celdas de cualquiera de sus categorías. Además, las otras dos facetas son las más importantes, puesto que esta clase recoge no sólo sus niveles intermedios, sino también aquellas frecuencias compuestas por los valores extremos de ambas, es decir, grado máximo para una y mínimo para la otra. Finalmente, la última clase, y más numerosa puesto que está compuesta por el 47.52% de los hogares, se caracteriza por unas mayores probabilidades para las categorías de menor privación en cualquiera de las dimensiones, con la consideración ya comentada relativa a la vivienda. Para la dimensión básica, la probabilidad condicionada de pertenecer a la categoría de mínima privación es prácticamente unitaria y en la faceta secundaria, presenta una probabilidad menor, aunque elevada, 68,05%. Éste último valor se debe a la mayor paridad de las probabilidades de pertenencia a las distintas clases latentes en las “necesidades secundarias”. Una vez realizado el proceso bayesiano de asignación de las frecuencias a las clases, se observa que pertenecen a esta clase aquellas celdas donde aparezca la categoría mayor para al menos una de las siguientes variables, privación básica y secundaria. En conclusión, el perfil de los hogares en situación de mayor privación general tiene como rasgo principal la presencia de niveles elevados de privación en dos de las dimensiones caracterizadas, sobre todo, en la privación básica y la secundaria. Además, la situación de la vivienda dada la amplitud de la categoría relativa a la alta calidad no discrimina entre las distintas clases de la variable conjunta.

Los perfiles de la privación en España: un estudio estático y dinámico

147

Por otro lado, las características básica y secundaria son las más importantes. De hecho, la presencia de la categoría más baja de al menos una de ellas provoca la pertenencia al grupo con mayor privación general y si aparece la categoría más alta de, como mínimo, una, se considera que se encuentra en la clase con menor privación. Finalmente, en el caso de que ocurran los dos hechos simultáneamente, estaríamos en el subgrupo de la privación ligera.

4.2.5 La relación entre la privación y la pobreza económica En la introducción de este capítulo se ha recogido la crítica de Ringen según la cual no existe una relación fuerte entre el nivel de vida y la renta. Para contrastar tal afirmación en el caso español, se analiza en este apartado la asociación entre la privación o pobreza no monetaria y la pobreza monetaria. En este punto, es necesario determinar qué definición de la renta se va a utilizar a partir de ahora, puesto que aparecen dos distintas para la renta disponible en el Panel de Hogares: la renta neta total del año anterior y la renta neta mensual del año corriente. Al igual que Tsakloglou y Papadopoulos (2002), hemos optado por el segundo a pesar de ser menos preciso que el primero. Sin embargo, presenta algunas ventajas que, en un estudio como el aquí realizado, apoyan su selección. En primer lugar, permite al investigador tener un valor de la renta referido al mismo momento que las características personales y del hogar y, además, e íntimamente relacionado con lo anterior, permite aprovechar toda la información disponible, es decir, los tres ciclos del panel. Estos puntos son importantes dado el objetivo final de este trabajo, el estudio de la evolución de la privación, entendiendo ésta como una variable latente33.

33

Los resultados del estudio tomando como renta la renta anual del año anterior difieren ligeramente

de los mostrados en adelante.

148

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

En primer lugar, se ha realizado un análisis exploratorio34 de las relaciones entre los distintos conceptos de privación utilizados, tanto sectoriales como conjunta y la renta monetaria (renta total del hogar y renta ajustada al tamaño del hogar mediante la escala de equivalencia de la OCDE corregida). Se ha optado por esta escala al ser la utilizada por EUROSTAT. En el estudio de la asociación, se utiliza el coeficiente de correlación biserial puntual para cada categoría de cada una de las variables. Los resultados son similares a los correspondientes a otros estudios sobre la privación ya citados, es decir, los valores absolutos de los coeficientes de correlación no son elevados. No obstante, en este caso, son ligeramente superiores a los expuestos en Martínez y Ruiz-Huerta (2000). Creemos que la razón de esta discrepancia reside en la diferente escala utilizada en la medición de la privación y la aplicación de una medida estadística de la correlación distinta. Respecto a los perfiles parciales, la dimensión menos relacionada con la renta, tanto total como ajustada, es la calidad de la vivienda. En consecuencia, se cumple la crítica de Ringen al uso de la renta como indicador del nivel de vida, puesto que los coeficientes de correlación son muy pequeños. Para determinar la pobreza monetaria, se sigue la definición de EUROSTAT (2000), según la cual son pobres los hogares con una renta equivalente inferior al 60% de la mediana de la renta equivalente. Aunque otros autores o estudios utilizan la renta media, en este trabajo preferimos optar por la mediana al ser más robusta respecto a los valores extremos de la distribución de la renta equivalente. No sólo se comprueba la relación entre la privación conjunta y la pobreza no monetaria, sino también para los perfiles parciales. Lógicamente, tras el análisis de la asociación entre la privación y la renta, tiene sentido esperar una baja relación entre la privación y la pobreza monetaria, ya que esta última se determina según la renta ajustada del hogar.

34

Los resultados de este análisis se muestran en el Anexo 2.

Los perfiles de la privación en España: un estudio estático y dinámico

149

Tabla 4.9. Hogares clasificados según la pobreza monetaria y la privación (%)35

1 Privación conjunta 2 3 1 Privación básica 2 3 1 Vivienda 2 3 1 Secundaria 2 3

Pobreza 1 290 (5,06) 383 (6,68) 254 (4,43) 347 (6,06) 238 (4,15) 342 (5,97) 46 (0,80) 64 (1,12) 817 (14,26) 491 (8,57) 326 (5,69) 110 (1,92)

2 402 (7,02) 1324 (23,11) 3075 (53,68) 516 (9,01) 794 (13,86) 3491 (60,95) 74 (1,29) 175 (3,05) 4552 (79,47) 1160 (20,25) 1787 (31,20) 1854 (32,37)

Fuente: Elaboración propia a partir del PHOGUE.

La aplicación del contraste ji-cuadrado de independencia de variables cualitativas muestra que no puede aceptarse dicha hipótesis de independencia. En consecuencia, es posible afirmar la existencia de asociación entre la pobreza monetaria y la privación múltiple o parcial. A pesar de la aparente contradicción entre estos resultados y las conclusiones extraídas del análisis de la correlación privación - renta, dicha contradicción no es tal porque el contraste ji-cuadrado únicamente determina si existe o no relación, no la intensidad de ésta. Es posible concluir, entonces, que ambas variables están asociadas en alguna medida. Estos resultados no se deben a la utilización de una línea de pobreza, el 60% de la renta equivalente mediana, que puede incrementar el porcentaje de hogares considerados pobres. El mismo estudio con diferentes líneas de pobreza (50% de la renta mediana y 50% de la renta media), recogidos en el Anexo 3, no presenta diferencias en la interpretación de los datos: de nuevo, se rechaza el supuesto de independencia entre las variables a pesar de que varíen las frecuencias.

35

Valores referidos al año 1994, punto de partida del análisis dinámico.

150

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Dada la tabla anterior, entonces, se podría afirmar que el 5,06% de los hogares poseen un grado elevado de privación y, al mismo tiempo, una renta inferior a la línea de pobreza. El estudio conjunto de los indicadores de pobreza basados en la renta y el nivel de vida es la solución propuesta por Ringen para resolver los problemas provocados por la medición de la pobreza mediante los ingresos únicamente. Sin embargo, como ya ha sido comentado en este capítulo, algunos autores discrepan sobre el significado de dicha situación. Mientras Halleröd califica a estos hogares como pobres verdaderos, Nolan y Whelan prefieren llamarlos pobres consistentes al encontrarse en esta situación usando ambos criterios. Creemos que este último término es más adecuado al anterior, puesto que realizamos una aproximación al fenómeno de la pobreza. Para determinar con casi total exactitud los “pobres reales” sería necesario conocer sus datos de gasto o consumo, datos no disponibles en el Panel de Hogares. Otra cuestión que es preciso referir es el posible efecto de la codificación sobre la asociación entre las variables puesto que una de ellas, la pobreza monetaria, es dicotómica, y la otra presenta tres categorías. En consecuencia, podría objetarse que la pobreza medida mediante el nivel de vida identifica a los hogares situados en un grado extremo de pobreza. No obstante, esta afirmación puede refutarse de dos maneras. Por un lado, los hogares con privación ligera presentan esta característica principalmente por poseer un grado ligero de las dimensiones “básica” y “secundaria” o presentar una privación “secundaria” elevada mientras pueden satisfacer totalmente sus necesidades básicas. Recordando las características de estas categorías, podemos afirmar que no reflejan una situación de pobreza extrema. Podríamos calificar así a los hogares con valores elevados de privación en todas y cada una de las facetas, caso que no ocurre aquí. Por el otro, el porcentaje de hogares presentes en la categoría de mayor privación conjunta es muy similar al de pobres calculado según los ingresos (una diferencia de 4 puntos en los porcentajes) y prácticamente idéntico a los obtenidos si se utilizan algunos

Los perfiles de la privación en España: un estudio estático y dinámico

151

umbrales de renta distintos como la mitad de la renta equivalente mediana o la mitad de la renta equivalente media. Tras esta aclaración, podemos citar el hecho, a nuestro juicio, destacable de la disparidad existente en los hogares considerados pobres según uno de los criterios. Es más elevado el porcentaje de hogares pobres según los ingresos y no pobres según el nivel de vida que la situación opuesta. Es decir, la información contenida en la renta no parece reflejar correctamente las condiciones de vida de estos hogares.

4.2.5.1 La relación entre la privación, la pobreza monetaria y las dificultades económicas Una vez analizada la asociación entre los ingresos y la privación, consideramos la introducción en el análisis de las dificultades económicas de los hogares, es decir, la facilidad o dificultad con que llegan a fin de mes con sus ingresos. Este fenómeno se recoge en el Panel de Hogares con una variable de 6 categorías desde la gran dificultad hasta la gran facilidad, cuya respuesta expresa la opinión del hogar. Es decir, estamos ante una variable subjetiva y no objetiva. El análisis de las relaciones entre la privación y las dificultades económicas muestra que existe una relación entre ambas, puesto que, en primer lugar, el análisis de la tabla de contingencias que recoge sus frecuencias apoya el rechazo de la hipótesis de la independencia y, además, se puede afirmar que las dos primeras categorías de la variable HF002 (mucha dificultad y dificultad) se asocian a la primera clase de la privación latente, la tercera (con cierta dificultad) con la segunda clase latente y, finalmente, las tres últimas clases (con cierta facilidad, con facilidad y con mucha facilidad) con el último grupo latente. En resumen, en los casos extremos se obtiene el resultado a priori más esperable: los hogares con peores condiciones de vida tienen dificultades para llegar a fin de mes y aquellos que llegan, al menos, con facilidad a final de mes presentan un mejor nivel de vida.

152

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Finalmente, para evitar la paradoja de Simpson referida a asociaciones espurias que esconden una independencia condicionada a otra variable, se introduce en el modelo la pobreza monetaria. Podría ocurrir que las variables antes comentadas fueran independientes dada la situación respecto a la pobreza monetaria de los hogares. El contraste de las distintas relaciones de independencia condicionada da lugar al rechazo de todos estos modelos y, por tanto, las tres variables están relacionadas. Para realizarlo, se ha aplicado el proceso iterativo de selección de modelos recogido en el programa Mim 2.3 para Windows (Edwards, 1995) que partiendo del modelo saturado contrasta la significatividad de los distintos modelos resultantes al borrar un arco. En conclusión, creemos que los datos relativos a las dificultades económicas de los hogares pueden adelantar indicios sobre la situación final de la privación dad su relación. Este hecho gana importancia a la luz de la disponibilidad de los datos: los resultados de esta pregunta son publicados antes que los correspondientes a las otras variables utilizadas en el análisis anterior de la privación.

4.2.6 Algunos determinantes de la privación Tras la determinación de los perfiles de la privación realizada en los apartados anteriores, llega el momento de desarrollar una descripción más ajustada de los hogares en tal situación. ¿Cuáles son sus rasgos? ¿Por qué se caracterizan?. Además, esta descripción permite, como sugieren Martínez y Ruiz-Huerta, la diferenciación de los pobres consistentes respecto de los hogares pobres según los ingresos. La mayoría de los estudios realizados sobre la pobreza no sólo en España, sino en el resto de los países, muestran que no afecta por igual a toda la población. Por el contrario, es posible hallar distintos grupos que, por sus características, poseen un riesgo más elevado de ser pobres que la media de la población. En consecuencia, en este apartado se analiza la incidencia de la privación y la pobreza consistente en cada subpoblación así como su riesgo de caer en una

Los perfiles de la privación en España: un estudio estático y dinámico

153

determinada categoría, esto es, se compara el grado de privación o pobreza consistente con el grado medio de la población. Para estudiar este fenómeno, en primer lugar se realiza un análisis unidimensional para cada variable y, más tarde, se efectúa un análisis multidimensional puesto que algunos de los factores considerados pueden interactuar e, incluso, pueden determinarse efectos directos de una variable sobre la privación o la pobreza consistentes e indirectos a través de otro de los factores. El primer determinante contemplado es el sexo y la edad de la persona de referencia del hogar. Según la metodología del PHOGUE, se considera como tal al cabeza de familia, pareja o miembro del hogar con más edad económicamente activo. En la base de datos original, la edad y el sexo de los individuos se recogen como dos variables distintas y se ha decidido conjugar ambas para guardar coherencia con la codificación del tipo de hogar, factor estudiado más tarde. Para comparar mejor la incidencia de cada categoría de privación en cada grupo de sexo y edad, se relaciona con la incidencia de la categoría en el conjunto de la población. Dicha relación se establece a través del cociente de ambos coeficientes de incidencia. Así, una importancia relativa superior a 100 indica una mayor incidencia de esa categoría que en el conjunto y, alternativamente, un cociente con valor inferior a 100 significa que el grupo contemplado presenta una menor incidencia. Tabla 4.10. La relación entre la privación y el sexo y edad de la persona de referencia1 Privación 2

1 Sexo y edad Varón < 30 años Varón 30 – 64 años Varón ≥ 65 años Mujer < 30 años Mujer 30 - 64 años Mujer ≥ 65 años

I 10,93 8,59 15,26 15,85 14,07 29,02

IR 90,47 71,09 126,34 131,23 116,44 240,19

Fuente: Elaboración propia a partir del PHOGUE.

I 37,21 26,13 35,00 31,10 33,18 35,27

IR 124,86 87,68 117,45 104,35 111,34 118,34

3 I 51,86 65,28 49,74 53,05 52,75 35,71

IR 89,23 112,33 85,58 91,28 90,77 61,45

154

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

1

Las celdas recogen los porcentajes de cada categoría de privación sobre las frecuencias marginales de cada categoría de sexo y edad. I: incidencia e IR: incidencia relativa.

La tabla anterior muestra que el nivel de vida más frecuente para la mayoría de las categorías es el grado más elevado, con la salvedad de los hogares cuya persona de referencia es una mujer de más de 65 años. En el otro extremo se sitúan los hogares encabezados por un varón entre 30 y 64 años, puesto que se halla la frecuencia mayor en el mayor nivel de vida. Esta cuestión apoya el análisis multivariante porque el hecho antes comentado puede estar asociado a la situación laboral. Se puede observar que el intervalo de edad se corresponde con un período amplio de la vida laboral de un individuo así como es necesario considerar la diferencia de la ocupación laboral por sexos en España, donde la ocupación femenina es menor. El estudio de la incidencia relativa confirma los comentarios antes realizados ya que se comprueba que, para cada grupo de edad, los hogares encabezados por mujeres siempre presentan situaciones de mayor privación que aquellos cuyo sustentador principal es un hombre. Además, el mayor nivel de privación es un fenómeno que afecta sobre todo a los colectivos de mayor edad de la población. Creemos que este hecho resulta interesante, puesto que a priori podría pensarse que estas subpoblaciones presentarían problemas a disminuir sus expectativas y, por tanto, ser menor la privación declarada de la real. Sin embargo, los resultados parecen indicar que este fenómeno no ha sucedido. No obstante, la comparación con la incidencia de la pobreza monetaria cambia ligeramente la situación descrita hasta ahora. En este caso, son las mujeres jóvenes, de menos de 30 años, los sustentadores principales que presentan un mayor nivel de pobreza. Además, no existen diferencias tan apreciables entre las incidencias de cada grupo y el conjunto de la población. Finalmente, no se produce el fenómeno antes comentado de la peor situación para los hogares encabezados por una mujer mayor de 65 años que, en este caso, presentan una incidencia prácticamente similar a la general.

Los perfiles de la privación en España: un estudio estático y dinámico

155

Por último, se conjugan las variables privación y pobreza para determinar la pobreza consistente, cuyas frecuencias relativas aparecen en la tabla siguiente. Los datos ponen de manifiesto que la pobreza consistente es un fenómeno eminentemente femenino para esta variable, esto es, los hogares cuyo sustentador principal es una mujer, en especial a partir de 30 años en adelante. En concreto, los hogares donde una mujer entre 30 y 64 años es la cabeza de familia presentan la mayor incidencia, hecho que no ocurre ni en la privación ni la pobreza monetaria.

Tabla 4.11. La relación entre la pobreza consistente y el sexo y edad de la persona de referencia Pobreza consistente Sexo y edad Incidencia Peso relativo Varón < 30 años 4,62 91,31 Varón 30 – 64 años 4,77 94,24 Varón ≥ 65 años 4,83 95,35 Mujer < 30 años 7,19 142,01 Mujer 30 - 64 años 8,46 167,05 Mujer ≥ 65 años 5,91 116,74 Fuente: Elaboración propia a partir del PHOGUE.

Respecto al resto de los grupos, la situación es similar a la ya comentada puesto que los hogares con un varón con menos de 65 años como individuo de referencia presenta la menor frecuencia para la pobreza consistente, algo lógico puesto que poseen la incidencia más reducida tanto para la privación elevada como la pobreza monetaria. Asimismo, dentro de los hogares encabezados por hombres, la edad tiene influencia ya que para los varones mayores de 65 años la incidencia de la pobreza consistente es mayor. Otro factor que analizar es el tipo de hogar. En este caso, la clasificación de los hogares describe hogares unipersonales, monoparentales, familias con un hijo o más, tanto menores como mayores de 16 años y, además, en algunos casos se considera la edad de los miembros del hogar.

156

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Si en lugar de considerar únicamente el sexo y la edad del sustentador principal, se contempla la edad y el número de miembros, teniendo en cuenta, además, la presencia y edad de hijos, los resultados varían levemente. Los mayores que viven solos y las familias monoparentales presentan los peores resultados, esto es, las mayores frecuencias para la privación elevada. Además, las parejas con más de dos hijos menores y las parejas sin hijos pero con un miembro con más de 65 años se sitúan en una situación también mala, pero ligeramente mejor. Tabla 4.12. La relación entre la privación y el tipo de hogar1

I 28,08 15,56 0,00

IR 232,41 128,83 0,00

Privación 2 I IR 34,77 116,68 29,96 100,54 36,67 123,04

24,00

198,66

36,00

120,80

40,00

68,83

13,85

114,68

29,47

98,89

56,68

97,52

14,69

121,56

35,49

119,09

49,83

85,73

9,83 5,80 6,45

81,39 48,01 53,40

28,54 22,97 24,19

95,76 77,08 81,18

61,63 71,23 69,35

106,04 122,56 119,33

17,05

141,17

27,13

91,04

55,81

96,04

9,38 12,36

77,63 102,32

28,62 34,31

96,05 115,12

62,00 53,33

106,68 91,77

1 Tipo de hogar Una persona ≥ 65 años Una persona 30-64 Una persona < 30 años Un adulto con algún hijo menor Un adulto con algún hijo mayor Pareja sin hijos con un miembro ≥ 65 años Pareja de adultos sin hijos Pareja con un hijo menor Pareja con dos menores Pareja con más de dos menores Pareja con al menos un hijo mayor Otros hogares

3 I 37,15 54,47 63,33

IR 63,92 93,73 108,97

Fuente: Elaboración propia a partir del PHOGUE. 1 Las celdas recogen los porcentajes de cada categoría de privación sobre las frecuencias marginales de cada tipo de hogar.

Estos resultados en parte están relacionados con los mostrados en la variable anterior. Recordemos que la edad del sustentador principal influía en la pertenencia a la clase extrema de privación: a medida que la edad era mayor, mayor era también la frecuencia de dicha clase.

Los perfiles de la privación en España: un estudio estático y dinámico

157

Si se comparan estos resultados con los relativos a la pobreza, los grupos con mayor incidencia de pobreza monetaria son prácticamente los mismos: un adulto con algún hijo menor, una pareja sin hijos donde uno de ellos es mayor de 65 años o las parejas con hijos. Entonces, se comprueba de nuevo la importancia de los hijos para situarse o no en una situación de pobreza. La razón es sencilla: a pesar de que la renta se ajusta mediante una escala de equivalencia, por muy buena que sea ésta, siempre el hogar será mayor que si no tienen hijos.

Tabla 4.13. La relación entre la pobreza consistente y el tipo de hogar Tipo de hogar Una persona ≥ 65 años Una persona 30-64 Una persona < 30 años Un adulto con algún hijo menor Un adulto con algún hijo mayor Pareja sin hijos con un miembro ≥ 65 años Pareja de adultos sin hijos Pareja con un hijo menor Pareja con dos menores Pareja con más de dos menores Pareja con al menos un hijo mayor Otros hogares

Pobreza consistente Incidencia Peso relativo 4,75 93,84 10,78 212,84 0,00 0,00 21,95 433,57 4,47 88,36 4,95 97,85 6,11 120,62 2,86 56,57 3,33 65,84 11,21 221,36 5,19 102,49 6,04 119,27

Fuente: Elaboración propia a partir del PHOGUE.

Finalmente, la pobreza consistente muestra que la edad no es tan determinante como podría pensarse de antemano. Sin embargo, la presencia de hijos cobra gran importancia puesto que los comentarios antes realizados para la pobreza monetaria pueden ser aplicados sin problemas en este caso. También se contempla la influencia del tipo de ingresos que mayoritariamente recibe el hogar. Según la información sobre la privación o el nivel de vida, los hogares cuya renta proviene principalmente de las prestaciones de desempleo y de otras prestaciones presentan las mayores frecuencias en la clase de privación más elevada y valores muy pequeños en el mayor nivel de vida. En el otro extremo, se sitúan los hogares cuya renta

158

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

procede en su mayoría del trabajo asalariado o autónomo que poseen unas frecuencias muy reducidas en la clase menor del nivel de vida. Este último hecho es muy interesante puesto que, aunque no es uno de las incidencias mayores, para la pobreza monetaria los hogares con renta procedente del trabajo autónomo presentan una incidencia mucho mayor, en concreto un 19,84%. Si se compara con el 5,65% de la clase de mayor privación, se comprueba que dichos hogares infradeclaran su renta y, por tanto, el procedimiento propuesto mejora en este caso la identificación de los hogares pobres. Tabla 4.14. La relación entre la privación y la fuente principal de ingresos del hogar1 1 Fuente de ingresos Trabajo por cuenta ajena Trabajo por cuenta propia Pensiones Prestaciones de desempleo Otras prestaciones Otros ingresos

I 7,11 5,65 18,38 29,95 26,23 15,85

IR 58,82 46,73 152,18 247,94 217,11 131,23

Privación 2 I IR 26,46 88,78 23,23 77,94 35,39 118,76 40,09 134,53 41,31 138,62 26,83 90,03

3 I 66,44 71,13 46,22 29,95 32,46 57,32

IR 114,31 122,39 79,54 51,54 55,85 98,62

Fuente: Elaboración propia a partir del PHOGUE. 1 Las celdas recogen los porcentajes de cada categoría de privación sobre las frecuencias marginales de cada fuente de ingresos.

Para el resto de las fuentes, los resultados de la pobreza monetaria confirman las conclusiones anteriores: los hogares con mayor riesgo de estar en peor situación son aquellos que no reciben su renta del trabajo, tanto por cuenta ajena como propia, sobre todo si proviene de las prestaciones de desempleo u otras prestaciones.

Los perfiles de la privación en España: un estudio estático y dinámico

159

Tabla 4.15. La relación entre la pobreza consistente y la fuente principal de ingresos del hogar Pobreza consistente Fuente de ingresos Incidencia Peso relativo Trabajo por cuenta ajena 2,91 57,50 Trabajo por cuenta propia 3,85 76,10 Pensiones 5,47 108,06 Prestaciones de desempleo 23,30 460,13 Otras prestaciones 19,14 378,06 Otros ingresos 10,81 213,53 Fuente: Elaboración propia a partir del PHOGUE.

La pobreza consistente confirma lo dicho anteriormente respecto al trabajo autónomo puesto que presentan la menor incidencia relativa. Esta discrepancia, además de la infravaloración citada arriba, puede deberse a la dificultad del cálculo de la renta y el estudio de las condiciones de vida puede arrojar más luz sobre la verdadera situación. Destaca el hecho de que las pensiones no llevan a una situación de pobreza peor que otras prestaciones sociales debido al diferente tipo de hogar que generalmente soporta cada una de las situaciones. Usualmente los hogares que viven a partir de los ingresos recibidos por una prestación de desempleo u otra prestación social son mayores que los que reciben su renta procedente de una pensión. Un factor muy relacionado con el anterior es la situación laboral de la persona de referencia. En el estudio anterior, la incidencia relativa tanto para la privación como la pobreza monetaria o la pobreza consistente era la mayor para los hogares cuya renta proviene principalmente de los subsidios y prestaciones de desempleo. En consecuencia, cabe esperar que un hogar con un individuo de referencia en situación de desempleo presente con mayor frecuencia una situación de privación o pobreza. En lugar de simplemente considerar la situación instantánea en el momento de la encuesta, se han creado distintas categorías, siguiendo a Martínez y Ruiz-Huerta (1999), introduciendo la historia laboral del individuo durante los últimos cinco años. Así, se considera como ocupado estable a aquel individuo ocupado en la entrevista que nunca ha estado en paro o sólo ha tenido un episodio de corta duración, historia

160

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

leve de paro (tanto ocupado como parado) a la experiencia de dos períodos de paro de corta duración o uno de larga duración y, por último, historia fuerte de paro a la presencia de tres o más episodios de paro de corta duración o dos o más de larga duración.

Tabla 4.16. La relación entre la privación y la situación laboral de la persona de referencia1 Privación 1 2 3 Situación laboral I IR I IR I IR Ocupado estable 4,88 40,43 22,17 74,41 72,94 125,51 Ocupado, historia leve de paro 8,80 72,84 34,00 114,09 57,20 98,42 Ocupado, historia fuerte de paro 15,83 131,03 44,40 148,99 39,77 68,43 Parado, previamente ocupado 16,67 137,96 50,00 167,78 33,33 57,35 Parado, historia leve de paro 21,74 179,94 35,14 117,93 43,12 74,19 Parado, historia fuerte de paro 30,23 250,25 42,79 143,59 26,98 46,42 Jubilado, retirado 16,98 140,56 34,86 116,96 48,16 82,87 Tareas del hogar 29,20 241,73 36,87 123,73 33,92 58,37 Otros inactivos 23,05 190,82 41,12 137,99 35,83 61,64 Fuente: Elaboración propia a partir del PHOGUE. 1 Las celdas recogen los porcentajes de cada categoría de privación sobre las frecuencias marginales de cada categoría laboral.

Como se planteaba al comienzo del análisis, la situación de desempleo es muy importante a la hora de situar a un hogar en una determinada clase de nivel de vida. Los mayores valores de la incidencia relativa del grupo de mayor privación se encuentran en los hogares con individuo de referencia parado con historia leve o fuerte de paro. Asimismo, la transitoriedad de la situación laboral cobra gran importancia porque otras categorías con alta incidencia corresponden al parado previamente ocupado y al ocupado con historia fuerte de paro. Además de las situaciones antes comentadas, si el sustentador principal se dedica a realizar tareas del hogar o se puede calificar como otros inactivos el hogar tiene una frecuencia de la clase de mayor privación prácticamente similar a los casos anteriores.

Los perfiles de la privación en España: un estudio estático y dinámico

161

Los datos, tanto para la pobreza monetaria como para la pobreza consistente, apoyan los comentarios anteriores. De nuevo, los parados con historia leve o fuerte de paro, los otros inactivos y los individuos dedicados a tareas del hogar encabezan hogares con mayor probabilidad de ser pobres según cualquiera de los criterios considerados.

Tabla 4.17. La relación entre la pobreza consistente y la situación laboral de la persona de referencia Pobres consistentes Situación laboral Incidencia Peso relativo Ocupado estable 1,70 33,66 Ocupado, historia leve de paro 3,73 73,76 Ocupado, historia fuerte de paro 5,28 104,38 Parado, previamente ocupado 20,00 395,03 Parado, historia leve de paro 19,48 384,77 Parado, historia fuerte de paro 26,47 522,84 Jubilado, retirado 5,22 103,20 Tareas del hogar 8,65 170,93 Otros inactivos 15,88 313,75 Fuente: Elaboración propia a partir del PHOGUE.

En resumen, podemos decir que la experiencia de desempleo, tanto leve como fuerte es el factor determinante para clasificar a un hogar como pobre, puesto que la mitad de los hogares encabezados por un parado con un historial fuerte de paro están en dicha situación así como más del 40% de los hogares cuyo cabeza de familia está desempleado y tiene una experiencia leve de dicha situación. Para terminar con este análisis descriptivo, pasamos a estudiar la influencia del nivel educativo. De nuevo, puede plantearse una hipótesis a priori, puesto que es lógico esperar que a medida que el nivel de estudios aumente, la privación sea menor.

162

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.18. La relación entre la privación y el nivel educativo de la persona de referencia1 Privación 1 2 3 Nivel educativo I IR I IR I IR Sin estudios 30,87 255,49 37,54 125,97 31,60 54,36 Estudios primarios 13,02 107,76 36,56 122,67 50,42 86,76 E. Secundaria (nivel 1) 8,11 67,11 30,43 102,13 61,46 105,75 Formación profesional I 4,12 34,10 22,47 75,41 73,41 126,31 Formación profesional II y 3 4,05 33,51 20,24 67,93 75,71 130,27 E. Secundaria (nivel 2) 2,31 19,13 19,12 64,15 78,57 135,19 Título universitario (1 ciclo) 0,95 7,86 11,08 37,17 87,97 151,37 Título universitario (2 ciclo) 0,00 0,00 8,67 29,10 91,33 157,14 Fuente: Elaboración propia a partir del PHOGUE. 1 Las celdas recogen los porcentajes de cada categoría de privación sobre las frecuencias marginales de cada nivel educativo.

El supuesto arriba expuesto se corrobora por los datos. La incidencia en los dos primeros grados académicos del sustentador principal, sin estudios y estudios primarios, de la clase de mayor privación es muy elevada. De hecho, la incidencia de cada clase latente para dichas categorías es casi la misma, hecho que, dado el diferente tamaño de los grupos latentes, provoca que la incidencia relativa de la clase de mayor privación, sobre todo para los analfabetos, es muy elevada, esto es, la incidencia absoluta es más del doble del valor para el conjunto de la población. Por otro lado, el hecho de haber logrado un título universitario está muy relacionado con un mayor nivel de vida, es decir, con unas mejoras condiciones de vida.

Los perfiles de la privación en España: un estudio estático y dinámico

163

Tabla 4.19. La relación entre la pobreza consistente y el nivel educativo de la persona de referencia Pobreza consistente Nivel educativo Incidencia Peso relativo Sin estudios 14,99 296,04 Estudios primarios 5,62 110,95 E, Secundaria (nivel 1) 3,64 71,95 Formación profesional I 1,12 22,19 Formación profesional II y 3 0,81 15,99 E, Secundaria (nivel 2) 0,21 4,15 Título universitario (1 ciclo) 0,63 12,50 Título universitario (2 ciclo) 0,00 0,00 Fuente: Elaboración propia a partir del PHOGUE.

A pesar de que los datos de la pobreza según los ingresos reflejan unas diferencias en las incidencias no tan elevadas como en las condiciones de vida, la situación es muy similar y, en consecuencia, al conjugar ambos criterios los resultados son prácticamente idénticos. Una vez realizado este análisis descriptivo univariante, creemos necesario aplicar un análisis multivariante, puesto que se han encontrado factores que parecen interactuar como las fuentes de ingresos y la situación laboral. Puede ocurrir que algunas de las relaciones encontradas no sean asociaciones directas, sino indirectas a través de otros de los factores considerados o que en realidad no exista ningún efecto condicionado a la presencia de una determinada categoría de otra variable. Para determinar tales asociaciones, se utiliza un modelo log-lineal jerárquico. A partir del modelo saturado, el que considera que todas las variables están relacionadas mediante un término de interacción del mayor orden posible, se obtiene el modelo más sencillo por un proceso de eliminación hacia atrás. Según el siguiente cuadro, la fuente de ingresos y el tipo de hogar, presentan efectos conjuntos sobre la privación, puesto que el modelo contempla un término de interacción de tercer orden para ellos.

164

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Cuadro 4.1. Relaciones entre los determinantes de la privación HD006_4*HI001_4*PRIV_4 HD006_4*HI001_4*PD003X_4 HI001_4*EMPLEO_4*PT022_4 HD006_4*EMPLEO_4 HD006_4*PT022_4 PRIV_4*EMPLEO_4 PRIV_4*PT022_4 PRIV_4*PD003X_4 PD003X_4*PT022_4 EMPLEO_4*PD003X_4 Fuente: Elaboración propia a partir de los resultados del programa SPSS

Por otro lado, la privación está relacionada directamente con el sexo y la edad, la situación laboral y el nivel educativo de la persona de referencia. Sin embargo, el rasgo más interesante del modelo anterior no es lo expuesto hasta ahora, ya que prácticamente es igual a lo comentado en el análisis univariante, sino la posibilidad de que las variables externas se relacionen entre sí. Por ejemplo, podemos observar que el sexo y la edad del sustentador principal afecta directamente a la privación, pero también indirectamente a través del tipo de hogar, la situación laboral o el nivel educativo, ya que se existe una relación entre estas últimas y el sexo y la edad del individuo de referencia y, además, entre ellas y la privación. Sin entrar en prolijos detalles, puesto que el número de parámetros es muy elevado, las relaciones existentes entre las variables se pueden resumir en36:

36

Recordamos que los parámetros de un modelo log-lineal distintos de cero significan una variación

de las frecuencias estimadas en cada celda respecto de las esperadas si las variables fueran independientes. En esta exposición, sólo se refieren los valores positivos, es decir, las asociaciones directas.

Los perfiles de la privación en España: un estudio estático y dinámico

i.

165

El análisis de los parámetros de asociación entre la fuente principal de ingresos del hogar y la situación laboral de la persona de referencia muestra que el trabajo por cuenta ajena se relaciona con individuos ocupados (tanto estables como con paro anterior) y con parados con historia leve de paro. Por otro lado, otros ingresos como aporte principal de ingresos se asocia con la mayoría de las situaciones laborales, excepto las que contemplan ocupación. Finalmente, las prestaciones por desempleo están ligadas a situaciones de paro laboral, las pensiones a una jubilación y el trabajo autónomo a una ocupación estable.

ii.

El trabajo tanto por cuenta ajena como propia está relacionado con hogares cuya persona de referencia es un varón de cualquier edad, aunque una edad menor de 30 años no se asocia con el trabajo autónomo. Además, las prestaciones por desempleo son más frecuentes si coinciden con un varón entre 30 y 65 años y una mujer con menos de 30 años o más de 65. Finalmente, no existen diferencias importantes entre los hogares para el resto de los orígenes de ingresos para el hogar.

iii.

Si se analiza la asociación entre la situación laboral y el sexo y la edad del individuo de referencia, se observa una clara diferenciación entre los sexos, puesto que los hogares con persona de referencia mujer tienen una mayor frecuencia para su pertenencia al grupo de individuos dedicados a tareas del hogar y al de otros inactivos. Como cabría esperar a priori, los varones entre 30 y 65 años se asocian principalmente con la estabilidad tanto en la ocupación como en el desempleo (ocupado estable y parado con historia fuerte de paro). Los hogares con hombres menores de 30 años y mujeres entre 30 y 65 años, además de relacionarse con la ocupación estable, lo hacen con las situaciones de parado previamente ocupado y con historial leve y los primeros, además, con la ocupación con historia breve de paro.

166

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

iv.

Por un lado, los niveles educativos altos se relacionan con los otros ingresos como principal fuente de ingresos del hogar y, por el otro, el trabajo asalariado y autónomo con niveles educativos bajos y medios. Además, se espera que la prestación por desempleo esté asociada con los niveles más bajos así como con un título universitario de primer ciclo. Este hecho aparentemente llamativo se puede deber en parte a la definición de persona de referencia, ya que pueden existir hogares donde el único individuo económicamente activo sea un joven titulado.

v.

La relación entre la situación laboral y el grado educativo del individuo de referencia también es la esperada, puesto que las situaciones laborales más estables se corresponden con los mayores niveles educativos, mientras que la menor educación está asociada con situaciones de desempleo leve o fuerte así como la dedicación a tareas del hogar.

vi.

En lo que respecta a la asociación grado educativo – sexo y edad del sujeto de referencia, es preciso decir que se espera el nivel educativo de los individuos más jóvenes se encuentre entre los estudios primarios y sin estudios, por un lado, y los títulos universitarios, por el otro. Esto es, si el cabeza de familia tiene menos de 30 años, es más probable que haya llegado a cualquiera de los niveles de enseñanza secundaria o formación profesional. Por el contrario, la presencia de la categoría “sin estudios” es más frecuente en los individuos mayores de 64 años. Finalmente, los mejores niveles educativos están más relacionados con las categorías intermedias de edad y con el sexo femenino para una categoría de edad dada.

Por último, cabe comentar los efectos conjuntos sobre la privación presentados en el cuadro 4.1. vii.

El tipo de hogar y la fuente de ingresos están asociados con el mayor grado de privación en caso de que se produzcan las siguientes circunstancias: una persona de 65 años o más con trabajo por cuenta ajena, una persona de edad

Los perfiles de la privación en España: un estudio estático y dinámico

167

de 30 a 64 con trabajo autónomo u otras prestaciones sociales, un adulto con al menos un hijo menor y trabajo por cuenta ajena o pensiones contributivas y no contributivas, un adulto con al menos un hijo mayor y trabajo por cuenta propia o prestación de desempleo, una pareja sin hijos donde un miembro es mayor de 65 y trabajo asalariado o prestaciones por desempleo, una pareja sin hijos y pensiones contributivas y no contributivas, otras prestaciones u otros ingresos, una pareja con un hijo menor y trabajo por cuenta propia, prestaciones de desempleo u otras prestaciones, una pareja con dos hijos menores y prestaciones de desempleo, otras prestaciones u otros ingresos, una pareja con al menos tres hijos menores y trabajo por cuenta ajena, trabajo autónomo, prestaciones de desempleo u otras prestaciones, una pareja con al menos un hijo mayor y trabajo por cuenta ajena o propia, pensiones u otras prestaciones y otros hogares y trabajo por cuenta ajena, prestaciones de desempleo y otras prestaciones. En resumen, si la fuente de ingresos no es el trabajo por cuenta ajena produce, por lo general, un efecto adicional junto al tipo de hogar. Por otro lado, no parece producir mayor influencia el hecho de tener hijos y sí el ser una familia monoparental o unipersonal. En resumen, se ha presentado un panorama de las relaciones, tanto univariantes como multivariantes, entre la privación y un conjunto de variables de los hogares. El análisis múltiple ha mostrado la existencia de una interrelación entre las variables consideradas así como la posibilidad de que aumente el riesgo de estar en una situación de privación elevada si coinciden dos categorías de algunas de las variables.

168

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

4.3. Un análisis temporal de la privación La creciente disponibilidad de datos de panel para la mayoría de los países desarrollado ha impulsado los estudios sobre la evolución de la pobreza, dado que contienen amplia información sobre los mismos hogares e individuos a lo largo de un período de tiempo. Así, el seguimiento de los individuos u hogares durante un conjunto de años (división temporal más utilizada) permite descubrir la persistencia en determinadas situaciones, la movilidad entre distintas categorías o, aspectos muy importantes a nuestro juicio, la influencia de algunas variables externas sobre la pobreza y el proceso paulatino de empobrecimiento. Se siguen dos líneas de investigación distintas en el análisis dinámico de la pobreza37. Mientras que, por un lado, se estudian las observaciones consecutivas dado un estado, siguiendo a Bane y Ellwood (1986), por el otro, se distingue entre diferentes experiencias longitudinales de pobreza y hablan de incidencia, persistencia y repetición de los períodos de pobreza. En concreto, nos podemos encontrar con los modelos longitudinales de trayectorias de pobreza como Hill y Jenkins (1999), los modelos de componentes de la varianza, por ejemplo, Duncan (1983) o Stevens (1999), los modelos de probabilidades de transición como Schluter (1997), Stevens (1995, 1999), Cantó (1996, 2000a y , 2000b), Cantó, del Río y Gradín (2002) o Devicenti (2000) o los modelos estructurales en Burgess y Propper (1998). Jenkins (1999), al comentar las ventajas e inconvenientes de estos modelos, enumera tres criterios que, a su juicio, deberían alcanzarse en el análisis dinámico.

37

Entendida la pobreza como concepto estrictamente monetario, es decir, “hogares o individuos

situados bajo un nivel de ingresos considerado mínimo”.

Los perfiles de la privación en España: un estudio estático y dinámico

169

El primero de ellos es ser práctico, puesto que se necesitan modelos empíricos que proporcionen resultados útiles en un plazo de tiempo no muy elevado. La razón de esta practicidad reside en la utilidad de estos análisis para el diseño de las políticas públicas. En segundo lugar, debe explicar el pasado y predecir las experiencias futuras de pobreza. En este caso, se refiere a la capacidad de poner de manifiesto los rasgos más importantes de la evolución de la pobreza. Por último, es necesario que sea estructural. Esto es, debe conectar los modelos que estudian la dinámica de la pobreza con aquellos modelos relativos al análisis de otros procesos dinámicos relacionados con la pobreza como la formación de los hogares o el mercado de trabajo. Podría considerarse que los modelos presentados en esta tesis para el estudio de la evolución de la pobreza multidimensional o privación (capítulos 2 y 3) se hallan dentro de los modelos de probabilidades de transición, puesto que pretenden explicar la probabilidad de pasar de una categoría a otra, condicionada únicamente a la categoría ocupada en el momento anterior, en primer lugar, y, además, a otras variables relacionadas con el hogar, más tarde. Recordemos que los modelos dinámicos mostrados en los capítulos arriba citados pueden expresarse como un modelo de duración con varios destinos y períodos repetidos. La mayoría de los trabajos realizados hasta ahora utilizan modelos de duración en los cuales no consideran la posibilidad de que las covariables estén relacionadas entre sí, hecho que se puede representar con los modelos propuestos por el autor. Los modelos más aplicados en la literatura sobre la pobreza estiman probabilidades de salida y entrada de la pobreza según las siguientes expresiones. P(no ser pobre en el año t | ser pobre en el año t − 1; Z , X t )

[4.2.a]

P( ser pobre en el año t | no ser pobre en el año t − 1; Z , X t )

[4.2.b],

donde Z es un vector de covariables constantes y Xt otro vector formado por covariables dinámicas. Esto es, se considera que la probabilidad entre ambas categorías está

170

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

condicionada al estado ocupado en el momento anterior y, además, algunas variables demográficas o económicas del hogar o individuo, ajenas a la pobreza. Por ajena no debe entenderse la ausencia de relación, sino su carácter distinto al fenómeno analizado. Como ya fue expuesto en el capítulo 2 de este trabajo, Blumen et al. (1955) mostraron que un modelo de Markov de primer orden (donde se considera que el valor de la variable en cada momento depende únicamente del valor en el momento anterior) tiende a subestimar la inmovilidad, esto es, los elementos de la diagonal principal de la matriz de transición. Por tanto, proponen un modelo, conocido como mover-stayer, que divide la población en dos grupos con comportamientos similares: a uno de los grupos se le impone la condición de la inmovilidad, es decir, su matriz de transición es una matriz identidad, y el otro recoge los individuos u hogares que cambian de categoría. El modelo anterior fue desarrollado por Poulsen (1982), quien amplió el número de subpoblaciones y no impuso ninguna restricción sobre las probabilidades de transición de cada grupo. Aplicando los modelos de clases latentes, es posible dividir la población en subpoblaciones homogéneas con comportamientos de cambio similares. En nuestro caso, se estudiará la movilidad de la privación, definida según el apartado 4.2.4, contemplando la existencia de algún tipo de heterogeneidad no observada. Puesto que no se contemplan otras covariables distintas del valor de la variable en el año anterior, se utiliza un modelo mixto de Markov de primer orden. Durante tres momentos (1994, 1995 y 1996) se ha estimado en un apartado anterior a partir de tres variables (HP001, HP002 y HP003), relativas a la privación básica, la calidad de la vivienda y la privación secundaria, una nueva variable que refleja la privación conjunta. Por tanto, la tabla de contingencia a la cual se aplicará el modelo recogerá las frecuencias de esta variable conjunta en los tres años contemplados, frecuencias estimadas según el siguiente modelo. S*

π priv1 priv2 priv3 = ∑ π sδ priv1|sτ priv2 | priv1sτ priv3 | priv2 s s =1

[4.3]

Los perfiles de la privación en España: un estudio estático y dinámico

171

Los parámetros de este modelo son los siguientes:

• la probabilidad inicial πs de pertenecer a cada uno de los S* grupos latentes, con la que se recoge la posibilidad de que la población no cambie de la misma manera.

• la probabilidad inicial δ priv1 |s de estar en cada una de las categorías de la privación conjunta en el momento inicial dada la pertenencia al subgrupo latente s. Mediante este parámetro, se determina el tamaño de cada categoría de la privación conjunta en cada subpoblación en el primer año.

• las probabilidades de transición τ privt | privt −1s de pasar de cada clase de la variable privt-1 en el momento t-1 a la clase privt en el momento t dado el subgrupo latente s. La expresión [4.3] se obtiene colapsando sobre la variable latente que se refiere a la heterogeneidad no observada, la siguiente distribución de probabilidad conjunta.

π spriv1 priv2 priv3 = π sδ priv1|sτ priv2 | priv1sτ priv3 | pri2 s

[4.4]

Es decir, se utiliza un modelo mixto de Markov para tres momentos de tiempo. La limitación que presenta este trabajo empírico viene dada por la base de datos utilizada. Dichos inconvenientes no se derivan de sus características ya que, como dijimos antes, es una encuesta realizada con el objetivo de poder ser analizada temporalmente y éste es uno de sus puntos fuertes. A pesar de lo anterior, sólo están disponibles tres ciclos en el momento de realizar este trabajo: los correspondientes a los años 1994, 1995 y 1996. Por tanto, no se puede hablar de persistencia o de largo plazo, dado que sería necesario una cantidad mayor de ciclos. Se abre así una línea de investigación interesante como desarrollo de esta tesis: un análisis temporal detallado de la pobreza y la privación a medida que los sucesivos datos estén disponibles.

172

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.20. Un análisis temporal de la privación conjunta Modelo Homogéneo estacionario Homogéneo no estacionario Heterogéneo estacionario (2 clases) Heterogéneo estacionario (2 clases mover-stayer) Heterogéneo estacionario (3 clases) Heterogéneo estacionario (3 clases mover-stayer) Heterogéneo no estacionario (2 clases) Heterogéneo no estacionario (2 clases mover-stayer)

L2 567,3191 554,4893 68,6440 197,9047 1,1577 3,5950 22,7421 186,8857

Prob. G.L. BIC 0,0000 18 411,5629 0,0000 12 450,6518 0,0000 9 -9,2341 0,0000 15 68,1078 0,5605 2 -16,1485 0,7313 6 -13,7112 -2 40,0303 0,0000 9 109,0076

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

La primera conclusión que es posible extraer de la tabla anterior se refiere a la existencia de subgrupos con comportamientos parecidos en la población. Se rechaza la homogeneidad respecto del cambio y son aceptados dos modelos heterogéneos según los contrastes L2 y BIC y otro más según sólo este último criterio. Asimismo, debe hacerse algún comentario sobre la estacionariedad, es decir, la posibilidad de representar el cambio mediante una única matriz de transición. Por un lado, el contraste de los modelos no estacionarios es más difícil porque el mayor número de los parámetros por estimar y la pequeña dimensión de la tabla de contingencias, 27 celdas, provocan una reducción de los grados de libertad. Por el otro, la satisfacción de la hipótesis de la estacionariedad permite una predicción más sencilla (sólo existe una matriz), así como una mejor formulación de los efectos de distintas covariables sobre las transiciones. Pueden ser aceptados dos modelos, ambos heterogéneos que consideran tres grupos en la población con la diferencia de que uno de ellos es un modelo mover – stayer. Éste último modelo, donde se impone a uno de los grupos tener una matriz identidad como matriz de transición, es el preferido ya que existe una probabilidad del 73,13% de que los datos sean explicados por el modelo.

Los perfiles de la privación en España: un estudio estático y dinámico

173

Además, el modelo libre contempla la existencia de un grupo cuya matriz de transición es muy similar a la matriz identidad por lo que no existe una gran diferencia entre lo propuesto por un modelo y otro.

Tabla 4.21. Tamaño de los subgrupos y probabilidades de transición de la privación conjunta

τˆ privt +1| privt s

πˆ s

δˆ privt

Grupo 1 0,237 1 0,446 2 0,485 3 0,069 Grupo 2 0,427 1 0,000 2 0,376 3 0,624 Grupo 3 0,336 1 0,045 2 0,067 3 0,888

1

2

3

0,314 0,263 0,128

0,531 0,499 0,497

0,155 0,238 0,375

0,124 0,039 0,026

0,305 0,329 0,314

0,571 0,632 0,660

1,000 0,000 0,000

0,000 1,000 0,000

0,000 0,000 1,000

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

Las probabilidades de transición de ambos modelos reflejan situaciones muy similares. Aparte de la comentada en el párrafo anterior, los grupos restantes se caracterizan por unas mayores probabilidades de paso a la clase de privación ligera, por una parte, y esperar fundamentalmente un cambio a la privación baja, por la otra. Únicamente difieren en los valores de las probabilidades, pero el sentido es el mismo. En definitiva, el modelo presenta los siguientes rasgos: i.

El cambio de la población entre las categorías de la privación se puede representar mediante tres grupos distintos, uno de los cuales recoge los hogares inmóviles, con probabilidades del 23,7%, 42,7% y 33,6%, respectivamente.

174

ii.

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

El primero de los grupos, compuesto por el 23,7% de los hogares, se caracteriza por presentar inicialmente valores de privación elevada o ligera en su mayoría. Las probabilidades de transición de estos hogares reflejan un proceso de cambio a la categoría de privación ligera principalmente. No obstante, los hogares que pasan de una categoría superior a la de privación elevada aparecen en este grupo también.

iii.

El segundo grupo, donde se halla el 42,7% de los hogares, además de recoger sobre todo hogares situados en la categoría de privación baja, presenta unas probabilidades de paso e inmovilidad en esa categoría muy elevadas, superiores al 50%.

iv.

Finalmente, la última subpoblación, 33,6% de los hogares, se caracteriza por una matriz identidad de transición. Es decir, en este grupo se contemplan sólo los hogares que permanecen en la misma categoría durante todos los momentos y no se permite ningún tipo de cambio. El análisis de las proporciones iniciales de este grupo muestra que la permanencia está relacionada sobre todo con la privación baja. Este grupo no implica que no existan hogares inmóviles en el resto de las subpoblaciones. Pueden presentarse ya que pueden pasar a cualquier clase, incluso aquella a la que pertenece en el momento anterior. Recordemos que el grupo stayer se establece únicamente para eliminar la sobreestimación del cambio.

v.

La privación elevada en el primer año está relacionada con el primer subgrupo de transición. Se espera que mejoren su situación ya que sólo un 31,4% es estimado como permanente. No obstante, también se espera que reciba hogares desde la privación ligera (26,3%) y la privación baja (12,8%). En resumen, se estima que disminuya el número de hogares situados en esta clase de privación.

Los perfiles de la privación en España: un estudio estático y dinámico

vi.

175

Los hogares inicialmente situados en la categoría de privación ligera se sitúan en los grupos de hogares móviles. El análisis de las respectivas probabilidades de transición muestra, en un caso, un paso a esta categoría desde las otras con probabilidades cercanas al 50% y, en el otro, una mejora puesto que pasan mayoritariamente a la privación baja. Como rasgo principal, esta categoría es la más móvil, tanto en sentido ascendente como descendente.

vii.

Los niveles menores de la privación presentan el mayor grado de inmovilidad. En el grupo stayer, la probabilidad inicial de esta categoría se acerca al 90% y en la otra subpoblación donde aparecen, con una proporción inicial del 62,4%, la probabilidad de mantenerse es el del 66%.

viii.

En conclusión, se espera que disminuya la privación conjunta elevada y que el resto de los niveles de la privación conjunta se mantengan o aumenten ligeramente.

A la luz de los comentarios anteriores, se podría pensar que estamos ante un modelo longitudinal de trayectorias. Sin embargo, tras la exposición de dos ejemplos de clasificación de los hogares e individuos según sus movimientos de entrada y salida de la pobreza veremos las diferencias existentes. En primer lugar, Hills (1998) muestra una tipología38 de distintas trayectorias basándose en los datos del BHPS (British Household Panel Survey). Distingue entre trayectorias planas, crecientes, decrecientes, puntuales y otras. Un hogar o individuo se encuentra en cada categoría según las definiciones siguientes:

38

En su trabajo define esta tipología para un análisis de la movilidad de la renta y, por tanto, al hablar

de trayectorias crecientes o decrecientes describe una situación donde todos los movimientos son hacia arriba (abajo) o planos. En nuestro caso, adaptamos esta clasificación a la evolución de la pobreza, por lo que sólo se necesita un movimiento hacia arriba (abajo).

176

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

•

Plana: no se cambia de categoría en ninguno de los años contemplados. En

ella se diferencian, por un lado, los hogares o individuos pobres planos si todas las observaciones se sitúan en la categoría de pobreza y los no pobres planos, por el otro.

•

Creciente: se sube de categoría un año y, a partir de éste no se cambia de

categoría. En consecuencia, mientras que Hills (1998) distingue entre trayectorias crecientes no pobres y crecientes saliendo de la pobreza, únicamente se consideran las últimas en este trabajo.

•

Decreciente: es la opuesta a la anterior. En un momento se pasa a la situación

de pobreza (movimiento hacia abajo) y los siguientes movimientos son estacionarios. Esta trayectoria puede denominarse también como caída en la pobreza.

•

Puntual: su nombre procede del fenómeno que representan. Consiste en una

trayectoria plana menos un año en el cual cambia de categoría y vuelve a la anterior. Por tanto, estamos ante dos posibles trayectorias en este grupo: puntuales fuera de la pobreza (hogares o individuos pobres durante todos los años excepto en uno donde mejora su situación) y puntuales hacia la pobreza (no se hallan en situación de pobreza con la excepción de un momento).

•

Otras: en este tipo se recogen las posibilidades no contempladas en los casos

anteriores. Finalmente, Walker (1994) clasifica los hogares e individuos según su evolución temporal respecto de la pobreza. Así, distingue entre no pobres (nunca se hallan bajo la línea de pobreza), pobreza transitoria (sólo un período en tal situación), pobreza ocasional (más de un período sin que ninguno de ellos dure más de un año), recurrente (períodos de pobreza repetidos, separados algunos más de un año o siendo mayores que un año otros), persistente (un único período de pobreza que dura más de dos años), crónica (períodos repetidos separados como máximo un año), permanente (siempre están bajo el umbral de pobreza).

Los perfiles de la privación en España: un estudio estático y dinámico

177

Como se puede observar en ambos ejemplos, la clasificación es totalmente subjetiva: los autores observan los movimientos de los hogares o individuos y, después, construyen una tipología de dichos movimientos según su sentido o la duración de su estancia en una determinada categoría. Por el contrario, los subgrupos latentes de los modelos presentados en los capítulos anteriores se estiman y, además, no tienen un significado idéntico a las tipologías anteriores. Son subconjuntos de la población que siguen unas evoluciones homogéneas dentro de ellos y diferentes entre sí. En consecuencia, se refieren a grupos formados por los hogares o individuos que presentan unas probabilidades de transición similares. El parecido con los modelos longitudinales de trayectorias reside en el hecho de que las probabilidades de transición de cada grupo pueden determinar algunas trayectorias similares a las expuestas anteriormente. Por ejemplo, el subgrupo formado por aquellos hogares o individuos para los que se espera que no cambien de categoría seguiría, según Hills, una trayectoria plana.

4.3.1 Un análisis temporal de la privación por sectores Una vez estudiada la evolución del perfil conjunto de la privación, proponemos un análisis individualizado para cada dimensión: básica, secundaria y vivienda. Este estudio por dimensiones permite explicar los movimientos que llevan a los cambios mostrados en el apartado anterior. De esta manera, es posible determinar qué dimensión está más relacionada con la movilidad o la inmovilidad. En primer lugar, analizaremos la privación básica, relacionada con la satisfacción de un conjunto de necesidades básicas de los hogares. La tabla mostrada a continuación expone que el único modelo aceptable es el que contempla tres grupos distintos para el cambio, grupos con matrices estacionarias. Es decir, se supone que las probabilidades se mantienen para los dos momentos de cambio.

178

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.22. Un análisis temporal de la privación básica Modelo Homogéneo estacionario Homogéneo no estacionario Heterogéneo estacionario (2 clases) Heterogéneo estacionario (2 clases mover-stayer) Heterogéneo estacionario (3 clases) Heterogéneo estacionario (3 clases mover-stayer) Heterogéneo no estacionario (2 clases) Heterogéneo no estacionario (2 clases mover-stayer)

L2 454,4396 431,5632 80,4769 143,3579 3,6709 16,6935 22,4568 125,5921

Prob. G.L. BIC 0,0000 18 298,6834 0,0000 12 327,7257 0,0000 12 -23,3605 0,0000 15 13,5610 0,4499 4 -30,9416 0,0195 7 -43,8783 -2 39,7630 0,0000 9 47,7140

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

El modelo aceptado es prácticamente el mismo que explicaba el cambio de la privación conjunta: un modelo estacionario que divide a la población en tres grupos y, aunque no se impone la condición de ser matriz identidad para una de las matrices de transición, dos de los grupos se caracterizan por una inmovilidad parcial. Es decir, se estima la inmovilidad para algunas categorías. En primer lugar, el comentario más destacable es la elevada permanencia estimada en la categoría de menor privación básica. Los grupos 2 y 3 se caracterizan por una gran inmovilidad para dicha categoría, 0,631 y 0,975 respectivamente y el primero, con una probabilidad estimada de mantenerse nula, es un grupo muy pequeño donde, además, sólo el 2% pertenece a esta categoría. Por lo tanto, es lógico esperar que la categoría de satisfacción de las necesidades básicas presente un elevado tamaño en cada momento y, además, que los hogares integrantes se mantengan a lo largo del tiempo o se incremente su número.

Los perfiles de la privación en España: un estudio estático y dinámico

179

Tabla 4.23. Tamaño de los subgrupos y probabilidades de transición de la privación básica

τˆ privt +1| privt s

πˆ s

δˆ privt

Grupo 1 0,131 1 0,674 2 0,324 3 0,002 Grupo 2 0,345 1 0,114 2 0,256 3 0,630 Grupo 3 0,523 1 0,043 2 0,094 3 0,863

1

2

3

0,537 0,470 0,670

0,333 0,406 0,330

0,131 0,125 0,000

0,000 0,140 0,077

0,414 0,216 0,292

0,586 0,644 0,631

0,521 0,001 0,025

0,000 0,468 0,000

0,479 0,531 0,975

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

Por otro lado, se estima que los hogares con privación básica elevada pertenezcan sobre todo a la primera subpoblación, casi un 60%. Según las probabilidades de transición, se espera principalmente que permanezcan en tal situación con una leve probabilidad para la mejora. En consecuencia, no es descabellado suponer que la cantidad de hogares que no pueden satisfacer sus necesidades básicas irá decreciendo ligeramente a medida que se amplía el período considerado. Finalmente, la privación básica ligera viene explicada principalmente por el segundo subgrupo, aproximadamente un 50%. Por esta razón, cabe esperar que el número de hogares que pertenecen a esta categoría de la privación básica disminuya. La diferencia entre ambas categorías reside en el número de necesidades a las que no pueden hacer frente. Mientras que los hogares en una situación de privación baja sólo presentan incapacidad para una necesidad o, alternativamente, pueden afrontar todos los requerimientos, pero tener retrasos en los pagos, los ubicados en la categoría intermedia se caracterizan por no poder asumir hasta tres conceptos o, si es menor de tres, retrasarse en los pagos. En consecuencia, es relativamente sencillo mejorar la categoría de privación en algunas situaciones de privación ligera, aquéllas más cercanas al límite.

180

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

En lo que respecta a la dimensión secundaria de la privación, es decir, a necesidades más relacionadas con el estilo de vida que las básicas, también es un modelo estacionario con tres clases el preferido.

Tabla 4.24. Un análisis temporal de la privación secundaria Modelo Homogéneo estacionario Homogéneo no estacionario Heterogéneo estacionario (2 clases) Heterogéneo estacionario (2 clases mover-stayer) Heterogéneo estacionario (3 clases) Heterogéneo estacionario (3 clases mover-stayer) Heterogéneo no estacionario (2 clases) Heterogéneo no estacionario (2 clases mover-stayer)

L2 558,2968 529,7014 153,6491 311,5365 13,6169 31,8519 45,0242 270,7445

Prob. G.L. BIC 0,0000 18 402,5406 0,0000 12 425,8639 0,0000 12 49,8116 0,0000 15 181,7399 0,0034 3 -12,3424 0,0001 6 -20,0668 -3 70,9835 0,0000 9 192,8664

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

En la tabla anterior, según los valores de probabilidad ningún modelo sería aceptado. No obstante, el contraste BIC muestra que el modelo estacionario con 3 clases moverstayer es el preferido. El subgrupo de los inmóviles es el más reducido. Sólo se estima que un 17,10% de los hogares pertenecen a ella. Además, ninguna de las categorías de la privación secundaria ve explicado mayoritariamente su comportamiento por esta matriz. Por otro lado, los tamaños relativos de cada categoría de privación son muy similares. Este resultado es esperable dado que el fenómeno estudiado se relaciona con el estilo de vida, por ejemplo, con la capacidad de tener una semana de vacaciones pagadas fuera de casa al año o poder permitirse un lavavajillas. Podemos esperar que la movilidad existente, entonces, sea de corto recorrido. Por corto recorrido, entendemos un cambio a la categoría adyacente. De todas maneras, según el modelo propuesto se espera que la categoría con mayor privación se reduzca a medida que el tiempo transcurra. Su comportamiento viene explicado por la matriz de transición de la primera subpoblación, a la que pertenecen

Los perfiles de la privación en España: un estudio estático y dinámico

181

mayoritariamente (85,64%). Por lo tanto, se espera que la inmovilidad y la mejora ligera (paso a la privación intermedia) se reparta casi paritariamente.

Tabla 4.25. Tamaño de los subgrupos y probabilidades de transición de la privación secundaria

τˆ privt +1| privt s

πˆ s

δˆ privt

Grupo 1 0,466 1 0,530 2 0,373 3 0,097 Grupo 2 0,363 1 0,002 2 0,445 3 0,552 Grupo 3 0,171 1 0,238 2 0,194 3 0,568

1

2

3

0,470 0,376 0,277

0,392 0,478 0,413

0,138 0,146 0,310

0,040 0,020 0,066

0,340 0,450 0,361

0,620 0,530 0,573

1,000 0,000 0,000

0,000 1,000 0,000

0,000 0,000 1,000

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

La categoría de privación secundaria inmediatamente superior, privación intermedia, presenta una evolución representada modalmente por el primer subgrupo. En consecuencia, su transición esperada es simétrica a la comentada en el apartado anterior. Condicionadas a la pertenencia a este grupo, la probabilidad de permanecer es muy similar y cercana al 50% (47,80%) y la de pasar a la privación elevada es un 37,6%, ligeramente inferior a la probabilidad de la transición en el sentido opuesto (39,20%). No obstante, el segundo grupo tiene una probabilidad de pertenencia pareja y, por tanto, podemos decir que este subconjunto de hogares en privación intermedia al comienzo del período al menos mantiene su situación o, mayoritariamente, la mejoran. En conjunto, podemos esperar que la frecuencia mayor en la tabla de movilidad para los hogares en la privación secundaria inicial ligera o intermedia sea la inmóvil. Esto no

182

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

quiere decir que sea una categoría inmóvil, puesto que es mayor la suma de las frecuencias esperadas cuando se considera un cambio a las categorías adyacentes. Finalmente, el cambio de los hogares con privación secundaria reducida se explica fundamentalmente por el segundo grupo de la población (un 58,47%). En consecuencia, la inmovilidad es alta para estos hogares, puesto que la probabilidad condicionada para tal situación en ese grupo es cercana al 57%. Además, la probabilidad inicial más elevada en la subpoblación de los hogares inmóviles corresponde también a esta categoría de privación secundaria. Por otro lado, en caso de cambiar de clase pasan a la inmediatamente adyacente, es decir, la privación ligera. De nuevo, se comprueba el reducido recorrido a medida que el tiempo avanza. En conclusión, este tipo de privación es mucho más móvil que el anterior. A pesar de lo cual, no se debe esperar un cambio destacable en las respectivas distribuciones marginales ya que los cambios son muy ligeros y, además, en gran parte simétricos. El motivo de esta mayor movilidad es claro: las variables utilizadas para determinar la privación en este sector se refieren a bienes relacionados con el estilo de vida, no con la subsistencia o las necesidades básicas. La capacidad de adquirir tales bienes puede variar más que la de afrontar las necesidades básicas. Por ejemplo, parece lógico suponer que un hogar que no puede renovar su vestuario parcialmente tiene mayores dificultades para cambiar de categoría que otro cuyo problema es no poder adquirir un lavavajillas o un vídeo. Finalmente, estudiemos la evolución de la dimensión residencial de la privación. Como se ha visto a lo largo de este apartado, el modelo más adecuado es el estacionario con tres subgrupos, aunque, como se verá después, dos de ellos son muy pequeños.

Los perfiles de la privación en España: un estudio estático y dinámico

183

Tabla 4.26. Un análisis temporal de la privación de la vivienda BIC Modelo L2 Prob. G.L. Homogéneo estacionario 139,4086 0,0000 18 -16,3476 Homogéneo no estacionario 124,0154 0,0000 12 20,1779 Heterogéneo estacionario (2 clases) 33,0974 0,0005 11 -62,0869 Heterogéneo estacionario (2 clases mover-stayer) 59,7982 0,0000 15 -69,9986 Heterogéneo estacionario (3 clases) 1,4328 0,9845 7 -59,1390 Heterogéneo estacionario (3 clases mover-stayer) 9,9345 0,2696 8 -59,2904 Heterogéneo no estacionario (2 clases) 2,9827 -3 28,9421 Heterogéneo no estacionario (2 clases mover-stayer) 44,5504 0,0000 9 -33,3277 Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

En cierta manera, es lógico esperar este resultado puesto que en esta dimensión de la privación, la categoría de privación reducida era predominante con gran diferencia sobre las demás. Además, según este modelo se espera una inmovilidad y un tamaño elevados para la categoría comentada en el párrafo anterior. Estos fenómenos son fácilmente visibles al observar los valores de los tamaños de los subgrupos y las correspondientes matrices de transición: la subpoblación mayor es la tercera (un 90% de los hogares aproximadamente), caracterizada por una proporción inicial de la privación reducida casi unitaria (96,9%) y una matriz de probabilidades de transición donde se estima un valor de 0,999 a la inmovilidad en esta categoría.

184

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.27. Tamaño de los subgrupos y probabilidades de transición de la privación de la vivienda

τˆ privt +1| privt s

πˆ s

δˆ privt

Grupo 1 0,030 1 0,358 2 0,365 3 0,277 Grupo 2 0,072 1 0,047 2 0,130 3 0,824 Grupo 3 0,898 1 0,008 2 0,024 3 0,969

1

2

3

0,326 0,141 0,172

0,307 0,688 0,000

0,367 0,171 0,828

0,000 0,000 0,000

0,000 0,192 0,347

1,000 0,808 0,653

0,924 0,019 0,001

0,075 0,116 0,000

0,000 0,865 0,999

Fuente: Elaboración propia a partir del programa PANMARK (Van de Pol, Langeheine y de Jong, 1991).

Desde un punto de vista económico, estos valores de movilidad e inmovilidad son los esperables, puesto que las decisiones relativas a la vivienda se realizan a largo plazo y, en consecuencia, es más difícil variar sus condiciones en un plazo como el de este trabajo, tres años.

4.3.2 Un modelo latente dinámico que combina los criterios de la renta y las condiciones de vida Por lo tanto, para analizar la evolución de la pobreza, se va a utilizar un nuevo modelo que obvia la dimensión residencial de la privación e incorpora la pobreza según los ingresos. Esta decisión se basa, por un lado, en la elevada inmovilidad de la primera para un tamaño de la categoría de “poca privación” también considerable que puede esconder cambios en las otras categorías de la privación. Por otro lado, la inclusión de la pobreza según los ingresos se debe a las críticas de Ringen (1988) al criterio de la renta para la pobreza, citadas al comienzo del capítulo.

Los perfiles de la privación en España: un estudio estático y dinámico

185

Dichas críticas apoyan la utilización de un criterio combinado para la determinación de la pobreza, es decir, ingresos y condiciones de vida. Finalmente, antes de comentar los resultados de la estimación, es preciso notar que las categorías de las dimensiones básica y secundaria de la privación se han reducido a dos: “privación elevada” y “no privación elevada”, siguiendo el primer criterio de Jenkins (1998), ser prácticos. La explicación de los parámetros es más clara y sencilla, sobre todo ante un profano en estos modelos estadísticos, con sólo dos categorías que con las tres consideradas hasta ahora. Además, puesto que vamos a resumir la información proporcionada por un conjunto de variables discretas en otra variable discreta incorporando el estudio temporal de este fenómeno, se utilizará un modelo latente de Markov de primer orden con tres indicadores por ocasión. En este modelo, se va a imponer la restricción de que las probabilidades de respuesta se mantienen a lo largo de todo el período.

Tabla 4.28. Modelos latentes de Markov para la pobreza consistente Modelo Independencia Dos clases Tres clases Cuatro clases Cinco clases

L2 10216,7763 3125,7512 1669,4448 935,2071 855,0065

Prob. 0,0000 0,0000 0,0000 0,0000 0,0000

G.L. 508 502 494 484 472

BIC 5820,9905 -1218,1159 -2605,1973 -3252,9038 -3229,2670

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Para determinar el modelo elegido, es necesario utilizar el estadístico BIC, ya que según los valores del contraste de la razón de verosimilitud deberían rechazarse todos los modelos y, además, el número de observaciones es muy elevado. El análisis de los datos de la tabla anterior lleva a elegir el modelo con cuatro clases latentes como el más adecuado al presentar el menor valor del estadístico BIC. A partir de las probabilidades condicionadas de presentar cada una de las variables contempladas dada una clase concreta de la variable latente conjunta, es posible realizar una interpretación de las categorías latentes:

186

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

- Clase 1 (“pobres consistentes”): la probabilidad condicionada modal en cada variable es la correspondiente a la situación de pobreza o privación elevada. - Clase 2 (“pobres por ingresos”): son aquellos hogares que, a pesar de ser calificados como pobres según los ingresos, se espera que tengan una alta probabilidad de no hallarse en una situación de privación en ninguna de las dimensiones consideradas. - Clase 3 (“no pobres con estilo de vida bajo”): estos hogares presentan un nivel de ingresos superior a la línea de pobreza con el que es espera que satisfagan sus necesidades básicas, pero no pueden mantener un estilo de vida elevado. - Clase 4 (“no pobres”): por último, esta categoría recoge a los hogares que no se sitúan en situación de pobreza o privación.

Tabla 4.29. Probabilidades de respuesta Observada Básica Secundaria Renta

Elevada No elevada Elevada No elevada Pobre No pobre

1 0,6456 0,3544 0,8202 0,1798 0,8869 0,1131

Latente 2 0,1000 0,9000 0,2424 0,7576 0,7721 0,2279

3 0,3061 0,6939 0,7175 0,2825 0,0320 0,9680

4 0,0193 0,9807 0,0561 0,9439 0,0096 0,9904

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Aunque las probabilidades no reflejan totalmente las afirmaciones realizadas anteriormente porque las probabilidades no son unitarias o nulas, podemos decir que la clasificación es bastante fiable, porque la menor diferencia entre las probabilidades condicionadas es 0,2912. Excepto la primera clase latente, las categorías latentes muestran unas probabilidades de respuesta muy elevadas. Una vez, establecidas las categorías latentes de este nuevo modelo, cabe presentar sus respectivos tamaños al comienzo del período considerado. Según el modelo propuesto, el grupo de hogares consistentemente pobres está formado por un 8,82% de

Los perfiles de la privación en España: un estudio estático y dinámico

187

las familias, porcentaje parecido al obtenido en la privación conjunta al comienzo del capítulo.

Tabla 4.30. Probabilidades iniciales de las categorías latentes Categoría Probabilidad Pobres consistentes 0,0882 Pobres por ingresos 0,0941 No pobres con bajo estilo de vida 0,2164 No pobres 0,6014 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Por otro lado, se puede afirmar que un 81,78% de los hogares no se hallan inicialmente en una situación de pobreza, hogares de los que una parte (el 21,64% del total) presentan un estilo de vida menor que el resto. Finalmente, aparece otra clase formada por el 9,41% de los hogares que recoge a los calificados como pobres según la renta, pero no según las otras variables. La matriz de transición presentada en la tabla siguiente muestra cómo en algunos casos la presencia en esta clase puede deberse a una reducción transitoria de la renta, pérdida que se espera recuperar en el período siguiente donde pasan a la categoría de no pobres.

Tabla 4.31. Probabilidades de transición de la pobreza consistente t+1 t 1 2 3 4 1 0,7852 0,1316 0,0832 0,0000 2 0,0251 0,8255 0,0196 0,1299 3 0,0308 0,0736 0,7359 0,1596 4 0,0008 0,0264 0,0221 0,9508 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Por otra parte, las probabilidades de transición muestran, en general, un grado elevado de inmovilidad y, además, permiten esperar un incremento de la categoría “no pobres”. A esta conclusión se llega tras observar que las mayores probabilidades de cambio de las clases 2 y 3 se refieren al paso a la categoría antes comentada, un 12,99%

188

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

y un 15,96% respectivamente. Es decir, en caso de que un hogar no pobre con bajo estilo de vida o pobre sólo según la renta cambie de categoría lo más probable es que mejore su situación. Otro hecho destacable es el paso de la categoría de pobreza consistente a la de pobreza según la renta (13,16%). Es decir, puede ocurrir que algunos hogares, a pesar de no poseer un nivel de ingresos suficiente para superar el umbral, pueden satisfacer sus necesidades básicas y dejar de mantener un estilo de vida bajo. Es preciso comentar que esta afirmación no significa que su nivel de vida sea elevado, sino que simplemente no es reducido. Sin embargo, la inmovilidad antes comentada puede enmascarar algunos movimientos entre las categorías de cierto interés para el investigador como se indicó en este trabajo al presentar el modelo mixto de Markov. La conjunción de dos fenómenos como la inmovilidad y los movimientos hacia la diagonal principal pueden provocar que las frecuencias de dicha diagonal, esto es, los hogares estimados como inmóviles, sean sobreestimadas. Además, es importante conocer los movimientos de los hogares que cambian de categorías, su dirección y duración. Esto último se hace difícil si se considera la población como un bloque compacto. En consecuencia, en el modelo anterior se va a contrastar la homogeneidad o heterogeneidad de la población, así como el número de subgrupos latentes de ésta en el segundo caso. Los resultados de este análisis muestran que debe considerarse la existencia de dos grupos de hogares diferenciados en la población o, principalmente, la homogeneidad de la población para un cambio no estacionario.

Tabla 4.32. Modelos mixtos latentes de Markov para la pobreza consistente Modelo Homogéneo estacionario Homogéneo no estacionario Heterogéneo estacionario (2 clases) Heterogéneo estacionario (3 clases) Heterogéneo no estacionario (2 clases)

L2 935,2071 814,1633 682,0569 571,7381 542,8889

Prob. 0,0000 0,0000 0,0000 0,0000 0,0002

G.L. 484 472 456 428 432

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

BIC -3252,9038 -3270,1101 -3263,7666 -3131,7980 -3195,2597

Los perfiles de la privación en España: un estudio estático y dinámico

189

Este doble motivo para el rechazo del modelo homogéneo estacionario viene causado por el reducido, en el momento de realizar esta tesis, ámbito temporal de la base de datos. Por esta razón, la incorporación de la información sobre las condiciones de vida a la pobreza monetaria permite una mejor visión del problema puesto que se contemplan dos situaciones intermedias, hogares pobres según los ingresos con condiciones de vida aceptables y hogares no pobres con un bajo nivel de vida. Sin embargo, la falta de más ciclos no permite, por ahora, confirmar si estas situaciones intermedias son transitorias, permanentes o se repiten el tiempo. Por otro lado, al tener el número mínimo de ciclos para contrastar un modelo estacionario markoviano de primer orden (tres), es más difícil diferenciar entre distintas trayectorias o subgrupos de la población por lo que se rechaza también el modelo que contempla dos subgrupos en la población. Además, los modelos heterogéneos, cuyos estadísticos de calidad del ajuste se muestran en la Tabla 4.32, suponen que las probabilidades de respuesta están condicionadas a la pertenencia de una cadena o subgrupo latente concreto. Este supuesto es adecuado cuando se pretende diferenciar entre el cambio real y el error de clasificación de una variable. Sin embargo, en un caso como el que nos ocupa donde la variable latente resume la información de tres variables distintas, imponer la condición de dependencia respecto del grupo latente a las probabilidades de respuesta no es tan oportuno. Mientras que, por una parte, si las estructuras latentes varían en cada subgrupo se hace complicado observar los cambios, puesto que pueden deberse a las diferentes matrices de transición o las distintas probabilidades de respuesta de la variable latente, por la otra, una misma variable latente puede representar fenómenos distintos dependiendo de la subpoblación elegida. En nuestro caso, si se estima un modelo mixto latente de Markov con dos subgrupos, una categoría latente representa a los hogares considerados pobres consistentes en una subpoblación y en la otra, a hogares pobres sólo según la renta. Así, ¿cómo se interpreta un cambio a esta categoría?. Por lo tanto, es más lógico considerar que la estructura latente se mantiene constante a lo largo del tiempo.

190

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Consecuentemente, se han estimado los distintos modelos en

el supuesto de

estructura latente constante. No obstante, dicha condición debe ser rechazada basándose en los contrastes de calidad del ajuste ya utilizados a lo largo de esta aplicación. Así, la mejor opción es utilizar el modelo homogéneo no estacionario como aquel que mejor representa la evolución sufrida por la pobreza consistente a lo largo del período considerado, 1994-1996.

Tabla 4.33. Probabilidades no estacionarias de transición de la pobreza consistente 1995 1994 1 2 3 4 1 0,8835 0,0685 0,0480 0,0000 2 0,0430 0,9570 0,0000 0,0000 3 0,0137 0,0498 0,8008 0,1358 4 0,0009 0,0234 0,0000 0,9757 1996 1995 1 2 3 4 1 0,6969 0,1725 0,1305 0,0000 2 0,0294 0,6109 0,0552 0,3044 3 0,0434 0,0675 0,6917 0,1775 4 0,0009 0,0295 0,0351 0,9346 Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Las probabilidades mostradas en esta tabla confirman los comentarios realizados anteriormente y, además, permiten describir la situación con mayor detalle. Respecto a la inmovilidad, no sólo se observa su elevado nivel, sino también su evolución temporal. En concreto, excepto para la categoría de no pobreza consistente, se espera que el alto grado de inmovilidad en la primera transición (al menos, un 80%) se reduzca ligeramente en la segunda. Por tanto, aunque es posible afirmar que la situación de los hogares mejora a medida que transcurre el tiempo, no es un cambio instantáneo, sino que lleva más de un año mejorar la situación de pobreza. Además, es destacable que no se produce una transición directa entre las categorías extremas, por lo que las clases que recogen a los hogares pobres según los ingresos y los no pobres con bajo estilo de vida representan estados intermedios del fenómeno de la pobreza, tanto estática como

Los perfiles de la privación en España: un estudio estático y dinámico

191

dinámicamente. Este hecho es más llamativo en el primer caso, puesto que se estima que el 30% de los hogares pobres según los ingresos en el año 1995 mejoran su situación al año siguiente, así como la menor probabilidad para la estabilidad. Se requiere seguir la evolución de estos hogares para poder buscar las razones de estos cambios. Por un lado, pueden deberse a descensos transitorios de los ingresos o, como indica la teoría económica, a la utilización de los ahorros del hogar para mantener la posición. En caso de esto último, el consumo de los activos ahorrados por el hogar lleva a su agotamiento, y, por tanto, a un progresivo empobrecimiento y una paulatina disminución del bienestar del hogar. No obstante, es necesario completar este estudio a lo largo de más ciclos para comprobar el grado de certeza de las conclusiones anteriores. Así, se puede constatar si los shocks de la renta son transitorios o permanentes, las salidas o entradas de las distintas categorías son reversibles o se mantienen o la existencia de distintos subgrupos de la población según su patrón de cambio. Por tanto, este trabajo deja puertas abiertas para continuar y desarrollar esta línea de investigación.

4.3.3 La influencia de algunas variables externas sobre un modelo latente dinámico de la privación Una vez analizada la evolución de la pobreza latente, es lógico buscar la influencia de algunas variables externas al igual que en el análisis estático de la privación. Como se expuso en el capítulo 3, debe determinarse el carácter de tales variables, esto es, si son covariables exógenas o endógenas. En nuestro caso, la variable dependiente, es decir, aquella cuya movilidad es objeto de estudio, es la pobreza latente estimada en la sección anterior que combina los criterios de las condiciones de vida y los ingresos y las covariables contempladas en primer lugar serán la situación laboral39, el nivel

39

En el análisis dinámico, la situación laboral se define de manera ligeramente diferente al análisis

estático. Mientras que en dicho estudio estático se diferenciaban distintas situaciones de ocupación o

192

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

educativo40 y el sexo y la edad de la persona de referencia del hogar. El paulatino análisis de las relaciones entre estas variables y la pobreza latente permite llegar al modelo más sencillo posible. Por tanto, se debe contrastar si las variables externas citadas antes son endógenas o exógenas, es decir, si dependen o no de la privación. A pesar de que podrían considerarse constantes el nivel educativo y el sexo y la edad de la persona de referencia, realmente no lo son, ya que puede cambiar dicho individuo debido a eventos41 demográficos (fallecimiento, separación o divorcio) o laborales (entrada / salida del mercado laboral o cambio de trabajo o dedicación). No obstante, únicamente alrededor de un 10% de los hogares presentes en el panel experimentan un cambio del individuo de referencia. Es decir, es plausible considerar que se mantiene constante y, en consecuencia, dichas covariables pueden considerarse exógenas. Dependiendo de los supuestos realizados sobre las variables explicativas o covariables, estaremos ante distintos tipos de modelos desde el más sencillo en el que no interesa las relaciones entre las variables externas, sino sólo sus efectos sobre la variable principal hasta algunos de los más complejos cuando se consideren algunas influencias de la variable principal sobre las covariables. Puesto que todas las variables consideradas son categóricas y, además, se contemplan algunas relaciones estructurales y otras de medida, los modelos utilizados se incluyen

desempleo según el historial de paro, ahora sólo se consideran cuatro categorías: ocupado, parado, jubilado y otros. Consideramos poco adecuado incorporar aspectos temporales dentro de la codificación de unas variables cuya evolución se quiere estudiar. 40

Asimismo, la codificación de la variable nivel educativo es distinta en este análisis de la evolución.

Se pasa de 8 categorías a 5: “sin estudios”, “estudios primarios”, “estudios secundarios de primer ciclo”, “estudios secundarios de segundo ciclo” y “universitarios”. El motivo de este cambio reside en la necesaria reducción de la dimensión de la tabla objeto de estudio. 41

Así, se abre de nuevo una futura línea de investigación mediante la continuación de este trabajo con

los próximos ciclos del Panel. Consideramos interesante poder construir un modelo estructural que permita determinar los efectos de los eventos comentados en el párrafo anterior así como los procesos que llevan a su consecución.

Los perfiles de la privación en España: un estudio estático y dinámico

193

dentro de los modelos LISREL modificados comentados en el capítulo anterior. Para estimarlos, siguiendo a Vermunt (1997), se tienen en cuenta las relaciones de independencia condicionada extraíbles a partir de la representación gráfica del modelo para descomponer la probabilidad conjunta. El principal escollo por resolver es la falta de programas informáticos especialmente diseñados para seleccionar y estimar estos modelos. No es posible, por ahora, realizar un análisis exploratorio de las relaciones entre las variables a lo largo del tiempo si se contempla la existencia de algunas variables latentes. Por el contrario, es necesario contrastar paso a paso la significatividad de las diferentes hipótesis sobre los parámetros del modelo. En consecuencia, el programa lEM (Vermunt, 1997), ya utilizado en las estimaciones anteriores de este capítulo, es el adecuado para estimar los diferentes modelos posibles según las hipótesis contempladas para las relaciones entre las variables. Puesto que el objetivo de este apartado reside en la incorporación de algunas covariables al modelo latente de Markov estimado y comentado anteriormente, algunas restricciones serán impuestas a priori sobre los modelos. El primer supuesto básico que realizaremos en el proceso de selección y estimación del modelo es la separación total entre el modelo estructural y el de medida. Este supuesto ya se ha aplicado en los modelos sin variables explicativas, donde se consideraba que la estructura latente se mantenía constante para cada subgrupo latente. Por tanto, al ser estas variables independientes del resto condicionadas a las variables latentes, gráficamente ningún arco o línea las une con cualquier otra variable. Es decir, se supone que la participación en cada categoría de la pobreza consistente de la privación básica, la privación secundaria y la pobreza monetaria no depende de la situación laboral o el sexo y la edad de la persona de referencia del hogar. La segunda hipótesis impuesta consiste en la especificación de la evolución de la pobreza consistente como un modelo de Markov de primer orden.

194

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Por tanto, la probabilidad conjunta puede descomponerse como un producto de varias probabilidades condicionadas donde cada término representa un conjunto de relaciones, cuya estimación se presentó en el primer capítulo. Recordemos que puede utilizarse la metodología de Goodman (1973), ligeramente modificada por Vermunt (1998), consistente en la estimación de un sistema de modelos logit para cada probabilidad condicionada. Mientras que para Goodman es necesaria la presencia de todas las variables anteriores como condicionantes, Vermunt permite considerar sólo algunas para explicar la variable dependiente. Es decir, la estructura de probabilidad del modelo se expresaría, por ejemplo, según la fórmula siguiente en la que no se detalla el proceso de las covariables cuyos efectos, además, se suponen simultáneos. El primer concepto se representa mediante la probabilidad marginal de las covariables, SEXED, EDUC y EMPLEOt, donde t es el ciclo correspondiente así como la exclusión de cualquier término condicionado en el que alguna de las covariables sea la variable dependiente. Por otro lado, la simultaneidad de los efectos provoca que la pobreza consistente sólo dependa de los valores de las covariables en el mismo período, sin considerar la posible influencia de los valores en el período anterior π SEXED , EDUC , EMPLEO94 , POB94 , PB94 , PS94 , PM 94 , EMPLEO95 , POB95 , PB95 , PS95 , PM 95 , EMPLEO95 , POB95 , PB95 , PS95 , PM 95 = π SEXED , EDUC , EMPLEO94 , EMPLEO95 , EMPLEO96 π POB94 |SEXED , EDUC , EMPLEO94 π PB94 |POB94 π PS94 |POB94 π PM 94 |POB94

[4.5]

π POB95 |SEXED , EDUC , EMPLEO95 π PB95 |POB95π PS95 |POB95 π PM 95 |POB95 π POB96 |SEXED, EDUC , EMPLEO96 π PB96 |POB96 π PS96 |POB96 π PM 96 |POB96

Es patente que la manera de representar y estimar las relaciones entre las covariables y la variable dependiente es ligeramente diferente a la realizada usualmente. En la mayoría de los trabajos publicados hasta ahora, la estimación de la variable dependiente se realiza mediante un modelo de regresión logística donde, generalmente, se consideran un conjunto de variables ficticias para representar las categorías de una o más variables discretas. Por otro lado, se contempla la transición de una categoría a otra independientemente del momento (año, trimestre o mes) en que se produzca, referencia

Los perfiles de la privación en España: un estudio estático y dinámico

195

temporal introducida como una variable independiente. Asimismo, es necesario tener en cuenta que esta variable a su vez puede afectar al resto de las covariables. Por el contrario, el carácter temporal en este trabajo se contempla de otra manera. Se considera una variable en cada ciclo para representar la información sobre el mismo fenómeno. Así, se permite que las probabilidades de transición sean distintas según los modelos planteados en la sección anterior. Además, difiere la formulación de las covariables. Mientras que, usualmente, se utilizan varias variables ficticias, los modelos aquí propuestos presentan distintas variables discretas no binarias, cuyas categorías recogen los fenómenos expresados mediante las variables ficticias. Otra diferencia de los modelos presentados reside en la posibilidad de variar la estructura de asociación entre las covariables y las variables dependientes. Es preciso señalar que en la ecuación [4.5] no se expone el proceso de las covariables, esto es, sólo se recoge su influencia sobre las variables dependientes. Sin embargo, consideramos importante conocer la estructura dinámica de las variables explicativas con el fin de reducir la dimensión del modelo y poder imponer así un conjunto de restricciones sobre los parámetros de los distintos modelos por estimar. Además, se pueden expresar los efectos de diversos eventos como los parámetros de interacción de la misma variable en dos momentos consecutivos así como la posibilidad de diferenciar entre efectos directos e indirectos de las variables explicativas. En el proceso de determinación de las relaciones entre las variables se contrastan paulatinamente los siguientes supuestos: i.

Covariables exógenas con efectos simultáneos. Por un lado, el carácter exógeno se manifiesta en la ausencia de la variable principal (aquella cuya evolución es el objetivo del modelo general) como variable independiente en los modelos logit donde las covariables son las variables explicadas. En el caso que nos ocupa, supone que la pobreza consistente no influye en la situación laboral de la persona de referencia del hogar. Por el otro, la hipótesis de efectos simultáneos hace que la variable principal sólo se pueda

196

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

ve afectada por los valores de las covariables en el mismo período. En definitiva, este supuesto provoca que en la descomposición de la probabilidad conjunta

no

aparezcan

probabilidades

condicionadas

como

π EMPLEOt |EMPLEOt−1 , SEXED , EDUC , POBt −1 , o π POBt |POBt −1 , EMPLEOt −1 , EMPLEOt−2 , SEXED , EDUC . ii.

Covariables exógenas con efectos retardados. A diferencia del caso anterior, la pobreza consistente en el momento t no sólo puede depender de la situación laboral, el nivel educativo y el sexo y la edad en el mismo período, sino también de su valor en el ciclo anterior. Así, puede recogerse el efecto de un cambio en la situación laboral (contemplado como una variable adicional en los trabajos más comunes) o la persistencia en determinadas categorías como el desempleo. De las probabilidades condicionadas cuya ausencia se precisaba

antes,

se

incorporan

al

modelo

general

los

términos

π POBt |POBt −1 , EMPLEOt −1 , EMPLEOt−2 , SEXED , EDUC para su posterior contraste. iii.

Covariables endógenas con efectos simultáneos. Las consecuencias de imponer esta hipótesis sobre el modelo general se extraen fácilmente a partir de los casos anteriores. Puesto que las covariables pueden depender de la situación de pobreza del ciclo anterior y, además, no se permiten retardos en los efectos sobre la pobreza, las probabilidades excluidas del modelo general son π POBt |POBt −1 , EMPLEOt −1 , EMPLEOt−2 , SEXED , EDUC .

iv.

Covariables endógenas con efectos retardados. Finalmente, se relajan las restricciones anteriores y se plantea un modelo totalmente opuesto al primer caso. Todas las probabilidades excluidas se pueden contrastar en el modelo general,

es

decir,

los

términos

π EMPLEOt |EMPLEOt−1 , SEXED , EDUC , POBt −1

y

π POBt |POBt −1 , EMPLEOt −1 , EMPLEOt−2 , SEXED , EDUC se incorporan al modelo. Asimismo, debemos señalar que la expresión como modelos logit de las probabilidades condicionadas permite imponer otro tipo de restricciones en los parámetros para reflejar, por ejemplo, algún tipo de interacción entre las variables

Los perfiles de la privación en España: un estudio estático y dinámico

197

explicativas. En principio, en todos los modelos que se van a contrastar se supondrá que el mayor orden de los parámetros será dos, es decir, no se contempla la existencia de efectos de interacción entre dos covariables y la pobreza consistente. Por lo tanto, estamos en disposición de enumerar los distintos modelos por estimar: partiendo del modelo expresado en la ecuación [4.5] (modelo 1 en adelante), se incorporan las hipótesis mostradas anteriormente que producen los modelos 2, 3, 4 y 5, respectivamente. Para llegar a estos últimos, se sigue el procedimiento de la regresión recursiva por bloques (Wermuth, 1992) con el fin de determinar las probabilidades condicionadas donde las covariables del ciclo t son las variables explicadas. Además, como última hipótesis, se plantea la posibilidad de que sólo la covariable dinámica EMPLEOt tenga efectos directos. Es decir, a través de ella la situación laboral del ciclo anterior, el nivel educativo y el sexo y la edad afectan indirectamente a la situación de pobreza consistente del año t. Este modelo es más reducido, tanto en tablas marginales como en el número de parámetros que hay que estimar. Además, este supuesto pretende resolver un problema que puede aparecer en la metodología utilizada hasta ahora. Como ya se expuso anteriormente, la consideración de variables estáticas y sucesos como variables explicativas de la probabilidad de transición supone que ambos tipos de variables no están relacionados. Sin embargo, creemos arriesgado contemplar que, por ejemplo, la situación laboral es independiente del nivel educativo. Podemos decir que no se es más pobre por ser mujer o tener más de 65 años, sino por las circunstancias provocadas por estas características de la persona de referencia. Finalmente, las hipótesis sobre la endogeneidad o exogeneidad de la covariable dinámica deben ser planteadas y, en consecuencia, se estiman dos modelos llamados 2a y 4a por analogía con los modelos 2 y 4 planteados en párrafos anteriores. El problema que surge a la hora de contrastar la calidad del ajuste de los modelos es la dimensión de la tabla de frecuencias. A pesar de los intentos de reducir dicha dimensión y del tamaño muestral elevado, 5728 hogares, la tabla de frecuencias por estimar posee un gran número de celdas. Distintos autores, como Agresti (1990) han

198

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

mostrado que la aproximación ji-cuadrado de la distribución del estadístico L2 no es adecuada en tales circunstancias. En consecuencia y, por razones distintas a las esgrimidas hasta ahora, el estadístico BIC se utiliza, según la recomendación de Hagenaars (1990), para la selección del modelo que contiene la mayor cantidad de información sobre la realidad con el menor número de parámetros posible.

Tabla 4.34. Resultados del contraste para los modelos estimados Modelo Modelo 1 Modelo 1+ retardos Modelo 2 Modelo 3 Modelo 4 Modelo 5 Modelo 2a Modelo 4a

L2 13871,7250 13975,1324 15345,8915 15242,4840 15227,3147 15122,3280 15505,6093 15387,2212

G.L. 980967 980985 982707 982689 982689 982671 982761 982743

BIC -8474555,1182 -8474607,4669 -8488137,3835 -8488085,0347 -8488100,2040 -8488049,4345 -8488444,9342 -8488407,5661

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997).

Según este estadístico, el modelo 2a debe ser elegido, cuyas características principales son la exogeneidad de la covariable EMPLEO y la instantaneidad o simultaneidad de sus efectos sobre la variable dependiente, teniendo en cuenta, además, que recoge la influencia indirecta de las covariables estáticas, el nivel educativo y el sexo y la edad. Debemos comentar, además, que el modelo 4a presenta el segundo mejor valor del estadístico BIC, lo cual nos lleva a concluir que es acertada la hipótesis de la ausencia de los efectos directos de las covariables estáticas sobre la pobreza consistente en ciclos posteriores al inicial. Por otro lado, el modelo apoya los comentarios realizados al hablar de la incorporación de los cambios en la situación laboral como variables explicativas. Estamos ante un modelo que considera que la pobreza consistente en un período sólo depende de la situación laboral en el mismo momento. No obstante, formula la influencia de la situación en el ciclo t sobre la categoría en el t+1. Así, podemos decir

Los perfiles de la privación en España: un estudio estático y dinámico

199

que ésta última afecta indirectamente a través de la primera. En términos de independencia condicionada, la ausencia de efectos retardados de la covariable EMPLEO significa que la pobreza consistente en el momento t es independiente de la posición en el mercado de trabajo en el ciclo anterior condicionada a la situación en el ciclo t. Los resultados coinciden con los obtenidos en la mayoría de los trabajos realizados sobre la evolución de la pobreza como Muffels (2000) o Cantó (1996, 2000a, 2000b) y Cantó, del Río y Gradín (2002), así como con el análisis estático de este mismo trabajo, con las lógicas diferencias derivadas de las categorías intermedias de la pobreza definidas en el análisis dinámico. Antes de comentar detalladamente las estimaciones, consideramos necesario incidir en tales diferencias. Como se ha expuesto en varias ocasiones a lo largo de este apartado, mientras que en la mayoría de los trabajos la variable dependiente es la transición entre las categorías, en este estudio es la categoría ocupada en un ciclo posterior. La cuestión más destacable es la ausencia de los efectos directos de las covariables sobre las transiciones. No sólo no existen los términos de probabilidad

π POBt |POBt −1 , EMPLEOt , SEXED , EDUC , sino que, además, tampoco se presenta un efecto de interacción de tercer orden uijkPOBt , POBt −1 , EMPLEOt en los modelos logit estimados. Puesto que una de las hipótesis básicas del modelo es la independencia de la parte de medida y la estructural, en la tabla siguiente se muestran los efectos loglineales de segundo orden para las probabilidades estimadas mediante el sistema de modelos logit. Puesto que los parámetros loglineales deben cumplir la restricción de sumar cero, sólo se presentan los efectos de signo positivo42.

42

No obstante, en el anexo 5 se recogen todos los parámetros estimados, tanto positivos como

negativos.

200

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla 4.35. Estimaciones de los parámetros del modelo 2a Parámetro

π POB94 |EMPLEO94 , SEXED , EDUC

EMPLEO94 , EMPLEO95 u21

0,1415

u12POB94 , EMPLEO94

0,8372

EMPLEO94 , EMPLEO95 u22

1,4036

u14POB94 , EMPLEO94

0,1132

u33EMPLEO94 , EMPLEO95

1,8093

POB94 , EMPLEO94 u22

0,2604

u34EMPLEO94 , EMPLEO95

0,3623

POB94 , EMPLEO94 u24

0,0498

EMPLEO94 , EMPLEO95 u44

1,0861

u33POB94 , EMPLEO94

0,0605

u11EMPLEO95 , SEXED

0,2025

u34POB94 , EMPLEO94

0,1483

u12EMPLEO95 , SEXED

0,8016

POB94 , EMPLEO94 u41

0,7313

u13EMPLEO95 , SEXED

0,2169

POB94 , EMPLEO94 u43

0,4223

u15EMPLEO95 , SEXED

0,2081

u11POB94 , SEXED

0,2708

EMPLEO95 , SEXED u21

0,1826

u12POB94 , SEXED

0,0581

EMPLEO95 , SEXED u22

0,2771

u14POB94 , SEXED

0,5806

EMPLEO95 , SEXED u24

0,2736

u15POB94 , SEXED

0,3950

EMPLEO95 , SEXED u25

0,2099

POB94 , SEXED u22

0,1445

u33EMPLEO95 , SEXED

0,8822

POB94 , SEXED u23

0,2119

u36EMPLEO95 , SEXED

0,8888

POB94 , SEXED u25

0,0220

EMPLEO95 , SEXED u44

0,2347

POB94 , SEXED u26

0,1728

EMPLEO95 , SEXED u45

0,1512

u31POB94 , SEXED

0,2104

EMPLEO95 , SEXED u46

0,8252

u34POB94 , SEXED

0,3205

u13EMPLEO95 , EDUC

0,0533

u36POB94 , SEXED

0,2211

u14EMPLEO95 , EDUC

0,0800

POB94 , SEXED u42

0,2258

u15EMPLEO95 , EDUC

0,3824

POB94 , SEXED u43

0,4314

EMPLEO95 , EDUC u21

0,2748

POB94 , SEXED u46

0,2980

EMPLEO95 , EDUC u22

0,0846

u11POB94 , EDUC

1,3752

u34EMPLEO95 , EDUC

0,2731

u12POB94 , EDUC

0,5575

u35EMPLEO95 , EDUC

0,1396

POB94 , EDUC u22

0,0336

EMPLEO95 , EDUC u41

0,2951

POB94 , EDUC u23

0,0387

EMPLEO95 , EDUC u42

0,2307

POB94 , EDUC u24

0,2512

EMPLEO95 , EDUC u43

0,0445

Los perfiles de la privación en España: un estudio estático y dinámico

201

u31POB94 , EDUC

0,4556

π POB95 |POB94 , EMPLEO95

POB94 , EDUC 32

u

0,3404

u11POB94 , POB95

15,4354

u33POB94 , EDUC

0,0890

u12POB94 , POB95

11,0561

POB94 , EDUC u44

0,6212

u13POB94 , POB95

26,1972

POB94 , EDUC u45

2,1434

POB94 , POB95 u21

6,2791

POB94 , POB95 u22

8,4603 24,9399

π EMPLEO95 | EMPLEO94 , SEXED , EDUC u11EMPLEO94 , EMPLEO95

1,6549

POB94 , POB95 u24

u33POB94 , POB95

8,3180

u14EMPLEO96 , EDUC

0,1374

u34POB94 , POB95

12,2182

u15EMPLEO96 , EDUC

0,6057

POB94 , POB95 u43

5,1642

EMPLEO96 , EDUC u21

0,1567

POB94 , POB95 u44

15,5305

EMPLEO96 , EDUC u22

0,0391

u12POB95 , EMPLEO95

1,9177

EMPLEO96 , EDUC u23

0,1126

POB95 , EMPLEO95 u22

0,3464

u31EMPLEO96 , EDUC

0,1400

POB95 , EMPLEO95 u23

0,4856

u32EMPLEO96 , EDUC

0,1471

POB95 , EMPLEO95 u24

0,0931

u34EMPLEO96 , EDUC

0,0438

u31POB95 , EMPLEO95

0,6948

EMPLEO96 , EDUC u41

0,2843

u33POB95 , EMPLEO95

0,0256

EMPLEO96 , EDUC u42

0,0650

POB95 , EMPLEO95 u41

1,1016

EMPLEO96 , EDUC u43

0,0708

POB95 , EMPLEO95 u43

0,4341

EMPLEO96 , EDUC u44

0,0375

POB95 , EMPLEO95 u44

0,1281

π POB96 |POB95 , EMPLEO96

π EMPLEO96 |EMPLEO95 , SEXED , EDUC

u11POB95 , POB96

19,6376

u11EMPLEO95 , EMPLEO96

1,9192

u12POB95 , POB96

8,6200

u12EMPLEO95 , EMPLEO96

0,1001

u13POB95 , POB96

8,6128

EMPLEO95 , EMPLEO96 u21

0,3174

POB95 , POB96 u21

2,4139

EMPLEO95 , EMPLEO96 u22

1,3672

POB95 , POB96 u24

8,8629

u33EMPLEO95 , EMPLEO96

2,0543

u31POB95 , POB96

2,3958

u34EMPLEO95 , EMPLEO96

0,1822

u34POB95 , POB96

8,2165

EMPLEO95 , EMPLEO96 u43

0,2777

POB95 , POB96 u42

2,1592

EMPLEO95 , EMPLEO96 u44

1,1896

POB95 , POB96 u43

2,4972

u11EMPLEO96 , SEXED

0,3525

POB95 , POB96 u44

19,7909

202

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

u12EMPLEO96 , SEXED

0,5769

u12POB96 , EMPLEO96

1,1115

u15EMPLEO96 , SEXED

0,1546

POB95 , EMPLEO95 u22

0,5442

EMPLEO96 , SEXED u21

0,2494

u31POB95 , EMPLEO95

0,1484

EMPLEO96 , SEXED u22

0,0908

u33POB95 , EMPLEO95

0,0542

EMPLEO96 , SEXED u24

0,6507

u34POB95 , EMPLEO95

0,1784

EMPLEO96 , SEXED u25

0,0533

POB95 , EMPLEO95 u41

0,6124

u33EMPLEO96 , SEXED

0,8550

POB95 , EMPLEO95 u42

0,4194

u36EMPLEO96 , SEXED

0,1996

POB95 , EMPLEO95 u44

0,2430

u13EMPLEO96 , EDUC

0,0891

Fuente: Elaboración propia a partir del programa LEM (Vermunt, 1997). NOTA: La primera fila de cada columna es la estimación siguiente a la última fila de la columna anterior.

Entre las razones de esta aparente discrepancia está, por una parte, la mayor precisión a la hora de identificar a los hogares pobres realizada en este trabajo. El modelo sin covariables muestra una gran inmovilidad para las categorías extremas, es decir, se estima una dificultad elevada para pasar de la clase “pobreza consistente” a “no pobre” directamente. Además, es preciso recordar las conclusiones extraídas del análisis dinámico de la privación, donde las condiciones de vida, tanto básicas como secundarias o de la vivienda, presentan una inmovilidad elevada. Por tanto, es lógico pensar que los cambios experimentados por los hogares respecto a la pobreza consistente se deben a variaciones en los ingresos principalmente, causa asimismo de la pertenencia a las categorías intermedias de la pobreza consistente. En conclusión, los posibles efectos que un cambio en la situación laboral provoca sobre la pobreza consistente a través de una variación de la renta quedan mitigados por la presencia de más categorías, “pobreza consistente” y “pobreza según los ingresos” que una única “pobreza monetaria”. Por otro lado, debe tenerse en cuenta la amplitud temporal del estudio. En el momento de realizar esta tesis, sólo tres ciclos del Panel de Hogares están a disposición de los investigadores por lo que no es posible describir totalmente el proceso laboral o demográfico de los individuos. Por el contrario, otros estudios sobre la dinámica de la

Los perfiles de la privación en España: un estudio estático y dinámico

203

pobreza se basan en datos obtenidos de algunas fuentes como el GSOEP (German Socio-Economic Panel), el BHPS (British Household Panel Survey) o el PSID (Panel Study of Income Dynamics), compuestos por nueve, dieciocho y más de treinta ciclos, respectivamente. En lo que respecta a España, los trabajos de Cantó (1996, 2000a, 2000b) y Cantó, del Río y Gradín (2002) utilizan la ECPF (Encuesta Continua de Presupuestos Familiares) desde el primer trimestre de 1985 hasta el último trimestre de 1995. A pesar de ser un panel rotatorio, los hogares durante dos años son encuestados ocho veces, de manera que se pueden diferenciar efectos transitorios de situaciones laborales temporales. Por último, es necesario citar la influencia de la unidad de análisis elegida. En algunos trabajos como Muffels (2000), mientras que la variable dependiente es la transición individual (es decir, el individuo y no el hogar como unidad de análisis), las covariables se refieren al cabeza de familia del hogar. Por tanto, un único cambio aparece en tantas observaciones como miembros tenga el hogar y así, puede presentar mayor significatividad. Para concluir, sin dejar de considerar los motivos antes expuestos, podemos afirmar que las hipótesis realizadas en la especificación del modelo como un conjunto de modelos logit son acertadas y permiten una mejor representación de la realidad, puesto que eliminan los efectos redundantes de las covariables, así como diferencian entre su influencia directa e indirecta. En lo que respecta a las estimaciones del modelo, la pobreza consistente afecta a los hogares cuyo individuo de referencia está desempleado o pertenece al grupo dedicado a las tareas del hogar u otros inactivos así como sin estudios o estudios primarios. Finalmente, los hogares encabezados por jóvenes, sea cualquiera su sexo, y por mujeres entre 30 y 65 años tienen una mayor probabilidad de pertenecer a esta categoría. Los resultados coinciden con los existentes en la literatura relativa a la pobreza monetaria y, además, apoyan la hipótesis contrastada en este trabajo de la principal influencia de la

204

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

situación laboral, ya que los grupos de individuos con más problemas para acceder a un puesto de trabajo son también los más propensos a experimentar esta situación. En el otro extremo, los hogares no pobres se caracterizan por tener una persona de referencia ocupada o jubilada, con estudios secundarios de segundo ciclo o universitarios y hombre entre 30 y 65 años o de cualquier sexo con más de 65 años. De nuevo, la situación laboral cobra importancia, puesto que, por una parte, se estima que el grupo de sexo y edad con mayor participación en la fuerza laboral presente esta situación y, por otra, los mayores niveles educativos también son importantes. Según la teoría del capital humano, la inversión en educación reporta, generalmente, una mejor situación laboral y unos mayores ingresos posteriormente. Finalmente, la acumulación de bienes a lo largo del ciclo vital puede hacer que los hogares puedan hacer frente a las necesidades básica y secundaria a pesar de su edad así como un posible efecto de reducción de las expectativas de los hogares al aumentar la edad. Por otro lado, la categoría caracterizada por la discrepancia entre pobreza monetaria y condiciones de vida parece representar, en principio, pues sería necesario un estudio más prolongado, un período transitorio. El motivo es que afecta, principalmente, a hogares cuya persona de referencia está desempleado o pertenece a otro tipo de inactivos, tiene más de 30 años y cualquier nivel educativo menos los extremos. Por tanto, parece ser un escalón inicial, ya que los hogares parecen mantener su nivel de vida a pesar del descenso de los ingresos utilizando sus ahorros. En consecuencia, los hogares encabezados por jóvenes no han podido aún acumular un volumen de fondos suficiente para sostener un nivel de vida adecuado. Por último, la categoría cuyo rasgo básico es el disfrute de un estilo de vida menor está más relacionada con hogares cuya persona de referencia no está desempleada, es joven o mujer mayor de 65 años y nivel educativo inferior al segundo ciclo de secundaria. Este fenómeno puede responder a un primer escalón en el camino desde la no pobreza a la privación, en el que, lógicamente, un hogar en situación de desempleo reduce la satisfacción de las necesidades secundarias en primer lugar, así como a los

Los perfiles de la privación en España: un estudio estático y dinámico

205

primeros pasos en la vida laboral de los hogares encabezados por jóvenes, donde aún no se pueden satisfacer las necesidades secundarias, pospuestas para un momento posterior del ciclo vital. En lo que respecta a la movilidad de la privación consistente, dejando aparte el proceso de la covariable EMPLEO, se estima que el paso directo entre las categorías extremas es prácticamente imposible. Siguiendo lo expuesto al comentar las diferencias entre este trabajo y otros publicados, las categorías extremas representan unos fenómenos “permanentes”, más estables en el tiempo, cuyas variaciones provocan el cambio a una de las categorías intermedias. Por tanto, es necesario el estudio de un período de tiempo mayor para determinar el tipo de trayectoria de entrada, salida o persistencia en la privación consistente. Al igual que en el modelo sin las covariables, las categorías intermedias parecen mostrar una mejora de la situación, puesto que la mayor probabilidad de transición es a la categoría de “no privación” en las dos transiciones consideradas: 94-95 y 95-96, a no ser que el cabeza de familia esté desempleado. En este último caso, las probabilidades de mejorar son menores y, viceversa, es más probable que empeore. Aunque los valores más elevados de las probabilidades corresponden a la permanencia en tales categorías, persistencia más acusada en la clase “pobreza según los ingresos”, a medida que el tiempo transcurre la persistencia es menor y los cambios a la categoría de “no privación” mayores. La incorporación de la covariable EMPLEO mejora las estimaciones del modelo sin las covariables por el efecto ya comentado de la situación de desempleo sobre la privación consistente. Por último y relacionado con la afirmación anterior, pasamos a comentar la dinámica de la situación laboral. Los resultados confirman las conclusiones realizadas al plantear el modelo: tanto el nivel educativo como el sexo y la edad influyen en el cambio de categoría para esta variable. Como es de esperar, la ocupación se relaciona con un nivel educativo superior a los estudios primarios en todos los ciclos y el desempleo es más frecuente si el individuo de referencia no tiene estudios o como máximo estudios

206

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

primarios. Por tanto, la educación no afecta directamente a la pobreza, sino indirectamente a través de la situación laboral. De igual manera, el sexo y la edad de la persona de referencia influyen en la ocupación o no del individuo. Al igual que en el análisis estático, a pesar de la diferente codificación de la variable EMPLEO, los hombres entre 30 y 65 años tienen una mayor probabilidad de estar ocupados respecto al desempleo y, por otro lado, los jóvenes y las mujeres de estar desempleados comparados con la ocupación. Por tanto, se observan los grupos de individuos más vulnerables respecto al desempleo, circunstancia ya presentada como muy influyente sobre la situación de pobreza consistente. En resumen, el análisis dinámico latente realizado en este trabajo ha determinado la existencia de algunas situaciones no presentadas hasta ahora entre los casos extremos de la pobreza consistente y la no pobreza consistente. Dichas situaciones están causadas por las variaciones transitorias de los ingresos y, por tanto, provocan que sea casi nulo el número de hogares que cambian totalmente su posición respecto a la privación. En consecuencia, se plantea la existencia de un proceso gradual del empobrecimiento y la mejora de las condiciones de vida. A la hora de estudiar la influencia de algunas variables no incluidas en el análisis de la pobreza, se constata que la situación laboral, el nivel educativo y el sexo y la edad del individuo de referencia del hogar son factores que determinan la presencia en la situación de pobreza consistente en los términos expuestos en los párrafos anteriores, con la salvedad de que, mientras que el desempleo afecta directamente a la pobreza, el nivel educativo y el sexo y la edad lo hacen indirectamente a través de la situación laboral. No se espera que un hogar que dependa de una mujer joven sea pobre por la edad y el sexo de la persona de referencia, sino porque con estos rasgos es más probable que esté desempleada, hecho muy relacionado con la pobreza. Finalmente, el trabajo realizado experimentaría una notable mejora con la continuación del estudio para los próximos ciclos previstos del Panel de Hogares.

Conclusiones

207

Conclusiones Dentro del área de la Economía aplicada, esta tesis ha nacido y se ha desarrollado en el campo de los métodos cuantitativos aplicados a la economía. En consecuencia, tanto las conclusiones como las futuras líneas de investigación se agruparán según su carácter metodológico o empírico, a pesar de su interrelación ya expuesta en la introducción.

Conclusiones metodológicas En lo que respecta a los modelos presentados en la metodología, cabe destacar la conveniencia de utilizar un sistema de modelos logit multinomiales para estimar la evolución de un conjunto de relaciones entre algunas variables categóricas. La descomposición de la probabilidad conjunta como un producto de varias probabilidades marginales y condicionadas según Vermunt (1997) permite una mejor estimación y contrastación de las hipótesis teóricas por comprobar al reducir la dimensión de las respectivas tablas marginales. Asimismo, si la movilidad o evolución de una variable categórica se considera como independencia o impredecibilidad, la aplicación de los modelos log-lineales causales hace que se supere el marco meramente descriptivo usualmente utilizado y la limitación de comparar exclusivamente las situaciones inicial y final, ya que se puede estudiar el camino seguido así como la influencia de otras variables en dicha evolución. En este trabajo, se ha presentado una extensión longitudinal del modelo de clases latentes clásico, aplicado en especial al análisis dinámico de un conjunto de variables categóricas. Es decir, el modelo LISREL modificado, propuesto por Hagenaars (1990), se muestra como una manera válida de formular algunas variables latentes en un estudio de movilidad o cambio. La introducción de este tipo de variables puede estar motivada por el carácter no observable de la variable objeto del estudio como ocurre en este caso con la pobreza o la privación, la necesidad de delimitar el cambio real y el ficticio provocado por los errores de medida o la búsqueda de distintos grupos con un

208

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

comportamiento homogéneo respecto del tiempo. Como se ha comprobado, no son opciones excluyentes, sino que pueden darse simultáneamente. Además, se ha mostrado cómo la metodología LISREL modificada no sólo hace posible analizar la evolución de una variable latente, sino también incorporar algunas variables explicativas exógenas o endógenas. A pesar de las ventajas de esta modelización, se propone una metodología que la supera al permitir la inclusión de covariables continuas así como la diferenciación de efectos directos e indirectos de las covariables, como de hecho sucede en la parte empírica de la tesis. Se presentan los modelos gráficos de cadena, los cuales dividen el conjunto de vértices o variables en varios subconjuntos relacionados entre sí formando la llamada cadena de dependencia. Al considerar el tiempo como el factor que determina la pertenencia a cada componente, estamos ante un caso particular conocido como modelo gráfico dinámico de interacción. En este trabajo, partiendo del trabajo inicial de Lynggaard y Walther (1993) y otros posteriores como Dalhaus (1999), Didelez (1999), Dalhaus y Eichler (2000) y Eichler (1999, 2001) aplicados a las series temporales y los procesos estocásticos multidimensionales se ha definido por primera vez: 1. La variable latente dentro de un modelo gráfico de cadena. 2. El modelo latente de Markov como un modelo gráfico dinámico de interacción. 3. Las condiciones para que una variable se considere covariable del proceso dinámico objeto de estudio, así como los requisitos para considerarla intermedia, instantánea o retardada. 4. La exogeneidad o endogeneidad de las covariables. 5. Los modelos gráficos dinámicos de interacción correspondientes al modelo mixto de Markov y al modelo mixto markoviano de clases latentes. 6. En definitiva, la expresión de todo modelo dinámico latente con covariables como un modelo gráfico dinámico de interacción.

Conclusiones

209

Conclusiones del análisis empírico Muestra cómo el modelo de clases latentes es una herramienta válida para clasificar los hogares según su nivel de privación. De esta manera, se superan los problemas derivados del uso de un indicador indirecto y multidimensional, la renta o los ingresos, para medir un fenómeno multidimensional, la privación, incorporando un conjunto de indicadores directos sobre las condiciones de vida. Además, la consideración de la privación como una variable categórica elimina el problema de la determinación del umbral. Al igual que en otros trabajos citados en el desarrollo del trabajo, se contemplan distintas dimensiones de la privación. Exactamente, se ha diferenciado entre necesidades básicas, secundaras y de la vivienda. La privación básica se refiere a la capacidad de calentar adecuadamente el hogar, renovar parcialmente su vestuario, comer carne o pescado cada dos días, invitar a una copa o comida en el hogar una vez al mes, no tener retrasos en los pagos ordinarios y permitirse poseer un coche o teléfono. Los resultados para 1994 muestran que las necesidades básicas se satisfacen por la mayoría de la población, puesto que sólo un 9,04% de los hogares se hallan en una situación donde sólo pueden permitirse una comida cada dos días y el teléfono. Este hecho se repite en la privación de la vivienda donde sólo un 2,13% se caracteriza por un mayor nivel de privación. Es decir, gran parte de los hogares residen en una vivienda sin problemas. A pesar del sorprendente resultado en apariencia, hay que tener en cuenta los hogares objeto de la encuesta cuyos datos se han utilizado. En consecuencia, los hogares sin vivienda o en infravivienda están poco representados en la muestra. Finalmente, la privación secundaria está relacionada con el estilo de vida y, por tanto, los porcentajes son muy parecidos en cada categoría, 28,24%, 31,33% y 40,44%, respectivamente. Entre los bienes duraderos, la categoría de mayor privación se caracteriza por tener capacidad para hacer frente sólo al televisor en color.

210

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Una vez estudiada cada faceta de la privación, se combinan todas ellas. Se determina así la existencia de tres categorías, de nuevo, entre las que se distribuyen los hogares. Como cabe esperar tras el análisis sectorial, la privación básica y la secundaria son las más importantes para determinar la pertenencia a cada categoría. Por un lado, un 12,61% de los hogares están en una privación elevada, situación en la que se encuentra si al menos en una de las anteriores se halla en la categoría de mayor privación. El trabajo aquí realizado confirma las críticas de Ringen a la renta como indicador del nivel de vida puesto que, análogamente a otros estudios ya citados, se obtiene una baja correlación entre la privación y la renta, tanto sectorial como conjuntamente. Lógicamente, la relación existente entre la pobreza monetaria y la privación también es reducida. Además, aparecen algunos hogares según uno de los criterios y no pobres según el otro. Para ser más precisos, es mayor el número de hogares pobres por la renta sin presentar privación según sus condiciones de vida que viceversa. En consecuencia, se aconseja combinar ambos criterios para identificar con mayor precisión los hogares o individuos en peor situación y, por tanto, aquellos cuya atención es prioritaria. Este análisis estático se desarrolla según las dos vías posibles: por una parte, la determinación de los grupos de la población más relacionados con la privación y, por otra, el estudio de su evolución temporal. Respecto a la primera, las características de los hogares con mayor privación son prácticamente los mismos que para la pobreza monetaria. El tipo de hogar, la fuente principal de ingresos, la situación laboral y el nivel educativo de la persona de referencia de tales hogares es muy similar y, por lo tanto, caracterizan también la pobreza consistente. En concreto, los hogares con mayor riesgo de privación son los monoparentales con hijos menores, las parejas con un miembro mayor de 65 años y las familias con más de dos hijos menores así como los hogares formados por un solo individuo (tipo de hogar), los que reciben sus ingresos principalmente de las prestaciones por desempleo u otras prestaciones (fuente principal de ingresos), los encabezados por un desempleado, alguien dedicado a tareas del hogar u otros inactivos

Conclusiones

211

(situación laboral) y aquellos cuya persona de referencia como máximo tiene estudios primarios. El sexo y la edad presentan ligeras diferencias dentro de su gran similitud ya que la edad parece influir en la privación, pero no en la pobreza monetaria. Este fenómeno puede deberse a la dimensión secundaria, donde los mayores obtienen valores de privación más elevados y, por tanto, es más probable que estén en una situación de privación conjunta alta. Donde coinciden es en la influencia del sexo: tanto la pobreza monetaria como la privación son fenómenos principalmente femeninos. Otro hecho destacable es el relativo al origen principal de los ingresos donde se constata el fenómeno de la infradeclaración de los ingresos en el trabajo autónomo, aunque el nivel de vida sea adecuado o incluso elevado. En resumen, la situación laboral para ser el factor determinante, ya que el resto de riesgos están muy relacionados con el desempleo. El segundo aspecto citado, la evolución temporal, se resume en la mejora de la situación de los hogares, porque los hogares móviles pertenecen principalmente a las categorías de privación ligera y elevada. Es lógico este hecho, puesto que se necesita un período relativamente extenso para pasar a una situación de privación extrema, esto es, es más fácil pasar a una situación de pobreza monetaria que a una de privación. Los análisis por dimensiones ofrecen los mismos resultados: existen tres grupos en la población, uno de ellos compuesto por hogares inmóviles perteneciente en su mayoría a las categorías de no privación. Las diferencias entre ellas se hallan en la dimensión básica donde la privación elevada posee un grado de inmovilidad importante y la secundaria con una movilidad mayor. Las razones de ambos fenómenos son claras: es difícil salir de una situación tan complicada como la privación básica elevada y, por otro, la dimensión secundaria o estilo de vida se distribuye de manera muy similar entre todas sus categorías. Una vez analizada la evolución de la privación, se propone mejorar el estudio de la pobreza, combinando la información sobre la renta y las condiciones de vida como Ringen recomienda. En este caso, no se contempla la dimensión de la vivienda por su

212

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

gran inmovilidad así como el reducido tamaño de la categoría de mayor privación. Además, se agrupan las categorías de privación ligera y reducida, puesto que el objetivo es la evolución de los hogares para la privación elevada y la pobreza monetaria combinadas. Es decir, podemos hablar de un análisis dinámico de la pobreza consistente. El mejor modelo es aquel que considera cuatro clases distintas en las cuales además de los casos extremos “pobres consistentes” y “no pobres” se consideran dos categorías que recogen a los pobres según la renta en situación de no privación y los no pobres con un estilo de vida bajo. Se estima que un 8,82% de la población está en situación de pobreza consistente mientras que el 60,14% de los hogares son no pobres. Los pobres según los ingresos y los no pobres con un bajo estilo de vida son el 9,41 y 21,64%, respectivamente. En consecuencia, la incorporación de las condiciones de vida mejora la medición de la pobreza. Por otro lado, además de la alta permanencia, destaca la inexistente transición entre los casos extremos. Es decir, las categorías intermedias representan situaciones sucesivas en el proceso de empobrecimiento o inclusión. Las variaciones ligeras en los ingresos tienen menor influencia que en un análisis basado únicamente en la renta al considerarse también las condiciones de vida y éstas últimas cambian más lentamente. Por esta razón, la inmovilidad es relativamente elevada. Finalmente, se incorporan algunas variables para explicar la movilidad de la pobreza consistente. La principal aportación es la distinción entre covariables directas como la situación laboral e indirectas como el grado educativo y el sexo y la edad. El modelo estimado muestra cómo la ocupación es determinante para no ser pobre consistente y, además, que los hogares encabezados por jóvenes, mujeres o individuos con bajo nivel educativo tienen mayor probabilidad de estar desempleados. En resumen, se comprueba que el empobrecimiento es un proceso paulatino, aún más con la incorporación de las variables referidas al nivel de vida. Así se comprenden los hallazgos aparentemente contradictorios citados por Layte y Whelan (2002). En este

Conclusiones

213

trabajo se comenta cómo los estudios de Bane y Ellwood (1986), Heady, Krause y Habich (1994) y Jenkins y Rigg (2001) muestran unos mayores movimientos de entrada y salida de la pobreza de los esperados a priori en algunos países desarrollados como Estados Unidos, Alemania y Gran Bretaña. Aún más, Leisering y Leibfried (1999) han encontrado que gran parte de los períodos de pobreza son muy cortos. La menor movilidad mostrada en el trabajo que nos ocupa respecto a los anteriores se debe a la mayor lentitud de los cambios en el nivel de vida del hogar en relación con la renta. En lo relativo a los factores externos que influyen sobre la situación de pobreza consistente, destaca la gran importancia de la situación laboral de la persona de referencia. De hecho, es la única variable entre las consideradas que tiene efectos directos sobre la evolución de la pobreza consistente. Como podía esperarse a priori la situación de ocupado estimula la salida de la situación de pobreza consistente y el mantenimiento en la mejor categoría. Sin embargo, esto no significa que variables como el nivel educativo o el sexo y la edad de dicho individuo de referencia no sean relevantes. Se ha comprobado su influencia indirecta sobre la pobreza consistente a través de su situación laboral. Es decir, aparecen unos grupos de riesgo, jóvenes, mujeres e individuos con un bajo nivel educativo que, por su menor probabilidad de encontrarse ocupados, sufren un mayor riesgo de entrada o permanencia en la pobreza. Por tanto, una estrategia por parte de los poderes públicos para reducir la pobreza debe tener en cuenta la inclusión en la población ocupada de los grupos antes comentados para así aumentar su probabilidad de salida de la pobreza.

Principales líneas de investigación Para finalizar este trabajo, comentamos algunas líneas de investigación que el autor pretende desarrollar en adelante. En primer lugar, los métodos estadísticos aquí mostrados suscitan cuestiones como la aplicación de la propiedad de Markov recursiva de bloques alternativa a los modelos gráficos dinámicos de interacción, la estimación mediante simulaciones repetidas como el bootstrapping o el método de Monte Carlo así

214

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

como, siguiendo las últimas investigaciones de Lauritzen o Eichler, continuar el estudio mediante los modelos gráficos de interacción de las relaciones de causalidad, la causalidad inversa, la dicotomía causalidad-correlación o la causalidad espuria. En un segundo escalón, sin abandonar el estudio del análisis estadístico multivariante, consideramos interesante el desarrollo de algunos métodos estadísticos aplicados al estudio de la pobreza como el análisis de la distribución de probabilidad de los índices de pobreza (Schluter, 1998), la metodología bootstrap aplicada a la pobreza y la desigualdad (Biewen, 1999 y Heinrich, 1998), el desarrollo de los modelos dinámicos de la pobreza con transiciones endógenas (Burgess, Propper y Dickson, 2002) o los modelos de regresión endógena cambiante (Cappellari y Jenkins, 2002). Finalmente, esta tesis se puede ampliar en el aspecto meramente empírico. El primer reto, como ya se ha indicado en el capítulo anterior, es la continuación del estudio en los siguientes ciclos del PHOGUE y en su sucesor EU-SILC (European Union – Statistics on Income and Living Conditions), a partir de 2003, para comprobar la evolución de los hogares estudiada. Además de la dimensión temporal, otra ampliación posible de este trabajo es la espacial en una doble dirección. En primer lugar, se puede superar el límite nacional aprovechando la principal característica del PHOGUE, la comparabilidad entre los países miembros. Así, se propone el estudio de la pobreza consistente y su movilidad en los distintos estados miembros de la Unión, información que consideramos muy interesante para lograr la cohesión social de los estados miembros actualmente y de los futuros miembros tras la proyectada ampliación. Asimismo, el trabajo puede extenderse espacialmente descendiendo en la escala de las unidades territoriales, esto es, desarrollando un análisis regional de la pobreza y la privación. En este caso, podría utilizarse también la Encuesta Continua de Presupuestos Familiares como base de datos del estudio con la ventaja de que los microdatos están disponibles al público con mayor antelación que los correspondientes al PHOGUE. Cabe comentar en este punto que, en lo que respecta a Extremadura, se está comenzado a crear un grupo de investigación sobre la pobreza.

Conclusiones

215

Por otro lado, otros asuntos que creemos de interés son la metodología alternativa para la medida de la exclusión social planteada por D’Ambrosio junto a Peragine (2001) y a Papadopoulos y Tsakloglou (2002), la valoración de las propuestas realizadas por el Consejo Económico y Social en el Plan para la inclusión social (2001) o la construcción de un modelo que permita simular la situación creada por la aplicación de determinadas políticas públicas y analizar sus efectos sobre la pobreza y la privación. Por último, no desearía terminar esta tesis sin hacer referencia a algunas reflexiones personales suscitadas por las lecturas y el análisis realizados. Haber comenzado a estudiar en esta tesis, por una parte, un asunto tan relacionado con el inicio de la ciencia económica como la pobreza y, por otra, su carácter multidimensional me ha llevado a plantearme cuestiones como ¿qué es pobreza?, ¿qué es necesidad?, ¿existe un nivel aceptable de pobreza?, ¿cómo debe ser una sociedad para considerarse desarrollada?, ¿qué modelo económico es más justo? o la relación entre la ética y la economía. El camino está abierto para todas las líneas planteadas. Dependerá de la capacidad de este investigador y de la estabilidad que le preste su entorno de trabajo el desarrollo satisfactorio de alguna de ellas.

APÉNDICE 1. Algunos conceptos básicos de los modelos gráficos

217

APÉNDICE 1. Algunos conceptos básicos de los modelos gráficos Sea X V = (Y ', I ') ' un vector aleatorio donde Y está formado por R variables continuas e I de Q variables discretas. Los valores particulares de Y vienen dados por y∈

R

y el conjunto de todos las observaciones i de I por Ι. Por otro lado, el conjunto V

se compone de dos subconjuntos disjuntos Γ y ∆, es decir, V = Γ ∪ ∆ , Γ ∩ ∆ = ∅ , donde Γ se refiere a las variables continuas y ∆ a las discretas. Un grafo está compuesto por un conjunto V finito no vacío de vértices que representan las variables aleatorias y otro conjunto de arcos E ⊆ V × V que recoge las asociaciones entre algunas parejas de variables. Gráficamente se representan las variables discretas mediante puntos y las continuas con círculos. Si dos vértices a y b están conectados por un arco no dirigido, o asociación simétrica, entonces (a,b) ∈ E y (b,a) ∈ E. Si esto ocurre, a y b se llaman vecinos y se representan los vecinos de a por ne(a). En caso de que dos vértices estén unidos por una flecha desde a hasta b, entonces (a,b) ∈ E y (b,a) ∉ E. Cuando se produce esta asociación asimétrica, se dice que a es un padre de b, pa(b), y respectivamente b es un hijo de a, ch(a). A partir de las definiciones anteriores, se llama frontera de A, bd(A), de cualquier subconjunto A de V al conjunto de vértices de V\A que son padres o vecinos de los vértices de A, es decir, bd ( A) = a∈A { pa(a) ∪ ne(a)} \ A y la cercanía de A, cl(A), a la unión de A y su frontera, A∪bd(A). Un camino es la conexión de una secuencia de vértices distintos a(1),…,a(n) con

( a(i − 1), a(i ) ) ∈ E, i = 2, , n . Si existe un camino que lleva de a a b y no de b a a, a es un ancestro, an(b), y b un descendiente de a, de(a). Un conjunto de vértices sin ancestros se conoce como conjunto ancestral. Si hay un camino desde a a b y otro de b a

218

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

a, se dice que ambos vértices están conectados. Por otra parte, dados tres subconjuntos disjuntos, A, B y C, de V, C separa A y B si cada camino desde un vértice a de A y b de B pasa por C. Existen varios tipos de grafos dependiendo de los arcos que los componen. Un grafo no dirigido sólo contiene arcos no dirigidos, es decir, asociaciones simétricas y, por el

contrario, un grafo dirigido presenta arcos dirigidos. Si, además, no contiene ningún ciclo, el grafo se conoce como grafo dirigido acíclico. Las probabilidades condicionadas se pueden extraer a partir de los grafos de manera que la independencia se representa por un arco ausente. Dicha relación se establece mediante las propiedades de Markov, diferentes según el tipo de grafo de que se trate. Propiedades de Markov para los grafos no dirigidos

Sea G=(V,E) un grafo no dirigido y P una familia de distribuciones de probabilidades que satisface las siguientes propiedades: i.

propiedad de Markov por parejas si ∀(i, j ) ∉ E , con i≠j, se cumple que X i ⊥ X j | X V \{i , j} . Es decir, dos variables son independientes condicionados al resto si no existe un arco que los una.

ii.

propiedad de Markov local si ∀i ∈ E , se cumple que X i ⊥ X V \ cl (i ) | X bd (i ) . Esto es, una variable es independiente de las no unidas a ella mediante un arco condicionada a su frontera.

iii.

propiedad de Markov global si para todos los conjuntos disjuntos A, B y C de V, siempre que A y B estén separados por C, entonces X A ⊥ X B | X C . Si todos los caminos que conectan dos subconjuntos de vértices pasan por otro subconjunto, todas las variables de los primeros son independientes condicionadas a las del tercero.

Propiedades de Markov para los grafos dirigidos acíclicos

Sea G=(V,E) un grafo dirigido acíclico y P una familia de distribuciones de probabilidades que satisface las siguientes propiedades:

APÉNDICE 1. Algunos conceptos básicos de los modelos gráficos

i.

219

propiedad de Markov por parejas si ∀(i, j ) ∉ E , que no son vecinos con i≠j y j∈nd(i), se cumple que X i ⊥ X j | X nd (i )\{ j} , donde nd(i) son los vectores no descendientes de i.

∀i ∈E, se cumple que

X i ⊥ X nd (i )\ pa (i ) | X pa ( i ) .

ii.

propiedad de Markov local si

iii.

propiedad de Markov global si para todos los conjuntos disjuntos A, B y C de V, siempre que A y B estén separados por C en ( GAn ( A∪ B ∪C ) ) , entonces m

X A ⊥ X B | XC .

ANEXO 1. Codificación de las variables

221

ANEXO 1. Codificación de las variables VARIABLE

DESCRIPCIÓN

HID

NÚMERO DE IDENTIFICACIÓN DEL HOGAR.……………..11-999999977

HG001

NÚMERO

DE

IDENTIFICACIÓN

DE

LA

PERSONA

DE

REFERENCIA.......................................................................1101-99999997796 HD001

NÚMERO DE MIEMBROS DEL HOGAR NÚMERO…………………………………………………...……….…….1-96 NO CONSTA………………………………………………....….………..… -9

HD005

NÚMERO DE UNIDADES DE CONSUMO. ESCALA OCDE CORREGIDA (1+ 0,5 * (HD003-1) + 0,3 * (HD001 – HD003)) NÚMERO……………………………………………………....…………..1-50 NO CONSTA…………………………………………………….....…………-9

HD006

COMPOSICIÓN DEL HOGAR UNA PERSONA DE 65 Ó MÁS AÑOS............................................................1 UNA PERSONA DE EDAD DE 30 A 64……………………..…………...…..2 UNA PERSONA DE MENOS DE 30 AÑOS………….………..…………..…3 UN ADULTO CON UNO Ó MÁS HIJOS MENORES DE 16 AÑOS..…........4 UN ADULTO CON AL MENOS UN HIJO DE 16 Ó MÁS AÑOS...…..…….5 PAREJA SIN HIJOS TENIENDO AL MENOS UNO DE LOS MIEMBROS 65 AÑOS Ó MÁS………………………………………….....……………..…6 PAREJA SIN HIJOS TENIENDO LOS DOS MIEMBROS MENOS DE 65 AÑOS……………………………………….................................................…7 PAREJA CON UN HIJO MENOR DE 16 AÑOS……………..….………...…8 PAREJA CON DOS HIJOS MENORES DE 16 AÑOS……………………....9 PAREJA CON TRES O MÁS HIJOS MENORES DE 16 AÑOS…………...10 PAREJA CON AL MENOS UN HIJO DE 16 Ó MÁS AÑOS………….…...11 OTROS HOGARES………………………………………………………….12 NO CONSTA………………………………………………………………....-9

222

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

VARIABLE HI001

DESCRIPCIÓN PRINCIPAL FUENTE DE INGRESOS DEL HOGAR EL AÑO ANTERIOR A LA ENTREVISTA EL HOGAR NO HA TENIDO INGRESOS …………………………………..0 TRABAJO POR CUENTA AJENA….……………………………………..…1 TRABAJO POR CUENTA PROPIA.…………………………………………2 PENSIONES CONTRIBUTIVAS Y NO CONTRIBUTIVAS.……………....3 SUBSIDIOS Y PRESTACIONES DE DESEMPLEO.…………..…………...4 OTROS SUBSIDIOS Y PRESTACIONES SOCIALES………………..….…5 OTROS INGRESOS………………….………………………………….…….6 NO CONSTA…………………………………………………….…………...–9

HI200

INGRESOS MENSUALES NETOS ACTUALES DEL HOGAR (1994 PARA EL PRIMER CICLO, 1995 PARA EL SEGUNDO Y 1996 PARA EL TERCERO) IMPORTE (PTAS)………………………....……………………0-9999999990 NO CONSTA…………………………………………………….………..…..-9

HF002

EN RELACIÓN CON EL TOTAL DE INGRESOS NETOS MENSUALES QUE PERCIBE SU HOGAR EN LA ACTUALIDAD, ¿CÓMO SUELE LLEGAR A FIN DE MES? CON MUCHA DIFICULTAD ………………………………………………..1 CON DIFICULTAD………………………………………………….……..…2 CON CIERTA DIFICULTAD……………………………………………...…3 CON CIERTA FACILIDAD……………………………………………….....4 CON FACILIDAD……………………………………………………..….…..5 CON MUCHA FACILIDAD……………………………………….……….…6 NO CONSTA…………………………………………………….…………...–9

HF003

¿PUEDE EL HOGAR PERMITIRSE UNA CALEFACCIÓN ADECUADA PARA SU VIVIENDA? SÍ……………………………………………………………………………….1 NO…………………………………………………………………..……….…2

ANEXO 1. Codificación de las variables

VARIABLE

223

DESCRIPCIÓN NO CONSTA…………………………………………………….…………...-9

HF004

¿PUEDE EL HOGAR PERMITIRSE VACACIONES PAGADAS FUERA DE CASA, AL MENOS UNA SEMANA AL AÑO? SÍ……………………………………………………………………………….1 NO………………………………………………………………...……………2 NO CONSTA…………………………………………………….………….. –9

HF005

¿PUEDE

EL

HOGAR

PERMITIRSE

RENOVAR

PARTE

DEL

MOBILIARIO? SÍ…………………………………………………………………………….…1 NO………………………………………………………………..…………….2 NO CONSTA…………………………………………………….…………...-9 HF006

¿PUEDE EL HOGAR PERMITIRSE LA COMPRA DE PRENDAS DE VESTIR NUEVAS? SÍ……………………………………………………………………………….1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….…………...–9

HF007

¿PUEDE EL HOGAR PERMITIRSE HACER UNA COMIDA DE CARNE, POLLO, PESCADO, AL MENOS CADA DOS DÍAS? SÍ…………………………………………………………………………….…1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….…………...–9

HF008

¿PUEDE EL HOGAR PERMITIRSE INVITAR A AMIGOS O FAMILIARES A UNA COPA O A UNA COMIDA EN EL HOGAR, AL MENOS UNA VEZ AL MES? SÍ……………………………………………………………………………….1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….…………...–9

HF009

¿EN LOS ÚLTIMOS 12 MESES, HA TENIDO EL HOGAR ALGUNA DIFICULTAD QUE HAYA DADO LUGAR A RETRASOS EN EL PAGO

224

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

VARIABLE

DESCRIPCIÓN DE ALQUILER DE LA VIVIENDA? SÍ……………………………………………………………………………….1 NO / NO APLICABLE……..………..………………………..……………….2 NO CONSTA…………………………………………………….…………...–9

HF010

¿EN LOS ÚLTIMOS 12, MESES HA TENIDO ALGUNA DIFICULTAD EL HOGAR

QUE

DEVOLUCIÓN PRÉSTAMOS

HAYA DE

DADO

LUGAR

PRESTAMOS

RELACIONADOS

A

RETRASOS

HIPOTECARIOS

CON

LA

COMPRA

EN

Y O

LA

OTROS GRAN

REPARACIÓN DE LA VIVIENDA? SÍ……………………………………………………………………………….1 NO / NO APLICABLE……..………..………………………..……………….2 NO CONSTA…………………………………………………….…………...–9 HF011

¿EN LOS ÚLTIMOS 12, MESES HA TENIDO ALGUNA DIFICULTAD EL HOGAR QUE HAYA DADO LUGAR A RETRASOS EN EL PAGO DE RECIBOS DE AGUA, GAS, ELECTRICIDAD, IMPUESTO DE BIENES INMUEBLES, ETC.? SÍ……………………………………………………………………………….1 NO / NO APLICABLE……..………..………………………..……………….2 NO CONSTA…………………………………………………….…………...–9

HF012

¿EN LOS ÚLTIMOS 12 MESES, HA TENIDO ALGUNA DIFICULTAD EL HOGAR QUE HAYA DADO LUGAR A RETRASOS EN EL PAGO DE COMPRAS APLAZADAS (PAGOS DE COMPRAS EFECTUADAS CON TARJETAS DE CRÉDITO Y OTROS REEMBOLSOS DE PRÉSTAMOS NO RELACIONADOS CON LA VIVIENDA HABITUAL? SÍ……………………………………………………………………………….1 NO / NO APLICABLE……..………..………………………..……………….2 NO CONSTA…………………………………………………….…………...–9

HA008

¿DISPONE LA VIVIENDA DE COCINA INDEPENDIENTE? SÍ……………………………………………………………………………….1

ANEXO 1. Codificación de las variables

VARIABLE

225

DESCRIPCIÓN NO…………………………………………………………………..………….2 NO CONSTA………………………………………………….………..…….–9

HA009

¿DISPONE LA VIVIENDA DE INSTALACIÓN FIJA DE BAÑO O DUCHA? SÍ……………………………………………………………………………….1 NO…………………………………………………………………..….………2 NO CONSTA..………………………………………………….………........–9

HA010

¿DISPONE LA VIVIENDA DE INODORO CON AGUA CORRIENTE EN EL INTERIOR DE LA VIVIENDA? SÍ……………………………………………………………………………….1 NO…………………………………………………………………..…….……2 NO CONSTA…………………………………………………….………......-9

HA011

¿DISPONE LA VIVIENDA DE AGUA CALIENTE? SÍ……………………………………………………………………………….1 NO…………………………………………………………………..…….……2 NO CONSTA………………………………………………….……….……..–9

HA018

¿TIENE SU VIVIENDA EL PROBLEMA DE GOTERAS? SÍ……………………………………………………………………………….1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….………......-9

HA019

¿TIENE SU VIVIENDA EL PROBLEMA DE HUMEDADES? SÍ……………………………………………………………………………….1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….………......-9

HA020

¿TIENE SU VIVIENDA EL PROBLEMA DE PODREDUMBRE EN SUELOS O EN VENTANAS DE MADERA? SÍ……………………………………………………………………………….1 NO………………………………………………………………..……………2 NO CONSTA…………………………………………………….………......-9

226

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

VARIABLE HB001

DESCRIPCIÓN ¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE AUTOMÓVIL PARA USO PRIVADO? SI DISPONE.……………………………………………..……..…………….1 NO, NO PUEDE PERMITÍRSELO..………………..………….……….…….2 NO, POR OTROS MOTIVOS..…...……………………..………….…..…….3 NO CONSTA.…………………………………………………….………......-9

HB002

¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE TELEVISOR EN COLOR? SI DISPONE.……………………………………………..……..…………….1 NO, NO PUEDE PERMITÍRSELO.………………..……………….……..….2 NO, POR OTROS MOTIVOS .…..……………………..…………..……..….3 NO CONSTA.…………………………………………………….……….…..-9

HB003

¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE VÍDEO? SI DISPONE.…………………………………….………..……..…………….1 NO, NO PUEDE PERMITÍRSELO.…………….…..……………….…..…….2 NO, POR OTROS MOTIVOS..…..…………….………..…………………….3 NO CONSTA.…………………………………….……………….……….....-9

HB004

¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE MICROONDAS? SI DISPONE.……………………………………………..……..…………….1 NO, NO PUEDE PERMITÍRSELO.………………..……………….…..…….2 NO, POR OTROS MOTIVOS..…..……………………..…………………….3 NO CONSTA…………………………………………………….…………...–9

HB005

¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE LAVAVAJILLAS? SI DISPONE.……………………………………………..……..…………….1 NO, NO PUEDE PERMITÍRSELO.………………..……………….……..….2 NO, POR OTROS MOTIVOS..…..……………………..…………..………...3 NO CONSTA.…………………………………………………….……….......-9

ANEXO 1. Codificación de las variables

VARIABLE HB006

227

DESCRIPCIÓN ¿EL HOGAR, O ALGUNO DE SUS MIEMBROS DISPONE DE TELÉFONO? SI DISPONE.……………………………………………..……..…………….1 NO, NO PUEDE PERMITÍRSELO.……………..…………………….…..….2 NO, POR OTROS MOTIVOS..…..……………………..…………………….3 NO CONSTA.…………………………………………………….…………...-9

PD003

EDAD (CALCULADA A 31 DE DICIEMBRE DE 1994 ,1995 Y 1996 PARA LOS CICLOS PRIMERO, SEGUNDO Y TERCERO RESPECTIVAMENTE) (VER ANEXO 1) PRIMER CICLO..…………………….……………………………….….17-85 SEGUNDO CICLO………………………..…………..………………... 17-86 TERCER CICLO………………………………………………………….17-87 NO CONSTA ………..……………………………………………………... –9

PD004

SEXO VARÓN……………..………..…………….………………………………….1 MUJER.………………………………………………………………….…….2 NO CONSTA ………..……………………………………………………....–9

PE001

SITUACIÓN ACTUAL EN LA ACTIVIDAD PRINCIPAL (AUTOCLASIFICACIÓN: CALSIFICACIÓN DETALLADA) ASALARIADO (15 Ó MÁS HORAS A LA SEMANA).…………...………...1 APRENDIZ REMUNERADO (15 Ó MÁS HORAS A LA SEMANA).……...2 TRABAJADOR EN FORMACIÓN (15 Ó MÁS HORAS SEMANALES) ( EN EL PRIMER CICLO LOS TRABAJADORES EN FORMACIÓN FIGURAN EN EL CÓDIGO 2) ……………………………………………………………3 EMPRESARIO O TRABAJADOR INDEPENDIENTE (15 Ó MÁS HORAS SEMANALES…………………………………….…………………………...4 AYUDA FAMILIAR (15 Ó MÁS HORAS SEMANALES)……..……….....5 ESTUDIANTE O ESCOLAR……………………………………………...….6 PARADO………………………………………………….……………….…..7

228

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

VARIABLE

DESCRIPCIÓN JUBILADO O RETIRADO……………..…….….….……………..................8 LABORES DEL HOGAR, CUIDADO DE NIÑOS U OTRAS PERSONAS...9 CUMPLIENDO EL SERVICIO MILITAR O PRESTACIÓN SOCIAL SUSTITUTORIA ……………………..……...................................................10 OTRA SITUACIÓN ECONOMICAMENTE INACTIVA (*)………………11 TRABAJANDO MENOS DE 15 HORAS (*)………………………………..12 NO CONSTA ………..……………………………………………………... –9

PU002

¿HA ESTADO EN PARO ALGUNA VEZ

DURANTE LOS ÚLTIMOS

CINCO AÑOS? SÍ …………………………….…………….....………………………………..1 NO..………………………….…………………………………………………2 NO APLICABLE ………..……….........……..…..…………………………...-8 NO CONSTA ……………………….………….…..…..…..…………...…….-9 PU003

NÚMERO DE VECES QUE HA ESTADO EN PARO DURANTE LOS ÚLTIMOS CINCO AÑOS (SOLO PU002=1) NÚMERO DE VECES………….………………………………….……....1-96 NO APLICABLE ……………...….....……..…..………………….………....-8 NO CONSTA ………………………..………….…..…..…..………..……....-9

PU003A

NÚMERO DE VECES QUE HA ESTADO EN PARO DESPUES DE 1989 (SOLO PU002A=1) NÚMERO DE VECES…………………………………………….……....1-96 NO APLICABLE ……………........………..…..………………….………...-8 NO CONSTA ………………………………….…..…..…..………..……......-9

PU004

¿ALGUNOS DE ESTOS PERIODOS DE PARO DURARON 12 Ó MÁS MESES? (SÓLO PARA PU002=1) SÍ ………………………………………….....……………………….………..1 NO ..……………………………………………………………………..……..2 NO APLICABLE ……………........……..…..…..…………………….……. -8 NO CONSTA …………………………………….…..…..…..………..……. –9

ANEXO 1. Codificación de las variables

VARIABLE PU004A

229

DESCRIPCIÓN ¿ALGUNOS DE ESTOS PERIODOS DE PARO DURARON 12 Ó MÁS MESES? (SÓLO PARA PU002A=1) SÍ ………………………………………….....……………………….………..1 NO ..……………………………………………………………………..……..2 NO APLICABLE ……………........……..…..…..…………………….……. -8 NO CONSTA …………………………………….…..…..…..………..……. –9

PT022

¿CUÁL ES EL NIVEL MÁS ALTO DE ESTUDIOS QUE HA COMPLETADO? ANALFABETOS Y SIN ESTUDIOS .......................…………......….………2 ESTUDIOS PRIMARIOS (EGB (PRIMERA ETAPA O CICLOS INICIAL Y MEDIO))…………………..…………………………………………………..5 PRIMER NIVEL DE ENSEÑANZA SECUNDARIA (BACHILLERATO ELEMENTAL, EGB (SEGUNDA ETAPA O CICLO SUPERIOR) Y ESO).................................................................................…......................……8 FORMACION PROFESIONAL DE PRIMER GRADO, FPI……....………..9 FORMACION PROFESIONAL DE SEGUNDO GRADO, FPII Y MODULO 3 DE FP.………………………………..............................................……….11 SEGUNDO NIVEL DE ENSEÑANZA SECUNDARIA (BACHILLERATO SUPERIOR, BUP, COU) ……………………………………………………12 TITULO

UNIVERSITARIO

EQUIVALENTES

A

DE

CICLO

SUPERIORES

CORTO

Y

(RECONOCIDOS

ESTUDIOS Y

NO

RECONOCIDOS)….........................................................................................15 TÍTULO UNIVERSITARIO DE CICLO LARGO O EQUIVALENTE Y RECONOCIDO. SE INCLUYE EL DOCTORADO Y LOS ESTUDIOS DE POSTGRADO QUE EXIJAN LA LICENCIATURA..…...........……………17

ANEXO 2. Relación entre las categorías de la privación general y sectorial con la renta

231

ANEXO 2. Relación entre las categorías de la privación general y sectorial con la renta Tabla a2.1. Coeficientes de correlación entre la privación conjunta y las privaciones sectoriales con la renta total y la equivalente Privación conjunta / renta total Coef. correlación Privación elevada -0,2481 Privación ligera -0,2204 Baja privación 0,3682 Privación conjunta / renta equivalente Privación elevada -0,2470 Privación ligera -0,2355 Baja privación 0,3815 Privación básica / renta total Privación elevada -0,2613 Privación ligera -0,1831 Baja privación 0,3482 Privación básica / renta equivalente Privación elevada -0,2357 Privación ligera -0,1817 Baja privación 0,2462 Privación de la vivienda / renta total Privación elevada -0,0980 Privación ligera -0,1097 Baja privación 0,1484 Privación de la vivienda / renta equivalente Privación elevada -0,0800 Privación ligera -0,0813 Baja privación 0,1143 Privación secundaria / renta total Privación elevada -0,2899 Privación ligera -0,0821 Baja privación 0,3600 Privación secundaria / renta equivalente Privación elevada -0,3073 Privación ligera -0,0883 Baja privación 0,3830 Fuente: Elaboración propia a partir del PHOGUE.

ANEXO 3. Un análisis de sensibilidad para distintas líneas de pobreza

233

ANEXO 3. Un análisis de sensibilidad para distintas líneas de pobreza Tabla a3.1 Hogares clasificados según la privación conjunta y la pobreza (50% de la mediana) en 1994

Privación conjunta

Pobreza 1 2 1 207 (3,60) 485 (8,50) 2 231 (4,00) 1476 (25,80) 3 146 (2,50) 3183 (55,60)

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.2 Hogares clasificados según la privación básica y la pobreza (50% de la mediana) en 1994

Privación básica

Pobreza 1 2 1 241 (4,20) 622 (10,90) 2 146 (2,50) 886 (15,50) 3 197 (3,40) 3636 (63,50)

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.3 Hogares clasificados según la privación de la vivienda y la pobreza (50% de la mediana) en 1994

Pobreza 1 2 1 34 (0,60) 86 (1,50) 2 36 (0,60) 203 (3,5) 3 514 (9,00) 4855 (84,80)

Privación de la vivienda

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.4 Hogares clasificados según la privación secundaria y la pobreza (50% de la mediana) en 1994

Privación secundaria

Pobreza 1 2 1 333 (5,80) 1318 (23,00) 2 186 (3,20) 1927 (33,60) 3 65 (1,10) 1899 (33,20)

Fuente: Elaboración propia a partir del PHOGUE.

234

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Tabla a3.5 Hogares clasificados según la privación conjunta y la pobreza (50% de la media) en 1994

Privación conjunta

Pobreza 1 2 1 321 (5,60) 371 (6,50) 2 451 (7,90) 1256 (21,90) 3 328 (5,70) 3001 (52,4)

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.6 Hogares clasificados según la privación básica y la pobreza (50% de la media) en 1994

Privación básica

Pobreza 1 2 1 385 (6,70) 478 (8,30) 2 277 (4,80) 755 (13,20) 3 438 (7,60) 3395 (59,30)

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.7 Hogares clasificados según la privación de la vivienda y la pobreza (50% de la media) en 1994

Privación de la vivienda

Pobreza 1 2 1 52 (0,90) 68 (1,20) 2 74 (1,30) 165 (2,9) 3 974 (17,00) 4935 (76,70)

Fuente: Elaboración propia a partir del PHOGUE. Tabla a3.8 Hogares clasificados según la privación secundaria y la pobreza (50% de la media) en 1994

Privación secundaria

Pobreza 1 2 1 569 (9,90) 1082 (18,90) 2 384 (6,70) 1729 (30,20) 3 147 (2,60) 1817 (31,70)

Fuente: Elaboración propia a partir del PHOGUE.

ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo

235

ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo Tabla priv94, empleo94, sexed, educ [o P(priv94|empleo94, sexed, educ)] Efecto beta priv94 1 -1,0652 2 -0,4416 3 0,2879 4 1,2188 priv94, empleo94 11 -0,6718 12 0,8372 13 -0,2786 14 0,1132 21 -0,1201 22 0,2604 23 -0,1901 24 0,0498 31 0,0605 32 -0,2552 33 0,0464 34 0,1483 41 0,7313 42 -0,8423 43 0,4223 44 -0,3113 priv94, sexed 11 0,2708 12 0,0581 13 -0,6125 14 0,5806 15 0,3950 16 -0,6919 21 -0,3393 22 0,1445 23 0,2119 24 -0,2119 25 0,0220 26 0,1728 31 0,2104 32 -0,4284

236

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

33 -0,0307 34 0,3205 35 -0,2928 36 0,2211 41 -0,1419 42 0,2258 43 0,4314 44 -0,6892 45 -0,1242 46 0,2980 , educ priv94 11 1,3752 12 0,5575 13 -0,0176 14 -0,7171 15 -1,1979 21 -0,1075 22 0,0336 23 0,0387 24 0,2512 25 -0,2160 31 0,4556 32 0,3404 33 0,0890 34 -0,1554 35 -0,7295 41 -1,7232 42 -0,9314 43 -0,1101 44 0,6212 45 2,1434 Tabla empleo94, empleo95,, sexed, educ [o P(empleo95|empleo94, sexed, educ)] Efecto beta empleo95 1 0,4783 2 -0,2501 3 -0,1207 4 -0,1075 empleo94, empleo95 11 1,6549 12 -0,0640 13 -0,8033 14 -0,7876 21 0,1415 22 1,4036

ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo

23 -0,8844 24 -0,6608 31 -1,1674 32 -1,0042 33 1,8093 34 0,3623 41 -0,6290 42 -0,3355 43 -0,1216 44 1,0861 , sexed empleo95 11 0,2025 12 0,8016 13 0,2169 14 -0,2929 15 0,2081 16 -1,1362 21 0,1826 22 0,2771 23 -0,3654 24 0,2736 25 0,2099 26 -0,5778 31 -0,3005 32 -0,6859 33 0,8822 34 -0,2154 35 -0,5692 36 0,8888 41 -0,0846 42 -0,3928 43 -0,7337 44 0,2347 45 0,1512 46 0,8252 empleo95, educ 11 -0,3038 12 -0,2119 13 0,0533 14 0,0800 15 0,3824 21 0,2748 22 0,0846 23 -0,0546 24 -0,1749 25 -0,1299

237

238

31 32 33 34 35 41 42 43 44 45

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

-0,2661 -0,1034 -0,0432 0,2731 0,1396 0,2951 0,2307 0,0445 -0,1782 -0,3921

Tabla priv94, priv95, empleo95 [o P(priv95|priv94, empleo95)] Efecto beta priv95 1 8,1714 2 9,7657 3 -6,1065 4 -11,8305 priv94, priv95 11 15,4354 12 11,0561 13 26,1972 14 -52,6887 21 6,2791 22 8,4603 23 -39,6793 24 24,9399 31 -10,3430 32 -10,1932 33 8,3180 34 12,2182 41 -11,3714 42 -9,3233 43 5,1642 44 15,5305 priv95, empleo95 11 -0,8713 12 1,9177 13 -0,9452 14 -0,1012 21 -0,9251 22 0,3464 23 0,4856 24 0,0931 31 0,6948 32 -0,6003

ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo

33 34 41 42 43 44

0,0256 -0,1200 1,1016 -1,6638 0,4341 0,1281

Tabla empleo95, empleo96, sexed, educ [o P(empleo96|empleo95, sexed, educ)] Efecto beta empleo96 1 0,3215 20,1991 3 -0,0618 4 -0,0606 empleo95, empleo96 11 1,9192 12 0,1001 13 -1,0777 14 -0,9416 21 0,3174 22 1,3672 23 -1,2544 24 -0,4302 31 -1,3765 32 -0,8600 33 2,0543 34 0,1822 41 -0,8600 42 -0,6073 43 0,2777 44 1,1896 empleo96, sexed 11 0,3525 12 0,5769 13 -0,2463 14 -0,4826 15 0,1546 16 -0,3550 21 0,2494 22 0,0908 23 -0,3501 24 0,6507 25 0,0533 26 -0,6941 31 -0,0729 32 -0,0119

239

240

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

33 0,8550 34 -0,4827 35 -0,4872 36 0,1996 41 -0,5290 42 -0,6558 43 -0,2586 44 0,3146 45 0,2793 46 0,8495 , educ empleo96 11 -0,5810 12 -0,2512 13 0,0891 14 0,1374 15 0,6057 21 0,1567 22 0,0391 23 0,1126 24 -0,2187 25 -0,0897 31 0,1400 32 0,1471 33 -0,2724 34 0,0438 35 -0,0585 41 0,2843 42 0,0650 43 0,0708 44 0,0375 45 -0,4576 Tabla priv95, priv96, empleo96 [o P(priv96|priv95, empleo96)] Efecto beta priv96 1 -3,4454 2 6,0662 3 5,7569 4 -8,3778 priv95, priv96 11 19,6376 12 8,6200 13 8,6128 14 -36,8704 21 2,4139 22 -4,4090

ANEXO 4. Estimaciones de los parámetros del modelo dinámico final del trabajo

23 -6,8678 24 8,8629 31 2,3958 32 -6,3701 33 -4,2422 34 8,2165 41 -24,4473 42 2,1592 43 2,4972 44 19,7909 priv96, empleo96 11 -0,7459 12 1,1115 13 -0,3268 14 -0,0388 21 -0,0149 22 0,5442 23 -0,1468 24 -0,3825 31 0,1484 32 -0,3810 33 0,0542 34 0,1784 41 0,6124 42 -1,2747 43 0,4194 44 0,2430

241

Bibliografía

243

Referencias Abul Naga, R.H. (1994) Identifying the poor: A multiple indicator approach. Distributional Analysis Research Programme Discussion Paper nº 9. Londres. STICERD-London School of Economics. Anand, S. y Sen, A.K. (1997) “Concepts of Human Development and Poverty: A multidimensional perspective”. En Poverty and Human Development, 1-20. Nueva York. Programa para el Desarrollo de las Naciones Unidas. Agresti, A. (1990) Categorical data analysis. Nueva York. John Wiley Akaike, H. (1987) “Factor analysis and AIC”. Psychometrika, 52, 317-332. Allison, P.D. (1982) “Discrete-time methods for the analysis of event histories”. En: Leinhardt, S. (ed.) Sociological methodology 1982, 61-98. San Francisco. JosseyBass. Andersson, S.A., Madigan, D. y Perlman, M.D. (2001) “Alternative Markov properties for chain graphs”. Scandinavian Journal of Statistics, 28, 33-85. Atkinson, A.B. (1981) “The measurement of economic mobility” En: Eggelshoven, P. y van Gemerden, L. (eds.) Inkomens Verdeling en Openbard Financien. Leiden. Het Spectrum. Atkinson, A.B. (1987) “On the measurement of poverty”. Econometrica. Nº4, 749-764. Atkinson, A.B. (1989) Poverty and social security. Londres. Harvester Wheatsheaf. Atkinson, A.B. y otros (1997) Measurement of Trends in Poverty and the Income Distribution. DAE Working paper nº 9712. Universidad de Cambridge. Ayala, L. y Martínez, R. (1999) “La pobreza en España: evolución y factores explicativos”. En: Garde, J.A., Políticas sociales y Estado de Bienestar en España. Informe 1999. Madrid. Fundación Hogar del Empleado-Editorial Trotta. Ayala, L. y Palacio, J.I. (2000) “Hogares de baja renta en España: Caracterización y determinantes”. Revista de Economía Aplicada, nº 23, 35-70. Bane, M.J. y Ellwood, D.T.(1986) “Slipping into and out of poverty: the dynamics of spells”. Journal of Human Resources, 21, 1-23.

244

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Bárcena, E., Fernández, A. y Martín, G. (2000) “Análisis de la pobreza a través de un enfoque multidimensional: estudio del caso español a través de conjuntos borrosos”. Anales de Economía Aplicada. XIV Reunión ASEPELT España (CD ROM). Bartholomew, D.J. (1987) Latent variables models and factor analysis. Londres. Griffin. Betti, G. (1996) “A longitudinal approach to poverty analysis: the latent class Markov model” Statistica, nº 3, 345-359. Biewen, M. (1999) Bootstrap inference for inequality and mobility measurement. Economics Discussion Paper Series nº 286. Heidelberg. Universidad de Heidelberg. Bishop, R.J., Fienberg, S.E. y Holland, P.W. (1975) Discrete multivariate analysis: Theory and practice. Cambridge. MIT Press. Blauth, A. y Pigeot, I. (2000) GraphFitI – A computer program for graphical chain models. Discussion paper 224. Departamento de Estadística. Universidad de Munich. Blumen, I.M, Kogan, M. y McCarthy, P.J. (1955) The industrial mobility of labor as a probability process. Ithaca. Cornell University Press. Böhnke, P. y Delhey, J. (1999) Poverty in a Multidimensional Perspective. Great Britain and Germany in Comparison. FS III Working Paper nº 99-413. Berlín. Social Science Research Centre. Bourgignon, F. y Chavrakarty, S.R. (1999) “The measurement of multidimensional poverty” En: Slottje, D.J. Advances in econometrics, income distribution and scientific methodology. Heidelberg. Physica. Brandolini, A. y D’Alessio, G. (2000) “Measuring well-being in the functionings space”. 26ª Conferencia General de la IARIW (Asociación para el estudio de la Renta y la Riqueza). Cracovia, 27/08-02/09.

Bibliografía

245

Burgess, S.M. y Propper, C. (1998) An economic model of household income dynamics, with an application to poverty dynamic among American women. CASE paper nº 9. Londres. CASE-London School of Economics. Burgess S., Propper, C. y Dickson, M. (2002) The analysis of poverty data with endogenous transitions. Mimeo. Universidad de Bristol. Cantó, O. (1996) Poverty dynamics in Spain. A study of transitions in the 1990s. DARP Discussion Paper nº 15. Londres. STICERD-London School of Economics. Cantó, O. (1998) Income mobility in Spain: How much is there? Documento de trabajo FEDEA EEE 17. Madrid. FEDEA. Cantó, O. (2000a) “Income mobility in Spain: How much is there?” Review of Income and Wealth, 46(1), 85-101. Cantó, O. (2000b) Climbing out of poverty, falling back in: low incomes’ stability in Spain. Documento de trabajo nº 13, Departamento de Economía Aplicada. Universidad de Vigo. Cantó, O., del Río, C. y Gradín, C. (2000) “La situación de los estudios sobre la desigualdad y la pobreza en España”. Cuadernos de Gobierno y Administración, nº2, 25-94. Cantó, O., del Río, C. y Gradín, C. (2002) What helps households with children in leaving poverty? Evidence from Spain in contrast with other EU countries.. Documento de trabajo nº 0201, Departamento de Economía Aplicada. Universidad de Vigo. Cappellari, L. y Jenkins, S.P. (2002) Modelling low income transitions. ISER Working Paper nº 8. Colchester. Universidad de Essex. Cerioli, A. y Zani, S. (1990) “A fuzzy approach to the measurement of poverty”. En: Dagum, C. y Zenga, M. (eds.) Income and wealth disitrbution, inequality and poverty. Berlin. Springer Verlag.

246

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Cheli, B., Ghellini, G.,Lemmi, A. y Pannuzi, N. (1994) “Measuring poverty in the countries in transition via TFR method: the case of Poland in 1990-1991”. Statistics in transition, vol. 1, nº 5, 585-636. Cheli, B. y Lemmi, A. (1995) “A totally fuzzy and relative approach to the multidimensional analysis of poverty”. Economics Notes. Monte dei Paschi di Siena. Vol. 24, 115-134. Clogg, C.C. (1981) “New developments in latent structure analysis”. En: Jackson, D.J. y Borgotta, E.F. (eds.) Factor analysis and measurement in sociological research, 215-246. Beverly Hills. Sage Publications. Clogg, C.C. (1982) “Some models for the analysis of association in multiway crossclassifications having ordered categories”. Journal of the American Statistical Association, 77, 803-815. Clogg, C.C. y Eliason, S.R. (1987) “Some common problems in log-linear analysis”. Sociological Methods and Research, 16, 8-14. Clogg, C.C. y Goodman, L.A. (1984) “Latent structure analysis of a set of multidimensional contingency tables”. Journal of the American Statistical Association, 77, 803-815. Clogg, C.C. y Goodman, L.A. (1985) “Simultaneous latent structure analysis in several groups”. Sociological Methodology 1985, 81-110. Cox, D.R. y Wermuth, N. (1994) “Tests of linearity, multivariate normality and the adequacy of linear scores”. Applied Statistics, 43, 347-355. Cox, D.R. y Wermuth, N. (1996) Multivariate dependencies. Models, analysis and interpretation. Londres. Chapman y Hall. Dalhaus, R. (1999) Graphical interaction models for multivariate time series. Beitrag 59, 12/99. Universidad de Heidelberg. Dalhaus, R. y Eichler, M. (2000) Causality and graphical models in time series analysis. Preprint. Universidad de Heidelberg.

Bibliografía

247

D’Ambrosio, C., Papadopoulos, F. y Tsakloglou, P. (2002) “Social Exclusion in EU Member-states: A Comparison of Two Alternative Approaches”. Rapporto sulla Distribuzione e Redistribuzione del Reddito in Europa. Roma. CNEL. D’Ambrosio, C. y Peragine, V. (2001) “Measuring social exclusion”. mimeo. Università Bocconi. Deming, W.E. y Stephan, F.F. (1940) “On the least squares adjustment of a sampled frequency table when the expected marginal totals are known”. Annals of Mathematical Statistics, 11, 427-444. Dempster, A.P., Laird, N.M., Rubin, D.B. (1977) Maximum likelihood estimation from incomplete data via the EM algorithm. Journal of the Royal Statistical Society B 39:1-38. Desai, M. y Shah, A. (1988) “An econometric approach to the measurement of poverty”, Oxford Economic Papers, 40(3), 505-522. Devicenti (2001) Poverty persistence in Britain: a multivariate análisis using the BHPS, 1991-1997. ISER Working Paper 2001-02. Colchester. Universidad de Essex. Dickens, R. (1997) Caught in a trap. Wage mobility in Great Britain: 1975-94. Centre for Economic Performance. London School of Economics. Didelez, V. (1999) Local independence graphs for composable Markov processes. Discussion paper 158. Departamento de Estadística. Universidad de Munich Dirven, H.J. y Fouarge, D. (1996) Income mobility and deprivation dynamics mong the elderly in Belgium and the Netherlands. WORC Paper 96.05.005/2. Universidad de Tilburg. Duncan, G.J. (1983) “The implications of changing family composition for the dynamic análisis of family economic well-being”. En: Atkinson, A.B. y Cowell, F.A. (eds.) Panel Data on Incomes. Ocassional paper nº 2. Londres. STICERD-London School of Economics.

248

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Edwards, D. (1995, 2000) Introduction to graphical modelling. Nueva York. Springer Verlag. Edwards, D. y Lauritzen, S.L. (2001) “The TM algorithm for maximising a conditional likelihood function”. Biometrika, 88, 961-972. Eichler, M (1999) Graphical models in time series analysis. Tesis Doctoral. Universidad de Heidelberg. Eichler, M (2001) Granger-causality graphs for multivariate time series. Beitrag 64, 06/01. Universidad de Heidelberg. EUROSTAT (2000) European social statistics. Income, poverty and social exclusion. Luxemburgo. Fienberg, S.E. (1980) The analysis of cross-classified categorical data. Cambridge. MIT Press. Förster, M, Tarcali, G. y Till, M. (2002) “Income and non-income poverty in Europe: What is the minimum acceptable standard in an enlarged European Union?”. 27ª Conferencia General de la IARIW (Asociación para el Estudio de la Renta y la Riqueza), Estocolmo, 18-24 agosto. Fouarge y Muffels (2000) Persistent poverty in the Netherlands, Germany and the UK. A model-based approach using panel data for the 1990s. European Panel Analysis Group Working Paper nº 15. Colchester. Universidad de Essex. Ghellini, G., Pannuzi, N. y Tarquini, S. (1995) A latent Markov model for poverty analysis: the case of the GSOEP. PACO Research Paper nº 11. Luxemburgo. CEPS/INSTEAD. Goodman, L.A. (1968) “The analysis of cross-classified data: Independence, quasiindependence, and interaction in contingency tables with or without missing cells”. Journal of the American Statistical Association, 63, 1019-1131. Goodman, L.A. (1969) “How to ransack social mobility tables and other kinds of crossclasified tables”. American Journal of Sociology, 75, 1-40.

Bibliografía

249

Goodman, L.A. (1972) “A modified multiple regression approach for the analysis of dichotomous variables”. American Sociological Review, 37, 28-46. Goodman, L.A. (1973) “The analysis of multidimensional contingency tables when some variables are posterior to others: A modified path analysis approach”. Biometrika, 60, 179-192. Goodman, L.A. (1974) “Exploratory latent structure analysis using both identifiable and unidentifiable models”. Biometrika 61: 215-231. Haberman, S.J. (1974). The analysis of frequency data. Chicago. University of Chicago Press. Haberman, S.J. (1978) Analysis of qualitative data, Vol. 1, Introduction topics. Nueva York: Academic Press. Haberman, S.J. (1979) Analysis of qualitative data, Vol. 2, New developments. Nueva York: Academic Press. Hagenaars, J.A. (1988) “Latent structure models with direct effects between indicators: local dependence models”. Sociological Methods and Research, 16, 379-405. Hagenaars, J.A. (1990) Categorical longitudinal data. Log-linear Panel, Trend, and Cohort Analysis. Londres. Sage Publications. Hagenaars, J.A. (1992) “Exemplifying longitudinal log-linear analysis with latent variables”. En: Van der Heijden, P.G.M., Jansen, W., Francis, B., Seeber, G.U.H. (eds.), Statistical modelling, 105-120, Amsterdam: Elsevier Science Publishers. Halleröd, B. (1994) A new approach to the direct consensual measurement of poverty. Social Policy Research Centre Discusión Paper nº 50. Universidad de Nueva Gales del Sur. Halleröd, B. (1995) “The truly poor: direct and indirect consensual measurement of poverty in Sweden”. Journal of European Social Policy, 5(2), 111-129. Heady, B., Krause, P. y Habich, R. (1994) “Long and Short Term Poverty. Is Germany a Two-Thirds Society?” Social Indicators Research 31, 1-25.

250

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Heinrich, G. (1998) The prince and the pauper revisited: a bootstrap approach to poverty and income distribution analysis using the PACO data base. PACO Research Paper nº 21. Luxemburgo. CEPS/INSTEAD. Heinrich, G. (1998) A bootstrap analysis of poverty and income distribution analysis using the PACO data base. PACO Research Paper nº 24. Luxemburgo. CEPS/INSTEAD. Hill, M.S. y Jenkins, S.P.(1998) Poverty among British children: chronic or transitory?. ISER Working Paper 1999-23. Colchester. Universidad de Essex. Hills J., (1998a) “Does income mobility mean that we do not need to worry about poverty?”.En: Atkinson, A.B. y Hills, J. (eds.) Exclusion, employment and opportunity. CASE paper nº 4. Londres. CASE – London School of Economics. Hills, J. (1998b) “What do we mean by reducing lifetime inequality and incresing mobility?”. En Persistent poverty and lifetime inequality: the evidence. CASE report nº 5. Londres. CASE-London School of Economics. Hirschberg, J.G., Maasoumi, E. y Slottje, J. (1991) “Cluster analysis for measuring welfare and quality of life across countries”. Journal of Econometrics, 50, 131150. Hout, M. (1983) Mobility tables. Beverly Hills. Sage Publications. INE (1996) Panel de Hogares de la Unión Europea (PHOGUE). Metodología. Madrid. Instituto Nacional de Estadística. Jarvis, S. y Jenkins, S.P. (1998) “How much income mobility is there in Britain?” The Economic Journal, nº 108, 428-445. Jarvis, S. y Jenkins, S.P. (2000) “Low-income dynamics in 1990s Britain”. En: Rose, D. Researching social and economic change. The uses of household panel studies. Londres. Routledge. Jenkins, S.P. (1999) Modelling household dynamics. ISER Working Paper 1999-01. Colchester. Universidad de Essex.

Bibliografía

251

Jenkins, S.P. (1999) Trends in the UK Income Distribution. ISER Working Paper 199922. Colchester. Universidad de Essex. Jenkins, S.P. y Rigg, J.A. (2001) The dynamics of poverty in Britain. Department for Work and Pensions Working Paper nº 157. Londres. Jenkins, S.P. y Schluter, C. (2001) Why are child poverty rates higher in Britain than in Germany? A longitudinal perspective. ISER Working Paper 2001-16. Colchester. Universidad de Essex. Jöreskog, K.G. y Sörbom, D. (1988) Lisrel 7: A guide to the program and applications. Kalbfleisch, J.D. y Prentice, R.L. (1980) The statistical analysis of failure time data. Nueva York. John Wiley. Klasen, S. (2002) “Measuring poverty and deprivation in South Africa”. Review of Income and Wealth. Lancaster, T. (1990) The econometric analysis of transition data. Cambridge. Cambridge University Press. Langeheine, R.y Van de Pol, F. (1994) Discrete-Time Mixed Markov latent class models. En: Dale, A., Davies, R.B. (ed) Analyzing social and political change. Londres: Sage Publications. Lauritzen, S.L. (1996) Graphical models. Oxford. Oxford University Press. Lauritzen, S.L. y Wermuth, N. (1989) “Graphical models for associations between variables, some of which are qualitative and some quantitative”. Annals of Statistics, 17, 31-57. Layte, R., Maître, B. Nolan, B, y Whelan, C.T. (1999) Income deprivation and economic strain. European Panel Analysis Group Working Paper nº 5. Colchester. Universidad de Essex. Layte, R., Maître, B., Nolan, B. y Whelan, C.T. (2000a) Poverty dynamics: an analysis of 1994 and 1995 waves of the European Community Household Panel Study. European Panel Analysis Group Working Paper nº 11. Colchester. Universidad de Essex.

252

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Layte, R., Maître, B. Nolan, B., y Whelan, C.T. (2000b) Persistent and Consistent Poverty in the 1994 and 1995 Waves of the European Community Household Panel Study. European Panel Analysis Group Working Paper nº 11. Colchester. Universidad de Essex. Layte, R., Maître, B. Nolan, B, y Whelan, C.T. (2000) Explaining levels of deprivation in the European Union. European Panel Analysis Group Working Paper nº 12. Colchester. Universidad de Essex. Layte, R. y Whelan, C.T. (2002) Moving In and Out of Poverty: The Impact on Welfare Regimes in the EU. European Panel Analysis Group Working Paper nº 30. Colchester. Universidad de Essex. Lazarsfeld, P.F. (1950). “The logical and mathematical foundation of latent structure analysis”. En: Stouffer, S.A. et al. (eds.), Measurement and prediction, 362-472, Princeton. Princeton University Press. Lazarsfeld, P.F. y Henry, N.W. (1968) Latent structure analysis. Boston. Houghton Mifflin. Leisering, L., P.F. y Leibfried, S. (1999) Time and Poverty in Western Welfare States: United Germany in Perspective. Cambridge (Estados Unidos). Cambridge University Press. Lemni, A., Cheli, B. y Mazzolli, B. (1996) La misura multidimensionale della povertà in Italia nella prima metà degli anni 90. Mimeo. Siena. Centro de Ricerca Interdepartamentale sulla Distribuzione del Reddito. Lynggaard, H. y Walther, K.H. (1993) Dynamic modelling with mixed graphical association models. Mimeo. Universidad de Aalborg. Maasoumi, E. y Nickelsburg, G. (1988) “Multivariate measures of well-being and an analysis of inequality in the Michigan data”. Journal of Business and Economic Statistics, 6, 327-334. Mack y Lansley (1985) Poor Britain. Londres. Allen and Urwin.

Bibliografía

253

Maître, B. y Nolan, B. (1999) Income mobility in the European Community Household Panel. European Panel Analysis Group Working Paper nº 4. Colchester. Universidad de Essex. Martínez, R. y Ruiz-Huerta, J. (1999) “Algunas reflexiones sobre la medición de la pobreza. Una aplicación al caso español”. En: Maravall, J.M. (ed.) Dimensiones de la desigualdad. III Simposio sobre igualdad y distribución de la renta y la riqueza. Vol. 1, 367-428. Madrid. Fundación Argentaria y Visor Editorial. Martínez, R. y Ruiz-Huerta, J. (2000) “Income, multiple deprivation and poverty: an empirical analysis using Spanish data”. 26ª Conferencia General de la IARIW (Asociación para el estudio de la Renta y la Riqueza). Cracovia, 27/08-02/09. Mayer, S.E. y Jencks, C. (1989) “Poverty and the distribution of material resources”. Journal of Human Resources. 21, 88-113. McCall, J.J. (1971) A markovian model of income dynamics. UCLA Economics Discussion Paper 11. Los Ángeles. UCLA. Mejer, L. y Linden, G. (2000) Persistent income poverty and social exclusion in the European Union. Statistics in focus 13/2000. Luxemburgo. Eurostat. Muffels, R. (1993) “Deprivation standards of living indicators”. En: Berghman, J. y Cantillon, B. The European face of social security. Avebury. Aldershot. Muffels, R., Fouarge, D. y Dekker, R. (1999) Longitudinal poverty and income inequality. A comparative panel study for the Netherlands, Germany and the UK. EPAG Working paper nº 1. Colchester. Universidad de Essex. Muffels, R. (2000) “Dynamics of poverty and determinants of poverty transitions: results from the Dutch socioeconomic panel”. En: Rose, D. Researching social and economic change. The uses of household panel studies. 165-187. Londres. Routledge. Muffels, R. y Fouarge, D. (2001) Do European welfare regimes matter in explaining social exclusion? Dynamic analyses of the relationship between income poverty

254

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

and deprivation: a comparative perspective. Conferencia de la Sociedad Europea de Economía de la Población (ESPE). Atenas. Nolan, B. y Whelan, C.T. (1996) Resources, deprivantion and poverty. Oxford. Clarendon Press. Nolan, B.y Maître, B. (1999) The distribution of income and relative income poverty in the ECHP. EPAG Working Paper nº 3. Colchester. Universidad de Essex. Otto, B. y Goebel, J. (2002) Incidence and intensity of permanent income poverty in European countries. EPAG Working Paper nº 28. Colchester. Universidad de Essex. Parker, S.C. y Rougier, J. (1998) Measuring social mobility as unpredictability. Working Paper nº 191. Durham. Universidad de Durham. Pérez Mayo, J. (próximamente) “Un método alternativo para identificar los hogares en situación de pobreza”. Estadística Española. Pérez Mayo, J., Fajardo Caldera, M.A. y Sánchez Rivero, M. (2000) “Cálculo de un indicador de pobreza mediante un modelo de clases latentes”. XIV Reunión nacional ASEPELT. Oviedo, 22 – 24 de junio de 2000 Pérez Mayo, J., Fajardo Caldera, M.A. y Sánchez Rivero, M. (2001) “Cálculo de un indicador de privación mediante un modelo de clases latentes”. VIII Encuentro de Economía Pública. Cáceres, 8 – 9 de febrero de 2001 Piachaud, D. (1981) “Peter Townsend and the Holy Grail”. New Society, 57, 419-421. Piachaud, D. (1987) “Problems in the definition and measurement of poverty”. Journal of Social Policy, 16(2), 147-164. Pigeot, I., Heinicke, A., Caputo, A., Bruederl, J. (1997) The professional career of sociologists: a graphical chain reflecting early influences and associations. Discussion paper 74. Departamento de Estadística. Universidad de Munich Poulsen, C.A. (1982) Latent structure analysis with choice modelling. Aarhus. Aarhus School of Business Administration and Economics.

Bibliografía

255

Raftery, A.E. (1986) “Choosing models for cross-classifications”. American Sociological Review 51:145-146. Ram, R. (1982) “Composite indices of physical quality of life, basic needs fulfilment and income. A principal component representation”. Journal of Development Economics, 11, 227-247. Ringen, S. (1987) The possibility of Politics. Oxford. Clarendon Press Ringen, S. (1988) “Direct and Indirect Measures of Poverty”, Journal of Social Policy, 17(3), 147-164. Room, G. (1995) “Poverty and social exclusion: the new European agenda for policy and research”. En: Room, G. (ed.) Beyond the threshold. The Measurement and Analysis of Social Exclusion. Bristol. The Policy Press. Runciman, W.G. (1966) Relative deprivation and social justice. Londres. Routledge and Kegan Paul. Saunders, P. (1998) Defining poverty and identifying the poor. Reflections on the Australian experience. Social Policy Research Centre Discussion Paper nº 84. Sydney. Universidad de Nueva Gales del Sur. Schluter, C. (1997) On the non-stationarity of German income mobility (and some observations on poverty dynamics). DARP Discusión Paper nº 30. Londres. STICERD-London School of Economics. Schluter, C. (1998) Income dynamics in Germany, the USA and the UK. Evidence from panel data. CASE paper nº8. Londres. CASE-London School of Economics. Sen, A.K. (1987) The standard of living. Cambridge. Cambridge University Press. Sen, A. (1991) “Welfare, preference and freedom” Journal of Econometrics, 50, 15-29. Sen, A.K. (2000) Social Exclusion: concept, application and scrutiny. Social Development Papers, nº1. Manila. Asian Development Bank. Shorrocks, A. (1976) “Income mobility and the Markov assumption”. The Economic Journal, 86, 566-578.

256

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Stevens, A.H. (1994) “Persistence in poverty and welfare: the dynamics of poverty spells: updating Bane and Ellwood”. American Economic Review (Papers and Proceedings), 84: 34-37. Stevens, A.H. (1999) “Climbing out of poverty, falling back in: measuring the persistence of poverty over multiple spells”. Journal of Human Resources, 3, 557588. Townsend, P.(1979) Poverty in the United Kingdom. Harmondsworth. Penguin Books. Tsakloglou, P. y Papadopoulos, F. (2001) Identifying population groups at high risk of social exclusion: evidence from the ECHP. IZA Discussion Paper nº 392. Bonn. IZA. Tsakloglou, P. y Papadopoulos, F. (2002) “Poverty, material deprivation and multidimensional disadvantage during four life stages: evidence from the ECHP”. En: Barnes, M., Heady, C, Middleton, S., Millar, J, Papadopoulos, F, Room, G. y Tsakloglou, P. Poverty and Social Exclusion in Europe. 24-52. Cheltenham. Edward Elgar. Van de Pol, F., de Leeuw, J. (1986) “A latent Markov model to correct for measurement error”. Sociological Methods and Research 15: 188-141. Van de Pol, F., Langeheine, R. (1990) “Mixed Markov latent class models”. En: Clogg, C.C. (ed.) Sociological Methodology 1990. Oxford: Basil Blackwell. Van de Pol, F. Langeheine, R. y de Jong, W. (1991) PANMARK user manual. Vermunt, J.K. (1994) Causal log-linear modelling with missing data. Documento de trabajo WORC 94.05.021/7. Universidad de Tilburg. Vermunt, J.K. (1997) Log-linear Models for Event Histories. Londres: Sage Publications. Vermunt, J.K. (1997) lEM: A general program for the analysis of categorical data. Vermunt, J.K., Langeheine, R. y Böckenholt, U. (1995) Discrete-time discrete state latent Markov models with time-constant and time-varying covariates. Documento de trabajo WORC 95.06.013/7. Universidad de Tilburg.

Bibliografía

257

Walker, R. (1994) “Lifetime poverty dynamics”. En Persistent poverty and lifetime inequality: the evidence. CASE report nº 5. Londres. CASE-London School of Economics. Walker, R. (1995) “The dynamics of poverty and social exclusion”. En: Room, G. (ed.) Beyond the threshold. The Measurement and Analysis of Social Exclusion. Bristol. The Policy Press. Wermuth, N. (1992) “Block-recursive regression equations (with discussion)”. Revista Brasileira de Probabilidade e Estadística, 6, 1-56. Wermuth, N. y Cox, D.R. (1992) “Graphical models for dependencies and associations” En: Dodge, Y. y Whittaker, J. Computational Statistics, 1, 235-249. Heidelberg. Physica. Wermuth, N. y Lauritzen, S.L. (1990) “On substantive research hypotesis, conditional independence graphs and graphical chain models (with discussion)”. Journal of the Royal Statistical Society, serie B, 52, 21-72. Whelan, C.T., Layte, R. y Maître, B. (2001a) What is the scale of multiple deprivation in the European Union?. European Panel Analysis Group Working Paper nº 19. Colchester. Universidad de Essex. Whelan, C.T., Layte, R. y Maître, B. (2001b) Persistent deprivation in the European Union. European Panel Analysis Group Working Paper nº 19. Colchester. Universidad de Essex. Whelan, B.J. y Whelan, C.T. (1995) “In what sense is poverty multidimensional?” En: Room, G. (ed.) Beyond the threshold. The Measurement and Analysis of Social Exclusion. Bristol. The Policy Press. Whittaker, J. (1990) Graphical models in applied multivariate statistics. Chichester. John Wiley. Wiggins, L.M. (1973) Panel analysis. Ámsterdam. Elsevier. Xie, Y. (1992) “The log-multiplicative layer effect model for comparing mobility tables”. American Sociological Review, 57, 380-395.

258

Modelos dinámicos de variables latentes aplicados a la construcción de indicadores económicos y sociales

Yamaguchi, K. (1987) “Models for comparing mobility tables: Towards parsimony and substance”. American Sociological Review, 52, 482-494. Yamaguchi, K. (1990) “Logit and multinomial logit models for discrete-time eventhistory analysis: a causal analysis of interdependent discrete-state processes”. Quality and Quantity, 24, 323-341. Yamaguchi, K. (1991) “Event history analysis”. Applied Social Research Methods, Volume 28. Newbury Park. Sage. Zarzosa, P. (1992) Aproximación a la medición del bienestar social. Estudio de la idoneidad del indicador sintético de la distancia P2. Tesis doctoral no publicada. Zarzosa, P., Zarzosa, F. y Prieto, M. (1996) “Medición del bienestar social en CastillaLeón (disparidades interprovinciales e interregionales)” en Dilemas del Estado del Bienestar, II Simposio sobre Igualdad y Distribución de la Renta y la Riqueza. Colección Igualdad, vol. 8, 203-220.