Story Transcript
REFORMULACION DEL INDICE DE CLASIFICACION SOCIOECONOMICA DEL REGISTRO SOCIAL
DIRECCION DE INFORMACION SOCIOECONOMICA DEL SECTOR SOCIAL (SIISE) MINISTERIO DE COORDINACION DE DESARROLLO SOCIAL
CRISTINA FABARA JULIO 2009
INDICE 1. INTRODUCCION ........................................................................................................................................3 2. SELECCIÓN DEL METODO A APLICAR........................................................................................................3 3. VARIABLES SELECCIONADAS.....................................................................................................................4 4. ANALISIS DE FRECUENCIAS .......................................................................................................................5 5. PRUEBA DE CORRELACION DE PEARSON..................................................................................................5 7. METODOLOGIA DE LA CLASIFICACION SOCIOECONOMICA DEL INDICE DEL REGISTRO SOCIAL ..............6 8. RESULTADOS OBTENIDOS CON EL MODELO ............................................................................................8 8.3 HISTOGRAMA DEL INDICE EN TODA LA POBLACION ..............................................................................8 8.4 ANALISIS DESCRIPTIVO POR QUINTIL DE CONSUMO PER CAPITA..........................................................9 8.6 ANALISIS DE EFECTIVIDAD ....................................................................................................................10 9. BIBLIOGRAFIA .........................................................................................................................................11
2
1. INTRODUCCION El presente documento describe una metodología que permite clasificar socioeconómicamente las familias y sus miembros, cuya información fue levantada con el registro social 2008 - 2009, de acuerdo a un índice compuesto por un conjunto de variables, que son Proxy del consumo per cápita. Para determinar un conjunto inicial de variables que formaron parte del modelo, se partió de la actualización del formulario del Registro Social; para ello se utilizó la Encuesta de Condiciones de Vida (ECV 2006) como base para la elaboración del índice, tomando en cuenta también literatura sobre el tema y aplicación de modelos de selección de beneficiarios en otros países, con la condición que discriminen socioeconómicamente a las personas. Cabe señalar que las variables preliminares del modelo consideran fundamentalmente características de la vivienda, complementadas con características del jefe de hogar, composición del hogar y disponibilidad de bienes. Estas variables tienen la particularidad de ser estables en el tiempo y en su mayoría son de tipo estructural. Además se incluye el tema de territorialidad tomando en cuenta la ubicación geográfica de la vivienda y el nivel de pobreza de consumo a nivel de sector censal.
2. SELECCIÓN DEL METODO A APLICAR Para la elección del método multivariante que nos permite la reformulación del índice del Registro Social, se partió del análisis de los resultados obtenidos con varios métodos multidimensionales aplicados para la construcción del primer índice SELBEN, entre ellos: el análisis de regresión y análisis discriminante; se descartó la aplicación de modelos relacionados al ingreso, debido a su gran variabilidad y temporalidad. Cabe señalar que el objetivo es elaborar un índice estable en el tiempo, basado en variables estructurales. De estos resultados y ante la existencia de muchos modelos que pueden aplicarse para clasificar estadísticamente los hogares, que dependerá también de la información disponible, de encuestas complementarias, etc. Más aún, en el caso de la Encuesta de Condiciones de Vida que estamos utilizando para el modelo, dado el tipo de variables que cuenta y al no contar con una clasificación a priori para modelar la variable respuesta, optaremos por el método de componentes principales no lineal (PRINCALS), que varios países lo han adoptado por su mejor poder de discriminación en este tipo de clasificaciones.
3
3. VARIABLES SELECCIONADAS Partiendo del formulario reducido del Registro Social, se seleccionó un conjunto inicial de 59 variables. A continuación se detallan las variables y su correspondiente tipología, la ubicación de las preguntas tanto en el Registro Social (RS) como en la ECV 2006, se puede encontrar en el Anexo 1: TIPO Categóricas (3 o más categorías)
1) 3) 5) 7) 9) 11) 13) 15) 17) 19) 21)
Dicotómica (2 categóricas)
23) 25) 27) 29) 31) 33) 35) 37) 39)
Cuantitativas
Tabla 1 VARIABLE Lugar geográfico en el que viven autodefinición étnica del jefe del hogar cantidad de celulares en el hogar cantidad de miembros del hogar que han migrado categoría ocupacional del jefe de hogar Combustible que utiliza para cocinar destino de los prestamos en dinero Disponibilidad de ducha estado civil estado general de la vivienda forma eliminación basura fuente de obtención del agua Idioma que habla el jefe del hogar material de las paredes actividad económica del jefe de hogar Esta afiliado a algún seguro el jefe del hogar Hacinamiento hogar recibe ingresos por alquileres hogar recibe ingresos por becas de estudio Años de escolaridad del jefe de hogar
41) cantidad de carros en el hogar 43) cantidad de cocinas/cocinetas en el hogar 45) cantidad de computadoras en el hogar 47) cantidad de lavadoras de ropa en el hogar 49) cantidad de licuadoras en el hogar 51) cantidad de líneas telefónicas en el hogar 53) Cantidad de menores de 6 años 55) cantidad de microondas en el hogar 57) cantidad de planchas en el hogar 59) cantidad de prestamos que tiene el hogar en los últimos 12 meses
4
2) 4) 6) 8)
Niños de 5 a 15 años no matriculados Nivel de instrucción del jefe del hogar tenencia de la vivienda tiene electricidad
10) 12) 14) 16) 18) 20) 22)
Tierra para agricultura Tipo de establecimiento al que asisten tipo de servicio higiénico tipo de vivienda Titularidad de la vivienda en propiedad tratamiento que se le da al agua ubicación de los servicios de agua e higiénico vía de acceso principal a la vivienda material del piso material del techo hogar recibe ingresos por pensiones tenencia de animales de crianza en el hogar tiene gas para calefón tiene servicio de internet en el hogar tiene servicio de tvcable en el hogar
24) 26) 28) 30) 32) 34) 36) 38)
40) cantidad de televisores a color en el hogar 42) cantidad de vhs/dvds en el hogar 44) edad del jefe de hogar 46) hogar recibe ingresos por ayudas familiares dentro del país y/ONGs 48) numero de niños de 5 a 17 años que trabajan 50) numero de personas que se encuentran en el hogar 52) numero personas 18-64 que perciben ingresos en el hogar 54) Promedio de pobreza de consumo del sector censal 56) reciben o no remesas para el hogar 58) cantidad de refrigeradoras en el hogar
Estas variables producen una caracterización socioeconómica dividida en los siguientes factores:
Tabla 2 FACTOR
CANTIDAD
características del hogar
6
características del jefe
9
condición de la vivienda
15
condición de vida
15
disponibilidad de bienes
12
territorial
2
TOTAL
59
Cabe destacar que hubo que hacer una homologación entre las variables de la Encuesta de Condiciones de Vida (ECV) 2006 y el Registro Social (RS) 2009, debido a que las categorías a que aludían algunas variables no eran iguales en ambas bases de datos, e incluso existió combinación de preguntas en el formulario del RS.
4. ANALISIS DE FRECUENCIAS Como primer estudio se efectuó un análisis unidimensional de frecuencias a cada una de las variables a nivel nacional y a nivel desagregado por área geográfica, que ponen de manifiesto el patrón de comportamiento de cada una de ellas. A partir de ello se efectuó una categorización (hasta 6 categorías) a todas las variables de tipo cuantitativo, debido a la dispersión en las frecuencias obtenidas, que conlleva a una menor representatividad en el modelo final. De igual forma se agrupó categorías en algunas de las variables debido a sus bajas frecuencias, e incluso se unieron 2 y 3 variables por la razón en mención. Para todas las variables se estableció a priori un orden en el sentido de “peor a mejor”, de manera que otorgue un sentido de clasificación para el puntaje final.
5. PRUEBA DE CORRELACION DE PEARSON Para seleccionar variables que intervengan en el modelo multivariante, es la aplicación de la prueba de correlación de Pearson, una medida de asociación lineal de cada una de las variables con el CONSUMO PER CAPITA, tanto a nivel nacional, como para los datos segmentados según su área geográfica a la que pertenecen (urbano y rural) de acuerdo al número de pobladores (corte 5.000 habitantes).
5
La correlación de Pearson se define como:
Este coeficiente, cuyo valor no depende de las unidades de medida de las variables, está acotado entre -1 y +1; su signo indica la dirección, positiva o negativa, de la asociación lineal y su valor absoluto la intensidad de la misma. En caso de asociación lineal perfecta toma el valor |1|; si no hay asociación lineal toma el valor 0, lo cual no implica que no pueda haber asociación de otro tipo. La condición de selección de las variables que intervendrán posteriormente en el modelo es: mayor o igual a |0,2|. En base a estos resultados, se obtuvo un conjunto final de 30 variables con las cuales se elaboró el modelo.
6. METODOLOGIA DE LA CLASIFICACION SOCIOECONOMICA DEL INDICE DEL REGISTRO SOCIAL Partiendo de la elección del método multivariante a seguir, esto es el Análisis de Componentes Principales no lineales – PRINCALS - (aplicación CATPCA en el lenguaje SPSS), el desarrollo del modelo se lo programó en SPSS. A continuación se explica en qué consiste el modelo a seguir: El PRINCALS emplea escalamiento óptimo para generalizar el procedimiento de análisis de componentes principales, de manera que se puedan acomodar variables de niveles de medida mixtos. Es un análisis similar al análisis de correspondencias múltiples, sólo que le permite especificar un nivel de análisis variable por variable. El sustento teórico detallado se lo puede encontrar en el libro: “NONLINEAR MULTIVARIATE ANALYSIS” de Albert Gifi. En el contexto del índice y a manera de ejemplo, esta técnica puede mostrar las relaciones entre los tipos de hogares (en este caso si dividimos en quintiles a los hogares analizados) y características en donde vive tales como piso, pared, servicios básicos, etc. Con la posibilidad de describir a cada uno de los tipos de hogar por su tipología y el análisis PRINCALS utiliza estas clasificaciones para agrupar los individuos. Esta técnica es un acrónimo para designar el Principal components analysis by means of Alternating Least Squares (Análisis de Componentes Principal por medio de Mínimos Cuadrados Alternantes) El input de este
6
procedimiento lo constituye una matriz de datos en la que las filas están formadas por objetos/sujetos y las columnas por variables. 1 La diferencia respecto al análisis de componentes principales tradicional, radica en que este procedimiento puede llevar a cabo un análisis en que las diferentes variables pueden tener una relación no lineal y estar medidas en diferentes escalas (nominales, ordinales, de intervalo y de cociente), en tanto que en el estándar la relación es lineal y las variables deben estar medidas en una escala de intervalo o de cociente. 1 El PRINCALS utiliza en la estimación de sus parámetros, un procedimiento conocido como Alternating Least Squares o alternancia de mínimos cuadrados. La estimación de mínimos cuadrados de los valores de los parámetros se realiza en dos fases, una de estimación del modelo propiamente dicha, y otra de escalamiento óptimo. Estas dos fases se van alternando iterativamente hasta conseguir una convergencia determinada. El proceso que sigue el PRINCALS y la interpretación de sus resultados es muy similar al de HOMALS (HOMomogeneity Analysis by means of Alternating Least Squares); la finalidad es conseguir cuantificaciones de los objetos/ sujetos (Object Scores) y , por tanto, de las categorías de las variables (Category Quantificactions) que sean óptimas (Optimal Scores), en el sentido que las categorías estén lo más separadas unas de otras en las dimensiones estudiadas, y a su vez, dentro de cada categoría los sujetos estén lo más próximos unos a otros, es decir, con puntuaciones cuanto más homogéneas entre sí. En cuanto a los parámetros de modelo, se han escogido los siguientes: -
Número de dimensiones: 1, para asignarle puntuaciones óptimas a los sujetos/objetos Normalización simétrica, en el sentido que maximiza la distancia entre las categorías de las variables, al mismo tiempo que maximiza las distancias entre los sujetos (hogares) disímiles.
El método de mínimos cuadrados alternantes genera puntuaciones óptimas para los sujetos en el sentido descrito anteriormente. Las puntuaciones individuales en cada dimensión (en este caso 1 dimensión), promediadas para los individuos de cada categoría en las respectivas variables, son las que nos proporcionan las Cuantificaciones de las categorías, y vienen a ser los centroides de cada categoría en cada dimensión, que son asignados a cada categoría por el propio sistema. Las puntuaciones de los sujetos en una dimensión determinada es simplemente una ecuación de regresión lineal, cuyos coeficientes actúan como ponderadores de las variables en análisis, de modo que tanto los
1
MIGUEL ANGEL GUERRERO, Método PRINCALS para la clasificación socioeconómica del Censo 2002 - Chile
7
sujetos como las variables pueden ser representados en esta dimensión, esto es, el puntaje para el K-ésimo sujeto está dado por:
Ptjek =β1 ⋅Q1 j + β2 ⋅Q2 j+…+βr ⋅Qrj
-
βj es el coeficiente de regresión o ponderador de la variable Qj es la cuantificación obtenida para un determinado nivel o categoría de la variable.
Una vez estimada esta ecuación, con los Betas como ponderadores y para cada categoría de las variables, sus cuantificaciones, se calcula el puntaje para cada individuo. Para ello se efectúa una re-escala de los puntajes de cada categoría: 1) Asignando el valor de “0” a la categoría de menor valor presentado y obteniendo la distancia entre el mínimo valor y el 0 y sumando esta distancia al resto de categorías de la variable. 2) De estos nuevos valores, se suman todos los puntajes y se recodifica en una escala de 0 a 100 el puntaje final obtenido.
7. RESULTADOS OBTENIDOS CON EL MODELO 7.1. HISTOGRAMA DEL INDICE EN TODA LA POBLACION A continuación se encuentra la distribución de la población total analizada bajo la clasificación del índice RS. Como se aprecia, los datos tienen un comportamiento normal y la dispersión de los datos es importante a lo largo de toda la escala del índice.
8
Ilustración 1 50000
Frecuencia
40000
30000
20000
10000
0 0
20
40
60
80
100
7.2. ANALISIS DESCRIPTIVO POR QUINTIL DE CONSUMO PER CAPITA Tabla 3 consumo por quintiles
N
Rango
Mínimo
Máximo
quintil 1 (más pobre)
641.735
59,559
0,867
60,426
quintil 2
641.753
68,434
3,435
71,869
quintil 3
641.830
74,13
5,54
79,67
quintil 4
641.799
69,648
13,604
83,252
quintil 5 (más rico)
641.559
81,738
14,486
96,224
Media 24,16 35,84 43,84 54,66 69,15
Desv. típ.
Asimetría
11,67
0,36
12,33
0,00
12,85
-0,19
13,30
-0,65
12,49
-1,13
De los resultados obtenidos se puede apreciar que el valor promedio del índice en cada uno de los quintiles de consumo per capita cambia significativamente de uno a otro y que la variabilidad es grande, siendo esto un factor positivo del modelo; así, el puntaje medio del quintil más pobre es 24,16, frente al puntaje 69,15 del quintil menos pobre. Se puede apreciar también que dentro de cada quintil, existe gran variabilidad en el puntaje del índice, lo que lleva a pensar en la existencia de beneficiarios con puntuaciones similares y que pertenecen a quintiles opuestos; sin embargo, analizando la ASIMETRIA DE LA DISTRIBUCION dentro de cada quintil, que refleja
9
el grado de uniformidad que tienen las colas izquierda y derecha de una distribución con relación a su media, con el criterio que si la distribución es simétrica como la Ley Normal de probabilidades, ésta tiene un valor de asimetría igual a 0. Si una distribución tiene una cola derecha larga, se obtiene una asimetría positiva, que es lo que ocurre para las familias más pobres (0.36); esto nos indica que si bien los puntajes varían desde 0,867 a 60,426, la mayoría de las familias pertenecientes a este quintil tienen puntuaciones bajas, y muy pocas familias de este quintil presentarán puntajes mayores (hasta 60,426 puntos). Por otro lado, si tiene una cola izquierda larga, se obtiene una asimetría negativa que es el caso de los quintiles 3 al 5; en consecuencia la mayoría de las familias de estos quintiles tienen puntuaciones altas, y unas pocas familias de estos grupos presentarán puntuaciones bajas.
7.3. ANALISIS DE EFECTIVIDAD Analizando una tabla de cruce por quintiles del índice obtenido con los quintiles de consumo per cápita obtenemos lo siguiente:
CONSUMO PER CAPITA POR QUINTILES quintil 1 quintil 2 quintil 3 quintil 4 quintil 5 TOTAL Qi
Tabla 4 INDICE POR QUINTILES quintil 1 quintil 2 quintil 3
60% 25% 10% 4% 0,8% 100%
28% 35% 25% 9% 2% 100%
11% 29% 33% 21% 6% 100%
quintil 4
1% 11% 27% 42% 19% 100%
quintil 5
0% 1% 4% 24% 72% 100%
TOTAL QC 100% 100% 100% 100% 100%
Con estos resultados obtenidos podemos ver que el 85% de las familias clasificadas como más pobres (quintil 1 del índice) son realmente pobres de acuerdo a su consumo per capita, existiendo apenas un 0,8% de gente que realmente tiene posibilidades económicas, clasificada como “familia pobre” según el índice y que posteriormente podría acceder a beneficios de programas sociales. Este porcentaje de filtración puede ser reducido mediante la creación restricciones a priori que filtren a la mayoría de casos atípicos.
10
Tabla 5 INDICE SELBEN
INDICE RS
ECV 1998
ECV 2006
error de exclusión
21,2%
10,5%
error de inclusión
18,3%
10,4%
subcobertura
38,1%
26,3%
filtración
34,6%
26,1%
DESCRIPCION ERRORES
INDICADORES
INDICADOR
De acuerdo a los resultados de la tabla anterior y comparando con el índice SELBEN, el índice del Registro Social presenta una disminución en los errores de EXCLUSION en más de 10 puntos, asegurando que las familias pobres sean priorizadas para el beneficio de los distintos programas sociales, y de igual forma se visualiza una disminución en el error de INCLUSION de 8 puntos, reduciendo así costos para el Estado. En relación a los indicadores de SUBCOBERTURA y FILTRACION, el índice RS presenta una mejor caracterización de las familias con mayores necesidades económicas, disminuyendo más de 11 puntos el porcentaje de subcobertura y más de 8 puntos el de FILTRACION.
8. BIBLIOGRAFIA -
GUERRERO, MIGUEL ANGEL: “Método PRINCALS para la clasificación socioeconómica del Censo 2002”, Chile, II semestre 2003.
-
AMORES, Cesar: “Metodología de Construcción del Índice de Bienestar para potenciales beneficiarios de Programas Sociale”, Ecuador, Agosto 2000.
-
SPSS: “Análisis de Componentes Principales Categórico (CATPCA)”.
-
INSTITUTO NACIONAL DE ESTADISTICAS (INE): “Metodología Clasificación socioeconómica de los hogares chilenos”, Chile, 2003.
-
LEON, MAURICIO; VOS, ROB; BRBORICH, WLADYMIR: “Son efectivos los programas de transferencias monetarias para combatir la pobreza?, Evaluación de Impacto del Bono Solidario en el Ecuador”, Quito – La Haya, Abril 2001.
11
de