ESTRATIFICADOR INEGI TUTORIAL

ESTRATIFICADOR INEGI TUTORIAL Febrero de 2012 ESTRATIFICADOR INEGI Índice 1. Introducción 2. Estratificación 3. Descripción del Estratificador INE

Author: Gustavo Flores Ríos

32 downloads 226 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

Tutorial Termoformado

Reporte de las APP S del INEGI

Dirección de Investigación y Estrategias de Mercado Subdirección de Detección de Necesidades de Usuarios Reporte de las APP´S del INEGI Marzo 2016

CLAVE INEGI RFC NOMBRE NIVEL EDUCATIVO

Tutorial Appinventor. Minigolf

RapidMiner: Tutorial online + Operadores

TUTORIAL ADOBE READER 7.0

TUTORIAL ADOBE® READER® 7.0 Paso a paso cómo utilizar y ver documentos en Acrobat Reader Introducción El Objetivo de este tutorial es que pueda manej

TUTORIAL e-motional Training

TUTORIAL e-Motional Training™ e-Motional Training™ es un programa interactivo online de entrenamiento en cognición social dirigido a to

Tutorial QCad 2.1

Tutorial de Microsoft Word

Allplan 2014 Tutorial Arquitectura

Story Transcript

ESTRATIFICADOR INEGI TUTORIAL

Febrero de 2012

ESTRATIFICADOR INEGI

Índice 1. Introducción 2. Estratificación 3. Descripción del Estratificador INEGI a. Selección del número de grupos b. Selección del nivel de desagregación geográfica c. Selección de los indicadores a usar d. Selección del método a utilizar 4. Resultados a. Mapas b. Burbujas c. Centroides d. Proyecciones a primeras componentes principales e. Exportación de resultados numéricos 5. Comparación entre resultados alternativos a. Historial

El Estratificador INEGI Introducción Consciente de la creciente necesidad que tienen los tomadores de decisiones, y los usuarios en general, de contar con información de calidad, oportuna y adecuada, así como de la evolución experimentada por los procedimientos de estratificación y por las infraestructuras de cómputo, el INEGI pone hoy a su disposición el presente servicio con la finalidad de permitirles construir agrupaciones o estratificaciones de áreas geográficas que se adecuen a sus necesidades, con base en información estadística que refleje semejanzas y diferencias. En general, es posible decir que el propósito principal de los métodos de estratificación 1 es el de formar grupos o estratos claramente diferenciados de unidades tan homogéneas al interior y tan distintas entre grupos como sea posible, a partir de información cuantitativa que toma la forma de una o más mediciones realizadas en todas y cada una de ellas. La asignación de las unidades 2 a los estratos se realiza con base en procedimientos numéricos que utilizan esa información. Ahora bien, el logro del propósito planteado dependerá de diversos factores como son la misma información de la que se parte, o los recursos computacionales al alcance, o los métodos y procedimientos disponibles, entre otros, así como de las combinaciones entre ellos. El sistema que se presenta concede al usuario, entre otras facilidades, la libertad, por un lado, de seleccionar aquellas variables que muestran mayor afinidad con el tema de su interés y, por el otro, de elegir uno o más procedimientos de estratificación; de este modo será posible disponer de dos o más estratificaciones alternativas. El servicio incluye, asimismo, una serie de ayudas gráficas que permitirán al analista realizar comparaciones y decidir cuál de todas las combinaciones de datos y métodos satisface de la mejor manera sus objetivos. Lo anterior, por supuesto, no cancela la posibilidad de que usuarios con mayor experiencia decidan aplicar un único método a la información seleccionada y trabajar con el resultado de tal decisión. ESTRATIFICACIÓN Con fines interpretativos, el territorio de un país o de una entidad federativa puede ser visto como la superposición de los territorios de varios "archipiélagos" cada uno de los cuales está formado por unidades geográficas o administrativas pertenecientes al mismo estrato y que, por esa razón, comparten una realidad que es diversa a la de las unidades pertenecientes a otros "archipiélagos", sin importar su vecindad geográfica. En consecuencia, cada una de esas realidades requiere, por ejemplo, de acciones diversas para dar atención a sus carencias relativas. En efecto, una pareja de grupos puede mostrar semejanzas en algunos indicadores y diferencias significativas en otros, en tanto que una segunda pareja puede mostrar el comportamiento inverso. Por lo anterior, la 1

http://en.wikipedia.org/wiki/Cluster_analysis y las referencias que ahí aparecen. En este momento, para el sistema, solamente municipios o estados. Pueden ser personas, hogares, viviendas, manzanas, localidades, municipios, entidades federativas, etc.

2

reducción de las desigualdades en cada caso requerirá de esfuerzos no sólo cuantitativa sino cualitativamente diferentes. En otras palabras, las acciones requeridas son diversas no solamente a causa de la magnitud del esfuerzo correspondiente, como puede parecer si se mira al ejercicio a través de un resumen en una sola dimensión (ej., “Marginación”), sino también a causa de los distintos entornos a los que habrá que dedicar esfuerzos diferenciados, como corresponde cuando se está en presencia de un problema multidimensional. Sin lugar a dudas, los estudios sobre el tema de la marginación elaborados en México por CONAPO 3 representan una de las aplicaciones mejor conocidas y más significativas en el país, de los procedimientos orientados a la formación de clases, grupos, conglomerados o estratos bien diferenciados, conformado cada uno de ellos por unidades homogéneas. El innegable impacto de los trabajos de CONAPO en la elaboración e instrumentación de la política social mexicana en apoyo a pobladores de unidades territoriales clasificadas en los estratos de “ALTA” y “MUY ALTA MARGINACIÓN” difícilmente se hubiera alcanzado de no haber sido basados en un sólido acervo de información estadística como la aportada por los censos y conteos de población de los últimos veintitantos años y en un procedimiento que, siendo ya viable en los equipos de cómputo de aquellas épocas, representó en su momento una importante innovación. Tal vez la mayor limitación de enfoques como el de CONAPO es, por un lado, la de buscar un resumen en una sola dimensión, o índice sintético, de una circunstancia que es, de origen, multidimensional. Tales resúmenes son, sin lugar a dudas, útiles como primeras aproximaciones en el estudio de una situación o problema. Basar en ellos decisiones de política social, sin embargo, conlleva riesgos más o menos importantes según la cantidad de información que el resumen oculte o no sea capaz de explicar. Por otro lado, basar en dicho resumen una estratificación, univariada a fin de cuentas, puede “empeorar” el resultado. Todo ello, aunque el indicador sintetice la información de múltiples variables y el procedimiento univariado de estratificación sea “óptimo”, en un sentido no siempre entendido 4. En la medida en que se alcance “mejor” el propósito de un ejercicio multivariado de estratificación, será posible acceder además a una descripción detallada de la estructura del conjunto de datos que permita identificar las causas significativas de las desigualdades entre grupos e instrumentar, en su caso, acciones convenientes de política social. De aquí la importancia de disponer de procedimientos multivariados de estratificación que aprovechen toda la

3

http://www.conapo.gob.mx/index.php?option=com_content&view=article&id=78&Itemid=194 El procedimiento univariado de Dalenius-Hodges (Dalenius, T. and Hodges, J. L., JR. (1959). Minimum variance stratification. J. Amer. Statist. Assoc. 54 88-101), que es el usado por CONAPO y del cual no hay una versión multivariada, busca la estratificación que conducirá a la estimación muestral más precisa (o de menor varianza, y este es el sentido en el que es óptima) del promedio poblacional de la variable de estratificación. Ello cuando la selección de muestra se lleva a cabo de manera estratificada, con afijación de la muestra proporcional al tamaño de cada estrato y con selección aleatoria simple de unidades al interior de los estratos. Cabe preguntarse con qué frecuencia quienes diseñan la política social buscan la estimación óptima del promedio poblacional de la primera componente principal (o de variables altamente correlacionadas con ella) como para preocuparse por encontrar la estratificación óptima para ese fin. 4

información disponible, y de criterios claros y con consenso que permitan identificar cuando una estratificación es mejor que otras. DESCRIPCIÓN DEL ESTRATIFICADOR

La pantalla del Estratificador está dividida en dos secciones. La primera de ellas, a la izquierda, está dedicada a auxiliar al usuario a llevar a cabo las elecciones antes mencionadas. Por su parte, la segunda despliega desde diversos puntos de vista el resultado de cada uno de los ejercicios desarrollados. La porción izquierda de la pantalla muestra tres pestañas que son: 1. opciones generales, 2. opciones avanzadas, 3. historial. La pestaña denominada “opciones generales” aparece desplegada en el momento en que el usuario invoca al sistema. Desde ella, bajo su responsabilidad, el usuario decidirá las condiciones bajo las cuales se generarán sus resultados eligiendo: 1. 2. 3. 4. 5

El número de grupos a formar; el nivel de desagregación geográfica, en este momento limitada a estados o municipios; en su caso, la selección de entidades cuyos municipios serán estratificados; de entre 163 indicadores expresadas en términos relativos 5, las que serán consideradas; y

Debe ejercerse cuidado con la selección de variables y con la interpretación de sus resultados ya que en el conjunto incluido las hay “positivas”, para las que “mayor es mejor”, como “% Población de 18 a 24 años

5. el método de estratificación de entre los tres que, por ahora, se proponen.

De entrada, permite seleccionar el número de grupos o estratos a formar de entre la lista de opciones que se despliega al hacer clic con el cursor sobre la flecha del lado derecho.

que asiste a la escuela” y “negativas”, cuando “mayor es peor”, como “% Población de 8 a 14 años que no saben leer ni escribir”.

Inmediatamente, es posible seleccionar el nivel de desagregación geográfica deseado: Estatal o municipal. Se abre la posibilidad de realizar ejercicios regionales de estratificación al seleccionar un conjunto de estados mexicanos de la lista que se despliega debajo y de estratificar solamente los municipios incluidos en él.

Acto seguido es posible seleccionar el conjunto de indicadores en que se basará un ejercicio de estratificación. Al hacer clic en el botón “Variables” se despliega la lista de los ahora disponibles.

La selección se hace marcando las cajas correspondientes a las variables deseadas. Para los ejemplos que se muestran enseguida fue seleccionado el siguiente grupo de 33 variables:

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33.

% Población nacida en otra entidad % Población de 5 años y más residente en otra entidad en junio de 2005 % Población de 3 años y más que habla alguna lengua indígena % Población con limitación en la actividad % Población de 3 a 5 años que no asiste a la escuela % Población de 6 a 11 años que no asiste a la escuela % Población de 12 a 14 años que no asiste a la escuela % Población de 15 a 17 años que asiste a la escuela % Población de 18 a 24 años que asiste a la escuela % Población de 8 a 14 años que no saben leer y escribir % Población de 15 años y más analfabeta % Población de 15 años y más sin escolaridad % Población de 15 años y más con primaria incompleta % Población de 15 años con máxima escolaridad en primaria % Población de 15 años y más con secundaria incompleta % Población de 18 años y más con educación pos-básica % Población económicamente activa % Población desocupada % Población sin derecho-habiencia a servicios de salud % Hogares censales con jefatura femenina % Pobladores en viviendas con piso de tierra % Pobladores en viviendas que disponen de luz eléctrica % Pobladores en viviendas que disponen de agua entubada en el ámbito de la vivienda % Pobladores en viviendas que disponen de excusado o sanitario % Pobladores en viviendas que disponen de drenaje % Pobladores en viviendas que disponen de radio % Pobladores en viviendas que disponen de televisor % Pobladores en viviendas que disponen de refrigerador % Pobladores en viviendas que disponen de automóvil o camioneta % Pobladores en viviendas que disponen de computadora % Pobladores en viviendas que disponen de línea telefónica fija % Pobladores en viviendas que disponen de teléfono celular % Pobladores en viviendas que disponen de internet

Finalmente, es posible seleccionar el procedimiento de estratificación que se aplicará enseguida con base en las elecciones realizadas hasta ahora. En este momento los métodos disponibles son: 1. K-medias 6, 2. Mulvar 7, 3. MClust 8,9. El primero de los tres procedimientos es uno de los mejor conocidos y de mayor uso entre aquellos que alguna vez han llevado a cabo alguna estratificación multivariada. Ello se debe a que el procedimiento puede ser expresado de una forma sencilla y clara: con base en los valores de los p indicadores seleccionados, asigne cada unidad a aquel de los K grupos cuyo punto central le sea más cercano. En otras palabras, a aquel grupo cuya distancia (Euclidiana) con el punto que representa a la unidad sea mínima. Por supuesto, la distancia entre un grupo y un elemento puede definirse de diversas formas; las más usuales son las identificadas como “vecino más próximo”, “vecino más distante” y “al centroide”. En particular, k-medias hace uso del último en esa lista. Es decir, en un espacio de p dimensiones, mide la distancia entre el punto que representa a la unidad y el que representa al centro del grupo, denominado centroide. Cuando la distancias se 6

http://en.wikipedia.org/wiki/K-means_clustering Producto: http://www.inegi.org.mx/est/contenidos/espanol/sistemas/regsoc/default.asp?s=est&c=11723, Metodología: http://sc.inegi.org.mx/niveles/datosnbi/reg_soc_mexico.pdf 8 C. Fraley and A. E. Raftery, Model-based clustering, discriminant analysis, and density estimation, Journal of the American Statistical Association, Vol. 97, pages 611-631 (2002). 9 C. Fraley and A. E. Raftery, MCLUST Version 3 for R: Normal Mixture Modeling and Model-based Clustering, Technical Report No. 504, Department of Statistics, University of Washington, September 2006 (revised July 2010). 7

minimizan, debe tenerse que además la suma (de cuadrados) de las distancias entre las unidades y sus centroides alcanza su valor mínimo. Es decir, la estratificación óptima es la que minimiza ese criterio 10. Por su parte, el segundo de los mencionados métodos, el que ha sido denominado MULVAR en el estratificador, es el usado en los ejercicios denominados "Niveles de Bienestar" que fueron elaborados por el INEGI a partir de información recolectada por los censos de 1990 y de 2000. El procedimiento fue propuesto en Jarque (1981) 11 como un intento por extender la estratificación univariada óptima de Dalenius-Hodges a un contexto multivariado. La esencia del método puede resumirse como la aplicación del procedimiento de K-medias a una versión estandarizada de los indicadores seleccionados; la mencionada estandarización se realiza usando las desviaciones típicas de los estimadores muestrales del promedio poblacional de cada indicador. Ha sido habitual suponer un tamaño de muestra equivalente al 10% del tamaño de la población y así ha sido instrumentado en el Estratificador INEGI. El tercero de los procedimientos se incluye buscando corregir una limitación de los primeros dos cuando es necesario tomar en cuenta las correlaciones exhibidas entre indicadores. La atención de este inconveniente dada por MCLUST tiene un costo ya que supone que los datos fueron generados a partir de una mezcla de distribuciones, según se ejemplifica en las siguientes dos 10

Este procedimiento ilustra también la complejidad que enfrentan los procedimientos de estratificación multivariada. Antes de llevar a cabo cualquier estratificación, los valores de los centroides son desconocidos; en consecuencia, no es posible calcular a priori las distancias entre las unidades y ellos. Alternativamente, puede pensarse en proponer una asignación arbitraria de las unidades a K grupos, para después calcular los centroides correspondientes y finalmente las distancias entre éstos y los puntos del grupo. Dos asignaciones tales pueden ser comparadas con base en las sumas de distancias para determinar cuál es “mejor”. Procediendo de este modo, después de hacer una enumeración completa, cabe esperar que sería sencillo identificar la óptima. Sin embargo, cuando el número de unidades es relativamente grande, resulta materialmente imposible enumerar todas las posibles estratificaciones para encontrar la que sería considerada óptima; por ejemplo, para el caso de los más de 2450 municipios mexicanos se tiene que el 2450 o, lo que es casi lo mismo, a un número de todas sus estratificaciones en cinco grupos rebasa el valor 5 10 seguido de 1711 ceros. Si el tiempo que toma la asignación de unidades a grupos, más el que toma el cálculo de centroides, más el que toma calcular las distancias de éstos a las unidades, consumiera en total 1 1700 siglos hacer una enumeración completa para tener la certeza de que segundo, todavía tomaría más de 10 se encontró la solución óptima. Por lo anterior se han desarrollado estrategias que permiten encontrar soluciones aproximadas en tiempos razonables. Una de ellas, instrumentada en el Estratificador, consiste en seleccionar aleatoriamente K unidades para que hagan las veces de centroides iniciales. Cada vez que una unidad es asignada a un grupo, el centroide correspondiente es recalculado hasta que todas las unidades han sido asignadas. El proceso se repite usando ahora como centroides iniciales los que resultan de la iteración anterior hasta que ninguna unidad cambia de estrato. Es claro que aún cuando se use el mismo conjunto de indicadores y el mismo número de grupos así como el mismo procedimiento, los resultados pueden variar dependiendo de las selecciones iniciales en cada aplicación; sin embargo, se espera que no difieran mucho. 11 C. M. Jarque, A Solution to the Problem of Optimum Stratification in Multivariate Sampling, JRSS, Series C (Applied Statistics), Vol. 30, No. 2 (1981), pp. 163-169.

gráficas, lo que impone una restricción adicional ya que tal supuesto puede cumplirse cabalmente, o sólo de manera aproximada o, de plano, no cumplirse. Como es usual, en la medida en que los supuestos sean satisfechos por los datos, los resultados obtenidos mejorarán.

Con fines de ejemplificación de la situación que se pretende corregir, considere un caso extremo dado por la repetición, un número grande de veces, de la información referida a un mismo indicador, lo que daría lugar a una correlación perfecta entre las réplicas del mismo. Los procedimientos hasta ahora descritos, cuyo desarrollo no contempló circunstancias como la que se describe, producirían estratificaciones para las cuales el indicador redundante tiene mucha mayor influencia en el resultado que las restantes, tomadas estas individual o colectivamente. En la práctica ocurren circunstancias menos evidentes como cuando una variable es la suma, o casi, de otras dos o más por lo que no aporta información adicional; es decir, es también redundante. Para la aplicación de este método se incluye un procedimiento que evalúa (ver una descripción detallada del método, más abajo) diversas combinaciones de número de estratos a usar, entre 1 y 10, y de modelos locales para la estructura de covarianza, dentro de cada estrato, denotados por hasta 10 combinaciones de 3 letras 12. La primera posición de la combinación se refiere al tamaño 12

Esta parte del procedimiento puede consumir varios minutos dependiendo del número de variables y de unidades consideradas. Por ejemplo, para la ejemplificación numérica (2456 municipios y 33 variables) fueron requeridos casi seis minutos. Un dial giratorio en la esquina superior izquierda de la pantalla indicará que la elaboración de la gráfica está en proceso. El servicio puede seguir siendo usado para realizar otras funciones mientras esto ocurre.

de las nubes de puntos (o al volumen de los elipsoides de concentración; E cuando son iguales o V cuando pueden variar); la segunda a su forma (I para todas esferas, E para todas elipsoides y V para mezclas); y la tercera a la orientación de los ejes principales (I para esferas o sin orientación definida, E para igual orientación de todos los elipsoides y V para orientaciones diversas). De este modo, el modelo EII resulta ser el más restrictivo y el VVV, el más libre y, por ello, aquel cuyo número de parámetros a estimar es mayor. Esta situación se ilustra en la siguiente figura.

-10

-5

10

10

8

8

6

6

4

4

2

2

0

0

-2 0

5

10

-10

-5

-2 0

-4

-4

-6

-6

-8

-8

-10

-10

5

10

A partir de un criterio Bayesiano (BIC), que penaliza el uso de un mayor número de parámetros, el procedimiento compara combinaciones y sugiere aquellas a considerar. En la sección de la pantalla “Opciones Avanzadas” del Estratificador es posible seleccionar el o los modelos elegidos al hacer uso del procedimiento “MCLUST” como se muestra enseguida.

Una vez elegido un procedimiento y un modelo, en su caso, hace falta hacer clic sobre el botón denominado "CLASIFICAR", en la sección “Opciones Generales”, para obtener resultados del primer ejercicio de estratificación.

La pantalla se nublará y un “dial” girando indicará que el sistema está atendiendo la instrucción.

RESULTADOS Esto es todo lo que hace falta para llevar a cabo un ejercicio de estratificación a nivel nacional. Resta ahora decidir si el resultado obtenido es satisfactorio y puede ser usado para basar en él diversas decisiones. Por ello, los resultados de cada estratificación realizada, como se indicó con anterioridad, pueden ser encontrados en la sección derecha de la pantalla del Estratificador. Las gráficas de resultados pueden ser consultadas activando las pestañas que aparecen en la parte superior de la sección de resultados. Dichas pestañas están denominadas: 1. 2. 3. 4.

mapas, burbujas, centroides, componentes principales.

En primer lugar, el sistema desplegará los resultados obtenidos de manera gráfica coloreando todas y cada una de las unidades geográficas en el mapa que se despliega ahora en el lado derecho de la pantalla. Por supuesto, las entidades que se muestran en el mismo color pertenecen al mismo estrato.

Para facilitar la interpretación del resultado desplegado en el mapa, se ha incluido un cuadro resumen en la parte inferior izquierda de la pantalla. En él se muestran el tamaño de cada grupo y el color que se le asociará en adelante. Las situaciones más extremas son representadas por los colores rojo oscuro y verde oscuro. En general, las condiciones más desfavorables se asociarán al primero de ellos pero la presencia de indicadores en sentidos opuestos puede dar lugar a resultados diferentes. Se incluye además una gráfica en la que líneas de color unen los valores promedio de los indicadores para las unidades dentro del grupo correspondiente. Una versión de esta gráfica pero de más fácil visualización aparece en la pestaña denominada “Centroides”, que se explica más adelante.

De este modo, las anteriores figuras ejemplifican la asignación de municipios a grupos según los indicadores seleccionados. Los nombres se despliegan haciendo clic sobre cada polígono.

La asignación de cada uno de los municipios puede ser consultada en el archivo producido por el sistema y que se recupera usando el vínculo situado en la esquina inferior derecha de la pantalla, denominado “Descargar Datos”.

Se desplegará una pestaña adicional en el explorador y el resultado podrá ser guardado como archivo CSV, importable por sistemas tales como Excel. Dependiendo del explorador utilizado se seguirá una estrategia diferente para exportar los resultados. En general, se deberá guardar el archivo en formato TXT pero con extensión CSV. De este modo, al cliquear en él será importado por Excel. Conviene asegurarse que la extensión del archivo es CSV y no, como ocurre con frecuencia, CSV.TXT.

La segunda pestaña de resultados exhibe gráficamente la representación en un plano de cuatro variables relacionadas con las unidades estratificadas: los ejes cartesianos “x” e “y” estarán asociados a variables, usadas o no para la estratificación, que pueden ser seleccionadas por el usuario; la tercera dimensión corresponde a otra de las variables y cuya magnitud está asociada al diámetro de cada una de las burbujas; finalmente, y como ya se indicó, el color de cada una de las burbujas indica el estrato al que pertenece la unidad. La ubicación del cursor sobre una burbuja desplegará el nombre del municipio representado. Esta gráfica permite hacer un análisis exploratorio de la ausencia de capacidad discriminatoria mostrada por alguna de las variables y del grado de asociación que existe entre los valores de ellas para la población en estudio, así como de la manera en que lo anterior tiene efecto sobre una estratificación. En efecto, cuando las burbujas se concentran en un rango estrecho de valores de alguno de los ejes, la variable correspondiente contribuye poco a la identificación y separación de los grupos por lo que puede dejar de ser considerada. Más aún, así como la relación entre las variables representadas por los ejes se expresará positivamente cuando valores pequeños (grandes) de una se asocien con valores también pequeños (grandes) de la otra, o negativamente cuando los valores pequeños de una se asocien con valores grandes de la otra y viceversa, la relación de éstas con la tercera se hará evidente según sus valores pequeños o grandes se asocien con tamaños pequeños o grandes de las esferas. Redundancias importantes como la que reflejaría una asociación positiva entre las tres variables utilizadas pueden orientar la selección del método a usar, o del conjunto de variables.

La gráfica de resultados denominada Centroides presenta un resumen del resultado a través de tantas líneas quebradas como grupos se haya determinado usar en el ejercicio. Los vértices de cada línea son los promedios simples de los valores de cada uno de los indicadores cuando se consideran solamente las unidades que forman cada estrato. En el eje horizontal aparecen los mnemónicos que identifican los indicadores. Cuando existe un fuerte grado de asociación o correlación entre éstos, se tiene que las gráficas se muestran igualmente ordenadas de acuerdo con los valores de los promedios de todas las variables; en otras palabras, existe una dominancia total de modo que es posible identificar al grupo que enfrenta las mejores y al que enfrenta las peores condiciones así como a los intermedios. Nótese, sin embargo, que en este caso se presenta una redundancia excesiva por lo que podría concluirse que bastaría un solo indicador para obtener un resultado muy similar. En caso contrario, se tendrá que los órdenes cambian para uno o más indicadores. Los indicadores cuyos promedios muestran valores más heterogéneos contribuyen de manera más importante en la definición de los estratos. En cambio, cuando estos valores son casi coincidentes para todos los estratos debe tenerse que los indicadores correspondientes no hacen una contribución significativa al mismo fin por lo que podrían ser ignorados para ejercicios subsecuentes. Por su parte, los casos intermedios permiten identificar aquellas dimensiones que hacen diferentes a dos o más grupos y, en consecuencia, permiten asimismo identificar los temas y, en consecuencia, la naturaleza de los esfuerzos que deben ser realizados para reducir la desigualdad entre ellos.

La última gráfica de resultados incluida hasta ahora es la que representa a las unidades y a los centroides como puntos en un espacio de dos dimensiones definido en términos de las dos primeras componentes principales. Así, el eje horizontal está asociado con la primera componente principal y el vertical con la segunda. En cada caso, se señala la proporción de la suma de varianzas representada por la de cada una de las componentes principales. Esta gráfica nos permite, en consecuencia, apreciar la información desde una perspectiva diferente. Sin embargo, su interpretación debe ser realizada con gran cuidado. Ante la imposibilidad de representar gráficamente en un espacio de cinco o más dimensiones a los puntos que representan a todas las unidades, es necesario recurrir a resúmenes de diversa naturaleza. Esta gráfica representa un ejemplo de tal estrategia ya que muestra lo que se conoce como una proyección en un plano bidimensional con lo que, por ejemplo, nubes de puntos tridimensionales pierden profundidad al ser aplanadas. Dicha proyección podría llevarse a cabo sobre planos definidos por parejas del variables incluidas en el estudio, de los cuales puede haber un número grande, lo que podría dificultar su interpretación. Ya que solamente hay una pareja formada por las primeras dos componentes principales, la posible ambigüedad en la representación y en la interpretación de resultados parece quedar resuelta en este resumen. En presencia de indicadores con tan alta redundancia que el uso de dos o más indicadores iniciales aporta poco al análisis pues el uso de uno solo conduciría a resultados muy semejantes, la varianza de la primera componente principal representará un porcentaje muy alto por lo que tanto los puntos como los centroides se ubicarán cercanos a una línea paralela al eje horizontal. Esta es la situación en la que procedimientos como los desarrollados por CONAPO brindarán una descripción adecuada. Por supuesto, es posible pensar en situaciones menos extremas para las que las

primeras dos o tres componentes principales explican casi la totalidad de la varianza generalizada. Cuando éste es el caso, los estratos también se diferenciarán verticalmente. SUBCONJUNTOS DE ENTIDADES

Según se mencionó, existe la posibilidad de realizar una estratificación con desagregación municipal restringida a uno o más estados seleccionados. En el ejemplo que sigue, se seleccionaron las seis entidades de la frontera norte (Baja California, Chihuahua, Coahuila, Nuevo León, Sonora y Tamaulipas) y sus municipios fueron estratificados en cinco grupos usando las mismas 33 variables, mediante el método de las K-medias.

El cuadro resumen desplegará resultados para este ejercicio: color del grupo, número de unidades en el grupo así como los valores de los centroides por cada uno de los grupos. El archivo resumen exportable mostrará solamente las entidades y los municipios considerados.

Los otros resultados gráficos harán mención también solamente a la selección:

COMPARACIÓN ENTRE ESTRATIFICACIONES ALTERNATIVAS Está contemplada la realización de dos o más estratificaciones alternativas en busca de la que parezca más satisfactoria. Con el fin de facilitar su comparación, se ha añadido la pestaña denominada “Historial”. Cuando se accede a ella se despliega la lista de estratificaciones realizadas a lo largo de una sesión, indicando el método, los indicadores y el número de grupos utilizados. Al hacer clic con el ratón sobre uno de los elementos de la lista, la ventana de resultados seleccionada exhibirá la gráfica correspondiente. A medida que nos desplazamos sobre la lista, resultará posible apreciar tanto las coincidencias como las diferencias entre los resultados correspondientes como lo ejemplifican las siguientes 12 imágenes.

En efecto, partiendo de idéntica selección de variables y del número de grupos a formar, los primeros tres mapas muestran coincidencias importantes entre los resultados arrojado por cada uno de los métodos pero también diferencias importantes. La versión más optimista parece ser la pintada por K-MEDIAS, seguida por la entregada por MULVAR, terminando con la proporcionada por MCLUST. Por ejemplo, todos los métodos ubican entre aquellos con mayores carencias, en color rojo, a municipios serranos de Chiapas, Guerrero, Puebla y Chihuahua. Sin embargo, para MCLUST crece el número de municipios en esta condición, en tanto que solamente algunos municipios capitalinos, sus conurbaciones y otros pocos más alcanzan, por así decirlo, la más alta calificación. GRUPO 1 2 3 4 5

K-MEDIAS 280 571 262 838 505

MCLUST 649 790 497 378 142

MULVAR 238 288 695 894 341

Determinar, con base solamente en la anterior información, cuál de los 3 resultados es el más adecuado a los fines del investigador requeriría de una opinión experta no siempre disponible. Es de esta forma que, a nuestro juicio, adquieren sentido las otras gráficas de resultados. Por ejemplo, desde la perspectiva de la gráfica de burbujas y de nuestra selección de indicadores para ser representados por los ejes, se confirma que K-MEDIAS presenta una situación optimista. Una

situación intermedia es la que presenta MULVAR pero aún ahora no resulta sencillo determinar una estratificación adecuada. Cabe hacer notar que una selección diferente para los ejes de coordenadas puede modificar las anteriores percepciones. Es evidente que sería ideal que todas las elecciones para los ejes nos llevaran a conclusiones semejantes pero, en general, esta es solamente una situación excepcional. Lo más usual será encontrar algunas combinaciones que indican que uno de los métodos es superior y otras que indican que lo opuesto es cierto.

El tercer resumen gráfico aporta evidencia sobre las semejanzas o diferencias mostradas por los centroides en vez de las de los valores de las unidades por lo que puede dar la impresión de menor ambigüedad. En general se buscaría identificar el método cuya gráfica presente las mayores distancias entre los centroides de los grupos pues de ese modo sería satisfecho el propósito de

obtener grupos bien diferenciados. Las primeras dos gráficas permiten comparar a K-MEDIAS con MCLUST y nos llevarían a concluir que el primero muestra características más deseables por que los centroides muestran valores ligeramente más separados. Por supuesto, cuando alguno de los indicadores exhibe valores de los centroides muy semejantes entre sí, independientemente del método de que se trate, no concluiríamos que ninguno de los métodos es satisfactorio sino que dicho indicador contribuye poco o nada a la formación de grupos y, por tanto, es candidato a ser eliminado en la realización de futuras estratificaciones. En el ejemplo, parece haber coincidencias entre los métodos con respecto a las variables candidatas a ser ignoradas en ejercicios posteriores. Estarían en este caso los indicadores 1. 2. 3. 4. 5. 6. 7.

% Población de 5 años y más residente en otra entidad en junio de 2005 % Población con limitación en la actividad % Población de 3 a 5 años que no asiste a la escuela % Población de 6 a 11 años que no asiste a la escuela % Población de 15 años y más con secundaria incompleta % Población desocupada % Hogares censales con jefatura femenina

La tercera por su parte, muestra a simple vista valores para los centroides mas alejados entre si de todos los métodos considerados.

El siguiente grupo de gráficas tiene también el propósito de auxiliar en la búsqueda de la mejor estratificación. En apariencia, las proyecciones para K-MEDIAS y para MULVAR muestran cinco grupos diferenciados con dispersiones semejantes. Por su parte, la gráfica correspondiente a MCLUST muestra dos grupos con dispersión grande, uno más con dispersión grande y dos con dispersión pequeña. Para el conjunto de indicadores usado en esta ejemplificación se tiene que la varianza de la primera componente principal corresponde a 54% de la suma de las varianzas de los 33 indicadores. Por su parte, la segunda de ellas tiene una varianza equivalente a sólo 9% de ese total. A pesar de la disparidad entre estos valores, las gráficas correspondientes a K-MEDIAS y a MULVAR parecen indicar que, bajo las condiciones en que fueron obtenidas, es importante considerar la información contenida en la segunda componente para formar cinco grupos pues ella ayuda a distinguir dos grupos (amarillo y naranja) que pudieran haber sido confundidos en caso de haber recurrido sólo a la primera componente (eje horizontal). Por su parte, la gráfica correspondiente a MCLUST podría indicar un uso más eficiente de la información disponible ya que la separación de los grupos requiere, además de las dos primeras, de otras componentes principales.

Recommend Stories

Story Transcript

Get in touch

Social