Teide. Técnicas de Edición e Imputación de Datos Estadísticos 15 de Julio de 2004

Teide Técnicas de Edición e Imputación de Datos Estadísticos 15 de Julio de 2004 Proyecto “Depuración de encuestas estadísticas” Entre el ISTAC y la

Author: Claudia Navarrete Prado

0 downloads 57 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

2004, de 2 de julio,

BOE núm. 173 Lunes 19 julio 2004 13415 REAL DECRETO 1598/2004, de 2 de julio, por el que se modifica el Reglamento General de Conductores, aprobado

2004 RESUMEN DE DATOS

Lunes 19 de julio de 2004

Economía. Domingo 18 de Julio de 2004

LA NACION LINE Economía Domingo 18 de Julio de 2004 Nicholas Sheriber, presidente y CEO global de Tetra Pak Pese a la crisis, la compañía mantiene s

15. Santiago de Compostela, 15 de julio de Estimados Srs.:

12 AL 15 DE FEBRERO, 2004

II CERTAMEN INTERNACIONAL DE MAQUINARIA AGRICOLA 12 AL 15 DE FEBRERO, 2004 AGCO IBERIA, S.A. Tractor MASSEY FERGUSON Serie 7400 Esta serie de tractor

04 22 julio 2004

CONSEJO PERMANENTE OEA/Ser.G CP/ACTA 1433/04 22 julio 2004 ACTA DE LA SESIÓN ORDINARIA CELEBRADA EL 22 DE JULIO DE 2004 Aprobada en la sesión del 1

En Madrid, a 15 de noviembre de 2004

9 AL 15 DE JULIO 2016

9 AL 15 DE JULIO 2016 Descuentos a socios del Real Madrid C. F., miembros de la Fundación Real Madrid, alumnos de las Escuelas Sociodeportivas y titu

WA 15 de Julio del 2015

Story Transcript

Teide

Técnicas de Edición e Imputación de Datos Estadísticos 15 de Julio de 2004

Proyecto “Depuración de encuestas estadísticas” Entre el ISTAC y la ULL a través de la FEU Desarrollado desde el 1 de Agosto de 2003 al 31 de Julio de 2004 http://webpages.ull.es/users/istac

Responsable en la ULL: Juan José Salazar González ([email protected]) Desarrollador en la ULL: Sergio Delgado Quintero ([email protected])

2

Índice general

Prólogo 1. Introducción 1.1. Los pasos previos a 1.2. Motivación . . . . 1.3. Definición . . . . . 1.4. Tipos de edición . 1.5. Software existente

5

. . . . .

7 7 8 10 10 14

2. Instituto Canario de Estadística 2.1. El Instituto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Experiencias previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. EICVHC 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21 21 22 22

3. Metodología General 3.1. Problema de localización del errores . . . . 3.2. Paradigma de Fellegi-Holt . . . . . . . . . . 3.3. Fellegi-Holt para datos categóricos . . . . . 3.4. Fellegi-Holt para datos numéricos y mixtos .

. . . .

29 29 37 40 45

. . . .

49 49 50 50 51

. . . . .

55 55 56 58 61 67

la imputación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4. Metodología Aplicada 4.1. Edits . . . . . . . . . . . . 4.2. Variables . . . . . . . . . . 4.3. El proceso de edición . . . 4.4. El proceso de imputación 5. Implementación práctica 5.1. Ámbito . . . . . . . . 5.2. Flujo de Programa . . 5.3. Estructuras de Datos . 5.4. Estructuras de Clases 5.5. Problemas prácticos .

. . . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . . . 3

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

. . . . .

. . . .

. . . .

. . . . .

ÍNDICE GENERAL

4 6. Manual de usuario 6.1. Inicio de la aplicación . 6.2. Manejo de Metafiles . . 6.3. Modelo de pestañas . . . 6.4. Pestaña de Variables . . 6.5. Pestaña de Microdatos . 6.6. Pestaña de Edits . . . . 6.7. Pestaña de Rangos . . . 6.8. Pestaña de Test . . . . . 6.9. Pestaña de Imputación . 6.10. Pestaña de Estadísticas

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

7. Experiencias computacionales 7.1. Descripción del conjunto de datos 7.2. Evaluación de rangos . . . . . . . 7.3. Evaluación de edits . . . . . . . . 7.4. Imputación . . . . . . . . . . . . 7.5. Comentarios . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

95 . 95 . 96 . 97 . 97 . 101

Bibliografía

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

73 73 74 76 77 78 80 83 87 91 93

. . . . . . . . . .

8. Conclusiones y Futuro

. . . . . . . . . .

103 105

Prólogo

Todos los institutos de estadística necesitan depurar los datos que reciben a través de sus encuestas antes de proceder a extraer conclusiones de tales datos. Este proceso de depuración consiste en verificar si los valores de cada encuesta satisfacen un conjunto de reglas de consistencias, típicamente conocidas como edits. Por ejemplo, un edit puede ser “si el campo ‘estado civil’ contiene ‘divorciado’ entonces el campo ‘edad’ debe contener un valor no menor de 14”. Los registros de la encuestas que cumplan todas (o casi todas) las reglas se consideran válidos, mientras que cuando un registro no cumple todas (o casi todas) las reglas se considera incorrecto. Cuando un registro incorrecto no cumple muchas reglas (quizás ninguna) entonces el instituto de estadística puede considerar la opción de eliminarlo o sustituirlo por otro registro en una segunda fase de la encuesta. Sin embargo, cuando un registro no cumple todas las reglas pero sí un número suficiente de ellas (quizás las más importantes) entonces el instituto de estadística se plantea el problema de localizar qué campos en tal registro pueden ser los causantes de los errores, y qué valores habría que re-asignarles a tales campos para que el registro modificado sea válido y que la perturbación de los datos no afecte a las conclusiones que se extraigan de la encuesta. Este problema se conoce como Edición e Imputación: “edición” es localizar los campos a modificar e “imputación” es determinar los nuevos valores para tales campos. Dada la importancia de este problema en todos los institutos de estadística, y dada la variedad de formas en las que se podría interpretar y afrontar, durante los últimos 50 años se han realizado estudios científico-técnicos buscando fijar unos fundamentos que puedan ser válidos para el mayor número posible de encuestas, y por tanto que puedan ser aceptados por el mayor número posible de institutos de estadística. Entre esos estudios cabe destacar el artículo de Fellegi y Holt publicado en 1979 en la revista “Journal of the American Statistical Association”, y en el que se proponen las principales pautas con las características anteriores. Principalmente se dice que un método para depurar un registro incorrecto debe pretender siempre cambiar el menor número posible de campos de manera que luego existan unos valores imputables. Esto plantea la primera parte del problema (la edición) como un problema combinatorio de los que se trabajan en Investigación Operativa. Una vez determinados los campos a cambiar, la segunda parte (la imputación) debe tratar de mantener las propiedades estadísticas de los registros correctos, y para ello se han desarrollado varios mecanismos en los últimos años. Quizás el más conocido es el llamado donante y que consiste en buscar un oportuno registro correcto del que extraer los valores para los campos a modificar. Principalmente esta segunda parte cae dentro de diversos trabajos en el campo de la Estadística. Ahora bien, las dos partes del problema no pueden (o no deben) resolverse aisladamente y, dada la cantidad de registros con los que hay que trabajar, es necesario un mecanismo automático que ayude al técnico del instituto de estadística. Por tanto, es fundamental en todo este proceso el aprovechar los avances de la tecnología, y en particular las 5

6

ÍNDICE GENERAL

herramientas modernas del campo de la Computación (ordenadores, lenguajes de programación, bases de datos, entornos gráficos,etc.). El Instituto Canario de Estadística (ISTAC) ha motivado y apoyado en todo momento el desarrollo e implementación de Teide. De hecho, el trabajo que se expone en esta memoria, realizado en el Departamento de Estadística, Investigación Operativa y Computación (DEIOC), fue fruto de un convenio previo firmado entre el ISTAC y la Universidad de La Laguna (ULL). Además de financiar económicamente el trabajo, el ISTAC ha contribuido con personal suyo que ha ido sugiriendo ideas y evaluando diversas versiones preliminares sobre datos próximos a reales. Concretamente se está usando Teide en el ISTAC para depurar la encuesta de ingresos y condiciones de vida de los hogares canarios, una encuesta de sanidad y una encuesta de turismo. Lamentablemente ninguna de estas experimentaciones ha concluido, pero se sigue trabajando en ellas. La presente memoria resume un trabajo iniciado en agosto de 2003 a través de siete capítulos. El capítulo 1 presenta el contexto en el que nace la edición e imputación, e introduce la terminología básica que se usarán en el resto de la memoria. En el capítulo 2 se exponen algunas necesidades prácticas que llevaron al ISTAC a interesarse por el desarrollo y apoyo de este trabajo. El capítulo 3 describe el problema de la edición e imputación mediante modelos matemáticos de Optimización y mediante las pautas introducidas por Fellegi y Holt. La metodología para resolver los problemas prácticos que se han usado se muestra en el capítulo 4, mientras que los detalles técnicos sobre la implementación realizada aparece en el capítulo 5. El capítulo 6 describe con detalle los procedimientos automáticos que ofrece Teide. El capítulo 7 expone algunos resultados computaciones usando Teide sobre una de las experiencias piloto desarrollada por el ISTAC, y que es la Encuesta de Ingresos y Condiciones de Vida de los Hogares Canarios 2004. La memoria termina con unas conclusiones y futuras posibilidades de este proyecto. El presente trabajo ha sido implementado por Sergio Delgado Quintero a través de una beca financiada por este convenio entre el ISTAC y la ULL. Al presente trabajo han contribuido de forma notable varias personas del ISTAC. Agradecemos de forma especial las numerosas ideas aportadas por Fayna Alamo Santana, José Molina González, Rafael Betancort Villalba y Alberto González Yánez, todos funcionarios del ISTAC. También agradecemos la colaboración de las becarias Rosana García García y Yolanda Ramallo Farina, que con su trabajo nos han ayudado a usar Teide sobre muestras iniciales de la encuesta de ingresos y condiciones de vida y de la encuesta de sanidad. Finalmente también queremos expresar nuestro agradecimiento al Director del ISTAC, Álvaro Dávila González, por su constante confianza en la investigación científicotécnica que hacemos en la ULL. También agradecemos al DEIOC y a la ETSII (ambos en la ULL) por habernos permitido desarrollar este proyecto en sus instalaciones, y al “Ministerio de Ciencia y Tecnología” por su apoyo a través del proyecto de investigación TIC-2002-00895.

Cap´ıtulo

1

Introducción En este capítulo se pretende dar una visión general de la edición e imputación de datos estadísticos (también llamada “depuración de datos”), partiendo de la necesidad y la motivación que lleva a los institutos de estadística a realizar estas operaciones hasta la descripción del software existente para automatizar dichas tareas.

1.1. Los pasos previos a la imputación Una de las tareas principales de los institutos de estadística es la obtención de datos para la satisfacción de necesidades de información de la sociedad. Para ello realizan trabajos estadísticos recogiendo datos muestrales, censales, o aprovechando datos administrativos. El esquema de trabajo en una operación estadística, consta de la siguientes etapas: 1. Planificación. 2. Diseño y realización. 3. Ejecución. 4. Validación del resultado. 5. Difusión. A continuación se explican de forma general cada una de estas etapas.

1.1.1. Planificación En esta etapa se fijan los objetivos y se establecen las definiciones básicas, además de analizar la información disponible en el dominio de estudio y de diseñar un plan de acción.

1.1.2. Diseño y realización En esta etapa se establecen los métodos y se elaboran los procedimientos que permitirán cumplir los objetivos fijados. Se diseña el marco de muestreo, el plan de muestreo, el cuestionario, el método de recogida, el método de verificación manual, la codificación y la grabación, el método de detección de errores con corrección manual, el método de imputación automática, el método de estimación, los sistemas informáticos de soporte y los manuales de procedimientos. 7

8

CAPÍTULO 1. INTRODUCCIÓN

1.1.3. Ejecución En esta etapa se obtienen y tratan los datos, siguiendo los procedimientos establecidos en la anterior.

1.1.4. Validación del resultado En esta etapa se analiza la realización de las tareas de ejecución y los datos obtenidos, con vistas a decidir si los resultados tienen un nivel de calidad aceptable. Se analizan y evalúan la cobertura obtenida, el nivel de no respuesta, la precisión de las respuestas, los errores producidos durante la grabación, el nivel y distribución de los errores detectados y las imputaciones realizadas. La calidad del trabajo estadístico se logra extremando el cuidado en la realización de las etapas descritas anteriormente. Dado que hay una gran variedad de investigaciones estadísticas, que se realizan en muy diferentes contextos y bajo organizaciones muy distintas, no hay normas o métodos prefijados sobre cómo realizar cada una de las tareas necesarias en cada una de las etapas. En el proceso de recoger y tratar los datos estadísticos se pueden producir distintos tipos de errores. No hablamos de errores de muestreo, sino los errores en los datos de la encuesta; es decir, los errores ajenos al muestreo, que clasificamos en errores en las identificaciones y errores en los datos propiamente dichos. Los errores en las identificaciones son importantes porque afectan a todo el proceso de manipulación y clasificación de la información.

1.1.5. Difusión En esta etapa se hacen llegar los resultados estadísticos obtenidos a la sociedad. A través del acceso a los medios de comunicación, de folletos informativos o revistas especializadas, el gran público tiene acceso a los datos y conclusiones que realizan los institutos de estadística. Esta etapa es muy importante, ya que el acierto en el acceso a la sociedad permite que se conozca el trabajo efectuado y se valore es su justa medida.

1.2. Motivación La toma de decisiones hoy en día es un asunto de prioridad máxima para directores, políticos, empresarios, etc. Estas personas necesitan de información de alta calidad que les produzca datos estadísticos sobre aspectos sociales, demográficos, industriales, económicos, financieros, culturales, etc. para llevar a cabo sus tareas. Los institutos de estadística desempeñan un papel fundamental en proveer dichos datos estadísticos a la sociedad y a los decisores. El trabajo de los institutos de estadística no es fácil. La sociedad cambia con una rapidez insospechada, así como todos sus aspectos, y además de ello, el usuario de a pie, puede – en gran medida, gracias a la potencia de los ordenadores personales – realizar tratamientos de gran cantidad de datos, sacando sus propias conclusiones. Por ello, los usuarios finales de datos estadísticos exigen una alta calidad y un gran detalle en los trabajos elaborados por los institutos de estadística. Y no sólo esto. El trabajo de los institutos de estadística debe ser realizado en períodos de tiempo muy pequeños y con unos recursos – por lo general – bastante escasos. El hecho de producir datos de alta calidad en períodos cortos de tiempo es bastante difícil, sobre todo si pensamos que los datos recogidos normalmente contienen errores. La etapa de recolección de datos es, en sí misma, una fuente de posibles errores. Y el resto de procesos que se

1.2. MOTIVACIÓN

9

dan en una producción de datos introducen de igual manera, posibles pérdidas o incoherencias de información. Así, desde el momento en el que el informante responde, puede darse el error (de manera voluntaria o no), pasando por los errores que se pueden producir cuando se transcriben los datos de los cuestionarios en papel a los ordenadores, etc. Es necesario, por tanto, llevar a cabo un largo proceso de imputación de datos sobre la información recogida, poniendo otros datos coherentes. La edición de datos ha sido un aspecto que tradicionalmente las agencias de estadística han cuidado mucho y han potenciado, ya que se considera un elemento básico en la publicación de resultados estadísticos fiables y de calidad. En el procesamiento tradicional de datos, la edición era principalmente una tarea interactiva, en la cual los errores y las inconsistencias detectadas se mostraban al técnico en la pantalla del ordenador y éste tomaba decisiones al respecto, pudiéndose en su caso repetir el contacto con el informante para aclarar las posibles incoherencias que se hubieran encontrado. En varios estudios realizados por técnicos estadísticos se ha demostrado que esta tarea tan minuciosa de intentar corregir todos los datos a un nivel muy grande de detalle no siempre es necesario a la hora de publicar resultados estadísticos. Los principales productos generados por los institutos de estadística son tablas de datos agregados, basados en muestras de la población. Debido a esto, pequeños errores en los individuos son aceptables en los resultados globales. En primer lugar esto es así porque los pequeños errores en registros individuales tienden a cancelarse (errores que suman y que restan) y en segundo lugar – debido a que los datos provienen de una muestra de la población – siempre habrá un error de muestreo en los resultados publicados, incluso cuando todos los datos recogidos sean correctos. Si intentamos obtener datos de calidad, normalmente es suficiente con intentar eliminar los errores más influyentes de la muestra. Estas conclusiones han sido confirmadas durante muchos años mediante experiencias prácticas por varios institutos de estadística. A menudo, tanto en el pasado como – incluso – en el presente, los institutos de estadística han dedicado mucho esfuerzo a la corrección de datos que no tienen un impacto notable en el resultado de los informes estadísticos producidos. Esto se conoce como “over-editing”. Esta técnica no solamente consume recursos innecesarios, sino también mucho tiempo lo que provoca que el período de tiempo entre la recogida de los datos y la publicación final de los resultados estadísticos sea muy grande, lo que conlleva una pérdida importante de eficiencia y productividad. Incluso, en muchas ocasiones, suele aplicarse otra técnica posterior al “over-editing” que se conoce como “creative-editing”. Estos procesos consumen tiempo innecesariamente y provocan, en muchos casos, alteraciones injustificadas en la calidad de datos. La creciente potencia de los ordenadores actuales permite a los institutos de estadística plantearse nuevos proyectos y, en su caso, poder abordarlos con garantías de resolución. Uno de estos proyectos es el de la edición e imputación automática de datos, es decir, intentar conseguir datos de alta calidad en un espacio de tiempo normalmente bastante corto usando ordenadores. De esta manera, lo que se intenta es mejorar los procesos tradicionales de depuración de datos llevándolos al plano computacional. Existen muchas técnicas, que aunque modernas, son bastante bien conocidas. Se podrían nombrar el “selective-editing”, el “(graphical) macro-editing” y el “automatic-editing”. El “selective-editing” intenta dividir el conjunto de datos en dos partes: una que probablemente contenga errores de influencia notable y otra que no los contenga. Posteriormente, sólo la primera parte de los datos se edita utilizando el enfoque tradicional interactivo. En “macroediting” se contrasta la plausibilidad de los agregados. Solamente cuando los agregados son no plausibles es cuando los datos se editan de la manera tradicional. La técnica más moderna de edición es el “automatic-editing”. Esta técnica está opuesta al enfoque tradicional, donde cada registro es editado manualmente. Con el “automatic-editing” todos los registros son procesados

10

CAPÍTULO 1. INTRODUCCIÓN

mediante un ordenador. Estas modernas técnicas consumen menos tiempo y dinero que el método interactivo tradicional, y normalmente suelen dar resultados de mayor calidad. El “automatic-editing” es una técnica que, como se ha comentado, ofrece grandes prestaciones en términos de tiempo y recursos. Uno de los problemas más complicados que existen dentro de estas técnicas es el problema de la localización de los datos erróneos, o mejor dicho, de los datos implausibles. La manera de abordar este problema es desarrollar un algoritmo general que pueda ser aplicado a una gran variedad de conjuntos de datos sin necesidad de que el usuario deba tener conocimiento específico sobre la encuesta y los detalles del conjunto en el que se trabaja, más que la especificación de las reglas de coherencia que van a ser usadas.

1.3. Definición Los errores en los datos pueden ser detectados especificando ciertas restricciones que deben ser satisfechas por los registros individuales, es decir, los datos de los informantes individuales. Estas restricciones se llaman reglas de coherencia, pero en la mayoría de los casos se usa la palabra inglesa edits para referirse a ellos. Los edits son especificados por un técnico estadístico conocedor de la encuesta sobre la que se está trabajando y sobre las restricciones que deben tener los datos. Por ejemplo, una persona no puede estar divorciada si no tiene al menos 10 años de edad. Cuando un registro no cumple un edit, se considera erróneo. Cuando un registro satisface todos los edits se considera correcto. Los valores de un registro erróneo deben ser modificados de tal manera que el registro resultante sea la mejor aproximación a las respuestas verdaderas del informante. Para modificar un registro erróneo se deben llevar a cabo dos etapas. En primer lugar, se deben localizar los valores incorrectos dentro del registro. Esto es lo que se llama el problema de localización del error ó problema de edición. En segundo lugar, una vez que se tengan identificados los campos que son erróneos dentro del registro, hay que pasar a imputarlos, es decir, los valores de estos campos deben ser reemplazados por otros mejores, preferiblemente por los valores correctos. Esto se conoce como el problema de imputación. El problema de la localización del error debe ser resuelto de manera que los campos que se consideran erróneos puedan ser imputados de manera consistente para lograr que el registro modificado satisfaga todos los edits. Tradicionalmente, el problema de la localización del error ha sido resuelto por personas sin ayudarse de un ordenador. Algunas maneras de resolver el problema de la localización del error podrían ser las siguientes: recontacto con el informante, comparación de los datos del informante con sus datos en anteriores años, comparación de los datos del informante con otros informantes que sean similares a él y el uso del conocimiento y la experiencia de los expertos. El mayor inconveniente del enfoque tradicional es que conlleva un gran consumo de tiempo. Sobre un registro erróneo, el problema de la localización del error y el problema de imputación están fuertemente relacionados. A menudo es difícil distinguir dónde termina la fase de localización del error y dónde empieza la fase de imputación. Cuando los humanos llevan a cabo la edición de datos, frecuentemente buscan maneras de imputar un registro incluso antes de terminar con la fase de localización del error.

1.4. Tipos de edición 1.4.1. Edición asistida por ordenador El uso de ordenadores en la edición de datos empezó hace varios años. En los primeros años la función de los ordenadores estaba limitada a contrastar qué edits se violaban. Los especialistas

1.4. TIPOS DE EDICIÓN

11

introducían los datos en el ordenador y a continuación éste contrastaba si los datos satisfacían todos los edits. Luego, para cada registro, el ordenador listaba todos los edits que eran violados, y a partir de ahí, el especialista usaba estas listas para corregir los registros, es decir, se dedicaba a recuperar todos los cuestionarios en papel que no pasaban todos los edits y a corregirlos. Después de corregir los datos, estos eran de nuevo introducidos en el ordenador que volvía a contrastar si se cumplían todos los edits. Este proceso iterativo se repetía hasta que todos los registros satisfacían todos los edits. El principal problema de este enfoque es que durante el proceso de corrección manual, no existía un contraste de consistencia en los registros. Esto daba como resultado, que un registro que se consideraba “correcto” podía incluso fallar en uno o varios edits. Por lo tanto, este registro necesitaría volver a entrar en el proceso de corrección alargándose el tiempo y el costo de la edición. Se estimaba que del 25 al 40 % del presupuesto total se dedicaba a la edición. La introducción de los ordenadores personales y de los sistemas automatizados introdujo una mejora sustancial en la eficiencia de los procesos de edición. Los sistemas automatizados incorporaban en un solo paso el contraste de edits erróneos y la corrección de los mismos, de tal manera que se aseguraba la consistencia de los datos, y tras un paso se llegaba a converger. En la misma línea que los sistemas automatizados de edición de datos, nos encontramos con sistemas denominados CAPI (Computer Assisted Personal Interviewing) y CATI (Computer Assisted Telephone Interviewing). Estos sistemas permiten, en tiempo de entrevista, detectar ciertos errores que pueden ser corregidos in-situ, preguntando de nuevo al informante. Estos sistemas parecen ser los mejores a la hora de recoger datos, pero también tienen sus desventajas. La primera desventaja es que estos sistemas son muy caros. Enviar un cuestionario en papel es mucho más fácil y barato que utilizar esta tecnología. La segunda desventaja, y muy importante, es que tanto CAPI como CATI están mucho menos preparados para cuestionarios en empresas que para cuestionarios a personas o a viviendas. Un prerrequisito de estos sistemas, es que el informante debe ser capaz de responder las preguntas durante la entrevista. Para un cuestionario en hogares o personas, los informantes suelen ser rápidos en la contestación a las preguntas, pero en una empresa, las respuestas no son tan inmediatas y se necesita tiempo para poder dar una información fiable. A menudo, se necesita recoger información de varios departamentos de una empresa para completar un cuestionario para un instituto de estadística, y esto lleva tiempo. Por estos motivos y muchos otros, la mayoría de los institutos de estadística se decantan por sistemas CAPI o CATI para realizar entrevistas en encuestas a personas o viviendas, pero no para realizar entrevistas en empresas. Una alternativa para llevar a cabo los cuestionarios en las empresas, es, por ejemplo, utilizar Internet. Las empresas pueden rellenar electrónicamente dichos cuestionarios, y cuando los tengan terminados, enviarlos al instituto de estadística correspondiente. Esto permite incorporar ciertos edits dentro del software que recoge la información por Internet, para poder realizar ciertos contrastes que descarguen las posteriores fases de la edición. El uso de Internet parece una herramienta muy atractiva a la hora de recoger datos, aunque , como todo, tiene también ciertos inconvenientes de tipo tecnológico: el software usado y las comunicaciones deben ser rápidas y fiables; se debe mantener la seguridad y confidencialidad de los datos; el software debe ser flexible para permitir al informante no tener que rellenar todos los campos de una vez, y poder retomarlo posteriormente. Este ultimo punto es muy importante, ya que si un informante rellena un cuestionario y existen preguntas que no sabe responder y el programa le obliga a responder sin tener la posibilidad de continuar, posiblemente dejará de rellenar el cuestionario y no se obtendrá información al respecto. La edición asistida por ordenador es, hoy en día, la manera estándar de realizar la edición de datos. Puede ser usada tanto para datos categóricos como para datos numéricos. El número de variables, edits y registros, puede en principio ser alto, ya que el procesamiento automático por

12

CAPÍTULO 1. INTRODUCCIÓN

parte del ordenador puede manejar grandes volúmenes de información. La principal ventaja que tiene la edición interactiva de datos usando ordenadores personales y sistemas automatizados ante la edición de los primeros años es que el contraste y la corrección pueden realizarse al mismo tiempo. Cada registro debe ser editado sólo una vez, con lo que después de ese proceso el registro cumplirá todos los edits. En la edición selectiva y la macro-edición se describen técnicas que tienen como objetivo intentar descubrir los errores más influyentes de una manera rápida. Esto implica que estas técnicas son más adecuadas para análisis de datos numéricos que categóricos, ya que es más sencillo definir el término “más influyente” sobre datos numéricos que categóricos. Se considera que un error numérico es influyente si la diferencia entre el valor almacenado y el valor ideal es grande. Sólo queda por especificar que quiere decir eso de grande. En datos categóricos sin embargo, a menudo no existe un concepto de desviación grande entre el valor almacenado y el valor ideal. Por otro lado, aunque las técnicas que se van a describir son más apropiadas para datos numéricos que para datos categóricos, algunas versiones de estas técnicas también son aplicables a datos categóricos.

1.4.2. Edición selectiva Ya se ha comentado con anterioridad que no es necesario que un registro sea totalmente correcto. Los institutos de estadística publican datos agregados generalmente basados en muestras de la población, así que pequeños errores en registros individuales son aceptables siempre que los pesos que tengan estos registros no sean muy altos comparados con los pesos de los otros registros. La edición selectiva es un conjunto de varios métodos que se dedican a identificar los errores influyentes, es decir, los errores que tienen un impacto sustancial en la publicación de los resultados estadísticos. El objetivo de la edición selectiva es dividir el conjunto de datos en dos flujos: el flujo crítico y el flujo no crítico. El flujo crítico consiste en registros que parecen contener errores influyentes, y el flujo no crítico consiste en registros que parecen no contener errores influyentes. Los registros del flujo crítico, los registros críticos, se editan de la manera tradicional de edición asistida por ordenador. Los registros del flujo no crítico, los registros no críticos, no son editados de la manera tradicional de edición asistida por ordenador. Serán más tarde editados de manera automática. Actualmente, no existe una teoría aceptada para los métodos de edición selectiva. Por ello, muchos de estos métodos son simples y están basados en el sentido común. Sería engorroso describir todos los métodos que se han desarrollado durante estos años sobre edición selectiva, y no es necesario para comprender el concepto general de la metodología. La edición selectiva es una técnica relativamente nueva. Se está convirtiendo gradualmente en un método popular para editar datos comerciales (numéricos). Cada vez más y más institutos de estadística usan la edición selectiva para depurar sus datos, o experimentar con ella. El alcance de los métodos de edición selectiva está limitado a los datos de negocio (numéricos). En estos datos algunos informantes pueden ser más importantes que otros, simplemente porque la magnitud de sus contribuciones es mucho mayor. Los datos sociales (categóricos) son datos donde los informantes contribuyen más o menos de la misma manera. Por lo tanto, en datos sociales es difícil distinguir entre distintos tipos de informantes. En datos de negocio, esa diferenciación de informantes es mucho más fácil de realizar. En la edición selectiva, los datos del período actual pueden ser fácilmente comparados con los datos en períodos anteriores. No hay límite para el número de edits. Un problema que plantea

1.4. TIPOS DE EDICIÓN

13

la edición selectiva por el momento es que el número de variables no puede ser muy grande. Actualmente, no se disponen de buenas técnicas para combinar alcances locales, por ejemplo aquellos basados en la distancia entre los valores almacenados y los valores esperados para cada variable, dentro de un alcance global para cada registro si existen muchas variables. Esto puede ser un mero problema técnico que se resolverá en su debido momento, pero puede ser un problema fundamental para la edición selectiva. Se necesita mayor investigación sobre este aspecto para dar respuesta.

1.4.3. Macro-edición (gráfica) La macro-edición ofrece algunas soluciones a los problemas de la micro-edición. Particularmente, la macro-edición se puede tratar con tareas de edición relacionadas al aspecto de la distribución. Se distinguen dos formas de macro-edición. La primera forma se llama a veces método de agregación. Formaliza y sistematiza lo que todo instituto de estadística debería hacer antes de la publicación de resultados estadísticos: verificar si los resultados estadísticos a publicar parecen plausibles. Esto se lleva a cabo comparando cantidades en las tablas de publicación con las mismas cantidades en publicaciones previas. Solamente si se observa un valor inusual se aplican técnicas de micro-edición a los registros individuales y a los campos que contribuyen a ese error. Una segunda forma de macro-edición se denomina método de distribución. Los datos disponibles son usados para caracterizar la distribución de las variables. Entonces, todos los valores individuales se comparan con la distribución. Típicamente, se computan medidas de localización y extensión. Los registros que contienen valores que podrían ser considerados no comunes (dada la distribución) son candidatos para posteriores inspecciones y posiblemente para editarlos. Existe un área en el campo de la estadística que provee técnicas para el análisis de la distribución de las variables llamada análisis exploratorio de datos. Muchas de estas técnicas pueden ser usadas en macro-edición. Estas técnicas hacen uso de gráficas, que son capaces de mostrar propiedades inesperadas que no se podrían haber deducido de los datos numéricos directamente. La macro-edición siempre ha sido utilizada de alguna forma en los institutos de estadística. Las técnicas no gráficas de macro-edición pueden ser usadas tanto para datos de negocio (numéricos) como para datos sociales (categóricos). El uso de técnicas gráficas parece estar restringido a datos de negocio (numéricos).

1.4.4. Edición automática El objetivo de la edición automática es que el ordenador realice todo el trabajo. El papel del humano en estas técnicas es la de proveer al ordenador con metadatos, tales como edits, modelos de imputación y reglas para guiar el problema de la localización de errores. Después de que estos metadatos hayan sido proporcionados, el ordenador edita los datos y todo lo que debe hacer el humano es examinar la salida generada por el ordenador. En el caso de la calidad de los datos editados se considere demasiado baja, los metadatos deben ser ajustados o algunos registros deben ser editados de otra manera. En los años 60 y 70, la edición automática estaba basada en reglas predeterminadas del siguiente tipo: si una cierta combinación de edits se violan de una cierta manera entonces se deben llevar a cabo ciertas acciones para corregir los datos. Hay algunos problemas con este enfoque determinístico. En primer lugar, a menudo es difícil desarrollar reglas predeterminadas que aseguren que todos los datos cumplirán todos los edits después de que hayan sido editados. Esto puede llevar a un proceso iterativo complejo donde los registros editados que todavía no

14

CAPÍTULO 1. INTRODUCCIÓN

cumplen algunos edits son de nuevo editados. Más aún, para algunos registros este proceso puede ser no convergente. En segundo lugar, el conjunto de reglas predeterminadas a desarrollar será muy grande y muy difícil de tratar, y basar un programa de ordenador en este complejo conjunto de reglas será incluso más difícil. Freund y Hartley (1967) propusieron un enfoque alternativo basado en la minimización de la desviación total entre los valores originales de un registro y los valores correctos más la violación total los edits (cuanto mayor sea un edit violado, más contribuye este edit a la función objetivo). En este sentido, sólo tienen que ser especificados los edits. Los valores correctos son determinados minimizando una función cuadrática. Este enfoque nunca llegó a ser popular entre la comunidad científica, probablemente porque los edits suelen seguir estando violados después de la corrección de los datos. En 1976 Fellegi y Holt publicaron un artículo en el Journal of the American Statistical Association que fue un punto y aparte. En su artículo, Fellegi y Holt describen un paradigma para la localización de errores en un registro de forma automática. De acuerdo a este paradigma, los datos de un registro deberían satisfacer todos los edits cambiando los valores del menor número posible de variables. Este paradigma generalizado es la base de varios algoritmos y programas de ordenador para localizar errores en registros de manera automática. Es el estándar de facto para los sistemas modernos de edición automática. La edición automática ya se usaba en los años 60 y 70. Sin embargo, nunca llegó a ser demasiado popular. Esto se debía a varias razones. En primer lugar, en aquellos tiempos los ordenadores eran máquinas demasiado lentas para realizar la edición automática. En segundo lugar, el desarrollo de un sistema para edición automática era considerado demasiado complicado y demasiado costoso para los institutos de estadística. En tercer lugar, muchos institutos de estadística asumían que los datos editados automáticamente eran de una calidad muy baja. Esto es un punto importante. La edición automática puede ser usada tanto para datos categóricos como para datos numéricos. Sin embargo, la mayoría de los sistemas automáticos de edición suelen tratar o bien con datos categóricos o bien con datos numéricos. En la edición automática, los datos de un período actual pueden ser comparados con datos de un período anterior. Una manera simple de hacer esto es, por ejemplo, combinar el registro de un informante en el período actual con el registro del mismo informante en un período anterior en un solo registro más grande, el registro combinado. Los datos del período anterior son etiquetados como fijos, indicando que en el proceso de edición automática no deben ser cambiados. Cuando la edición automática es usada para depurar datos, la imputación puede ser llevada a cabo a través de gran variedad de métodos de automáticos. El hecho de que un modelo sea mejor depende de que el modelo se ajuste más o menos a las características del conjunto de datos que tenemos entre manos.

1.5. Software existente Dentro de los sistemas automáticos de edición no existen demasiadas herramientas desarrolladas hoy en día para su tratamiento. En este punto se hará mención de algunas de las más importantes.

1.5. SOFTWARE EXISTENTE

15

1.5.1. Sistema DIA DIA (Depuración e Imputación Automática) es un sistema generalizado para la depuración automática de datos cualitativos. Desarrollado en el Instituto Nacional de Estadística De España (INE) en 1985, trata tanto los errores sistemáticos como los aleatorios. El tratamiento de los errores aleatorios se realiza siguiendo la metodología de Fellegi y Holt. El tratamiento de los errores sistemáticos es una característica específica de DIA. Para estos errores, DIA tiene un subsistema de imputación determinística, que utiliza reglas de imputación con un formato similar a los edits. DIA tiene un analizador de reglas que garantiza la consistencia lógica y sintáctica de los conjuntos de edits, de reglas de imputación determinística y la consistencia mutua de los edits y de las reglas determinísticas. De esta forma, el sistema trata los errores sistemáticos y aleatorios en un proceso único. Cada campo se modifica una vez a lo sumo, evitándose imputaciones innecesarias y dejando los registros consistentes. DIA tiene las funciones siguientes: Especificación de reglas de conflicto (edits). Especificación de reglas de imputación determinística. Análisis de las reglas. Detección de errores. Identificación de las variables a imputar. Imputación probabilística. Imputación determinística. Informes sobre el proceso de depuración. DIA se basa en la metodología de Fellegi y Holt. Sin embargo tiene extensiones respecto a la misma que conviene justificar. La metodología de Fellegi y Holt es satisfactoria para el tratamiento de los errores aleatorios; sin embargo no da un tratamiento adecuado a los errores sistemáticos. DIA trabaja a partir de una descripción de variables con sus valores válidos, un conjunto de reglas de conflicto (edits en forma normal típicos de la metodología de Fellegi-Holt) y un conjunto de reglas de imputación determinística si se quieren llevar a cabo imputaciones determinísticas. En un edit normal sólo pueden aparecer código válidos mientras que en una regla de imputación determinística se pueden especificar valores inválidos, ya que estos son errores a los que tal vez se quiera imputar determinísticamente. DIA dispone de un analizador de reglas, una pieza clave en la metodología de trabajo del sistema. Tiene como objetivo garantizar que la depuración realizada con DIA satisface los requisitos de consistencia establecidos. Para ello examina las reglas especificadas (edits y/o reglas de imputación determinística [rid]) asegurando que darán lugar a un proceso de depuración consistente en los datos y ayudando a los expertos en la tarea de especificar reglas tan precisas como sea posible, mostrándoles cuales son sus interrelaciones. El analizador tiene tres componentes que funcionan secuencialmente: el analizador de rid, el analizador de edit y el analizador de rid-edit. El analizador de rid tiene dos funciones. La primera es eliminar redundancias en el conjunto de rid y la segunda es detectar conflictos en el conjunto de rid que requieran la actuación de los expertos. El analizador de edit tiene también dos funciones. La primera es eliminar redundancias entre los edits, tratando de conseguir un conjunto equivalente lo más reducido posible. Y la

16

CAPÍTULO 1. INTRODUCCIÓN

segunda es detectar inconsistencias. El analizador de rid-edit se encarga de detectar las posibles incoherencias derivadas del hecho de trabajar con dos sistemas separados, y tratar de resolverlas de la mejor manera posible. Una vez que las reglas pasan satisfactoriamente el analizador, estas son válidas para operar con los datos. DIA procesa los datos modularmente según el caso ya que, hay distintas posibilidades entre las que el usuario puede elegir. El proceso de datos consta de tres fases: la detección, la imputación determinística y la imputación probabilística. La fase de detección tiene la función de separar los registros con algún error de los registros sin error. Además se obtiene toda la información necesaria para el proceso posterior o para los informes finales. La fase de imputación determinística se realiza únicamente cuando se han especificado rid. Para todo registro que haya fallado alguna rid se realiza un proceso iterativo en el que se localiza la rid fallada; si la rid debe actual entonces recibirá imputación probabilística, y si no se imputa por último. La fase de imputación probabilística entra en funcionamiento para todo registro que después de la imputación determinística todavía tenga algún error. Esta fase procede en dos pasos: la selección del conjunto mínimo de campos a imputar y la selección de un código en dichos campos. Finalmente, DIA produce como salida un fichero depurado, un listado de los registros erróneos seguidos de una cola con información de sus errores e información referente al proceso y su impacto sobre los datos.

1.5.2. Sistema SPEER SPEER (Structured Program for Editing and Referral) es un sistema general para la depuración de datos cuantitativos que aplica la metodología de Fellegi y Holt con edits de razón. SPEER. El sistema, modular, ha sido programado en Fortran. Operan en grandes sistemas, en micros y ordenadores personales y soporta modos de operación en batch (Main-frames) y Batch e Interactiva (Micros y ordenadores personales). SPEER en su actual implementación no está completamente generalizado. Son generales los módulos de generación del conjunto completo de edits, detección y localización de errores. No son generales los módulos de definición de la aplicación o los módulos de imputación. Los módulos generales de SPEER son una aplicación elegante y eficaz de la metodología que implementan. El tiempo de ejecución del sistema es bueno, (evidentemente es función del número de campos en los registros y del número de registros de las encuestas). Los módulos interactivos de SPEER son una de sus características más interesantes. Ellos permiten adaptar SPEER a distintas etapas del proceso de una encuesta. Así, SPEER puede emplearse como un sistema para la entrada de datos y para el análisis y la corrección manual de los registros seleccionados para estudio en una fase de depuración previa. Los edits utilizados en SPEER son los llamados edits de la razón. Hay que tener en cuenta que en este sistema, los edits explícitos generan un conjunto de edits implícitos. La unión de los edits explícitos y los edits implícitos es lo que da lugar al conjunto completo de edits. Un registro se considera con error si falla cualquiera de los edits del conjunto completo de edits. Después de la fase de contraste de edits, el problema consiste en localizar el número mínimo (ponderado) de campos a eliminar, de forma tal que los campos restantes del registro sean mutuamente consistentes. Este problema ya se ha citado anteriormente y se conoce como el problema de localización de errores. SPEER utiliza un procedimiento altamente eficiente para la localización de errores. Utiliza un procedimiento heurístico derivado de la teoría de grafos. Cada campo de un registro es un nodo para SPEER. Cada edit traza un arco que une los (campos) nodos activos del edit. La localización

1.5. SOFTWARE EXISTENTE

17

de errores es un problema de desconexión del grafo de los edits fallados por un registro. Es decir, para cada registro que falla un subconjunto de edits, SPEER dibuja el grafo correspondiente enlazando los nodos en los edits fallados. Para desconectar el grafo trazado, SPEER borra uno a uno y con un criterio definido, tales nodos hasta que no haya más nodos enlazados, o lo que es lo mismo, más edits fallados. Como se indicó al anteriormente, SPEER no provee procedimientos generales de imputación. Estos deben programarse a medida para la encuesta. El sistema facilita los medios para garantizar que los resultados de la imputación no vulneren el conjunto de edits previamente definidos.

1.5.3. Sistema GEIS GEIS (Generalized Editing and Imputation System) es un sistema general para la depuración y la imputación de datos numéricos. El sistema GEIS se basa en técnicas de investigación operativa, de programación lineal, el problema del “matching” y la técnica de imputación tipo donor. La elegancia del sistema está en la sencillez conceptual de los métodos utilizados. Lo cual no significa, sin embargo, que carezca de problemas importantes en la implementación de tales métodos y el deseo de conseguir un sistema eficiente desde el punto de vista operacional. La primera característica de GEIS es su portabilidad lo que le permite operar en distintas arquitecturas de sistemas. La segunda característica es su modularidad. Las funciones del sistema han sido programadas en módulos separados que se ejecutan de forma independiente; para funciones específicas, GEIS puede suministrar más de un módulo, que implementan metodologías alternativas. Esta modularidad permite su adaptación a las necesidades específicas de una encuesta y ofrece además la posibilidad de programar módulos adicionales cuando las encuestas lo requieren. Todo esto aumenta la flexibilidad del sistema para adaptarse a los futuros desarrollos tecnológicos del hardware y del software. El sistema es un conjunto integrado por siete funciones principales que se utilizan para: definir y analizar los conjuntos de edits especificados por el usuario, contrastar los registros de la encuesta, y aplicar procedimientos múltiples de imputación. Estas funciones están basadas en los supuestos de linealidad de los edits y la no negatividad de los datos. La primera entrada al sistema GEIS son los edits definidos por los expertos. Los edits son limitaciones lógicas de los datos que permiten bien aceptar o rechazar el registro que le satisface. A este conjunto de edits se le denomina conjunto de edits originales. Por lo tanto, los edits son desigualdades o igualdades lineales que expresan condiciones de fallo o de aceptación. El análisis de los edits consta de tres módulos que son: contraste de edits, generación de edits implícitos y generación de puntos extremos. El contraste de edits consiste en determinar el conjunto mínimo de edits que definen la región de aceptación de los registros, comprobando al mismo tiempo si existe tal región. Para la generación de edits implícitos, GEIS utiliza el algoritmo de Chernikova. El módulo de aplicación de los edits evalúa cada registro en el sistema. El resultado de esta función de contraste de los registros es un conjunto de tablas de diagnóstico. Además de los errores detectados por la aplicación de edits, GEIS comprueba los registros con valores outliers. Un valor es outlier si se halla fuera de los límites definidos por k veces la primera y la tercera distancia intercuartílica. La función de localización de errores resuelve el problema de localizar los campos a imputar. Es decir, el problema de identificar para cada registro el menor número ponderado de campos a imputar. La imputación de datos es un proceso de estimación de los valores identificados como erróneos. GEIS ofrece tres módulos diferentes de imputación automática: imputación determinística,

CAPÍTULO 1. INTRODUCCIÓN

18

imputación del estimador e imputación donor. La imputación determinística comprueba si existe un valor único que satisfaga todos los edits. Para cada registro a imputar, el sistema define el subsistema de edits activos en el registro, y a partir de él, define el sistema reducido al número de variables a imputar. La imputación donor es otra de las funciones interesantes de GEIS. El método consiste en casar un registro con campos a imputar con un registro del conjunto de registros aceptados en la fase de detección de errores, y en asignar a los campos del registro candidato los valores de los campos correspondientes en el registro donor. De este modo, el procedimiento asegura, primero, que el registro candidato pase todos los edits y segundo, que se mantenga la estructura de correlación entre las variables.

1.5.4. Sistema SOLAS SOLAS es una aplicación informática desarrollada por Statistical Solutions (http://www. statsol.ie/solas/solas.htm) para el análisis de datos perdidos y la imputación múltiple, que actualmente está en la versión 3.0. Esta versión ofrece un lenguaje de guión propio y un conjunto de 6 técnicas de imputación, incluyendo dos de tipo múltiple, basadas en los estudios del profesor Donald B. Rubin. Los datos pueden ser importados en un gran variedad de formatos, como SAS, SPSS, Splus, Stata y otros. Una vez que los datos son importados, se muestra un patrón de los valores perdidos (véase figura 1.1) junto con la opción de elegir el método de imputación más apropiado. Una vez que se ha concluído con la imputación, se puede llevar a cabo un análisis de los resultados o exportarlos a otros formatos.

Figura 1.1: Patrón de datos perdidos (SOLAS). El lenguaje de guión que se ofrece en SOLAS permite el procesamiento de distintos conjuntos de datos a través de un mismo código en el que se especifican las opciones de imputación. Cuando

1.5. SOFTWARE EXISTENTE

19

se realiza la imputación de un conjunto de datos, la aplicación guarda todas aquellos parámetros escogidos a través de este lenguaje de guión, para que luego pueda ser usado posteriormente, obteniendo los mismos resultados, e incluso poder modificar el código a través de un editor para incorporar nuevas opciones. La imputación múltiple consiste en imputar varios conjuntos de datos simultáneamente, a través de variables que los relacionen. Las técnicas de imputación múltiple usadas en la aplicación son las siguientes: Modelo predictivo: Sus características son las siguientes: Algoritmo de mínimos cuadrados por regresión múltiple totalmente configurable. Los valores imputados están basados en información extraída de variables comunes. Se preserva la correlación entre las variables. Cuenta de propensión: Sus características son las siguientes: Algoritmo por regresión logística totalmente configurable. Usa información contenida en un conjunto de variables comunes para predecir valores perdidos en la variable que se va a imputar. Aprovecha variables adicionales en el modelo de selección donor, para preservar la relación entre variables. variables. Las técnicas de imputación simple usadas en la aplicación son las siguientes: Imputación Hot Deck: El usuario especifica el criterio de emparejamiento a través de variables del conjunto de datos para poder localizar ciertos registros donantes, de los cuales extraer los valores a imputar. Se lleva a cabo una ordenación de los registros y las variables previa al proceso de imputación. Imputación por la media: Los valores imputados se predicen usando un algoritmo ordinario de mínimos cuadrados por regresión múltiple, o un modelo discriminante si los datos son categóricos. Último valor llevado hacia adelante: Los valores imputados se basan en valores previamente observados. Sólo se usa para variables longitudinales. Grupo de medias: Los valores imputados son un conjunto del grupo de medias de variables (o la moda en el caso de variables categóricas). Después del proceso de imputación se pueden llevar a cabo varios análisis sobre los datos. Son los siguientes: 1. Estadística descriptiva. 2. t-Test. 3. ANOVA. 4. Regresión. 5. Tablas de frecuencia. La aplicación no necesita grandes recursos mínimos para ser ejecutada. Se recomienda procesador Pentium, con 32Mb. de RAM, 14Mb. de disco duro libre y un sistema Windows95 o superior.

20

CAPÍTULO 1. INTRODUCCIÓN

Cap´ıtulo

2

Instituto Canario de Estadística Este trabajo es un proyecto informático que se desarrolla en la Universidad de La Laguna (ULL) con la colaboración del Instituto Canario de Estadística (ISTAC) y su desarrollo está orientado al trabajo con la encuesta EICVHC 2004. Por ello, en este capítulo se van a explicar estos dos elementos. En primer lugar una descripción del instituto, con sus objetivos y organización, y posteriormente una descripción de la encuesta, a nivel de diseño y recogida de datos.

2.1. El Instituto El ISTAC es el órgano estadístico de la Comunidad Autónoma de Canarias. Es un organismo autónomo de carácter administrativo, con personalidad jurídica y patrimonio propios y está adscrito a la Consejería de Economía y Hacienda del Gobierno de Canarias. En materia de estadística de interés para la Comunidad Autónoma de Canarias, el Instituto ha de constituir, mantener y promover el desarrollo del sistema estadístico de la Comunidad Autónoma de Canarias, impulsando, coordinando, centralizando y organizando la actividad estadística de los diferentes órganos que lo componen. Para ello son de su competencia las funciones que se detallan en el artículo 5 de la Ley 1/1991, de 28 de enero. Los objetivos finales del instituto son constituir, mantener y promover el desarrollo del sistema estadístico de la Comunidad Autónoma de Canarias, impulsando, coordinando, centralizando y organizando la actividad estadística de los diferentes órganos que la componen. Los objetivos instrumentales del instituto son los siguientes. En primer lugar elaborar el Anteproyecto del Plan Estadístico Anual y los programas estadísticos anuales. En segundo lugar colaborar en materia estadística con las Entidades Locales de Canarias, las demás Comunidades Autónomas y la Administración Central. En tercer lugar promover la normalización metodológica para la actividad estadística; la investigación y formación estadística; la obtención, conocimiento y difusión de las estadísticas referidas a Canarias; la creación y mantenimiento de bancos de datos de carácter estadístico. Los objetivos operativos son los siguientes. Desarrollar un sistema de cuentas económicas regionales integradas que facilite información estadística macroeconómica y sectorial sobre la economía canaria. Desarrollar un sistema integrado de gestión demográfica que aporte información periódica y actualizada sobre la población canaria. Promover y coordinar el desarrollo de la información estadística de origen administrativo en el ámbito de la Comunidad Autónoma de Canarias. Organizar y gestionar la información estadística, así como su difusión, en torno a un banco de datos estadístico propio. 21

22

CAPÍTULO 2. INSTITUTO CANARIO DE ESTADÍSTICA

La vinculación de este proyecto con el ISTAC viene determinada por la encuesta de ingresos y condiciones de vida de los hogares canarios para el año 2004 (EICVHC 2004).

2.2. Experiencias previas El ISTAC sólo ha tenido una experiencia previa similar a la encuesta de ingresos y condiciones de vida de los hogares canarios para el 2004 que ha sido la estadística de condiciones sociales elaborada en el año 2001. A continuación se desarrolla una síntesis del contenido de esta encuesta pionera en Canarias por sus dimensiones y resultados obtenidos. La Estadística de Condiciones Sociales de la Población Canaria constituye un tipo de investigación estadística que ofrece múltiples posibilidades de análisis, ya que proporciona una visión global de amplios aspectos de la vida y permite establecer conexiones entre diversos campos de conocimiento (ingresos, equipamientos de los hogares, problemas en el hogar, etc.). Los objetivos prioritarios que se persiguen son los siguientes. En primer lugar conocer la estructura y composición de la población residente en viviendas familiares para determinar el volumen, ubicación espacial, y las características y condiciones socioeconómicas de los distintos estratos sociales de la población canaria, haciendo una especial prospección de las situaciones más vulnerables desde el punto de vista de las políticas y servicios sociales. En segundo lugar, aportar información para determinar las diferencias sociales y económicas entre los diferentes estratos sociales de la población canaria. Y en tercer lugar, establecer comparaciones entre los niveles socioeconómicos de la población canaria y el resto del territorio español y europeo. En cuanto a las características estudiadas se aplican dos cuestionarios distintos, uno dirigido a los hogares y otro a los individuos de 16 y más años que forman parte de esos hogares. Las unidades básicas de la encuesta son los hogares. Además cada hogar proporciona información sobre los miembros que los conforman. La población de estudio son todos los miembros de los hogares privados, que residen en las viviendas familiares seleccionadas. El tipo de muestreo es estratificado por islas y en cada una de ellas se aplica un muestreo bietápico de conglomerados con estratificación de las unidades de primera etapa. El tamaño de la muestra ejecutada fue de 9758 hogares y 31193 personas. La ejecución del trabajo de campo fue llevada a cabo por Price WaterHouse Coopers Auditores y la mecanización de los datos por ODEC, S.A. (Centro de Cálculo y Aplicaciones Informáticas, S.A.). El proceso de edición e imputación de los datos recogidos en esta encuesta fue desarrollado por ODEC, una empresa especializada en la prestación de servicios informáticos para proceso de datos desde 1965. Para más información visitar http: //www.odec.es.

2.3. EICVHC 2004 La Encuesta de Ingresos y Condiciones de Vida de los Hogares Canarios (EICVHC) basa sus estudios en la medición de la pobreza. En el plano internacional existe una creciente preocupación por la pobreza y la exclusión social. Para poder manejar el concepto de pobreza existen varios enfoques entre los que se encuentran la pobreza vista como necesidad, la pobreza vista como estándar de vida o la pobreza vista como insuficiencia de recursos. La medición de la pobreza no es tarea sencilla porque no nos podemos basar sólo en los ingresos, ya que las condiciones de vida también son un factor importante en ella; véase educación, sanidad, vivienda, empleo o entorno social.

2.3. EICVHC 2004

23

2.3.1. Objetivo y dimensiones de estudio El objetivo del estudio es poner a disposición del Gobierno de Canarias un instrumento de observación estadística para el estudio y seguimiento del nivel de vida, las condiciones del mercado de trabajo y la cohesión social en relación con los requerimientos de información de las políticas activas del Gobierno en éstos y otros ámbitos reflejadas en sus diversos programas de actuación. Por lo tanto, se pretende medir el volumen, composición, ubicación espacial, características y condiciones socio-económicas de los distintos estratos sociales de la población canaria, haciendo una especial prospección de las situaciones más vulnerables desde el punto de vista de las políticas y servicios sociales. Las unidades de análisis son los hogares residentes en Canarias que habitan en viviendas familiares: conjunto de personas que ocupan en común una vivienda familiar y comparten un presupuesto común para alimentos y gastos de la vivienda, y los individuos mayores de 16 años miembros del hogar. En cuanto a las dimensiones del estudio existen tres grandes bloques: el entorno, el hogar y la población. Dentro del entorno encontramos equipamientos y problemas. Dentro del hogar encontramos estructura, situación económica, características de la vivienda, equipamiento del hogar y problemas. Dentro de la población encontramos demografía, empleo, ingresos, formación y estudios, salud y discapacidades, uso del tiempo y migración.

2.3.2. Cuestionario Para la normalización de conceptos y clasificaciones la encuesta hace uso de varios estándares entre los que podemos encontrar el panel de hogares de la Unión Europea (marco de referencia), la encuesta de población activa (ocupados, parados e inactivos), el Sistema Europeo de Cuentas Nacionales (ingreso disponible del hogar), el Sistema de Estadísticas de Protección Social (prestaciones sociales), la clasificación de funcionamiento, discapacidades y salud de la OMS (discapacidades), la clasificación nacional de ocupaciones (tipo de ocupación) o la clasificación nacional de actividades económicas (tipo de actividad). El cuestionario del hogar dispone de la siguiente estructura: Composición del hogar. • Relación de miembros. • Relación de parentesco. • Tipo de familia. Características de la vivienda. • Variación la vivienda. • Características principales. • Régimen de tenencia. • Equipamiento. Entorno. • Entorno social. • Medio ambiente.

CAPÍTULO 2. INSTITUTO CANARIO DE ESTADÍSTICA

24 • Equipamiento. Situación económica. • Valoración subjetiva. • Ingresos del hogar. Problemas en el hogar.

• Situaciones problemáticas. El cuestionario individual dispone de la siguiente estructura: Demografía. • Edad y sexo. • Estado civil. • Nacionalidad. Empleo. • Ocupación y actividad. • Características del empleo. • Condiciones en el trabajo. • Búsqueda de empleo. • Experiencia profesional. • Ingresos y prestaciones. Formación y estudios. • Características de formación. Uso del tiempo. • Ocio. • Vacaciones. • Participación en el hogar. • Participación ciudadana. Salud. • Cobertura sanitaria. • Discapacidades. Migraciones. • Variaciones residenciales.

2.3. EICVHC 2004

25

2.3.3. Diseño muestral El diseño muestral que se utiliza como guía es la Encuesta General de Población (EGP) del Instituto Nacional de Estadística (INE). La EGP no es una encuesta en sí misma sino un diseño muestral válido para encuestas dirigidas a la población y hogares. Su objetivo es mantener un diseño muestral actualizado que permita investigar características de los hogares y la población española en todos aquellos aspectos que interesen a la Administración del Estado. La EGP se usa en la Encuesta de Población Activa (EPA), la Encuesta de Presupuestos Familiares, las Encuestas de Fecundidad, la Encuesta sobre Discapacidad, Deficiencias y Estado de Salud o en el Panel de Hogares de la Unión Europea entre otras. El tipo de muestreo utilizado es un estudio periódico de carácter bienal con solapamiento parcial tipo ab-bc del 50 % de las unidades muestrales. El dominio del análisis son 28 comarcas básicas para uso estadístico. En cada dominio se aplica un muestreo bietápico de conglomerados con estratificación de la primera etapa. En la primera etapa encontramos las secciones, que se estratifican según criterio geográfico y socioeconómico y seleccionadas con repetición según método proporcional al tamaño, medido en número de viviendas (PPT). Se seleccionan 313 secciones en toda Canarias. En la segunda etapa tenemos las viviendas, que se seleccionan según muestreo sistemático con arranque aleatorio, ordenando previamente el marco de viviendas por criterios de entidad de población, núcleo de población, calle y número. Se seleccionan 25 viviendas por sección. Se entrevistan aproximadamente 7825 hogares y 25040 personas. Las comarcas básicas del dominio de análisis son las siguientes: La Palma. • LP-Noroeste. • LP-Noreste. • LP-Valle de Aridane. • LP-Capitalina. El Hierro. • EH-El Hierro. • La Gomera. • LG-Norte. • LG-Sur. Tenerife. • TF-Daute. • TF-Icod. • TF-Valle Orotava. • TF-Acentejo. • TF-Área Metropolitana. • TF-Valle de Güimar. • TF-Abona. • TF-Suroeste.

CAPÍTULO 2. INSTITUTO CANARIO DE ESTADÍSTICA

26 Gran Canaria. • • • • • •

GC-Oeste. GC-Noroeste. GC-Centro Norte. GC-Área Metropolitana. GC-Sureste. GC-Sur.

Fuerteventura. • FV-Sur. • FV-Centro. • FV-Norte. Lanzarote. • LZ-Suroeste. • LZ-Este. • LZ-Norte. En la primera etapa existe una estratificación primaria (geográfica) que distingue entre municipios atendiendo al número de habitantes, y una estratificación secundaria (socioeconómica) en la que se utiliza la metodología de estratificación social, que clasifica cada hogar de acuerdo a la relación con la actividad, ocupación y estudios.

2.3.4. Recogida de datos La recogida de datos se realiza mediante entrevista personal asistida por ordenador (Computer Assisted Personal Interviewing, CAPI). La localización de las viviendas a entrevistar se realiza mediante GPS con el apoyo del programa basado en el motor cartográfico del programa Map de Grafcan y adaptado a las necesidades de la operación estadística. Se dispone de un software específico y parametrizable (CAPI - ISTAC) para la gestión de la agenda del encuestador, la cumplimentación de los cuestionarios y las comunicaciones seguras entre los pen-tables y el servidor del ISTAC.

2.3.5. Edición e imputación de datos Es aquí donde aparece nuestra aportación en la Encuesta de Ingresos y Condiciones de Vida de los Hogares Canarios 2004. Una vez recogidos los datos y pasados a formato digital, el programa informático desarrollado en este trabajo toma esos datos, junto con las reglas de edición y la definición de las variables para llevar a cabo la edición e imputación de los mismos. Más adelante se explicará con detenimiento todas las funcionalidades y características del programa llamado Teide.

2.3.6. Organización de la encuesta Para el trabajo de campo existe un jefe de operación que controla a dos jefes de campo, uno por cada provincia canaria. Los jefes de campo disponen de tres jefes de zona que a su vez tienen a su cargo a tres o cuatro entrevistadores. Esto hace un total de 1 jefe de operación, 2 jefes de campo, 6 jefes de zona y 20 entrevistadores en la Comunidad Autónoma de Canarias.

2.3. EICVHC 2004

27

2.3.7. Calidad La guía de calidad está basada en la metodología del Statistics Canada Quality Guidelines, Guía Esomar para la Armonización de las Normas sobre el Trabajo de Campo y la Metodología y Tratamiento de la no respuesta del Instituto Vasco de Estadística. El análisis de errores de contenido y cobertura se han llevado a cabo mediante el modelo matemático elaborado por la Oficina de Censos de EE.UU.: repetición de entrevistas en una submuestra y análisis de concordancia para investigar inconsistencias cuantificando errores mediante índices de calidad.

28

CAPÍTULO 2. INSTITUTO CANARIO DE ESTADÍSTICA

Cap´ıtulo

3

Metodología General Este capítulo trata sobre la metodología general que se aplica a la imputación desde el punto de vista teórico, centrado fundamentalmente en datos categóricos, aunque también citaremos el caso numérico. Es decir, la formulación matemática que tiene el problema, y el método de Fellegi-Holt como principio de resolución del mismo.

3.1. Problema de localización del errores En este punto se va a dar una formulación del problema de localización de errores tanto para datos categóricos como para datos numéricos.

3.1.1. Formulación matemática Vamos a empezar introduciendo alguna notación y terminología. Una variable se llama categórica o discreta, cuando solo puede asumir un número finito de valores, categorías, y no tienen una estructura aritmética. Ejemplos de variables categóricas son “sexo” y “profesión”. La variable “sexo” sólo puede tomar los valores “varón” y “hembra”. La variable “profesión” puede tener un número finito de valores. Estos valores dependen del esquema de clasificación usado. Los datos numéricos son datos que poseen una estructura aritmética. Los datos numéricos normalmente se entienden como datos numéricos continuos, es decir, que los datos pueden tomar cualquier valor real en un intervalo. Un ejemplo de variable numérica es “salario”, que es un valor no negativo. Denotamos las variables categóricas por vi (i = 1, . . . , m) y las variables numéricas por xi (i = 1, . . . , n). Para los datos categóricos denotamos el dominio, es decir, el posible conjunto de valores, de la variable i por Di . Denotamos los edits, es decir, las restricciones que tienen que satisfacer los datos correctos, por E j (j = 1, . . . , p). Asumimos que son escritos de la siguiente forma: edit E j es satisfecho por un registro (v1 , . . . , vm , x1 , . . . , xn ) si se cumple la siguiente sentencia: IF vi ∈ Fij

for i = 1, . . . , m

THEN (x1 , . . . , xn ) ∈ {x/a1j x1 + . . . + anj xn + bj ≥ 0}

(3.1)

o IF vi ∈ Fij

for i = 1, . . . , m

THEN (x1 , . . . , xn ) ∈ {x/a1j x1 + . . . + anj xn + bj = 0} 29

(3.2)

CAPÍTULO 3. METODOLOGÍA GENERAL

30

Los valores aij se asumen como números racionales. Fij ⊆ Di ∀i, j. Nótese que, sin perder generalidad, todas las expresiones numéricas vistas en (3.1) y en (3.2) pueden ser asumidas como desigualdades, porque cualquier igualdad se puede expresar como dos desigualdades. No haremos esta suposición aquí porque más adelante trataremos ocasionalmente las igualdades y las desigualdades de manera distinta por razones de eficiencia. Los edits dados en (3.1) y en (3.2) son condiciones numéricas lineales que se cumplen a través de ciertas combinaciones de valores categóricos. Las condiciones numéricas no lineales se dan raramente en la práctica. Además estos edits no lineales son bastantes difíciles de especificar y de manejar. En principio, para cada combinación de valores categóricos se pueden especificar diferentes condiciones numéricas. Se puede especificar incluso una condición numérica contradictoria, como 0 ≥ 1 para una combinación de valores categóricos. Este edit significa que esa combinación particular de valores categóricos no puede aparecer. Todos los edits dados en (3.1) y en (3.2) se tienen que satisfacer simultáneamente. Se asume que los edits se pueden satisfacer simultáneamente, es decir, que el conjunto de edits es consistente. Sin perder generalidad, se puede asumir que el conjunto de edits no puede ser dividido en varios subconjuntos disjuntos, o sea, subconjuntos sin variables superpuestas. Si un conjunto de edits puede ser dividido en subconjuntos disjuntos, se asume que el problema de localización de errores se resuelve sobre cada subconjunto de manera independiente. La condición después de la sentencia IF (vi ∈ Fij for i = 1, . . . , m) se llama el antecedente del edit. La condición después de la sentencia THEN se llama el consecuente. Una variable categórica vi se dice que entra en el edit E j dado en (3.1) y en (3.2) si Fij ⊂ Di y Fij 6= Di , es decir, si Fij está estrictamente contenido en el domino de la variable i. Se dice que ese edit está envuelto por una variable categórica. Una variable numérica xi se dice que entra el consecuente del edit E j dado en (3.1) y en (3.2) y aij 6= 0. Esta condición ENTONCES se dice que está envuelta por esta variable numérica. Se asume que ninguno de los valores de las variables entrantes en los edits puede tener valor “missing”, es decir, que el valor tiene que contener un dato válido. Cualquier campo para el que su valor sea “missing” se considerará erróneo. El conjunto en el consecuente en (3.1) y en (3.2) puede ser el conjunto vacío o el espacio vectorial real n-dimensional. Si el conjunto en el consecuente en (3.1) y en (3.2) es el espacio vectorial real n-dimensional, entonces el edit se satisface siempre. Así que el edit puede ser descartado. Si el conjunto en el consecuente de (3.1) y (3.2) es el conjunto vacío, entonces el edit falla para cualquier registro cuyo antecedente sea verdadero, es decir, por cualquier registro para el que vi ∈ Fij for i = 1, . . . , m. Así mismo, Fij en (3.1) y en (3.2) puede ser el conjunto vacío o igual a Di . Si un conjunto Fij = ∅ (para algún i = 1, . . . , m), el edit se satisface siempre, y puede ser descartado. Si el antecedente no es verdadero para un registro particular, el edit es satisfecho, indistintamente de los valores de las variables numéricas. 0 , x0 , . . . , x0 ) en el conjunto de datos que va a ser editado autoPara cada registro (v10 , . . . , vm n 1 máticamente, se debe determinar la existencia de un registro sintético (v1 , . . . , vm , x1 , . . . , xn ) que satisface todos los edits j = 1, . . . , p tal que: m X i=1

wi δ(vi0 , vi )

+

n X

wm+i δ(x0i , xi )

(3.3)

i=1

sea minimizado. Aquí wi es el peso de fiabilidad de la variable i, δ(y 0 , y) = 1 si y 0 6= y y δ(y 0 , y) = 0 si y 0 = y. El peso de fiabilidad expresa cómo de confiable es el valor de la correspondiente variable. A mayor peso de fiabilidad, más fiable es el valor de la variable. La función objetivo (3.3) es simplemente el número de variables pesadas que tienen que cambiar. Las

3.1. PROBLEMA DE LOCALIZACIÓN DEL ERRORES

31

variables para las que las que los valores originales eran “missing” forman una solución óptima al problema de localización de errores. El problema de localización de errores puede ser formulado de manera sencilla como sigue: 0 , x0 , . . . , x0 ), buscar (v , . . . , v , x , . . . , x ) minimizando la función objetivo Dado (v10 , . . . , vm 1 m 1 n n 1 (3.3) y de tal manera que se satisfagan todos los edits en (3.1) y en (3.2). Nótese que la formulación hecha es una formulación matemática del paradigma generalizado de Fellegi-Holt. Nótese también que pueden haber varias soluciones óptimas a una instancia específica del problema de localización de errores. Un objetivo en la literatura es encontrar y enumerar todas las posibles soluciones óptimas al problema de localización de errores. Para un problema de optimización, este objetivo es bastante antinatural. La razón de perseguir este objetivo es que el problema estadístico actual de la edición automática es más comprensible que el problema de optimización anteriormente descrito. Este problema estadístico es “simplemente” el problema de obtener datos de alta calidad a partir de un conjunto de datos con errores de una manera eficiente. Resolver el problema de localización de errores es sólo uno de los pasos en este proceso. Después de identificar los campos erróneos, estos deben ser imputados. Para resolver el problema estadístico efectivamente no es suficiente con resolver solamente el problema de optimización. En concreto, durante la fase de localización de errores, uno debería tener en cuenta que los errores identificados pueden ser imputados de tal manera que los registros resultantes sean de suficiente calidad. También se debería tener en cuenta que el conjunto de datos finales imputados sea de suficiente calidad. Es necesario tener en cuenta los problemas estadísticos relacionados con la fase de imputación durante la fase de localización de errores. Estos problemas son, por lo menos, tan importantes y difíciles de resolver como el problema antes mencionado de la localización de errores. Generando todas las posibles soluciones óptimas al problema matemático de localización de errores, se pretende ofrecer la posibilidad más tarde de seleccionar una de estas soluciones, usando un criterio secundario más estadístico. Se ha visto que en los peores casos, los registros tienen varias miles de soluciones óptimas, pero en la mayoría de los casos no es así. Los pesos son fijos para cada registro que va a ser editado, pero pueden ser diferentes para distintos registros. En la práctica, los pesos se pueden calcular antes de que un registro se edite automáticamente. De esta manera, es necesario tener en cuenta la probabilidad de que un valor particular en un registro particular sea incorrecto. El problema de localización de errores es NP-Completo ya que el problema de la satisfacibilidad puede ser transformado a un problema de localización de errores en tiempo polinomial. Por lo tanto, el objetivo no es desarrollar algoritmos que resuelvan el problema de localización de errores de manera eficiente en los peores casos, sino desarrollar algoritmos que resuelvan el problema de manera eficiente para casos promedio.

3.1.2. Una primera aproximación Está claro que al menos se debería cambiar un valor por cada edit violado. Vamos a asumir por un momento que es suficiente con cambiar cualquier valor por cada edit violado. En ese caso el problema de localización de errores se reduce al problema asociado de cubrimiento de conjuntos. Para formalizarlo, definimos las variables yi (i = 1, . . . , n), donde es igual a 1 si la variable i hay que modificarla. Para un conjunto general de edits el problema de cubrimiento de conjuntos viene dado por: Minimizar la función objetivo dada por: n X i=1

wi yi

(3.4)

CAPÍTULO 3. METODOLOGÍA GENERAL

32

sujeto a la condición de que se cambie una variable en cada edit violado. Se define: ( 1, si la variable i está envuelta en el edit j. aij = 0, en otro caso.

(3.5)

Entonces las restricciones se pueden escribir de la siguiente manera: n X

aij yi ≥ 1

(3.6)

i=1

para cada edit violado j por el registro bajo esta consideración. Desafortunadamente, no basta con cambiar cualquier valor por edit violado, ya que el cambio de una variable puede alterar la validez de otro edit, quizás inicialmente correcto. La solución al problema asociado de cubrimiento de conjuntos no es normalmente una solución al correspondiente problema de localización de errores. Esto se puede ver en el siguiente ejemplo. Ejemplo 3.1.1. Supongamos que el conjunto de edits explícitamente especificados son: T =P +C C ≤ 1,1 0,5 ≤ T T 0≤ ≤ 550 N T ≥0

(3.7)

(3.10)

C≥0

(3.11)

N ≥0

(3.12)

(3.8) (3.9)

La variable T denota el volumen de ventas de una empresa, P su beneficio, C sus costes, y N el número de empleados. El volumen de ventas, beneficio y costes se dan en miles de euros. El edit (3.7) dice que el volumen de ventas de una empresa debería ser igual a la suma del beneficio y los costes. El edit (3.8) pone cotas a los costes de una empresa en términos de su volumen de ventas, el edit (3.9) pone cotas al volumen de ventas en términos del número de empleados, y los edits del (3.10) al (3.12) dicen que el volumen de ventas, los costes y el número de empleados deben ser valores no negativos. Los edits (3.7), (3.10), (3.11) y (3.12) son edits que se pueden derivar lógicamente, y mantener para toda empresa. Los edits (3.8) y (3.9) no se pueden derivar lógicamente, y sólo se mantendrán para alguna clase de empresas. Consideramos un registro específico con valores T=100, P=40, C=60 y N=5. Los edits del (3.9) al (3.12) se satisfacen, mientras que los edits (3.7) y (3.8) se violan. Asumimos que los pesos de fiabilidad de las variables T, P y C son iguales a 1, y que el peso de fiabilidad de la variable N es igual a 2. Esto es, el valor de la variable N, el número de empleados, se considera más creíble que los valores de las variables financieras T, P y C. El problema del cubrimiento de conjuntos asociado al problema de localización de errores tiene su solución óptima en cambiar el valor de T, porque esta variable cubre los edits violados y tiene el mínimo peso de fiabilidad. El valor óptimo de la función objetivo del problema de cubrimiento de conjuntos es igual a 1. Sin embargo, para satisfacer el edit (3.7) cambiando el valor de T, el valor imputado debería ser igual a 100, pero en ese caso (3.9) sería violado. La solución óptima al problema del cubrimiento de conjuntos no es una solución factible al problema de localización de errores, porque la variable T no puede ser imputada de manera consistente.

3.1. PROBLEMA DE LOCALIZACIÓN DEL ERRORES

33

El problema de localización de errores tiene su solución óptima en cambiar las variables P y C. El valor óptimo de la función objetivo para el problema de localización de errores es 2. Esto es mayor que el valor óptimo para la función objetivo del problema asociado de cubrimiento de conjuntos. Una posible imputación para estas variables es P=40 y C=60. El registro imputado resultante pasa todos los edits. Nótese que en este ejemplo el informante probablemente se olvidó que los valores P y C se daban en miles de euros. Una solución factible al problema de localización de errores es una solución factible al problema asociado de cubrimiento de conjuntos, pero no viceversa. Por lo tanto, el valor de la solución óptima para el problema de localización de errores es al menos igual al valor de la solución óptima para el problema asociado del cubrimiento de conjuntos.

3.1.3. Una formulación de programación entera mixta En este punto se asume, por conveniencia de notación, que todos los edits son del tipo (3.1). Una igualdad puede ser representada por dos desigualdades, así que la simplicidad de este modelo no limita esa posibilidad. También se asume que los valores de las variables numéricas están acotados. Esto es, se asume que para la i-ésima variable numérica (i = 1, . . . , n) existen dos constantes tales que: αi ≤ xi ≤ βi

(3.13)

En la práctica, estos valores αi y βi existen siempre, porque las variables numéricas que se dan en datos estadísticos están acotadas. Si el valor de la i-ésima variable es “missing”, se asignará a xi un valor menor que αi o un valor mayor que βi . El número de categorías de la i-ésima variable categórica es gi (i = 1, . . . , m), es decir, gi = |Di |. Para el k-ésimo valor cik de la variable categórica i se introduce una variable binaria γik tal que: ( 1, si el valor de la variable categórica i es igual a cik . γik = (3.14) 0, en otro caso. A la i-ésima variable categórica le corresponde un vector (γi1 , . . . , γigi ) tal que γik = 1 si y solo si el valor de esta variable categórica es igual a cik , en otro caso γik = 0. Para cada variable categórica i se debe cumplir la relación: X γik = 1 (3.15) k

Denotaremos también el vector (γi1 , . . . , γigi ) por γi . Si el valor de la i-ésima variable categórica i es “missing”, se fijan todos los γik iguales a cero (k = 1, . . . , gi ). Un edit j puede ser escrito en términos de las variables binarias γik de la siguiente manera:    m X X    a1j x1 + . . . + anj xn + bj ≥ M  γik − 1 (3.16)  i+1

cik ∈Fij

donde M es un número entero positivo suficientemente grande. Si el antecedente del edit (3.1) es verdadero, la parte derecha de (3.1) es igual a cero. Por lo tanto, el consecuente de (3.1) tiene que ser verdadera para las variables numéricas. Si el antecedente de (3.1) no es verdadero, la parte

CAPÍTULO 3. METODOLOGÍA GENERAL

34

derecha de (3.16) es igual a un valor negativo grande. Consecuentemente, (3.16) es verdadero independientemente de los valores de las variables numéricas. Alternativamente, la desigualdad (3.16) puede ser reemplazada por:   m X X u  (3.17) γik − 1 ≤ −  2 j i=1

cik ∈Fi

teniendo en cuenta la siguiente relación: a1j x1 + . . . + anj xn + bj ≥ u

n X

aij αi

(3.18)

i=1

donde u es una variable binaria. Si vi ∈ Fij for i = 1, . . . , m, entonces u tiene que ser igual a cero, y se tiene que cumplir el consecuente de (3.1). Si u es igual a 1, entonces (3.18) se satisface siempre. 0 , x0 , . . . , x0 ) o de manera equivalente Si (3.1) no es satisfecho por un registro (v10 , . . . , vm n 1 0 0 0 0 si (3.17) no es satisfecho por (γ1 , . . . , γm , x1 , . . . , xn ), entonces buscamos los valores ePik (k = P N 1, . . . , gi ; i = 1, . . . , m), eN ik (k = 1, . . . , gi ; i = 1, . . . , m), zi (i = 1, . . . , m) y zi (i = 1, . . . , m). P P 0 0 Los valores eik y zi corresponden a cambios positivos en el valor de γik y xi , respectivamente. N 0 0 Así mismo, los valores eN ik y zi corresponden a cambios negativos en el valor de γik y xi , N respectivamente. El vector (ePi1 , . . . , ePig ) también se denota por ePi , y el vector (eN i1 , . . . , eig ) por N ei . Los valores antes descritos tienen que ser calculados de tal manera que: ! Ã n m X X X ¡ ¡ ¢ ¡ ¢¢ (3.19) + wm+i δ ziP + δ ziN eN ik i=1

k

i=1

donde wi es el peso de fiabilidad de la variable i, δ(x) = 1 si y solo si x 6= 0 y δ(x) = 0 en otro caso, sea minimizado sujeto a las restricciones siguientes: ePik , eN ik ∈ {0, 1} (i = 1, . . . , m)

(3.20)

ziP , ziN ≥ 0 (i = 1, . . . , n)

(3.21)

ePik + eN ik ≤ 1 (i = 1, . . . , m) X ePik ≤ 1 (i = 1, . . . , m)

(3.22) (3.23)

k 0 eN ik = 0 if γik = 0 (i = 1, . . . , m) X 0 (γik + ePik − eN ik ) = 1 (i = 1, . . . , m)

(3.24) (3.25)

k

αi ≤ x0i + ziP − ziN ≤ βi

(i = 1, . . . , n)    m n X X X    0 aij (x0i + ziP − ziN ) + bj ≥ M  (γik + ePik − eN  ik ) − 1 i=1

para todos los edits j = 1, . . . , K.

i+1

cik ∈Fij

(3.26) (3.27)

3.1. PROBLEMA DE LOCALIZACIÓN DEL ERRORES

35

La relación (3.22) expresa que no se puede aplicar la misma corrección positiva y negativa a una variable categórica. La relación (3.23) expresa que como mucho solo uno de los valores puede ser imputado, es decir, estimado y rellenado, para una variable categórica, y la relación (3.24) expresa que se puede aplicar una corrección negativa a una variable categórica si el valor original no es igual a la correspondiente categoría. La relación (3.25) asegura que cada variable categórica es rellenada con una valor, incluso si el valor original era “missing”. La relación (3.26) dice que el valor de una variable numérica debe estar acotada por constantes apropiadas. En concreto, la relación (3.26) especifica que el valor de una variable numérica no puede ser “missing”. Finalmente, la relación (3.27) expresa que el registro modificado debería satisfacer todos los edits dados por (3.1). Después de resolver este problema de optimización, el registro resultante modificado queda 0 P N 0 P N 0 P N como sigue: (γ10 + eP1 − eN 1 , . . . , γm + em − em , x1 + z1 − z1 , . . . , xn + zn − zn ). Una solución al problema matemático anterior corresponde a una solución para el problema de localización de errores. Una solución para el problema de localización de errores es simplemente dar los nombres de las variables que tienen que cambiar sus valores, sin especificar cuáles son sus nuevos valores. Teniendo el registro modificado correspondiente a una solución óptima al problema anterior, la solución correspondiente al problema de localización de errores viene dada por las variables para las que los valores en este registro modificado difiere del valor original. Como ya se ha dicho, el objetivo es encontrar todas las soluciones óptimas. El problema de optimización anterior es una traducción del paradigma generalizado de FellegiHolt en términos matemáticos. La función objetivo (3.19) es la suma de los pesos de fiabilidad de las variables cuyos valores originales deben ser cambiados. Nótese que la minimización de la función objetivo (3.19) es equivalente a minimizar: ! Ã n m X X X ¡ ¡ ¢ ¡ ¢¢ P (3.28) wm+i δ ziP + δ ziN eik + wi i=1

k

i=1

La función objetivo (3.28) es la suma de los pesos de fiabilidad de las variables que deben ser imputadas con un nuevo valor. Para ser precisos, el valor de esta función objetivo es igual al valor de la función objetivo (3.19) más la suma de los pesos de fiabilidad de las variables categóricas que tienen valor “missing”.

3.1.4. Usando algoritmos estándar Quizás, los algoritmos tipo branch & bound sean la clase más conocida de algoritmos para minimizar funciones objetivo lineales sujetas a restricciones lineales donde algunas de las variables envueltas son variables binarias. Antes de aplicar un algoritmo estándar de branch&bound al problema general de localización de errores, primero tenemos que introducir algunas variables adicionales. La función objetivo (3.19) contiene una función no lineal, llamada δ. Se intentará reescribir esta función objetivo introduciendo variables binarias adicionales. Estas variables son dPi y dN i for (i = 1, . . . , n) que satisfacen las siguientes relaciones: dPi , dN i ∈ {0, 1}

(3.29)

dPi ≤ M ziP

(3.30)

M dPi ≥ ziP

(3.31)

N dN i ≤ M zi

(3.32)

CAPÍTULO 3. METODOLOGÍA GENERAL

36 N M dN i ≥ zi

(3.33)

donde M es de nuevo un número positivo suficientemente grande. La reescritura de (3.19) quedaría de la siguiente manera: Ã ! m m+n X X X ¡ ¢ wi eN + wi dPi + dN i ik i=1

k

(3.34)

i=m+1

Esta función objetivo debería minimizarse sujeta a las restricciones de (3.20) a (3.27) y de (3.29) a (3.33). Las relaciones (3.30) y (3.31) expresan que dPi = 1 si y solo si ziP 6= 0, si no N dPi = 0. De manera similar, las relaciones (3.32) y (3.33) expresan que dN i = 1 si y solo si zi 6= 0, si no dN i = 0. Si y solo si una variable continua es distinta de cero, la variable binaria asociada es igual a uno. El hecho de que una variable continua difiera o no difiera de cero se incorpora en la función objetivo a través de la variable binaria asociada. En este esquema, el problema general de localización de errores se convierte en un problema de programación entera mixta. Un algoritmo de branch&bound es un algoritmo iterativo para resolver problemas de programación entera (mixta). Consiste básicamente en tres pasos: ramificar, acotar y explorar. Estos tres pasos se ejecutan en cada iteración. Durante la fase de ramificación, un problema de programación lineal (LP) se divide en dos subproblemas lineales separados fijando una variable binaria a cero o a uno. Para cada uno de estos subproblemas se determina una cota durante la fase de acotación. Esta cota se determina resolviendo el subproblema lineal relajado, es decir, resolviendo el problema lineal sin tener en cuenta que las variables binarias que no han sido fijadas todavía solo pueden tomar los valores cero o uno. Finalmente, durante la fase de exploración se determina si los subproblemas tienen que ser divididos en subproblemas más pequeños. Un subproblema no tiene que ser dividido en subproblemas más pequeños a) si la solución óptima al problema LP relajado es una solución al subproblema en sí (en ese caso la solución óptima al problema LP relajado es también una solución óptima al subproblema); b) si la cota obtenida del problema LP relajado es peor que la cota obtenida de una solución anterior al problema de programación entera (mixta); c) si el problema LP relajado no tiene solución factible. La aplicación de un algoritmo de branch&bound para resolver el problema general de localización de errores es, en principio, posible. Los modernos resolutores comerciales para problemas de programación entera mixta (MIP), como ILOG CPLEX, son lo suficientemente potentes para determinar una solución óptima para algunos modelos de programación entera. Sin embargo, hay pocos problemas relacionados con el problema de localización de errores a los que se les pueda aplicar un resolutor comercial de MIP. Un problema técnico es que se necesitarían generar todas las posibles soluciones óptimas al problema de localización de errores. Los resolutores estándar de MIP parecen estar menos preparados para esta tarea. Un algoritmo de propósito específico diseñado para encontrar todas las soluciones óptimas al problema de localización de errores podría dar mejores resultados que los resolutores comerciales. También hay varios problemas no técnicos cuando se usa un resolutor comercial de MIP. En primer lugar, el problema de localización de errores es sólo una parte de un proceso estadístico para depurar registros. A los institutos de estadística les interesa tener un control completo sobre cómo trabaja este proceso estadístico. Quieren ser capaces de incorporar el problema de localización de errores en el resto del proceso de producción estadístico. No quieren que los resolutores comerciales restrinjan sus acciones. En segundo lugar, los institutos de estadística no quieren depender de vendedores de software comercial en general. Los cambios en el software de los vendedores de software comercial tienen

3.2. PARADIGMA DE FELLEGI-HOLT

37

un importante impacto en los sistemas de los institutos de estadística. El software es difícil de mantener, especialmente si el software comercial adquirido es matemáticamente complicado, como es el caso de los resolutores de MIP. Y en tercer lugar, los resolutores comerciales de MIP son bastante caros. En un instituto de estadística hay muchos usuarios potenciales de un sistema de edición automática de datos. Esto sería más acusado todavía si el sistema de edición automática de datos estuviera integrado en el software para edición asistida por ordenador. Esta integración permitiría al humano preguntar a la máquina cómo depurar un determinado registro. A partir de ahí, se podría aceptar un consejo o desestimarlo.

3.2. Paradigma de Fellegi-Holt El paradigma de Fellegi-Holt dice que un registro erróneo debería satisfacer todos los edits cambiando el valor del menor número posible de variables. En su artículo, Fellegi y Holt no solo proponían este paradigma, también proponían un interesante método para resolver el problema matemático resultante. Este método puede ser aplicado tanto para datos categóricos como para datos numéricos. Aunque posteriormente se han desarrollado otros algoritmos, este artículo sigue siendo la referencia clave de cualquier trabajo sobre localización de errores.

3.2.1. La idea básica de Fellegi-Holt El método desarrollado por Fellegi-Holt está basado en generar lo que se denominan edits implícitos (o edits implicados). Estos edits implícitos están lógicamente derivados de los edits explícitos especificados. Los edits implícitos pueden ser definidos tanto para datos categóricos como para datos numéricos. Aunque los edits implícitos son redundantes, pueden revelar información importante sobre la región factible definida por los edits explícitos. Los edits implícitos algunas veces permiten ver relaciones entre variables más claramente. Veamos esto con un simple ejemplo. Ejemplo 3.2.1. En una pequeña encuesta, se les pide a los informantes que elijan entre una de las posibles alternativas para las siguiente tres cuestiones: 1. ¿Cuál es la razón más importante por la que compras azúcar? 2. ¿Bebes café con azúcar? 3. ¿Cuál es la media de azúcar que consumes en una taza de café? Las alternativas para la primera cuestión son: “Consumo azúcar en mi café”. “Uso azúcar para hacer tarta de cereza”. “Nunca compro azúcar”. “Otra razón”. Las alternativas para la segunda cuestión son: “Sí”.

CAPÍTULO 3. METODOLOGÍA GENERAL

38 “No”. Las alternativas para la tercera cuestión son: “0 gramos”.

“Más de 0 gramos pero menos de 10 gramos”. “Más de 10 gramos”. Se han definido los siguientes edits explícitos: 1. La principal razón para comprar azúcar no es tomarlo en el café para alguien que no bebe café con azúcar. 2. La cantidad media de azúcar consumido en una taza de café por alguien que bebe café con azúcar no es igual a 0 gramos. 3. Alguien que nunca compra azúcar no consume más de 0 gramos de azúcar en el café de media. 4. Alguien que nunca compra azúcar no consume azúcar en el café. (Edit implícito) Este edit está derivado del segundo y tercer edit explícito (ya que el segundo edit explícito implica que alguien que bebe azúcar en el café debe consumir más de 0 gramos por taza de café como media y el tercer edit explícito dice que alguien que bebe más de 0 gramos de azúcar por taza de café de media alguna vez compra azúcar). El edit 4 es, por definición, un edit redundante, porque su información ya está presente en el segundo y tercer edit explícito. Sin embargo, este edit hace que la relación entre comprar azúcar y consumir azúcar se vea más claramente. Esta relación es menos clara si uno sólo mira el segundo y el tercer edit explícito. Los beneficios de generar edits implícitos se verán más adelante en este ejemplo. Para datos numéricos, el conjunto de edits que se derivan lógicamente de los edits explícitos contiene infinitos elementos. Veamos un ejemplo simple de esto. Ejemplo 3.2.2. Si x ≥ 1 es un edit, entonces λx ≥ λ es un edit implicado para todo λ ≥ 0. Generar todos los edits implícitos está fuera de lugar para los datos numéricos, y es un desperdicio de tiempo y memoria para los datos categóricos. El método propuesto por Fellegi-Holt empieza generando un conjunto de edits implícitos y explícitos bien definido y lo suficientemente grande. Este conjunto de edits se denomina conjunto completo de edits. Se denomina así no porque todos los posibles edits implícitos estén generados sino porque es el conjunto de edits (implícitos y explícitos) suficiente y necesario para convertir el el problema del cubrimiento de conjuntos en el problema de localización de errores. Una vez que el conjunto completo de edits ha sido generado, es suficiente para encontrar un conjunto de variables S que cubran los edits (implícitos y explícitos) que son violados, es decir, en cada edit violado al menos una variable de S debería estar presente. Ejemplo 3.2.3. El conjunto de edits viene dado por los siguientes: 1. La principal razón para comprar azúcar no es tomarlo en el café para alguien que no bebe café con azúcar. 2. La cantidad media de azúcar consumido en una taza de café por alguien que bebe café con azúcar no es igual a 0 gramos.

3.2. PARADIGMA DE FELLEGI-HOLT

39

3. Alguien que nunca compra azúcar no consume más de 0 gramos de azúcar en el café de media. 4. Alguien que nunca compra azúcar no consume azúcar en el café. 5. La cantidad media de azúcar consumida por taza de café por alguien cuya principal razón para comprar azúcar es consumirlo con café no es igual a 0 gramos. Veamos en el siguiente ejemplo porqué es necesario definir el conjunto completo de edits de forma matemática. Ejemplo 3.2.4. Supongamos que el conjunto de edits explícitos vienen dados de nuevo por los edits explícitos especificados en el ejemplo 3.2.1. Supongamos también que las respuestas obtenidas por uno de los informantes son: 1. La razón más importante por la que compra azúcar: Nunca compro azúcar. 2. ¿Bebe café con azúcar?: Sí. 3. ¿Cuál es la cantidad media de azúcar por taza de café?: 0 gramos. Nótese que este registro no satisface el segundo edit explícito. Obviamente la respuesta a la segunda cuestión o la respuesta a la tercera cuestión deben ser cambiadas. Cambiar sólo la respuesta a la primera cuestión no puede generar un registro consistente. Una manera de ver qué valor se puede cambiar es simplemente usar la idea de “prueba y error”. Una posibilidad es cambiar la tercera respuesta a “más de 0 pero menos de 10 gramos”. Como consecuencia, el segundo edit explícito se cumplirá, pero desafortunadamente el tercer edit explícito no se cumplirá. Así que, cambiar la tercera respuesta a “más de 0 pero menos de 10 gramos” no parece una buena idea. Vamos a intentar cambiar la tercera respuesta a “más de 10 gramos”. Esto no es una buena idea, porque el segundo edit explícito se cumplirá a través de este cambio, pero de nuevo el tercer edit explícito no se cumplirá. Ahora, supongamos que la respuesta a la segunda cuestión la cambiamos a “No”, mientras la tercera respuesta se fija a su valor original. Ahora todos los edits son satisfechos y se ha encontrado una solución al problema de la localización de errores. En este pequeño ejemplo se ha encontrado una solución después de unos pocos pasos usando en enfoque de prueba y error. Pero para problemas grandes Qm este enfoque de prueba y error no es eficiente. En el peor caso todos los posibles registros i=1 |Di | han de ser contrastados para buscar todas las soluciones óptimas. Aquí los edits implícitos muestran su importancia y lo ilustramos a continuación. Consideremos el edit 4 del ejemplo 3.2.1, el que dice: “Alguien que nunca compra azúcar no consume azúcar en el café”. Nótese que para determinar si este edit es satisfecho o no, sólo tenemos que considerar las respuestas a las dos primeras preguntas. Esto es, el hecho de que el edit sea satisfecho o no, no depende de la respuesta a la tercera pregunta. Nótese también que este edit no se cumple para el registro bajo esta consideración. Cambiando la respuesta a la tercera cuestión no conseguimos que este edit sea satisfecho. Así que no sólo tenemos que cambiar el valor de la respuesta a la tercera cuestión. Este edit está implicado por el segundo y el tercer edit, así que es obviamente redundante. Sin embargo, como se ha visto, contiene información útil que ayuda a identificar los valores más implausibles.

CAPÍTULO 3. METODOLOGÍA GENERAL

40

3.3. Fellegi-Holt para datos categóricos Para datos puramente categóricos, los edits que se van a considerar son del tipo siguiente: IF vi ∈ Fij (for i = 1, . . . , m) THEN ∅

(3.35)

Un edit del tipo (3.35) es violado si vi ∈ Fij para todo i = 1, . . . , m. En otro caso, el edit es satisfecho. Alternativamente, un edit categórico E j dado en (3.35) se puede escribir de la siguiente forma: P (Ej ) =

m Y

Fij

(3.36)

i=1

Q donde denota el producto cartesiano. Es decir, el edit E j falla si y solo si los valores vi del registro que se esté considerando mienten en el espacio dado por la parte derecha de (3.36). Fellegi y Holt llaman a (3.36) la forma normal de los edits categóricos. Un conjunto de edits es satisfecho si todos los edits dados en (3.36) son satisfechos, es decir, un conjunto de edits falla si al menos un edit falla. Si denotamos el conjunto de edits E j (j = 1, . . . , J) ¯ entonces un registro v falla este conjunto de edits si y sólo si por E, ¯ v ∈ P (E)

(3.37)

donde ¯ = P (E)

J [

P (E j )

(3.38)

j=1

Si el conjunto de valores Fij es un subconjunto propio del dominio Di de la variable i, entonces se dice que la variable i entra en el edit E j , y el edit E j se dice que envuelve la variable i. Fellegi y Holt demostraron que cualquier sistema de edits categóricos pueden ser expresados en forma normal de manera equivalente. A continuación se muestra un pequeño ejemplo para ilustrar estos conceptos. Ejemplo 3.3.1. Supongamos que tenemos tres variables: “Edad”, “Estado civil” y “Sexo”. La variable “Edad” toma tres valores: 1, 2 y 3 (es decir, D1 = {1, 2, 3}), que representan respectivamente: “Edad=0-14", “Edad=15-80 “Edad>80”. La variable “Estado civil” solo toma dos posibles valores: 1 y 2 (es decir, D2 = {1, 2}), representando “Casado” y “Soltero”. La variable “Sexo” toma dos posibles valores: 1 y 2 (es decir, D3 = {1, 2}), representando respectivamente “Varón” y “Mujer”. La sentencia “IF (Edad= + * and y & not no ! ( if si #

Explicación Mayor que Mayor o igual que Suma Multiplicación Operador y Operador no Abrir paréntesis Cláusula si Resto

5.5.9. Variables y valores Dentro de los edits se pueden especificar nombres de variables y valores numéricos, nunca constantes de cadena. Las variables deben responder a la siguiente expresión regular: [a-zA-Z][a-zA-Z0-9_]* Los valores numéricos especificados deben responder a la siguiente expresión regular: [+-]?[0-9]+(˙ [0-9]+)?([eE][+-]?[0-9]+)?

5.5.10. Sintaxis Para definir la posible sintaxis de los edits vamos a definir algunos términos. Denotamos por ei cualquier expresión que se pueda escribir, por b cualquier operador binario de los que se han visto, por u cualquier operador unario de los que se han visto, por ( y ) los paréntesis, por n un valor numérico y por if y then las cláusulas vistas. Con todo esto, las expresiones que se pueden escribir vienen reflejadas en el siguiente listado: e1 = n e1 = ( e2 ) e1 = e2 b e3 e1 = u e2 e1 = if e2 then e3 Es importante hacer notar que en la sintaxis no se habla de variables y sólo de valores numéricos porque, al final, toda variable es traducida a su valor numérico correspondiente cuando es evaluada sobre un registro concreto.

72

CAPÍTULO 5. IMPLEMENTACIÓN PRÁCTICA

Cap´ıtulo

6

Manual de usuario Como cualquier otra aplicación informática, el manual de usuario es un elemento básico para lograr utilizar la herramienta de manera correcta y para poder sacarle el máximo partido a la misma. En este capítulo se verá una explicación detallada del manual de usuario, que consiste en la descripción exhaustiva de la interface de usuario, así como de todas las funcionalidades subyacentes.

6.1. Inicio de la aplicación 6.1.1. Pantalla de bienvenida En primer lugar, una vez que se ha ejecutado la aplicación, aparece una pantalla de bienvenida con el nombre de la aplicación y de los autores. Esta pantalla está presente durante aproximadamente 2 segundos. También es posible cerrarla a través de la tecla ESC o pulsando con el ratón sobre ella. Ver figura 6.1.

Figura 6.1: Pantalla de bienvenida

73

CAPÍTULO 6. MANUAL DE USUARIO

74

6.1.2. Situación inicial Una vez que desaparece la pantalla de bienvenida aparece la interface principal de la aplicación en la que únicamente tenemos a nuestra disposición un escueto menú principal. Este menú contiene dos submenús principales como son Principal y Ayuda. Dentro del menú Principal encontramos las siguientes opciones: Nuevo Metafile. . . Abrir Metafile. . . Cerrar Metafile. . . Proceder. . . Salir. . .

Las tres primeras opciones reflejan las acciones que se pueden llevar a cabo con los metafiles. En el inicio de la aplicación sólo están activas las opciones de Nuevo Metafile y de Abrir Metafile. Una vez que se haya cargado un metafile en el sistema, el resto de opciones saldrán activas. La opción de Proceder se verá más adelante pero su cometido es de servir como punto de arranque de cada uno de los procesos que se van a realizar. Y por supuesto la opción Salir representa lo que su nombre indica. En cuanto al menú de Ayuda sólo hay que reseñar que dispone de dos opciones que son las siguientes: Ayuda de TEIDE. . . Acerca De. . .

La opción de Ayuda de TEIDE despliega la ayuda sobre la aplicación y la opción de Acerca De muestra una pequeña ventana al estilo de la de bienvenida en la que figuran los créditos de la aplicación así como una dirección web para conocer los desarrollos del proyecto Teide. Ver figura 6.2.

Figura 6.2: Acerca de...

6.2. Manejo de Metafiles 6.2.1. Crear un nuevo metafile Si elegimos la opción de Nuevo Metafile se nos abrirá un pequeño editor en el que podremos escribir un texto libre para formar nuestro metafile y luego guardarlo en la misma ventana con un nombre en disco. Ver figura 6.3.

75

6.2. MANEJO DE METAFILES

Figura 6.3: Nuevo metafile

6.2.2. Cargar un metafile existente La opción que normalmente se utilizará en el inicio de la aplicación será la de Abrir Metafile. Esta opción nos permite cargar en el sistema un metafile ya existente en disco. Una vez pulsada esta opción de menú, se nos abrirá una ventana en la que tendremos que seleccionar el metafile deseado. En esta ventana podremos navegar tanto por las unidades, directorios y ficheros, así como poder visualizar aquellos metafiles que hayamos seleccionado. Una vez que estemos seguros del metafile que queremos cargar, sólo nos queda apretar el botón de Aceptar. Ver figura 6.4.

Figura 6.4: Cargar metafile Esto desencadena el proceso de carga del metafile, lo que hace que aparezca una pequeña ventana a modo de LOG para ir especificando todas las tareas que se van realizando durante la fase de carga. Así, esta ventana de carga muestra la fecha y hora de inicio y de finalización del proceso de carga, así como si el proceso fue satisfactorio o no, junto con el detalle de cada una de las tareas que se están llevando a cabo con su hora correspondiente. Ver figura 6.5.

CAPÍTULO 6. MANUAL DE USUARIO

76

Figura 6.5: Cargando metafile

6.2.3. Cerrar un metafile cargado Una vez que haya sido cargado un metafile en la aplicación, la opción de Cerrar Metafile estará activa. El cometido de esta opción es simplemente cerrar el metafile cargado, liberando todos sus recursos y volviendo a la situación originaria de la aplicación para que se pueda volver a cargar un nuevo metafile.

6.3. Modelo de pestañas Esta aplicación está diseñada basándose en el modelo de pestañas. Esto quiere decir que la mayoría de sus componentes son pestañas en vez de ventanas independientes. Una pestaña no es más que una “ventana” pero con un anclaje permanente e inamovible. En la implementación desarrollada, existe una estrecha relación entre los conceptos de clase, proceso y pestaña, ya que cada clase implementada está situada en una pestaña, y su vez, cada proceso que se realiza genera una nueva pestaña, y por lo tanto, una nueva clase.

6.3.1. Flujo En cualquier caso, cuando un metafile se carga en el sistema, y el proceso ha sido satisfactorio, aparecen tres pestañas principales en la interface, que son: la pestaña de variables, la pestaña de microdatos y la pestaña de edits. Una vez con estas pestañas en la interface, podremos empezar a desarrollar el propio proceso de edición e imputación. A través de la opción de menú Proceder, podremos ir generando el resto de pestañas que quedan en la aplicación de una manera ordenada y con un flujo determinado. Para proceder con cada operación es necesario estar situado en la pestaña correspondiente en cada momento. Una vez situados sobre esa pestaña, podremos poner en marcha su proceso asociado. Cada operación sólo se podrá realizar una vez, y en el momento de pulsar la opción Proceder aparecerá una pequeña ventana indicando el progreso de la operación. Esta ventana contiene una barra de progreso típica de Windows, así como el nombre de la operación que se está llevando a cabo, el porcentaje completado y el número de elementos procesados, que en todos los casos que vamos a ver se corresponden con el número de registros. Una vez que la ventana de progreso ha llegado a su fin, ésta se cerrará automáticamente, mostrando la propia pestaña correspondiente a la operación. Para ver un ejemplo de ventana de progreso puede dirigirse a la

6.4. PESTAÑA DE VARIABLES

77

figura 6.6.

Figura 6.6: Progreso de evaluación de rangos En la tabla que hay a continuación se muestra la pestaña fuente sobre la que aplicaremos la opción Proceder para obtener la pestaña destino. Pestaña de Origen Variables Edits Microdatos Imputacion

Pestaña de Destino Rangos Test Imputacion Estadisticas

En las siguientes secciones, iremos explicando la estructura y funcionalidades de cada una de las pestañas que se han citado.

6.4. Pestaña de Variables Esta pestaña contiene toda la información relevante de las variables que se han cargado. Su objetivo es servir de referente para extraer cualquier información que se necesite sobre una determinada variable, y dentro de ella, sobre algún atributo en concreto. Ver figura 6.7.

6.4.1. Rejilla principal Esta rejilla contiene toda la información de las variables en forma tabular. Cada fila representa una variable y cada columna representa un atributo. La rejilla muestra directamente lo que hay en la tabla de variables de la base de datos ya explicada en la sección 5.3.3, con la única diferencia de que el tipo no está visualizado mediante códigos numéricos, sino con su literal asociado, para hacer más fácil su comprensión. Se ha implementado una funcionalidad dentro de esta rejilla, que permite el acceso a los mappings de las variables. Si hacemos doble click sobre alguna de las columnas de valores “missing”, véase “No procede”, “No sabe”, “No contesta”, “No sabe, No contesta, aparecerá una pequeña ventana indicando la relación entre los códigos numéricos y los literales asociados. Este también ocurre si hacemos doble click sobre el campo Mapping, con lo que también tendremos esta misma ventana indicando el mapping de la variable actual. Véanse las figuras 6.8 y 6.9.

6.4.2. Navegadores En la parte inferior de la pestaña, justo debajo de la rejilla principal, existe un panel con unos navegadores que nos permiten acceder de forma rápida a las variables y a los atributos.

6.4.3. Barra de estado Al pie de la pestaña, nos encontramos con una típica barra de estado, subdividida en dos regiones. Una primera región a la izquierda indica el número de variables y el número de atributos de cada variable. El número de variables sólo se refiere a las variables no alfanuméricas. Las

CAPÍTULO 6. MANUAL DE USUARIO

78

Figura 6.7: Pestaña de variables variables alfanuméricas son separadas y no intervienen en los procesos de edición e imputación. Y una segunda región a la derecha indica en qué variable nos encontramos actualmente. En este punto hay que reseñar un aspecto. Este puntero de la barra de estado indica el número ordinal de la variable dentro del conjunto total. Sin embargo el campo ID de la rejilla principal no tiene porqué coincidir con este valor ordinal, ya que, como se ha comentado, estos valores de la rejilla son extraídos directamente de la base de datos.

6.5. Pestaña de Microdatos Esta pestaña contiene el conjunto de microdatos que han sido cargados a partir del metafile en el sistema. Esta pestaña es algo más compleja que la anterior aunque sigue manteniendo prácticamente la misma estructura. Su objetivo fundamental es visualizar los microdatos y permitir una navegación por los mismos de manera sencilla. Ver figura 6.10.

6.5.1. Rejilla principal Esta rejilla contiene toda la información de los microdatos de manera tabular. Cada fila representa un registro y cada columna representa una variable. Los microdatos se muestran de manera numérica aunque ya veremos que se dispone de una funcionalidad para acceder a los literales asociados.

6.5. PESTAÑA DE MICRODATOS

79

Figura 6.8: Mapping de valores “missing”

Figura 6.9: Mapping de variable

6.5.2. Rejilla auxiliar Junto con la rejilla principal de microdatos, existe una pequeña rejilla debajo que contiene aquellas variables que son de tipo alfanumérico y que por lo tanto han sido separadas del resto para darles otro tratamiento. Esta pequeña rejilla sólo muestra los valores de estas variables alfanuméricas para el registro actual, de tal manera que si vamos cambiando de registro estos valores se actualizan.

6.5.3. Rejilla de variable A continuación de la rejilla de visualización de variables alfanuméricas, viene otra pequeña rejilla. Esta rejilla muestra los valores de los distintos atributos para la variable que está activa en la rejilla de microdatos, es decir, que cuando nos desplazamos por el conjunto de microdatos, esta rejilla actualiza sus valores en función del lugar en el que se encuentre la celda activa.

6.5.4. Navegadores En la parte inferior de la pestaña podemos encontrar un pequeño navegador, con la posibilidad de acceder a un determinado registro a través de su número ordinal y también la posibilidad de ir a una determinada variable a través de su nombre.

6.5.5. Cuadro de Mapping Como se citó anteriormente, los valores existentes en la rejilla principal no dejan de ser valores numéricos, pero a través de este cuadro de mapping podemos visualizar el valor literal correspondiente al valor numérico. Este valor del cuadro se va actualizando en función de dónde esté la celda activa en la rejilla principal. Para aquellas variables que no disponen de tablas de mapping, este cuadro muestra un mensaje de error.

80

CAPÍTULO 6. MANUAL DE USUARIO

Figura 6.10: Pestaña de microdatos

6.5.6. Barra de estado Al pie de la pestaña, nos encontramos con una típica barra de estado, subdividida en dos regiones. Una primera región a la izquierda indica el número de registros, el número de variables numéricas y el número de variables alfanuméricas. La región derecha indica en qué registro nos encontramos actualmente. Igual que en el caso de las variables, aquí también ocurre lo mismo con el caso del identificador y del puntero ordinal.

6.6. Pestaña de Edits La pestaña de edits permite la visualización y la gestión de los edits que existen en el sistema. La estructura de la pestaña está también basada en una rejilla principal de visualización pero con ciertas funciones añadidas. Sus objetivos principales son los de permitir una validación de los edits cargados, la actualización de los mismos y la consulta. Ver figura 6.11.

6.6.1. Rejilla principal En la rejilla principal están recogidos los edits que hay cargados en el sistema. En ella, cada fila representa un edit y cada columna un atributo de ese edit. Estos atributos están descritos en la sección 5.3.5. A medida que nos movemos por cada una de las filas (edits), toda la información de la pestaña se actualiza en función de esto.

81

6.6. PESTAÑA DE EDITS

Figura 6.11: Pestaña de edits Cuando algún edit tiene errores de validación, la fila correspondiente en la rejilla se pintará de color destacado.

6.6.2. Módulo de gestión de edits Este módulo está localizado en un panel en la parte inferior de la pestaña, donde podemos encontrar un cuadro de edición para el edit actual, tres botones correspondientes a las tareas básicas de gestión, que son modificación (MOD.), inserción (INS.) y borrado (BOR.), y también encontramos dos listas desplegables, una para las variables y otra para los operadores. A la hora de insertar un nuevo edit, hay que pulsar el botón INS. para crear una nueva entrada, escribir el edit en el cuadro de edición y pulsar la tecla ENTER para completar el proceso. Sería interesante rellenar el resto de atributos que componen el edit, sobre todo el campo de descripción ya que es de mucha ayuda para el posterior análisis. Pero este proceso tiene asociado unas funcionalidades de ayuda a la escritura del edit, ya que en las listas desplegables podremos seleccionar la variable que queremos introducir y el operador necesario. En cuanto al borrado, sólo tenemos que situarnos en la rejilla principal sobre aquel edit que queramos eliminar y pulsar el botón BOR. Para actualizar un edit, seguimos la misma estructura que en el borrado, es decir, nos situamos sobre aquel edit que vaya a ser modifcado, luego cambiamos lo que sea necesario sobre el cuadro de edición, para luego pulsar el botón MOD. o bien pulsar la tecla ENTER, para que los cambios tengan efecto.

82

CAPÍTULO 6. MANUAL DE USUARIO

6.6.3. Rejilla de variable Esta rejilla está íntimamente relacionada con el módulo de gestión de edits, ya que nos sirve para lo siguiente. Cuando seleccionamos una variable en la lista desplegable a la hora de insertar o modificar un edit, toda la información referente a esa variable se visualiza en esta rejilla, permitiendo conocer al usuario, sus posibles valores, rangos, etc.

6.6.4. Módulo de validación Este módulo de validación está compuesto prácticamente por dos elementos, una validación léxica y una validación sintáctica. Vienen representados por unos pequeños bitmaps, en forma de flecha verde si todo fue correcto, o de cruz roja si hubieron problemas. Por supuesto, tienen una vinculación directa con el módulo de gestión de edits, y también con la navegación por la rejilla principal. Cada vez que nos movemos entre edits, o modificamos o insertamos edits, las validaciones se actualizan en función del edit actual. La validación léxica de un edit indica si el edit es léxicamente correcto, o sea, si todos sus elementos son correctos, véase que los operadores son adecuados y que los nombres de variables están en el sistema. Por otro lado, la validación sintáctica de un edit indica si la estructura en la que se ha creado el edit es correcta, véase matching de paréntesis, estructuras IF - THEN, etc. Existe otro elemento que es la factibilidad. Este elemento está todavía en desarrollo, pero intenta descubrir si un determinado edit puede llegar a ser no factible. Realizando una evaluación exhaustiva de todos los posibles valores de las variables del edit, puede verse si un determinado edit no va a poder ser nunca factible. Este elemento funciona con variables discretas y sigue en estudio.

6.6.5. Navegadores A un lado de los controles de validación, existen una serie de navegadores para movernos por la rejilla principal de manera más eficiente. Existe un navegador que permite ir a un determinado edit a través de su número ordinal, y también tenemos un botón a través del cual podemos irnos moviendo por todos aquellos edits que están incorrectos.

6.6.6. Filtrado de edits En la misma posición en la que se encuentran los navegadores, existe un cuadro de edición para filtrar edits. Colocando un nombre de variable n el cuadro, y pulsando la tecla ENTER podremos ir accediendo de manera contínua a todos aquellos edits que contengan la variable especificada.

6.6.7. Barra de estado Por último, indicar que esta pestaña también dispone de una pequeña barra de estado que permite conocer el número total de edits, junto con los edits que han sido validados y los que no, y también un puntero que indica el número ordinal del edit que estamos visualizando en la rejilla, teniendo en cuenta los mismos aspectos comentados anteriormente sobre el campo de identificación presente en la rejilla principal.

6.7. PESTAÑA DE RANGOS

83

6.7. Pestaña de Rangos Esta pestaña se genera a partir de proceder desde la pestaña de variables. Como su nombre indica, esta pestaña presenta la información asociada a la evaluación de los rangos de las variables sobre los microdatos. Debe ser la primera pestaña generada por el usuario en la aplicación, y su objetivo es mostrar los resultados obtenidos en distintos formatos y permitir ciertas operaciones de exclusión, que ya se verán. Ver figura 6.12.

Figura 6.12: Pestaña de evaluación de rangos

6.7.1. Rejilla principal La rejilla principal dispone los registros por filas y las variables por columnas. Los valores que se pueden observar en la rejilla son valores "True" y "False" (estos en color rojo), correspondientes a verdadero y falso, respectivamente. Si partimos de un registro i y una variable j, la función de evaluación R(i, j) indicaría el valor existente en la celda [i, j] de la rejilla principal, y vendría definida de la siguiente manera: ( R(i, j) =

T rue Si el registro i cumple el rango j F alse en otro caso

(6.1)

La rejilla dispone en su segunda fila y columna, de los valores absolutos y relativos de errores encontrados durante la evaluación.

CAPÍTULO 6. MANUAL DE USUARIO

84

Si partimos de un registro i, la función E(i) sería el valor absoluto que veríamos en la fila i de la rejilla principal, y vendría definida de la siguiente manera:

E(i) =

m X ¡ ¢ R(i, h) = False

(6.2)

h=1

donde m representa el número de variables. Si partimos de una variable j, la función E(j) sería el valor absoluto que veríamos en la columna j de la rejilla principal, y vendría definida de la siguiente manera:

E(j) =

n X ¡ ¢ R(h, j) = False

(6.3)

h=1

donde n representa el número de registros. Los porcentajes asociados que aparecen junto con los valores absolutos, se calculan simplemente como el tanto por cien del valor de estas funciones. La rejilla principal dispone de un código de colores, para permitir identificar de manera más rápida registros y variables. La leyenda sería la siguiente: Color Naranja Azul

Explicación Registros o variables excluídos/as Registros o variables correctos/as

Una funcionalidad que ha sido implementada en la rejilla principal pensando en la navegación por la misma, es la de acceder de una manera rápida a aquellas evaluaciones falsas de los rangos. Situados sobre cualquier celda, podemos ir moviendonos a derecha, izquierda, arriba o abajo, hacia los valores incorrectos, pulsando la tecla ALT y los cursores correspondientes. Cuando la celda activa no se mueva más indicará que no existen más valores incorrectos en esa dirección.

6.7.2. Histograma de porcentajes de error En la zona central de la pestaña, existe un histograma en el que se visualizan los porcentajes de error comentados anteriormente. El histograma puede visualizar dos gráficas alternativas, que son las siguientes: 1. Histograma de porcentajes de error sobre registros. 2. Histograma de porcentajes de error sobre variables. Para cambiar de un histograma a otro, basta con hacer doble click en el título Porcentajes de Error del cuadro que contiene al histograma. Debido a la gran cantidad de datos que se manejan fue necesario paginar los histogramas, de tal manera que en cada momento en pantalla sólo se muestran 100 valores. Para acceder a los siguientes valores basta con hacer click en la zona derecha del histograma y para acceder a los anteriores valores basta con hacer click en la zona izquierda del histograma. El histograma de porcentajes de error viene a reflejar de manera gráfica los valores relativos calculados en la rejilla principal, pero lo hace de una manera indirecta. Es decir, en la gráfica, para cada valor en el eje X, existen dos barras de porcentajes. Una de ellas es el valor original del porcentaje de error (representado en color verde), y la otra es el valor actual del porcentaje de error después de haber llevado a cabo un proceso de exclusión tanto de variables como de

85

6.7. PESTAÑA DE RANGOS

registros que se verá en próximos apartados. En cualquier caso, el histograma sigue manteniendo el código de colores usado por la rejilla principal. Por último, comentar que la escala en el eje Y del histograma es de autoajuste, es decir, que sitúa su máximo en el máximo valor de todos los porcentajes de error que existen en la serie actual.

6.7.3. Sistema de Exclusión Justo debajo de la rejilla principal, aparece un pequeño panel con la funcionalidad de permitir la exclusión de registros y variables. El usuario debe introducir un porcentaje de umbral, de tal manera, que cuando se presione el botón Aplicar Exclusión, todos aquellos registros que tengan un porcentaje de error mayor que el umbral de registros serán excluidos, y todos aquellas variables que tengan un porcentaje de error mayor que el umbral de variables serán excluidas. Antes de haber realizado ningún tipo de exclusión, es posible que aparezcan los llamados registros excluidos a priori. Estos registros aparecen excluídos ya que contienen alguna variable cuyo rango es erróneo, y además esa variable está fijada como no imputable. De esta manera, el sistema detecta este hecho, y coloca el registro en cuestión como excluído, ya que no se puede arreglar un registro si la variable erróneo no es imputable. Además de esto, es posible excluir de manera individual, tanto los registros como las variables. Una vez situados sobre una celda [i, j] en la rejilla principal, podemos hacer click con el botón derecho del ratón, y tendremos un menú emergente para excluir el registro i o la variable j. Una vez que un registro o variable ha sido excluido, se recalculan los porcentajes del resto de registros y variables, pudiéndose en su caso, entrar en un proceso en el que otros registros o variables vayan disminuyendo sus porcentajes de error gracias a la exclusión de anteriores. Es muy importante indicar lo siguiente. Cuando una variable es excluida, todos los edits en los aparezca dicha variable son excluidos, por lo que se debe tener un cierto cuidado en estos procesos, ya que no sólo están siendo afectados edits explícitos, sino también edits de filtro. En la figura 6.12 se puede ver que no se ha aplicado ningún tipo de exclusión, mientras que en la figura 6.13 se observa que se ha aplicado una exclusión con un porcentaje del 20 % tanto en registros como en variables.

6.7.4. Rejilla de variable Esta rejilla es análoga a las rejillas de variable vistas con anterioridad, salvo en un detalle que es el filtro. Como ya se ha citado, la evaluación de rangos comprende el uso de los filtros para su cometido, por lo que son un elemento fundamental y deben ser tratados particularmente. La peculiaridad de esta rejilla de variable con respecto a otras, es que existe un código de colores para el campo Filtro. Este código de colores representa la evaluación del filtro sobre el microdato actual en la variable actual de la rejilla principal. El código de colores usado para el filtro es el siguiente: Color Blanco Rojo Naranja Azul

Explicación El filtro es correcto El filtro es incorrecto La condición del filtro es incorrecta, pero el filtro completo es correcto El filtro está excluído, es decir, es correcto

CAPÍTULO 6. MANUAL DE USUARIO

86

Figura 6.13: Pestaña de evaluación de rangos

6.7.5. Rejilla de registro Esta rejilla funciona de manera similar a la rejilla de variable, pero en este caso, a medida que nos movemos por la rejilla principal, en esta rejilla se actualizan los valores de los microdatos para el registro actual. Esta rejilla también dispone de un código de colores para indicar la vinculación de las variables con el resto de estructuras. El código de colores utilizado es el siguiente: Color Azul Rojo Amarillo

Explicación Variable actual en la rejilla principal con rango correcto Variable actual en la rejilla principal con rango incorrecto Variable incluida en el filtro de la variable actual

6.7.6. Navegadores Debajo de estas últimas rejillas, existe un panel en el que hay navegadores tanto de variables como de registros. Para acceder a un registro, lo hacemos a través de un cuadro de edición en el que introducimos el número ordinal del registro que queremos ver. Para acceder a una variable lo podemos hacer tanto a través del nombre como a través de su número ordinal (posición) dentro del conjunto de variables.

6.8. PESTAÑA DE TEST

87

6.7.7. Indicadores de edits involucrados En la parte izquierda del panel que contiene a los navegadores podemos encontrar los cuadros de edición que pretenden ser una referencia del número de edits en los que aparece una determinada variable. Cuando nos movemos por la rejilla principal cambiando de variable, estos valores se actualizan, y nos permiten ver el número de filtros y el número de edits explícitos en los que aparece la variable actual. No se incluyen aquí los edits de rangos, puesto que es sabido que todas las variables poseen un único edit de rango que les afecta. Estos datos le permiten al usuario hacerse una idea de lo importante que es una variable o de lo extendida que está, para cuando vaya a realizar tareas de exclusión.

6.7.8. Barra de estado La barra de estado se encuentra situada en la parte inferior de la pestaña, y se basa en mostrar el número ordinal de registro que tenemos activo, dentro del total, así como el ordinal de la variable que hay activa.

6.8. Pestaña de Test Esta pestaña se genera a partir de proceder desde la pestaña de edits. El objetivo de esta pestaña es mostrar los resultados obtenidos durante la fase de edición de edits explícitos, con un formato totalmente análogo al visto en el apartado anterior, es decir, una rejilla principal con los resultados de la evaluación y una serie de controles que facilitan las operaciones de seguimiento y análisis. Ver figura 6.14.

6.8.1. Rejilla principal La rejilla principal dispone los registros por filas y los edits por columnas. Los valores que se pueden observar en la rejilla son valores "True" y "False" (estos en color rojo), correspondientes a verdadero y falso, respectivamente. Si partimos de un registro i y un edit j, la función de evaluación T (i, j) indicaría el valor existente en la celda [i, j] de la rejilla principal, y vendría definida de la siguiente manera: ( T rue Si el registro i cumple el edit j T (i, j) = F alse en otro caso

(6.4)

La rejilla dispone en su segunda fila y columna, de los valores absolutos y relativos de errores encontrados durante la evaluación. Si partimos de un registro i, la función E(i) sería el valor absoluto que veríamos en la fila i de la rejilla principal, y vendría definida de la siguiente manera: m X ¡ ¢ E(i) = R(i, h) = False

(6.5)

h=1

donde m representa el número de edits. Si partimos de un edit j, la función E(j) sería el valor absoluto que veríamos en la columna j de la rejilla principal, y vendría definida de la siguiente manera:

CAPÍTULO 6. MANUAL DE USUARIO

88

Figura 6.14: Pestaña de evaluación de edits explícitos

n X ¡ ¢ R(h, j) = False E(j) =

(6.6)

h=1

donde n representa el número de registros. Los porcentajes asociados que aparecen junto con los valores absolutos, se calculan simplemente como el tanto por cien del valor de estas funciones. La rejilla principal dispone de un código de colores, para permitir identificar de manera más rápida registros y variables. La leyenda sería la siguiente: Color Naranja Azul

Explicación Registros o edits excluídos/as Registros o edits correctos/as

Una funcionalidad que ha sido implementada en la rejilla principal pensando en la navegación por la misma, es la de acceder de una manera rápida a aquellas evaluaciones falsas de los test. Situados sobre cualquier celda, podemos ir moviendonos a derecha, izquierda, arriba o abajo, hacia los valores incorrectos, pulsando la tecla ALT y los cursores correspondientes. Cuando la celda activa no se mueva más indicará que no existen más valores incorrectos en esa dirección.

6.8.2. Histograma de porcentajes de error En la zona central de la pestaña, existe un histograma en el que se visualizan los porcentajes de error comentados anteriormente. El histograma puede visualizar dos gráficas alternativas, que

6.8. PESTAÑA DE TEST

89

son las siguientes: 1. Histograma de porcentajes de error sobre registros. 2. Histograma de porcentajes de error sobre edits. Para cambiar de un histograma a otro, basta con hacer doble click en el título Porcentajes de Error del cuadro que contiene al histograma. Debido a la gran cantidad de datos que se manejan, fue necesario paginar los histogramas, de tal manera que en cada momento en pantalla sólo se muestran 100 valores. Para acceder a los siguientes valores basta con hacer click en la zona derecha del histograma y para acceder a los anteriores valores basta con hacer click en la zona izquierda del histograma. El histograma de porcentajes de error, viene a reflejar de manera gráfica los valores relativos calculados en la rejilla principal, pero lo hace de una manera indirecta. Es decir, en la gráfica, para cada valor en el eje X, existen dos barras de porcentajes. Una de ellas es el valor original del porcentaje de error (representado en color verde), y la otra es el valor actual del porcentaje de error después de haber llevado a cabo un proceso de exclusión tanto de variables como de registros que se verá en próximos apartados. En cualquier caso, el histograma sigue manteniendo el código de colores usado por la rejilla principal. Por último, comentar que la escala en el eje Y del histograma es de autoajuste, es decir, que sitúa su máximo en el máximo valor de todos los porcentajes de error que existen en la serie actual.

6.8.3. Sistema de Exclusión Justo debajo de la rejilla principal, aparece un pequeño panel con la funcionalidad de permitir la exclusión de registros y edits. El usuario debe introducir un porcentaje de umbral, de tal manera, que cuando se presione el botón Aplicar Exclusión, todos aquellos registros que tengan un porcentaje de error mayor que el umbral de registros serán excluidos, y todos aquellos edits que tengan un porcentaje de error mayor que el umbral de edits serán excluidos. De manera similar al caso de la exclusión en rangos, aquí también aparecen registros excluídos a priori, pero también edits excluídos a priori. El conjunto de registros excluídos a priori es el conjunto de registros excluídos en la evaluación de rangos, y el conjunto de edits excluídos a priori, es el conjunto que resulta de excluir todos aquellos edits que contengan alguna variable que ha sido excluída en el proceso de evaluación de rangos. Además de esto, es posible excluir de manera individual, tanto los registros como los edits. Una vez situados sobre una celda [i, j] en la rejilla principal, podemos hacer click con el botón derecho del ratón, y tendremos un menú emergente para excluir el registro i o el edit j. Una vez que un registro o edit ha sido excluido, se recalculan los porcentajes del resto de registros y edits, pudiéndose en su caso, entrar en un proceso en el que otros registros o edits vayan disminuyendo sus porcentajes de error gracias a la exclusión de anteriores. En la figura 6.14 se puede ver que no se ha aplicado ningún tipo de exclusión, salvo la que viene implícita desde la evaluación de rangos, mientras que en la figura 6.15 se observa que se ha aplicado una exclusión con un porcentaje del 20 % tanto en registros como en edits.

6.8.4. Rejilla de registro Esta rejilla está situada justo debajo del histograma del porcentajes de error, y permite la visualización en cada momento de todos los valores del registro actual, es decir, del registro con la celda activa de la rejilla principal.

CAPÍTULO 6. MANUAL DE USUARIO

90

Figura 6.15: Pestaña de evaluación de edits explícitos

6.8.5. Cuadro de edit En la parte inferior de la pestaña, al lado de los navegadores, tenemos un cuadro de texto que nos permite conocer el cada momento el edit completo que estamos seleccionando en la rejilla principal. A medida que nos movemos por los distintos edits, este cuadro se va actualizando con el propio texto del edit.

6.8.6. Navegadores Debajo de la rejilla de registro, existe un panel en el que hay navegadores tanto de registros como de edits. Para acceder a un registro, lo hacemos a través de un cuadro de edición en el que introducimos el número ordinal del registro que queremos ver. Para acceder a una variable el procedimiento es igual, aunque ahora lo haremos mediante el ordinal del edit al que queramos acceder.

6.8.7. Barra de estado La barra de estado se encuentra situada en la parte inferior de la pestaña, y se basa en mostrar el número ordinal de registro que tenemos activo, dentro del total, así como el ordinal del edit que hay activo.

6.9. PESTAÑA DE IMPUTACIÓN

91

6.9. Pestaña de Imputación Esta pestaña se genera a partir de proceder desde la pestaña de microdatos. Esta pestaña es la pestaña más compleja que existe en el sistema, tanto por la cantidad de información que se muestra al usuario, como por la importancia que tiene. El fin último del sistema es llevar a cabo la imputación, y es aquí dónde se nos muestran los resultados de la misma, así como otros muchos datos cuantitavos del proceso. Ver figura 6.16

Figura 6.16: Pestaña de imputación

6.9.1. Rejilla principal La rejilla principal es idéntica a la rejilla principal que existe en la pestaña de microdatos, es decir, dispone los registros por filas y las variables por columnas. Cada celda tiene el valor del microdato para un registro y una variable concretos, pero la diferencia radica en que en esta rejilla están ya presentes los valores que se han imputado. La rejilla principal dispone de un código de colores para permitir identificar de manera más rápida cuál ha sido el tratamiento que se le ha dado al microdato que se visualiza. Este código es el siguiente: Color Blanco Amarillo Azul Naranja

Explicación Microdato original Microdato imputado Registro donante Registro/variable excluído/a

92

CAPÍTULO 6. MANUAL DE USUARIO

Una funcionalidad que ha sido implementada en la rejilla principal pensando en la navegación por la misma, es la de acceder de una manera rápida a aquellos microdatos que han sido imputados. Situados sobre cualquier celda, podemos ir moviéndonos a derecha, izquierda, arriba o abajo, hacia los valores imputados, pulsando la tecla ALT y los cursores correspondientes. Cuando la celda activa no se mueva más indicará que no existen más valores imputados en esa dirección.

6.9.2. Leyenda Debajo de la rejilla principal, existe un pequeño panel, con el código de colores que se ha explicado en el apartado anterior, para facilitar la interpretación de los resultados.

6.9.3. Sistema de volcado A un lado de la leyenda, encontramos unos controles orientados al volcado de los microdatos imputados sobre la base de datos. Dado que los microdatos originales de entrada han sido cargados a partir de una o varias tablas, el sistema intenta volcar los microdatos imputados en el mismo formato. O sea, generando el mismo número de tablas que en la entrada, y respetando los formatos de esas tablas. Para llevar a cabo el volcado sólo hay que especificar en el cuadro de Sufijo de volcado una cadena que será añadida a los nombres de las tablas de entrada, y dónde se volcarán los microdatos imputados una vez que se pulse el botón Volcar Imputación.

6.9.4. Registros donantes Debajo de este panel que contiene la leyenda y el sistema de volcado, nos encontramos con una serie de controles destinados a la gestión y análisis de los distintos registros donantes. En primer lugar, tenemos un navegador de registros donantes, que nos permite ir accediendo a los distintos registros donantes que existen en el sistema, pero que está inicialmente fijado al registro donante para el registro actual que hay seleccionado en la rejilla principal. A través de una rejilla de registro, podemos ir visualizando los valores de cada registro donante, a medida que nos desplazamos con el navegador. Esta rejilla utiliza el color azul para mostrar la variable activa en la rejilla principal. En el sitema de registros donantes, también existe un contador que indica el número ordinal de registro donante que estamos visualizando en función del número total. En próximos apartados se hablará de la metodología de registro donante aplicada en el sistema, y se hablará de los registros donantes y de su tratamiento. En cualquier caso, a través del navegador nos movemos por los distintos registros donantes existentes, y podemos cambiar el registro donante a otro distinto pulsando el botón Cambiar Registro Donante. Cuando se lleva a cabo esta operación, se pone en marcha el proceso de donación que se explicará más adelante, para que el registro incorrecto tome sus valores. Por último, en este sistema existen dos medidas que relacionan el registro donante con el registro incorrecto al que le han sido donados determinados valores. Estas medidas son la distancia exterior y la distancia interior que son conceptos que se verán en la metodología aplicada.

6.9.5. Rejilla de variable Para permitir un mayor seguimiento y análsis, la pestaña dispone de una rejilla de variable situada justo debajo del sistema de registros donantes, que muestra los atributos de la variable

6.10. PESTAÑA DE ESTADÍSTICAS

93

activa en la rejilla principal. De esta manera, a medida que vamos cambiando de variable en la rejilla principal, veremos cómo se van actualizando los datos en la rejilla de variable.

6.9.6. Cuadro de microdato original En la parte inferior derecha de la pestaña, nos encontramos con un cuadro que sirve para visualizar el valor original que tenía una determinada variable sobre un registro, para aquellos valores que han sido imputados. De esta manera, existe un mecanismo rápido para acceder al valor original de una variable imputada.

6.9.7. Información de registro imputado Justo al lado del cuadro de microdato original, el panel cuenta con tres cuadros de edición, que permiten conocer ciertos datos referentes a la imputación que se le ha practicado al registro actual de la rejilla principal. Estos datos son: el número de variables básicas a imputar, el número de variables extendidas a imputar y el número de variables imputadas. Todos estos conceptos se aclararán más adelante.

6.9.8. Navegadores De igual modo que en todas las pestañas anteriores, en la parte inferior izquierda de la pestaña, existe un navegador para acceder al registro deseado a través de su número ordinal y un navegador para acceder a la variable deseada a través de su nombre.

6.9.9. Barra de estado Al pie de la pestaña, nos encontramos con una típica barra de estado, subdividida en dos regiones. Una primera región a la izquierda indicando el número de registros y el número de variables numéricas. La región derecha indica en qué registro nos encontramos actualmente.

6.10. Pestaña de Estadísticas Una vez que los microdatos han sido imputados, podemos proceder sobre la pestaña de imputación para obtener esta pestaña de estadísticas. Esta pestaña recoge toda la información generada durante el proceso completo de edición e imputación de datos, para servir como respaldo cuantitativo a las decisiones tomadas y por tomar. La pestaña se basa en un informe tipo texto plano, separado por secciones, donde se va haciendo referencia a los distintos procesos que se han realizado hasta llegar a la imputación final. Ver figura 6.17.

6.10.1. Informe Prácticamente en su totalidad, la pestaña está tomada por un cuadro de texto que recoge la información derivada de los procesos ejecutados. A continuación se muestra una pequeña tabla en la que se recogen las secciones descritas en el informe y un pequeño resumen de su contenido.

CAPÍTULO 6. MANUAL DE USUARIO

94

Figura 6.17: Pestaña de estadísticas Sección Variables Microdatos Edits Rangos Test Imputación Listado Rangos Listado Filtros Listado Edits Incumplimiento Edits Edits en Variables Exclusión Comparativa estadística

Explicación Información a priori del conjunto de variables cargadas en el sistema Información a priori del conjunto de microdatos cargados en el sistema Información a priori del conjunto de edits cargados en el sistema Información sobre el proceso de edición de rangos Información sobre el proceso de edición de edits explícitos Información sobre el proceso de imputación de microdatos Listado de todos los edits de rango en notación matemática Listado de todos los edits de filtro en notación completa Listado de todos los edits explícitos en notación completa Relación de los edits erróneos en cada registro Relación de las variables que presentan los edits Listado de variables, edits y registros excluídos Frecuencias de variables antes y después de la imputación

6.10.2. Panel de guardar informe El otro elemento que queda pendiente en la pestaña, es un panel que permite almacenar el informe en un fichero de disco. Podemos seleccionar el fichero que queremos pulsando el botón Selccionar Fichero, para luego salvar los datos en el fichero elegido a través del botón Guardar.

Cap´ıtulo

7

Experiencias computacionales Aunque Teide no ha sido probado aún con datos reales de encuestas, sí que ha sido probado y depurado con de datos “casi reales”, que representaba una muestra muy pequeña de la ecuesta EICVHC 2004, explicada en el capítulo 2. En este apartado daremos una descripción de las variables, microdatos y edits que constituyen este conjunto de muestra, así como los resultados computacionales de la edición e imputación generada por la aplicación. Es importante reseñar que este conjunto de datos casi reales contiene un alto grado de errores, lo que provoca dos consecuencias contrapuestas: por un lado nos permite detectar errores en el sistema e irlos depurando, pero por otro lado no permite un análisis fiable de los resultados que genera la aplicación, dado el elevado número de incoherencias que presentan los microdatos. Los resultados computacionales se han obtenido utilizando un ordenador personal con un procesador Intel Pentium a 2.4Ghz y 512Mb de memoria RAM. La aplicación ha sido ejecutada sobre un sistema Windows XP (2002).

7.1. Descripción del conjunto de datos En esta sección vamos a dar una descripción cuantitativa del conjunto de datos sobre el que estamos trabajando, mostrando detalles del conjunto de variables, de microdatos y de edits.

7.1.1. Variables 1. Número de variables numéricas = 247. 2. Número de variables alfanuméricas = 8. 3. Número de atributos = 12. 4. Tipos de variables. a) Continuas = 29 (11.74 %). b) Discretas en rango = 90 (36.44 %). c) Discretas en lista = 128 (51.82 %). d ) Alfanuméricas = 8 (3.24 %). 5. Admisión de valores “missing”. 95

CAPÍTULO 7. EXPERIENCIAS COMPUTACIONALES

96

a) No procede = 228 (92.31 %). b) No sabe = 2 (0.81 %). c) No contesta = 6 (2.43 %). d ) No sabe/No contesta = 2 (0.81 %). 6. Existencia de filtros = 255 (91.09 %). 7. Variables imputables = 234 (94.74 %).

7.1.2. Microdatos 1. Número de registros = 73. 2. Número de registros x Número de variables = 18031. 3. Existencia de valores “missing”. a) No procede = 11104 (61.58 %). b) No sabe = 3 (0.02 %). c) No contesta = 261 (1.45 %). d ) No sabe/No contesta = 6 (0.03 %).

7.1.3. Edits 1. Número de edits = 57. 2. Edits validados = 57 (100 %). 3. Edits no validados = 0 (0 %). 4. Edits factibles = 57 (100 %). 5. Edits no factibles = 0 (0 %).

7.2. Evaluación de rangos Una vez descritos los elementos de entrada a la aplicación, vamos a continuación a mostrar los datos obtenidos en la evaluación de rangos sobre el conjunto de microdatos. 1. Tiempo de proceso = 1.81s. 2. Porcentaje de exclusión de variables aplicado = 20 %. 3. Porcentaje de exclusión de registros aplicado = 20 %. 4. Registros. a) Número de registros excluidos a priori = 3 (4.10 %). b) Número de registros excluidos a posteriori = 1 (1.36 %). c) Número de registros correctos = 28 (38.35 %). d ) Número de registros incorrectos = 41 (56.14 %).

7.3. EVALUACIÓN DE EDITS

97

5. Variables. a) Número de variables excluidas a priori = 0 (0 %). b) Número de variables excluidas a posteriori = 7 (2.83 %). c) Número de variables correctas = 161 (65.18 %). d ) Número de variables incorrectas = 79 (31.98 %).

7.3. Evaluación de edits De manera análoga a la sección anterior, vamos a mostrar los resultados computacionales obtenidos en la evaluación de edits explícitos sobre el conjunto de microdatos: 1. Tiempo de proceso = 0.71s. 2. Porcentaje de exclusión de edits aplicado = 20 %. 3. Porcentaje de exclusión de registros aplicado = 20 %. 4. Registros. a) Número de registros excluidos a priori = 4 (1.61 %). b) Número de registros excluidos a posteriori = 0 (0 %). c) Número de registros correctos = 57 (23.07 %). d ) Número de registros incorrectos = 12 (4.85 %). 5. Edits. a) Número de edits excluidos a priori = 30 (52.63 %). b) Número de edits excluidos a posteriori = 2 (3.50 %). c) Número de edits correctos = 17 (29.82 %). d ) Número de edits incorrectos = 8 (14.03 %).

7.4. Imputación Una vez realizadas las fases de evaluación de rangos y edits explícitos, a continuación se muestran los resultados computacionales obtenidos de la imputación propiamente dicha. Para mostrar los distintos resultados que se obtienen, vamos a utilizar dos criterios de ordenación de registros donantes: ordenación por distancia interior y ordenación por distancia exterior.

7.4.1. Ordenación por distancia interior En este caso, el algoritmo de imputación toma como registro donante aquel registro que se encuentre más cercano a uno dado teniendo en cuenta la distancia de las variables básicas de imputación, es decir, la distancia interior. Los resultados son los siguientes: 1. Tiempo de proceso = 6.20s. 2. Número de registros donantes = 27 (36.98 %).

CAPÍTULO 7. EXPERIENCIAS COMPUTACIONALES

98

3. Número de registros excluídos = 4 (5.47 %). 4. Número de registros correctos = 42 (57.53 %). 5. Número de registros incorrectos = 0 (0 %). 6. Número medio de variables imputadas por registro = 8.40. A continuación se muestra una tabla resumen de todos los registros que intervienen en el proceso, indicando varios parámetros en cada caso. Cuadro 7.1: Resultados con distancia interior mi

mj

|vbas (i)|

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

2

1

28

10

28 28 19 2 2

3 3 10 1 1

2

5

2

3

2

2

2

2

2

3

22 22 2 2 24

5 5 6 3 4

2 2

4 5

|vext (i)|

dint (i, j)

dext (i, j)

|vimp (i)|

221 1 32 1 Registro Donante 212 9 60 1 Registro Excluido Registro Donante 219 2 39 1 219 2 41 1 212 9 105 3 221 1 46 1 221 1 44 1 Registro Donante Registro Donante 217 2 55 1 Registro Donante 219 3 39 1 Registro Donante 220 2 43 1 Registro Donante Registro Donante Registro Donante 220 2 47 1 Registro Donante Registro Donante Registro Donante 219 2 73 1 Registro Donante Registro Donante Registro Donante 217 4 68 72 217 3 74 1 216 6 46 1 219 3 42 1 218 3 67 1 Registro Excluido Registro Donante 218 4 43 1 217 3 46 1 Registro Excluido Continua en la siguiente página. . .

99

7.4. IMPUTACIÓN mi 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73

mj

|vbas (i)|

12 28 2

7 5 4

2 24

3 18

2 22 45 2 2 2

9 11 26 14 5 7

2

4

59 22 24 24

9 4 10 9

24 24 2 2 2 2

3 2 7 8 9 2

28

10

|vext (i)| dint (i, j) dext (i, j) Registro Donante Registro Donante Registro Donante 215 6 57 217 4 53 218 4 50 Registro Donante 219 3 47 204 15 69 Registro Donante 213 9 38 211 9 68 196 22 52 208 14 58 217 4 49 215 6 38 Registro Donante Registro Donante Registro Donante 218 3 50 Registro Donante Registro Donante 213 5 58 218 2 73 212 7 78 214 8 81 Registro Donante 219 2 75 220 1 85 215 7 78 214 8 43 213 9 38 220 2 47 Registro Excluido 212 8 23

|vimp (i)|

3 3 2 1 16 1 9 70 72 1 1

1

63 1 4 3 1 1 3 1 1 1 2

En la tabla 7.1 mi es el registro de estudio, mj es su donante y vimp (i) es el conjunto de variables imputadas en el registro mi . El resto de parámetros ya fueron explicados en apartados anteriores. Es importante reseñar la aparición en esta tabla de algunos valores outliers que desvirtuan algo el resto de registros. Estos registros son los números 29, 51, 52 y 61. Si obviáramos estos registros anómalos, la media de variables imputadas por registro descendería a 2.0

7.4.2. Ordenación por distancia exterior En este caso, el algoritmo de imputación toma como registro donante aquel registro que se encuentre más cercano a uno dado teniendo en cuenta la distancia de las variables extendidas de imputación, es decir, la distancia exterior. Los resultados son los siguientes: 1. Tiempo de proceso = 5.23s.

CAPÍTULO 7. EXPERIENCIAS COMPUTACIONALES

100

2. Número de registros donantes = 27 (36.98 %). 3. Número de registros excluídos = 4 (5.47 %). 4. Número de registros correctos = 42 (57.53 %). 5. Número de registros incorrectos = 0 (0 %). 6. Número medio de variables imputadas por registro = 6.29. A continuación se muestra una tabla resumen de todos los registros que intervienen en el proceso, indicando varios parámetros en cada caso. Cuadro 7.2: Resultados con distancia exterior mi

mj

|vbas (i)|

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

2

1

5

10

27 27 24 11 11

3 3 10 1 1

27

5

35

3

16

2

20

2

24

3

28 35 11 11 27

5 5 6 3 4

26 65

4 5

|vext (i)|

dint (i, j)

dext (i, j)

|vimp (i)|

221 1 32 1 Registro Donante 212 10 32 1 Registro Excluido Registro Donante 219 3 34 1 219 3 38 1 212 10 55 3 221 1 30 1 221 1 28 1 Registro Donante Registro Donante 217 2 35 4 Registro Donante 219 3 31 1 Registro Donante 220 2 28 1 Registro Donante Registro Donante Registro Donante 220 2 30 1 Registro Donante Registro Donante Registro Donante 219 2 52 1 Registro Donante Registro Donante Registro Donante 217 5 39 2 217 4 36 1 216 6 31 1 219 3 35 1 218 4 36 1 Registro Excluido Registro Donante 218 4 34 1 217 3 33 1 Continua en la siguiente página. . .

101

7.5. COMENTARIOS mi 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73

mj

|vbas (i)|

11 35 11

7 5 4

65 28

3 18

48 35 48 27 16 16

9 11 26 14 5 7

57

4

28 35 48 27

9 4 10 9

27 65 12 57 11 65

3 2 7 8 9 2

27

10

|vext (i)| dint (i, j) dext (i, j) Registro Excluido Registro Donante Registro Donante Registro Donante 215 6 37 217 5 47 218 4 29 Registro Donante 219 3 40 204 16 37 Registro Donante 213 9 31 211 10 36 196 26 45 208 14 31 217 4 33 215 6 35 Registro Donante Registro Donante Registro Donante 218 3 19 Registro Donante Registro Donante 213 9 42 218 3 35 212 8 35 214 9 35 Registro Donante 219 3 37 220 2 35 215 7 48 214 8 30 213 9 32 220 2 40 Registro Excluido 212 9 21

|vimp (i)|

3 3 2 1 17 1 10 68 14 1 1

1

50 1 3 2 1 1 54 1 1 1 2

En la tabla 7.2 mi es el registro de estudio, mj es su donante y vimp (i) es el conjunto de variables imputadas en el registro mi . El resto de parámetros ya fueron explicados en apartados anteriores. Es importante reseñar la aparición en esta tabla de algunos valores outliers que desvirtuan algo el resto de registros. Estos registros son los números 51, 61 y 68. Si obviáramos estos registros anómalos, la media de variables imputadas por registro descendería a 2.42

7.5. Comentarios Algunos comentarios sobre los datos obtenidos son los siguientes: 1. La ordenación de los registros donantes por la distancia exterior da mejores resultados que por la distancia interior. Esto se puede comprobar tanto en tiempo de proceso como en

102

CAPÍTULO 7. EXPERIENCIAS COMPUTACIONALES número medio de variables imputadas por registro.

2. El proceso de evaluación de edits explícitos toma menos de la mitad de tiempo que toma la evaluación de rangos, y esto se debe en gran medida a que un número elevado de los edits han sido eliminados, ya que fueron eliminadas algunas variables en la evaluación de rangos, y por tanto se eliminan los edits asociados. 3. Sin tener en cuenta los outliers, la gran mayoría de registros se arreglan mediante imputación de aproximadamente 2 variables, un valor significativo. El valor óptimo sería conseguir tocar sólo 1 variable para arreglar el registro, aunque esto no es siempre posible. 4. El cardinal de las componentes conexas de la mayoría de las variables es un valor muy alto (ver tablas 7.1 y 7.2), próximo al número de variables, y esto hace que la resolución del problema sea más compleja ya que hay una mayor interconexión y las perturbaciones que se introducen en las variables pueden afectar en mayor medida a otros edits. 5. Fue necesario aplicar un 20 % de exclusión en variables y edits para poder ampliar el número de registros donantes. Dejando el porcentaje original, el número de registros donantes hubiera sido cuatro, mientras que con este porcentaje de exclusión hemos conseguido 27 (un valor aceptable). Esto se debe a que esta encuesta piloto contiene determinadas variables con un alto grado de presencia en edits pero a la vez con un alto grado de errores.

Cap´ıtulo

8

Conclusiones y Futuro La edición e imputación de datos estadísticos es un proceso necesario en cualquier instituto de estadística que consume bastantes recursos si no está dotado de una herramienta que automatice parte de este proceso. El desarrollo e implementación de un software informático no es tampoco tarea fácil, y debe ir enriqueciéndose con la experiencia que proporciona su tratamiento de distintos conjuntos de datos. Éste ha sido el eje básico de trabajo para este proyecto. El desarrollo de Teide ha estado basado en todo momento en el método de imputación por el registro donante. Esto implica que se tiene asegurado que los datos imputados van a mantener ciertas características estadísticas básicas, ya que no se están incorporando combinaciones artificiales de valores. Sin embargo, a través de las experiencias computacionales que se han ido desarrollando, como la que está detallada en el capítulo 7, se puede observar que hay determinados casos para los que esta metodología no ofrece buenos resultados porque cambia un gran número de valores en algunos registros. Por lo tanto, es necesario tener en cuenta que los algoritmos de imputación basados en el registro donante que se están utilizando deben contemplar ciertos aspectos heurísticos que eviten la casuística que generan determinados registros en algunos conjuntos de datos. Este aspecto abre nuevas líneas de trabajo para el futuro inmediato. Como se ha citado en este documento, la edición e imputación de datos estadísticos es un problema difícil de resolver. De forma breve, la solución a este problema estaría en poder conocer “qué es lo que quiso responder el informante en aquella pregunta”. Partiendo de esta base, Teide pretende ser un sistema informático que busca la respuesta en vecinos parecidos al susodicho informante. Este sistema informático es más que un depurador de datos, ya que permite al técnico estadístico un estudio pormenorizado de cada caso a través de las reglas definidas en la entrada al programa. Su filosofía se basa en ser un sistema flexible, capaz de admitir a trámite cualquier encuesta siempre y cuando sus elementos estén correctamente definidos en un formato específico. Teide se ha beneficiado mucho de la colaboración con el ISTAC. Esta colaboración ha sido imprescindible ya que el contacto con una organización que cada día se enfrenta a nuevos retos de carácter estadístico y que maneja un volumen de datos tan grande, nos ha planteado nuevas metas y nos ha inspirado nuevos mecanismos de resolución, lo que ha repercutido en una mejora de la aplicación. La transformación que ha ido experimentando el programa Teide en función de las nuevas aportaciones que iba generando el tratamiento de los datos ha sido enorme. El futuro de Teide es seguir enriqueciéndose de la colaboración entre técnicos de la universidad y técnicos del ISTAC. Estamos ante un proyecto necesario y ambicioso que requiere de tiempo de desarrollo y aplicación porque es una herramienta útil y compleja para cualquier encuesta. Aunque por una parte creemos que Teide es ya una sofisticada herramienta, por otra 103

104

CAPÍTULO 8. CONCLUSIONES Y FUTURO

se es consciente de que necesita mejorar en muchos aspectos. Por un lado, la aplicación debe intentar reducir los tiempos de procesamiento. Para ello habrá que pensar en mejoras en los algoritmos de evaluación de las expresiones y en las estructuras de datos. Por otro lado, hay que simplificar los formatos de entrada de datos para que el sistema pueda ser utilizado por una amplia mayoría de usuarios. Y por último, mejorar poco a poco los procedimientos de imputación que se están utilizando. La experiencia y el conocimiento de gran variedad de casos va a permitir ir añadiendo nuevas funcionalidades que cubran los nuevos aspectos que se presentan. En resumen, el objetivo es buscar una aplicación más rápida, más flexible y más fiable.

Bibliografía

[1] Álamo Santana, F. y González Yánez, A. (2004). “Planificación y diseño de encuestas: Encuesta de Ingresos y Condiciones de Vida de los Hogares Canarios”. ISTAC. [2] Aparicio, F., Feito J. M., Quesada, J. y Revilla P. (2003). “Curso de depuración de datos cuantitativos”. INE. [3] Fellegi, I. P. y D. Holt (1976). “A systematic approach to automatic edit and imputation”. Journal of the American Statistical Association. [4] García Rubio, E. (1995). “DIA v.2”. INE. [5] Garfinkel, R. S., A. S. Kunnathur y G. E. Liepins (1986). “Optimal imputation of erroneous data: continuous data, linear constraints”. Operations Research. [6] Puerta Goicoechea, A. (2002). “Imputación basada en árboles de ramificación”. EUSTAT. [7] Riera, J. y Salazar J.J. (2004). “A Branch-and-Cut Algorithm for the Editing-andImputation Problem”. Documento de trabajo. Universidad de La Laguna. [8] Villán Criado, I. y Bravo Cabria, M. S. (1990). “Procedimiento de depuración de datos estadísticos”. EUSTAT. [9] de Waal, A. G. (2003). “Processing of Erroneous and Unsafe Data”. Ph.D. Erasmus University Rotterdam. [10] Winkler, W. (1999). “State of statistical data editing and current research problems”. Proceedings of the Conference of European statisticians, UNECE work session on statistical Data Editing.

➜ Este documento fue elaborado utilizando LATEX. 105