Instituto de Estudios Fiscales
Técnicas de difusión de grandes bases de datos La difusión censal abre una nueva ventana en las bases de datos del sistema estadístico público.
1
Instituto de Estudios Fiscales
Índice 1. El Instituto Nacional de Estadística. 2. La estadística pública: una fuente de conocimiento en la sociedad de la información 3.- Objetivos de la difusión de los Censos de Población y Viviendas de 2001 4. Revisión de las tecnologías disponibles para la difusión de datos estadísticos 5. La madurez tecnológica de los sistemas BI/DW 6. Contrucción de un sistema de consulta on-line basado en tecnología BI/DW 7. El sistema de información construido 8. Que hemos aprendido
2
Instituto de Estudios Fiscales
1
El Instituto Nacional de Estadística
3
Instituto de Estudios Fiscales
El Instituto Nacional de Estadística. “INE” •
El Instituto Nacional de Estadística es un organismo autónomo de la Administración central del Estado adscrito al Ministerio de Economía.
• Realiza la parte mas significativa de la actividad estadística pública en España, y en particular las operaciones estadísticas de gran envergadura (censos demográficos y económicos, cuentas nacionales, estadísticas demográficas y sociales, indicadores económicos y sociales, coordinación y mantenimiento de los directorios de empresas, formación del Censo Electoral...) • Además, la ley atribuye al INE las siguientes funciones: – La redacción del Plan Estadístico Nacional con la colaboración de los
Departamentos Ministeriales y del Banco de España;
– La propuesta de normas comunes sobre conceptos, unidades estadísticas,
clasificaciones y códigos; – Las relaciones en materia estadística con los Organismos Internacionales
especializados y, en particular, con la Oficina de Estadística de la Unión Europea (EUROSTAT) 4
Instituto de Estudios Fiscales
Instituto Nacional de de Estadística. “INE” Instituto Nacional Estadística. “INE” • 3000 empleados (incluyendo su propia red de trabajos de campo, -encuestadores-) • 800 técnicos medios y superiores • aprox. 150.000.000 euros de presupuesto anual • Oficinas centrales y en las 50 provincias • Importante: las oficinas estadísticas de las Comunidades Autonómas no forman parte del INE, aunque el INE mantiene convenios de colaboración con ellas 5
Instituto de Estudios Fiscales
Instituto Nacional de de Estadística. “INE” Instituto Nacional Estadística. “INE” • Goza de competencias y capacidad técnica para: – La preservación del secreto estadístico – Garantizar su neutralidad operativa _ Realizar la mayor parte de las tareas de campo
6
Instituto de Estudios Fiscales
Instituto Nacional de Estadística. “INE” La unidad de difusión estadística en el INE Comisión Interministerial de Estadística
Presidencia Delegaciones Provinciales y Delegaciones de Ceuta y Melilla
Comité Interterritorial de Estadística
D.G. De Procesos e Infraestructura Estadística
DG de Productos Estadísticos
S.G. de Metodología y Técnicas Estadísticas
S.G. de Cuentas Nacionales
Gabinete de Coordinación Y Planificación Estadística
S.G. de Recogida de Datos
S.G. de Estadísticas Industriales y Agrarias
S.G. de Gestión Presupuestaria
S.G. de Censos y Padrón
S.G. de Estadísticas de los Servicios
S.G. de Recursos Humanos
S.G. de Informática Estadística
S.G. de Estadísticas de Precios y Presupuestos Familiares
Oficina del Censo Electoral
S.G. de Difusión Estadística
S.G. de Estadísticas Laborales y Sociales
7
Instituto de Estudios Fiscales
2
La estadística pública
8
Instituto de Estudios Fiscales
La estadística pública: una fuente de conocimiento en la sociedad de la información Intermediarios en la sociedad de la información: una cuestión de confianza – Los organismos estadísticos públicos (OEP) son intermediarios naturales de la sociedad de la información – Como intermediarios han de generar confianza para que ciudadanos, hogares, empresas e instituciones les confien información, a veces sensible, y a veces costosa de obtener – Ciudadanos y empresas deben poder observar que existe equilibrio entre la información que se les pide y la que se difunde 9
Instituto de Estudios Fiscales
La estadística pública: una fuente de conocimiento en la sociedad de la información • Se confian importantes recursos a los OEP para obtener datos, tan numerosos y detallados como sea posible • El sistema de información a través del cual se capturan, almacenan y difunden, se convierte en un elemento crítico si se quiere facilitar que todos esos datos puedan convertirse en conocimiento • Tradicionalmente los OEP son organismos avanzados en el uso de tecnologías de la información
10
Instituto de Estudios Fiscales
3
Objetivos de la difusión de los Censos de Población y Viviendas de 2001
11
Instituto de Estudios Fiscales
Objetivos de la difusión de los Censos de Población y Viviendas de 2001 – Si las encuestas ponen a prueba la confianza en colectivos más o menos amplios... – Los Censos, con cuestionarios recogidos en todos los hogares, constituyen la mayor prueba de confianza a la que se somete el sistema estadístico. – (Algo parecido puede ocurrir en los grandes registros administrativos de interés estadístico).
• Devolver a tiempo y de modo eficaz la información estadística elaborada es el mejor pago a la confianza recibida 12
Instituto de Estudios Fiscales
Objetivos de la difusión de los Censos de Población y Viviendas de 2001 Consideraciones previas: • Los Censos, sean de Edificios, Viviendas, Población, de Establecimientos o Agrarios, son las operaciones estadísticas que más masa de datos generan • Múltiples variables o “dimensiones” de estudio, o de clasificación • Complejas jerarquias territoriales: país, región, provincia, municipio, sección censal, manzana, vía pública
13
Instituto de Estudios Fiscales
Objetivos de la difusión de los Censos de Población y Viviendas de 2001 – Reducir el plazo de difusión – Flexibilidad para responder a necesidades diferentes de diferentes usuarios – Maximizar la cantidad de información censal difundida, favoreciendo el incremento de la demanda, con acceso abierto y gratuito – Dar menos importancia de las tradicionales publicaciones impresas
14
Instituto de Estudios Fiscales
4
Revisión de las tecnologías disponibles para la difusión de datos estadísticos
15
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos El papel del sistemas BI/DW: ¿La única tecnología de difusión tecnológica recomendable? • La respuesta del INE es NO, porque: – Cada tipo de información estadística puede necesitar una tecnología de difusión distinta. – El INE bajo una única “marca y aspecto”, INEbase, engloba datos de muy distintas operaciones estadísticas, aplicando distintas técnologias de difusión aunque tratando de conseguir interfaces muy similares. • A continuación: revisar los medios disponibles y conocer el papel de los sistemas BI/DW
16
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos
• • • •
1, nada más que ficheros estructurados
2, bases de datos tradicionales 3, sistemas BI/DW y más
17
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros
estructurados • La mayor parte de las operaciones estadísticas (en particular las realizadas por muestreo) dan lugar a un conjunto moderado de ”tablas” a difundir • Un sistema que defina y estructure claramente el objeto “tabla”, su tema de referencia, las variables y métricas con las que se estudia el fenómeno a medir, y finalmente, sus datos, puede ser simplemente definido como un archivo o tipo de documento XML. • INEbase usa profusamente esta estrategia, proporcionando una interfaz “pseudo-OLAP” de acceso a decenas de miles de tablas de resultados. 18
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros
estructurados • XML o ficheros “PC-Axis” e interfaces pseudo-OLAP: - Es usado por el INE de España y un buen número de organismos estadísticos publicos en el mundo.
19
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros
estructurados • Una sencilla interfaz “pseudo OLAP” permite: – Modelar la consulta – Exportar los resultados a Microsoft Excel y a PC-Axis.
• El coste de desarrollo de la solución ha sido muy bajo - No se usa para tablas
mayores de 100.000
celdas, no hay
“areas pequeñas”
20
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Los sistemas de bases de datos relacionales también son profusamente usados como herramientas de difusión, el INE los usa: - Como almacén mas compacto que los sistemas de ficheros, replicando las características estructurales de los archivos de “tabla” o “matriz”, y permitiendo construirlos bajo demanda - Como sistema de difusión de datos estadísticos mas próximos al concepto de “listas” que al de “tablas”
21
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Ejemplos en INEbase: Nomenclator de entidades de población
Listas filtrables, no cruces de variables
22
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Ejemplos en INEbase: Encuesta Industrial de Productos...
Listas filtrables, no cruces de variables
23
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos:
3, sistemas BI/DW
El papel de los sistemas BI/DW en una estratégia de difusión estadística • Si en un objeto social o económico de estudio… – El número variables o dimensiones a analizar es elevado – La granularidad o nivel de detalle temático o territorial también es alto – Es dificil prever muchos de los posibles cruces temáticos y territoriales, y de los niveles jerárquicos de presentación convenientes para distintos tipos de usuarios
• …Necesitaremos modelizar “cubos n-dimensionales” poblados por volúmes de celdas muy superiores a 10 elevado a 5… • Podemos seguir usando sistemas tradicionales de modelización relacional, pero…
• Difundir un Censo: ! Es el momento de hablar con un experto en análisis multidimensional ¡ 24
Instituto de Estudios Fiscales
Revisión de las tecnologías disponibles para la difusión de datos estadísticos:
y más •
•
•
¿ Y si los datos no están nada estructurados, como es el caso de las antiguas publicaciones en papel? El INE no renuncia a usar Internet para difundir estos valiosos fondos, el proyecto INEbase Siglo XX actualmente en desarrollo combinará un tratamiento OCR masivo, un sistema SGBDR y un servidor de ficheros para proporcionar acceso guiado y sistemas de búsqueda para visualizar y descargar las páginas de esas publicaciones, servidas en formato PDF y Excel. Pronto: Anuarios y Censos del Siglo XX en INEbase...
25
Instituto de Estudios Fiscales
5
La madurez tecnológica de los sistemas BI/DW
26
Instituto de Estudios Fiscales
La madurez tecnológica de los sistemas BI/DW • El papel de los sistemas BI/DW en una estratégia de difusión estadística – Los sistemas de información orientados al almacenaje y consulta analítica de grandes volúmenes de información se han llamado tradicionalmente Data Warehouse – El Data Warehouse es un elemento clave de la estrategia (más amplia) del llamado comercialmente “Bussines Intelligence” – Los sistemas DW/BI ocuparán un importante papel en el “negocio” de la difusión estadística
27
Instituto de Estudios Fiscales
La madurez tecnológica de los sistemas BI/DW • En Internet, más de 5 segundos de respuesta se considera
bajo rendimiento. • En los últimos años se ha producido una convergencia entre Internet y las soluciones de Business Intelligence capaces de procesar grandes volúmenes de datos • Las administraciones públicas, y en particular los
organismos estadísticos pueden utilizarlas para
– Sumarizaciones – Difusión masiva, combinada o no con soluciones tradicionales de tabulación y cálculo estadístico
• Existe una oferta variada de soluciones tecnológicas, propia de un mercado maduro
28
Instituto de Estudios Fiscales
6
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW
29
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: referencias previas • El INE analizó varias experiencias previas de comunicación de grandes masas de datos a través de Internet, algunas realizadas con software tradicional (SGBDR) y otras con bases de datos multidimensionales. – El sistema holandés de difusión de datos estadísticos StatLine – Los sistemas italianos sobre información de Empresas y Demografía Municipal (ISTAT) – El sistema estadístico del Censo de Población de 2000 de Brasil (IBGE)
30
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – El sistema holandés StatLine: • Potente apoyo de metadatos, browser “pseudo OLAP”, base de datos
relacional de complejidad creciente.
31
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – Los sistemas italianos sobre información de Empresas y Demografía Municipal (ISTAT)
Http://cens.istat.it
Http://demo.istat.it
32
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – El sistema estadístico del Censo de Población de 2000 de Brasil (IBGE)
33
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – Tambien fueron referencias algunos sistemas usados por grandes empresas privadas, en las que el tiempo de carga y actualización se consideraba crítico. – El tiempo de carga no parece crítico en un sistema como el del Censo, donde aparentemente los datos usados son fijos en el tiempo, pero… – ¿cuántas veces hay que depurar y volver a cargar los datos?
34
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • El modelo multidimensional lógico: ty Ci
B
C
Product, Industry
Product
A Juice Coke
Milk
Cream Beer
Ice
50 30 12 15 1
1
City, Region
Product group
Province
Product
Municipality
•Dimensiones •Jerarquias • Métricas Date Year Quarterly
10
2
3
Date
4
5
6
Data cell
Month Week
Day
35
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • Sistema DW: Almacén de datos orientado a consulta dónde se realiza la carga de datos desde los sistemas origen. •
Niveles: – Microbase: Datos a nivel atómico – Macrobase: Estructura multidimensional. Procesos de agregación sobre la microbase – Metabase: Información sobre los datos contenidos en el repositorio multidimensional (descripciones de campos, formatos, relaciones atributo - dimensión, combinaciones posibles)
• Dimensiones: Área de interés para estudio y análisis (D.Geográfíca) • Atributos: Diferentes niveles de análisis posibles dentro de una dimensión (CCAA, Provincia, Municipio, Comarca) • Jerarquías: Organizan los atributos dentro de la dimensión. Orientan la navegación OLAP. 36
Instituto de Estudios Fiscales
Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • El diseño del interfaz con este tipo de bases de datos multidimensionales
tan pesadas puede producir problemas: - de velocidad - de simplicidad - como proponer las distintas posibilidades de consulta OLAP - sin usar formularios complejos - atendiendo tambíen a usuarios no expertos: ¿Cuánta gente conoce la terminología OLAP?
37
Instituto de Estudios Fiscales
7
El sistema de información construido
38
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001
• En tres grandes etapas – El modelado multidimensional (en 6 pasos) – El trabajo con datos (en 2 pasos) – El diseño de la interfaz del usuario
39
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001.
El modelado multidimensional
• Primer Paso: Se identifican colectivos y subcolectivos de interés en base a las variables o dimensiones que tienen en común: • Colectivos: Personas, Edificios, Viviendas, Hogares • Subcolectivos: ejemplo referido a las personas -CP1: Todas las personas (40,8 mill)
-CP2: Residentes en viviendas familiares (40,6 mill)
-CP3: Extranjeros (1,5 mill)
-CP4: Mayores de 65 años (4,6 mill)
-CP5: Migrantes (4,9 mill)
-CP6: Mayores de 16 trabajando (16 mill)
-CP7: Mayores de 16 estudiando (2,8 mill)
40
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional
• Segundo paso: se evalua el impacto del amplio número de dimensiones Premisa: El interfaz proporciona igual probabilidad de consulta para todos los atributos presentados. Condicionante: Gran número de atributos a considerar en los posibles cruces. Problema en la evaluación de combinaciones de estos atributos. Personas
200 variables
Viviendas
100 variables
Edificios
50 variables
Locales
40 variables 41
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional •Tercer paso: Se evalúan las restricciones que imponen el almacenamiento físico y lógico usando modelos multidimensionales Fichero plano
SGBD
� Tabla detalle (NWAY)
Fuentes operacionales
Cubo lógico o “proxy” de datos
Nivel atómico de la estructura multidimensional: Nº de habitantes por cada una de las combinaciones existentes de los valores de las dimensiones 42
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional
• Cuarto paso: Se usa el “Conocimiento del Negocio”:
1.- Las dimensiones “fijas” en casi cualquier consulta
son el Territorio, la edad, y el sexo
Deben estar presentes en la mayoría de cruces del resto de atributos
2.- Además existen conjuntos de interés para los usuarios (extranjeros, migrantes, …) que tienen una información particular y homogénea que resaltar 43
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional
Quinto paso: se trata de simplificar el problema combinatorio agrupando variables con los criterios habituales en modelización multidimensional: • Por relaciones jerárquicas entre variables (Ej. Territorio)
• Por relaciones de dependencia entre variables: (Ej. Año de nacimiento-edad) • Por atributos de baja cardinalidad
44
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional • Quinto paso: (continuación):
Estas consideraciones llevan a crear:
Grupo 3
1 cubo por subcolectivo con dimensiones instrumentales
(grupos de variables)
Colectivo P3 (Extranjeros)
Grupo 1
Gr
o p u 2
45
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El modelado multidimensional COLECTIVO P3 - EXTRANJEROS EDAD
GEOGRAFICA
GEOGRAFICA 1991
GEOGRAFICA 2 VIV
GEOGRAFICA ANTERIOR
LUGAR NACIMIENTO
gran_grupo_edad grupo_q_edad edad anyo_nacimiento ccaa provincia comarca municipio tamanyo_lr provincia_1991 comarca_1991 municipio_1991 tamanyo_1991 rel_lr_1991 provincia_2_viv
comarca_2_viv municipio_2_viv tamanyo_2_viv rel_2_viv_lr provincia_ant comarca_ant municipio_ant tamanyo_ant rel_lr_ant ccaa_ln provincia_ln comarca_ln municipio_ln tamanyo_ln rel_ln_lr
Quinto paso (continuación): ….: Ejemplos de agrupación de variables NACIONALIDAD
PAIS 1991
PAIS ANT
PAIS NACIMIENTO
RESTO
c ontinente region pais ind_espanyol continente_1991 region_1991 pais_1991 continente_ant region_ant pais_ant c ontinente_ln region_ln pais_ln grado_ne detalle_ne estudios_ne anyo_llegada_espanya anyo_llegada_ccaa anyo_llegada_municipio ra1 ra2 ra3 ra4 ra5 ra6
46
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El modelado multidimensional
• Sexto paso...: del modelo lógico al modelo físico
Cubo lógico por subcolectivo
Tablas cruce de variables Conjuntos de datos SPDS
Conjuntos de datos SAS 47
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos
• 1.- El primer nivel de agregación es la tabla “N-Way” – Esta tabla siempre se calcula, y se usa en determinadas consultas pero: • Resulta grande (…de los 40,8 millones de habitantes hay 26 millones “distintos” según las combinaciones distintas existentes de valores de las dimensiones estudiadas…) • Su acceso puede ser lento. Se requieren normalmente múltiples sumarizaciones sobre ella.
48
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos
• 2.- El segundo nivel de agregación: decidir cuantos y cuales son los objetos presumarizados que conviene crear: – Son tablas y cubos, ya que el sistema es OLAP híbrido (HOLAP). – A todo el conjunto de objetos, incluyendo la propia tabla N-Way, (más la “inteligencia” del software para navegar por ellos), se le llama en la jerga multidimensional “proxy de datos”. – Estos objetos contienen las agregaciones (cruces) más probables de modo que tengamos una solución de compromiso entre espacio de almacenamiento y rapidez en las consultas. – Es un proceso contínuo, pero asistido por el propio software, en base al seguimiento del éxito o las dificultades de las consultas reales que se van recibiendo.
49
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos
Ejemplo: Lista de objetos calculados
Sexto paso...: algunas cifras sobre el número de tablas y S ub Co le c tiv o N úme ro d e Ta b la cubos CE1 6 CE2 CP 1 CP 2 CP 3 CP 4 CP 5 CP 6 CP 7 CV1 CV2 CV3 CV4 CV5 CV6
19 108 190 313 181 467 128 103 35 1 243 13 12 25 50
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos
Esquema...
Microdata
N-Way
51
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz
• No es una tarea facil diseñar una interfaz a un potente sistema para usuarios de muy distinta habilidad… • Pocas y sencillas cuestiones clave…, siempre en el mismo orden… • Dos filtros iniciales: el territorio, y el “colectivo” a analizar • Prototipos previos se sometieron a la opinión de un grupo de usuarios 52
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz
Colectivo
Sub-Colectivo
• Las variables que se ofrecerán para diseñar la consulta dependen del colectivo y subcolectivo elegidos • Un subcolectivo es un conjunto de personas, edificios, viviendas, u hogares en el que tiene sentido usar una lista específica de variables… (Por ejemplo: no tiene sentido analizar el nivel de estudios de los menores de 4 años…) 53
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz Selecting variable position
Showing variables
• Las variables se presentan ordenadas en grupos de afinidad • Desde el principio el usuario decide el reparto de datos en la tabla • Se renuncia conscientemente a funciones “drag and drop” buscando la accesibilidad 54
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz Selecting filtering values
Showing filtering variables
• Las variables también se pueden usar como filtros • La actual versión de la interfaz solo permite valores de las variables como criterios de filtro, pero no hay un “álgebra” de filtrado •Se está construyendo una versión para usuarios avanzados 55
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz A simple toolbar with most common functions
Result tables have OLAP navigation
• Las tablas tienen potentes posibilidades OLAP •Girar, ordenar, cambiar referencias geográficas, cambiar unidades de medida, incluir sub-totales.. •Exportación a Excel y PC-Axis
• Gráficos, mapas
56
Instituto de Estudios Fiscales
Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz
• Charts, maps
57
Instituto de Estudios Fiscales
8
Aprendizajes
58
Instituto de Estudios Fiscales
Aprendizajes
• Seleccionar decuadamente el 1º proyecto (un censo de población puede no ser el más adecuado) • Contar con una dirección y un grupo de promotores entusiastas • Aceptar que en algún momento hay que parar el proceso de depuración e imputación automática • Gestionar el requerimiento de secreto estadístico de una manera clara
59
Instituto de Estudios Fiscales
Aprendizajes
• Seleccionar un proyecto adecuado : – Muchas necesidades de difusión de datos quedan suficientemente cubiertas con sistemas on-line pseudo-OLAP – Censos, grandes registros administrativos y estadísticas no realizadas por muestreo son candidatos naturales – El nivel de detalle deseado es clave: una tecnología al servicio de las estadísticas de areas pequeñas. 60
Instituto de Estudios Fiscales
Aprendizajes
• Contar con una dirección y un grupo de estadísticos promotores entusiastas – Se dice siempre en relación a los proyectos DW/BI: No es un tópico
61
Instituto de Estudios Fiscales
Aprendizajes
• Aceptar que en algún momento hay que parar el proceso de depuración e imputación automática – Un sistema DW/BI es una “alarma” que detecta los errores acumulados de toda operación estadística o registro administrativo
62
Instituto de Estudios Fiscales
Aprendizajes • Gestionar el requerimiento de secreto estadístico de una manera clara: – El uso de esta técnica de difusión de datos estadísticos puede provocar problemas de confidencialidad: los procedimientos de seguridad tienen que proteger frente a consultas repetitivas y recombinación de datos.
•
Se han seguido dos niveles de acción, entre varios posibles:
63
Instituto de Estudios Fiscales
Aprendizajes •
Gestionar el requerimiento de secreto estadístico de una manera clara:
• 1.- Controlar el número de variables asociables a una consulta dependiendo de lo pequeña que pueda resultar la unidad geográfica a que se refiera Population Up to 100 inhab. Between 101 and 5000 inhab. Between 5001 and 20000 inhab. More than 20000 inhab.
Maximum number of variables in a query 1 variable 2 variables 3 variables There is no limit
64
Instituto de Estudios Fiscales
Aprendizajes •
Gestionar el requerimiento de secreto estadístico de una manera clara:
• 2.- Evitar el uso de clasificaciones muy detalladas en algunas variables agrupandolas en grupos mas simples, menos informativos Variable Age in five year groups Country of previous residence Occupation code 2 digits Occupation code 3 digits
Population scope for those offered All More than 100 inhab. All More than 20000 inhab.
65
Instituto de Estudios Fiscales
Técnicas de difusión de grandes bases de datos La difusión censal abre una nueva ventana en las bases de datos del sistema
estadístico público.
Armando de la Torre Gracias por su atención
Jefe de Área Editorial Instituto Nacional de Estadística España
[email protected]
66