Técnicas de difusión de grandes bases de datos

Instituto de Estudios Fiscales Técnicas de difusión de grandes bases de datos La difusión censal abre una nueva ventana en las bases de datos del sis

6 downloads 129 Views 1MB Size

Recommend Stories


BD - Bases de Datos
Última modificación: 19-02-2016 270010 - BD - Bases de Datos Unidad responsable: 270 - FIB - Facultad de Informática de Barcelona Unidad que impart

BASES DE DATOS Fuente:
INSTITUCION EDUCATIVA “JOHN F. KENNEDY” Resolución de Aprobación No. 2110 del 7 de septiembre de 2010 Secretaría de Educación y Cultura del Departamen

UNIDAD. Bases de datos
UNIDAD 7 Bases de datos Grabado de un archivo. (Wikipedia org. Dominio público) n la sociedad de la información, el almacenamiento de datos así co

Story Transcript

Instituto de Estudios Fiscales

Técnicas de difusión de grandes bases de datos La difusión censal abre una nueva ventana en las bases de datos del sistema estadístico público.

1

Instituto de Estudios Fiscales

Índice 1. El Instituto Nacional de Estadística. 2. La estadística pública: una fuente de conocimiento en la sociedad de la información 3.- Objetivos de la difusión de los Censos de Población y Viviendas de 2001 4. Revisión de las tecnologías disponibles para la difusión de datos estadísticos 5. La madurez tecnológica de los sistemas BI/DW 6. Contrucción de un sistema de consulta on-line basado en tecnología BI/DW 7. El sistema de información construido 8. Que hemos aprendido

2

Instituto de Estudios Fiscales

1

El Instituto Nacional de Estadística

3

Instituto de Estudios Fiscales

El Instituto Nacional de Estadística. “INE” •

El Instituto Nacional de Estadística es un organismo autónomo de la Administración central del Estado adscrito al Ministerio de Economía.

• Realiza la parte mas significativa de la actividad estadística pública en España, y en particular las operaciones estadísticas de gran envergadura (censos demográficos y económicos, cuentas nacionales, estadísticas demográficas y sociales, indicadores económicos y sociales, coordinación y mantenimiento de los directorios de empresas, formación del Censo Electoral...) • Además, la ley atribuye al INE las siguientes funciones: – La redacción del Plan Estadístico Nacional con la colaboración de los

Departamentos Ministeriales y del Banco de España;

– La propuesta de normas comunes sobre conceptos, unidades estadísticas,

clasificaciones y códigos; – Las relaciones en materia estadística con los Organismos Internacionales

especializados y, en particular, con la Oficina de Estadística de la Unión Europea (EUROSTAT) 4

Instituto de Estudios Fiscales

Instituto Nacional de de Estadística. “INE” Instituto Nacional Estadística. “INE” • 3000 empleados (incluyendo su propia red de trabajos de campo, -encuestadores-) • 800 técnicos medios y superiores • aprox. 150.000.000 euros de presupuesto anual • Oficinas centrales y en las 50 provincias • Importante: las oficinas estadísticas de las Comunidades Autonómas no forman parte del INE, aunque el INE mantiene convenios de colaboración con ellas 5

Instituto de Estudios Fiscales

Instituto Nacional de de Estadística. “INE” Instituto Nacional Estadística. “INE” • Goza de competencias y capacidad técnica para: – La preservación del secreto estadístico – Garantizar su neutralidad operativa _ Realizar la mayor parte de las tareas de campo

6

Instituto de Estudios Fiscales

Instituto Nacional de Estadística. “INE” La unidad de difusión estadística en el INE Comisión Interministerial de Estadística

Presidencia Delegaciones Provinciales y Delegaciones de Ceuta y Melilla

Comité Interterritorial de Estadística

D.G. De Procesos e Infraestructura Estadística

DG de Productos Estadísticos

S.G. de Metodología y Técnicas Estadísticas

S.G. de Cuentas Nacionales

Gabinete de Coordinación Y Planificación Estadística

S.G. de Recogida de Datos

S.G. de Estadísticas Industriales y Agrarias

S.G. de Gestión Presupuestaria

S.G. de Censos y Padrón

S.G. de Estadísticas de los Servicios

S.G. de Recursos Humanos

S.G. de Informática Estadística

S.G. de Estadísticas de Precios y Presupuestos Familiares

Oficina del Censo Electoral

S.G. de Difusión Estadística

S.G. de Estadísticas Laborales y Sociales

7

Instituto de Estudios Fiscales

2

La estadística pública

8

Instituto de Estudios Fiscales

La estadística pública: una fuente de conocimiento en la sociedad de la información Intermediarios en la sociedad de la información: una cuestión de confianza – Los organismos estadísticos públicos (OEP) son intermediarios naturales de la sociedad de la información – Como intermediarios han de generar confianza para que ciudadanos, hogares, empresas e instituciones les confien información, a veces sensible, y a veces costosa de obtener – Ciudadanos y empresas deben poder observar que existe equilibrio entre la información que se les pide y la que se difunde 9

Instituto de Estudios Fiscales

La estadística pública: una fuente de conocimiento en la sociedad de la información • Se confian importantes recursos a los OEP para obtener datos, tan numerosos y detallados como sea posible • El sistema de información a través del cual se capturan, almacenan y difunden, se convierte en un elemento crítico si se quiere facilitar que todos esos datos puedan convertirse en conocimiento • Tradicionalmente los OEP son organismos avanzados en el uso de tecnologías de la información

10

Instituto de Estudios Fiscales

3

Objetivos de la difusión de los Censos de Población y Viviendas de 2001

11

Instituto de Estudios Fiscales

Objetivos de la difusión de los Censos de Población y Viviendas de 2001 – Si las encuestas ponen a prueba la confianza en colectivos más o menos amplios... – Los Censos, con cuestionarios recogidos en todos los hogares, constituyen la mayor prueba de confianza a la que se somete el sistema estadístico. – (Algo parecido puede ocurrir en los grandes registros administrativos de interés estadístico).

• Devolver a tiempo y de modo eficaz la información estadística elaborada es el mejor pago a la confianza recibida 12

Instituto de Estudios Fiscales

Objetivos de la difusión de los Censos de Población y Viviendas de 2001 Consideraciones previas: • Los Censos, sean de Edificios, Viviendas, Población, de Establecimientos o Agrarios, son las operaciones estadísticas que más masa de datos generan • Múltiples variables o “dimensiones” de estudio, o de clasificación • Complejas jerarquias territoriales: país, región, provincia, municipio, sección censal, manzana, vía pública

13

Instituto de Estudios Fiscales

Objetivos de la difusión de los Censos de Población y Viviendas de 2001 – Reducir el plazo de difusión – Flexibilidad para responder a necesidades diferentes de diferentes usuarios – Maximizar la cantidad de información censal difundida, favoreciendo el incremento de la demanda, con acceso abierto y gratuito – Dar menos importancia de las tradicionales publicaciones impresas

14

Instituto de Estudios Fiscales

4

Revisión de las tecnologías disponibles para la difusión de datos estadísticos

15

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos El papel del sistemas BI/DW: ¿La única tecnología de difusión tecnológica recomendable? • La respuesta del INE es NO, porque: – Cada tipo de información estadística puede necesitar una tecnología de difusión distinta. – El INE bajo una única “marca y aspecto”, INEbase, engloba datos de muy distintas operaciones estadísticas, aplicando distintas técnologias de difusión aunque tratando de conseguir interfaces muy similares. • A continuación: revisar los medios disponibles y conocer el papel de los sistemas BI/DW

16

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos

• • • •

1, nada más que ficheros estructurados

2, bases de datos tradicionales 3, sistemas BI/DW y más

17

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros

estructurados • La mayor parte de las operaciones estadísticas (en particular las realizadas por muestreo) dan lugar a un conjunto moderado de ”tablas” a difundir • Un sistema que defina y estructure claramente el objeto “tabla”, su tema de referencia, las variables y métricas con las que se estudia el fenómeno a medir, y finalmente, sus datos, puede ser simplemente definido como un archivo o tipo de documento XML. • INEbase usa profusamente esta estrategia, proporcionando una interfaz “pseudo-OLAP” de acceso a decenas de miles de tablas de resultados. 18

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros

estructurados • XML o ficheros “PC-Axis” e interfaces pseudo-OLAP: - Es usado por el INE de España y un buen número de organismos estadísticos publicos en el mundo.

19

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 1, nada más que ficheros

estructurados • Una sencilla interfaz “pseudo OLAP” permite: – Modelar la consulta – Exportar los resultados a Microsoft Excel y a PC-Axis.

• El coste de desarrollo de la solución ha sido muy bajo - No se usa para tablas

mayores de 100.000

celdas, no hay

“areas pequeñas”

20

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Los sistemas de bases de datos relacionales también son profusamente usados como herramientas de difusión, el INE los usa: - Como almacén mas compacto que los sistemas de ficheros, replicando las características estructurales de los archivos de “tabla” o “matriz”, y permitiendo construirlos bajo demanda - Como sistema de difusión de datos estadísticos mas próximos al concepto de “listas” que al de “tablas”

21

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Ejemplos en INEbase: Nomenclator de entidades de población

Listas filtrables, no cruces de variables

22

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos: 2, bases de datos tradicionales • Ejemplos en INEbase: Encuesta Industrial de Productos...

Listas filtrables, no cruces de variables

23

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos:

3, sistemas BI/DW

El papel de los sistemas BI/DW en una estratégia de difusión estadística • Si en un objeto social o económico de estudio… – El número variables o dimensiones a analizar es elevado – La granularidad o nivel de detalle temático o territorial también es alto – Es dificil prever muchos de los posibles cruces temáticos y territoriales, y de los niveles jerárquicos de presentación convenientes para distintos tipos de usuarios

• …Necesitaremos modelizar “cubos n-dimensionales” poblados por volúmes de celdas muy superiores a 10 elevado a 5… • Podemos seguir usando sistemas tradicionales de modelización relacional, pero…

• Difundir un Censo: ! Es el momento de hablar con un experto en análisis multidimensional ¡ 24

Instituto de Estudios Fiscales

Revisión de las tecnologías disponibles para la difusión de datos estadísticos:

y más •





¿ Y si los datos no están nada estructurados, como es el caso de las antiguas publicaciones en papel? El INE no renuncia a usar Internet para difundir estos valiosos fondos, el proyecto INEbase Siglo XX actualmente en desarrollo combinará un tratamiento OCR masivo, un sistema SGBDR y un servidor de ficheros para proporcionar acceso guiado y sistemas de búsqueda para visualizar y descargar las páginas de esas publicaciones, servidas en formato PDF y Excel. Pronto: Anuarios y Censos del Siglo XX en INEbase...

25

Instituto de Estudios Fiscales

5

La madurez tecnológica de los sistemas BI/DW

26

Instituto de Estudios Fiscales

La madurez tecnológica de los sistemas BI/DW • El papel de los sistemas BI/DW en una estratégia de difusión estadística – Los sistemas de información orientados al almacenaje y consulta analítica de grandes volúmenes de información se han llamado tradicionalmente Data Warehouse – El Data Warehouse es un elemento clave de la estrategia (más amplia) del llamado comercialmente “Bussines Intelligence” – Los sistemas DW/BI ocuparán un importante papel en el “negocio” de la difusión estadística

27

Instituto de Estudios Fiscales

La madurez tecnológica de los sistemas BI/DW • En Internet, más de 5 segundos de respuesta se considera

bajo rendimiento. • En los últimos años se ha producido una convergencia entre Internet y las soluciones de Business Intelligence capaces de procesar grandes volúmenes de datos • Las administraciones públicas, y en particular los

organismos estadísticos pueden utilizarlas para

– Sumarizaciones – Difusión masiva, combinada o no con soluciones tradicionales de tabulación y cálculo estadístico

• Existe una oferta variada de soluciones tecnológicas, propia de un mercado maduro

28

Instituto de Estudios Fiscales

6

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW

29

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: referencias previas • El INE analizó varias experiencias previas de comunicación de grandes masas de datos a través de Internet, algunas realizadas con software tradicional (SGBDR) y otras con bases de datos multidimensionales. – El sistema holandés de difusión de datos estadísticos StatLine – Los sistemas italianos sobre información de Empresas y Demografía Municipal (ISTAT) – El sistema estadístico del Censo de Población de 2000 de Brasil (IBGE)

30

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – El sistema holandés StatLine: • Potente apoyo de metadatos, browser “pseudo OLAP”, base de datos

relacional de complejidad creciente.

31

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – Los sistemas italianos sobre información de Empresas y Demografía Municipal (ISTAT)

Http://cens.istat.it

Http://demo.istat.it

32

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – El sistema estadístico del Censo de Población de 2000 de Brasil (IBGE)

33

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Referencias de excelencia – Tambien fueron referencias algunos sistemas usados por grandes empresas privadas, en las que el tiempo de carga y actualización se consideraba crítico. – El tiempo de carga no parece crítico en un sistema como el del Censo, donde aparentemente los datos usados son fijos en el tiempo, pero… – ¿cuántas veces hay que depurar y volver a cargar los datos?

34

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • El modelo multidimensional lógico: ty Ci

B

C

Product, Industry

Product

A Juice Coke

Milk

Cream Beer

Ice

50 30 12 15 1

1

City, Region

Product group

Province

Product

Municipality

•Dimensiones •Jerarquias • Métricas Date Year Quarterly

10

2

3

Date

4

5

6

Data cell

Month Week

Day

35

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • Sistema DW: Almacén de datos orientado a consulta dónde se realiza la carga de datos desde los sistemas origen. •

Niveles: – Microbase: Datos a nivel atómico – Macrobase: Estructura multidimensional. Procesos de agregación sobre la microbase – Metabase: Información sobre los datos contenidos en el repositorio multidimensional (descripciones de campos, formatos, relaciones atributo - dimensión, combinaciones posibles)

• Dimensiones: Área de interés para estudio y análisis (D.Geográfíca) • Atributos: Diferentes niveles de análisis posibles dentro de una dimensión (CCAA, Provincia, Municipio, Comarca) • Jerarquías: Organizan los atributos dentro de la dimensión. Orientan la navegación OLAP. 36

Instituto de Estudios Fiscales

Contrucción de un sistema de consulta on-line basado en tecnología BI/DW: Conceptos Básicos • El diseño del interfaz con este tipo de bases de datos multidimensionales

tan pesadas puede producir problemas: - de velocidad - de simplicidad - como proponer las distintas posibilidades de consulta OLAP - sin usar formularios complejos - atendiendo tambíen a usuarios no expertos: ¿Cuánta gente conoce la terminología OLAP?

37

Instituto de Estudios Fiscales

7

El sistema de información construido

38

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001

• En tres grandes etapas – El modelado multidimensional (en 6 pasos) – El trabajo con datos (en 2 pasos) – El diseño de la interfaz del usuario

39

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001.

El modelado multidimensional

• Primer Paso: Se identifican colectivos y subcolectivos de interés en base a las variables o dimensiones que tienen en común: • Colectivos: Personas, Edificios, Viviendas, Hogares • Subcolectivos: ejemplo referido a las personas -CP1: Todas las personas (40,8 mill)

-CP2: Residentes en viviendas familiares (40,6 mill)

-CP3: Extranjeros (1,5 mill)

-CP4: Mayores de 65 años (4,6 mill)

-CP5: Migrantes (4,9 mill)

-CP6: Mayores de 16 trabajando (16 mill)

-CP7: Mayores de 16 estudiando (2,8 mill)

40

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional

• Segundo paso: se evalua el impacto del amplio número de dimensiones Premisa: El interfaz proporciona igual probabilidad de consulta para todos los atributos presentados. Condicionante: Gran número de atributos a considerar en los posibles cruces. Problema en la evaluación de combinaciones de estos atributos. Personas

200 variables

Viviendas

100 variables

Edificios

50 variables

Locales

40 variables 41

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional •Tercer paso: Se evalúan las restricciones que imponen el almacenamiento físico y lógico usando modelos multidimensionales Fichero plano

SGBD

� Tabla detalle (NWAY)

Fuentes operacionales

Cubo lógico o “proxy” de datos

Nivel atómico de la estructura multidimensional: Nº de habitantes por cada una de las combinaciones existentes de los valores de las dimensiones 42

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional

• Cuarto paso: Se usa el “Conocimiento del Negocio”:

1.- Las dimensiones “fijas” en casi cualquier consulta

son el Territorio, la edad, y el sexo

Deben estar presentes en la mayoría de cruces del resto de atributos

2.- Además existen conjuntos de interés para los usuarios (extranjeros, migrantes, …) que tienen una información particular y homogénea que resaltar 43

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional

Quinto paso: se trata de simplificar el problema combinatorio agrupando variables con los criterios habituales en modelización multidimensional: • Por relaciones jerárquicas entre variables (Ej. Territorio)

• Por relaciones de dependencia entre variables: (Ej. Año de nacimiento-edad) • Por atributos de baja cardinalidad

44

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001, El modelado multidimensional • Quinto paso: (continuación):

Estas consideraciones llevan a crear:

Grupo 3

1 cubo por subcolectivo con dimensiones instrumentales

(grupos de variables)

Colectivo P3 (Extranjeros)

Grupo 1

Gr

o p u 2

45

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El modelado multidimensional COLECTIVO P3 - EXTRANJEROS EDAD

GEOGRAFICA

GEOGRAFICA 1991

GEOGRAFICA 2 VIV

GEOGRAFICA ANTERIOR

LUGAR NACIMIENTO

gran_grupo_edad grupo_q_edad edad anyo_nacimiento ccaa provincia comarca municipio tamanyo_lr provincia_1991 comarca_1991 municipio_1991 tamanyo_1991 rel_lr_1991 provincia_2_viv

comarca_2_viv municipio_2_viv tamanyo_2_viv rel_2_viv_lr provincia_ant comarca_ant municipio_ant tamanyo_ant rel_lr_ant ccaa_ln provincia_ln comarca_ln municipio_ln tamanyo_ln rel_ln_lr

Quinto paso (continuación): ….: Ejemplos de agrupación de variables NACIONALIDAD

PAIS 1991

PAIS ANT

PAIS NACIMIENTO

RESTO

c ontinente region pais ind_espanyol continente_1991 region_1991 pais_1991 continente_ant region_ant pais_ant c ontinente_ln region_ln pais_ln grado_ne detalle_ne estudios_ne anyo_llegada_espanya anyo_llegada_ccaa anyo_llegada_municipio ra1 ra2 ra3 ra4 ra5 ra6

46

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El modelado multidimensional

• Sexto paso...: del modelo lógico al modelo físico

Cubo lógico por subcolectivo

Tablas cruce de variables Conjuntos de datos SPDS

Conjuntos de datos SAS 47

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos

• 1.- El primer nivel de agregación es la tabla “N-Way” – Esta tabla siempre se calcula, y se usa en determinadas consultas pero: • Resulta grande (…de los 40,8 millones de habitantes hay 26 millones “distintos” según las combinaciones distintas existentes de valores de las dimensiones estudiadas…) • Su acceso puede ser lento. Se requieren normalmente múltiples sumarizaciones sobre ella.

48

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos

• 2.- El segundo nivel de agregación: decidir cuantos y cuales son los objetos presumarizados que conviene crear: – Son tablas y cubos, ya que el sistema es OLAP híbrido (HOLAP). – A todo el conjunto de objetos, incluyendo la propia tabla N-Way, (más la “inteligencia” del software para navegar por ellos), se le llama en la jerga multidimensional “proxy de datos”. – Estos objetos contienen las agregaciones (cruces) más probables de modo que tengamos una solución de compromiso entre espacio de almacenamiento y rapidez en las consultas. – Es un proceso contínuo, pero asistido por el propio software, en base al seguimiento del éxito o las dificultades de las consultas reales que se van recibiendo.

49

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos

Ejemplo: Lista de objetos calculados

Sexto paso...: algunas cifras sobre el número de tablas y S ub Co le c tiv o N úme ro d e Ta b la cubos CE1 6 CE2 CP 1 CP 2 CP 3 CP 4 CP 5 CP 6 CP 7 CV1 CV2 CV3 CV4 CV5 CV6

19 108 190 313 181 467 128 103 35 1 243 13 12 25 50

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los Censos de Población y Viviendas de 2001. El trabajo con los datos

Esquema...

Microdata

N-Way

51

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz

• No es una tarea facil diseñar una interfaz a un potente sistema para usuarios de muy distinta habilidad… • Pocas y sencillas cuestiones clave…, siempre en el mismo orden… • Dos filtros iniciales: el territorio, y el “colectivo” a analizar • Prototipos previos se sometieron a la opinión de un grupo de usuarios 52

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz

Colectivo

Sub-Colectivo

• Las variables que se ofrecerán para diseñar la consulta dependen del colectivo y subcolectivo elegidos • Un subcolectivo es un conjunto de personas, edificios, viviendas, u hogares en el que tiene sentido usar una lista específica de variables… (Por ejemplo: no tiene sentido analizar el nivel de estudios de los menores de 4 años…) 53

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz Selecting variable position

Showing variables

• Las variables se presentan ordenadas en grupos de afinidad • Desde el principio el usuario decide el reparto de datos en la tabla • Se renuncia conscientemente a funciones “drag and drop” buscando la accesibilidad 54

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz Selecting filtering values

Showing filtering variables

• Las variables también se pueden usar como filtros • La actual versión de la interfaz solo permite valores de las variables como criterios de filtro, pero no hay un “álgebra” de filtrado •Se está construyendo una versión para usuarios avanzados 55

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz A simple toolbar with most common functions

Result tables have OLAP navigation

• Las tablas tienen potentes posibilidades OLAP •Girar, ordenar, cambiar referencias geográficas, cambiar unidades de medida, incluir sub-totales.. •Exportación a Excel y PC-Axis

• Gráficos, mapas

56

Instituto de Estudios Fiscales

Sistema de Información para la Difusión de los censos de Población y Viviendas de 2001. Diseño de la interfaz

• Charts, maps

57

Instituto de Estudios Fiscales

8

Aprendizajes

58

Instituto de Estudios Fiscales

Aprendizajes

• Seleccionar decuadamente el 1º proyecto (un censo de población puede no ser el más adecuado) • Contar con una dirección y un grupo de promotores entusiastas • Aceptar que en algún momento hay que parar el proceso de depuración e imputación automática • Gestionar el requerimiento de secreto estadístico de una manera clara

59

Instituto de Estudios Fiscales

Aprendizajes

• Seleccionar un proyecto adecuado : – Muchas necesidades de difusión de datos quedan suficientemente cubiertas con sistemas on-line pseudo-OLAP – Censos, grandes registros administrativos y estadísticas no realizadas por muestreo son candidatos naturales – El nivel de detalle deseado es clave: una tecnología al servicio de las estadísticas de areas pequeñas. 60

Instituto de Estudios Fiscales

Aprendizajes

• Contar con una dirección y un grupo de estadísticos promotores entusiastas – Se dice siempre en relación a los proyectos DW/BI: No es un tópico

61

Instituto de Estudios Fiscales

Aprendizajes

• Aceptar que en algún momento hay que parar el proceso de depuración e imputación automática – Un sistema DW/BI es una “alarma” que detecta los errores acumulados de toda operación estadística o registro administrativo

62

Instituto de Estudios Fiscales

Aprendizajes • Gestionar el requerimiento de secreto estadístico de una manera clara: – El uso de esta técnica de difusión de datos estadísticos puede provocar problemas de confidencialidad: los procedimientos de seguridad tienen que proteger frente a consultas repetitivas y recombinación de datos.



Se han seguido dos niveles de acción, entre varios posibles:

63

Instituto de Estudios Fiscales

Aprendizajes •

Gestionar el requerimiento de secreto estadístico de una manera clara:

• 1.- Controlar el número de variables asociables a una consulta dependiendo de lo pequeña que pueda resultar la unidad geográfica a que se refiera Population Up to 100 inhab. Between 101 and 5000 inhab. Between 5001 and 20000 inhab. More than 20000 inhab.

Maximum number of variables in a query 1 variable 2 variables 3 variables There is no limit

64

Instituto de Estudios Fiscales

Aprendizajes •

Gestionar el requerimiento de secreto estadístico de una manera clara:

• 2.- Evitar el uso de clasificaciones muy detalladas en algunas variables agrupandolas en grupos mas simples, menos informativos Variable Age in five year groups Country of previous residence Occupation code 2 digits Occupation code 3 digits

Population scope for those offered All More than 100 inhab. All More than 20000 inhab.

65

Instituto de Estudios Fiscales

Técnicas de difusión de grandes bases de datos La difusión censal abre una nueva ventana en las bases de datos del sistema

estadístico público.

Armando de la Torre Gracias por su atención

Jefe de Área Editorial Instituto Nacional de Estadística España

[email protected]

66

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.