En lo que sigue se expondrá de forma sistemática los aspectos a tener en cuenta en el control de calidad de la base de datos

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN TEMA 36: CONTROL DE CALIDAD DE LA INFORMACIÓN OBJETIVOS DEL TEMA: ™ Estudiar los parámetros a tener

2 downloads 22 Views 81KB Size

Story Transcript

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

TEMA 36: CONTROL DE CALIDAD DE LA INFORMACIÓN OBJETIVOS DEL TEMA: ™ Estudiar los parámetros a tener en cuenta en el control de calidad de la información de un SIG ™ Comprender la importancia de la calidad de los datos en los resultados del sistema

INTRODUCCIÓN Como ya se ha apuntado en otras ocasiones, la calidad de la base de datos del S.I.G. es crucial para todo el sistema, hasta el punto que de ella depende en buena medida la calidad de todo el conjunto.

De la calidad de la base de datos dependerá que se tenga un sistema rápido, exacto y fiable o uno de utilidad limitada por alguno o varios de los aspectos mencionados. En la evaluación de procesos de análisis SIG cuyos resultados no han sido adecuados se pone de manifiesto la falta de calidad de los datos con los que se constituyó la base de datos, es decir, nunca podremos obtener análisis de calidad partiendo de una base de datos poco fiable y contrastada.

En lo que sigue se expondrá de forma sistemática los aspectos a tener en cuenta en el control de calidad de la base de datos.

En la figura 36.1 se observan desglosadas en operaciones más concretas las fases 3 y 4 de la creación de un SIG. Es decir, se exponen las principales operaciones a realizar en el proceso de entrada de datos al sistema, una vez que se ha diseñado (conceptualmente ) la base de datos. La fase 3, “Obtención de datos” comprende no sólo la introducción de datos en el sistema, sino su búsqueda y valoración de distintas fuentes y estado de los datos, por lo que es un proceso complejo en función de los datos a obtener y en el que como se verá más adelante influyen varios de los parámetros de calidad a considerar. UNIDAD II: Estructuración de la información.

1 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

1ª FASE: Descripción y Definición de Objetivos

ENTRADA DE DATOS

2ª FASE: Diseño de la Base de Datos

CORRECCIÓN ERRORES

3ª FASE: Obtención de la información necesaria Información gráfica

VERIFICACIÓN DE DATOS

Información alfa-numérica 4ª FASE: Gestión, Corrección Manipulación de Datos 5ª FASE: Realización de Análisis Geográfico

ESTRUCCTURACIÓN Y GESTIÓN DE DATOS

6ª FASE: Presentación de Resultados.

Figura 36.1 Procedimientos de introducción y gestión de datos en un S.I.G.

Conviene recordar que en la fase de obtención de la información ya se debe tener un modelo territorial establecido. Para llegar a establecer este modelo territorial es imprescindible que se hayan tenido en cuenta aspectos tan importantes como : los objetivos perseguidos, todo tipo de resultados a obtener, número y tipo de fuentes de datos disponibles, calidad de los datos del sistema, escala de trabajo, exactitud, recursos téncicos y humanos etc. Como puede comprobarse, algunos de estos aspectos no han sido estudiados y se desarrollan a continuación, pero son aspectos a considerar previamente en el diseño territorial. Por ejemplo, aunque las fuentes de datos disponibles y su calidad son aspectos a considerar en la fase de “Obtención de la Información” no se puede realizar una buena aproximación para establecer el modelo territorial del SIG, sin la realización de una prospección previa sobre todos estos datos, ya que la sorpresa de no poder conseguir un dato fundamental para el sistema puede llegar incluso a desbaratar éste.

EL CONTROL DE CALIDAD EN LOS DATOS GEOGRÁFICOS

Desde luego, el control sobre la calidad de los datos introducidos en el sistema dependerá en parte de los medios y métodos utilizados, y también de la naturaleza de los propios datos.

Pero aunque no es siempre deseable alcanzar la máxima calidad posible en la base de datos a crear, ya que desde luego, mayor calidad requerirá una mayor inversión en

UNIDAD II: Estructuración de la información.

2 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

recursos (medios humanos, técnicos, económicos, tiempo), es conveniente perseguir determinado nivel de calidad, y será necesario evaluar donde se encuentra ese nivel en cada caso concreto. La valoración de este aspecto de la constitución de un SIG es una de las mejores ocasiones donde recordar el refrán: “lo mejor es enemigo de lo bueno”.

En todas las fases de la realización de un proyecto SIG se producer errores que pueden afectar seriamente al resultado, en la figura 36.2 aparecen relacionados

1ª FASE: Descripción y Definición de Objetivos

.- Errores en la estimación de necesidades

2ª FASE: Diseño de la Base de Datos

.- Errores de recopilación .- Errores en las fuentes de datos .- Errores de diseño

3ª FASE: Obtención de la información necesaria

.- Errores de digitalización/vectorización .- Errores en las entidades geográficas

4ª FASE: Gestión, Corrección Manipulación de Datos

.- Errores de precisión númerica .- Errores de precisión espacial

5ª FASE: Realización de Análisis Geográfico

.- Propagación de errores por superposición .- Falsos polígonos o slivers .- Errores de borde de mapas .- Errores en reasignación atributos calculados

6ª FASE: Presentación de Resultados

.- Errores de escalado .- Errores de los periféricos de salida

Figura 36.2 Errores en las distintas fases de un SIG (modificado de Aronoff, 1989)

algunos de ellos. Resulta imprescindible realizar la advertencia de que un error no es una equivocación. Aunque todas aquellas personas que han trabajado con cartografía y/o topografía están muy al corriente de este aspecto parece interesante recordar que un error es el resultado no deseado obtenido tras la realización de uno o varios

UNIDAD II: Estructuración de la información.

3 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

procedimientos deacuerdo a sus estipulaciones y con sumo cuidado y precisión, mientras que una equivocación es también un resultado no deseado que se deriva del no cumplimiento de alguno de los requisitos o condiciones del procedimiento, la diferencia fundamental entre error y equivocación es que el primero es inevitable, en tanto que la segunda, aunque fortuita si se puede evitar.

PARAMETROS DE CALIDAD DE LOS DATOS GEOGRÁFICOS

Debido a la gran importancia de la calidad de los datos geográficos, se han realizado diversos esfuerzos para poder llegar a un acuerdo común en el uso de una serie de parámetros que sirvan no tanto para la total eliminación de los errores sino para poner de manifiesto cómo tratarlos y cómo trabajar con su existencia.

En la figura 36.3 se muestran los parámetros que afectan a la calidad de los datos, que pueden dividirse en tres grandes grupos (Aronoff, 1989) que se analizarán sucintamente a continuación. 4.

PARAMETROS INDIVIDUALES a.

Exactitud: i.

ii.

5.

1.

Absoluta

2.

relativa

De atributos

b.

Consistencia lógica

c.

Resolución

PARAMETROS GLOBALES a.

6.

Posicional:

Amplitud: i.

De cobertura

ii.

De clasificación

iii.

De verificación

b.

Tiempo

c.

Procedencia de los datos

d.

Integridad

PARAMETROS DE GESTIÓN a.

Accesibilidad

b.

Costes directos e indirectos

Figura 36.3 Parámetros que afectan a la calidad de un SIG (Aronoff, 1989)

UNIDAD II: Estructuración de la información.

4 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

PARAMETROS INDIVIDUALES

Son los que hacen referencia a un solo dato y no al conjunto de la base de datos. Analizan la calidad de cada dato individual en sí mismo. Según la clasificación antes descrita, los parámetros individuales a considerar son: 1.

Exactitud: a.

b.

Posicional: i.

Absoluta

ii.

relativa

De atributos

2.

Consistencia lógica

3.

Resolución

1.a.- Exactitud 1 posicional: si el procedimiento se dirige a la comprobación de la desviación entre la posición de un objeto en la base de datos geográfica y su verdadera posición territorial, se trata de la exactitud posicional absoluta, en cambio, cuando se refiere a la desviación entre las posiciones de varios elementos de la base de datos entre sí es exactitud posicional relativa. Existen varios métodos que permiten la comprobación de la exactitud posicional. Así, existen procedimientos de estimación deductiva (revisando errores que se han acumulado con los pasos seguidos en el proceso de introduccción de datos mediante la verificación de cada uno), métodos de evidencia interna (comprobación repetitiva de datos existentes en la base), método de comparación con la fuente de datos (verificación de la bondad de los datos con la fuente original de los mismos) y método de comparación con una fuente de datos de mayor exactitud.

1

Diferencia entre exactitud y precisión: son dos términos equivalentes que incluso pueden ser

encontrados como sinónimos en los diccionarios, sin embargo, en cartografía y desde luego en lo que sigue del curso de Sistemas de Información Geográfica tienen significados radicalmente diferentes. Así, la exactitud es la proximidad o lejanía del valor expresado por un dato respecto del real, mientras que la precisión es la calidad de esa aproximación, con un ejemplo queda mucho más claro. Supongamos una tabla cuya longitud real es de 2.035 milimetros, si digo que la tabla mide dos metros (2,0 mts.) he sido muy exacto, ya que efectivamente mide dos metros, pero muy poco preciso, ya que los 35 milimetros restantes no son tenidos en cuenta. En cambio, podría aportar el dato de que la tabla mide 2,152 mts., en cuyo caso, estoy siendo muy preciso, ya que llego a definir hasta los milimetros, pero no estoy siendo nada exacto, porque el valor del dato de la longitud de la tabla se desvía mucho del valor real. UNIDAD II: Estructuración de la información.

5 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

1.b.- Exactitud de atributos: el objetivo ahora consiste en la comprobación de que los atributos introducidos en la base de datos describen fielmente a cada elemento del sistema deacuerdo al modelo territorial establecido con anterioridad. Los métodos para realizar estas comprobaciones son equivalentes a los usados para la comprobación de la exactitud posicional. Cuando los atributos temáticos representan variables cuantitativas como altitud o el número de habitantes se sabe que la información no es del todo exacta, se asume que existe un nivel de error en la medición; en caso de variabales cualitativas también se conoce previamente la existencia de un determinado nivel de inexactitud, por ejemplo al asignar clases de vegetación o de suelos, se sabe que un polígono que se ha clasificado de bosque de ribera puede contener un tanto porciento de superficie con especies que no lo son.

2.- Consistencia Lógica: a veces, debido a los procedimientos de entrada de datos o a algún otro factor se producen inconsistencias entre las relaciones lógicas de los datos. Así puede ocurrir que una parcela cultivable carezca de propietario, o que un monte público tenga un propietario privado, a veces pueden ocurrir casos de “falsos polígonos” que provocan situaciones tan extravagantes como la existencia de una pequeña extensión de suelo urbanizable en el interior de una Zona Especialmente Protegida o inconsistencias similares. Los métodos para la realización de esta verificación son múltiples y suelen ser mucho más variados y dependientes del sistema en cuestión que los expresados en apartados anteriores. Este tipo de errores suelen ponerse de manifiesto cuando el sistema crea topología y habitualmente las aplicaciones tienen herramientas especialmente diseñadas para ponerlos de manifiesto e incluso corregirlos de manera automática o semiautomática.

3.- Resolución. En un mapa, la resolución se define como la unidad más pequeña que puede ser representada o visualizada en dicho mapa, como es evidente, es necesario considerar la escala a la que esta el mapa, y aplicandola se obtiene un valor del mínimo dato real que se puede representar 2 . En el caso de los SIG hay que tener en

2

Se estable el límite de visión por un ojo humano medio como la cantidad de 0,2 milimetros observados

en un papel , es decir, que el ojo humano no es capaz de distinguir dos líneas cuya separación sea inferior a 0,2 milímetros, luego las vería como una sola línea. Siendo así, si la escala de un mapa es 1/M, la precisión del mismo es P = 0,2 * M milímetros. UNIDAD II: Estructuración de la información.

6 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

cuenta que existe una gran independencia entre los datos de la base de datos y las representaciones que se quiera hacer de ellos, sin embargo, la resolución del sistema, que se fija en el inicio del proceso de diseño del mismo tiene un concepto semejante al explicado para un mapa. Así, la resolución del sistema será la que se haya definido al principio, y las representaciones que se obtengan de los datos no podrán tener otra precisión que esa. Se ilustrará la explicación con un ejemplo. Supongase el caso de la representación de una carretera; por diversas razones se ha tomado como resolución el valor de un metro, es decir, los datos que se almacenaron en el sistema se tomaron en campo con estacas situadas a un metro de distancia unas de otras, de manera, que el eje de la carretera se constituye por una línea que esta compuesta de segmentos que unen las distintas estacas. Si todos estos datos están introducidos en un SIG, probablemente se tendrán las herramientas oportunas para realizar representaciones a la escala que se desee. por ejemplo la escala 1:100, y es evidente (ver nota 2) que a esa escala la unidad mínima visible es mucho menor que un metro, pero no se podrá realizar una representación con mayor resolución, ya que el sistema tendría que “inventar” el dato entre un punto y otro. Por otra parte, tampoco tendría ningún sentido representar esa carretera a escala 1/25.000, pues la mayoría de los puntos quedarían tan próximos que no sería posible distinguir unos de otros. Pese a que ambas representaciones pueden realizarse (la primera representara un eje segmentado y la segunda un barullo) el SIG tiene una resolución

PARAMETROS GLOBALES

Los parámetros globales analizan la calidad del conjunto formado por los datos. La calidad de cada dato individual no garantiza por si misma la calidad de la base de datos formada. Para evaluar esta deben analizarse los siguientes parámetros: 1.

2.

Amplitud: i.

De cobertura

ii.

De clasificación

iii.

De verificación

Tiempo

3.

Procedencia de los datos

4.

Integridad

1.- Amplitud: se puede clasificar la amplitud en tres categorías, de cobertura: hace referencia a la cantidad de tipos de datos que están disponibles para el conjunto UNIDAD II: Estructuración de la información.

7 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

representado, por ejemplo, para un SIG de búsqueda de emplazamientos óptimos lo más adecuado es contar con una gran amplitud de cobertura, es decir “que proporcione amplia información sobre el territorio”: edafología, geologia, vegetación, pendientes, clasificaciones administrativas, tipo de propiedad, propietarios etc. En el caso expuesto, no se tendrá una buena base de datos SIG de no tener una gran amplitud de cobertura, a pesar de que los datos individualemte tengan muy buena calidad. Amplitud de clasificación: se refiere al nivel hasta el cual la clasificación que se ha establecido para la toma de datos refleja con la exhaustividad requerida la realidad. Así se puede haber establecido una clasficación de vegetación en tres clases: pinar, matorral y bosque caducifolio, si aparece por ejemplo un rodal de bosque de coníferas distinto del pinar establecido no se podrá representar. Lo que hace imprescindible una buena clasificación previa con verificación de la exahustiva clasificación o bien que se realice de forma flexible de manera que permita la introducción de una nueva clase si aparece. Amplitud de verificación: Esta amplitud se refiere al número de comprobaciones que se llevan a cabo con los datos introducidos en la base.

2.- Tiempo: se refiere al momento en que han sido tomados los datos. En según que casos, el control de este aspecto cobra una importancia primordial. Por ejemplo una toma de datos sobre la presencia de una determinada plaga puede desvirtuarse totalmente de haberse realizado a lo largo de dos estaciones diferentes. Suelen ocurrir errores de la falta de atención a este aspecto, ya que los organismos oficiales proporcionan datos con una determinada periodicidad como datos censales, catastrales etc. y no siempre se utiliza adecuadamente. Por otra parte, este aspecto es de vital importancia en sistemas que se dedican a la gestión y mantenimiento, ¡sería impensable por ejemplo un SIG que realizara operaciones de caminos optimos para la reposición en un almacen hoy con el inventario del mismo actualizado a la semana pasada!

3.- Procedencia: se evalua la historia de los datos, cómo y de donde han sido obtenidos y de que forma se han incorporado a la base de datos.

4.- Integridad: durante la creación de la base de datos es necesario establecer y seguir ciertos criterios para que resulte coherente y homogénea. Estos criterios hacen UNIDAD II: Estructuración de la información.

8 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

referencia a aspectos como elementos de la realidad que se deben incluir y cuales no, clases en las que se divide una variable etc. Fijar y aplicar estos criterios adecuadamente conduce a una base de datos homogénea en su totalidad.

PARAMETROS DE GESTIÓN. Aunque no deben ser entendidos estrictamente como parámetros para el control de calidad de los datos, se hace referencia a ellos ya que repercuten directamente sobre la calidad global del conjunto de datos del sistema. Si un dato necesario para el sistema tiene mucha calidad bajo todos los parámetros anteriores pero no se encuentra accesible en el momento y en los lugares en que es necesario esto repercutirá directamente en la calidad que de dicho dato depende. Así mismo ocurre con los costes directos e indirectos relacionados con los datos a obtener, que pueden transformar la calidad de un dato por el simple hecho de convertir en no rentable (en coste, tiempo u otros recursos) su adquisición.

UNIDAD II: Estructuración de la información.

9 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

RESUMEN DEL TEMA.

En la fase de la creación de la base de datos SIG se pueden cometen errores en cualquiera de las fases a realizar (ver figura 36.1), por ello es necesario realizar un control de calidad preestablecido controlando distintos parámetros en los diversos procedimientos que intervienen en dichas fases.

Según las fases del trabajo, se suelen cometer los siguientes errores, asociados como puede comprobarse con los procedimientos de trabajo:

1ª FASE: Descripción y Definición de Objetivos

.- Errores en la estimación de necesidades

2ª FASE: Diseño de la Base de Datos

.- Errores de recopilación .- Errores en las fuentes de datos .- Errores de diseño

3ª FASE: Obtención de la información necesaria

.- Errores de digitalización/vectorización .- Errores en las entidades geográficas

4ª FASE: Gestión, Corrección Manipulación de Datos

.- Errores de precisión númerica .- Errores de precisión espacial

5ª FASE: Realización de Análisis Geográfico

.- Propagación de errores por superposición .- Falsos polígonos o slivers .- Errores de borde de mapas .- Errores en reasignación atributos calculados

6ª FASE: Presentación de Resultados

.- Errores de escalado .- Errores de los periféricos de salida

Por otra parte, se deben fijar unos parámetros que se puedan controlar o medir a lo largo del proceso para que se pueda fijar el nivel de calidad de los datos. Aunque en cada sistema y cada gestor puede utilizar sus propios parámetros para contrastar la calidad de los datos, se ha expuesto la categorización realizada por el “Data Set Quality Working Group” del Comité Nacional para los Estándares en Datos UNIDAD II: Estructuración de la información.

10 de 11

LECCIÓN 36: CONTROL DE CALIDAD DE LA INFORMACIÓN

Cartográficos de los Estados Unidos, recopilado y comentado por Aronoff, 1989 y Antenucci et alii, 1991. Estos son 3 : 1.

PARAMETROS INDIVIDUALES a.

Exactitud: i.

ii.

2.

3

1.

Absoluta

2.

relativa

De atributos

b.

Consistencia lógica

c.

Resolución

PARAMETROS GLOBALES a.

3.

Posicional:

Amplitud: i.

De cobertura

ii.

De clasificación

iii.

De verificación

b.

Tiempo

c.

Procedencia de los datos

d.

Integridad

PARAMETROS DE GESTIÓN a.

Accesibilidad

b.

Costes directos e indirectos

Algunos de los cuadros han sido ligeramente modificados incluyendo aspectos que se consideran

significativos, sin embargo, toda la base está tomada de los autores citados, por ello se ha preferido citar como literal en lugar de cómo antecedente. UNIDAD II: Estructuración de la información.

11 de 11

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.