Story Transcript
EXTRA-QC (sobre Rclimdex) Una extensión de las rutinas de control de calidad de RClimdex Por: Enric Aguilar Anfrons, Center for Climate Change, C3, Universidad Rovira i Virgili de Tarragona (España)
WMO-CCl-ET-CRSCI Workshop on applications of climate indices to the Agriculture, Water and Health sectors, CIIFEN, Guayaquil, Junio 2013.
EN ESTA PRESENTACIÓN • • • •
Por y para qué QC: DARE Por qué se producen errores El proceso del QC Qué es y que contiene extraqc
RESCATE DE DATOS, DARE • Dato: información cimática valiosa • Rescate: localizar datos, preservarlos y convertirlos en un formato perdurable y utilizable • Hay millones de observaciones que fueron tomadas en el pasado y se encuentran en formatos no analizables; su digitalización supondría un mejor análisis climático • Algunos de estos registros no están localizados o se encuentran en peligro; otros se encuentran bien preservados, pero se necesita un esfuerzo para su digitalización • Llamamos DARE al conjunto de operaciones consistemente en localizar, inventariar, preservar y digitalizar series de datos climáticos.
Background picture taken at IMD library in Pune, India
FUENTES DE ERROR • Un dato es (y ha sido a lo largo de la historia): – Observado: Un instrumento meteorológico (como un termómetro, un pluvómetro o una EMA) registran un valor – Anotado (un observador lo anota en una ficha de papel) – Convertido a formato digital: escaneado, tecleado, o – en tiempos modernos – cargado a un datalogger – Sometido a cálculos: se deriva, por ejemplo, la temperatura media diaria a partir de la máxima y la mínima – Incorporado a uno o varios bancos de datos, como los de los servicios meteorológicos o ECA&D y LA&CAD Dichos bancos presentan sus propios formatos y códigos que cualquier usuario debería conocer – Sometido a extraccciones y reformatos (para este taller, se requieren datos organizados en un fichero por estación, un registro por día, seis campos por registro, aaaa,mm,dd, rr,tx,tn)
MI VIDA COMO DATO DE PRECIPITACIÓN • • • •
• •
•
Me observaron el 29 de febrero de 1904 en un pluviómetro Hellman a las 7 horas, hora locaL. El observador anotó que – durante las anteriores 24 horas habían caído 2 pulgadas de lluvia. 100 años más tarde, la hoja de papel en la que me encontraba, fue escaneada Unos años más tarde fui leído y tecleado en una hoja de cálculo, junto con cientos de miles de observaciones más. En la hoja de cálculo se me aplicó un factor de conversión que me transformo en milímetros Más tarde me enviaron a un centro regional, juntamente con información acerca de dónde y cuando fui observado. Me cambiaron de formato y me meteieron en una based de datos SQL, que colgaron en un sitio web. ¡ Ahora todo el mundo puede verme y descargar! Hace un par de semanas, me pidieron que me uniera a otros datos de temperatura y precipitación y me viniera a este workshop. Me bajaron, me metieron eun una hoja de cálculo, me guardaron como texto y me enviaron a Guayaquil!
¿ QUERÉIS PROBAR?
QUÉ ES EL CONTROL DE CALIDAD? • Objectivo : identificar y evaluar errores puntuales que, frecuentemente, son de carácter no sistemático
PROCESO DE QC:
CORRE EL CONTROL DE CALIDAD Y ESTUDIA LOS • Resultados Gráficos • Resultados numéricos
REVISA LOS VALORES IDENTIFICADOS • Compáralos con las observaciones adyacentes de la propia estación • Compáralos con valores de estaciones cercanas • Estudia la coherencia con otras variables
JUICIO EXPERTO • Valida la observación sospechosa o • Conviértela en valor perdido o • Corrígela SOLO si dispones de la fuente original o el valor correcto es muy evidente
Extra-qc TESTS Control de fechas duplicadas
Evaluación de problemas de redondeo
Valores fuera de rango, basados en límites fijos
Outliers, basados en IQR
Diferencias interdiarias
Coherencia entre máxima y mínima
Control de valores consecutivos Extra-QC se presenta en este taller insertado en R-Climdex. Su código puede ser utilizado aisladamente y scriptado para procesamiento masivo
EJECUCIÓN SIMPLE
Aparecerán nuevos ficheros en la carpeta extraqc*: 3 pdf files, coninformación gráfica sobre la calidad de los datos: mystation_boxes.pdf mystation_boxseries.pdf mystation_rounding.pdf 8 ficheros de texto con información numérica sobre la calidad de los datos mystation_duplicates.txt mystation_outliers.txt mystation_tmaxmin.txt mystation_tx_flatline.txt mystation_tn_flatline.txt mystation_toolarge.txt mystation_tx_jumps.txt mystation_tn_jumps.txt
Es recomendable, para usuarios de Windows, crearla previamente o situar Rclimdex_extraqc.R en nuestro directorio de trabajo
-4
-2
0
2
4
UNA VENTAJA DE EXTRAQC
IQR, robusto y resistente. No necesidad de repetir el test ante múltiples outliers
Ouliers detection: validar, codificar como perdido o corregir.
Boxseries: hay algún año raro en las series?
Redondeo: ¿se repite excesivamente un valor decimal?
Flatline test: buscando valores identicos conseccutivos
Duplicados: cada día ocurre una sola vez
Valores demasiado grandes y diferencias diarias excesivas
Tmax debe ser > que tmin
A MODO DE CONCLUSIÓN, LAS REGLAS DEL QC: CORRE EL CONTROL DE CALIDAD Y ESTUDIA LOS • Resultados Gráficos • Resultados numéricos
REVISA LOS VALORES IDENTIFICADOS • Compáralos con las observaciones adyacentes de la propia estación • Compáralos con valores de estaciones cercanas • Estudia la coherencia con otras variables
JUICIO EXPERTO • Valida la observación sospechosa o • Conviértela en valor perdido o • Corrígela SOLO si dispones de la fuente original o el valor correcto es muy evidente