EXTRA-QC (sobre Rclimdex)

EXTRA-QC (sobre Rclimdex) Una extensión de las rutinas de control de calidad de RClimdex Por: Enric Aguilar Anfrons, Center for Climate Change, C3, Un

5 downloads 124 Views 1MB Size

Story Transcript

EXTRA-QC (sobre Rclimdex) Una extensión de las rutinas de control de calidad de RClimdex Por: Enric Aguilar Anfrons, Center for Climate Change, C3, Universidad Rovira i Virgili de Tarragona (España)

WMO-CCl-ET-CRSCI Workshop on applications of climate indices to the Agriculture, Water and Health sectors, CIIFEN, Guayaquil, Junio 2013.

EN ESTA PRESENTACIÓN • • • •

Por y para qué QC: DARE Por qué se producen errores El proceso del QC Qué es y que contiene extraqc

RESCATE DE DATOS, DARE • Dato: información cimática valiosa • Rescate: localizar datos, preservarlos y convertirlos en un formato perdurable y utilizable • Hay millones de observaciones que fueron tomadas en el pasado y se encuentran en formatos no analizables; su digitalización supondría un mejor análisis climático • Algunos de estos registros no están localizados o se encuentran en peligro; otros se encuentran bien preservados, pero se necesita un esfuerzo para su digitalización • Llamamos DARE al conjunto de operaciones consistemente en localizar, inventariar, preservar y digitalizar series de datos climáticos.

Background picture taken at IMD library in Pune, India

FUENTES DE ERROR • Un dato es (y ha sido a lo largo de la historia): – Observado: Un instrumento meteorológico (como un termómetro, un pluvómetro o una EMA) registran un valor – Anotado (un observador lo anota en una ficha de papel) – Convertido a formato digital: escaneado, tecleado, o – en tiempos modernos – cargado a un datalogger – Sometido a cálculos: se deriva, por ejemplo, la temperatura media diaria a partir de la máxima y la mínima – Incorporado a uno o varios bancos de datos, como los de los servicios meteorológicos o ECA&D y LA&CAD Dichos bancos presentan sus propios formatos y códigos que cualquier usuario debería conocer – Sometido a extraccciones y reformatos (para este taller, se requieren datos organizados en un fichero por estación, un registro por día, seis campos por registro, aaaa,mm,dd, rr,tx,tn)

MI VIDA COMO DATO DE PRECIPITACIÓN • • • •

• •



Me observaron el 29 de febrero de 1904 en un pluviómetro Hellman a las 7 horas, hora locaL. El observador anotó que – durante las anteriores 24 horas habían caído 2 pulgadas de lluvia. 100 años más tarde, la hoja de papel en la que me encontraba, fue escaneada Unos años más tarde fui leído y tecleado en una hoja de cálculo, junto con cientos de miles de observaciones más. En la hoja de cálculo se me aplicó un factor de conversión que me transformo en milímetros Más tarde me enviaron a un centro regional, juntamente con información acerca de dónde y cuando fui observado. Me cambiaron de formato y me meteieron en una based de datos SQL, que colgaron en un sitio web. ¡ Ahora todo el mundo puede verme y descargar! Hace un par de semanas, me pidieron que me uniera a otros datos de temperatura y precipitación y me viniera a este workshop. Me bajaron, me metieron eun una hoja de cálculo, me guardaron como texto y me enviaron a Guayaquil!

¿ QUERÉIS PROBAR?

QUÉ ES EL CONTROL DE CALIDAD? • Objectivo : identificar y evaluar errores puntuales que, frecuentemente, son de carácter no sistemático

PROCESO DE QC:

CORRE EL CONTROL DE CALIDAD Y ESTUDIA LOS • Resultados Gráficos • Resultados numéricos

REVISA LOS VALORES IDENTIFICADOS • Compáralos con las observaciones adyacentes de la propia estación • Compáralos con valores de estaciones cercanas • Estudia la coherencia con otras variables

JUICIO EXPERTO • Valida la observación sospechosa o • Conviértela en valor perdido o • Corrígela SOLO si dispones de la fuente original o el valor correcto es muy evidente

Extra-qc TESTS Control de fechas duplicadas

Evaluación de problemas de redondeo

Valores fuera de rango, basados en límites fijos

Outliers, basados en IQR

Diferencias interdiarias

Coherencia entre máxima y mínima

Control de valores consecutivos Extra-QC se presenta en este taller insertado en R-Climdex. Su código puede ser utilizado aisladamente y scriptado para procesamiento masivo

EJECUCIÓN SIMPLE

Aparecerán nuevos ficheros en la carpeta extraqc*: 3 pdf files, coninformación gráfica sobre la calidad de los datos: mystation_boxes.pdf mystation_boxseries.pdf mystation_rounding.pdf 8 ficheros de texto con información numérica sobre la calidad de los datos mystation_duplicates.txt mystation_outliers.txt mystation_tmaxmin.txt mystation_tx_flatline.txt mystation_tn_flatline.txt mystation_toolarge.txt mystation_tx_jumps.txt mystation_tn_jumps.txt

Es recomendable, para usuarios de Windows, crearla previamente o situar Rclimdex_extraqc.R en nuestro directorio de trabajo

-4

-2

0

2

4

UNA VENTAJA DE EXTRAQC

IQR, robusto y resistente. No necesidad de repetir el test ante múltiples outliers

Ouliers detection: validar, codificar como perdido o corregir.

Boxseries: hay algún año raro en las series?

Redondeo: ¿se repite excesivamente un valor decimal?

Flatline test: buscando valores identicos conseccutivos

Duplicados: cada día ocurre una sola vez

Valores demasiado grandes y diferencias diarias excesivas

Tmax debe ser > que tmin

A MODO DE CONCLUSIÓN, LAS REGLAS DEL QC: CORRE EL CONTROL DE CALIDAD Y ESTUDIA LOS • Resultados Gráficos • Resultados numéricos

REVISA LOS VALORES IDENTIFICADOS • Compáralos con las observaciones adyacentes de la propia estación • Compáralos con valores de estaciones cercanas • Estudia la coherencia con otras variables

JUICIO EXPERTO • Valida la observación sospechosa o • Conviértela en valor perdido o • Corrígela SOLO si dispones de la fuente original o el valor correcto es muy evidente

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.