Curso Andino en Clima y Salud “Uso de Información de Clima para la Salud Pública.”
Análisis de Conglomerados Pietro Ceccato Rémi Cousin The International Research Institute for Climate and Society
Agenda
1. ¿ Por qué conglomerar los datos ? 2. Métodos 3. Ejercicios •
Eritrea
•
Madagascar
¿ Por qué conglomerar los datos ?
El análisis de conglomerados permite clasificar o agrupar datos que tienen características similares en diferentes grupos que se llaman clusters. Cada grupo tiene características bien definidas y diferentes de los otros grupos, lo que permite simplificar una serie de datos grande e identificar nueva información.
Ejemplo de clusters
Distribución espacial y temporal de datos de malaria en Eritrea
Incidencia moderada en el Oeste (pico en Oct)
Incidencia alta en el Oeste (pico en Oct)
Incidencia muy baja (pico en Ene/Oct)
Incidencia moderada en el Este (pico en Ene) Incidencia baja (pico en Oct/ Ene)
Esta nueva clasificación de las incidencias de malaria permite entender las relaciones entre la malaria y las condiciones ambientales, incluso el clima.
Ejemplo de clusters
Descripción de las condiciones ambientales en Eritrea
Ejemplo con la meningitis
Distribución espacial y temporal de los datos de meningitis en Mali, Níger y Burkina Faso
2
1.5
1
Class 1 Class 2 Class 3 Class 4
0.5
0 5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-0.5
Esta nueva clasificación de las incidencias de meningitis permite entender las relaciones entre la meningitis y las condiciones ambientales
Métodos
Ejercicios
• Análisis de conglomerados con la Data Library Ejemplos con datos de malaria en Eritrea y en Madagascar
Ejercicio : Datos de Eritrea
• Análisis de Conglomerados Acceder y visualizar los datos de Eritrea http://iridl.ldeo.columbia.edu/expert/ home/.ciph/.Eritrea/.malaria/.climatology9 6-03/malaria_incidence/
Ejercicio : Datos de Eritrea
Hay 59 Distritos con promedios mensuales (Ene-Dic) de datos de incidencia de malaria para el periodo 1996-2003
Ejercicio : Datos de Eritrea
Haga un clic sobre para visualizar los datos
o sobre Tables
Ejercicio : Datos de Eritrea
Algunos distritos tienen valores altos de incidencia durante el periodo Sep-Oct-Nov, otros distritos en Ene-Feb. Algunos distritos tienen mas incidencia que otros.
Ejercicio : Datos de Eritrea
• Cálculo del análisis de conglomerados con la función k-means136 expert home .ciph .Eritrea .malaria .climatology96-03 malaria_incidence [district][T]5 k-means136 http://iridl.ldeo.columbia.edu/expert/ home/.ciph/.Eritrea/.malaria/.climatolo gy96-03/malaria_incidence%5Bdistrict %5D%5BT%5D5/k-means136/
Ejercicio : Datos de Eritrea
Ejercicio : Datos de Eritrea
Haga clic sobre kmeanview para visualizar los resultados
Ejercicio : Datos de Eritrea
Ejercicio : Datos de Eritrea
Para visualizar la clasificación de los distritos
Haga clic sobre Tables
Ejercicio : Datos de Eritrea
Visualizando cuáles distritos pertenecen a cuál grupo :
Ejercicio : Datos de Eritrea
Para visualizar las series temporales de cada cluster :
Haga clic sobre Ts
Ejercicio : Datos de Eritrea
Para visualizar las series temporales de cada cluster :
Haga clic sobre
Ejercicio : Datos de Eritrea
Para visualizar las series temporales de cada cluster :
Cambie de cluster
Ejercicio : Datos de Eritrea
Para visualizar las series temporales de cada cluster :
Ejercicio : Datos de Eritrea
• Para visualizar los distritos : Añada la información espacial de los distritos expert home .ciph .Eritrea .malaria .climatology96-03 malaria_incidence [district][T]5 k-means136 MOH_SubZobas .the_geom add_variable
• Análisis de conglomerados con la DL Acceder y visualizar los datos de malaria de Madagascar
http://iridl.ldeo.columbia.edu/expert/ home/.ciph/.Madagascar/.malaria/.geolocated /incid/ Hay datos faltantes entonces hay que rellenarlos antes de hacer el análisis
Ejercicio : Datos de Madagascar
Hay 27 Distritos con datos mensuales de incidencia de malaria para el periodo Ene 1993 a Dic 2005
Ejercicio : Datos de Madagascar
Haga un clic sobre para visualizar los datos
o sobre Tables
Ejercicio : Datos de Madagascar
Hay datos faltantes que deben ser sustituidos antes de hacer el análisis.
Ejercicio : Datos de Madagascar
Un método disponible para sustituir los datos faltantes : el Análisis en Componentes Principales (Singular Value Decomposition – SVD) expert home .ciph .Madagascar .malaria .geolocated incid dup [district][T]svd
Se puede construir series temporales completas expert home .ciph .Madagascar .malaria .geolocated incid dup [district][T]svd a: .Ss :a: .Ts :a mul [ev]0.0 sum replaceNaN http://iridl.ldeo.columbia.edu/expert/ home/.ciph/.Madagascar/.malaria/.geolocated/incid/ dup%5Bdistrict%5D%5BT%5Dsvd/a:/.Ss/:a:/.Ts/:a/ mul%5Bev%5D0.0/sum/replaceNaN/
Ejercicio : Datos de Madagascar
Se obtiene une nueva base de datos sin datos faltantes
• Ahora se puede hacer el análisis de conglomerados : el ciclo estacional expert home .ciph .Madagascar .malaria .geolocated incid dup [district][T]svd a: .Ss :a: .Ts :a mul [ev]0.0 sum replaceNaN yearly-climatology [district][T] 2 k-means136 the_geom add_variable