Story Transcript
22 Sept. 9.00 h : “Exploración de Datos”
1
Exploración de datos: tipos de datos, representaciones gráficas y funciones de distribución de frecuencias. (F.J. Burguillo, Facultad de Farmacia, Universidad de Salamanca)
Análisis de datos Estadí Estadística aplicada Ajuste de curvas por optimizació optimización Modelizació Modelización matemá matemática
Conocer técnicas:
Herramienta :
•Tests estadísticos
•Hojas de cálculo
•Regresión no lineal
•Paquetes estadísticos
•Análisis multivariante
•SPSS •SIMFIT
Diapositiva 1
Análisis : ajuste de curvas , tests estadísticos…. Exploración de datos Diseño del experimento
Diapositiva 2
1) A modo de introducción al curso podríamos decir que el “Análisis de Datos” se nutre de la Estadística Aplicada, de las técnicas de ajuste de curvas por optimización y de la modelización matemática. Y desde un punto de vista práctico se apoya en dos grandes pilares: por un lado el investigador ha de conocer los fundamentos teóricos de las técnicas estadísticas que va a utilizar y por otro ha de disponer de la herramienta informática adecuada (Excel, SPSS, SIMFIT.. etc). En este curso abordaremos ambos aspectos, si bien como herramienta usaremos principalmente el paquete estadístico SIMFIT. No obstante, la metodología que vamos a ver es general y sirve para cualquier tipo de programa. 2) Para hacer un buen análisis de datos hay que ir subiendo sistemáticamente unos escalones que no se deben omitir. Lo primero de todo es el diseño del experimento (plantearlo correctamente), viene luego la exploración exhaustiva de los datos obtenidos y por último el análisis propiamente dicho. Veremos brevemente algunas ideas sobre el diseño de experimentos y luego nos centraremos en la exploración de datos que es el tema principal de esta charla.
2
22 Sept. 9.00 h : “Exploración de Datos”
El diseño de un experimento debe comenzar estableciendo una pregunta precisa a la que se quiere contestar e identificando la técnica estadística que se va a emplear para analizar los resultados. Ambos aspectos condicionarán los detalles del experimento y más tarde la interpretación de los resultados. En la diapositiva 3 pueden verse algunos ejemplos sobre este aspecto.
3) Definir Objetivo y técnica
Diseño experimento
• ¿Existe diferencia en la respuesta a dos tratamientos médicos? (comparación de 2 medias por test “t”)
• ¿Cuánto valen la Km y Vmax de una enzima? (ajuste de curvas por regresión no lineal)
Diapositiva 3 En Tests: Tests: Tamaño de muestra
Diseño de experimentos
Tests de contraste de hipótesis ( t , ANOVA, ......)
Riesgo α ( error tipo I ) Riesgo β ( error tipo II ) Potencia prueba 1- β Test “t” 2 muestras Varianza = 1 α= 0.05 β=0.20 d=1
Tamaño muestra: n=21
Diapositiva 4
En ajuste curvas
Diseño de experimentos
• Margen de la variable controlada • Nº de puntos, espaciado, réplicas. • Simulación de la curva, de los tipo de error....etc Espaciado lineal (0.01-1 mM)
Espaciado logarítmico(0.01-1 mM)
Diapositiva 5
4) Si se trata de diseñar experimentos a los que se les va a aplicar un test estadístico, por ejemplo del tipo comparación de 2 medias mediante el test “t”, habrá que calcular “a priori” el tamaño de muestra necesario. Este tamaño será el mínimo número de casos que habrá que utilizar en el estudio si se quiere detectar una determinada diferencia entre las medias (d), si es que existe. Para ello hay que fijar el riesgo α de rechazar la hipótesis nula (no hay diferencia) siendo verdadera y el riesgo β de aceptar la hipótesis nula siendo falsa. Puede verse un ejemplo en la diapositiva 4. 5) Si se trata de diseñar un estudio del tipo ajuste de curvas, por ejemplo velocidad - [Sustrato] para determinar la Vmax y la Km de una enzima, habrá que proyectar el experimento teniendo en cuenta el margen de la concentración de sustrato (normalmente el más amplio posible), el nº de puntos, el espaciado entre ellos…etc. La simulación por ordenador de todos estos factores puede ayudarnos mucho a decidir entre las diferentes opciones. Así, en este tipo de ensayos está más indicado el espaciado logarítmico que el lineal, como puede apreciarse en la diapositiva 5.
22 Sept. 9.00 h : “Exploración de Datos”
Diseño de experimentos
Obtener datos sin artefactos
• Buenas prácticas experimentales: • Hacer bien referencias, blancos, controles • Comprobar exactitud y línea base de aparatos
• Buenas prácticas numéricas: • Elegir unidades para que los valores sean del orden de “ 1 ” (por ej. 3.2 µM es mejor que 3.2.10-6 M) • Trabajar con los valores de todas las réplicas (no sus medias)
3
6) Por último al diseñar un experimento hay que asegurarse de obtener los datos sin artefactos. Existen buenas prácticas experimentales que el investigador debe haber tenido en cuenta (estabilidad de reactivos, hacer bien referencias y blancos...etc), así como buenas prácticas numéricas (anotar las cifras significativas idóneas, expresar los datos en unas unidades tal que los números estén siempre en torno a “1”, para que el ordenador opere con ellos con mayor seguridad y precisión).
Diapositiva 6 El segundo escalón de un buen análisis vimos que era la exploración exhaustiva de los datos. Es algo previo a cualquier análisis que tiene por finalidad el hacernos una idea de las características de los datos. Esta exploración abarca diferentes aspectos que vamos a ir viendo a continuación, como son la tabulación de datos en frecuencias absolutas y relativas, diferentes tipos de gráficos, índices que caracterizan una distribución de frecuencias.... etc.
7)
Exploración de los datos • Tipos de variables • Matriz de datos: frecuencias absolutas y relativas •Tipos de gráficos (histogramas, barras, sectores…)
• Indices de una distribución: media, mediana,varianza, cuartiles, asimetría, curtosis… •Leyes de distribución de probabilidad (normal, binomial) • Pruebas de normalidad (KS,SW) e igualdad de varianzas (F) • Correlación entre variables
Diapositiva 7 En cuanto a los tipos de variable que podemos tener, ésta puede ser de dos tipos: cuantitativa y cualitativa. A su vez una variable cuantitativa se llamará continua cuando pueda adoptar cualquier valor numérico dentro de un intervalo (por ej. la concentración) y discreta cuando sólo puedo adoptar ciertos valores enteros (por ej. nº de fracturas). Por su parte las variables cualitativas o categóricas se dividen en ordinales, cuando las categorías siguen una gradación (por ej. la intensidad del dolor) y nominales con dos o más categorías no ordenadas (por ej. Grupo Sanguíneo). Dependiendo del tipo de variable podremos usar unas gráficas u otras y unos tests estadísticos u otros.
8)
Tipos de variable
Exploración de datos
Variable cuantitativa Continua
Discreta
Concentración
Nº de fracturas
(1.25, 2.54,…mM)
(1 ,2 , 3,...,7,...)
Variable cualitativa (categórica) Ordinal Dolor ( 1= leve 2=moderado 3=severo )
Diapositiva 8
Nominal Grupo sanguíneo (0, A, B, AB)
4
22 Sept. 9.00 h : “Exploración de Datos”
Estas variables se pueden haber medido en la población completa (que abarca todo el conjunto de los individuos) o en una pequeña muestra de la población. Normalmente medir variables en la población es inviable y es ahí donde aparece la Estadística, con el fin de medir una variable en una muestra y extender el resultado a toda la población (es lo que se llama inferencia estadística). Esta matización es muy importante, incluso se utiliza una nomenclatura distinta para referirnos a una propiedad de la muestra o de la población. Por ejemplo la media de la población se suele denotar con la letra µ y la de la muestra con x .
9) Población y muestra
Exploración de datos
Población
Muestra
Conjunto todos los individuos
Subconjunto individuos
Inferencia estadística
(x )
Media (µ)
Media
Desviación Estándar (σ)
Desviación Estándar (s)
Diapositiva 9
Después de medir una serie de variables en una muestra, sus valores se recopilan en una tabla que se llama la matriz de datos. Las filas representan cada uno de los casos y las columnas las variables. Los datos así presentados no nos dicen mucho, habrá que agruparlos por intervalos, tabular su frecuencia absoluta y relativa, representarlos gráficamente ...etc. Todo esto dependerá del tipo de variable de que se trate como se verá a continuación.
10) Matriz de datos
Exploración de datos
Sexo Grup.S.
P.Sistol.
P. Diast.
H
A
13.5
8.8
Nº fracturas 2
Dolor 1
Colesterol 140
M
B
13.4
7.2
1
3
170
M
AB
16.3
7.8
3
2
120
H
A
13.8
6.8
4
1
135
M
B
14.7
8.3
2
1
270
H
B
9.3
7.3
3
2
240
M
A
12.8
7.9
1
3
150
M
O
10.8
8.2
4
1
210
H
A
13.8
7.9
3
2
350
….
….
….
….
….
….
….
Diapositiva 10 Si la variable es cuantitativa contínua y el número de casos es grande, se trata de reducir la información agrupando los valores en intervalos de clase. Se ordenan primero los datos de menor a mayor, luego se establece un número de intervalos adecuados (por ej. 10) y se van contando los valores que caen dentro de cada intervalo. Se llama frecuencia absoluta al número de casos que pertenecen a un mismo intervalo. La frecuencia relativa no es otra cosa que la frecuencia absoluta en cada intervalo dividida por el número total de casos (se expresa en tanto por uno o en %). La frecuencia acumulada se calcula sumando la frecuencia relativa de cada intervalo a la de los intervalos anteriores.
11) Exploración de datos
Tabulación de frecuencias
(Variable cuantitativa continua) Valores
Se ordenan
P. Sist.
P. Sist.
Intervalo de clase
Centro intervalo
Frecuencia absoluta
Frecuencia relativa (%)
Frecuencia acumulada (%) 2
13.5
9.3
13.4
10.8
9.30-10.13
9.72
1
2
16.3
11.0
10.13-10.96
10.55
1
2
4
13.8
11.1
10.96-11.79
11.38
3
6
10
14.7
11.1
11.79-12.62
12.21
8
16
26
9.3
11.8
12.62-13.45
13.04
11
22
48
13.45-14.28
13.87
9
18
66
14.28-15.11
14.7
6
12
78
15.11-15.94
15.53
7
14
92
15.94-16.77
16.36
2
4
96
16.77-17.60
17.19
2
4
100
12.8
11.8
10.8
12.1
13.8
12.3
….etc
….etc
Diapositiva 11
22 Sept. 9.00 h : “Exploración de Datos”
5
Más ilustrativo que la tabla de frecuencias por intervalos resulta algún tipo de gráfico, como es la representación de las frecuencias en un histograma normal, histograma acumulativo o diagrama acumulativo en escalera. En el histograma normal la base de cada rectángulo es la longitud del intervalo de clase y la altura es la frecuencia absoluta o relativa. En el acumulativo la base del rectángulo es la longitud el intervalo y la altura es la frecuencia acumulada. En el diagrama acumulativo en escalera, la anchura del escalón se extiende al valor sucesivo de cada variable y su altura es el incremento en la frecuencia acumulada.
12) Histogramas
Exploración de datos
Histograma acumulado
(Variable cuantitativa continua) Histograma normal
7.5
12.5
20
Diagrama frecuencias acumulativas
Diapositiva 12
Si la variable es de tipo cuantitativa discreta (por ej. Nº de fracturas), el procedimiento que se sigue es análogo, sólo que ahora los intervalos lo constituyen las propias categorías de la variable (ver diapositiva 13).
13)
Tabulación frecuencias
Exploración de datos
(Variable cuantitativa discreta) Frecuencia Frecuencia acumulativa relativa (%) (%)
Nº Fracturas
Nº Fracturas
Frecuencia absoluta
0
0
11
22
22
1
1
13
26
48
2
9
18
66
3
7
14
80
4
10
20
100
2 3 4
Diapositiva 13 Con estas variables cuantitativas discretas las gráficas que se suelen utilizar son el diagrama de barras y el diagrama de sectores. La base de la barra es arbitraria e igual para todas y altura de las barra representa la frecuencia absoluta de casos en esa categoría. En el diagrama de sectores, un círculo se divide en tantas partes como categorías hay, de tal manera que el ángulo de los sectores sea proporcional a la frecuencia relativa de cada categoría (Diap. 14). Si la variable es cualitativa, ya sea ordinal (“Dolor”) o nominal (“Grupo Sanguíneo”), los diagramas preferidos son también el de barras y el de sectores.
14) Exploración de datos
Barras y sectores
(Variable cuantitativa discreta) Diagrama de barras
Diagrama de sectores
Diapositiva 14
6
22 Sept. 9.00 h : “Exploración de Datos”
Indices de una distribución
Exploración de datos
(Variable cuantitativa continua medida en la población)
De tendencia central
Media : µ =
De dispersión
∑x
Recorrido : xmax − xmin
i
n Varianza : σ 2 =
Mediana : valor central de la serie ordenada :
∑(x − µ)
2
i
n
9.3,10.8,11.0,......13.5......14.3,...17.6 Mitad inferior
Mediana
Desviación estándar : σ = σ 2
Mitad superior
Moda : valor con mayor frecuencia
Coeficiente variación: C.V. =
σ ⋅ 100 µ
Diapositiva 15
Indices de una distribución
Exploración de datos De posición :
Cuartiles: valores que dividen a los datos en 4 partes iguales Se ordenan los valores de menor a mayor
9.3,10.8,11.0,....12.6….13.0,13.3,13.3…..13.5,….14.0,14.1,14.3,…14.7….16.3,17.5,17.6
Q1=12.60
Q3=14.78
Q2=13.50
Recorrido intercuartílico: IQR = (Q3-Q1)
Percentiles: son los valores que dividen a los datos en 100 partes iguales ( P20 significa que el 20 % de los valores están por debajo de ese valor)
Hincapié : Q2 = Mediana = P50
Diapositiva 16
Indices de una distribución
Exploración de datos
De forma β1 < 0
Coeficiente de Asimetría:
β1 > 0
β1 = 0
(mide el sesgo de la distribución)
Pearson : β1 =
∑z
3 i
n−1 x −x (siendo zi = i ) s Asimetría negativa
Coeficiente de Curtosis:
Simetría
Asimetría positiva
(mide el grado de aplanamiento)
Pearson : β 2 =
∑z
4 i
n−1 xi − x (siendo zi = ) s
β2 > 0
β2 = 0
β2 < 0
−3
Leptocúrtica
Mesocúrtica (normal)
Diapositiva 17
Platicúrtica
15) Para caracterizar una distribución de frecuencias existen varios índices. En el caso de una variable cuantitativa continua éstos pueden ser de cuatro tipos: de tendencia central, de dispersión, de posición y de forma. Los de tendencia central miden alrededor de qué valores se agrupan los datos; son los conocidos como media, mediana y moda. Los de dispersión miden si los valores se concentran o desvían respecto a los valores centrales; son el recorrido, la varianza, la desviación estándar y el coeficiente de variación. Las definiciones de todos estos índices pueden verse en la diapositiva 15, donde la nomenclatura se refiere al caso de medidas en una población. 16) Los índices de posición sirven para indicar la situación relativa de un caso dentro de la población. Así los cuartiles son aquellos tres valores que dividen a la distribución de los datos en cuatro partes con igual número de casos en cada una. Los percentiles por su parte son los 99 valores que dividen a la distribución en 100 partes iguales. Si el percentil 80 de una determinada variable es 17.2, esto significa que un 80 % de los sujetos tienen valores iguales o inferiores a 17.2. Es interesante hacer hincapié en que el segundo cuartil, la mediana y el percentil 50 coinciden en el mismo valor. 17) Para medir la forma de la distribución existen dos índices llamados de asimetría y de curtósis. El coeficiente de asimetría expresa el grado de sesgo de la distribución. En la asimetría negativa la distribución esta sesgada hacia la derecha, de manera que la mediana y la moda están a la derecha de la media, mientras que en la asimetría positiva el sesgo de la distribución es hacia la izquierda y la mediana y la moda quedan a la izquierda de la media. El coeficiente de curtosis mide el grado de aplanamiento de la distribución respecto a una curva modelo que es la curva normal o Gaussiana. Las definiciones de estos índices pueden verse en la diapositiva 17.
22 Sept. 9.00 h : “Exploración de Datos”
Exploración de datos P. Sistólica
15.5
14.5
Diagrama de caja
Valores atípicos superiores (más de 1.5 IQR desde Q3) Valor superior que no llega a ser atípico (adyacente superior)
1.5 IQR Q3
13.5
12.5
11.5
Caja contiene el 50 % casos centrales
IQR = Q3-Q1
Mediana
Q1 1.5 IQR
Valor inferior que no llega a ser atípico (adyacente inferior)
Valores atípicos inferiores (más de 1.5 IQR desde Q1)
Diapositiva 18 Exploración de datos
De histograma a función de densidad de probabilidad
Curva o función de densidad de probabilidad (pdf)
7
18) Un diagrama interesante en la exploración de datos es el llamado diagrama de caja (o de Box-Whisker). El diagrama incluye una caja que abarca la distancia entre el primer y tercer cuartil. La mediana se representa como una línea en el interior de la caja. Unos segmentos arriba y abajo (whiskers) representan los valores superior e inferior que no llegan a ser atípicos. En los extremos se representan en forma de puntos los atípicos superiores e inferiores (valores que se desvían del tercer (Q3) y primer cuartial (Q1) más de un recorrido intercuartílico (IQR=Q3-Q1). Todo esto da información sobre el grado de dispersión y asimetría de la distribución. 19) Imaginemos un histograma con un número finito de casos en el que hemos representado en ordenadas la frecuencia relativa. ¿Qué ocurre si vamos aumentando el número de casos y estrechando los intervalos hasta el límite del infinito? Como puede verse en la diapositiva 19, se llega a un histograma límite en forma de una curva suave, esta curva recibe el nombre de función de densidad de probabilidad, a menudo escrita como pdf (probability density function).
Diapositiva 19
Exploración de datos
Funciones pdf y cdf
b
pdf
cdf
Pr( a < x < b) = ∫ f ( x )dx a
Pr( a < x < b) = ∫
Diapositiva 20
b
−∞
f ( x )dx − ∫
= F (b) − F ( a )
a
−∞
f ( x )dx
20) Las propiedades de una pdf se basan en que es un caso límite de un histograma en el que el eje de ordenadas se representa la frecuencia relativa: a) El área total bajo la curva pdf vale la unidad (probabilidad unidad). b) El área bajo la curva entre dos puntos a y b es la probabilidad de que el valor de la variable aleatoria X caiga entre a y b. También es útil la llamada función de distribución acumulativa, a menudo escrita como cdf (cumalative distribution function), que es la curva límite de un histograma acumulativo. La cdf nos proporciona la probabilidad de un valor de la variable aleatoria X sea ≤ que un cierto valor x: F(x)=Pr(X>0.05), luego no se rechaza la hipótesis nula y por tanto los datos reales y los teóricos de una distribución normal no son significativamente diferentes. A la misma conclusión se llega con el test de Shapiro-Wilks con una p= 0.8929 (p >>0.05). Nuestros datos, pués, siguen una distribución normal.
30) Exploración de datos
Tests de normalidad
(caso práctico)
p > 0.05
Acepte normalidad
p > 0.05
Acepte normalidad
Diapositiva 30 En la exploración de datos es frecuente sospechar que puedan existir valores atípicos (valores más extremos que los esperados de una distribución normal) que podrían estar sesgando los estadísticos descriptivos de la muestra. Para ello se procede a un análisis llamado “robusto” en el que se excluye un determinado porcentaje de valores extremos por arriba y por debajo de la serie de datos. A su vez aparecen unos nuevos estadísticos que pueden verse en la diapositiva 31.
31)
Exploración de datos
Análisis robusto excluyendo atípicos
(caso práctico)
Análisis robusto de una muestra ======================================================= Datos: Presion sistólica 50 ancianos Tamaño total de muestra = 50 Valor de la mediana = 1.3500E+01 Desviación abs. mediana = 9.0000E-01 Desviación estándar robusta = 1.3343E+00 Media Trimedia (TM) = 1.3623E+01 Estima de varianza para TM = 3.2884E-02 Media de Winsor (WM) = 1.3638E+01 Estima de la varianza para WM = 3.2879E-02 Número de valores descartados = 10 Número de valores incluidos = 40 Percentaje de muestra usado = 80.00% (para TM y WM) Estimador Hodges-Lehmann (HL) = 1.3600E+01
Diapositiva 31
32) Veamos ahora como analiza SIMFIT Exploración de datos (caso práctico 2)
Análisis de una matriz
50 pacientes de Salamanca antes y después de tratamiento P. sist. antes
P.diast.antes P. sist. después
P. diast. después
14.0
6.5
14.0
6.0
12.5
8.0
16.0
9.0
15.0
7.5
14.0
7.0
12.5
7.0
18.0
8.0
12.0
8.0
11.0
6.0
15.0
6.5
11.5
6.0
14.0
7.0
13.0
7.0
….etc
….etc
…etc
…etc
Diapositiva 32
los datos de una matriz de varios casos y varias variables, por ejemplo una matriz de datos de 50 pacientes a los que se han medido sus presiones sistólica y diastólica antes y después de un tratamiento. Obviamente se podría primero ir analizando cada columna por separado en la forma vista más arriba, pero ahora lo importante es centrarnos en la matriz en si.
12
22 Sept. 9.00 h : “Exploración de Datos”
Exploración de datos (caso práctico)
Análisis de una matriz
Diagrama de barras y errores
Diagrama de caja
33) Una exploración gráfica de la matriz siempre resulta interesante. Por ejemplo haciendo una representación de diagrama de barras o de caja. Así, observado el diagrama de caja de la diapositiva 33 se aprecia muy bien el comportamiento de las presiones sistólica y diastólica antes y después del tratamiento.
Diapositiva 33 Es conveniente también ir explorando si las variables siguen una distribución normal y si presentan igualdad de varianzas, ya que estas dos condiciones suelen ser necesarias en posibles análisis ulteriores. Así, en la diapositiva 34 se aprecia que en base al test de Shapiro-Wilks la “presión sistólica antes” si que sigue una distribución normal, pero no así la “presión diastólica antes”. También puede verse como en base a un test “F” hay que rechazar la igualdad de varianzas en ambas presiones sanguíneas.
34) Exploración de datos
(caso práctico)
Normalidad e igualdad de varianzas
Columna 1: Presión Sistólica antes ================================== Shapiro-Wilks W = 9.742E-01 Significance for W = 0.3405 Tentatively accept normality
Columna 2:Presión diastólica antes =================================== Shapiro-Wilks W = 9.459E-01 Significance for W = 0.0231 Reject normality at 5% sig. level
F test for equality of variances ==================================== X-data:Presión Sistolica antes No. of x-values = 50 Mean x = 1.400E+01 Sample variance of x = 2.459E+00 Sample std. dev. of x = 1.568E+00 Y-data: Presión Diastólica antes No. of y-values = 50 Mean y = 7.910E+00 Sample variance of y = 7.621E-01 Sample std. dev. of y = 8.730E-01 Variance ratio = 3.227E+00 Deg. of freedom (num) = 49 Deg. of freedom (denom) = 49 P(F >= Variance ratio) = 0.0000 Conclusion: Reject equality of variances at 1% sig. level
Diapositiva 34 Un último aspecto de interés en la exploración de datos es analizar posibles correlaciones entre todas las variables. Para ello SIMFIT evalúa una matriz que en su parte superior presenta los coeficientes de correlación y en la inferior los valores “p” de significancia. En este caso puede observarse que existe correlación (p < 0.05) entre las columnas 1 y 2, 1 y 3, 2 y 4 y 3 y 4 (Diap. 35). SIMFIT también permite representar las dos rectas de regresión (de “y” sobre “x” y de “x” sobre “y”) para todas las combinaciones de las variables. Cuanto más cerca están las dos rectas mayor es la correlación entre variables.
35) Exploración de datos (caso práctico)
Correlación entre variables
Triángulo superior = r Inferior = valor "p" de 2 colas
1 2 3 4
1 2 3 4 ..... 0.3354 0.5351 0.1511 0.0173 ..... 0.2089 0.5040 0.0001 0.1454 ..... 0.5047 0.2948 0.0002 0.0002 ..... 1 con 3
1 con 2
2 con 4
Diapositiva 35
3 con 4
22 Sept. 9.00 h : “Exploración de Datos”
13