Estadística Avanzada y Análisis de Datos Javier Gorgas y Nicolás Cardiel
Curso 2006-2007
Máster Interuniversitario de Astrofísica
1-2
1. Estadística clásica Introducción En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría? ¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?) Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor. La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico).
If your experiment needs statistics, you ought to have done a better experiment (E. Rutherford) En particular, en astrofísica: Nuestras medidas están sujetas a (grandes) errores de medida. Tenemos la manía de observar al límite de las capacidades instrumentales. El método clásico de repetir los experimentos no es aplicable. No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)
1. Estadística clásica Introducción (II) No podemos evitar la estadística: ¿Cómo asignamos errores a nuestros datos? (o los de otros) ¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?) ¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores) ¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…? ¿Qué hacer con las muestras incompletas? (¿límites superiores?) NECESITAMOS DECIDIR Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen. Curso con un enfoque práctico (recetas) • Métodos paramétricos clásicos • Métodos no paramétricos • Estadística bayesiana
1-3
1-4
1. Estadística clásica Programa 1.
Estadística clásica
2.
Introducción a la estadística bayesiana
3.
Cálculo de errores
4.
Regresión lineal
5.
Correlación
6.
Regresión múltiple
7.
Contrastes de hipótesis para una muestra
8.
Contrastes de hipótesis para varias muestras
9.
Análisis de componentes principales
10. Estimación de parámetros 11. Detección de la señal – Surveys 12. Análisis de datos astrofísicos
1-5
1. Estadística clásica
Tema 1 Estadística clásica Introducción Estadística descriptiva Distribuciones de probabilidad Distribuciones discretas de probabilidad Distribución normal Estimación de parámetros poblacionales Distribuciones muestrales de los estadísticos Estimación por intervalos de confianza Contrastes de hipótesis Métodos no paramétricos
1-6
Media aritmética
Media armónica
Media geométrica
Mediana
Media cuadrática
Moda
Me: Valor central (con los datos ordenados de mayor a menor)
Mo: Valor con mayor frecuencia
Varianza Desviación media
Coeficientes de variación Desviación típica
curtosis
asimetría
dispersión
centralización
1. Estadística clásica Estadística descriptiva
Momento de orden r respecto a c
1. Estadística clásica Distribuciones de probabilidad Función de probabilidad para una variable discreta:
Función de densidad para una variable continua:
Función de distribución:
Función de distribución:
media (esperanza matemática)
covarianza
varianza
1-7
1. Estadística clásica Distribuciones discretas de probabilidad Distribución Binomial Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo) donde
Media:
Desviación típica:
Distribución de Poisson Probabilidad de que se den x sucesos (λ = número medio de sucesos) donde
Media:
Desviación típica:
1-8
1. Estadística clásica Distribución normal
Media: µ
Desviación típica: σ
Normal tipificada:
Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con
medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable: cuando
Ej. la distribución binomial tiende a la distribución normal:
Ej. la distribución de Poisson tiende a la distribución normal:
1-9
1. Estadística clásica Estimación de parámetros poblacionales La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas
Estimación puntual
Estimación por intervalos de confianza
Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales: Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional:
El estimador de máxima verosimilitud es el valor de α que hace máximo L Ejemplo: para una distribución normal:
1-10
1. Estadística clásica Distribuciones muestrales de los estadísticos
1-11
Distribución muestral de la media: Si
es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada: tiende a una normal N(0,1) cuando n tiende a infinito
Dsitribución muestral de la diferencia de medias: Si
y
son las medias
muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:
tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito
Distribución muestral de la varianza:
sigue una distribución con n-1 grados de libertad
El estadístico t:
sigue una distribución t de Student con n-1 grados de libertad
Distribución muestral de la razón de varianzas:
sigue una distribución F de Fisher con n1-1 y n2-1 grados de libertad
1. Estadística clásica Estimación por intervalos de confianza Ejemplo: media de una población normal
nivel de confianza
Si la desviación típica es desconocida:
Muestras grandes (n > 30)
Muestras pequeñas
(significado del intervalo de confianza)
1-12
1. Estadística clásica Intervalos de confianza
1-13
1. Estadística clásica Intervalos de confianza
1-14
1-15
1. Estadística clásica Contrastes de hipótesis Formulación de las hipótesis: Hipótesis nula (H0) • Aceptación de la hipótesis nula • Rechazo de la hipótesis nula
vs
Hipótesis alternativa (H1)
los datos no están en contra los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta
Ejemplo: media de una población normal
α: nivel de significación
Contraste bilateral región crítica
Contrastes unilaterales región crítica
región crítica región de aceptación
región de aceptación
región de aceptación
1. Estadística clásica Contrastes de hipótesis
1-16
1. Estadística clásica Contrastes de hipótesis
1-17
1. Estadística clásica Contrastes de hipótesis
1-18
1. Estadística clásica Métodos no paramétricos
1-19
Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ)
Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos). VENTAJAS
DESVENTAJAS
• En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse).
• No usan toda la información disponible.
• Menos suposiciones sobre los datos. • Sirven para datos no numéricos (variables cualitativas y de rango).
• Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores)
• Respuestas rápidas con menos cálculos.
Eficiencia relativa asintótica:
• Válidos para muestras muy pequeñas.
• La conversión a rangos elimina incertidumbres con la escala. • A veces no existe la población (no hay parámetros que estimar).
• Al no haber parámetros, es difícil hacer estimaciones cuantitativas.
para tomar la decisión con el mismo α (típicamente: ARE entre 0.6 y 0.95)
(Ante la duda es más seguro usar métodos no paramétricos)