Estadística Avanzada y Análisis de Datos

1-1 1. Estadística clásica Estadística Avanzada y Análisis de Datos Javier Gorgas y Nicolás Cardiel Curso 2006-2007 Máster Interuniversitario de A

Author: Tomás Naranjo Villalba

38 downloads 30 Views 991KB Size

Report

DOWNLOAD PDF

Recommend Stories

FOCUSING Y TERAPIAS DE AVANZADA

TERMODINÁMICA AVANZADA

Contenido TERMODINÁMICA AVANZADA ! ! ! Unidad I: Propiedades y Leyes de la Termodinámica ! ! ! Efecto de Joule-Thomson ! Volumen de control ! !

MODELO DE GESTIÓN AVANZADA

MODELO DE GESTIÓN AVANZADA AS CLI E ON RATEGI T A ES PER S E S NT AD OV AC IÓN ED INN RESULTADOS S I C O MODELO DE GESTIÓN AVANZADA

Manufactura avanzada

Programación Avanzada

UNIVERSIDAD DE LA REPÚBLICA | ADMINISTRACIÓN NACIONAL DE EDUCACIÓN PÚBLICA Programación Avanzada PRÁCTICO 4 Parte 1: Generación Parcial de Código Ej

Técnica Avanzada de Diseño

VALVULAS DE RETENCION DE CLAPETA Técnica Avanzada de Diseño 4 Guía de Centraje en línea; facilita las operaciones de centraje y montaje al instalador

Contabilidad Financiera Avanzada

SPAN 215 REDACCIÓN AVANZADA

SPAN 215 REDACCIÓN AVANZADA Universidad del Este, Universidad Metropolitana, Universidad del Turabo © Sistema Universitario Ana G. Méndez, 2008 Derec

GESTION ESTRATEGICA AVANZADA

KUDEAKETING GESTION ESTRATEGICA AVANZADA www.kudeaketing.es Autor: Martin Iturricastillo Plazaola GESTION ESTRATEGICA AVANZADA INDICE: CAPITULO 1

INSUFICIENCIA CARDIACA AVANZADA

Story Transcript

1-1

1. Estadística clásica

Estadística Avanzada y Análisis de Datos Javier Gorgas y Nicolás Cardiel

Curso 2006-2007

Máster Interuniversitario de Astrofísica

1-2

1. Estadística clásica Introducción En ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría? ¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?) Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor. La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico).

If your experiment needs statistics, you ought to have done a better experiment (E. Rutherford) En particular, en astrofísica: Nuestras medidas están sujetas a (grandes) errores de medida. Tenemos la manía de observar al límite de las capacidades instrumentales. El método clásico de repetir los experimentos no es aplicable. No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)

1. Estadística clásica Introducción (II) No podemos evitar la estadística: ¿Cómo asignamos errores a nuestros datos? (o los de otros) ¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?) ¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores) ¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…? ¿Qué hacer con las muestras incompletas? (¿límites superiores?) NECESITAMOS DECIDIR Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen. Curso con un enfoque práctico (recetas) • Métodos paramétricos clásicos • Métodos no paramétricos • Estadística bayesiana

1-3

1-4

1. Estadística clásica Programa 1.

Estadística clásica

2.

Introducción a la estadística bayesiana

3.

Cálculo de errores

4.

Regresión lineal

5.

Correlación

6.

Regresión múltiple

7.

Contrastes de hipótesis para una muestra

8.

Contrastes de hipótesis para varias muestras

9.

Análisis de componentes principales

10. Estimación de parámetros 11. Detección de la señal – Surveys 12. Análisis de datos astrofísicos

1-5

1. Estadística clásica

Tema 1 Estadística clásica Introducción Estadística descriptiva Distribuciones de probabilidad Distribuciones discretas de probabilidad Distribución normal Estimación de parámetros poblacionales Distribuciones muestrales de los estadísticos Estimación por intervalos de confianza Contrastes de hipótesis Métodos no paramétricos

1-6

Media aritmética

Media armónica

Media geométrica

Mediana

Media cuadrática

Moda

Me: Valor central (con los datos ordenados de mayor a menor)

Mo: Valor con mayor frecuencia

Varianza Desviación media

Coeficientes de variación Desviación típica

curtosis

asimetría

dispersión

centralización

1. Estadística clásica Estadística descriptiva

Momento de orden r respecto a c

1. Estadística clásica Distribuciones de probabilidad Función de probabilidad para una variable discreta:

Función de densidad para una variable continua:

Función de distribución:

Función de distribución:

media (esperanza matemática)

covarianza

varianza

1-7

1. Estadística clásica Distribuciones discretas de probabilidad Distribución Binomial Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo) donde

Media:

Desviación típica:

Distribución de Poisson Probabilidad de que se den x sucesos (λ = número medio de sucesos) donde

Media:

Desviación típica:

1-8

1. Estadística clásica Distribución normal

Media: µ

Desviación típica: σ

Normal tipificada:

Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con

medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable: cuando

Ej. la distribución binomial tiende a la distribución normal:

Ej. la distribución de Poisson tiende a la distribución normal:

1-9

1. Estadística clásica Estimación de parámetros poblacionales La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas

Estimación puntual

Estimación por intervalos de confianza

Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales: Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional:

El estimador de máxima verosimilitud es el valor de α que hace máximo L Ejemplo: para una distribución normal:

1-10

1. Estadística clásica Distribuciones muestrales de los estadísticos

1-11

Distribución muestral de la media: Si

es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada: tiende a una normal N(0,1) cuando n tiende a infinito

Dsitribución muestral de la diferencia de medias: Si

y

son las medias

muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:

tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito

Distribución muestral de la varianza:

sigue una distribución con n-1 grados de libertad

El estadístico t:

sigue una distribución t de Student con n-1 grados de libertad

Distribución muestral de la razón de varianzas:

sigue una distribución F de Fisher con n1-1 y n2-1 grados de libertad

1. Estadística clásica Estimación por intervalos de confianza Ejemplo: media de una población normal

nivel de confianza

Si la desviación típica es desconocida:

Muestras grandes (n > 30)

Muestras pequeñas

(significado del intervalo de confianza)

1-12

1. Estadística clásica Intervalos de confianza

1-13

1. Estadística clásica Intervalos de confianza

1-14

1-15

1. Estadística clásica Contrastes de hipótesis Formulación de las hipótesis: Hipótesis nula (H0) • Aceptación de la hipótesis nula • Rechazo de la hipótesis nula

vs

Hipótesis alternativa (H1)

los datos no están en contra los datos indican que es improbable que sea cierta

Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta

Ejemplo: media de una población normal

α: nivel de significación

Contraste bilateral región crítica

Contrastes unilaterales región crítica

región crítica región de aceptación

región de aceptación

región de aceptación

1. Estadística clásica Contrastes de hipótesis

1-16

1. Estadística clásica Contrastes de hipótesis

1-17

1. Estadística clásica Contrastes de hipótesis

1-18

1. Estadística clásica Métodos no paramétricos

1-19

Métodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ)

Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos). VENTAJAS

DESVENTAJAS

• En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse).

• No usan toda la información disponible.

• Menos suposiciones sobre los datos. • Sirven para datos no numéricos (variables cualitativas y de rango).

• Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores)

• Respuestas rápidas con menos cálculos.

Eficiencia relativa asintótica:

• Válidos para muestras muy pequeñas.

• La conversión a rangos elimina incertidumbres con la escala. • A veces no existe la población (no hay parámetros que estimar).

• Al no haber parámetros, es difícil hacer estimaciones cuantitativas.

para tomar la decisión con el mismo α (típicamente: ARE entre 0.6 y 0.95)

(Ante la duda es más seguro usar métodos no paramétricos)