Story Transcript
Tema 5. Muestreo y distribuciones muestrales Contenidos Muestreo y muestras aleatorias simples La distribuci´ on de la media en el muestreo La distribuci´ on de la varianza muestral
Lecturas recomendadas: Cap´ıtulo 7 del libro de Newbold, Carlson y Thorne (2009). Cap´ıtulo 7 del libro de Pe˜ na (2001). Cap´ıtulos 19 a 21 del libro de Pe˜ na y Romo (1997). 1
Tema 5. Muestreo y distribuciones muestrales Objetivos de aprendizaje Saber qu´e es una muestra aleatoria simple Conocer la distribuci´ on de la media muestral • Su media y su varianza • Su distribuci´ on en el caso normal • Su distribuci´ on aproximada en el caso general (teorema central del l´ımite) Conocer la distribuci´ on de la varianza muestral • Su media • Su distribuci´ on en el caso normal
2
Muestreo Motivaci´ on En muchos casos se desea obtener informaci´ on estad´ıstica sobre poblaciones numerosas • Situaci´ on laboral de las personas en edad de trabajar en Espa˜ na • Fiabilidad de un modelo de autom´ ovil en un a˜ no • Precipitaci´ on anual en la Comunidad de Madrid Puede ser imposible (por falta de recursos) obtener la informaci´ on relativa a todos los individuos Se estudia una muestra representativa de la poblaci´ on • Un subconjunto de la poblaci´ on que permita obtener informaci´ on fiable sobre el total de dicha poblaci´ on 3
Muestras aleatorias simples C´ omo seleccionar una muestra Tama˜ no reducido Ausencia de sesgos • Conclusiones obtenidas de la muestra son v´alidas para la poblaci´ on Facilidad en la definici´ on de la muestra Mejor alternativa: Muestras aleatorias simples • Cada miembro de la poblaci´ on tiene la misma probabilidad de pertenecer a la muestra • La selecci´ on se realiza de manera independiente ◦ La selecci´ on de un individuo concreto no afecta a la probabilidad de seleccionar cualquiera de los otros • En la pr´actica, selecci´ on basada en n´ umeros aleatorios 4
Procedimiento de inferencia Inferencia Partiendo de la distribuci´ on de la variable aleatoria en la muestra Obtener informaci´ on sobre distribuci´ on de la variable en la poblaci´ on Valores de inter´es: c´alculo de estad´ısticos para la media, varianza, proporciones DATOS POBLACIÓN 15,00 11,25 7,50
!
Muestreo
3,75 0
Parámetros población, !
DATOS MUESTRA
9,5
10,0
!
7,5 5,0 2,5
3,8
4,5
Inferencia
1,6 0,2
0,8
1,5
0
Parámetros muestra, l
5
Ejemplo de muestreo e inferencia Ejemplo Consideremos el ejemplo de la figura anterior: Poblaci´ on compuesta por 24 individuos Variable aleatoria de inter´es: • Tiempo para completar una consulta m´edica Valores: Poblaci´ on
5,1 1,0 9,0
1,0 2,2 5,1
0,9 1,5 0,2
3,8 4,8 2,3
10,2 1,6 0,8
2,1 8,8 7,8
9,5 4,3 7,7
4,5 1,0 1,5
Promedio de la poblaci´ on: 4, 0
6
Ejemplo de muestreo e inferencia Muestra 1 Muestra seleccionada en la figura, tama˜ no 7: Muestra
3,8
9,5
4,8
1,6
0,2
0,8
1,5
Estad´ıstico de inter´es: promedio de la muestra 3, 1 Error (sesgo) relativo: (4, 0 − 3, 1)/4, 0 = 0, 225 Cambios en el muestreo Selecciones alternativas de los elementos de la muestra Aumento del tama˜ no de la muestra 7
Ejemplo de muestreo Cambios en el tama˜ no muestral Si a la muestra del ejemplo anterior le a˜ nadimos nuevos elementos, el promedio muestral cambia Se aproxima al valor de la media poblacional CAMBIO EN EL PROMEDIO CON EL TAMAÑO MUESTRAL 6,0 4,6 4,5
3,9 3,1
3,3
7
8
3,6
4,0
4,1
11
12
4,6
4,4
4,2
4,1
15
16
17
4,4
4,4
4,3
4,3
18
19
20
21
4,0
4,2
4,0
22
23
24
3,0
1,5
0
9
10
13
14
Tamaño muestral
8
Ejemplo de muestreo Si seleccionamos las primeras 7 observaciones obtenemos un promedio de la muestra igual a 5, 8: Muestra
5,1
1,0
0,9
3,8
18,2
2,1
9,5
Si consideramos todas las selecciones posibles de 7 observaciones (346,104 posibilidades): DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 7 25000
20000
15000
10000
5000
0
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8
9
Distribuciones en el muestreo Distribuci´ on de la media muestral Para todas las muestras de tama˜ no 7 y 17 obtenemos: DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 7 25000
DISTRIBUCION DE MEDIAS MUESTRALES TAMAÑO 17 60000
20000 45000
15000
30000
10000
15000 5000
0
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8
0
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8
10
Distribuciones en el muestreo Se obtienen resultados similares para otros estad´ısticos Para la desviaci´ on t´ıpica de muestras de tama˜ no 7 obtenemos: DESVIACIONES TIPICAS MUESTRAS TAMAÑO 7 30000
22500
15000
7500
0
0,5 0,7 0,9 1,1 1,2 1,4 1,6 1,8 1,9 2,1 2,3 2,5 2,6 2,8 3,0 3,2 3,3 3,5 3,7 3,9 4,0 4,2 4,4 4,6 4,7
11
Distribuciones en el muestreo - Conclusiones El valor del promedio muestral es una variable aleatoria (los estad´ısticos son variables aleatorias) • Depende de la selecci´ on (aleatoria) de los individuos en la muestra Distribuci´ on muestral del estad´ıstico: distribuci´ on de probabilidad del valor de inter´es para todas las muestras del mismo tama˜ no La distribuci´ on muestral cambia con el tama˜ no de la muestra • Variabilidad de estad´ısticos muestrales disminuye con el tama˜ no de la muestra
12
La distribuci´ on de la media muestral El problema de inter´ es La media poblacional es un par´ametro de gran inter´es en muchas situaciones pr´acticas Por ejemplo, queremos conocer el promedio de: • los ingresos familiares en Espa˜ na el a˜ no 2007 • la proporci´ on de pr´estamos morosos el u ´ltimo mes • el precio de compra de viviendas en la Comunidad de Madrid el pasado mes A partir de una muestra (reducida) de valores queremos calcular • Una buena aproximaci´ on al valor correcto (inevitablemente con error) • Y una estimaci´ on del error en la aproximaci´ on 13
La distribuci´ on de la media muestral - Ejemplo Informaci´ on sobre el gasto familiar en Espa˜ na Disponemos de los datos siguientes (gasto anual por hogar, EPF) Gasto
32545,76 4855,80 16240,88
3140,24 7449,74 9840,12
25205,64 3466,50 14534,96
2474,28 4400,80 14960,00
10242,34 4740,00
721,16 10830,00
GASTO ANUAL 40000
30000
20000
10000
0
14
La distribuci´ on de la media muestral Valor de inter´es: estimaci´ on de la media nacional (media de la variable aleatoria) • A partir de los datos disponibles en la muestra ¿Qu´e estad´ıstico de la muestra se parece al promedio nacional (media de la poblaci´ on)? El valor esperado de la media de la muestra es la media de la poblaci´ on " n # X 1 xi = E[X] E n i=1 Estimamos la media de la poblaci´ on a partir de la media de la muestra • En nuestro ejemplo: 10353,01 euros 15
La distribuci´ on de la media muestral M´ as datos de la distribuci´ on Media de una muestra en general diferente de la media de la poblaci´ on ¿Podemos conocer la magnitud del error que estamos cometiendo? • Depende de la distribuci´ on de la media muestral • En particular, de su variabilidad (desviaci´ on respecto de la media) • ¿En cual de los casos siguientes tenemos menos error? MEDIAS MUESTRA TAMAÑO 7 - MEDIA = 4,0 25000
MEDIAS MUESTRA TAMAÑO 17 - MEDIA = 4,0 60000
20000 45000
15000
30000
10000
15000 5000
0
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8
0
1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 8 8
16
Distribuci´ on de la media muestral La variabilidad de la media muestral La varianza de la media muestral x ¯ (una medida del error) vale " V [¯ x] = V
1 n
n X
#
1 xi = σ 2 n i=1
En el ejemplo anterior, V [¯ x] = 76,458,643 y s[¯ x] = 8,744 euros El valor de la varianza decrece si n aumenta Podemos reducir el error aumentando el tama˜ no de la muestra • La reducci´ on en el error es lenta • Para reducir el error (medido por la desviaci´ on t´ıpica) a la mitad debemos aumentar el tama˜ no de la muestra 4 veces 17
Distribuci´ on de la media muestral La distribuci´ on de la media muestral El valor de la varianza de la media muestral solo nos dice si el error puede ser grande o peque˜ no Para obtener una respuesta m´as precisa deber´ıamos conocer la distribuci´ on de la media muestral Si la variable X tiene una distribuci´ on normal, entonces 1 n
Pn i=1 xi − E[X] p ∼ N (0, 1) 2 σ /n
18
Distribuci´ on de la media muestral Queremos obtener una medida del error de estimaci´ on Utilizando el resultado 1 n
Pn i=1 xi − E[X] p ∼ N (0, 1) 2 σ /n
Pero habitualmente no conocemos σ 2 • Aproximamos este valor con el correspondiente a la muestra (razonable si n es grande) De las tablas de la normal construimos un intervalo que nos proporciona una indicaci´ on del error El intervalo se selecciona de manera que P(−β ≤ Z ≤ β) = α para el nivel de error (confianza) α deseado 19
Distribuci´ on de la media muestral - Ejemplo Suponemos una distribuci´ on normal de la variable gasto anual de hogares • Escogemos un nivel de confianza de 0, 95 • De las tablas de la normal est´andar sabemos que para Z ∼ N (0, 1) P(−1, 96 ≤ Z ≤ 1, 96) = 0, 95 • De los datos muestrales, la media muestral vale x ¯ = 10,353 y la desviaci´ on t´ıpica muestral vale s = 8,744 • Por el resultado anterior sobre la distribuci´ on de la media muestral, x ¯ − E[X] 10353 − E[X] P(−β ≤ ≤ β) = P(−1, 96 ≤ ≤ 1, 96) = 0, 95 s 8744 [10353 − 1, 96 × 8744, 10353 + 1, 96 × 8744] = [−6785, 27491]
20
Distribuci´ on de la media muestral El teorema central del l´ımite Distribuci´ on de la media muestral si X no es normal Si cumple ciertas condiciones: teorema central del l´ımite Dada una muestra aleatoria simple {xi} de tama˜ no n obtenida de una variable aleatoria X con media E[X] y varianza σ 2 finitas, se cumple que Pn 1 i=1 xi − E[X] n p → N (0, 1) 2 σ /n conforme n → ∞ La distribuci´ on de la media muestral se parece a una distribuci´ on normal para muestras grandes 21
La distribuci´ on de la varianza muestral La varianza muestral En muchos casos es importante conocer el valor de la varianza de la poblaci´ on • Para aplicar el teorema central del l´ımite • Para estimar riesgos en inversiones (el riesgo depende de la varianza) • Para estimar desigualdades en ingresos, rentas, etc. Repetimos el estudio que hemos realizado para la media muestral Partimos de que la varianza muestral es una variable aleatoria Queremos relacionar sus momentos con los de la poblaci´ on Y si es posible, identificar su distribuci´ on 22
La distribuci´ on de la varianza muestral Esperanza de la varianza muestral Si x ¯ denota la media muestral, se tiene que " E
1 n
n X
# (xi − x ¯)2 =
i=1
n−1 2 σ n
El valor esperado de la varianza muestral no es la varianza de la poblaci´ on Definamos la varianza muestral como n X 1 s2 = (xi − x ¯)2 n − 1 i=1
23
La distribuci´ on de la varianza muestral Esperanza de la varianza muestral Con esta definici´ on, tenemos E[s2] = σ 2 • El valor esperado de s2 coincide con el valor deseado (varianza de la poblaci´ on) • s2 es un estimador insesgado de σ 2 Distribuci´ on de la varianza muestral Nos gustar´ıa tener informaci´ on adicional sobre la varianza muestral y su distribuci´ on • La distribuci´ on de la varianza muestral no es sim´etrica: tiene asimetr´ıa positiva.
24
La distribuci´ on de la varianza muestral Distribuci´ on de la varianza muestral Si la variable X tiene una distribuci´ on normal • La distribuci´ on de (n − 1)s2/σ 2 es una χ2 (chi-cuadrado) con n − 1 grados de libertad (χ2n−1) DENSIDAD CHI CUADRADO
2,5%
95%
!!"#"!$
2,5%
!!"#%&$
25