Story Transcript
´ NORMAL 189 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION
distribuye de modo gaussiana. Para ello se tom´o una muestra de 25 individuos (que podemos considerar piloto), que ofreci´o los siguientes resultados:
x = 170 cm S = 10 cm Calcular el tama˜ no que deber´ıa tener una muestra para que se obtuviese un intervalo de confianza para la media poblacional con un nivel de significaci´on α = 0, 01 (al 99 %) y con una precisi´on de d = 1 cm. Soluci´ on: Obs´ervese que sobre la muestra piloto, el error cometido al estimar el intervalo al 95 % fue aproximadamente de 40 2 cm por lo que si buscamos un intervalo de confianza tan preciso, el tama˜ no de la muestra, n, deber´a ser bastante mayor. En este caso se obtiene: 2 z0,995 · 10, 2062 n≈ = 2, 582 · 10, 2062 ≈ 694 12
Por tanto, si queremos realizar un estudio con toda la precisi´on requerida en el enunciado se deber´ıa tomar una muestra de 694 individuos. Esto es una indicaci´on de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significaci´on dado es inferior o igual a 1 cm, utilizando la muestra obtenida.
8.2.5.
Intervalos para la diferencia de medias de dos poblaciones
Consideremos el caso en que tenemos dos poblaciones de modo que el car´acter que estudiamos en ambas (X1 y X2 ) son v.a. distribuidas seg´ un leyes gaussianas
X1 ; N µ1 , σ12
190
Bioestad´ıstica: M´etodos y Aplicaciones
X2 ; N µ2 , σ22
En cada una de estas poblaciones se extrae mediante muestreo aleatorio simple, muestras que no tienen por que ser necesariamente del mismo tama˜ no (respectivamente n1 y n2 ) ~ 1 ≡ X11 , X12 , . . . , X1n X 1 ~ 2 ≡ X21 , X22 , . . . , X2n X 2 Podemos plantearnos a partir de las muestras el saber qu´e diferencias existen entre las medias de ambas poblaciones, o por ejemplo estudiar las relaci´on existente entre sus dispersiones respectivas. A ello vamos a dedicar los siguientes puntos. Intervalo para la diferencia de medias homoced´ aticas Supongamos que dos poblaciones tengan varianzas id´enticas (homocedasticidad),σ 2 . Es decir σ 2 = σ12 = σ22 . Por razones an´alogas a las expuestas en el caso de una poblaci´on una poblaci´on, se tiene que χ2n1 −1
(n1 − 1)Sˆ12 = ;χ2n1 −1 σ
χ2n2 −1 =
(n2 − 1)Sˆ22 ;χ2n2 −1 σ
χ2 reprod. =⇒ χ2n1 +n2 −2 = χ2n1 −1 +χ2n2 −1 ;χ2n1 +n2 −2
De manera similar al caso de la media de una poblaci´on, si las varianzas fuesen conocidas, podemos definir la v.a. Z=
(X 1 − X 2 ) − (µ1 − µ2 ) s
σ12 n1
+
σ22 n2
=
(X 1 − X 2 ) − (µ1 − µ2 ) s
σ
2
1 1 + n1 n2
;N (0, 1)
´ NORMAL 191 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION
Cuando las varianzas de las poblaciones son desconocidas, pero podemos asumir que al menos son iguales, el siguiente estad´ıstico se distribuye como una t de Student con n1 + n2 − 2 grados de libertad:
Tn1 +n2 −2 = s
Z
=
1 χ2 n1 + n2 − 2 n1 +n2 −2
(X 1 − X 2 ) − (µ1 − µ2 ) q ;tn1 +n2 −2 Sˆ 1 + 1 n1
n2
(8.2) donde se ha definido a de Sˆ12 y Sˆ22
Sˆ2
como la cuasivarianza muestral ponderada
(n1 − 1)Sˆ12 + (n2 − 1)Sˆ22 Sˆ2 = n1 + n2 − 2 Si 1−α es el nivel de significaci´on con el que deseamos establecer el intervalo para la diferencia de las dos medias, calculamos el valor tn1 +n2 −1,1−α/2 que deja por encima de si α/2 de la masa de probabilidad de Tn1 +n2 −2 P[Tn1 +n2 −2 > tn1 +n2 −2,1−α/2 ] =
α ⇔ P[|Tn1 +n2 −2 | ≤ tn1 +n2 −2,1−α/2 ] = 1−α 2
Repitiendo un proceso que ya hemos realizado en ocasiones anteriores, tenemos una probabilidad de 1 − α de que a extraer una muestra aleatoria simple ocurra: |Tn1 +n2 −2 | ≤ tn1 +n2 −2,1−α/2 ⇔
⇔
(X 1 − X 2 ) − (µ1 − µ2 ) q ≤ tn1 +n2 −2,1−α/2
Sˆ
1 n1
+
1 n2
s
⇔ |µ1 − µ2 | ≤ (X 1 − X 2 ) + tn1 +n2 −2,1−α/2 · Sˆ Luego el intervalo de confianza al nivel 1−α para la diferencia de esperanzas de dos poblaciones con la misma varianza (aunque esta sea desconocida) es:
1 1 + n1 n2
192
Bioestad´ıstica: M´etodos y Aplicaciones
s
µ1 − µ2 = (X 1 − X 2 ) ± tn1 +n2 −2,1−α/2 · Sˆ
1 1 + n1 n2
Ejemplo Queremos estudiar la influencia que puede tener el tabaco con el peso de los ni˜ nos al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman y otras que no) y se obtienen los siguientes datos sobre el peso X, de sus hijos: Madres fumadoras
→ n1 = 35 mujeres, x1 = 3, 6 Kg Sˆ1 = 0, 5 Kg
Madres no fumadoras → n2 = 27 mujeres, x2 = 3, 2 Kg Sˆ2 = 0, 8 Kg
En ambos grupos los pesos de los reci´en nacidos provienen de sendas distribuciones normales de medias desconocidas, y con varianzas que si bien son desconocidas, podemos suponer que son las mismas. Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo. Soluci´ on: Si X1 es la v.a. que describe el peso de un ni˜ no que nace de madre no fumadora, y X2 el de un hijo de madre fumadora, se tiene por hip´otesis que
∃ µ1 , µ2 , σ 2 , tales que
2 X1 ;N µ1 , σ X ;N µ , σ 2 2 2
Si queremos estimar en cuanto influye el que la madre sea fumadora en el peso de su hijo, podemos estimar un intervalo de confianza para µ1 − µ2 , lo que nos dar´a la diferencia de peso esperado entre un ni˜ no del primer grupo y otro del segundo. El estad´ıstico que se ha de aplicar para esta cuesti´on es: (x1 − x2 ) − (µ1 − µ2 ) q ;tn1 +n2 −2 = t35+27−2 = t60 Sˆ 1 + 1 n1
n2
´ NORMAL 193 8.2. INTERVALOS DE CONFIANZA PARA LA DISTRIBUCION
donde (n1 − 1)Sˆ12 + (n2 − 1)Sˆ22 34 · 0, 52 + 26 · 0, 82 Sˆ2 = = = 0, 419 =⇒ Sˆ = 0, 6473 n1 + n2 − 2 60 Consideramos un nivel de significaci´on que nos parezca aceptable, por ejemplo α = 0, 05, y el intervalo buscado se obtiene a partir de: 0,4
z
}|
{
| (3, 6 − 3, 2) −(µ1 − µ2 ) | r ≤ t60;1−0,05/2 = t60;0,975 = 2 1 1 0, 6473 + 27} | {z35 0,1658
=⇒ µ1 − µ2 = 0, 4 ± 2 · 0, 1658 =⇒ µ1 − µ2 = 0, 4 ± 0, 3316 con lo cual se puede decir que un intervalo de confianza para el peso esperado en que supera un hijo de madre no fumadora al de otro de madre fumadora est´a comprendido con un nivel de confianza del 95 % entre los 0, 068 Kg y los 0, 731 Kg.
194
Bioestad´ıstica: M´etodos y Aplicaciones
? z }| { 2 N µ , σ X ; 1 1 1
← poblaciones normales
2 X ; N µ , σ 2 2 2 {z } | ?
X 1 , X 2 ← medias de las muestras Sˆ12 , Sˆ22 ← cuasivarianzas de las muestras n1 , n2 ← tama˜ nos de las muestras
Intervalos de confianza para µ1 − µ2 s
µ1 − µ2 ∈ (X 1 − X 2 ) ± tn1 +n2 −2,1−α/2 · Sˆ
Si σ12 = σ22 (desconocidos)
s
Si σ12 6= σ22 (desconocidos)
donde
µ1 − µ2 ∈ (X 1 − X 2 ) ± tf,1−α/2 ·
1 1 + n1 n2
Sˆ12 Sˆ22 + n1 n2
ˆ2 ˆ2 ˆ2 = (n1 − 1)S1 + (n2 − 1)S2 S n1 + n2 − 2 !2 Sˆ12 Sˆ22 + n1 n2 f = !2 !2 − 2 ← Welch. 2 1 Sˆ1 1 Sˆ22 + n +1 n n +1 n 1
1
2
2
Cuadro 8.2: Intervalos de confianza para la diferencia de las medias de dos poblaciones normales, calculados a partir de sendas muestras independientes de cada una de ellas.Los resultados dependen de que podamos suponer cierta o no la condici´on de homocedasticidad.