Story Transcript
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Tema 7: Intervalos de Conanza y Contrastes de Hipótesis
Objetivos Aplicar los procedimientos de intervalos de conanza y test de hipótesis para medias y proporciones. Interpretar convenientemente los resultados Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias signicativas.
1. Intervalos de Conanza y test de hipótesis En el tema que nos ocupa el objetivo que queremos resolver es de estimación de parámetros desconocidos de la población, como una media de una población que puede ser representada por una variable normal, o una proporción de un modelo de Bernoulli. Son dos los procedimientos que se usarán para estimar dichos parámetros desconocidos: intervalos de conanza y contrastes de hipótesis. Además, siempre dispondremos de una muestra aleatoria simple extraída de la población de interés que nos aportará información necesaria para poder ejecutar los procedimientos anteriores, como medias o desviaciones típicas muestrales. Un intervalo de conanza es un rango de valores
(l1 , l2 ), calculado a partir de la mues-
tra y que contiene el verdadero valor del parámetro con una probabilidad determinada de antemano se le llamará
1 − α, llamada nivel de conanza. A la semiamplitud de dicho intervalo error de estimación.
Un contraste de hipótesis es un problema de decisión donde se formulan dos hipótesis acerca del valor que puede tomar el parámetro desconocido, denominadas hipótesis nula (denotada por
H0 )
e hipótesis alternativa (denotada por
una de dichas hipótesis. La hipótesis
H0
H1 )
y habrá que decidir entre
es la hipótesis que se acepta por defecto a no ser
que la información muestral acerca del parámetro muestre una discrepancia con
H0
tan
grande que no pueda ser atribuida al azar y tenga que ser rechazada ésta para aceptar la hipótesis alternativa llamado
H0
H1 .
En los contrastes que se realicen, se jará de antemano el
nivel de signicación que se denota por α
y es la probabilidad de rechazar
cuando ésta es en realidad cierta.
1.1. Construcción de intervalos de conanza A continuación damos un esquema de construcción de intervalos de conanza para la media de una población normal.
X ∼ N (µ, σ) con µ desconocida. El siguiente esquema muestra cómo construir un intervalo (l1 , l2 ), de forma que dicho intervalo contenga el parámetro µ con probabilidad 1 − α. Sea
(X1 , ..., Xn )
una m.a.s. de tamaño
n,
procedente de
Sin embargo no es objetivo de este curso construir tales intervalos sino aplicarlos e interpretarlos en situaciones concretas.
Tema 7
Página: 1
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Intervalo de conanza para la media µ de una población normal con σ conocida Consideramos el estadístico:
Z= Sabiendo que
¯ −µ X √σ n
Z ∼ N (0, 1) podemos encontrar dos valores simétricos respecto a cero que −z1− α2 y z1− α2 tal que
denotaremos mediante
P donde 1 − α2 .
z1− α2
−z1− α2 ≤
¯ −µ X √σ n
! ≤ z1− α2
=1−α⇔
es la abscisa de la distribución normal que deja a su izquierda un área de
σ σ ¯ − µ ≤ z1− α √ P −z1− α2 √ ≤ X =1−α⇔ 2 n n σ σ ¯ ¯ α α P X − z1− 2 √ ≤ µ ≤ X + z1− 2 √ = 1 − α n n | {z } | {z } l1
l2
Ejemplo 1.1 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X¯ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ.
σ 00 1 0 0 ¯ IC = X ± z1− α2 √ = (18.014, 18.112) = 18 063 ± 1 96 √ n 16
Ejemplo 1.2 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X¯ = 180 063, de forma que el
intervalo de conanza para µ resulta ser (17.9985, 18.1275). Calcula el nivel de conanza con el que ha sido construido. El error de estimación (semiamplitud del intervalo) es 18.1275 − 180 0630 = 0.0645 , es decir, z1− α2 = 2.58, por lo que 1 − α2 = 0.995 por lo tanto, 0.0645 = z1− α2 √σn = z1− α2 0.1 4 y 1 − α = 0.99.
2. Determinación del tamaño de muestra Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la semiamplitud del intervalo, que denotaremos por Por ejemplo, cuando estimamos queremos
lo que conseguimos haciendo
Tema 7
µ con σ
e.
conocida y jado el nivel de conanza
1 − α,
σ z1−α/2 √ < e n σ n > (z1−α/2 )2 e Página: 2
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En el caso de no conocer la varianza podemos aproximarla por una estimación o una cota de la misma
Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra n para que la
media muestral X diste de la media poblacional µ menos de 0.05, con probabilidad 0.95 y suponiendo que σ = 0.25. Queremos que sea σ z1−α/2 √ < e n
basta que sea
σ n > (z1−α/2 )2 e
es decir n > (1.96
0.25 2 ) = 96.04 0.05
o lo que es igual n ≥ 97
3. Resumen de Intervalos más frecuentes (una sola muestra) En la siguiente tabla se recoge la expresión de los intervalos de conanza de los parámetros más conocidos.
Parámetro
Población
Intervalo de conanza
µ
Normal con
µ
No normal con
σ
conocida (n
µ
No normal con
σ
desconocida (n
p
Bernoulli (n
λ
Poisson (n
σ
conocida
≥ 30)
≥ 30)
≥ 30) ≥ 30)
σ x ± z1−α/2 √ n σ x ± z1−α/2 √ n S x ± z1−α/2 √ n r pb(1 − pb) pb ± z1−α/2 n r x x ± z1−α/2 n
4. Caso de dos muestras En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no. Es decir, se trata de resolver alguna de las siguientes cuestiones: ¾Son dos muestras normales procedentes de una población con igual media?
Tema 7
Página: 3
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?. En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más tarde lo resolveremos mediante test de hipótesis. ¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar una cuestión como la anterior?. Aunque las muestras provengan de la misma población es razonable que al observar dos muestras de ella se obtengan medias muestrales distintas y estas diferencias se atribuyen al azar. Esto se va a traducir en que al calcular el intervalo de conanza para la diferencia de dos medias o proporciones, éste contendrá el valor cero. Por el contrario, si el intervalo de conanza para la diferencia de medias o proporciones no contiene al cero decimos que
la diferencia de medias muestrales es signicativa y sería lo mismo
que concluir que las medias teóricas son diferentes.
Parámetros
µ1 − µ2
Intervalo de
Poblaciones
conanza
Normales indep.,
σ1
y
σ2
conocidas
σ1 , σ2 desconocidas n1 > 30, n2 > 30 Normales apareadas,
µ1 − µ2 p1 − p2
D = X1 − X2 n ≥ 30 Bernoulli, indep., (n1
≥ 30, n2 ≥ 30)
σ12 σ22 + n1 n2
r
S12 S22 + n1 n2
x1 − x2 ± z1−α/2
No Normales indep.,
µ1 − µ2
r
x1 − x2 ± z1−α/2 SD D ± z1−α/2 √ n r pb1 − pb2 ± z1−α/2
pb1 (1 − pb1 ) pb2 (1 − pb2 ) + n1 n2
5. Elementos básicos en un contraste de hipótesis paramétrico Supongamos que desconocemos el valor de un parámetro y formulamos dos posibles hipótesis acerca del valor que éste puede tomar. Por ejemplo, pensemos que
X
sea el contenido en gramos de proteínas, en 100 g de un
nuevo producto lácteo y del que desconocemos la media lácteo estándar contiene por término medio
µ = 5.2
µ.
Pongamos que un producto
g. de proteínas si bien éste nuevo
que se quiere lanzar al mercado se presenta enriquecido en varios tipos de nutrientes. Para contrastar si el nuevo producto presenta enriquecimiento en proteínas, formulamos las hipótesis: Hipótesis Nula Hipótesis Alternativa La Hipótesis Nula
H0
H0 : µ = 5.2g H1 : µ > 5.2g
es siempre una hipótesis conservadora que recoge información
histórica acerca del parámetro, mientras que la Hipótesis Alternativa
H1
es la hipóte-
sis de trabajo, que recoge información reciente sobre el parámetro y progresista porque suele informar de un cambio respecto al comportamiento histórico del parámetro. La
Tema 7
Página: 4
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
metodología es asumir
H0
Universidad de Murcia
y únicamente rechazarla si se maniestan discrepancias sig-
nicativas, no atribuibles al azar; es decir, si el apoyo de
H0
ocurrido sucesos de probabilidad muy baja. La aceptación de
signica asumir que han
H0
signicará que no ha
habido conclusión estadística o que los datos aportados por la investigación empírica no han sido concluyentes. Por el contrario, el rechazo de
H0
para aceptar
H1
signicará que
los datos proporcionados por la investigación empírica están en franco desacuerdo con la hipótesis histórica y diremos entonces que los datos son concluyentes y la hipótesis de trabajo es aceptada. En la aceptación o en el rechazo de
H0
podemos cometer dos tipos de errores.
Decisión que se toma Aceptar
H0 HA
Hipótesis Cierta
H0
Rechazar
H0
Correcto
Error (tipo I)
Error (tipo II)
Correcto
Aunque el error de tipo I, rechazar
H0
cuando
H0
es cierta, tiene más importancia
H0 cuando H0 es falsa. Si llamamos α a la probabilidad de cometer un error de tipo I y β a la probabilidad de cometer un error de tipo II, lo anterior signica que supuesto que nunca será α = β = 0 (a no ser de que observemos que el error de tipo 2, aceptar
a toda la población y con ello nunca nos equivocaremos), deberíamos de llevar a cabo contrastes con
α
controlado y pequeño.
Ejemplo 5.1 En un juicio tendremos que decidir entre dos hipótesis: o el acusado es
inocente o el acusado es culpable. Puesto que todos somos inocentes, salvo que se demuestre lo contrario, (H0 es la hipótesis apoyada por defecto), el test que debemos plantear es: H0 : H1 :
El acusado es inocente El acusado es culpable
En este caso es: α = P (Condenar al acusado, siendo éste inocente) β = P (absolver al acusado, siendo éste culpable) Con el ejemplo anterior vemos que el error tipo 1, con probabilidad
α,
tiene más tras-
cendencia que el error de tipo 2, por lo que lo tenemos bajo control, jando dicha probabilidad de antemano. A dicho valor prejado
cación.
α
se le denomina
nivel de signi-
6. Test de hipótesis para la media de una población normal El siguiente esquema muestra cómo proceder para el contraste de una media en la situación de ser
σ
para el parámetro
Tema 7
desconocida y muestras de tamaño grande. Para otras situaciones o
p
de una distribución de Bernouilli, la forma de proceder es análoga.
Página: 5
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
Test de hipótesis para la media µ de una población normal supuesto σ desconocida y muestras de tamaño grande 1. Planteamiento de las hipótesis a contrastar. Tres tipos de test:
Test a.-
H0 : µ = µ0 H1 : µ 6= µ0
Hipótesis Nula Hipótesis Alternativa
Test b.-
H0 : µ = µ0 H1 : µ > µ0
Hipótesis Nula Hipótesis Alternativa
Test c.-
H0 : µ = µ0 H1 : µ < µ0
Hipótesis Nula Hipótesis Alternativa
2. Si
H0
es cierta (µ
= µ0 ),
la función
Z=
X − µ0 √S n
∼aprox N (0, 1)
α y observamos el valor de z x − µ0 decir z = . S
3. Fijamos el nivel de signicación
(X1 , ..., Xn ) = (x1 , ..., xn ), 4. Construimos una
es
√
de
Z
cuando
n
Región de Rechazo, (RR),
jado
α, en base a Z . La regla
distribución de probabilidad del estadístico de contraste rechazar
H0
si
z ∈RR
y aceptar
H0
la es
en caso contrario. En este caso:
Test a.- RR=(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) Test b.- RR=(z1−α , +∞) Test c.- RR=(−∞, −z1−α ) 5. Alternativamente, puede llegarse a la misma conclusión usando el
valor. La regla e decisión es la siguiente: Rechazar Aceptar
H0
H0
si
P − valor < α
en caso contrario.
6. La tercera alternativa para decidir aceptar o rechazar intervalos de conanza de nivel
H0
P-
(1 − α).
H0
es mediante
La regla de decisión es rechazar
si:
Test a.- µ0 ∈/ (x ± z1−α/2 √Sn ) Test b.- µ0 ∈/ (x − z1−α √Sn , ∞) Test c.- µ0 ∈/ (−∞, x + z1−α √Sn ) y aceptar
Tema 7
H0
en caso contrario.
Página: 6
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Universidad de Murcia
En los problemas realizados a mano solemos utilizar la regla de decisión indicada en el punto 4, mientras que los casos llevados a cabo con ordenador se resuelven a través del P-valor o mediante los intervalos de conanza, criterios indicados en los puntos 5 y 6.
Ejemplo 6.1 Una proceso de elaboración de lácteos nalizaba con un producto de 5.2 g de contenido medio de proteínas por 100 g de producto. En la actualidad, dicho proceso se ha modicado mediante concentración del producto, para producir lácteos de mayor contenido en proteínas. Para contrastar si el proceso se ha modicado adecuadamente, se realiza periódicamente una inspección. En una de estas inspecciones una muestra de tamaño 25 arrojó una media muestral de 5.7. y una cuasidesviación típica 1.3 mm. ¾Debemos concluir que el proceso se ha modicado correctamente para producir lácteos enriquecidos en proteínas o por el contrario la media muestral observada no presenta diferencias signicativas respecto a los valores medios tradicionales?. Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ 6= 5.2 El estadístico Z=
¯ − 5.2 X √S n
∼aprox N (0, 1),
si
H0
es
cierta
Dicho estadístico es observado y toma el valor z=
5.7 − 5.2 1.3 √ 25
= 1.92
Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(−∞, −z0.975 )∪ (z0.975 , +∞) = (−∞, −1.96) ∪ (1.96, +∞). Como z = 1.92 ∈ / RR, aceptamos H0 , es decir, debemos concluir que NO hay suciente evidencia estadística y debemos de aceptar que el proceso produce lácteos de contenido medio en proteínas no signicativamente distinto a 5.2. En el ejemplo anterior se ha optado por un test bilateral, pero si el parámetro
µ
puede moverse en una sola dirección, el planteamiento anterior es inadecuado. Si esto es conocido, es más razonable hacer un test unilateral pues estamos teniendo en cuenta esta información y puede haber evidencia estadística donde antes no la había. Evidentemente, en el caso de usar un test unilateral, hay que recordar que la hipótesis de trabajo ha de estar en la hipótesis alternativa.
Ejemplo 6.2 En el caso del ejemplo anterior, si descartamos la posibilidad de que el contenido medio en proteínas de los lácteos disminuya puesto que el proceso está preparado para enriquecerlos, es inadecuado el planteamiento anterior y resulta mejor el siguiente: Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ > 5.2 El estadístico Tema 7
Página: 7
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
Z=
¯ − 5.2 X √S n
∼aprox N (0, 1),
Universidad de Murcia
si
H0
es
cierta
Dicho estadístico es observado y toma el valor z=
5.7 − 5.2 1.3 √ 25
= 1.92
Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(z0.95 , +∞) = (1.64, +∞). Como z = 1.92 ∈ RR, debemos concluir que SI hay suciente evidencia y debemos de rechazar H0 para aceptar que el proceso elabora lácteos enriquecidos en proteínas.
7. Contrastes paramétricos más frecuentes Al igual que en el tema de intervalos de conanza, resolvemos test de hipótesis para un solo parámetro mediante una muestra cuya población depende de dicho parámetro desconocido y para dos parámetros a partir de dos muestras. Para cada parámetro o pareja de parámetros tenemos tres opciones de test: uno bilateral o de dos colas y dos unilaterales o de una sola cola. Los test bilaterales producen resultados cuyas conclusiones son completamente equivalentes a las que se producirían de haberse construido el correspondiente intervalo de conanza. Sin embargo en los test unilaterales es posible restringir el espacio paramétrico, si este hecho es conocido de antemano, tal y como se ha visto en el ejemplo anterior, suponiendo que el parámetro sólo puede moverse en una sola dirección a partir de un valor histórico dado. De poder plantear un test unilateral (no siempre es posible hacer el supuesto de que el parámetro se mueve en una sola dirección), la región de rechazo se concentra en una sola cola y eso puede suponer apreciar diferencias signicativas cuando no se apreciaban en un test bilateral. De ahí la importancia de seleccionar en cada situación el test oportuno. A modo de resumen, diremos que hay conclusión estadística sólo en el caso del rechazo de la hipótesis nula aceptar
H0
H0
para aceptar nuestra hipótesis de trabajo
H1 .
En el caso de
y puesto que ésta es una hipótesis débil porque es la que se considera por
defecto por razones históricas o por desconocimiento de la actualidad, diremos que no hay conclusión estadística o que los datos no son concluyentes respecto a nuestra hipótesis de trabajo. En la última página de este documento se adjunta una tabla con los contrastes más básicos.
8. Bibliografía 1. Temas 5 y 6 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A.
Tema 7
Página: 8
M. Iniesta Grado en Ciencia y Tecnología de los Alimentos
2. Tema 3 y Tema 4 del texto
Universidad de Murcia
Probabilidad y Estadística para Ciencias e Ingenierías.
Rosario Delgado de la Torre. Editorial Delta. 3. Capítulos 5 y 6 del texto
Estadística para ingenieros y cientícos. William Navidi.
Editorial McGraw-Hill.
Tema 7
Página: 9
Tema 7
6= 0 >0 0 0 30
Normales apareadas,
σ1 , σ2 desconocidas n1 > 30, n2 > 30
No Normales indep.,
σ1
≥ 30)
≥ 30)
desconocida (n
Normales indep.,
Poisson (n
Bernoulli (n
σ
No normal con
conocida (n
conocida
σ
σ
No normal con
Normal con
Poblaciones
N (0, 1)
pb − p0 q
con
N (0, 1)
x − µ0 √ S/ n
pb1 − pb2 q ; ( n11 + n12 )p0 (1 − p0 ) n1 pb1 + n2 pb2 p0 = n1 + n2
SD √ n
D
x −x q 12 2 2 S1 S2 n1 + n2
x −x q 12 2 2 σ1 σ2 n1 + n2
x − λ0 p λ0 /n
aprox.
N (0, 1)
N (0, 1)
N (0, 1)
aprox.
aprox.
N (0, 1)
N (0, 1)
N (0, 1)
x − µ0 √ σ/ n
p0 (1−p0 ) n
N (0, 1)
Distribución
x − µ0 √ σ/ n
Estadístico
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α )
(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α )
Rechazo
Región de
Grado en Ciencia y Tecnología de los Alimentos
p1 − p2 = 6 0 p1 − p2 > 0 p1 − p2 < 0
µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 p 6= p0 p > p0 p < p0 λ 6= λ0 λ > λ0 λ < λ0 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2
H1
M. Iniesta
Universidad de Murcia
Página: 10