Objetivos. 1. Intervalos de Conanza y test de hipótesis. Tema 7: Intervalos de Conanza y Contrastes de Hipótesis

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos Universidad de Murcia Tema 7: Intervalos de Conanza y Contrastes de Hipótesis Objetivos

Author: Esperanza Cruz Rubio

0 downloads 86 Views 221KB Size

Report

DOWNLOAD PDF

Recommend Stories

Tema 1. Números Reales. Intervalos y Radicales

Tema 1. Números Reales. Intervalos y Radicales 1. El conjunto de números reales .....................................................................

Tema 11: Intervalos de confianza

Intervalos de confianza

INTERVALOS DE CONFIANZA

INTERVALOS y ALTERACIONES

8. INTERVALOS DE CONFIANZA

8. INTERVALOS DE CONFIANZA Al estimar el valor de un parámetro de la distribución teórica, no se provee información sobre la incertidumbre en el resul

Test de Tema 7. Test de Tema 7

Test de Tema 7 Test de Tema 7 El orden jurisdiccional contencioso-administrativo: naturaleza, extensión y límites. El proceso contencioso-administrat

Muestreo e Intervalos de Confianza

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Estimación por intervalos de confianza. I.E.S. A Xunqueira I pag. 1 ESTIMACIÓN POR INTERVALOS DE CONFIANZA Conceptos En este tema vamos a estudiar

LOS INTERVALOS DIVINOS

Story Transcript

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Tema 7: Intervalos de Conanza y Contrastes de Hipótesis

Objetivos Aplicar los procedimientos de intervalos de conanza y test de hipótesis para medias y proporciones. Interpretar convenientemente los resultados Comparar dos medias o dos proporciones muestrales y analizar posibles diferencias signicativas.

1. Intervalos de Conanza y test de hipótesis En el tema que nos ocupa el objetivo que queremos resolver es de estimación de parámetros desconocidos de la población, como una media de una población que puede ser representada por una variable normal, o una proporción de un modelo de Bernoulli. Son dos los procedimientos que se usarán para estimar dichos parámetros desconocidos: intervalos de conanza y contrastes de hipótesis. Además, siempre dispondremos de una muestra aleatoria simple extraída de la población de interés que nos aportará información necesaria para poder ejecutar los procedimientos anteriores, como medias o desviaciones típicas muestrales. Un intervalo de conanza es un rango de valores

(l1 , l2 ), calculado a partir de la mues-

tra y que contiene el verdadero valor del parámetro con una probabilidad determinada de antemano se le llamará

1 − α, llamada nivel de conanza. A la semiamplitud de dicho intervalo error de estimación.

Un contraste de hipótesis es un problema de decisión donde se formulan dos hipótesis acerca del valor que puede tomar el parámetro desconocido, denominadas hipótesis nula (denotada por

H0 )

e hipótesis alternativa (denotada por

una de dichas hipótesis. La hipótesis

H0

H1 )

y habrá que decidir entre

es la hipótesis que se acepta por defecto a no ser

que la información muestral acerca del parámetro muestre una discrepancia con

H0

tan

grande que no pueda ser atribuida al azar y tenga que ser rechazada ésta para aceptar la hipótesis alternativa llamado

H0

H1 .

En los contrastes que se realicen, se jará de antemano el

nivel de signicación que se denota por α

y es la probabilidad de rechazar

cuando ésta es en realidad cierta.

1.1. Construcción de intervalos de conanza A continuación damos un esquema de construcción de intervalos de conanza para la media de una población normal.

X ∼ N (µ, σ) con µ desconocida. El siguiente esquema muestra cómo construir un intervalo (l1 , l2 ), de forma que dicho intervalo contenga el parámetro µ con probabilidad 1 − α. Sea

(X1 , ..., Xn )

una m.a.s. de tamaño

n,

procedente de

Sin embargo no es objetivo de este curso construir tales intervalos sino aplicarlos e interpretarlos en situaciones concretas.

Tema 7

Página: 1

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Intervalo de conanza para la media µ de una población normal con σ conocida Consideramos el estadístico:

Z= Sabiendo que

¯ −µ X √σ n

Z ∼ N (0, 1) podemos encontrar dos valores simétricos respecto a cero que −z1− α2 y z1− α2 tal que

denotaremos mediante

P donde 1 − α2 .

z1− α2

−z1− α2 ≤

¯ −µ X √σ n

! ≤ z1− α2

=1−α⇔

es la abscisa de la distribución normal que deja a su izquierda un área de

σ σ ¯ − µ ≤ z1− α √ P −z1− α2 √ ≤ X =1−α⇔ 2 n n    σ σ  ¯  ¯ α α P X − z1− 2 √ ≤ µ ≤ X + z1− 2 √  = 1 − α  n n | {z } | {z } l1

l2

Ejemplo 1.1 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X¯ = 180 063 calcular un intervalo de conanza al 95 % para el parámetro desconocido µ.

σ 00 1 0 0 ¯ IC = X ± z1− α2 √ = (18.014, 18.112) = 18 063 ± 1 96 √ n 16

Ejemplo 1.2 Dada X ∼ N (µ, 00 1) y {X1 , . . . , X16 } con X¯ = 180 063, de forma que el

intervalo de conanza para µ resulta ser (17.9985, 18.1275). Calcula el nivel de conanza con el que ha sido construido. El error de estimación (semiamplitud del intervalo) es 18.1275 − 180 0630 = 0.0645 , es decir, z1− α2 = 2.58, por lo que 1 − α2 = 0.995 por lo tanto, 0.0645 = z1− α2 √σn = z1− α2 0.1 4 y 1 − α = 0.99.

2. Determinación del tamaño de muestra Vamos a considerar cómo se puede jar el tamaño de la muestra en los casos de estimación por intervalos cuando deseamos acotar el error de estimación, es decir, la semiamplitud del intervalo, que denotaremos por Por ejemplo, cuando estimamos queremos

lo que conseguimos haciendo

Tema 7

µ con σ

e.

conocida y jado el nivel de conanza

1 − α,

σ z1−α/2 √ < e n σ n > (z1−α/2 )2 e Página: 2

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

En el caso de no conocer la varianza podemos aproximarla por una estimación o una cota de la misma

Ejemplo 2.1 Supongamos que deseamos conocer el tamaño de muestra n para que la

media muestral X diste de la media poblacional µ menos de 0.05, con probabilidad 0.95 y suponiendo que σ = 0.25. Queremos que sea σ z1−α/2 √ < e n

basta que sea

σ n > (z1−α/2 )2 e

es decir n > (1.96

0.25 2 ) = 96.04 0.05

o lo que es igual n ≥ 97

3. Resumen de Intervalos más frecuentes (una sola muestra) En la siguiente tabla se recoge la expresión de los intervalos de conanza de los parámetros más conocidos.

Parámetro

Población

Intervalo de conanza

µ

Normal con

µ

No normal con

σ

conocida (n

µ

No normal con

σ

desconocida (n

p

Bernoulli (n

λ

Poisson (n

σ

conocida

≥ 30)

≥ 30)

≥ 30) ≥ 30)

σ x ± z1−α/2 √ n σ x ± z1−α/2 √ n S x ± z1−α/2 √ n r pb(1 − pb) pb ± z1−α/2 n r x x ± z1−α/2 n

4. Caso de dos muestras En ocasiones es necesario contrastar la homogeneidad de dos muestras para pronosticar si proceden de la misma población o no. Es decir, se trata de resolver alguna de las siguientes cuestiones: ¾Son dos muestras normales procedentes de una población con igual media?

Tema 7

Página: 3

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

¾Son dos muestras de Bernoulli procedentes de una población con la misma probabilidad de éxito?. En principio este objetivo lo llevaremos a cabo con intervalos de conanza y más tarde lo resolveremos mediante test de hipótesis. ¾Cómo podemos interpretar los resultados de un intervalo de conanza para desvelar una cuestión como la anterior?. Aunque las muestras provengan de la misma población es razonable que al observar dos muestras de ella se obtengan medias muestrales distintas y estas diferencias se atribuyen al azar. Esto se va a traducir en que al calcular el intervalo de conanza para la diferencia de dos medias o proporciones, éste contendrá el valor cero. Por el contrario, si el intervalo de conanza para la diferencia de medias o proporciones no contiene al cero decimos que

la diferencia de medias muestrales es signicativa y sería lo mismo

que concluir que las medias teóricas son diferentes.

Parámetros

µ1 − µ2

Intervalo de

Poblaciones

conanza

Normales indep.,

σ1

y

σ2

conocidas

σ1 , σ2 desconocidas n1 > 30, n2 > 30 Normales apareadas,

µ1 − µ2 p1 − p2

D = X1 − X2 n ≥ 30 Bernoulli, indep., (n1

≥ 30, n2 ≥ 30)

σ12 σ22 + n1 n2

r

S12 S22 + n1 n2

x1 − x2 ± z1−α/2

No Normales indep.,

µ1 − µ2

r

x1 − x2 ± z1−α/2 SD D ± z1−α/2 √ n r pb1 − pb2 ± z1−α/2

pb1 (1 − pb1 ) pb2 (1 − pb2 ) + n1 n2

5. Elementos básicos en un contraste de hipótesis paramétrico Supongamos que desconocemos el valor de un parámetro y formulamos dos posibles hipótesis acerca del valor que éste puede tomar. Por ejemplo, pensemos que

X

sea el contenido en gramos de proteínas, en 100 g de un

nuevo producto lácteo y del que desconocemos la media lácteo estándar contiene por término medio

µ = 5.2

µ.

Pongamos que un producto

g. de proteínas si bien éste nuevo

que se quiere lanzar al mercado se presenta enriquecido en varios tipos de nutrientes. Para contrastar si el nuevo producto presenta enriquecimiento en proteínas, formulamos las hipótesis: Hipótesis Nula Hipótesis Alternativa La Hipótesis Nula

H0

H0 : µ = 5.2g H1 : µ > 5.2g

es siempre una hipótesis conservadora que recoge información

histórica acerca del parámetro, mientras que la Hipótesis Alternativa

H1

es la hipóte-

sis de trabajo, que recoge información reciente sobre el parámetro y progresista porque suele informar de un cambio respecto al comportamiento histórico del parámetro. La

Tema 7

Página: 4

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

metodología es asumir

H0

Universidad de Murcia

y únicamente rechazarla si se maniestan discrepancias sig-

nicativas, no atribuibles al azar; es decir, si el apoyo de

H0

ocurrido sucesos de probabilidad muy baja. La aceptación de

signica asumir que han

H0

signicará que no ha

habido conclusión estadística o que los datos aportados por la investigación empírica no han sido concluyentes. Por el contrario, el rechazo de

H0

para aceptar

H1

signicará que

los datos proporcionados por la investigación empírica están en franco desacuerdo con la hipótesis histórica y diremos entonces que los datos son concluyentes y la hipótesis de trabajo es aceptada. En la aceptación o en el rechazo de

H0

podemos cometer dos tipos de errores.

Decisión que se toma Aceptar

H0 HA

Hipótesis Cierta

H0

Rechazar

H0

Correcto

Error (tipo I)

Error (tipo II)

Correcto

Aunque el error de tipo I, rechazar

H0

cuando

H0

es cierta, tiene más importancia

H0 cuando H0 es falsa. Si llamamos α a la probabilidad de cometer un error de tipo I y β a la probabilidad de cometer un error de tipo II, lo anterior signica que supuesto que nunca será α = β = 0 (a no ser de que observemos que el error de tipo 2, aceptar

a toda la población y con ello nunca nos equivocaremos), deberíamos de llevar a cabo contrastes con

α

controlado y pequeño.

Ejemplo 5.1 En un juicio tendremos que decidir entre dos hipótesis: o el acusado es

inocente o el acusado es culpable. Puesto que todos somos inocentes, salvo que se demuestre lo contrario, (H0 es la hipótesis apoyada por defecto), el test que debemos plantear es: H0 : H1 :

El acusado es inocente El acusado es culpable

En este caso es: α = P (Condenar al acusado, siendo éste inocente) β = P (absolver al acusado, siendo éste culpable) Con el ejemplo anterior vemos que el error tipo 1, con probabilidad

α,

tiene más tras-

cendencia que el error de tipo 2, por lo que lo tenemos bajo control, jando dicha probabilidad de antemano. A dicho valor prejado

cación.

α

se le denomina

nivel de signi-

6. Test de hipótesis para la media de una población normal El siguiente esquema muestra cómo proceder para el contraste de una media en la situación de ser

σ

para el parámetro

Tema 7

desconocida y muestras de tamaño grande. Para otras situaciones o

p

de una distribución de Bernouilli, la forma de proceder es análoga.

Página: 5

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

Test de hipótesis para la media µ de una población normal supuesto σ desconocida y muestras de tamaño grande 1. Planteamiento de las hipótesis a contrastar. Tres tipos de test:

Test a.-

H0 : µ = µ0 H1 : µ 6= µ0

Hipótesis Nula Hipótesis Alternativa

Test b.-

H0 : µ = µ0 H1 : µ > µ0

Hipótesis Nula Hipótesis Alternativa

Test c.-

H0 : µ = µ0 H1 : µ < µ0

Hipótesis Nula Hipótesis Alternativa

2. Si

H0

es cierta (µ

= µ0 ),

la función

Z=

X − µ0 √S n

∼aprox N (0, 1)

α y observamos el valor de z x − µ0 decir z = . S

3. Fijamos el nivel de signicación

(X1 , ..., Xn ) = (x1 , ..., xn ), 4. Construimos una

es

√

de

Z

cuando

n

Región de Rechazo, (RR),

jado

α, en base a Z . La regla

distribución de probabilidad del estadístico de contraste rechazar

H0

si

z ∈RR

y aceptar

H0

la es

en caso contrario. En este caso:

Test a.- RR=(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) Test b.- RR=(z1−α , +∞) Test c.- RR=(−∞, −z1−α ) 5. Alternativamente, puede llegarse a la misma conclusión usando el

valor. La regla e decisión es la siguiente: Rechazar Aceptar

H0

H0

si

P − valor < α

en caso contrario.

6. La tercera alternativa para decidir aceptar o rechazar intervalos de conanza de nivel

H0

P-

(1 − α).

H0

es mediante

La regla de decisión es rechazar

si:

Test a.- µ0 ∈/ (x ± z1−α/2 √Sn ) Test b.- µ0 ∈/ (x − z1−α √Sn , ∞) Test c.- µ0 ∈/ (−∞, x + z1−α √Sn ) y aceptar

Tema 7

H0

en caso contrario.

Página: 6

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Universidad de Murcia

En los problemas realizados a mano solemos utilizar la regla de decisión indicada en el punto 4, mientras que los casos llevados a cabo con ordenador se resuelven a través del P-valor o mediante los intervalos de conanza, criterios indicados en los puntos 5 y 6.

Ejemplo 6.1 Una proceso de elaboración de lácteos nalizaba con un producto de 5.2 g de contenido medio de proteínas por 100 g de producto. En la actualidad, dicho proceso se ha modicado mediante concentración del producto, para producir lácteos de mayor contenido en proteínas. Para contrastar si el proceso se ha modicado adecuadamente, se realiza periódicamente una inspección. En una de estas inspecciones una muestra de tamaño 25 arrojó una media muestral de 5.7. y una cuasidesviación típica 1.3 mm. ¾Debemos concluir que el proceso se ha modicado correctamente para producir lácteos enriquecidos en proteínas o por el contrario la media muestral observada no presenta diferencias signicativas respecto a los valores medios tradicionales?. Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ 6= 5.2 El estadístico Z=

¯ − 5.2 X √S n

∼aprox N (0, 1),

si

H0

es

cierta

Dicho estadístico es observado y toma el valor z=

5.7 − 5.2 1.3 √ 25

= 1.92

Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(−∞, −z0.975 )∪ (z0.975 , +∞) = (−∞, −1.96) ∪ (1.96, +∞). Como z = 1.92 ∈ / RR, aceptamos H0 , es decir, debemos concluir que NO hay suciente evidencia estadística y debemos de aceptar que el proceso produce lácteos de contenido medio en proteínas no signicativamente distinto a 5.2. En el ejemplo anterior se ha optado por un test bilateral, pero si el parámetro

µ

puede moverse en una sola dirección, el planteamiento anterior es inadecuado. Si esto es conocido, es más razonable hacer un test unilateral pues estamos teniendo en cuenta esta información y puede haber evidencia estadística donde antes no la había. Evidentemente, en el caso de usar un test unilateral, hay que recordar que la hipótesis de trabajo ha de estar en la hipótesis alternativa.

Ejemplo 6.2 En el caso del ejemplo anterior, si descartamos la posibilidad de que el contenido medio en proteínas de los lácteos disminuya puesto que el proceso está preparado para enriquecerlos, es inadecuado el planteamiento anterior y resulta mejor el siguiente: Hipótesis Nula (proceso no modicado) H0 : µ = 5.2 Hipótesis Alternativa (proceso modicado) H1 : µ > 5.2 El estadístico Tema 7

Página: 7

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

Z=

¯ − 5.2 X √S n

∼aprox N (0, 1),

Universidad de Murcia

si

H0

es

cierta

Dicho estadístico es observado y toma el valor z=

5.7 − 5.2 1.3 √ 25

= 1.92

Si jamos el nivel de signicación como α = 0.05, la región de rechazo es RR=(z0.95 , +∞) = (1.64, +∞). Como z = 1.92 ∈ RR, debemos concluir que SI hay suciente evidencia y debemos de rechazar H0 para aceptar que el proceso elabora lácteos enriquecidos en proteínas.

7. Contrastes paramétricos más frecuentes Al igual que en el tema de intervalos de conanza, resolvemos test de hipótesis para un solo parámetro mediante una muestra cuya población depende de dicho parámetro desconocido y para dos parámetros a partir de dos muestras. Para cada parámetro o pareja de parámetros tenemos tres opciones de test: uno bilateral o de dos colas y dos unilaterales o de una sola cola. Los test bilaterales producen resultados cuyas conclusiones son completamente equivalentes a las que se producirían de haberse construido el correspondiente intervalo de conanza. Sin embargo en los test unilaterales es posible restringir el espacio paramétrico, si este hecho es conocido de antemano, tal y como se ha visto en el ejemplo anterior, suponiendo que el parámetro sólo puede moverse en una sola dirección a partir de un valor histórico dado. De poder plantear un test unilateral (no siempre es posible hacer el supuesto de que el parámetro se mueve en una sola dirección), la región de rechazo se concentra en una sola cola y eso puede suponer apreciar diferencias signicativas cuando no se apreciaban en un test bilateral. De ahí la importancia de seleccionar en cada situación el test oportuno. A modo de resumen, diremos que hay conclusión estadística sólo en el caso del rechazo de la hipótesis nula aceptar

H0

H0

para aceptar nuestra hipótesis de trabajo

H1 .

En el caso de

y puesto que ésta es una hipótesis débil porque es la que se considera por

defecto por razones históricas o por desconocimiento de la actualidad, diremos que no hay conclusión estadística o que los datos no son concluyentes respecto a nuestra hipótesis de trabajo. En la última página de este documento se adjunta una tabla con los contrastes más básicos.

8. Bibliografía 1. Temas 5 y 6 del texto Estadística para Ciencias Agropecuarias. Autor: Di Riezo, J. A.

Tema 7

Página: 8

M. Iniesta Grado en Ciencia y Tecnología de los Alimentos

2. Tema 3 y Tema 4 del texto

Universidad de Murcia

Probabilidad y Estadística para Ciencias e Ingenierías.

Rosario Delgado de la Torre. Editorial Delta. 3. Capítulos 5 y 6 del texto

Estadística para ingenieros y cientícos. William Navidi.

Editorial McGraw-Hill.

Tema 7

Página: 9

Tema 7

6= 0 >0 0 0 30

Normales apareadas,

σ1 , σ2 desconocidas n1 > 30, n2 > 30

No Normales indep.,

σ1

≥ 30)

≥ 30)

desconocida (n

Normales indep.,

Poisson (n

Bernoulli (n

σ

No normal con

conocida (n

conocida

σ

σ

No normal con

Normal con

Poblaciones

N (0, 1)

pb − p0 q

con

N (0, 1)

x − µ0 √ S/ n

pb1 − pb2 q ; ( n11 + n12 )p0 (1 − p0 ) n1 pb1 + n2 pb2 p0 = n1 + n2

SD √ n

D

x −x q 12 2 2 S1 S2 n1 + n2

x −x q 12 2 2 σ1 σ2 n1 + n2

x − λ0 p λ0 /n

aprox.

N (0, 1)

N (0, 1)

N (0, 1)

aprox.

aprox.

N (0, 1)

N (0, 1)

N (0, 1)

x − µ0 √ σ/ n

p0 (1−p0 ) n

N (0, 1)

Distribución

x − µ0 √ σ/ n

Estadístico

(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α )

(−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α ) (−∞, −z1− α2 ) ∪ (z1− α2 , +∞) (z1−α , +∞) (−∞, −z1−α )

Rechazo

Región de

Grado en Ciencia y Tecnología de los Alimentos

p1 − p2 = 6 0 p1 − p2 > 0 p1 − p2 < 0

µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 µ 6= µ0 µ > µ0 µ < µ0 p 6= p0 p > p0 p < p0 λ 6= λ0 λ > λ0 λ < λ0 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2 µ1 − µ2

H1

M. Iniesta

Universidad de Murcia

Página: 10