Story Transcript
V A L O R - P
9. EL VALOR-P. Hemos visto que para realizar una prueba de hipótesis se necesita el valor del correspondiente estadístico de prueba P. El valor de P se calcula en base a los datos muestrales. Por ejemplo, si es una prueba de hipótesis sobre el valor de la media poblacional, y se conoce la varianza de la distribución, el estadístico de prueba P es la v a r i a b l e a l e a t o r i a Z q u e e s N ( 0 . 1 ) . S e c a l c u l a e l v a l o r z obs d e Z ; y s e c o m p a r a c o n e l v a l o r c r í t i c o z crit . E s t e v a l o r c r í t i c o d e p e n d e d e l a h i p ó t e s i s a l t e r n a t i v a . F r e c u e n t e m e n t e , e n v e z d e u s a r e l v a l o r z obs , s e u s a l a p r o b a b i l i d a d q u e e s t á l i m i t a d a p o r z obs . E s a p r o b a b i l i d a d s e d e n o m i n a va l o r -P . V e a m o s a c o n t i n u a c i ó n l a definición de valor-P, que depende del tipo de prueba (bilateral, lateral superior, o lateral inferior).
Valor-p en las pruebas de hipótesi s so bre la media
V A L O R -P E N LA PR U E BA L A T E R A L S U PER I OR . Sea T un estadístico utilizado en una prueba de hipótesis. (no necesariamente con distribución t de Student). Sea una prueba de hipótesis lateral superior (Por ejemplo, H o: µ = µ o ; H a: µ > µ o ) . S e a T o b s e l v a l o r c a l c u l a d o d e T a p a r t i r d e l o s d a t o s d e l a muestra. Para esta prueba el valor-P está definido por P(T
>
Tobs) = Valor-P = 1 - FT (Tobs) ;
donde F T (T o b s ) es el valor de la función de distribución acumulada de T, en el punto Tobs. Para e sta h i pó te sis alt er n ati va, el valo r-P es la pr o babili da d qu e qu ed a a la derecha del valor Tobs. bajo la curva de densidad.
La siguiente Figura ejemplifica el valor-P, para el caso de la distribución Normal. En este caso el estadístico es Z; y el valor observado del estadístico es Zobs; el nivel de significación es α = 0,05. A l u s a r e l v a l o r - P p a r a e v a l u a r H o, e l c r i t e r i o d e r e c h a z o ( q u e e n t o d o s l o s c a s o s l o d e t e r m i n a H a) s e t r a n s f o r m a e n : S i v a l o r - P < α , s e r e c h a z a H o, y s e a c e p t a H a.
Función de densidad
0.4
0.3
0.2
α = 0,05
0.1
Nivel P 0 -4
-3
-2
-1
0
1
2
Z obs
3
4
Z
Z0,05
I X (b ) - 1
V A L O R - P
Valor-P en la prueba lateral inferior.
V A L O R -P E N LA PR U E BA L A T E R A L IN FER I OR . Sea T un estadístico utilizado en una prueba de hipótesis. Sea una prueba de h i p ó t e s i s l a t e r a l i n f e r i o r ( P o r e j e m p l o , H o : µ = µ o ; H a : µ < µ o ) . S e a T obs e l v a l o r calculado de T a partir de los datos de la muestra.
Para e sta pr u e ba el valo r-P e stá d ef in ido po r P ( T < T o b s ) = Va l o r - P = F T ( T o b s ) ; A l u s a r e l v a l o r - P p a r a e v a l u a r H o, e l c r i t e r i o d e r e c h a z o s e t r a n s f o r m a e n : S i v a l o r - P < α , s e r e c h a z a H o, y s e a c e p t a H a. La siguiente Figura ejemplifica el valor-P, para el caso de la distribución Normal. En e s t e c a s o e l e s t a d í s t i c o e s Z ; y e l v a l o r o b s e r v a d o d e l e s t a d í s t i c o e s z obs ; e l n i v e l d e significación es α = 0,05.
Función de densidad
0.4
0.3
0.2
α = 0,05 0.1
Nivel P 0 -4
-3
-2
-1
0
1
2
3
4
Z
Z obs Z 0,05
V A L O R -P E N LA PR U E BA B I LAT E R A L . Sea T un estadístico utilizado en una prueba de hipótesis. Sea una prueba de h i p ó t e s i s b i l a t e r a l ( P o r e j e m p l o , H o : µ = µ o ; H a : µ ≠ µ o ) . S e a T obs e l v a l o r c a l c u l a d o de T a partir de los datos de la muestra. Se cumple: P( T >Tobs ) = 2 (1 – FT ( Tobs) ) Para e sta pr u e ba el valo r-P e stá d ef in ido po r : N i ve l - p = 2 ( 1 – F T ( T obs)
)
El cri t er io de r ech azo de l a hi pót esis nu l a Ho en est e c a so t am bién es: valo r-P < α.
I X (b ) - 2
V A L O R - P
La siguiente Figura ejemplifica el valor-P, para el caso de la distribución Normal, donde el estadístico es Z; y el valor observado del estadístico es zobs; el nivel de significación es α = 0,05. Function Plot (NTEORLIM.STA 10v*100c) Normal(x, 0,1)
Función de densidad
0.4
0.3
0.2
0.1
0 -4
α = 0,025
α = 0,025
(Valor P) / 2
-3
-2
-1
0
1
2
3
4
Z
Zobs Z0,025
Z0,025
La siguiente Tabla agrupa las definiciones del valor-P según el tipo de prueba (lateral superior, lateral inferior, o bilateral). Tipo de prueba
Valor-P
Criterio
de
Rechazo de H o , al nivel α . Lateral superior
P( T > T obs )
=
1 - F T (T obs )
Valor-P ≤ α
Lateral inferior
P( T < T obs )
=
F T (T obs )
Valor-P ≤ α
Bilateral
2*P( T > T obs )
=
2 (1 – F T ( T obs ) )
Valor-P ≤ α
Un a v ez qu e e l v a l o r -P f u e c al c u l a do , pr e vi am en t e el e g i do , e s:
la
d ec i si ó n s o br e H o ,
p ar a
el n i v e l α
S i v al o r - P ≤ α , en t o n c es s e r ec h az a H o , y s e ac ep t a H a . S i v al o r - P > α , e n t o n c e s n o s e r ec h a z a H o . Ejemplo. S e a e l c a s o d e u n a p r u e b a l a t e r a l s u p e r i o r, t a l q u e H o : µ = µ o ; y H a : µ > µ o . E l n i v e l d e s i g n i f i c a c i ó n α d e l a p r u e b a e s 0 , 0 5 . D e l a m u e s t ra s e c a l c u l a Z o b s = 1 ,7 8 . E l v a l o r- P c o r r e s p o n d i e n t e a Z o b s , e s 0 . 0 3 7. L a z o n a d e r e c h a z o d e H o e s : va l o r - P ≤ α. En est e caso se cu m pl e l a con dici ón de r echazo de Ho.
Ejemplo. S e a e l c a s o d e u n a p r u e b a b i l a t e ra l , t a l q u e H o : µ = µ o ; H a : µ ≠ µ o . E l n i v e l α e s i g u a l a 0 , 0 5 . D e l a m u e s t r a s e c a l c u l a Z o b s = 1 ,7 8 . E l va l o r - P c o r r e s p o n d i e n t e e s 0 . 0 7 5 ( p o r s e r P ( Z > Z o b s ) = 0 , 0 3 7 ) . L a z o n a d e r e c h a z o e s : v a l o r- P ≤ α . E n e s t e caso no se rechaza Ho.
I X (b ) - 3
V A L O R - P
La especificación del nivel de significación α antes imprescindible aunque el resultado se exprese en valor-P. Si el nivel α no se expresa de antemano, “ a c o m o d a n d o ” a p os t e r i or i . E s t o ú l t i m o q u i t a r í a a validez.
de realizar
la prueba,
es
la conclusión se estaría la prueba de hipótesis su
I X (b ) - 4
E R R O R
D E L
S E G U N D O
T I P O
ERROR DEL SEGUNDO TIPO En esta sección analizaremos el error de segundo tipo β de una prueba de hipótesis. Para ello introduciremos la f un ci ó n d e o p e r a c i ó n c a r a c t e r í s t i c a , L( φ) , d o nd e φ e s
hipótesis.
el parámetro sobre el que se efectúa la prueba de introduciremos la función de potencia de la prueba, H(φ).
También
Funciones de operación característica y de potencia Sea X una variable aleatoria cuya función de densidad de probabilidad f(x) es c o n o c id a, exc e pto por el v a lor d e u n o d e su s p ará m e tro s, π. S e ef ec túa u n a p ru e b a d e h i p ó t e s i s s o b r e e l v a l o r d e e s e p a r á m e t r o . L a h i p ó t e s i s n u l a e s H o: π = π o. L a h i p ó t e s i s
a l t e r n a t i v a H a p u e d e s e r c u a l q u i e r a d e l a s s i g u i e n t e s : 1 ) H a: π < π o; 2 ) H a: π > π o; 3 ) H a: π ≠ π o . Se denomina función característica, de una prueba específica de hipótesis, a la función L(π) t al que: L(π) = P(Aceptar Ho cuan do el valor del parámetro es π).
Una f unc ión e st rec h am en t e r el ac ion a d a a L( π) e s l a func ión de pot enc i a H( π) d e l a pru e b a. L a d ef in ic ió n d e H ( π) e s : Se denomina función de potencia hipótesis, a la función H(π) tal que:
de
una
prueba
específica
de
H(π) = P(Rechazar Ho cuando el valor del par ámetro es π). Se cumple la siguiente relación: H(π) = 1 – L( π) Las funciones de operación propiedades:
característica,
y de
potencia tienen
las
siguientes
1 ) S i π = πo, e n t o n c e s H o e s c i e r t a . E n e s t e c a s o s e c u m p l e : L ( πo) = 1 – α. E s t a e s l a p r o b a b i l i d a d d e n o r e c h a z a r H o c u a n d o e s c i e r t a . H ( πo) = α. E s t a e s l a p r o b a b i l i d a d d e r e c h a z a r H o c u a n d o e s c i e r t a . 2) Si π
≠ πo, e n t o n c e s H o e s f a l s a . E n e s t e c a s o s e c u m p l e :
L( π) = β . Est a la pro b a bi li d ad d e ac e pt ar Ho c u an do e s f al s a, s i e l p ar ám et ro t i en e va lor π. H(π) = 1– β . Esta la pro ba b i li d ad d e r ec ha z ar Ho c ua n do e s f al s a, s i e l p ará m e tro ti en e v alo r π. De b e qu e d ar c l aro qu e ta nto la f unc ión d e op er ac i ón c a rac t erí s tic a L( π) c omo la función de po tenci a H( π) t o m ar án di st int o s fo rm as p ar a d i st int a s p ru eb a s de h i p ó t e si s.
Caso de una prueba de hipó tesi s sobre l a media de una variable normal En los ejemplos que se dan a continuación X es una variable aleatoria con d i s t r i b u c i ó n N ( µ , σ ) , c o n σ c o n o c i d a . L a p r u e b a d e h i p ó t e s i s t i e n e h i p ó t e s i s n u l a H o: µ
= µo. E l t a m a ñ o d e l a m u e s t r a a l e a t o r i a d e X , e s n . E l e s t a d í s t i c o d e p r u e b a e s
I X (b ) - 5
E R R O R
Z=
x − µo σ
D E L
S E G U N D O
T I P O
n
P R UE B A LA T E R A L I N F E R I O R Ho: µ = µo; H a: µ < µ o . E n e s t a p r u e b a l a z o n a d e r e c h a z o e s z obs < – z α (que también se puede escribir como z obs < z 1-α ) . A continuación, deduciremos la expresión de la función de operación característica L(
µ) p a r a e s t a pr u e b a d e h i pó t es i s. Po r l a de f in ic ió n d e L( µ) , s e t i en e: L ( µ o ) = P ( A c e p t a r H o c u a n d o l a m e d i a e s µ o ) = P ( z obs > – z α ) = 1 – α . E n l a e x p r e s i ó n a n t e r i o r , r e e m p l a z a m o s z obs p o r s u d e f i n i c i ó n , y s e o b t i e n e :
x −µ o σ
n > − zα = 1 - α .
L( µ o ) = P Deseamos
a h o ra
L ( µ) .
obtener
x−µ desigualdad el término σ
x − µo L( µ ) ≡ P σ
n+
x−µ σ
Con
ese
fin,
sumamos
a
ambos
miembros
de
la
n ; y se obtiene:
n > − zα +
x−µ σ
n .
x−µ σ
n ,
ó:
x−µ L( µ ) ≡ P σ
n > − zα −
x − µo σ
n > − zα +
µo σ
n+
ó:
x−µ L( µ ) ≡ P σ
n+
−µ σ
n .
Si usamos la definición:
Z=
x−µ σ
n , donde µ es la media verdadera (desconocida), se obtiene finalmente:
, L( µ) =
µ −µ 1 − P z < − zα + o σ
n = β para µ ≠ µ o ;
o, equivalentemente: L(µ) =
µ −µ 1 − Φ − zα + o σ
n = β para µ ≠ µ o .
Esta es la función de operación característica correspondiente a la p r u e b a d e h i p ó t e s i s H o: µ = µ o; H a: µ < µ o; c o n N ( µ , σ ) , p a r a e l c a s o d e que l a mue stra al eatoria tien e t amaño n, y la vari abl e a lea toria X es N(µ, σ), con σ conocido, y el nivel de significación es α. Observemos que esa expresión matemática indica que si α es grande, β es pequeño, y v i c e v e r s a . E n e f e c t o , s i α e s g r a n d e , e n t o n c e s - zα e s g r a n d e e n v a l o r a b s o l u t o . P o r c o n i g u i e n t e , l a f u n c i ó n d e d i s t r i b u c i ó n Φ e s s e r á m a y o r , p o r c o n s i g u i e n t e L ( µ) ( q u e e s igual a β si µ≠µo) será menor. S e c u m p le n la s si gu i en t es p r o p ie d a d es d e L( µ) , y d e H ( µ) :
I X (b ) - 6
E R R O R
D E L
S E G U N D O
T I P O
L ( µo) = 1 – α; p a r a µ = µo . L ( µ) = β ; p a r a µ < µo. H ( µo) = α; p a r a µ = µo. H ( µ ) = 1 – β ; p a r a µ < µ o. Con frecuencia queremos controlar el valor de la probabilidad β del error de tipo II. Si se requiere que α tome un valor dado, la única manera de controlar la probabilidad β es mediante el tamaño de la muestra n. Ejemplo: S e a l a va r i a b l e a l e a t o r i a t i em po d e s ec ad o d e u n a p i n t u ra , q u e i n d i c a m o s p o r X . S e s a b e q u e X ~ N ( µ , σ ) , d o n d e σ = 3 0 m i n . S e i n t r o d u j o u n n u e vo p r o c e d i m i e n t o químico que se cree puede disminuir el tiempo medio de secado. 1 ) S e d e s e a e va l u a r l a h i p ó t e s i s n u l a H o : µ = 3 4 0 m i n ; c o n t r a l a h i p ó t e s i s H a : µ < 340 min, al nivel α = 0,05%. De una muestra de tamaño n igual a 16 elementos, se o b t u v o u n a m e d i a m u e s t ra l i g u a l a 3 3 0 m i n u t o s . E l e s t a d í s t i c o d e p r u e b a e s :
Z=
X − µo σ
n
El criterio de rechazo de Ho es: zo bs < – zα . -z
Reemplazando valores, se obtiene zo b s = -1,33. De tablas se obtiene = - 1 , 6 5 . z o b s no ca e e n la zo na de re c ha z o. Por c o ns ig uie nt e no se 0,05
rec haza H o.
A h o ra p a s a m o s a e x a m i n a r c u á l e s l a p r o b a b i l i d a d d e q u e l a h i p ó t e s i s n u l a H o s e a a c e p t a d a c u a n d o e s f a l s a ( e r r o r d e t i p o I I ) . E s a p r o b a b i l i d a d e s f u n c i ó n d e l va l o r v e r d a d e r o d e l a m e d i a d e l a d i s t r i b u c i ó n , µ. E s d e c i r, β ( µ) . O b v i a m e n t e , d e s c o n o c e m o s e l va l o r ve r d a d e r o d e l a m e d i a d e l a d i s t r i b u c i ó n . S i n e m b a r g o, p o d e m o s h a l l a r e l va l o r d e β q u e c o r r e s p o n d e a d i s t i n t o s µ. E s d e c i r, p o d e m o s construir escenarios del tipo ¿Qué pasaría si ...? L a f u n c i ó n d e o p e ra c i ó n c a ra c t e r í s t i c a p a ra l a p r u e b a d e h i p ó t e s i s u n i l a t e ra l inferior está dada por: L( µ) = 1 –
µ −µ Φ − zα + o σ
n , q u e e s i g u a l a β , p a ra µ ≠ µ o .
L a s i g u i e n t e F i g u ra m u e s t r a l a g r á f i c a d e L ( µ) p a r a l a p r u e b a u n i l a t e ra l i n fe r i o r.
I X (b ) - 7
Probabilidad de rechazar H0 (Potencia)
E R R O R
D E L
S E G U N D O
T I P O
Distribución Normal; n = 16. Hipotesis sobre la media: H0=340.000 H1= 330.000 Sigma poblacional: 30.0000 alfa: 0.050 (unilateral) beta: 0.62 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 305.
β
1−α
1−β 310.
315.
320.
325.
330.
335.
Media verdadera
340.
345.
µο
E n e s t a f i g u ra l o s va l o r e s d e β ( µ) s e l e e n d e s d e e l l í m i t e s u p e r i o r h a s t a l a Pa ra e l va l o r q u e s e u s a e n l a h i p ó t e s i s n u l a ( 3 4 0 m i n ) , l a o r d e n a d a e s i g u a l e s a e s l a p r o b a b i l i d a d d e n o r e c h a z a r l a h i p ó t e s i s n u l a . E n l a g r á f i c a d e L (µ) q u e e l v a l o r d e β e s 0 . 6 2 p a ra u n a s u p u e s t a µ v e r d a d e ra i g u a l a 3 3 0 m i n ; e s t o p r o b a b i l i d a d m u y a l t a d e o c u r r e n c i a d e u n e r r o r d e t i p o I I p a ra e s e va l o r d e µ.
c u r va . a 1 -α; se lee es una
Id e n t i f i q u e m o s a h o r a e l i n t e r v a l o d e va l o r e s d e µ q u e t i e n e n u n a p r o b a b i l i d a d β o, o m a y o r, d e g e n e ra r u n e r r o r d e t i p o I I . A d o p t a m o s β o = 0 , 1 . L a g r á f i c a d e l a fu n c i ó n d e o p e ra c i ó n c a ra c t e r í s t i c a i n d i c a q u e p a r a e s t a p r u e b a d e h i p ó t e s i s , c a d a va l o r d e µ d e n t r o d e l i n t e r va l o 3 4 0 m i n > µ > 3 1 8 m i n p o d r í a g e n e ra r u n e r r o r d e t i p o I I c o n p r o b a b i l i d a d m a yo r q u e 0 , 1 , s i fu e s e l a m e d i a v e r d a d e ra d e l a d i s t r i b u c i ó n . Ve a m o s e l c á l c u l o d i r e c t a m e n t e d e l a L ( µ) . Calcularemos el valor de µ que es la solución de la ecuación: L( µ) = 1 –
µ −µ Φ − zα + o σ
n ≤ β o, d o n d e β o fu e e l e g i d o i g u a l a 0 , 1 .
E s a e s l a e c u a c i ó n q u e d e b e n s a t i s f a c e r l o s va l o r e s µ. S i a l g u n o d e e l l o s fu e s e l a media verdadera de la distribución, entonces tendría una probabilidad menor que 0,1 de producir un error del tipo II. o, eq u i va l e n t em en t e :
µ −µ Φ − zα + o σ
n ≥ 0,9.
La solución se obtiene despejando µ de la siguiente ecuación: –1,65 +
340− µ 4 ≥ 30
1,28
De aquí se obtiene µ ≤ 318 min. Po r c o n s i g u i e n t e , p a ra α = 0 , 0 5 ; y u n a m u e s t r a d e 1 6 e l e m e n t o s , s i s e a c e p t a H o, e x i s t e u n a p r o b a b i l i d a d β ≤ 0 , 1 0 q u e s e c o m e n t a u n e r r o r d e l s e g u n d o t i p o s i e l va l o r verdadero de la media de X es µ ≤ 318 min.
I X (b ) - 8
E R R O R
D E L
S E G U N D O
T I P O
T A M A Ñ O D E M U E S T R A P A R A Q UE β ≤ β O , C O N α F I JO A c o n t i n u a c i ó n d e t e r m i n a r e m o s e l t a m a ñ o m í n i m o n d e l a m u e s t r a p a r a q u e β ≤ β o, donde β o es un valor preestablecido por el ingeniero. Comúnmente se adopta β o = 0,10. Veremos que también es necesario determinar a partir de qué valor de µ se está i n t e r e s a d o e n q u e s e c u m p l a β ≤ β o. El valor de la probabilidad del error de tipo II, β , está dado para esa prueba de hipótesis lateral inferior por: L( µ) = 1 –
µ −µ Φ − zα + o σ
n = β , p a r a µ ≠ µ o.
Q u e r em o s qu e β ( qu e e s f u n c i ó n de µ, e n t r e o t r o s p ar á m et r o s) n o su p er e u n va lo r d a d o β o. P o r c o n s i g u i e n t e , s e t i e n e : L( µ) = 1 –
µ −µ Φ − zα + o σ
n ≤ β o.
o:
µ −µ Φ − zα + o σ
n ≥ 1 − βo .
Esta última ecuación tiene por solución:
− zα +
µ o −µ σ
n ≥ z βo ; d o n d e z β o c u m p l e : P ( Z > z β o ) = β o .
Al despejar n, se obtiene finalmente: 2
σ z βo + zα ; e s t a e s l a c o n d i c i ó n s o b r e e l t a m a ñ o d e l a m u e s t r a p a r a q u e n ≥ µ o −µ
(
)
L ( µ) ≤ β o p a r a u n v a l o r d a d o d e α
C o m ú n m e n t e s e e l i g e β o = 0 , 1 . E n e s t e c a s o e s z β o= 1 , 2 8 .
P R UE BA LA T E R A L S U PE R I O R 1) La prueba de hipótesis es H o: µ = µ o ; H a: µ > µ o . 2) El estadístico de prueba es
Z=
X −µ o
σ/ n
3 ) E l c r i t e r i o d e r e c h a z o d e H o e s z obs > z α . P o r c o n s i g u i e n t e l a z o n a d e a c e p t a c i ó n d e H o e s z obs < z α . 4 ) P o r d e f i n i c i ó n d e z α, e l v a l o r d e L ( µ ) p a r a µ = µ o e s t á d a d o p o r : L ( µ o ) = P ( Z < z α) = 1 – α ; Reemplazando Z en la ecuación anterior por su definición se obtiene: L ( µo) =
X −µ o < zα = 1 – α . P σ / n
I X (b ) - 9
E R R O R
X −µ
Sumando a ambos lados de la desigualdad el término
σ/ n
D E L
S E G U N D O
T I P O
, y efectuando un pasaje
de término, se obtiene: L( µ) =
X −µ X −µ o X −µ P < zα + − σ/ n σ/ n σ / n L( µ) =
; ó f i n a l m e n t e :
µ −µ P Z < zα + o σ/ n
µ −µ = Φ zα + o σ/ n
.
Para la pr u e ba d e h ipó te si s H o: µ = µ o ; H a: µ > µ o. de una vari abl e ale atoria X Norm al ( µ, σ), con σ conocido, la función de o peración caracterí stica L( µ) e sta da da por : L(µ) =
µ −µ P Z < zα + o σ/ n
µ −µ = Φ zα + o σ/ n
donde el estadístico de prueba Z está dado por
X −µ
σ/ n
.
.
La correspondiente función de potencia H( µ) está dada por: H( µ) = 1 –
µ −µ Φ zα + o σ/ n
Ejemplo. C o n t i n u am o s c o n l a m i sm a var ia b le al e at o r i a X de l pr o bl em a an t er io r ; X ~ N (µ, σ) , c o n σ = 3 0 m i n . S e o b t u v o u n a m u e s t ra d e 1 6 e l e m e n t o s ; y e l p r o m e d i o d e e s a m u e s t ra x e s i g u a l a 3 7 0 m i n . A h o r a e f e c t u a r e m o s u n a p r u e b a d e h i p ó t e s i s p a ra e x a m i n a r s i e l t i e m p o m e d i o d e s e c a d o a u m e n t ó . E s t a e s u n a p r u e b a l a t e ra l s u p e r i o r. Las hipótesis son: Ho: µ = 340 min; Ha: µ > 340 min. El estadístico es nuevamente Z =
X −µ
σ/ n
.
1 ) S e d e s e a e va l u a r l a h i p ó t e s i s n u l a H o : µ = 3 4 0 m i n ; c o n t r a l a h i p ó t e s i s H a : µ > 340 min, al nivel α = 0,05%. 2 ) D e t e r m i n a r e m o s e l va l o r µ m t a l q u e l a p r o b a b i l i d a d β d e a c e p t a r H o s i µ ≥ µ m , s e a m e n o r q u e 0 , 1 . E n c a s o d e q u e n o s e r e c h a c e H o, c o n o c e r e m o s e l i n t e r va l o ( µ o ; µ m ] d e va l o r e s d e µ q u e p o d r í a n h a b e r p r o d u c i d o l a a c e p t a c i ó n d e H o s i h u b o u n e r r o r d e t i p o I I , c o n u n a p r o b a b i l i d a d d e 1 0 % o m a y o r. Re s p u e s t a a l a p a r t e 1 La prueba tiene las hipótesis Ho: µ = 340 min; Ha: µ > 340 min. El nivel de significación α es 0,05. Se obtuvo una muestra de 16 elementos; y el promedio de e s a m u e s t ra
x es igual a 350 min. I X (b ) - 1 0
E R R O R
D E L
S E G U N D O
T I P O
El criterio de rechazo de Ho es : zobs > zα. E l v a l o r c a l c u l a d o d e l e s t a d í s t i c o d e p r u e b a Z e s : z o b s = 1 . 3 3 . E l va l o r c r í t i c o z α e s i g u a l a 1 , 6 5 . Po r c o n s i g u i e n t e n o s e r e c h a z a H o . Re s p u e s t a a l a p a r t e 2 Buscamos la solución de la ecuación: L( µ) =
µ −µ Φ zα + o σ/ n
≤ 0 , 1 .
Resolviendo esta ecuación se obtiene:
zα +
µ o −µ σ/ n
≤ –1,28; por consiguiente (con zα = 1,65) µ ≥ 361.9 min.
E s t e r e s u l t a d o i n d i c a q u e c u a l q u i e r va l o r e n e l i n t e r v a l o s e m i a b i e r t o ( 3 4 0 m i n , 3 6 1 , 9 m i n ] t i e n e u n a p r o b a b i l i d a d m a yo r q u e 1 0 % d e p r o d u c i r u n e r r o r d e t i p o I I . La si gu i en t e f igu r a m u est r a l a f u n c ió n po t en c i a H ( µ) p a r a e st a pr u e ba d e h i pó t e s is. Para µ = 342,8 el utilitario calculó β = 0,124. Variable normal Media: H0=340.0 min Sigma: 30.0 alfa unilateral: 0.050
Probabilidad de aceptar Ho
0. 0.1 0.2
β
0.3 0.4 0.5
1−α
0.6 0.7 1−β
0.8 0.9 1 335.
340.
α
345.
350.
355.
360.
365.
370.
375.
Media
E n g en er al , s i l a h i pó t e si s n u la s e r ec h az a, el L( µ) n o p r o ve e i n f o r m ac ió n d e u t i li d ad. P o r e l c o n t r a r i o , s i e l H o n o s e r e c h a z a , L ( µ ) p r o v e e l a p r o b a b i l i d a d β ( µ) d e q u e v a l o r e s de µ distintos del propuesto en la Ho puedan originar un error de tipo II.
P R UE BA BI LA T E R A L . L a s h i p ó t e s i s s o n : H o: µ = µ o. H a: µ ≠ µ o. L a z o n a d e a c e p t a c i ó n d e H o e s – z α /2 < Z < z α /2 . P o r c o n s i g u i e n t e , l a f u n c i ó n d e o p e r a c i ó n c a r a c t e r í s t i c a e s : L( µ) =
x −µ o P − zα / 2 < n < zα / 2 . S u m a n d o σ
x −µ n a ambos miembros de la σ
desigualdad se obtiene, después de un pasaje de términos, y de emplear la definición de función de distribución: L( µ) =
µ −µ Φ zα / 2 + o σ
µ −µ n − Φ − zα / 2 + o σ
n.
La función de potencia está dada por:
I X (b ) - 1 1
E R R O R
H ( µ) = 1 –
µ −µ Φ zα / 2 + o σ
D E L
S E G U N D O
T I P O
µ −µ n + Φ − zα / 2 + o n σ
La siguiente figura muestra la función de potencia, para la prueba bilateral con h i p ó t e s i s n u l a H o: µ = 3 4 0 m i n u t o s ; y H a: µ ≠ µ o:
Probabilidad def Rechazar H0 (Potencia)
Distribucion Normal; n = 16 Media: H0=340.0. Sigma: 30.0 alpha: 0.050 (bilateral) 1 0.9 0.8 0.7
1−α
0.6 0.5 0.4 0.3 0.2
1−β
0.1 0 250.
300.
350.
400.
450.
Media verdadera
I X (b ) - 1 2
B O N D A D
D E
A J U S T E
BONDAD DE AJUSTE Una prueba de bondad de ajuste consiste en evaluar, en base a una muestra a l e a t o r i a { x 1, x 2, . . . , x n} , l a h i p ó t e s i s d e q u e u n a v a r i a b l e a l e a t o r i a X t i e n e u n a d a d a
distribución de probabilidad F(x).
Cuando los datos están en forma numérica, las dos pruebas de bondad de ajuste más p o p u l a r e s s o n l a p r u e b a d e K - S ( K o l m o g o r o v - S m i r n o v ) , y l a p r u e b a j i - c u a d r a d o , χ 2.
Esta última prueba no puede aplicarse cuando la muestra tiene un tamaño pequeño. En este último caso hay que recurrir a la prueba de K-S.
Prueba Ji-cuadrado Para realizar la prueba ji-cuadrado de bondad de ajuste se construye primeramente un histograma de los datos de la muestra. Cada clase 'i' del histograma contendrá Oi
va l ore s
ob se r va do s.
A
c o n ti n ua ci ó n
se
ca l c ula n
lo s
va lo re s
e s pe ra dos
Ei
co rre sp o ndi en te a c a da c lase 'i ' . E l e sta dís tic o χ 2 d e fi ni do p or :
χ
2
=
r
∑
(Oi
− Ei
)2
Ei
i =1
, t ie ne u na dis tri b uc ión j i-c u a d ra d o c on r - m -1 g r a d os de
libe rtad , do n de r e s e l n úme r o de c la se s de l h is to gra ma , y m e s e l nú me ro de paráme tr os de la di str ib u ci ón te óri ca q ue f uer o n est ima do s a par tir de l os va l ore s de la m u est ra. L a s ig ui e n te e s u na des c rip c ió n pas o a pa so de l pro ce dim ie nt o pa ra efe c tua r la p r ueba de b on dad de a ju ste j i-cu a d rad o . Sea una muestra {x1 , x2 , ..., xn }, de n elementos de la variable aleatoria X. A fin de ejemplificar los distintos pasos que componen a la prueba ji-cuadrado usaremos la siguiente muestra de una variable aleatoria X: 109,02 - 103,14 - 113,36 - 122,12 Esta
119,40 - 138,66 - 109,90 - 112,28
134,10 - 112,28 - 113,71 - 121,51
muestra,
de
110,73 - 114,72 - 115,38 - 115,05
tamaño
103,91 - 130,10 - 107,56 - 116,33 n
igual
123,67 - 130,10 - 119,40 - 124,95 - 136,09 - 139,74 - 105,90 - 123,67 - 112,65 - 132,96. a
30,
tiene
las
siguientes
características:
x = 120,12; s = 11,43. El m áximo muestral es 139,74; el mínimo muestral es 10 3,14. El rango de la muestra es 36,60. La prueba de bondad de ajuste ji-cuadrado, está compuesta de los siguientes pasos: 1. Si la variable aleatoria X es continua, se subdivide el recorrido de la muestra de X en r clases (o intervalos mutuamente excluyentes). Conviene que las clases tengan el mismo ancho; aunque esto no es imprescindible. Frecuentemente, la primer y la última clase son mayores que los otros intervalos. Si la variable aleatoria X es discreta, se consideran todos los valores de la variable aleatoria en el recorrido muestral. Tanto si X fuese discreta como si fuese continua, se unen clases contiguas (o valores contiguos en el caso de una variable aleatoria discreta), para evitar que cada clase tenga menos de 5 valores. La prueba ji-cuadrado esta basada en un teorema límite, valido para n → ∞. En general, se espera que la prueba sea válida si el número de f r e c u e n c i a s e s p e r a d a s p a r a c a d a i n t e r v a l o , n × p i, e s p o r l o m e n o s i g u a l a 5 . Ejemplo: E n b a s e a l a m u e s t ra a n t e r i o r, c o n s t r u i m o s u n h i s t o g r a m a . E l n ú m e r o d e c l a s e s que utilizaremos depende del tamaño de la muestra. Ensayaremos con distintas c a n t i d a d e s d e c l a s e s h a s t a e n c o n t ra r a l n ú m e r o a d e c u a d o . E n e l p r i m e r e n s a yo p r o b a m o s u n n ú m e r o d e c l a s e s i g u a l a l c o c i e n t e e n t r e e l número de datos, y un número promedio de datos por clase. Elegimos 6 datos en p r o m e d i o p a ra c a d a c l a s e . L a c a n t i d a d d e c l a s e s , k , e s t á d a d a p o r k = n / 6 = 5 .
I X (b ) - 1 3
B O N D A D
D E
A J U S T E
Pa ra o b t e n e r l í m i t e s d e c l a s e q u e p r e f e r e n t e m e n t e s e a n n ú m e r o e n t e r o s , e l e g i m o s p a ra e l l í m i t e i n f e r i o r d e l h i s t o g ra m a X = 1 0 0 ; y p a ra e l l í m i t e s u p e r i o r X = 1 4 0 . E l a n c h o d e l o s i n t e r va l o s , e n t r e l o s l í m i t e s d e c l a s e s , r e s u l t a i g u a l a 8 u n i d a d e s . E l h i s t o g ra m a e n f o r m a d e t a b l a e s e l s i g u i e n t e : X
100 – 108
108 – 116
116 – 124
124 – 132
132 – 140
Casos
4
11
7
3
5
12
Valores observados, Oi
10
8
6
4
2
0 90
100
110
120
130
140
150
160
X
E s t e h i s t o g r a m a p o s e e c l a s e s c o n m e n o s d e 5 va l o r e s . Po r c o n s i g u i e n t e , d e b e m o s c a m b i a r l o. E l s i g u i e n t e h i s t o g r a m a c u m p l e c o n e l r e q u i s i t o d e q u e e l n ú m e r o d e va l o r e s o b s e r v a d o s e s ≥ 5 e n t o d a s l a s c l a s e s . X ≤ 111
(111 –119]
(119 –127]
X >127
7
9
7
7
E n e s t e h i s t o g ra m a e f e c t u a m o s l a c o n v e n c i ó n d e q u e e l l í m i t e s u p e r i o r d e c a d a clase pertenece a la clase. El límite inferior no pertenece a la clase. Esta asimetría en la definición de los intervalos de clase es irrelevante. 2. Se determina el número Oi de observaciones que pertenecen a cada clase “i”. Se cumple: O1 + O2 + ... + On = n. 3. Se ajusta una distribución teórica F(x) a la muestra. Para ello habrá un cierto número m de parámetros que habrá que estimar a partir de los datos de la muestra. La forma del histograma ayuda a orientarse en la elección de F(x). Ejemplo. Pa ra e l c a s o q u e e s t a m o s e j e m p l i f i c a n d o, e l h i s t o g r a m a s u g i e r e q u e F ( x ) p o d r í a ser la distribución Normal con
µˆ
=
x=
120,12; y
σ
= s = 11,43.
4. En base a la distribución teórica propuesta, F(x), se calculan las frecuencias en una muestra de tamaño n que corresponden a cada esperadas Ei de valores intervalo “i”. Ejemplo. L o s va l o r e s E i e s t á n i n d i c a d o s e n l a s i g u i e n t e Ta b l a , c o n j u n t a m e n t e c o n r e s u l t a d o s de operaciones que definimos más adelante.
I X (b ) - 1 4
B O N D A D
Clase –∞; 111 111 ; 119 119 ; 127 127; +∞
D E
A J U S T E
Oi
Zi
Zi+1
Φ(Zi)
Φ(Zi+1) pi
Ei
7 9 7 7
–∞ – 0 ,7 9 8 –0,098 0,602
– 0 ,7 9 8 –0,098 0,602 +∞
0 0,212 0,461 0 ,7 2 6
0,212 0,461 0 ,7 2 6 1
0,212 0,249 0,265 0,274
6,36 7, 4 7 7, 9 5 8,22
Σ = 1
Σ=30 χ 2 = 2,49
Σ
=30
( O i − Ei ) 2 / Ei
0,06 0,31 0,11 2,01
ν = 4–2-1=1. χ 2 0,05, ν=1 = 3,841. La zona de rechazo de la hipótesis nula es
χ 2 > χ α2 ,ν .
Se obtuvo
χ2
< 3 , 8 4 1 . P o r c o n s i g u i e n t e , n o s e r e c h a z a l a h i p ó t e s i s n u l a : La
va r i a bl e a l ea to r i a X pr o vi en e de u n a di s t r i bu c i ó n N o r m al. 5. Se elige un nivel de significación α para la prueba de bondad de ajuste. Pa ra e s t e e j e m p l o e l e g i m o s α = 0 , 0 5 6. Se calcula el estadístico χ2 mediante el algoritmo:
(
)
r O −E 2 χ 2= ∑ i i Ei i =1 donde E i = n p i ; y p i es la probabilidad teórica de que la variable aleatoria X tome un valor comprendido dentro del intervalo “i”. Se cumple:
p1 + p2 + ... + pn = 1 donde n es el tamaño de la muestra. Las columnas a muestran los resultados de los pasos intermedios del cálculo d e l a s f r e c u e n c i a s e s p e ra d a s , E i , y l a c o l u m n a c o n t i e n e l o s va l o r e s e s p e r a d o s e n c a d a c l a s e , E i . E n e s t e c a s o e n p a r t i c u l a r, l a s p r o b a b i l i d a d e s p i q u e s e u s a n e s t á n dadas por pi = Φ(zi + 1 ) - Φ(zi ). 7. La variable aleatoria
χ2
tiene una distribución ji-cuadrado con ν = r - m - 1
grados de libertad, donde r es el número de clases en que se subdividió la muestra, y m es el número de parámetros estimados. El valor de
χ 02,05,ν = 1
es igual a 3,84.
Ejemplo. El valor de
χ2
está al pie de la columna
.
Se obtuvo
χ 2 =2,49.
E q u i va l e n t e m e n t e , p o d e m o s a n a l i z a r e l r e s u l t a d o u t i l i z a n d o e l n i v e l - p. E l n i v e l - p d e e s t e r e s u l t a d o e s 0 , 1 1 . C o m o e l n i v e l - p e s m ay o r q u e 0 , 0 5 , n o s e r e c h a z a l a hipótesis nula. 8 . E l c r i t e r i o d e r e c h a z o d e l a h i p ó t e s i s n u l a , H o: “ L a m u e s t r a p r o v i e n e d e l a distribución de probabilidad propuesta”, está dado por 2 P ( χ obs > χ α2 ) .
Si se rechaza H o , se acepta la hipótesis alternativa H a : “La muestra no proviene de la distribución de probabilidad propuesta”.
I X (b ) - 1 5
B O N D A D
D E
A J U S T E
Ejemplo. Pa ra e l e j e m p l o q u e e s t a m o s d e s a r r o l l a n d o, s e o b t u vo
χ 2 0,05,ν =1.
o b s e r va d o e s m e n o r q u e e l nula.
χ 2 0,05,1
=3,841. El
χ2
Po r c o n s i g u i e n t e n o s e r e c h a z a l a h i p ó t e s i s
E j e m p l o 2 . : D i s t r i b u c i ó n d e Po i s s o n ( To m a d o d e l l i b r o d e M e y e r ) E n u n a m a l l a d e 1 6 5 c e l d a s s e c o n t ó e l n ú m e r o d e g ra n o s d e g ra f i t o e n c a d a c e l d a . A s í s e o b t u v i e r o n l o s d a t o s d e l a s i g u i e n t e Ta b l a . E va l ú e l a h i p ó t e s i s d e q u e e l n ú m e r o d e g ra n o s e n c a d a u n a d e l a s c e l d a s e s u n a va r i a b l e a l e a t o r i a c o n u n a d i s t r i b u c i ó n d e Po i s s o n .
X
Oi
pi
n*pi =
(Oi-Ei)
2
/Ei
Ei 7
≤2
0,054
0,431
3
7
0,081
13,426
3,076
4
20
0,126
20,750
0,027
5
34
0,155
25,654
2,715
6
30
0,160
26,431
0,482
7
17
0,141
23,342
1,723
8
22
0,109
18,037
0,871
9
21
0,075
12,389
5,985
≥10
7
Sumas:
165
χ2
0,097
16,006
1
165
5,068
20,377
:
χ 2 0,05
14,067
Nivel p
0,0048
El estimador del promedio es del
8,965
parámetro
µˆ
=
1 ∑ xi Oi = 6 , 1 8 . µˆ t a m b i é n e s e l e s t i m a d o r 165
λ . E n l a Ta b l a e s t á n i n d i c a d o s l o s v a l o r e s o b s e r v a d o s O i ; l a
p r o b a b i l i d a d p i p a r a c a d a c l a s e d e l a va r i a b l e X , e l va l o r d e E i ; y e l va l o r d e
χ2.
Los
g r a d o s d e l i b e r t a d p a ra l a p r u e b a s o n 7 ( 9 c l a s e s , m e n o s 1 g d l p o r e s t i m a r λ , m e n o s 1 g r a d o d e l i b e r t a d ) . L a h i p ó t e s i s n u l a H o e s : “ L a fu n c i ó n d e d i s t r i b u c i ó n d e X e s l a d i s t r i b u c i ó n d e Po i s s o n ” . L a h i p ó t e s i s a l t e r n a t i va e s : “ L a fu n c i ó n d e d i s t r i b u c i ó n d e X n o e s l a d i s t r i b u c i ó n d e Po i s s o n ” . El criterio de rechazo de Ho es:
χ2
>
χ2
0,05; 7 gdl.
E l v a l o r o b s e r va d o d e de
significación
del
χ2
0,05,
e s 2 0 , 3 7 7. E l v a l o r c r í t i c o d e j i - c u a d ra d o, p a ra u n n i v e l y
p a ra
7
grados
de
libertad,
es
χ c2
= 1 4, 0 6 7.
Po r
I X (b ) - 1 6
B O N D A D
D E
A J U S T E
c o n s i g u i e n t e s e r e c h a z a l a h i p ó t e s i s n u l a , y s e a c e p t a l a h i p ó t e s i s a l t e r n a t i va : “ L a d i s t r i b u c i ó n d e l a va r i a b l e X n o e s l a d i s t r i b u c i ó n d e Po i s s o n ” . U t i l i c e m o s a h o ra e l n i v e l p p a ra e va l u a r l a
h i p ó t e s i s n u l a . Pa r a e l va l o r d e
χ2
c a l c u l a d o a p a r t i r d e l a m u e s t ra , e l n i v e l p e s = 0 , 0 0 4 8 . E l c r i t e r i o d e r e c h a z o e s n i v e l p < 0 , 0 5 . Po r c o n s i g u i e n t e , s e r e c h a z a l a h i p ó t e s i s n u l a , y s e a c e p t a l a h i p ó t e s i s alternativa.
Ejemplo 3. Distribución Binomial El siguiente problema está problema describe la prueba Además, muestra la diferencia y estimar a partir de los datos
p r o p u e s t o e n e l l i b r o d e F r e u n d , M i l l e r, y J o h n s o n . E l de bondad de ajuste de una distribución Binomial. e n t r e p r e s u p o n e r u n v a l o r d e p r o b a b i l i d a d b i n o m i a l p, a l va l o r d e e s a p r o b a b i l i d a d p .
S e e x a m i n a n m u e s t r a s d i a r i a s d e n = 4 c e n t r i fu g a d o ra s d e u n a c i e r t a l í n e a d e p r o d u c c i ó n . D e c a d a m u e s t ra e s d e t e r m i n a e l n ú m e r o X d e c e n t r i fu g a d o ra s q u e r e q u i e r e n a j u s t e . L o s r e s u l t a d o s o b t e n i d o s e n 2 0 0 d í a s c o n s e c u t i vo s d e t ra b a j o e s t á n i n d i c a d o s e n l a s i g u i e n t e Ta b l a 1 . TA B LA 1 . VA L O R E S O B S E R VA D O S D E X
X:
0
1
2
3
Oi :
101
79
19
1
S e q u i e r e e va l u a r l a s i g u i e n t e h i p ó t e s i s n u l a : “ X t i e n e u n a d i s t r i b u c i ó n B i n o m i a l , c o n p a r á m e t r o p = 0 , 1 ” . O b s é r v e s e q u e e l v a l o r d e p h a s i d o d e f i n i d o ; e s d e c i r, e s t e va l o r d e p n o p r o v i e n e d e u n c á l c u l o b a s a d o e n l o s d a t o s . L a p r u e b a d e b o n d a d d e ajuste se efectuará con un nivel de significación α igual 0,05. L a c l a s e c o r r e s p o n d i e n t e a X = 3 , c o n t i e n e s o l a m e n t e u n v a l o r o b s e r va d o. Po r c o n s i g u i e n t e , r e o r d e n a m o s l a Ta b l a , fu s i o n a n d o l a c l a s e X = 3 c o n l a c l a s e X = 2 . D e e s t a m a n e ra t o d a s l a s c l a s e s c o n t i e n e n m á s d e 5 v a l o r e s . L a Ta b l a 2 i n d i c a l o s va l o r e s o b s e r v a d o s , y l o s r e s u l t a d o s d e c á l c u l o s i n t e r m e d i o s . N e s e l n ú m e r o t o t a l d e m u e s t ra s d i a r i a s , e i g u a l a 2 0 0 ( S e e f e c t ú a n 2 0 0 o b s e r v a c i o n e s d e l v a l o r X ) . E l tamaño de cada muestra es n = 4. TA B LA 2 . P R U E B A D E B O N D A D D E A J U S T E D E U N A B I N O M I A L (N=200 MUESTRAS)
X
Oi
pi
N pi =Ei
(Oi – Ei)2/Ei
0
101
0,6561
131,2
6,95
1
79
0,2916
58,3
7,35
≥2
20
0,0523
10,4
8,86
Sumas:
200
1,0000
200
23,16 =
χ2
Las probabilidades pi se obtienen a partir de la distribución Binomial b(x; 4; 0,1). Pa ra l a c l a s e X ≥ 2 , s e t i e n e p i = 1 – B ( x ; 4 ; 0 . 1 ) . L o s g r a d o s d e l i b e r t a d ν p a ra e s t a p r u e b a s o n ν = 3 – 1 = 2 . N o s e d e s c o n t a r o n g r a d o s d e l i b e r t a d p o r e s t i m a c i ó n d e p a r á m e t r o, p o r q u e l a p r o b a b i l i d a d p f u e definida. El criterio de rechazo de Ho es
χ2
>
χ 2 (0,05;ν=2);
donde
χ 2 (0,05; ν=2)
= 5,991.
I X (b ) - 1 7
B O N D A D
χ2
E n ra z ó n d e q u e
χ2
χ2
A J U S T E
= 23,16, se rechaza la hipótesis nula; y se concluye que X no
tiene una distribución Binomial con s i g n i f i c a c i ó n . E va l u e m o s l a h i p ó t e s i s n u l a correspondiente a
D E
p = 0,10, al 5% de en base al nivel - p. El
nivel de nivel - p
e s i g u a l a 9 , 3 5 1 0 – 0 6 . Po r c o n s i g u i e n t e , e l n i v e l - p d e l va l o r
e s m u c h o m e n o r q u e 0 , 0 5 ; y s e r e c h a z a H o.
A c o n t i n u a c i ó n c a m b i a r e m o s e l p r o b l e m a . A n t e r i o r m e n t e , e l va l o r d e p, f u e d e f i n i d o. A h o ra l o e s t i m a m o s a p a r t i r d e l o s d a t o s . E s t o t ra e r á c o m o c o n s e c u e n c i a q u e e n l a p r u e b a d e b o n d a d d e a j u s t e , l o s g ra d o s d e l i b e r t a d , ν , s o n 3 – 1 – 1 = 1 . O b s é r v e s e l a d i f e r e n c i a c o n e l e j e m p l o a n t e r i o r. Pa ra e s t i m a r a l va l o r d e p , u s a r e m o s l a r e l a c i ó n µ = n p ; d o n d e n e s e l t a m a ñ o d e l a m u e s t ra d i a r i a ( 4 e n e s t e c a s o ) ; y µ e s l a m e d i a m u e s t ra l d e X . E l va l o r d e µ e s e s t i m a d o m e d i a n t e e l p r o m e d i o m u e s t ra l
x
=
1 N
i=k
∑ xi
i=0
x.
Se tiene:
Oi = 0 , 6 .
k e s e l n ú m e r o d e c l a s e s e n q u e s e s u b d i v i d i ó l a m u e s t ra . N e s e l t o t a l d e m u e s t ra s d i a r i a s , e i g u a l a 2 0 0 . n e s e l t a m a ñ o d e c a d a m u e s t ra e i g u a l a 4. E l estimador de la probabilidad p del suceso “la centrifugadora necesita ser ajustada”,
pˆ ,
es igual a
x /n
= 0,15.
L a h i p ó t e s i s n u l a d e e s t a n u e va p r u e b a d e h i p ó t e s i s e s : “ X t i e n e u n a d i s t r i b u c i ó n Binomial (x; 4; 0,15)”. Los cálculos intermedios están indicados en la siguiente Ta b l a :
Oi
pi
N pi =Ei
(Oi – Ei)2/Ei
0
101
0,5220
104,4
0,11
1
79
0,3685
73,7
0,38
≥2
20
0,1095
21,9
0,16
Sumas:
200
1,0000
200,0
0,65 = χ 2
Pa ra ν = 1 g ra d o d e l i b e r t a d , s e t i e n e rechazo de Ho es
χ
2
χ 2 (0,05;
v=1) = 3,84. El criterio de
> 3 , 8 4 . E l c r i t e r i o n o s e c u m p l e . Po r c o n s i g u i e n t e n o s e
rechaza la hipótesis nula; y se acepta que X tiene una distribución Binomial con p = 0,15. S i u s a m o s e l n i v e l - p p a ra e va l u a r l a h i p ó t e s i s , s e t i e n e q u e e l n i v e l - p d e 0,420. El nivel-p de La prueba
χ2
χ2
χ2
es
> 0 , 0 5 . Po r c o n s i g u i e n t e , n o s e r e c h a z a H o.
también se usa para verificar si los datos utilizados en la bondad de
ajuste, fueron tomados aleatoriamente. El criterio de análisis consiste en dudar acerca de la aleatoriedad de la muestra, si el ajuste de la distribución propuesta es demasiado b u e n o . E n e s t e c a s o l a h i p ó t e s i s n u l a e s H o: “ H a y i n d i c i o s e s t a d í s t i c a m e n t e significativos de que la muestra no es aleatoria, porque el ajuste es demasiado bueno”. L a h i p ó t e s i s a l t e r n a t i v a e s H a: ” E l a j u s t e d e l a d i s t r i b u c i ó n p r o p u e s t a , a l a m u e s t r a n o e s exc e si v am ent e bu eno, y n o h a y in d icio s e s ta d ís tica m en te s ign if ica ti vo, a l ni v el 1 – α, d e que la muestra no sea aleatoria”. El criterio de rechazo de Ho es :
I X (b ) - 1 8
B O N D A D
χ2
>
χ 2 (1– α; ν ) ;
D E
A J U S T E
donde ν son los grados de libertad de la prueba.
Ejemplo. E n e l c a s o a n t e r i o r d e l a s e g u n d a p a r t e d e l e j e m p l o a n t e r i o r, s e t i e n e q u e 0,05; 1) = 0,0039. El
χ2
χ 2 (1–
o b s e r v a d o e s i g u a l a 0 , 6 5 . Po r c o n s i g u i e n t e s e r e c h a z a H o
a l 5 % d e n i v e l d e s i g n i f i c a c i ó n , y c o n s i d e ra m o s q u e e l a j u s t e d e l a d i s t r i b u c i ó n B i n o m i a l a l a m u e s t ra n o e s l o s u f i c i e n t e m e n t e b u e n o c o m o p a ra s o s p e c h a r q u e l a m u e s t ra n o e s a l e a t o r i a .
Prueba de Kolmogorov-Smirno v Sea F(x) la función de distribución acumulada de una variable aleatoria X. Una vez obtenida la muestra de la variable aleatoria X, esta se ordena de menor a mayor y se le asigna un número de orden, k, a cada elemento (al menor valor muestral se le asigna el número de orden k = 1, y al mayor valor muestral se le asigna el número de orden k = n). Este ordenamiento permite calcular la fu n c ió n d e dis t r i bu c i ó n em pír i c a S(x) que está definida por:
S ( x) ≡
k n
donde k es el número de observaciones menor o igual que m u e s t ra .
x,
y
n
es el tamaño de la
Las hipótesis son: H o: S ( x ) p u d o h a b e r p r o v e n i d o d e l a d i s t r i b u c i ó n F ( x ) , a l α p o r c i e n t o d e n i v e l d e significación.
H a: S ( x ) n o p r o v i e n e d e l a d i s t r i b u c i ó n F ( x ) , a l α p o r c i e n t o d e n i v e l d e significación.
Para cada x, se define a la desviación entre ambas distribuciones por
D = F(x) - S(x) . Si S(x) proviene de la distribución F(x), por razones puramente aleatorias, para cada x observada F(x) y S(x) difieren. La diferencia entre ambas distribuciones se mide por la máxima distancia entre ellas D. Sin embargo, si la diferencia D es muy grande, podemos rechazar la hipótesis nula Ho sobre la base de que ocurrió un suceso raro. La p r u e b a d e K - S s e b a s a e n l a d i s t r i b u c i ó n d e l m á x i m o v a l o r o b s e r v a d o , D max , d e D . L a r e g i ó n d e r e c h a z o d e H o e s D max > D crítico ( α , n ) , d o n d e D crítico e s p o s i t i v o . E l D critico p a r a u n d a d o n i v e l d e s i g n i f i c a c i ó n α , y u n d a d o t a m a ñ o d e m u e s t r a , s e o b t i e n e
d e t a b l a s . C u a n d o n > 3 5 s e u t i l i z a n l a s s i g u i e n t e s e c u a c i o n e s p a r a c a l c u l a r e l D crítico para el nivel α indicado. D crítico para los α indicados Nivel α 0,10
0,05
0,01
1,22
1,36
1,63
n
n
n
Ejemplo L a s i g u i e n t e e s u n a m u e s t ra d e u n a va r i a b l e a l e a t o r i a c u ya d i s t r i b u c i ó n d e p r o b a b i l i d a d s e d e s c o n o c e . L o s v a l o r e s d e l a m u e s t ra f u e r o n o r d e n a d o s d e m e n o r a m a y o r. S ( x ) e s l a fu n c i ó n d e d i s t r i b u c i ó n e m p í r i c a ; F N ( x ) s o n l o s va l o r e s d e l a fu n c i ó n d e d i s t r i b u c i ó n N o r m a l ( µ = x que S(x).
x; σ = s ) , c a l c u l a d o s p a r a l o s m i s m o s v a l o r e s d e
I X (b ) - 1 9
B O N D A D
D E
A J U S T E
A continuación se docima la hipótesis nula Ho: “S(x) podría provenir de la distribución Normal con µ =
X , σ = s ” , c o n t ra l a h i p ó t e s i s a l t e r n a t i va H a : “ S ( x ) n o
proviene de una distribución Normal”, al nivel del 5%. x
S(x)
FN(x)
D
76.91
1
0.99
0.01
67.16
0.9
0.73
0.17
66.67
0.8
0.70
0.10
63.74
0.7
0.51
0.19
63.61
0.6
0.50
0.10
63.25
0.5
0.48
0.02
60.86
0.4
0.32
0.08
58.21
0.3
0.18
0.12
57.97
0.2
0.17
0.03
57.68
0.1
0.15
-0.05
S e e n c u e n t ra q u e D m á x i m o = 0 , 1 9 . E l D ( c r í t i c o , 5 % , n = 1 0 ) e s i g u a l 0 , 4 1 0 . L a z o n a d e r e c h a z o d e H o e s D m á x i m o > 0 , 4 1 . Po r c o n s i g u i e n t e n o s e r e c h a z a l a h i p ó t e s i s nula. E s t e r e s u l t a d o e s a p r ox i m a d o p o r q u e h e m o s t r a t a d o u n c a s o e n q u e n = 1 0 , y usamos el algoritmo que es exacto a los fines prácticos para n > 35.
Prueba de aleatoriedad La gran mayoría de los análisis que se efectúan en estadística, son válidos solamente para muestras aleatorias. Los elementos que integran a la muestra deben ser independientes entre si. Aquí veremos una prueba para docimar la hipótesis de que la muestra es aleatoria. Para ello necesitamos definir el concepto de racha. Se denomina racha a una sucesión de símbolos iguales que representan una propiedad, y que pueden estar separados, o no, por otros símbolos que representan otras propiedades. Aquí nos interesa el caso en que a cada valor de una muestra se le asigna alguno de dos símbolos posibles. Sea una muestra aleatoria de tamaño n. Para identificar las rachas hacemos lo siguientes: Anotamos el orden en que los valores muestrales son obtenidos. Determinamos la mediana muestral. Luego asignamos el símbolo “+” a los valores muestrales superiores a la mediana, y el símbolo “-” a los valores menores o iguales que la mediana muestral. Una representación de una muestra de tamaño n = 10 es, por ejemplo, + + + – – + – – ++ . Los tres primeros valores obtenidos son superiores a la mediana, luego se obtuvieron dos valores menores o iguales que la mediana, etc. Es decir, primero se obtuvo una racha de 3 “+ “, luego una racha de 2 “–”, luego una racha de 1 “+ “, una racha de 2 “–”, y finalmente una racha de 2 “+”. En total hay r = 5 rachas. Hay n1 = 6 clases positivas (o símbolos positivos), y n2 = 4 clases negativas (o símbolos negativos).
I X (b ) - 2 0
B O N D A D
D E
A J U S T E
La cantidad r de rachas que puede ocurrir en una muestra de tamaño n, si la muestra es aleatoria, tiene una distribución aleatoria específica. Si tanto n1 como n2 son mayores que 20, r tiene una distribución Normal, con media y desvío dados por:
µr =
2 n1 n 2 +1 n1 + n 2
;
σrr =
2 n1 n2 (2 n1 n2 −n1 − n2 ) (n1 +n2 ) 2 (n1 +n2 −1)
.
La variable Z definida por
Z =
r − µr
σr
;
tiene distribución Normal N(0, 1). Para un dado nivel de significación α , la zona de rechazo de H o es: Z o b s < - Z α/ 2 ; ó Z o b s > Z α/ 2 Ejemplo. S e o b t u vo l a s i g u i e n t e m u e s t ra d e l a va r i a b l e a l e a t o r i a X : X
Clase
0.366
0
0.819
Racha N o 1
X
Clase
Racha N o
0.007
0
1
0.373
0
9
0.927
1
0.579
1
10
0.637
1
2
0.488
0
11
0.088
0
3
0.872
1
12
0.931
1
0.319
0
0.998
1
4
0.365
0
0.450
0
5
0.509
0
13
0.825
1
6
0.918
1
14
0.444
0
7
0.104
0
0.544
1
0.495
0
15
0.809
1
0.908
1
16
8
Clase 0: Menor que la mediana; clase 1: mayor o igual que la mediana. Mediana 0,526. S e q u i e r e d o c i m a r l a h i p ó t e s i s n u l a H o : “ l a m u e s t r a e s a l e a t o r i a ” , c o n t ra l a h i p ó t e s i s “ l a m u e s t ra n o e s a l e a t o r i a ” , a l 5 % d e n i v e l d e s i g n i f i c a c i ó n . D e l a m u e s t ra s e t i e n e : r = 1 6 ; n 1 = 1 2 ; n 2 = 1 2 . L a m e d i a e s t á d a d a p o r µ r = 1 3 . 0 ; σ = 2 , 3 9 . E l va l o r c r í t i c o d e l 5 % e s Z 0 ,0 2 5 = 1 , 9 6 . E l Z o b s e s 1 , 2 5 . E l c r i t e r i o d e r e c h a z o d e H o e s Z o b s < - 1 , 9 6 ; ó Zobs > 1,96.
I X (b ) - 2 1