Story Transcript
INTERVALOS DE CONFIANZA Juli´an de la Horra Departamento de Matem´aticas U.A.M.
1
Introducci´ on
En este cap´ıtulo, vamos a abordar la estimaci´on mediante Intervalos de Confianza, que es otro de los tres grandes conjuntos de t´ecnicas que se utilizan en la Inferencia Estad´ıstica. La situaci´on general que vamos a considerar es la misma que en el cap´ıtulo anterior: Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X de una poblaci´on. Pensamos que esta caracter´ıstica puede ser adecuadamente modelizada mediante un modelo de probabilidad con funci´on de masa Pθ (x) (en el caso discreto) o con funci´on de densidad fθ (x) (en el caso continuo). En cualquiera de los casos, lo u ´nico que nos falta por conocer es el valor del par´ametro θ ∈ Θ, que es desconocido. Lo que tratamos de hacer en este cap´ıtulo es encontrar intervalos que sirvan para estimar este par´ametro desconocido, fijando el nivel de confianza que queremos que tenga dicha estimaci´on. En primer lugar, se plantear´an dos ejemplos sencillos que servir´an como motivaci´on. Ejemplo 1.- En los ejercicios de c´alculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustar´ıa conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X1 , ..., X100 ) de (
X=
1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 − p
y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con par´ametro p desoconocido. Podemos estimar la probabilidad de cara, p, mediante el estimador de m´axima verosimilitud, que en este caso es: pˆ = x¯ =
55 N´ umero de caras obtenidas = = 0, 55 N´ umero de lanzamientos 100 1
Ahora bien, cuando decimos que estimamos que p es 0,55, no estamos afirmando que p valga exactamente 0,55; lo que realmente queremos decir es que p valdr´a, aproximadamente, 0,55. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (0,54 ; 0,56), (0,50 ; 0,60), ... Para decidir con qu´e intervalo nos quedamos, necesitamos una metodolog´ıa general que nos permita resolver este tipo de problemas de un modo sistem´atico y lo m´as objetivo posible. Ejemplo 2.- En una f´abrica, se est´a ensayando una nueva fibra sint´etica, y se quiere conocer aproximadamente (estimar) cu´al es la resistencia media a la rotura de las cuerdas fabricadas con esta nueva fibra. Llamaremos µ al valor de esta resistencia media que se quiere estimar. Necesitamos datos, para lo cual medimos la resistencia de, por ejemplo, 100 cuerdas, y anotamos los resultados. Supongamos que obtenemos una resistencia media muestral de 31 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracter´ıstica X = “Resistencia a la rotura”, que puede ser modelizada mediante una distribuci´on N (µ; σ), con par´ametros µ y σ desconocidos. Podemos estimar la resistencia media de las cuerdas, µ, mediante el estimador de m´axima verosimilitud, que en este caso es: µ ˆ = x¯ = 31 Ahora bien, cuando decimos que estimamos que µ es 31, no estamos afirmando que µ valga exactamente 31; lo que realmente queremos decir es que µ valdr´a, aproximadamente, 31. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (30 ; 32), (28 ; 34), ... Para decidir con qu´e intervalo nos quedamos, necesitamos una metodolog´ıa general que nos permita resolver este tipo de problemas de un modo sistem´atico y lo m´as objetivo posible.
2
Intervalos de confianza
En primer lugar, vamos a definir lo que entenderemos por un intervalo de confianza para estimar un par´ametro: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X de una poblaci´on con funci´on de masa Pθ (x) (caso discreto), o con funci´on de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. 2
Un intervalo de confianza para estimar θi , con un nivel de confianza 1−α, es una funci´on que a cada posible muestra (x1 , . . . , xn ) le hace corresponder un intervalo (T1 , T2 ) = (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn )) tal que: P {(x1 , . . . , xn ) : θi ∈ (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn ))} = 1 − α Observaciones: 1. El significado del nivel de confianza es el siguiente: Supongamos que un intervalo de confianza es construido con un nivel de confianza 1 − α=0,95. Esto significa que la probabilidad de que el intervalo contenga al verdadero (y desconocido) valor de θi es 0,95. Es decir, el 95% de las veces, el intervalo constru´ıdo funcionar´ıa bien, en el sentido de que ser´ıa una buena estimaci´on del par´ametro θi . Por lo tanto, el nivel de confianza mide la probabilidad de buen funcionamiento de un intervalo y, por este motivo, el nivel de confianza siempre se elige pr´oximo a 1. 2. Los valores tradicionalmente elegidos para 1 − α son: 0,90, 0,95 y 0,99. El m´as habitual de todos es 1 − α = 0,95. Si el nivel de confianza es demasiado pr´oximo a 1, su probabilidad de buen funcionamiento ser´a alt´ısima, pero a costa de que la longitud del intervalo ser´a muy grande, convirti´endolo as´ı en algo in´ util. Por este motivo, suele tomarse 1 − α = 0,95, que representa un valor de compromiso.
3
Distribuciones asociadas a la Normal
Las distribuciones que vamos a definir en esta secci´on son distribuciones que aparecen de modo natural en el muestreo de poblaciones Normales y tienen un papel fundamental en los intervalos de confianza y en los contrastes de hip´otesis que vamos a utilizar cuando trabajemos con muestras de poblaciones Normales. Definici´ on.- Sean X1 , . . . , Xn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on χ2 de Pearson con n grados de libertad (abreviadamente χ2n ) es la distribuci´on de la variable aleatoria: n X
Xi2
esquem´aticamente:
i=1
n X i=1
3
!
[N (0; 1)]
2
La distribuci´on χ2n s´olo toma valores positivos. Definici´ on.- Sean Y, X1 , . . . , Xn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on t de Student con n grados de libertad (abreviadamente tn ) es la distribuci´on de la variable aleatoria: Y q P n 1 n
2 i=1 Xi
N (0; 1)
esquem´ aticamente: q
1 2 χ n n
La distribuci´on tn es sim´etrica con respecto al cero. Definici´ on.- Sean X1 , . . . , Xm , Y1 , . . . , Yn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on F de Fisher-Snedecor con m y n grados de libertad (abreviadamente Fm;n ) es la distribuci´on de la variable aleatoria: ! 1 2 1 Pm 2 χ i=1 Xi m m m esquem´aticamente: 1 2 1 Pn 2 χ i=1 Yi n n n La distribuci´on Fm;n s´olo toma valores positivos.
4
M´ etodo de la cantidad pivotal
En esta secci´on, abordamos la cuesti´on de c´omo construir intervalos de confianza de un modo sistem´atico y lo m´as objetivo posible. El m´etodo habitualmente utilizado es el m´etodo de la cantidad pivotal. En primer lugar, definimos lo que se entiende por una cantidad pivotal: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X de una poblaci´on con funci´on de masa Pθ (x) (caso discreto), o con funci´on de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. Una cantidad pivotal para estimar el par´ ametro θi es una funci´on C(X1 , . . . , Xn ; θi ) tal que su distribuci´on es fija (no depende de ning´ un par´ametro desconocido). De manera esquem´atica, los pasos que hay que dar para obtener un intervalo de confianza mediante el m´etodo de la cantidad pivotal son los siguientes: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Construimos una cantidad pivotal C(X1 , . . . , Xn ; θi ) para estimar θi . 4
3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2. Esta construcci´on es posible gracias a que la distribuci´on de la cantidad pivotal es fija. 4. Despejamos θi del intervalo anterior, obteniendo as´ı el intervalo de confianza buscado. El intervalo de confianza obtenido tiene sentido como estimador porque s´olo depende de los valores muestrales (no depende de ning´ un par´ametro desconocido). Su nivel de confianza es 1 − α gracias a que el contenido de probabilidad del intervalo del paso anterior era 1 − α. Obviamente, la descripci´on que se acaba de dar del m´etodo es muy abstracta. Por este motivo, es muy conveniente aplicar el m´etodo a alg´ un caso concreto que ayude a entender lo que hacemos en general. Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde la media µ es desconocida, pero supondremos (por sencillez) que σ es conocida. Queremos un intervalo de confianza para estimar µ. Aplicamos el m´etodo de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Dado que queremos estimar µ, empezamos considerando su estimador ¯ de m´axima verosimilitud que, en este caso, sabemos que es µ ˆ = X: √ ¯ ∼ N (µ; σ/ n) X
⇒
Por tanto: C(X1 , ..., Xn ; µ) =
¯ −µ X √ ∼ N (0; 1) σ/ n
¯ −µ X √ ∼ N (0; 1) σ/ n
es una cantidad pivotal para estimar µ. 3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: (
P −zα/2
¯ −µ X √ < zα/2 = 1 − α < σ/ n )
5
4. Finalmente, despejamos µ del intervalo anterior: ¯ + zα/2 √σ µ < X n σ ¯ − zα/2 √ µ > X n El intervalo de confianza que hemos obtenido es: ¯ + zα/2 √σ ¯ − zα/2 √σ ; X IC1−α (µ) = X n n
!
¯ ± zα/2 √σ = X n
!
¯ lo cual Observemos que el intervalo de confianza est´a centrado en X, parece bastante natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza recibe el nombre de error en la estimaci´on: σ Error en la estimaci´on = zα/2 √ n Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que acabamos de obtener: 1. Cuando el tama˜ no muestral, n, aumenta, el error en la estimaci´on disminuye y, en consecuencia, la longitud del intervalo disminuye. 2. Cuando el nivel de confianza, 1 − α, aumenta, el error en la estimaci´on aumenta y, en consecuencia, la longitud del intervalo aumenta. Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodolog´ıa de los intervalos de confianza es que se cuantifica autom´aticamente la influencia de n y de 1 − α. Caso 2.- Consideramos nuevamente una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), pero ahora consideramos la situaci´on m´as habitual en la pr´actica, donde tanto µ como σ son desconocidos. Seguimos interesados en obtener un intervalo de confianza para estimar µ. Volvemos a aplicar el m´etodo de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Dado que queremos estimar µ, empezamos otra vez considerando su estimador de m´axima verosimilitud que, en este caso, sabemos que ¯ sigue siendo µ ˆ = X: √ ¯ ∼ N (µ; σ/ n) X
⇒ 6
¯ −µ X √ ∼ N (0; 1) σ/ n
Pero, en este caso, nos encontramos con el problema de que ¯ −µ X √ σ/ n no puede ser una cantidad pivotal para estimar µ, ya que depende de σ que ahora es desconocida. Este problema se resuelve sustituyendo σ por una estimaci´on: la cuasi-desviaci´on t´ıpica muestral, S. De este modo, tenemos que: C(X1 , ..., Xn ; µ) =
¯ −µ X √ ∼ tn−1 S/ n
es una cantidad pivotal para estimar µ. Obs´ervese que la nueva cantidad pivotal sigue una distribuci´on tn−1 en vez de seguir una distribuci´on N (0; 1). 3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: ¯ −µ X √ < tn−1;α/2 = 1 − α < S/ n )
(
P −tn−1;α/2
4. Finalmente, despejamos µ del intervalo anterior: ¯ + tn−1;α/2 √S µ < X n ¯ − tn−1;α/2 √S µ > X n El intervalo de confianza que hemos obtenido es: ¯ − tn−1;α/2 √S ; X ¯ + tn−1;α/2 √S IC1−α (µ) = X n n
!
¯ ± tn−1;α/2 √S = X n
Observemos que, nuevamente, el intervalo de confianza est´a centrado en ¯ X, lo cual sigue siendo muy natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza sigue recibiendo el nombre de error en la estimaci´ on, y ahora es de la forma: S Error en la estimaci´on = tn−1;α/2 √ n 7
!
Este intervalo sigue teniendo el mismo tipo de propiedades que ten´ıa el obtenido en el Caso 1. Aplicando de manera sistem´atica este m´etodo de la cantidad pivotal, ir´ıamos obteniendo los intervalos de confianza que se utilizan en las situaciones m´as habituales: Una muestra aleatoria de una caracter´ıstica con distribuci´on Normal, Bernoulli, Poisson,... Dos muestras aleatorias independientes de caracter´ısticas con distribuci´on Normal, Bernoulli,... La mayor´ıa de los libros dedicados a la Estad´ıstica Aplicada incluyen un listado de los intervalos de confianza m´as frecuentemente utilizados.
5
M´ınimo tama˜ no muestral
En esta u ´ltima secci´on, abordamos una cuesti´on pr´actica muy interesante: ¿Cu´antos datos ser´an necesarios para estimar un par´ametro (con un nivel de confianza 1 − α), de modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada? Vamos a ver la respuesta a esta pregunta en los casos analizados en la secci´on anterior: Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde σ es conocida. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cu´antos datos ser´ıan necesarios para estimar µ, de modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada. El procedimiento es sencillo: σ Error en la estimaci´on = zα/2 √ < E n Despejamos n y obtenemos:
n>
⇒
(zα/2 σ)2 E2
Caso 2.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde tanto µ como σ son desconocidos. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cu´antos datos ser´ıan necesarios para estimar µ, de 8
modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada. Procedemos de manera similar: S S Error en la estimaci´on = tn−1;α/2 √ ' zα/2 √ < E n n (zα/2 S)2 Despejamos n y obtenemos: n> E2 En este caso, hay que hacer un par de observaciones sobre la manera de proceder: (a) Aunque no sabemos el valor de n (ya que es precisamente lo que estamos intentando determinar), lo que s´ı sabemos es que (en general) ser´a un valor grande (por encima de 30). En estas condiciones: tn−1;α/2 ' zα/2 (b) Como no sabemos el valor que tendr´a S en una muestra futura, se suele tomar el valor que obtengamos en una peque˜ na muestra piloto. En general, ´esta ser´ıa la forma de proceder en cualquier otro caso.
9