INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M

INTERVALOS DE CONFIANZA Juli´an de la Horra Departamento de Matem´aticas U.A.M. 1 Introducci´ on En este cap´ıtulo, vamos a abordar la estimaci´on

1 downloads 120 Views 83KB Size

Recommend Stories


8. INTERVALOS DE CONFIANZA
8. INTERVALOS DE CONFIANZA Al estimar el valor de un parámetro de la distribución teórica, no se provee información sobre la incertidumbre en el resul

ESTIMACIÓN POR INTERVALOS DE CONFIANZA
Estimación por intervalos de confianza. I.E.S. A Xunqueira I pag. 1 ESTIMACIÓN POR INTERVALOS DE CONFIANZA Conceptos En este tema vamos a estudiar

Intervalos de Confianza para la diferencia de medias
Intervalos de Confianza para la diferencia de medias INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Sean x11 , x12 , ... x1n1 , una muestra ale

Story Transcript

INTERVALOS DE CONFIANZA Juli´an de la Horra Departamento de Matem´aticas U.A.M.

1

Introducci´ on

En este cap´ıtulo, vamos a abordar la estimaci´on mediante Intervalos de Confianza, que es otro de los tres grandes conjuntos de t´ecnicas que se utilizan en la Inferencia Estad´ıstica. La situaci´on general que vamos a considerar es la misma que en el cap´ıtulo anterior: Disponemos de una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X de una poblaci´on. Pensamos que esta caracter´ıstica puede ser adecuadamente modelizada mediante un modelo de probabilidad con funci´on de masa Pθ (x) (en el caso discreto) o con funci´on de densidad fθ (x) (en el caso continuo). En cualquiera de los casos, lo u ´nico que nos falta por conocer es el valor del par´ametro θ ∈ Θ, que es desconocido. Lo que tratamos de hacer en este cap´ıtulo es encontrar intervalos que sirvan para estimar este par´ametro desconocido, fijando el nivel de confianza que queremos que tenga dicha estimaci´on. En primer lugar, se plantear´an dos ejemplos sencillos que servir´an como motivaci´on. Ejemplo 1.- En los ejercicios de c´alculo de probabilidades, siempre se suele hablar de monedas equilibradas pero, naturalmente, no todas lo son. Nos gustar´ıa conocer aproximadamente (estimar) la probabilidad de cara de una determinada moneda, y llamamos p = P (Cara). Necesitamos datos, para lo cual lanzamos la moneda, por ejemplo, 100 veces, y anotamos los resultados. Supongamos que obtenemos 55 caras y 45 cruces. Desde un punto de vista formal, las caras y las cruces pueden ser codificadas mediante unos y ceros, de modo que tenemos una muestra aleatoria (X1 , ..., X100 ) de (

X=

1 (si sale cara) con probabilidad p 0 (si sale cruz) con probabilidad 1 − p

y, por tanto, X puede ser modelizada mediante un modelo de Bernoulli con par´ametro p desoconocido. Podemos estimar la probabilidad de cara, p, mediante el estimador de m´axima verosimilitud, que en este caso es: pˆ = x¯ =

55 N´ umero de caras obtenidas = = 0, 55 N´ umero de lanzamientos 100 1

Ahora bien, cuando decimos que estimamos que p es 0,55, no estamos afirmando que p valga exactamente 0,55; lo que realmente queremos decir es que p valdr´a, aproximadamente, 0,55. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (0,54 ; 0,56), (0,50 ; 0,60), ... Para decidir con qu´e intervalo nos quedamos, necesitamos una metodolog´ıa general que nos permita resolver este tipo de problemas de un modo sistem´atico y lo m´as objetivo posible. Ejemplo 2.- En una f´abrica, se est´a ensayando una nueva fibra sint´etica, y se quiere conocer aproximadamente (estimar) cu´al es la resistencia media a la rotura de las cuerdas fabricadas con esta nueva fibra. Llamaremos µ al valor de esta resistencia media que se quiere estimar. Necesitamos datos, para lo cual medimos la resistencia de, por ejemplo, 100 cuerdas, y anotamos los resultados. Supongamos que obtenemos una resistencia media muestral de 31 unidades. Desde un punto de vista formal, lo que tenemos es una muestra aleatoria (X1 , ..., X100 ) de la caracter´ıstica X = “Resistencia a la rotura”, que puede ser modelizada mediante una distribuci´on N (µ; σ), con par´ametros µ y σ desconocidos. Podemos estimar la resistencia media de las cuerdas, µ, mediante el estimador de m´axima verosimilitud, que en este caso es: µ ˆ = x¯ = 31 Ahora bien, cuando decimos que estimamos que µ es 31, no estamos afirmando que µ valga exactamente 31; lo que realmente queremos decir es que µ valdr´a, aproximadamente, 31. Esto de aproximadamente lo podemos concretar en diferentes intervalos: (30 ; 32), (28 ; 34), ... Para decidir con qu´e intervalo nos quedamos, necesitamos una metodolog´ıa general que nos permita resolver este tipo de problemas de un modo sistem´atico y lo m´as objetivo posible.

2

Intervalos de confianza

En primer lugar, vamos a definir lo que entenderemos por un intervalo de confianza para estimar un par´ametro: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X de una poblaci´on con funci´on de masa Pθ (x) (caso discreto), o con funci´on de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. 2

Un intervalo de confianza para estimar θi , con un nivel de confianza 1−α, es una funci´on que a cada posible muestra (x1 , . . . , xn ) le hace corresponder un intervalo (T1 , T2 ) = (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn )) tal que: P {(x1 , . . . , xn ) : θi ∈ (T1 (x1 , . . . , xn ), T2 (x1 , . . . , xn ))} = 1 − α Observaciones: 1. El significado del nivel de confianza es el siguiente: Supongamos que un intervalo de confianza es construido con un nivel de confianza 1 − α=0,95. Esto significa que la probabilidad de que el intervalo contenga al verdadero (y desconocido) valor de θi es 0,95. Es decir, el 95% de las veces, el intervalo constru´ıdo funcionar´ıa bien, en el sentido de que ser´ıa una buena estimaci´on del par´ametro θi . Por lo tanto, el nivel de confianza mide la probabilidad de buen funcionamiento de un intervalo y, por este motivo, el nivel de confianza siempre se elige pr´oximo a 1. 2. Los valores tradicionalmente elegidos para 1 − α son: 0,90, 0,95 y 0,99. El m´as habitual de todos es 1 − α = 0,95. Si el nivel de confianza es demasiado pr´oximo a 1, su probabilidad de buen funcionamiento ser´a alt´ısima, pero a costa de que la longitud del intervalo ser´a muy grande, convirti´endolo as´ı en algo in´ util. Por este motivo, suele tomarse 1 − α = 0,95, que representa un valor de compromiso.

3

Distribuciones asociadas a la Normal

Las distribuciones que vamos a definir en esta secci´on son distribuciones que aparecen de modo natural en el muestreo de poblaciones Normales y tienen un papel fundamental en los intervalos de confianza y en los contrastes de hip´otesis que vamos a utilizar cuando trabajemos con muestras de poblaciones Normales. Definici´ on.- Sean X1 , . . . , Xn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on χ2 de Pearson con n grados de libertad (abreviadamente χ2n ) es la distribuci´on de la variable aleatoria: n X

Xi2

esquem´aticamente:

i=1

n X i=1

3

!

[N (0; 1)]

2

La distribuci´on χ2n s´olo toma valores positivos. Definici´ on.- Sean Y, X1 , . . . , Xn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on t de Student con n grados de libertad (abreviadamente tn ) es la distribuci´on de la variable aleatoria: Y q P n 1 n

2 i=1 Xi





N (0; 1) 

esquem´ aticamente: q

1 2 χ n n

La distribuci´on tn es sim´etrica con respecto al cero. Definici´ on.- Sean X1 , . . . , Xm , Y1 , . . . , Yn variables aleatorias independientes con distribuci´on N (0; 1). La distribuci´on F de Fisher-Snedecor con m y n grados de libertad (abreviadamente Fm;n ) es la distribuci´on de la variable aleatoria: ! 1 2 1 Pm 2 χ i=1 Xi m m m esquem´aticamente: 1 2 1 Pn 2 χ i=1 Yi n n n La distribuci´on Fm;n s´olo toma valores positivos.

4

M´ etodo de la cantidad pivotal

En esta secci´on, abordamos la cuesti´on de c´omo construir intervalos de confianza de un modo sistem´atico y lo m´as objetivo posible. El m´etodo habitualmente utilizado es el m´etodo de la cantidad pivotal. En primer lugar, definimos lo que se entiende por una cantidad pivotal: Definici´ on.- Sea (X1 , . . . , Xn ) una muestra aleatoria de una caracter´ıstica X de una poblaci´on con funci´on de masa Pθ (x) (caso discreto), o con funci´on de densidad fθ (x) (caso continuo), donde θ = (θ1 , ..., θk ) es desconocido. Una cantidad pivotal para estimar el par´ ametro θi es una funci´on C(X1 , . . . , Xn ; θi ) tal que su distribuci´on es fija (no depende de ning´ un par´ametro desconocido). De manera esquem´atica, los pasos que hay que dar para obtener un intervalo de confianza mediante el m´etodo de la cantidad pivotal son los siguientes: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Construimos una cantidad pivotal C(X1 , . . . , Xn ; θi ) para estimar θi . 4

3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2. Esta construcci´on es posible gracias a que la distribuci´on de la cantidad pivotal es fija. 4. Despejamos θi del intervalo anterior, obteniendo as´ı el intervalo de confianza buscado. El intervalo de confianza obtenido tiene sentido como estimador porque s´olo depende de los valores muestrales (no depende de ning´ un par´ametro desconocido). Su nivel de confianza es 1 − α gracias a que el contenido de probabilidad del intervalo del paso anterior era 1 − α. Obviamente, la descripci´on que se acaba de dar del m´etodo es muy abstracta. Por este motivo, es muy conveniente aplicar el m´etodo a alg´ un caso concreto que ayude a entender lo que hacemos en general. Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde la media µ es desconocida, pero supondremos (por sencillez) que σ es conocida. Queremos un intervalo de confianza para estimar µ. Aplicamos el m´etodo de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Dado que queremos estimar µ, empezamos considerando su estimador ¯ de m´axima verosimilitud que, en este caso, sabemos que es µ ˆ = X: √ ¯ ∼ N (µ; σ/ n) X



Por tanto: C(X1 , ..., Xn ; µ) =

¯ −µ X √ ∼ N (0; 1) σ/ n

¯ −µ X √ ∼ N (0; 1) σ/ n

es una cantidad pivotal para estimar µ. 3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: (

P −zα/2

¯ −µ X √ < zα/2 = 1 − α < σ/ n )

5

4. Finalmente, despejamos µ del intervalo anterior: ¯ + zα/2 √σ µ < X n σ ¯ − zα/2 √ µ > X n El intervalo de confianza que hemos obtenido es: ¯ + zα/2 √σ ¯ − zα/2 √σ ; X IC1−α (µ) = X n n

!

¯ ± zα/2 √σ = X n

!

¯ lo cual Observemos que el intervalo de confianza est´a centrado en X, parece bastante natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza recibe el nombre de error en la estimaci´on: σ Error en la estimaci´on = zα/2 √ n Es interesante poner de manifiesto un par de propiedades del intervalo de confianza que acabamos de obtener: 1. Cuando el tama˜ no muestral, n, aumenta, el error en la estimaci´on disminuye y, en consecuencia, la longitud del intervalo disminuye. 2. Cuando el nivel de confianza, 1 − α, aumenta, el error en la estimaci´on aumenta y, en consecuencia, la longitud del intervalo aumenta. Estas dos propiedades eran intuitivamente esperables. La ventaja de la metodolog´ıa de los intervalos de confianza es que se cuantifica autom´aticamente la influencia de n y de 1 − α. Caso 2.- Consideramos nuevamente una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), pero ahora consideramos la situaci´on m´as habitual en la pr´actica, donde tanto µ como σ son desconocidos. Seguimos interesados en obtener un intervalo de confianza para estimar µ. Volvemos a aplicar el m´etodo de la cantidad pivotal: 1. Fijamos un nivel de confianza 1 − α (pr´oximo a 1). 2. Dado que queremos estimar µ, empezamos otra vez considerando su estimador de m´axima verosimilitud que, en este caso, sabemos que ¯ sigue siendo µ ˆ = X: √ ¯ ∼ N (µ; σ/ n) X

⇒ 6

¯ −µ X √ ∼ N (0; 1) σ/ n

Pero, en este caso, nos encontramos con el problema de que ¯ −µ X √ σ/ n no puede ser una cantidad pivotal para estimar µ, ya que depende de σ que ahora es desconocida. Este problema se resuelve sustituyendo σ por una estimaci´on: la cuasi-desviaci´on t´ıpica muestral, S. De este modo, tenemos que: C(X1 , ..., Xn ; µ) =

¯ −µ X √ ∼ tn−1 S/ n

es una cantidad pivotal para estimar µ. Obs´ervese que la nueva cantidad pivotal sigue una distribuci´on tn−1 en vez de seguir una distribuci´on N (0; 1). 3. A partir de la distribuci´on de la cantidad pivotal, obtenemos un intervalo, cuyo contenido de probabilidad sea 1 − α, y que deje a ambos lados la misma cantidad de probabilidad α/2: ¯ −µ X √ < tn−1;α/2 = 1 − α < S/ n )

(

P −tn−1;α/2

4. Finalmente, despejamos µ del intervalo anterior: ¯ + tn−1;α/2 √S µ < X n ¯ − tn−1;α/2 √S µ > X n El intervalo de confianza que hemos obtenido es: ¯ − tn−1;α/2 √S ; X ¯ + tn−1;α/2 √S IC1−α (µ) = X n n

!

¯ ± tn−1;α/2 √S = X n

Observemos que, nuevamente, el intervalo de confianza est´a centrado en ¯ X, lo cual sigue siendo muy natural. La cantidad que sumamos y restamos a la media muestral para obtener el intervalo de confianza sigue recibiendo el nombre de error en la estimaci´ on, y ahora es de la forma: S Error en la estimaci´on = tn−1;α/2 √ n 7

!

Este intervalo sigue teniendo el mismo tipo de propiedades que ten´ıa el obtenido en el Caso 1. Aplicando de manera sistem´atica este m´etodo de la cantidad pivotal, ir´ıamos obteniendo los intervalos de confianza que se utilizan en las situaciones m´as habituales: Una muestra aleatoria de una caracter´ıstica con distribuci´on Normal, Bernoulli, Poisson,... Dos muestras aleatorias independientes de caracter´ısticas con distribuci´on Normal, Bernoulli,... La mayor´ıa de los libros dedicados a la Estad´ıstica Aplicada incluyen un listado de los intervalos de confianza m´as frecuentemente utilizados.

5

M´ınimo tama˜ no muestral

En esta u ´ltima secci´on, abordamos una cuesti´on pr´actica muy interesante: ¿Cu´antos datos ser´an necesarios para estimar un par´ametro (con un nivel de confianza 1 − α), de modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada? Vamos a ver la respuesta a esta pregunta en los casos analizados en la secci´on anterior: Caso 1.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde σ es conocida. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cu´antos datos ser´ıan necesarios para estimar µ, de modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada. El procedimiento es sencillo: σ Error en la estimaci´on = zα/2 √ < E n Despejamos n y obtenemos:

n>



(zα/2 σ)2 E2

Caso 2.- Consideramos una muestra aleatoria (X1 , ..., Xn ) de una caracter´ıstica X ∼ N (µ; σ), donde tanto µ como σ son desconocidos. Queremos obtener un intervalo de confianza para estimar µ, con un nivel de confianza 1 − α, y queremos saber cu´antos datos ser´ıan necesarios para estimar µ, de 8

modo que el error en la estimaci´on quede por debajo de una cierta cantidad, E, previamente fijada. Procedemos de manera similar: S S Error en la estimaci´on = tn−1;α/2 √ ' zα/2 √ < E n n (zα/2 S)2 Despejamos n y obtenemos: n> E2 En este caso, hay que hacer un par de observaciones sobre la manera de proceder: (a) Aunque no sabemos el valor de n (ya que es precisamente lo que estamos intentando determinar), lo que s´ı sabemos es que (en general) ser´a un valor grande (por encima de 30). En estas condiciones: tn−1;α/2 ' zα/2 (b) Como no sabemos el valor que tendr´a S en una muestra futura, se suele tomar el valor que obtengamos en una peque˜ na muestra piloto. En general, ´esta ser´ıa la forma de proceder en cualquier otro caso.

9

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.