Story Transcript
Estad´ıstica I Licenciatura en Matem´aticas
Examen Febrero 2011
1. Sea X1 , . . . , Xn una muestra aleatoria de una variable X con distribuci´on Beta de par´ametros 2 y θ > 0. Esto u ´ltimo significa que la funci´on de densidad de X es f (x; θ) =
Γ(2 + θ) x(1 − x)θ−1 I[0,1] (x). Γ(θ)
La media y la varianza de X son Eθ (X) =
2 2+θ ,
Vθ (X) =
(1)
2θ (2+θ)2 (θ+3) .
(a) Calcular el estimador de θ por el m´etodo de los momentos. (b) Analizar su consistencia c.s. (c) Probar que es asint´ oticamente normal y obtener la varianza de la distribuci´on asint´otica. (d) Define la “cantidad de informaci´ on de Fisher”, I(θ), y explica muy brevemente su importancia en la teor´ıa estad´ıstica. Calcula el valor de I(θ) para el modelo (1).
2. Los niveles en sangre de una hormona denominada FSH est´an asociados con la fertilidad femenina. Las mujeres que tienen un nivel de FSH “alto” (superior a 10 IU/L) tienen en general m´ as dificultad para concebir que aquellas que tienen niveles bajos de FSH. En un estudio realizado recientemente, se analiz´ o la posible relaci´on entre el grupo sangu´ıneo y la fertilidad. Para ello se midieron los niveles de FSH en una muestra de 254 mujeres en edad f´ertil con grupo sangu´ıneo “O” y result´ o que 43 de ellas ten´ıan niveles altos de FSH y, por tanto, podr´ıan tener dificultades para concebir. En otra muestra, independiente de la anterior, de 309 mujeres cuyo grupo sangu´ıneo no es O, result´ o que 27 ten´ıan niveles altos de FSH. [Adaptado de Nejat et al. Fertility and Sterility, Volumen 94, 4, Suppl. 1, septiembre 2010]. (a) ¿Proporcionan estos datos suficiente evidencia estad´ıstica, al nivel 0.05, a favor de la hip´otesis de que las mujeres con grupo sangu´ıneo O tienen m´as dificultades para concebir que las que tienen otro grupo sangu´ıneo? (b) Calcular el tama˜ no muestral necesario para, con probabilidad 0.95, estimar en la poblaci´on de mujeres del grupo “O” el porcentaje de las que tienen un nivel alto de FSH, con un error m´ aximo de 2 puntos.
3. Sea X1 , . . . , Xn
una muestra de una v.a. N (µ, σ). Se desea contrastar la hip´otesis H0 : σ ≤ 1
frente a H1 : σ > 1. Para ello se utiliza un test con una regi´on cr´ıtica de la forma R = {(x1 , . . . , xn ) : s2 > k},
(2)
siendo s2 la cuasi-varianza muestral y k > 0 una constante. (a) En el caso n = 10 calcular el valor de k que proporciona un test de nivel de significaci´on 0.05. (b) Para el test definido en el apartado anterior (con n = 10 y nivel de significaci´on 0.05), calcular el valor de la funci´ on de potencia para σ = 2. ¿C´omo se comporta la funci´on de potencia cuando σ → ∞? (c) Supongamos que con una muestra de tama˜ no n = 10 se ha obtenido s2 = 2.622. ¿Cu´al es el p-valor de (2) para esta muestra? ¿Proporciona este p-valor mucha evidencia estad´ıstica a favor de H1 ?
4. Redacta un c´odigo en R
que realice las siguientes operaciones:
1. Generar mil muestras de tama˜ no 50 de una normal est´andar y almacenarlas en una matriz 1000 × 50. 2. Calcular las medias muestrales y las medianas de estas muestras y almacenarlas en una matriz 1000 × 2 (la columna 1 debe contener las medias y la segunda las medianas). 3. Contar el n´ umero de veces que la media muestral resulta ser menor que la correspondiente mediana.
Valoraci´ on de los ejercicios: 4, 2, 3, 1.
Soluciones a los problemas del examen de febrero de 2011
1) (a) El estimador es la soluci´on en θ de la ecuaci´on X¯ = Eθ (X) que, en este caso, es 2 θˆn = ¯ − 2. X ¯ siendo g(x) = 2 − 2. (b) Observamos que θˆn = g(X), x c.s. ¯ −→ Por la Ley Fuerte de los Grandes N´ umeros, X µ := Eθ (X), pero como g es funci´on continua ¯ se tiene, por la definici´on de en el intervalo (0, 1] (que es c.s. el rango de valores de X y de X), convergencia c.s.,
2 c.s. ¯ −→ θˆn = g(X) g(µ) = − 2 = θ, µ ˆ lo cual prueba la consistencia fuerte de θn . √ ¯ d − µ) −→ N (0, σ), siendo σ 2 := Vθ (X). Observamos que (c) Por el TCL sabemos que n(X ¯ siendo g(x) = 2 − 2 que es funci´on derivable con derivada continua en (0, 1]. Por tanto, θˆn = g(X), x
aplicando el m´etodo delta, √
¯ − g(µ)) = n(g(X)
√
d
n(θˆn − θ) −→ N (0, |g 0 (µ)|σ)
siendo g 0 (x) = −2/x2 En definitiva, la varianza asint´otica es g 0 (µ)2 σ 2 =
(2 + θ)4 2θ θ(2 + θ)2 = . 4 (2 + θ)2 (θ + 3) 2(θ + 3)
(d) La cantidad de informaci´ on de Fisher se define mediante " 2 # ∂ log f (X; θ) , I(θ) = Eθ ∂θ R supuesto que esta esperanza es finita. Si f (x; θ)dx se puede derivar dos veces bajo el signo integral I(θ) se puede expresar de modo equivalente como ∂2 I(θ) = Eθ − 2 log f (X; θ) ∂θ Esta cantidad es importante porque 1/(nI(θ)) resulta ser una cota inferior de la varianza de los estimadores insesgados de θ y, sobre todo, porque (bajo ciertas condiciones de regularidad), 1/I(θ) √ aparece como la varianza de la distribuci´on l´ımite (normal) de n(θˆn − θ), siendo θˆn el emv. En nuestro ejemplo, tenemos (usando la propiedad Γ(p + 1) = pΓ(p)): ∂ ∂ log f (X; θ) = (log(1 + θ) + log θ + log X + (θ − 1) log(1 − X)) ∂θ ∂θ 1 1 = + + log(1 − X) 1+θ θ
∂2 1 1 log f (X; θ) = − − 2 ∂θ2 (1 + θ)2 θ En definitiva, I(θ) =
2) Sea X
1 2θ2 + 2θ + 1 1 + 2 = 2 2 (1 + θ) θ θ (1 + θ)2
una v.a. que toma valor 1 cuando una mujer seleccionada al azar en el grupo O tiene
un nivel alto de FSH y sea Y una v.a. que toma valor 1 cuando una mujer seleccionada al azar entre las que no pertenecen al grupo O tiene nivel alto de FSH. Las distribuciones de X y de Y son Bernoulli (p1 ) y Bernoulli(p2 ), respectivamente, siendo p1 = P(X = 1) y p2 = P(Y = 1). Tenemos dos muestras independientes X1 , X2 , . . . , X254 e Y1 , Y2 , . . . , Y309 de las v.a. X e Y . Nos piden realizar el siguiente contraste de hip´otesis: H0 : p1 ≤ p2 frente a H1 : p1 > p2 . Puesto que los tama˜ nos muestrales n1 = 254 y n2 = 309 son suficientemente grandes podemos utilizar la siguiente regi´ on de rechazo: ( R= donde p¯ =
P
P xi + yi n1 +n2 .
s
x ¯ − y¯ > zα
p¯(1 − p¯)
1 1 + n1 n2
En este ejercicio, tenemos que x ¯ =
43 254 ,
)
y¯ =
, 27 309 ,
p¯ =
43+27 563
≈ 0.1243 y
z0.05 = 1.645. Verificamos si se cumple que: s 27 1 1 43 − > 1.645 0.1243(1 − 0.1243) + . 254 309 254 309 Efectivamente, puesto que 0.0819 > 0.04596, la anterior desigualdad se verifica y debemos rechazar H0 al nivel 0.05. Por tanto, a ese nivel los datos proporcionan suficiente evidencia estad´ıstica a favor de H1 . (b) Un intervalo de confianza aproximado de nivel 1 − α para p1 (proporci´on de mujeres del grupo O con nivel alto de FSH) es r
¯ − X) ¯ X(1 , n P siendo x ¯= Xi /n, la proporci´ on de mujeres con FSH alto observada en una muestra de tama˜ no n ¯ ± zα/2 X
En este caso zα/2 = z0.025 = 1.96. Esto significa que, con una probabilidad de 0.95, el error m´aximo ¯ es que se comete al estimar p1 con X r 1.96
¯ − X) ¯ X(1 . n
Tenemos que encontrar el tama˜ no muestra n que haga este error igual a 0.02 (2 puntos de porcentaje expresados en t´erminos de proporci´ on). Para ello planteamos r ¯ − X) ¯ X(1 1.96 = 0.02, n ¯ (porque a´ y, como no conocemos el valor de X un no hemos extra´ıdo la muestra) lo aproximamos por el obtenido en la muestra previa de tama˜ no 254, es decir, por x ¯ = 43/254 = 0.1693. Esto da r 0.1693(1 − 0.1693) 1.96 = 0.02, n 0.1693(1 − 0.1693) ∼ = 1351 0.022 Este tama˜ no muestral proporciona aproximadamente el error deseado. n = 1.962
3) (a) Tenemos que encontrar el valor k tal que sup Pσ {s2 > k} = 0.05, σ≤1
donde Pσ indica la probabilidad calculada suponiendo que el verdadero valor de la varianza en la distribuci´ on normal que genera los datos es σ. Sabemos que si las X1 , . . . , Xn son vaiid N (µ, σ), (n − 1)s2 ∼ χ2n−1 . σ2 Por tanto, sup Pσ {s2 > k} = sup Pσ { σ≤1
σ≤1
(n − 1)k (n − 1)k (n − 1)s2 > } = sup P {χ2n−1 > } = P {χ2n−1 > (n−1)k} 2 σ2 σ2 σ σ≤1 (3)
Para n = 10, P {χ29 > 16.92} = 0.05. Por tanto, seg´ un (3), el valor k que buscamos debe cumplir 9k = 16.92, es decir, k = 1.88. (b) La funci´ on de potencia viene dada por β(σ) = probabilidad de rechazar H0 cuando el par´ametro vale σ
Se pide calcular β(2) = Pσ=2 {s2 > 1.88} = Pσ=2
9s2 9 · 1.88 > 4 4
= P {χ29 > 4.23} ≈ P {χ29 > 4.17} = 0.9
Se ha aproximado 4.23 por 4.17 porque ´este es el n´ umero m´as cercano que aparece en las tablas de la χ29 que tenemos disponibles. En general, 2
β(σ) = Pσ {s > 1.88} = Pσ
9 · 1.88 9s2 > σ2 σ2
=P
χ29
16.92 > σ2
→ 0, cuando σ → ∞,
ya que la distribuci´ on χ29 tiene soporte [0, ∞) y, por tanto, su funci´on de distribuci´on vale 0 en x = 0. (c) Recordemos que el p-valor es el m´ınimo valor del nivel de significaci´on para el cual se rechazar´ıa la hip´ otesis nula. Este valor puede interpretarse como la probabilidad de obtener (bajo H0 ) un valor “al menos tan extremo” como el que se ha obtenido. As´ı, para obtener el p-valor en este caso habr´ıa que calcular el nivel de significaci´on que corresponder´ıa al valor k = 2.622, en el cual coinciden el valor observado del estad´ıstico de contraste s2 y el valor cr´ıtico k. p = sup P(s2 > 2.622) = Pσ=1 (9s2 > 9 · 2.622) ≈ P(χ29 > 23.6) = 0.005, σ≤1
(recordemos que, cuando σ = 1, 9s2 ∼ χ29 , ya que (n − 1)s2 /σ 2 ∼ χ2n−1 ). En resumen, el p-valor es aproximadamente p = 0.005. Por tanto, si el nivel de significaci´on α elegido hubiera sido menor que 0.005 hubi´eramos aceptado siempre H0 (al nivel α) con s2 = 2.622 (pues en este caso s2 = 2.622 ser´ıa necesariamente menor que el correspondiente valor k), y si hubi´esemos tomado α > 0.005 hubi´esemos rechazado H0 al nivel α. Este valor, p = 0.005 es muy peque˜ no e indica una fuerte evidencia estad´ıstica a favor de H1 .
4) Hay varias maneras posibles de hacer esto. A continuaci´on se indica una posibilidad conceptualmente sencilla (aunque otras alternativas con un c´odigo m´as breve y m´as eficiente desde el punto de vista computacional): xx