Notas para el curso de ´ n a la Estad´ıstica, Introduccio
dictado por Juan Kalemkerian 1 en la Facultad de Ciencias, el segundo semestre de 2008.
1
Los errores que puedan contener son total responsabilidad de quien las transcribe Por sugerencias y correcciones:
[email protected]
´Indice general 1. Introducci´ on 1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . .
3 3 6
2. Muestreo aleatorio simple 2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Estad´ısticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . .
8 8 8 13
3. Teor´ıa de la Estimaci´ on, m´ etodos de estimaci´ on 3.1. Algunas definiciones previas . . . . . . . . . . . . 3.2. M´etodo de los momentos . . . . . . . . . . . . . . 3.3. M´etodo de M´ axima Verosimilitud . . . . . . . . . 3.4. m´etodo de estimaci´ on por cuantiles . . . . . . . . 3.5. Estimaci´ on de la funci´ on de Distribuci´on . . . . . 3.6. Convergencia casi segura de Percentiles . . . . .
15 15 15 16 20 21 23
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4. Evaluaci´ on de Estimadores
24
5. Estimacin por intervalos de confianza
33
6. Pruebas de hip´ otesis ´ 6.1. Regi´ on Cr´ıtica Optima, Teorema de Neyman-Pearson 6.2. Familias con cociente de verosimilitud mon´otono . . . 6.3. M´etodo de la raz´ on de verosimilitud para RC: . . . . . 6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . 6.4.1. Test de χ2 : . . . . . . . . . . . . . . . . . . . . 6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . 6.5. An´ alisis de Varianza, (ANOVA) . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
36 37 40 42 43 43 43 44
7. Modelos Lineales 7.1. Variable Normal Multivariada 7.2. Modelos Lineales . . . . . . . 7.3. Hip´ otesis del modelo . . . . . 7.4. Aplicaci´ on . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
47 47 49 49 52
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
Cap´ıtulo 1
Introducci´ on Este cap´ıtulo pretende introducir los conceptos de esperanza condicional, as´ı como las nociones de convergencia de variables aletorias, que ser´an necesarios para los siguientes cap´ıtulos. Se asumira que el lector est´ a familiarizado con los conceptos b´asicos de la probabilidad, correspondientes a un primer curso introductorio, no as´ı los del an´alisis real.
1.1.
Esperanza Condicional
Definici´ on 1.1. Dado Ω, A, P un espacio de probabilidad, y X, Y : Ω → R variables aleatorias, definimos la Esperanza Condicional de X dado Y que anotaremos E X|Y , como la funci´ on de Y que verifica E XIY (B) = E E(X|Y )IY (B) para todo B perteneciente a la sigma ´ algebra de borel de R, que anotaremos de aqu´ı en mas como B(R) Observaci´ on 1.2. E(X|Y ) est´ a bien definido existencia: Se sigue del Teorema de Radon-Nikodym unicidad: Supongamos que α(Y ) y β(Y ) cumplen E XIY (B) = E α(Y )IY (B) = E β(Y )IY (B) .
∀B ∈ B(R)
Consideremos B = {α(Y ) > β(Y )}, sabemos que 0 = E (α(Y ) − β(Y ))IY (B) , como (α(Y ) − β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces (α(Y ) − β(Y ))IY (B) = 0 c.s.. De forma ˆ = {β(Y ) > α(Y )}, obtenemos que (β(Y ) − α(Y ))IY (B) ˆ = totalmente an´ aloga, tomando B 0, c.s., de donde se sigue que α = β c.s. Proposici´ on 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z ser´ an variables aleatorias a valores reales y a, b n´ umeros reales. 1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z). 2) Si X ≥ 0
c.s. entonces E(X|Y ) ≥ 0
c.s..
3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ). 3
Cap´ıtulo 1.
Introducci´on
4) E(X|X) = X. 5) E(a|Y ) = a. 6) E(X|Y ) = E(X) si X e Y son independientes. 7) E(Xg(Y )|Y ) = g(Y )E(X|Y ). 8) E E(X|Y ) = E(X). Demostraci´ on. 1) Por la unicidad, basta demostrar que, para todo B ∈ B(R) E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) , usando la linealidad de la esperanza el u ´ltimo t´ermino es aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) , que, por definici´ on de esperanza condicional, es igual a aE XIB (Z) + bE Y IB (Z) . 2) La demostraci´ on necesita de conceptos del an´alisis real. 3) Es consecuencia inmediata de 2). 4) Es consecuencia inmediata de la unicidad. 6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la independencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de cualquier variable. 5) Es una consecuencia inmediata de 6). 7) La demostraci´ on necesita de conceptos del an´alisis real. 8) Basta tomar en la definici´ on B = R. Proposici´ on 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces ϕ E(X) ≤ E ϕ(X) ϕ E(X|Y ) ≤ E ϕ(X)|Y Recordemos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1], y que si ϕ es C 2 , ϕ es convexa si y solo si ϕ00 (x) ≤ 0 ∀x. Definici´ on 1.5. Distribuci´ on Condicional: Dadas X, Y v.a., definimos FX|Y =y (x) := P (X ≤ x|Y = y) := E(I( −∞,x] (x)|Y = y). Definici´ on 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos P (X ∈ [a, b]|Y ) := E(I[a,b] (X)|Y ). Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el caso continuo.
4
Cap´ıtulo 1.
Introducci´on
Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m ∈ N , definimos la probabilidad condicional en el sentido usual, como PX,Y (x, y) PY (y)
PX|Y =y (x) = P (X = x|Y = y) =
∀x ∈ Rec(X), ∀y ∈ Rec(Y ),
entonces X
E(X|Y ) =
xPX|Y (x),
x∈Rec(X)
Demostraci´ on. Sabemos que X
xPX|Y =y (x) =
x∈Rec(X)
1 PY (y)
X
xPX,Y (x, y) =: α(Y )(y),
x∈Rec(X)
queremos demostrar que
1 E PY (Y )
X
xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,
x∈Rec(X)
1 E PY (Y )
X
X
xPX,Y (x, Y )IB (Y ) =
x∈Rec(X)
α(y)PY (y)
y∈Rec(Y )∩B
=
X
X
xPX,Y (x, y)IB (Y )
y∈Rec(Y ) x∈Rec(X)
= E XIB (Y ) .
Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces Z
+∞
E(X|Y ) =
x −∞
fX,Y (x, Y ) dx fY (Y )
Demostraci´ on. Z +∞ Z +∞ Z +∞ fX,Y (x, Y ) fXY (x, y) E x dxIB (Y ) = IB (y)dx fy (y)dy x fY (Y ) fy (y) −∞ −∞ −∞ Z +∞ Z +∞ = xIB (y)fX,Y (x, y)dxdy −∞
−∞
= E(XIB (Y )). Luego, la t´esis es consecuencia de la unicidad. Proposici´ on 1.8. F´ ormula de la distribuci´ on conjunta: Dadas X, Y v.a. se tiene que Z y FX,Y (x, y) = FX|Y =t (x)dFy (t) −∞
5
Cap´ıtulo 1.
Introducci´on
Demostraci´ on. FXY (x, y) = P (X ≤ x, Y ≤ y) = E I(−∞,x] (X)I(−∞,y] (Y ) = E E I(−∞,x] (X)I(−∞,y] (Y ) Y Z +∞ I(−∞,y] (t)FX|Y =t (x)dFY (t) = −∞ Z y = FX|Y =t (x)dFY (t) −∞
Definici´ on 1.9. Distribuci´ on condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0 definimos P (X ≤ x ∩ A) FX|A = P (X ≤ x|A) = P (A) Definici´ on 1.10. Esperanza condicionada a un conjunto: Z +∞ E(X|A) = xdFX|A (x) A ∈ A, P (A) 6= 0 −∞
1.2.
Nociones de convergencia de variables aletorias
Definici´ on 1.11. Convergencia en probabilidad y casi segura: Dado Ω, A, P probabilidad, {Xn } una sucesi´ on de v.a. y X una v.a. decimos que
espacio de
P
1) Xn converge a X en probabilidad, y anotamos Xn −→ X si l´ım P |Xn − X| ≤ ε = 1 n→+∞
c.s.
2) Xn converge a X casi seguramente, y anotamos Xn −→ X si P l´ım Xn = X = 1 n→+∞
Definici´ on: Sean Xn v.a. en Ωn , An , Pn y X v.a. en on 1.12. Convergencia en distribuci´ Ω, A, P , decimos que Xn converge en distribuci´on a X y anotamos d
Xn −→ X
si
l´ım FXn (x) = FX (x) ∀x punto de continuidad de FX
n→+∞
Proposici´ on 1.13. Relaci´ on entre convergencias: Si {Xn } y X son v.a. sobre Ω, A, P entonces c.s. P d Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X. Observaci´ on 1.14. Todos los rec´ıprocos de la proposici´ on anterior son falsos. Teorema 1.15. Ley Fuerte de los grandes n´ umeros: Sean {Xn } v.a. sobre Ω, A, P y Xn independientes id´enticamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces Xn =
X1 + · · · + Xn c.s. −→ µ n
6
Cap´ıtulo 1.
Introducci´on
Teorema 1.16. Teorema Central del L´ımite: Sean {Xn } definidas en Ω, A, P v.a. i.i.d. en L2 entonces Xn − µ d √ −→ N (0, 1). σ/ n Donde N (0, 1) denota la distribuci´ on normal con esperanza 0 y varianza 1. 2
Observaci´ on 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribuci´ on N (µ, σn ) donde µ = E(Xn ) y σ 2 = V ar(Xn )
7
Cap´ıtulo 2
Muestreo aleatorio simple 2.1.
Algunas definiciones previas
Definici´ on 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en Ω, A, P son una aleatoria simple si son independientes id´enticamente distribuidas (i.i.d.) con distribuci´on igual a la de X. Definici´ on 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos 1) Media Muestral: Xn =
X1 + . . . , Xn . n n
2) Varianza Muestra Sn2 =
1 X (Xi − Xn )2 n − 1 i=1 n
Observaci´ on 2.3. Sn2 =
1 X 2 Xi2 − nXn n − 1 i=1 c.s.
Observaci´ on 2.4. Si X ∈ L1 , Xn −→ µ = E(X) por L.F.G.N. c.s.
Observaci´ on 2.5. Si X ∈ L2 , Sn2 −→ σ 2 = V ar(X). Demostraci´ on. Sn2
n = n−1
n
1X 2 2 X − Xn n i=1 i
! c.s.
→ E(X 2 ) − µ2 = σ 2 ,
donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .
2.2.
Muestreo en poblaciones normales
Definici´ on 2.6. Distribuci´ on Gamma: Decimos que X tiene distribuci´on Gamma(α, λ) si su densidad es α λ xα−1 e−λx si x > 0 fX (x) = Γ(α) 0 si x = 0 Observaci´ on 2.7. Tres propiedades importantes de la distribuci´ on Gamma son: 1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2 .
8
Cap´ıtulo 2.
Muestreo aleatorio simple
2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+ β, λ). 3) Si α = 1, Gamma(1, λ) = Exp(λ). Definici´ on 2.8. Distribuci´ on Chi cuadrado con k grados de libertad: Decimos que X v χ2k si X v Gamma(k/2, 1/2) es decir si fX (x) =
xk/2−1 e−x/2 I(0,+∞) Γ(k/2)2k/2
Observaci´ on 2.9. Se puede demostrar que E(χ2k ) = k V ar(χ2k ) = 2k
Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces X12 + · · · + Xk2 = k(X1 , . . . , Xk )k2 v χ2k Demostraci´ on. Por la propiedad 2) de las distribuci´ones Gamma, es suficiente√demostrar √ que Xi2 v 2 2 χ1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X ≤ t) = P (|X| ≤ t) = P (− t ≤ X ≤ √ t) = Z √t Z √t Z t 1 1 − 1 s2 1 − 1 s2 1 1 2 2 √ e √ e ds = 2 ds = √ e− 2 u √ , √ u 2π 2π 2π 0 − t 0 2
donde en la primera igualdad hemos usado √ que la funci´on e−1/2x es par, y en la seguna hemos 2 hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que 1
e− 2 u √ √ , 2π u es la densidad de χ21 pero esto se sigue de que Gamma(1/2) =
√
π.
9
Cap´ıtulo 2.
Muestreo aleatorio simple
Definici´ on 2.11. Distribuci´ on T-Student con k grados de libertad: Sean X v N (0, 1) e Y v χ2k independientes, la distribuci´ on de X , Tk = p Y /n se llama distribuci´ on T − Student con k grados de libertad. Decimos que la variable Tk tiene distribuci´ on T − Student no central, con par´ametro de no centralidad µ > 0 si X +µ Tk = p Y /k Observaci´ on 2.12. Se verifica que E(Tk ) = 0 V ar(Tk ) = k/(k − 2) para k > 2. Teorema 2.13. Sea T v Tk , entonces la densidad es fT (t) = √
Γ( k+1 2 ) kπΓ( k2 ) 1 +
t2 k
k+1 2
Demostraci´ on. Tomemos el vector (X, Y ), su densidad es y
k
−1 − 2 1 2 y2 e 1 fX,Y (x, y) = √ e− 2 x k I(0,+∞) (y). k 2π Γ( 2 )2 2
Sea g : Rk × R+ −→ Rk × R+ tal que ! p x g(x, y) = p , y , g es biyectiva y g −1 (u, v) = u v/k, v , y/k tenemos entonces que g(X, Y ) = (U, V ) I(0,+∞) (v) fg(x,y) (u, v) = fU,V (u, v) = fX,Y g −1 (u, v) det Jg g −1 (u, v) donde
√1
y/k
0 luego, sustituyendo
1 √u √ k2 v
! y
1
p det Jg (x, y) = k/y,
√ 2 1 k v 1 e− 2k u v v 2 −1 e− 2 v √ fU,V (u, v) = √ I (v) , (0,+∞) Γ( k2 )2k/2 2π k
como T = U tenemos que Z +∞ fU (u) = fU,V (u, v)dv = √ −∞
Z
1
v
k
2kπΓ(k/2)2 2
+∞
k−1 2
e
−v
“
u2 2k
+ 12
”
dv,
0
por otro lado sabemos que Z +∞ Z +∞ λα Γ(α) xα−1 e−λx dx = 1 entonces xα−1 e−λx dx = α , Γ(α) 0 λ 0 si tomamos entonces α =
k+1 2
x=v yλ=
u2 2k
+
1 2
se concluye la tesis. 10
Cap´ıtulo 2.
Muestreo aleatorio simple
Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ), entonces σ2 1) Xn v N µ, . n 2) Xn y Sn2 son independientes. 3)
n−1 2 S v χ2n−1 . σ2 n
√ (Xn − µ) n v Tn . Sn Demostraci´ on. 4)
1) es inmediato 3) tomemos σ = 1, por inducci´ on en n, para n = 2 tenemos que 2 2 X1 + X2 X1 + X2 2 S2 = X1 − + X2 − 2 2 2 2 2 X1 − X2 X2 − X1 X1 − X2 √ = + = v χ21 , 2 2 2 n−1 (Xn − n o lo que es lo
2 supongamos cierto para n−1. Vamos a usar la igualdad (n−1)Sn2 = (n−2)Sn−1 +
Xn−1 )2 , como estamos tomando σ = 1 tenemos que ver que (n − 1)Sn2 v χ2n−1 2 2 2 mismo (n − 2)Sn−1 + n−1 n (Xn − Xn−1 ) v χn−1 , 2 2 2 por hip´ otesis de inducci´ on (n − 2)Sn−1 v χn−2 , adem´as n−1 n (Xn − Xn ) es independiente de 2 2 2 (n − 2)Sn−1 pues Xn es independiente de Sn−1 por la parte 2), y Xn es independiente de Sn−1 2 pues Sn−1 depende s´ olo de X1 , . . . , Xn y la muestra son un M.A.S. 2 2 Basta entonces ver que n−1 n (Xn − Xn ) v χ1 , 1 n n−1 Xn − Xn−1 v N 0, 1 + = N 0, ⇒ (Xn − Xn−1 )2 v χ21 , n−1 n−1 n y, como la suma de χ2 es tiene distribuci´on χ2 con la suma de los grados tenemos que χ2n−2 + χ21 v χ2n−1 . 11
Cap´ıtulo 2.
Muestreo aleatorio simple
4) Es inmediato a partir de 1,2 y 3. 2) Sn2 =
n X 1 (X1 − Xn )2 + (Xi − Xn )2 n−1 i=2
n n X X 1 2 = ( Xi − Xn ) + (Xi − Xn )2 , n − 1 i=2 i=2
hemos escrito entonces Sn2 en funci´ on de X2 − Xn , . . . , Xn − Xn , basta demostrar entonces que Xn es independiente de X2 − Xn , . . . , Xn − Xn . Consideremos Y1 = Xn , Y2 = X2 − Xn , . . . , Yn = Xn − Xn , y1 = xn , y2 = x2 − xn , . . . , yn = xn − xn y y = g(x1 , . . . , xn ) entonces 1 1 1 ... n n n −1 1 − 1 ... − n1 n n Jg = . . .. .. . 1 1 1 −n ... 1 − n −n Es f´ acil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz triangular superior con diagonal 1/n, 1, . . . , 1. x2 = y2 + y1 , . . . , xn = yn + y1 de donde ! X −1 g (y) = − yi − y1 , y2 + y1 , . . . , yn + y1 , 2
entonces 1 | det Jg (g −1 (y))| ( !) X X X 1 2 2 2 2 exp − y1 − 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 ) 2 2 2 2 !) ( n n o X X 1 exp − y12 exp − ( yi ) 2 + yi2 . 2 2 2 2
fY (y) = fX (g −1 (y) =
n (2π)n/2
=
n (2π)n/2
Por lo tanto factorizamos respecto de y1 , iterando, son independientes. Observaci´ on 2.15. distribuci´ on de
Distribuci´ on F de Fisher: Sea X v χ2n e Y v χ2m independientes, la X/n Y /m
se denomina distribuci´ on F de Fisher de par´ametros n y m, y la anotamos F (n, m). A modo de motivaci´ on geom´etrica de la distribuci´on F de Fisher, vamos a enunciar el siguiente teorema. Teorema 2.16. Sea A el ´ angulo que forma un vector X v N (0, σ 2 ) en Rd con un subespacio R de dimensi´ on ρ, entonces ρ tan2 (A) v F (d − ρ, ρ) d−ρ
12
Cap´ıtulo 2.
Muestreo aleatorio simple
Observaci´ on 2.17. Si Z v F (n, m) entonces n n Γ n+m n 2 w 2 −1 2 fZ (w) = n+m I(0,+∞) (w) m Γ n2 Γ m n 2 1+ m w 2 2 Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (µX , σX ) y Y1 , . . . , Yn M.A.S. de Y v N (µY , σY2 ) X e Y independientes, entonces 2 2 SX /σX v F (n − 1, m − 1) 2 2 SY /σY
Demostraci´ on. La demostraci´ on se sigue de la parte 3) y 2) del teorema 2.14
2.3.
Estad´ısticos de Orden para una M.A.S.
Definici´ on 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos X1:n = m´ın{X1 , . . . , Xn } X2:n = m´ın {X1 , . . . , Xn } \ {X1:n } .. . Xn:n = m´ın {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }
se tiene entonces que X1:n ≤ · · · ≤ Xn:n Teorema 2.20. Distribuci´ on de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absolutamente continua, entonces fXj:n (x) =
j−1 n−j n! fX (x) FX (x) 1 − FX (x) (j − 1)!(n − j)!
Demostraci´ on. FXj:n = P (Xj:n ≤ x) es decir, que al menos j variables sean menores o iguales uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces Y v Bin(n, p) con p = FX (x). P (Xj:n ≤ x) = P (Y ≥ j) =
n X
P (Y = k) =
k=j
n X
Ckn FX (x)
k
1 − FX (x)
n−k
k=j
entonces, derivando y usando q = 1 − p n X
n! kpk−1 fX (x)q n−k − fX (x)(n − k)q n−k−1 pk (n − k)!k! k=j n n−1 X X 1 1 = fX (x)n! pk−1 q n−k − pk q n−k−1 (n − k)!(k − 1)! (n − k − 1)!k! k=j k=j n n X X 1 1 = fX (x)n! pk−1 q n−k − pk−1 q n−k (n − k)!(k − 1)! (n − k)!(k − 1)!
fXj:n (x) =
k=j
k=j+1
1 = fX (x)n! pj−1 q n−j (n − j)!(j − 1)!
13
Cap´ıtulo 2.
Muestreo aleatorio simple
n−1 n−1 y fXmin (x) = nfX (x) 1 − FX (x) Observaci´ on 2.21. fXmax (x) = nfX (x) FX (x) Definici´ on 2.22. Si X tiene densidad f (x) =
Γ(α + β) α−1 x (1 − x)β−1 I(0,1) (x) decimos que X v Γ(α)Γ(β)
Beta(α, β) Observaci´ on 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) =
αβ . (α + β)2 (α + β + 1)
Observaci´ on 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n − j + 1).
14
Cap´ıtulo 3
Teor´ıa de la Estimaci´ on, m´ etodos de estimaci´ on 3.1.
Algunas definiciones previas
Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|θ) donde θ ∈ Rk es un par´ ametro desconocido. ˆ 1 , . . . , Xn ) : Ω −→ Rk Definici´ on 3.1. Sea θˆ : Rn −→ Rk medible, independiente de θ, entonces θ(X es un estimador de θ. Ejemplo 3.2. Si X v N (µ, σ 2 ) y θ = (µ, σ 2 ) entonces si definimos n
ˆ 1 , . . . , xn ) = θ(x
x1 + · · · + xn 1 X x1 + · · · + xn xi − , n n − 1 i=1 n
! : Rn −→ R2
entonces ˆ 1 , . . . , Xn ) = (Xn , S 2 ) θ(X n es un estimador de θ. Observemos que si bien θ es un vector, θˆ es un vector aleatorio a valores en Rk . Definici´ on 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|θ) y θˆ es un estimador, decimos que P c.s. θˆ es debilmente consistente si θˆ −→ θ. Decimos que es fuertemente consistente si θˆ −→ θ Ejemplo 3.4. Si X v N (µ, σ 2 ) y θˆ = (Xn , Sn2 ) entonces θˆ es fuertemente consistente. Notaci´ on: Anotamos como (H) al conjunto de valores posibles, que puede tomar el par´ametro θ. Por ejemplo si X v N (µ, σ 2 ) θ = (µ, σ 2 ) entonces (H) = R × R+ .
3.2.
M´ etodo de los momentos
Si X1 , . . . , Xn es una M.A.S. de X v F (X|θ) y el sistema E(X) = E(X 2 ) = .. . k E(X ) = 15
θ = (θ1 , . . . , θk ) ∈ Rk y X ∈ L1 . Consideremos Xn n 1X 2 Xi n i .. . n 1X k Xi n i
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos muestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de las k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener soluci´on ni ser u ´nica. Observemos que por la ley fuerte, los estiamdores que se despejan para cada θi son consistentes. Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el m´etodo de los momentos es 1/2(b − a) = P Xn 1/12(b − a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2 Si despejamos b en la primer ecuaci´ on y sustituimos en la segunda obtenemos las soluciones q q a = Xn ± 3(M2 − Xn ), b = Xn ± 3(M2 − Xn ) Como (H) = {(a, b) ∈ R2 : a < b} descartamos soluciones y nos queda q q a ˆ = Xn − 3(M2 − Xn ), ˆb = Xn + 3(M2 − Xn ). Teorema 3.6. M´ etodo de los momentos, existencia de soluci´ on: Si F : (H) ⊂ Rk −→ Rk 2 k es tal que F (θ1 , . . . , θn ) = (E(X), E(X ), . . . , E(X )), entonces, si F es inyectiva, F −1 y F son continuas y si Xn , M2 , . . . , Mk ∈ F (H) c.s. entonces los estimadores por momentos convergen c.s. a θ1 , . . . , θ k . Demostraci´ on. F (θ1 , . . . , θn ) = (M1 , . . . , Mk ) entonces (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ), como c.s.
M1 = Xn −→ E(X) .. . 1 X k c.s. Mk = Xi −→ E(X k ) n i y F −1 es continua entonces c.s. (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ) −→
F −1 E(X), . . . , E(X k ) = F −1 F (θ1 , . . . , θk ) = (θ1 , . . . , θk ),
de donde θˆ es fuertemente consistente.
3.3.
M´ etodo de M´ axima Verosimilitud
Definici´ on 3.7. Funci´ on de Verosimilitud: Dada una M.A.S. de X v F (X|θ) θ ∈ (H) ⊂ Rk L(θ, x ˜) = L(θ, x ˜) =
n Y i=1 n Y
fX (xi |θ) si X es absolutamente continua pX (xi |θ) si es discreta
i=1
El m´etodo consiste entonces en hallar θ ∈ (H) donde se realice m´axθ∈(H) L(θ, x ˜), dicho θˆ es el estimador de m´ axima verosimilitud (E.M.V.) de θ. El m´etodo no asegura la existencia y/o unicidad ˆ de θ.
16
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp(λ) entonces la funci´on de verosimilitud para λ es n Y X L(λ) = λ exp{−λxi } = λn exp{−λ xi }, i=1
i
con xi ≥ 0 ∀i, derivando obtenemos ( 0
n−1
L (λ) = λ
!)
exp −λ
X
n−λ
xi
X
xi
,
n y por lo tanto, como λ 6= 0, si hacemos L0 (λ) = 0 obtenemos λ = P
=
i
i
i xi
el signo de L0 (λ) que es un m´ aximo.
1 , es f´acil ver, mirando Xn
Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la funci´on de verosimilitud es entonces ( ( n 1 1 Y 1 si 0 < x , . . . , x < b si b > m´ax{x1 , . . . , xn } 1 n n = L(b) = I[0,b] (xi ) = b bn b 0 si no 0 si no i=1 Como la funci´ on 1/bn es decreciente obtenemos que ˆb = xn:n = m´ax{x1 , . . . , xn }. Observaci´ on 3.10. Interpretaci´ on del m´ etodo: Para el caso discreto, si tenemos X1 , . . . , Xn una M.A.S. y X v pX (X|θ) entonces L(θ|˜ x) =
n Y
pX (xi |θ) =
i=1
n Y
P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ),
i=1
esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en funci´on de θ. El m´etodo busca maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el θ que haga que la muestra sea m´ as probable. Principio de invarianza del E.M.V.: Supongamos que tenemos un par´ametro θ ∈ (H) y g : (H) → R, y que estamos interesados en estimar g(θ) por el m´etodo de m´axima verosimilitud, es ˜ que haga que la muestra sea m´as probable. Queremos maximizar ˆ = g(θ) decir queremos encontrar M entonces L∗ (M |˜ x) = sup L(θ|˜ x), {θ:g(θ)=M }
ˆ ˆ = E.M.V. de g(θ), es decir donde se realiza el m´aximo de L∗ entonces M ˆ = g(θ) Veremos que si M siendo θˆ = E.M.V de θ. En efecto: ˆ |˜ L∗ (M x) = sup L∗ (M |˜ x) = sup M
ˆ x) L(θ|˜ x) = sup L(θ, x ˜) = L(θ|˜
sup
M {θ:g(θ)=M }
θ∈(H)
y ˆ x L∗ (g(θ), ˜) =
sup
ˆ x). L(θ|˜ x) = L(θ|˜
ˆ {θ:g(θ)=g(θ)}
ˆ es E.M.V. de g(θ). Entonces g(θ) Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es pˆ = Xn , como σ 2 = p(1 − p) = g(p) por el Principio de Invarianza σ ˆ 2 = g(ˆ p) = pˆ(1 − pˆ). P Observaci´ on 3.12. Si h(θ) = log(L(θ)) = log(fX (xi |θ) podemos, dado que log(x) es una funci´ on creciente, tomar el θ que maximiza h(θ)
17
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|θ) y θ ∈ (H) ⊂ R donde (H) es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ (H), si h(θ) = log(L(θ)) es derivable como funci´on de θ y adem´as f (x|θ) = f (x|θ0 ) implica θ = θ0 c.s. entonces ∂ c.s. h(θˆn ) = 0 y θˆn −→ θ0 ∃θˆn ∈ (H) tal que ∂θ Demostraci´ on. h(θ0 ) − h(θ0 − δ) =
n X
log((f (xi |θ0 )) −
i=1
n X
log((f (xi |θ0 − δ))) =
i=1
n X i=1
log
f (xi |θ0 ) f (xi |θ0 − δ)
entonces h(θ0 − δ) − h(θ0 ) 1X = log n n
f (xi |θ0 − δ) f (xi |θ0 )
L.F.G.N.
−→
f (xi |θ0 − δ) E log c.s., f (xi |θ0 )
como − log es una funci´ on convexa, usando la desigualdad de Jensen y la inyectividad. f (xi |θ0 − δ) f (xi |θ0 − δ) E log < log E , f (xi |θ0 ) f (xi |θ0 ) por otro lado E
f (xi |θ0 − δ) f (xi |θ0 )
Z
+∞
= −∞
f (x|θ0 − δ) f (x|θ0 )dx = f (x|θ0 )
Z
+∞
f (x|θ0 )dx = 1. −∞
Luego el l´ımite anterior es negativo. Lo mismo para θ0 − δ. Definamos o n f (xi |θ0 ± δ) h(θ0 ± δ) − h(θ0 ) c.s. −→ E log h(θ0 ± δ) ∀n ≥ n0 , ∂ existe θˆn tal que h(θˆn ) = 0. Definamos ∂θ n o ∂ Bδ = ω ∈ Ω : ∃θˆn ∈ (θ0 − δ, θ0 + δ) y h(θˆn ) = 0 . ∂θ Como Aδ ⊂ Bδ tenemos que P (Bδ ), si tomamos δ = 1/n, ! ∞ \ P B1/n = 1. i=1 c.s. La sucesi´ on θˆn verifica θˆn −→ θ0 y es cero de
∂ ∂θ h.
Observaci´ on 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V. P
d
d
Lema 3.15. Lema de Slutsky: Si Xn −→ c y Yn −→ Y con c constante entonces Xn +Yn −→ c+Y d y Xn Yn −→ cY . d P Recordemos que Xn −→ c ⇔ Xn −→ c. Teorema 3.16. Normalidad asint´ otica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|θ), supongamos que existe δ > 0 tal que (θ0 −δ, θ0 +δ) ∈ (H), si se cumplen, para todo θ ∈ (θ0 −δ, θ0 +δ) 1) ∃{θn } variables aleatorias tal que
∂ c.s. h(θn ) = 0 ∀n y θn −→ θ0 ∂θ
18
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on 2) E
3) E
∂3 ˜ con E(M (X)) ˜ < ∞. h(θ|˜ x) ≤ M (X) ∂θ3 ! ∂ ∂θ f (x|θ) = 0. f (x|θ) ∂2 ∂θ 2 f (x|θ)
4) E
f (x|θ)
5) i(θ) := E
! = 0.
∂ ∂θ f (x|θ)
f (x|θ)
Entonces
!2 > 0, el n´ umero i se denomina n´ umero de informaci´on de Fischer.
√
n θn − θ0
−→ N 0, d
1 i(θ0 )
Demostraci´ on. La demostraci´ on ser´ a una consecuencia de dos afirmaciones: 1 ∂ h(θ0 ) → N (0, i(θ0 )) Afirmaci´ on 1: √ n ∂θ √ 1 ∂ P Afirmaci´ on 2: n(θn − θ0 ) − √ h(θ0 ) −→ 0. ni(θ0 ) ∂θ Veamos primero c´ omo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la tesis. En efecto, podemos escribir √ √ 1 ∂ 1 ∂ n(θn − θ0 ) = n(θn − θ0 ) − √ h(θ0 ) + √ h(θ0 ) ni(θ0 ) ∂θ ni(θ0 ) ∂θ Veamos la demostraci´ on de la Afirmaci´on 1: n
n
∂ ∂ f (xi |θ0 ) √ 1 X ∂θ f (xi |θ0 ) √ 1 X ∂θ 1 ∂ √ h(θ0 ) = √ = n = nZ n . n i=1 f (xi |θ0 ) n ∂θ n i=1 f (xi |θ0 )
E(Zi ) = 0 por la hip´ otesis 3) y V ar(Zi ) = E(Zi2 ) − E 2 (Zi ) = i(θ) > 0 por la hip´otesis 5). Luego, √ d si aplicamos el T.C.L. tenemos que nZ n −→ N (0, i(θ0 )). Lo que concluye la demostraci´on de la afirmaci´ on 1. Veamos la demostraci´ on de la Afirmaci´on 2: podemos escribir, usando el desarrollo de Taylor y la hip´ otesis 1, 0=
∂ ∂ ∂2 ∂3 (θn − θ0 )2 h(θn ) = h(θ0 ) + 2 h(θ0 )(θn − θ0 ) + 3 h(θˆn ) ∂θ ∂θ ∂θ ∂θ 2
donde θˆn ∈ [θ0 , θn ], despejando obtenemos θn − θ0 =
∂ − ∂θ h(θn ) ∂2 ∂3 ˆ (θn −θ0 ) 2 h(θ0 ) + 3 h(θn )
∂θ
y √
∂θ
2
√ ∂ − ∂θ h(θn ) n 1 1 ∂ ∂ h(θ0 ) = 2 −√ h(θ0 ) = n(θn − θ0 ) − √ 3 (θ −θ ) ∂ ∂ n 0 ˆ ni(θ0 ) ∂θ ni(θ0 ) ∂θ ∂θ 2 h(θ0 ) + ∂θ 3 h(θn ) 2 " # 1 ∂ −1 1 √ h(θ0 ) − 1 ∂2 1 ∂3 ˆ (θn −θ0 ) i(θ0 ) n ∂θ n ∂θ 2 h(θ0 ) + n ∂θ 3 h(θn ) 2
(3.1)
19
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on 1 ∂ d Nuevamente, como √ h(θ0 ) −→ N (0, i(θ0 )), por el lema de Slutsky, la afirmaci´on 2 queda n ∂θ demostrada si probamos que la expresi´ on entre [] tiende en probabilidad a 0 (o lo que es lo mismo, en distribuci´ on a 0). Sabemos que (θn − θ0 ) P 1 ∂3 h(θˆn ) −→ 0, n ∂θ3 2 P
P
donde hemos usado que si Xn −→ 0 y si E(Yn ) ≤ k ∀n entonces Xn Yn −→ 0. 2 2 ! ∂ ∂ n n ∂ f (x|θ ) f (x |θ ) − f (x |θ ) 2 X X 2 0 i 0 i 0 ∂θ ∂θ 1 1 ∂ 1 ∂ ∂θ f (xi |θ0 ) h(θ0 ) = = . 2 n ∂θ2 n i=1 ∂θ f (xi |θ0 ) n i=1 f (xi |θ0 ) Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la hip´ otesis 4: !2 ∂2 ∂ f (x |θ ) f (x |θ ) i 0 i 0 f (x|θ) ∂θ2 E = −i(θ0 ) − E ∂θ 2 f (x|θ) f (x|θ0 ) de donde se concluye que la expresi´ on entre [] en 3.1. converge en probabilidad a 0 como quer´ıamos demostrar. Observaci´ on 3.17. Sobre las hip´ otesis del teorema anterior 1) Es la t´esis del Teorema 3.13. ! Z +∞ ∂ Z +∞ ∂ ∂ ∂θ f (x|θ) ∂θ f (x|θ) = f (x|θ)dx = f (x|θ)dx, observemos que si pudiera3) E f (x|θ) f (x|θ) ∂θ −∞ −∞ Z +∞ ∂ ∂ mos aplicar convergencia dominada f (x|θ)dx = 1 = 0. ∂θ −∞ ∂θ 4) An´ alogo a 3). 5) Por 3), 5) es pedir que
3.4.
∂ ∂θ f (x|θ)
f (x|θ)
no sea constante.
m´ etodo de estimaci´ on por cuantiles
Definici´ on 3.18. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es xp = ´ınf x ∈ R : FX (x) ≥ p Observaci´ on 3.19. xp existe, y es m´ınimo Demostraci´ on. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es tal que F (xn ) ≥ p y xn → p, como F es continua por derecha l´ım F (xn ) = F (l´ım xn ) = F (xp ) ≥ p. n
n
Definici´ on 3.20. Percentil emp´ırico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra ordenada X1∗ = X1:n ≤ · · · ≤ Xn∗ = Xn:n , entonces ∗ Xnp si np ∈ N Xˆp = ∗ X[np]+1 si np ∈ /N 20
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Pk El m´etodo consiste en plantear la funci´on g(θ) = i=1 (Xˆpi − xpi )2 donde los pi y k son cualesquiera. Lo que se busca es el m´ınimo de g(θ). El argumento que minimiza g(θ) sera θˆ y depender´a de los cuantiles emp´ıricos Xˆpi . Ejemplo 3.21. Si X v (µ, σ 2 ), entonces fX (x|µ, σ 2 ) =
1
πσ 1 +
x−µ 2 σ
.
Es f´ acil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ 2 ) por el m´etodo ˆ 0,25 , Q2 = X ˆ 0,5 y Q3 = X ˆ 0,75 , estimadores de los cuartiles. de cuantiles. Tomamos k = 4, Q1 = X Entonces, la funci´ on a minimizar es g(µ, σ 2 ) = (Q1 − x0,25 )2 + (Q2 − x0,5 )2 + (Q3 − x0,75 )2 Calculemos los cuartiles x0,25 , x0,5 y x0,75 en funci´on de µ y σ. 1 1 x−µ 2 FX (x|µ, σ ) = + arctan 2 π σ x−µ π Si hacemos FX (x|µ, σ 2 ) = 0,25 entonces arctan = − de donde x = µ − σ. An´alogamente σ 4 x0,5 = µ y x0,75 = µ + σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad de fX ). Luego, la funci´ on a minimizar resulta entonces g(µ, σ 2 ) = (Q1 − µ + σ)2 + (Q2 − µ)2 + (Q3 − µ − σ)2 Derivando esta funci´ on respecto de µ y de σ, el gradiente resultante se anula en µ ˆ=
3.5.
Q1 + Q2 + Q3 3
σ ˆ=
Q3 − Q1 2
Estimaci´ on de la funci´ on de Distribuci´ on
Definici´ on 3.22. Distribuci´ on Emp´ırica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es desconocida, la distribuci´ on emp´ırica se define como n
Fn∗ (x) =
1X I(−∞,x] (Xi ) n i=1
Observemos que en cada x nos da la proporci´on de observaciones menores o iguales que x, y que, para x y n fijos, Fn∗ (x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de Fn∗ son n , y de tama˜ no 1/n. c.s.
Proposici´ on 3.23. Fn∗ (x) −→ F (x) ∀x ∈ R. Demostraci´ on. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) con p = FX (x). Teorema 3.24. Teorema fundamental de la Estad´ıstica, Glivenko-Cantelli, 1937: Sea X1 , . . . , Xn una M.A.S. de X v FX entonces c.s. kFn∗ − FX k∞ = sup Fn∗ (x) − FX (x) −→ 0 x∈R
. Demostraci´ on. Para la demostraci´ on vamos a necesitar el siguiente lema: ∗ Lema 3.25. Yn = supx∈R Fn (x) − FX (X) es una v.a., es decir, es medible.
21
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Demostraci´ on. Basta demostrar que {Yn ≤ δ} ∈ A f orallδ. {Yn ≤ δ} = |Fn∗ (x) − FX (x)| ≤ δ ∀x ∈ R = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ ∀x ∈ R \ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ x∈R
Basta demostrar que \ \ F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ x∈R
x∈Q
Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que 1) Fn∗ (y) − Fn∗ (x) ≤ ε pues Fn∗ es continua por derecha. 2) F (y) − F (x) ≤ ε pues F es continua por derecha. 3) F (y) − δ ≤ Fn∗ (y) ≤ F (y) + δ. Podemos escribir entonces x≤y
3
x≤y
1
3
2
F (x) − δ − ε ≤ F (y) − δ − ε ≤ Fn∗ (y) − ε ≤ Fn∗ (x) ≤ Fn∗ (y) ≤ F (y) + δ ≤ F (x) + ε + δ y por lo tanto F (x) − δ − ε ≤ Fn∗ (x) ≤ F (x) + ε + δ ∀ε > 0 entonces F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ. lo cual concluye la demostraci´ on del lema. Veamos la demostraci´ on del teorema, para el caso continuo, dado x ∈ R sea Ax = {ω ∈ Ω : F (x)}. Por la proposici´ on anterior sabemos que P (Ax ) = 1 para todo x. Luego l´ımn Fn∗ (x) = T P x∈Q Ax = 1. T Sea A := x∈Q Ax , basta ver que A ⊂ {ω ∈ Ω : l´ımn supx∈R |Fn∗ (x) − FX (x)|0}. Sea ε > 0. Como l´ımx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε. Como l´ımx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1 − F (x) < ε. Como F es uniformemente continua en [k1 , k2 ] existe k1 ≤ x2 < . . . < xm ≤ k2 ∈ Q tal que F (xk+1 ) − F (xk ) < ε para todo k = 2, . . . , m − 1. Luego si tomamos −∞ = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < +∞ = xm+2 se verifica que F (xk+1 ) − F (xk ) < ε para todo k = 0, . . . , m + 1. Si x ∈ R existe k ∈ {0, . . . , m + 2} tal que xk ≤ x ≤ xk+1 entonces 1
2
Fn∗ (x) ≤ Fn∗ (xk+1 ) ≤ F (xk+1 ) + ε F (x) + ε + ε = F (x) + 2ε, donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0 , que no depende de x. La desigualdad 2 se sigue de que F (xk+1 ) ≤ F (xk ) + ε ≤ F (x) + ε. Razonando de forma an´ aloga llegamos a que, para n > n1 , para todo x tenemos que F (x) − 2ε ≤ Fn∗ (x) ≤ F (x) + 2ε de donde l´ım sup |Fn∗ − F | = 0.
n→+∞
22
Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on
3.6.
Convergencia casi segura de Percentiles
Teorema 3.26. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil emp´ırico c.s. Xˆp,n x p . Demostraci´ on. Observemos que Fn∗ (Xˆp,n )
=
1 n np = p 1 n ([np] +
1) → p
si np ∈ N . si np ∈ /N
n n dado ε > 0 sabemos que Fn∗ (xp + ε) −→ F (xp + ε) > p c.s. y Fn∗ (Xˆp.n ) −→ p por lo tanto ∀n ≥ n0 se c.s. n cumple que Fn∗ (Xˆp,n ) < Fn∗ (xp + ε), de donde Xˆp,n < xp + ε. Adem´as Fn∗ (xp − ε) F (xp − ε) < p c.s ˆ p,n −→ y, razonando de forma an´ aloga xp − ε < xp . Por lo tanto X xp .
23
Cap´ıtulo 4
Evaluaci´ on de Estimadores Definici´ on 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) y T = Tn (X1 , . . . , Xn ) estimador de g(θ) con g a valores reales, conocida. Decimos que Tn es insesgado si E(Tn ) = g(θ) ∀θ ∈ (H) n
Tn es asint´ oticamente insesgado si E(Tn ) −→ g(θ) Definici´ on 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )−g(θ) 2 Definici´ on 4.3. Error cuadr´ atico medio: Se define E.C.M (Tn ) = E Tn − g(θ) Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar estimadores con E.C.M. m´ınimo. Definici´ on 4.4. Estimador de m´ınima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2 , decimos que es insesgado en θ0 ∈ (H), de varianza m´ınima si i) Tn es insesgado en θ0 ii) Si Tn0 ∈ L2 es insesgado en θ0 V arθ0 (Tn ) ≤ V arθ0 (Tn0 ). R Observaci´ on 4.5. Eθ Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|θ) Observaci´ on 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de m´ınima varianza. Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo si Eθ0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que Eθ (f ) = 0. Demostraci´ on. Para demostrar el teorema ser´a necesario el siguiente lema Lema 4.8. Tn es insesgado de m´ınima varianza en θ0 si y solo si Tn es insesgado y V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) para todo λ ∈ R , para todo f tal que Eθ0 (f ) = 0. Demostraci´ on. Veamos el directo, sea λ y f tal que Eθ0 (f ) = 0, Tn0 = Tn + λf es insesgado pues E(Tn + λf ) = E(Tn ) + λE(f ) = E(Tn ) = g(θ). Como Tn es de m´ınima varianza V arθ0 (Tn ) ≤ V arθ0 (Tn0 ). Para demostrar el rec´ıproco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 − Tn ), tomemos f = Tn0 − Tn y λ = 1 entonces E(f ) = 0, luego, por hip´otesis V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) = V arθ0 (Tn0 ).
24
Cap´ıtulo 4. Evaluaci´on de Estimadores Veamos ahora la demostraci´ on del teorema. Por el lema basta ver que V arθ (Tn ) ≤ V arθ0 (Tn +λf ) si y solo si Eθ0 (f Tn ) = 0. V arθ0 (Tn + λf ) = V ar(Tn ) + λ2 V (f ) + 2λcov(Tn , f ) ≥ V arθ0 (Tn ) ∀λ ∈ R ⇔λ2 V arθ0 (f ) + 2λcov(Tn , f ) ≥ 0 ∀λ ∈ R ⇔p(λ) = λ2 V arθ0 2λcov(Tn , f ) ≥ 0 ⇔ cov(Tn , f ) = 0, de lo contrario p tendr´ a 2 raices. cov(Tn , f ) = E(Tn f ) − E(Tn )E(f ) = 0 ⇔ E(Tn f ) = 0.
Definici´ on 4.9. Estimador insesgado de m´ınima varianza uniformemente: Tn es estimador I.M.V.U. si es insesgado de varianza m´ınima ∀θ ∈ (H). Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn , veamos c.s. que es de m´ınima varianza. Sabemos que Xn −→ E(X) = 1/λ = θ. Si f es tal que E(f ) = 0 para todo θ. Z X E(f ) = f (x1 , . . . , xn )λn exp{−λ xi }dx1 . . . dxn = 0 [0,+∞)n
entonces
Z f (x1 , . . . , xn ) exp{−λ
X
xi }dx1 . . . dxn = 0 ∀λ ∈ R.
[0,+∞)n
Veamos que E(f Xn ) = 0. Z E(f Xn ) =
f (x1 , . . . , xn ) [0,+∞)n
Z ⇔
n X 1 X xi exp{−λ xi }dx1 . . . dxn = 0 n i=1 X ∂ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0 ∂λ X f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0
f (x1 , . . . , xn ) [0,+∞)n
Z ⇔ [0,+∞)n
⇔
n X 1 X n xi λ exp{−λ xi }dx1 . . . dxn = 0 n i=1
∂ ∂λ
Z
[0,+∞)n
Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos que es de m´ınima varianza, sea f tal que E(f ) = 0 X
E(f ) =
(x1 ,...,xn
=
(x1 ,...,xn
)∈{0,1}n
n X
X
n Y i=1 P
)∈{0,1}n
X
=
f (x1 , . . . , xn )
f (x1 , . . . , xn )p
P
f (x1 , . . . , xn )p
p(xi |p) P
xi
P
xi
xi
(1 − p)n−
xi
(1 − p)n−
k=0 x1 +···+xn =k
=
n X k=0
"
# X
f (x1 , . . . , xn ) pk (1 − p)n−k = 0
x1 +···+xn =k
25
Cap´ıtulo 4. Evaluaci´on de Estimadores Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus coeficientes son nulos. Luego si calculamos ! n X X k k f (x1 , . . . , xn ) p (1 − p)n−k = 0 E(f Xn ) = n k=0
x1 +···+xn =k
Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|θ). Si Tn es un estimador insesgado de g(θ). Asumiremos que estamos en las hip´otesis de derivaci´on dentro de la integral, es decir que ! Z n Y ∂ ∂ Tn E(Tn ) = fX (xi |θ) dx1 . . . dxn ∂θ Rn ∂θ i=1 y ∂ ∂θ
Z
n Y
Z fX (xi |θ)dxi =
Rn i=1
Rn
entonces
n ∂ Y fX (xi |θ)dxi , ∂θ i=1
g 0 (θ)
V ar(Tn ) ≥ nE
∂ ∂θ f (x|θ)
2 .
f (x|θ)
Adem´ as, el igual se da si y solo si existe λ = λ(n, θ) tal que c.s.
Tn (X1 , . . . , Xn ) − g(θ) = λ
n X
∂ ∂θ f (xi |θ)
i=1
f (xi |θ)
.
Demostraci´ on. Z n Y ∂ ∂ g (θ) = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|θ)dx1 . . . dxn ∂θ ∂θ Rn i=1 # " Z n Y ∂ fX (xi |θ) dx1 . . . dx n Tn (x1 , . . . , xn ) = Rn ∂θ i=1 Z n ∂ Y = Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ)dx1 . . . dxn ∂θ i=1 Rn r Qn Z ∂ Yn fX (xi |θ) ∂θ Tn (x1 , . . . , xn ) − g(θ) = fX (xi |θ) pQni=1 dx1 . . . dxn i=1 Rn i=1 fX (xi |θ) 0
26
Cap´ıtulo 4. Evaluaci´on de Estimadores entonces, si aplicamos la desigualdad de Cauchy-Schwartz g 0 (θ)
Z
2
≤
Tn − g(θ)
n 2 Y
Rn
Z fX (xi |θ)
i=1
Rn
2 Qn ∂ ∂θQ i=1 fX (xi |θ) n i=1 fX (xi |θ)
2 Qn Z ∂ ∂θQ i=1 fX (xi |θ) =V (Tn ) n Rn i=1 fX (xi |θ) 2 !2 Q n ∂ f (x |θ) X i ∂θQ i=1 =V (Tn )E n i=1 fX (xi |θ) !2 n Y ∂ =V (Tn )E log fX (xi |θ) ∂θ i=1 2 ∂ log(fX (xi |θ)) =V (Tn )E ∂θ !2 X ∂ f (xi |θ) ∂θ =V (Tn )E . f (xi |θ) Definamos g(Xi ) = E
X
∂ ∂θ f (xi |θ)
f (xi |θ)
.
X X X 2 g(Xi ) = E g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2 E g(Xi )g(Xj ) . i6=j
i6=j
Basta ver que E g(X )g(X ) = 0 para todo i = 6 j. Como son independientes E g(X )g(X ) = i j i j E g(Xi ) E g(Xj ) . Z
∂ ∂θ f (xi |θ)
f (xi |θ)dx f (xi |θ) Z ∂ f (xi |θ)dx = 0. = R ∂θ
E(g(Xi )) =
R
Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz, por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1 , . . . , xn tal que Q qY ∂ fX (xi |θ) ∂θ (Tn − g(θ)) fX (xi |θ) = λ pQ fX (xi |θ) y esto sucede si y solo si ∂ ∂θQ
Y X ∂ fX (xi |θ) ∂ log fX (xi |θ) = λ log fX (xi |θ) =λ fX (xi |θ) ∂θ ∂θ
X
∂ ∂θ fX (xi |θ)
Q
Tn − g(θ) =λ =λ
fX (xi |θ)
Definici´ on 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple el igual en la desigualdad de Cramer-Rao se dice que es eficiente Observaci´ on 4.14. Si θˆ es un estimador de θ, θˆ es eficiente si y solo si i) θˆ es insesgado 27
Cap´ıtulo 4. Evaluaci´on de Estimadores 1
ˆ = ii) V ar(θ) nE
∂ ∂θ f (x|θ)
2
f (x|θ)
Observaci´ on 4.15. Observemos que si θˆ es eficiente, es de m´ınima varianza (entre el conjunto de estimadores que estan el las hip´ otesis del Teorema de Cramer-Rao). Podria no existir un estimador eficiente, adem´ as, existen estimadores de m´ınima varianza que no cumplen la igualdad. Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y adem´as !2 ! 2 ∂ −1 1 1 1 ∂p p(x|p) nE p+ (1 − p) = n =n = , 2 p(x|p) p 1−p p(1 − p) V ar(X) por lo tanto pˆ = Xn es eficiente. Como Xˆn es eficiente es de m´ınima varianza varianza ya que X es de recorrido finito. Definici´ on 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|θ) y T (X1 , . . . , Xn ) estimador, decimos que T es suficiente para θ si y solo si FX1 ,...,Xn |T no depende de θ. Pn Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador suficiente para estimar p. Demostraci´ on. pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = ( P 0 si t 6= xi P P (X1 =x1 )...P (Xn =xn ) si t = xi P (T =t) P
P (X1 , . . . , Xn , T = t) = P (T = t)
P
(1 − p)n− xi = n Ct pt (1 − p)n−t 1 = n. Ct p
xi
Que no depende de p, hemos usado que T v Bin(n, p). Teorema 4.19. T es suficiente para θ si y solo si L(˜ x|θ) =
Qn
i=1
f (xi |θ) = g T (˜ x), θ h(˜ x)
Demostraci´ on. (Caso discreto:) L(˜ x|θ) =
n Y i=1
pX (xi |θ) =
n Y
P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ) =
i=1
Pθ (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(˜ x)g(T (˜ x, θ)) Veamos el rec´ıproco, supongamos que P (T = t) > 0. P (X1 = x1 , . . . , Xn = xn , T = t) P (T = t) ( 0 si t 6= T (˜ x) = P (X1 =x1 ,...,Xn =xn ) si t = T (˜ x) P (T =t)
P (X1 = x1 , . . . , Xn = xn |T = t) =
Para el caso en que t = T (˜ x) P (X1 = x1 , . . . , Xn = xn ) g(T (˜ x))h(˜ x) =P . y ), θ)h(˜ y) y˜:T (˜ y )=t P (X1 = y1 , . . . , Xn = yn ) y˜:T (˜ y )=t g(T (˜
P (X1 = x1 , . . . , Xn = xn |T = t) = P
28
Cap´ıtulo 4. Evaluaci´on de Estimadores Observemos que, dado que estamos en el caso T (˜ x) = t y g(T (˜ x), θ) = g(t, θ) = g(T (˜ y ), θ). Por lo tanto h(˜ x) P (X1 = x1 , . . . , Xn = xn |T = t) = P . y) y˜:T (˜ y )=t h(˜ Que no depende de θ. Ejemplo Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ). Estimamos µ y σ 2 , consideremos T (˜ x) = P P 4.20. 2 ( xi , xi ) = (T1 , T2 ). n Y 1 1 √ L(˜ x|(µ, σ)) = exp − 2 (xi − µ)2 σ 2πσ i=1 ( ) n 1 1 X 2 = exp − 2 (xi − µ) 2σ i=1 (2π)n/2 σ n ( n ) n X X 2 −n 2 2 = (2πσ ) 2 exp xi − 2µ xi + nµ i=1 −n 2
= (2π)
i=1
1 σ −n exp − 2 T2 − 2µT1 + nµ2 . 2σ
Por lo tanto si definimos n 1 x), (µ, σ 2 ) = σ −n exp − 2 T2 − 2µT1 + nµ2 . h(˜ x) = (2π)− 2 y g T (˜ 2σ De donde T es suficiente. Observaci´ on 4.21. Siempre existe un estimador suficiente, basta tomar T (˜ x) = x ˜ y h constante. Esto significa que tener toda la muestra es suficiente. Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b). Q 1 si a < xi < b b−a L x ˜|(a, b) = 0 si no (b − a)n si a < xi < b = 0 si no (b − a)n si a < x1:i ; xn:n < b = 0 si no (b − a)n si a < T1 ; T2 < b = 0 si no
Luego T (˜ x) = (T1 , T2 ) es suficiente. Observaci´ on 4.23. Si T es fuciente, el E.M.V. es funci´ on de un estimador suficiente, ya que en este caso L(˜ x|θ) = g(T (˜ x), θ)h(˜ x), y, al maximizar en θ como h no var´ıa, podemos maximizar solamente en g(T (˜ x), θ) Definici´ on 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para todo T 0 estimador suficiente, T es funci´ on de T 0 . Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ), si T es un estimador que cumple: L(˜ x|θ) no depende de θ ⇔ T (˜ x) = T (˜ y) L(˜ y |θ) entonces T es suficiente minimal. 29
Cap´ıtulo 4. Evaluaci´on de Estimadores Demostraci´ on. Veamos primero que T es suficiente, podemos escribir, tomando y˜ tal que T (˜ y) = T (˜ x) L(˜ x|θ) L(˜ y |θ) = h(˜ x)L(˜ y |θ) = h(˜ x)g T (˜ x), θ) . L(˜ x|θ) = L(˜ y |θ) Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funci´on de verosimilitud. Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(˜ x|θ) = g 0 T 0 (˜ x), θ h0 (˜ x). Sea x ˜ y y˜, T 0 (˜ x) = T 0 (˜ y ) entonces g 0 (T 0 (˜ x), θ)h0 (˜ x) h0 (˜ x) L(˜ x|θ) = 0 0 = , L(˜ y |θ) g (T (˜ y ), θ)h0 (˜ y) h0 (˜ y) que no depende de θ, entonces, usando el directo de nuestra hip´otesis tenemos que T (˜ x) = T (˜ y ). Hemos demostrado que cada ves que T 0 (˜ x) = T 0 (˜ y ) entonces T (˜ x) = T (˜ y ). Veamos que esto implica que T = f (T 0 ). Definimos para z ∈ / Im(T 0 ) f (z) cualquier cosa, y para z ∈ Im(T 0 ) entonces 0 z = T (x) y f (z) := T (x). Definici´ on 4.26. Estad´ıstico Completo: T se dice completo si toda vez que tenga una funci´on g tal que Eθ g(T ) = 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s. Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, θ) veamos que θˆ = xn:n es completo. Z
+∞
E(g(T )) =
Z g(t)fT (t)dt =
−∞
0
θ
n tn−1 1 g(t)n n−1 dt = n θ θ θ
Z
θ
tn−1 g(t)dt,
0
Rθ luego E(g(T )) = 0 si y solo si 0 tn−1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es derivable c.s., θn−1 g(θ) = 0 entonces g(θ) = 0 para todo θ. Definici´ on 4.28. funci´ on de P´ erdida: Sea (H) y L : (H) × (H) −→ R que verifica i) L(u, v) = L(v, u) para todo u, v ∈ (H). ii) L(u, v) = 0 si y solo si u = v. iii) L es convexa, es decir, para todo p, q ∈ (H) × (H) L(λp + (1 − λ)q) ≤ λL(p) + (1 − λ)L(q). se denomina funci´ on de p´erdida. Observaci´ on 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo Definici´ on 4.30. funci´ on de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) y θ ∈ (H) desconocida, dado T (X1 , . . . , Xn ) estimador de θ y L una funci´on de perdida, definimos la funci´on de riesgo R(θ, T ) = E L(θ, T ) . Definici´ on 4.31. Estimador de riesgo m´ınimo, uniformemente entre los insesgados: T es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que R(θ, T ) ≤ R(θ, T 0 ) ∀ θ ∈ (H). Teorema 4.32. entonces
Rao-Blackwell: Si σ(X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente, η(X1 , . . . , Xn ) = E σ(X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,
entonces R(θ, η) ≤ R(θ, σ). 30
Cap´ıtulo 4. Evaluaci´on de Estimadores Demostraci´ on. R(θ, η) = E L(θ, η) = E L(θ, E(σ|T )) = E L(E(θ, σ|T )) ≤ E E(L(θ, σ)|T ) = E L(θ, σ) . Donde hemos usado la desigualdad de Jensen. Observaci´ on 4.33. En la demostraci´ on anterior, la hip´ otesis de que T es suficiente es necesaria para que η sea un estimador de θ. Observaci´ on 4.34. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ. Lema 4.35. Sea T suficiente, y ψ T (X on de 1 , . . . , Xn ) tal que si f T (X1 , . . . , Xn ) es una funci´ T insesgada entonces ψ T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces ψ(T ) es uniformemente de m´ınimo riesgo entre los insesgados. Demostraci´ on. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), sea η = E(σ|T ) es una funci´ on de T y es insesgado entonces por hip´otesis f (T ) = ψ(T ) c.s.. Entonces η = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ es uniformemente de m´ınimo riesgo. Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) ψ(T (X1 , . . . , Xn )) son insesgados entonces entonces f (T (X1 , . . . , Xn )) = ψ(T (X1 , . . . , Xn )) c.s. Demostraci´ on. E(f (T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) = f (T ) − ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s.. Teorema 4.37. 1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniformemente entre los insesgados. 2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre los insesgados. Demostraci´ on. 1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f (T ) es insesgado, por el Lema 4.36 f (T ) = ψ(T ) c.s., entonces, por el Lema 4.35 ψ(T ) minimiza el riesgo uniformemente entre los insesgados. 2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior. Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces pˆ = Xn es uniformemente de m´ınimo riesgo entre los insesgados. Como ya vimos pˆ es insesgado y suficiente como ya vimos, veamos que es completo. X 0 = E(g(ˆ p)) = g(x)P (X1 = x1 , . . . , Xn = xn ) x1 ,...,xn ∈{0,1}
=
=
n X
X
g
k=0 x1 +···+xn =k n X k k
g
k=0
n
= (1 − p)n
k pk (1 − p)n−k n
p (1 − p)n−k Ank = 0 ∀p
X k p k k! g . n 1−p (n − k)! 31
Cap´ıtulo 4. Evaluaci´on de Estimadores Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitas raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.
32
Cap´ıtulo 5
Estimacin por intervalos de confianza Definici´ on 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ desconocido, θ ∈ R. Un intervalo de confianza al nivel 1 − α con α ∈ (0, 1) es I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) , donde L y U son estimadores y P (θ ∈ I) = 1 − α. Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (µ, σ 2 ) con σ 2 conocido, tomamos θ = µ. Buscamos un intervalo de la forma X n − k, X n + k . Debemos hallar k tal que P (µ ∈ I) = 1 − α, entonces 1 − α =P (X n − k ≤ µ ≤ X n + k) =P (µ − k ≤ X n ≤ µ + k) µ−k−µ µ+k−µ √ √ =Φ −Φ σ/ n σ/ n √ √ − nk nk =Φ −Φ σ σ √ nk =2Φ − 1, σ
donde en la tercer igualdad hemos usado que X v N (µ, σ 2 /µ) y en la ltima la paridad de Φ. Por lo tanto obtuvimos que √ √ nk nk 1 − α/2 = Φ entonces = φ−1 (1 − α/2), σ σ y por lo tanto tomamos
σ k = √ Φ−1 (1 − α/2). n
Notacin: Anotaremos Zp = Φ−1 (p), con esta notacin el intervalo de confianza del ejemplo anterior es σ σ X n − √ Z1−α/2 , X n + √ Z1−α/2 . n n 33
Cap´ıtulo 5.
Estimacin por intervalos de confianza
Ejemplo 5.3. Se X v N (µ, σ 2 ) con σ 2 desconocido, y θ = µ, buscamos un intervalo de la forma X n − kSn , X n + kSn . √ n|X n − µ| √ P (µ ∈ I) = P |X n − µ| ≤ kSn = P ≤ nk . Sn Recordemos que √ n(X n − µ) v Tn−1 , Sn entonces √ √ P (µ ∈ I) =P − nk ≤ T ≤ nk √ √ =FT ( nk) − FT (− nk) √ =2FT ( nk) − 1 = 1 − α, donde hemos usado la simetra de F . Despejando obtenemos k=
t1−α/2 (n − 1) FT−1 (1 − α/2) √ √ = , n n
donde usamos la notacin FT−1 (p) = tp (n − 1) donde n − 1 son los grados de libertad. Por lo tanto el intervalo de confianza para µ al nivel 1 − α es Sn Sn I = X n − √ t1−α/2 (n − 1), X n + √ t1−α/2 (n − 1) . n n c.s.
Obervemos que como Sn −→ σ entonces √ n(X n − µ) d Tn = −→ N (0, 1), Sn
tp (n − 1) → Zp .
Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ 2 , si n es grande, en vista de las observaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1 − α es Sn Sn X n − √ Z1−α/2 , X n + √ Z1−α/2 . n n Ejemplo 5.5. Si X v N (µ, σ 2 ) con µ desconocido, tomamos θ = σ 2 , busquemos a y b tal que P aSn2 ≤ σ 2 ≤ bSn2 = 1 − α, Recordemos que (n − 1)
Sn2 v χ2n−1 , σ2
entonces P (σ 2 /b ≤ Sn2 ≤ σ 2 /a) = P
(n − 1)Sn2 n−1 (n − 1) ≤ ≤ 2 b σ a
=F
n−1 a
−F
n−1 b
,
Basta elegir a tal que F ((n − 1)/a) = 1α/2 y b tal que F ((n − 1)/b) = α/2, de donde a=
n−1 χ21−α/2 (n
− 1)
b=
n−1 , − 1)
χ2α/2 (n
2 2 donde hemos usado la notacin Fχ−1 con (n − 1) grados de 2 (p) = χp (n − 1), para la distribucin χ libertad. Luego el intervalo es " # n−1 n − 1 S2 , . I= χ21−α/2 (n − 1) n χ2α/2 (n − 1)
34
Cap´ıtulo 5.
Estimacin por intervalos de confianza
Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos θ = p, si aproximamos usando el T.C.L. es facil ver, como σ 2 = p(1 − p) y Sn = X n (1 − Xn ), nos queda el intervalo q q Xn (1 − Xn ) Xn (1 − Xn ) √ √ I = Xn − Z1−α/2 , Xn + Z1−α/2 n n
Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuando σ 2 = f (µ). Consideremos X1 , . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C 1 . Si g 0 (µ) 6= 0, veamos √ d que n(g(Xn − g(µ)) −→ N (0, (σg 0 (µ))2 ) : √ √ √ n(g(Xn − g(µ)) = ng 0 (Cn )(Xn − µ) = g 0 (Cn ) n(Xn − µ), c.s.
con Cn ∈ [Xn , µ] o Cn ∈ [µ, Xn ], sabemos que g 0 (Cn ) −→ g 0 (µ) y tanto usando el lema de Slutsky
√
d
n(Xn − µ) −→ N (0, σ 2 ), por lo
35
Cap´ıtulo 6
Pruebas de hip´ otesis Supongamos que queremos saber si una moneda est´a balanceada o no. Se tira 100 veces y obtenemos 54 caras, debemos tomar una decisi´on entre H0 : p = 1/2
donde p = P (cara)
H1 : p 6= 1/2. Definici´ on 6.1. Test de hip´ otesis: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) con θ desconocido, un test de hip´ otesis es decidir entre 2 hip´ otesis; H0 : θ ∈ A
hip´otesis nula
H1 : θ ∈ B
hip´otesis alternativa
donde suponemos que A, B ⊂ (H) y A ∩ B = ∅. Definici´ on 6.2. Regi´ on Cr´ıtica: La regi´on critica, que anotaremos como RC ⊂ Rn con n el tama˜ no de la muestra, es la zona de rechazo de H0 . Definici´ on 6.3. Regla de decisi´ on: Si (x1 , . . . , xn ) ∈ RC entonces rechazo H0 , en caso contrario si (x1 , . . . , xn ) ∈ / RC no rechazo H0 (acepto H0 ). Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar RC = (x1 , . . . , xn ) ∈ {0, 1}n ⊂ Rn : |Xn − 1/2| ≥ k Definici´ on 6.5. Errores de tipo 1 y 2: * error tipo 1: rechazar H0 siendo cierta * error tipo 2: aceptar H0 siendo falsa, H1 es cierta. Definici´ on 6.6. Significaci´ on de una prueba: α = sup Pθ (X1 , . . . , Xn ) ∈ RC = P ( error tipo 1 ). θ∈A
Definici´ on 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B β(θ) = PH1 (X1 , . . . , Xn ) ∈ / RC = P ( error tipo 2 ). Definici´ on 6.8. Potencia de la prueba: se define como π(θ) = P (X1 , . . . , Xn ) ∈ RC 36
∀θ
Cap´ıtulo 6. Pruebas de hip´otesis Observaci´ on 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particualr si A es θ0 π(θ0 ) = α. Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ 2 = 1/4. α = P1/2 (X1 , . . . , Xn ) ∈ [1/2 − k, 1/2 + k]c = P1/2 Xn ∈ [1/2 − k, 1/2 + k]c = P 20(Xn − 1/2) ∈ [−20k, 20k]c = 1 − Φ(20k) + Φ(−20k) = 2 − 2Φ(20k) √
donde hemos usado la aproximaci´ on de 100 σ (Xn − 1/2) por una N (0, 1). Obtenemos entonces 20k = Z0,975 de donde k = 0,098. Tenemos entonces la regi´on cr´ıtica RC = (x1 , . . . , xn ) ∈ Rn : |xn − 1/2| ≥ 0,098 . Como |0, 54 − 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %. Observaci´ on 6.11. La decisi´ on depende fuertemente del nivel al que trabajo. Concretamente si elegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 . Calculemos β(p) con p ∈ H1 = {1/2}c con β(p) = Pp (RC c ) = Pp (|Xn − 1/2| < 0,098) = P (0,402 < Xn < 0,598) 0,402 − p 0,598 − p ∼ − Φ √ = Φ √ p(1−p) 100
p(1−p) 100
Donde hemos usado que Xn v N p, p(1−p) . 100 Observaci´ on 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el error de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave. Observaci´ on 6.13. En general, uno define la regi´ on cr´ıtica a partir de un estimador insesgado RC = {|θˆ − θ0 | ≥ k}. Observaci´ on 6.14. Al permitir variar el tama˜ no de la muestra uno puede fijar los errores α y β y hallar un n que verifique las igualdades. Observaci´ on 6.15. Como el error de tipo 1 es m´ as grave, al rechazar H0 uno debe estar seguro (tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia emp´ırica para decir que H0 es falso. No es que se acepte H0 .
6.1.
´ Regi´ on Cr´ıtica Optima, Teorema de Neyman-Pearson
Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) absolutamente continua, y el test
( Sea Sk =
n Y f (xi , θ1 ) i=1
f (xi |θ0 )
H0 :
θ = θ0
H1 :
θ = θ1
) ≥ k , si k es tal que PH0 (Sk ) = PH0 (X1 , . . . , Xn ) ∈ Sk = α,
entonces Sk es entre todas las RC de nivel α la que tiene menor β (m´axima potencia). 37
Cap´ıtulo 6. Pruebas de hip´otesis Demostraci´ on. Sea β = Pθ1 (Skc ) y β0 = Pθ1 (S0c ) donde S0 es otra RC de nivel α, entonces β − β0 = Pθ1 (Skc ) − Pθ1 (S0c ) Z Y Z n = f (xi |θ1 )dx1 . . . dxn − Skc i=1
Z =
n Y
n Y
"Z
f (xi |θ1 )dx1 . . . dxn −
=
Z f (xi |θ0 )dx1 . . . dxn −
Skc \S0c i=1 "Z n Y
n Y
# f (xi |θ0 )dx1 . . . dxn
S0c ∩Sk i=1 n Y
Z
f (xi |θ0 )dx1 . . . dxn −
Skc i=1 k Pθ0 (Skc )
f (xi |θ1 )dx1 . . . dxn
S0c ∩Sk i=1
n Y
≤k
n Y
Z
Skc \S0c i=1
=k
f (xi |θ1 )dx1 . . . dxn
S0c i=1
#
f (xi |θ0 )dx1 . . . dxn
S0c i=1
− Pθ0 (S0c ) = k[1 − α − (1 − α)] = 0.
Luego β ≤ β0 , como β0 es arbitrario β es m´ınimo. Ejemplo 6.17. Hallar la forma de la RC ´optima para el caso X v N (µ, 1) y el problema
n Y f (xi |µ1 ) i=1
f (xi |µ0 )
=
n Y
1
2
e− 2 (xi −µ1 )
+ 12 (xi −µ0 )2
H0 :
µ = µ0
H1 :
µ = µ1
1
= e− 2
Pn
2 2 i=1 (xi −µ) +(xi −µ0 )
1
= e− 2 (2µ0 −2µ1 )
Pn
i=1
xi +n(µ21 −µ20 )
i=1
n Y f (xi |µ0 )
f (xi |µ1 ) i=1
≥ kˆ ⇔ (µ1 − µ0 )
n X
xi + n(µ21 − µ20 ) ≥ kˆ
i=1
⇔ n(µ1 − µ0 )xn + n(µ21 − µ20 ) ≥ kˆ kˆ ˜ ⇔ (µ1 − µ0 )xn ≥ − (µ21 − µ20 ) = k. n n Por lo tanto la regi´ on cr´ıtica es: Si µ0 > µ1 RC = (x1 , . . . , xn ) ∈ Rn : xn ≤ n o ˜ k y si µ1 > µ0 la regi´ on cr´ıtica es RC = (x1 , . . . , xn ) ∈ Rn : xn ≥ µ0 −µ 1
˜ k µ0 −µ1
o
Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y el problema H0 :
µ = µ0
H1 :
µ = µ1
con µ0 < µ1 . Vamos a hallar la RC ´ optima. Como es ´optima, del ejemplo anterior sabemos que tiene la forma {xn ≥ k}, vamos a hallar k tal que P (RC) = α. PH0 (Xn ≥ k) = 1 − PH0 (Xn ≤ k) = 1 − PH0
√ Xn − µ0 √ ≤ n(k − µ0 ) 1/ n
= 1−Φ
Luego si despejamos obtenemos
√
n(k − µ0 ) = Z1−α entonces k = µ0 +
√
n(k − µ0 ) = α.
Z1−α √ . n
38
Cap´ıtulo 6. Pruebas de hip´otesis Observaci´ on 6.19. Si fuese H0 :
µ = µ0
H1 :
µ > µ1
Resulta una RC ´ optima de la misma forma (observar que el hecho de que H1 : µ = µ1 se usa s´ olo cuando µ1 − µ > 0). En este caso decimos que es una RC uniformemente ´ optima o uniformemente de m´ axima potencia. Observaci´ on 6.20. Si fuese H0 : µ ≤ µ0 H1 : µ > µ1 Resulta la misma region cr´ıtica que en el caso anterior. Observemos ademas que se calcula α = on Pµ∈H0 (Xn ≥ k) crece con µ y el supremo es en µ0 . sup PH0 (Xn ≥ k) la funci´ Corolario 6.21. Corolario de Neyman-Pearson, en las hip´otesis del teorema, α + β ≤ 1 Demostraci´ on. c
Z
β = PH1 (S ) =
n Y
Z f (xi |θ1 )dx1 . . . dxn ≤ k
n Y
f (xi |θ0 )dx1 . . . dxn =
S c i=1
S c i=1
k 1−
Z Y n
f (xi |θ1 )dx1 . . . dxn = k(1 − α),
S i=1
si k ≤ 1 entonces β ≤ 1 − α de donde α + β ≤ 1, si k ≥ 1 1 − β = PH1 (S) =
Z Y n
f (xi |θ1 )dx1 . . . dxn ≥ k
Z Y n
f (xi |θ0 )dx1 . . . dxn = kα,
S i=1
S i=1
como k ≥ 1 entonces 1 − β ≥ kα ≥ α de donde α + β ≤ 1. Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|θ) absolutamente continua, y la prueba
y k = kn es tal que PH0
n Y f (Xi |θ1 ) i=1
Demostraci´ on. log
f (Xi |θ0 )
n Y f (Xi |θ1 ) i=1
!
f (Xi |θ0 )
n Y 1 f (Xi |θ1 ) log n f (Xi |θ0 ) i=1
=
H0 :
µ = µ0
H1 : !
µ = µ1
≥ kn
n X
= α entonces βn → 0.
log
i=1
!
y por la L.F.G.N.
f (X|θ1 ) −→E log f (X|θ0 ) f (X|θ1 ) < log E f (X|θ0 ) Z f (x|θ1 ) = log f (x|θ0 )dx = log(1) = 0. f (x|θ0 ) c.s.
f (Xi |θ1 ) f (Xxi |θ0 )
39
Cap´ıtulo 6. Pruebas de hip´otesis Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente c´oncava), y en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0 . Tenemos entonces que n X f (Xi |θ1 ) c.s. −→ −∞. log f (Xi |θ0 ) i=1 Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0 ! n X f (Xi |θ1 ) P < −m ≥ 1 − ε = 1 − α. log f (Xi |θ0 ) i=1 Llamemos
( Sn =
)
n Y f (Xi |θ1 )
≥ kn
f (Xi |θ)
i=1
y ( An,m
n X
log
i=1
f (Xi |θ) f (Xi |θ)
)
< −m .
Si tomamos ω ∈ An,m ∩ Sn entonces log(Kn ) ≤
n X
log
i=1
f (Xi (ω)|θ1 ) f (Xi (ω)|θ0 )
< −m,
luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn ) < −m de donde kn → 0. Observemos que Sn ∩ ARn,mQ6= ∅ ya que P (SnR) +QP (An,m ) > α + 1 − α > 1, luego, se intersectan. c Como βn = PH1 (Snc ) = S c f (xi |θ)dx ≤ kn n f (xi |θ)dx → 0. n
Corolario 6.23. Consideremos el caso particular H0 :
Sea Sn =
nQ n
f (xi |θ1 ) i=1 f (xi |θ0 )
θ = θ0
H1 : θ = θ1 o ≥ 1 entonces αn + βn → 0
Pn P i |θ1 ) Demostraci´ on. Si H0 es cierto entonces i=1 log ff (X −→ −∞, de donde αn = PH0 (Sn ) = (Xi |θ0 ) P n n f (Xi |θ1 ) PH 0 i=1 log f (Xi |θ0 ) ≥ 0 −→ 0. Pn P (Xi |θ0 ) Si H1 es cierto entonces i=1 log ff (X −→ −∞. i |θ1 ) β n = PH 1
n X i=1
6.2.
log
f (Xi |θ1 ) f (Xi |θ0 )
! ≤0
−→ 0.
Familias con cociente de verosimilitud mon´ otono
Definici´ on 6.24. Familia con C.V.M.: Una familia de densidades f (·|θ) con θ ∈ (H) ⊂ R tiene C.V.M. si Qn L(˜ x|θ) i=1 f (xi |θ) Q = = g T (˜ x) , n 0 0 L(˜ x|θ ) i=1 f (xi |θ ) donde g : R −→ R es estrictamente creciente, θ > θ0 , y T = Tn es un estimador. Observemos que g depende de n de θ y de θ0 40
Cap´ıtulo 6. Pruebas de hip´otesis Ejemplo 6.25. f (·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si n Y
f (xi |θ) = Cn eQ(θ)t(˜x) h(˜ x)
con Cn (θ) > 0,
i=1
si Q es estrictamente creciente la familia tiene C.V.M.: x) Cn (θ) eQ(θ)t(˜x) h(˜ Cn (θ) t(˜x) Q(θ)−Q(θ0 ) L(˜ x|θ) = = e = g(t(˜ x)) L(˜ x|θ0 ) Cn (θ0 ) eQ(θ0 )t(˜x) h(˜ x) Cn (θ0 ) (θ) s Q(θ)−Q(θ 0 ) e , luego, g es una funci´on creciente de s. con g(s) = CCnn(θ 0) Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (·|θ) perteneciente a una familia con C.V.M, sea T (˜ x) absolutamente continua y θ ∈ (H) ⊂ R, consideremos H0 : θ ≤ θ 0 H1 : θ > θ 0 Si R = {˜ x ∈ Rn : T (˜ x) ≥ k} donde k es tal que R sea R.C. de nivel α, entonces R es R.C. uniformemente de m´ axima potencia. Demostraci´ on. En el conjutno {θ : θ ≤ θ0 } ⊂ (H) defino αk (θ) = α(θ) = Pθ (R). Probaremos que α es creciente y por lo tanto supθ∈H0 α(θ) = α(θ0 ), de donde el k de la hip´otesis es tal que Pθ0 (T (˜ x) ≥ k) = α. Consideremos la prueba H0 : θ = θ 0 H1 : θ = θ00 Con θ00 > θ0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la regi´ on cr´ıtica ´ optima ) ( n Y f (xi |θ00 ) 0 ≥ k = {T (˜ x) ≥ g −1 (k 0 )}, 0) f (x |θ i i=1 en esta igualdad hemos usado que g es creciente, llamemos k 00 = g −1 (k 0 ). Para esta prueba α+β ≤ 1, α = Pθ0 ({T (˜ x ≥ k)}) = α(θ0 ) y β = Pθ00 ({T (˜ x) ≥ k 00 }c ) = 1 − Pθ00 ({T (˜ x) ≥ k 00 }) = 1 − α(θ00 ). 0 00 0 00 0 00 Entonces α(θ ) + 1 − α(θ ) ≤ 1 y por lo tanto α(θ ) ≤ α(θ ). Como θ y θ son arbitrarios se deduce que α creciente. Veamos ahora que R es ´ optima, es decir, uniformemente de m´axima potencia. Supongamos por ˆ < βR (θ), ˆ sabemos que absurdo, que existe otra S RC de nivel α tal que existe θˆ > θ0 y βS (θ) supθ≤θ0 αS (θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS (θ0 ) ≤ α. Consideremos la prueba H0 : θ = θ 0 H1 : θ > θ 0
(6.1)
Sea S 0 = {T (˜ x) ≥ k} con k 0 tal que αS 0 (θ0 ) = αS (θ0 ), (tal k 0 existe porque hemos supuesto que T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por el teorema de Neyman Person que S 0 es uniformemente de m´axima potencia para la prueba 6.1. ˆ ≤ βS (θ). ˆ Como αS (θ0 ) ≤ α = αR (θˆ0 ) o Entonces βS 0 (θ) ≤ βS (θ) ∀θ ≥ θ0 . En particular βS 0 (θ) 0 lo que es lo mismo Pθ0 (T (˜ x) ≥ k ) ≤ Pθ0 (T (˜ x ≥ k) obtenemos que k ≤ k 0 , pero esto contradice ˆ ˆ βS 0 (θ) ≤ βS (θ) ya que esto es equivalente a que Pθˆ({T (˜ x) ≥ k 0 }c ) < Pθˆ({T (˜ x) ≥ k}c ) ya que esto 0 implica k ≥ k .
41
Cap´ıtulo 6. Pruebas de hip´otesis
6.3.
M´ etodo de la raz´ on de verosimilitud para RC:
Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ ∈ (H) ⊂ Rk y la prueba H0 : θ ∈ A ⊂ (H) H1 : θ ∈ /A Planteamos una RC de la forma supθ∈A L(˜ x|θ) n ≤k . R= x ˜∈R : supθ∈H L(˜ x|θ) Observemos que para hip´ otesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene sup L(˜ x|θ) = L(˜ x|θ0 ) = θ∈A
n Y
f (xi |θ0 )
i=1
y
sup L(˜ x|θ) = θ∈(H)
x|θ0 ) = L(˜ x|θ1 ) = L(˜
n Y i=1 n Y
f (xi |θ0 ) de donde R = ∅ f (xi |θ1 )
i=1
Entonces, la RC de de la raz´ on de verosimilitud queda ) ( n Y f (xi |θ0 ) n ≤k x ˜∈R : f (xi |θ1 ) i=1 que es la RCO del teorema de Neyman Pearson. Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y la prueba H0 : µ = µ0 H1 : µ 6= µ0 Hallaremos la RC de la razon de verosimilitud. Tenemos que sup L(˜ x|µ) = L(˜ x|x) µ∈R
y L(˜ x|µ) = entonces
1 √ 2π
n
(
n
1X 2 n 2 exp − x − µ 2 i=1 i 2
) exp{nµx}
nµ2 0
2 nµ2 2 n L(˜ x|θ0 ) e− 2 +nµ0 x − 2 0 +nµ0 x− nx 2 = = e = e− 2 (µ0 −x) 2 nx 2 − +nx L(˜ x|x) e 2 si planteamos la regi´ on critica
L(˜ x|θ0 ) n ≤ k ⇔ − (x − µ0 )2 ≤ L(k) = k 0 ⇔ |x − µ0 | ≥ k 00 L(˜ x|x) 2 por lo tanto la regi´ on cr´ıtica es de la forma RC = {˜ x ∈ Rn : |x − µ0 | ≥ k} Proposici´ on 6.28. Consideremos la prueba H0 : θ ∈ A ⊂ (H) H1 : θ ∈ /A α(˜ x) =
supθ∈A L(˜ x|θ) supθ∈A g(T (˜ x), θ)h(˜ x) supθ∈A g(T (˜ x), θ) = = = β(T (˜ x)) supθ∈(H) L(˜ x|θ) supθ∈(H) g(T (˜ x), θ)h(˜ x) supθ∈(H) g(T (˜ x, θ)) 42
Cap´ıtulo 6. Pruebas de hip´otesis
6.4.
Pruebas de Bondad de ajuste
Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribuci´on, (conocida o no) se queire tomar una decisi´ on acerca de si X distribuye como F0 o no, es decir, H0 : FX = F0 H1 : FX 6= F0
6.4.1.
Test de χ2 :
Consideremos la prueba H 0 : FX = F0 H1 : FX 6= F0 Dado k ∈ N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai−1 , ai ], I1 = (−∞, a1 ] y Ik = (ak , +∞] tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1 Ii = R. Si H0 es cierto P (X ∈ Ij ) = F0 (aj ) − F0 (aj−1 ) = F0 (Ij ), c.s. dada X1 , . . . , Xn M.A.S. de X definimos Fn∗ la distribuci´on emp´ırica, sabemos que Fn∗ (Ij ) −→ FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en Pk el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj − Ej )2 . Es razonable entonces construir la RC = {T ≥ k}. P (a −E )2
d
j j , bajo la hip´otesis H0 , se prueba que Tn −→ χ2k−1 . Luego si α = Si definimos Tn = Ej PH0 (Tn ≥ k), se aproxima con la distribuci´on de una χ2k−1 y se halla un k aproximado.
6.4.2.
Test de Kolmogorov-Smirnov
Consideremos H0 : FX = F0 completamente conocidaH1 ; FX 6= F0 tomemos RC = {supx∈R |Fn∗ (x) − F0 (x)| ≥ k}, por Gilvenco−Cantelli Fn∗ converge uniformemente a F0 (x). Para conocer la distribuci´ on de supx∈R |Fn∗ (x) − F0 (x)| tneemos el siguiente teorema. Teorema 6.29. Kolmogorov: Si Dn = supx∈R |Fn∗ (x) − F0 (x)| entonces, si F0 es continua l´ım P
n→+∞
√
∞ X 2 2 (−1)n−1 e−2n z nDn ≤ z = 1 − 2 n=1
Definici´ on 6.30. Dada una prueba de hip´otesis H0 : θ ∈ A H1 : θ ∈ /A cuya regi´ on cr´ıtica sea RC = {T ≥ k} con T = T (X1 , . . . , Xn ) estimador de θ, el p − valor es ˜ ≥ T (˜ sup P T (X) x) θ∈A
Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1), consideremos la prueba H0 : µ = µ0 = 0 H1 : µ 6= µ0 = 0 Sabemos que RC = {|xn ≥ k} entonces T (X) = |Xn | el p − valor es √ √ √ PH0 (|Xn ≥ |x) = 1 − PH0 (|Xn | ≤ |x|) = 1 − Φ( n|x|) + Φ(− n|x|) = 2 1 − Φ( n|x|) 43
Cap´ıtulo 6. Pruebas de hip´otesis Proposici´ on 6.32. Si los supremos se realizan en un mismo θ0 ∈ A, α < p − valor ⇔ no rechazo H0 al nivel α. ˜ ≥ k) , Demostraci´ on. Si α < p − valor entonces hallamos k tal que α = supθ∈A P ( T (X ˜ ≥ k < sup P T (X ˜ ≥ T (˜ α = sup P T (X) x) θ∈A
θ∈A
˜ ≥ k < Pθ P T (X) ˜ ≥ T (˜ α = sup P T (X) x) 0
θ0
de donde T (˜ x) < k por lo tanto x ˜ ∈ / RC y no rechado H0 . El razonamiento es an´alogo si α > p − valor. Observaci´ on 6.33. La propiedad se cumple si H0 es simple (θ = θ0 ), o en el caso de concientes de verosimilitud mon´ otonos.
6.5.
An´ alisis de Varianza, (ANOVA)
Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v N (θi , σ 2 ) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ 2 es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para cada i ∈ {1, . . . , k} definimos n 1 X Yij , Yi = ni j=1 y n
Si2 =
i 1 X (Yij − Yij )2 . ni − 1 j=1
Sabemos que (ni − 1) 2 Si v χ2ni −1 σ2 P Observaci´ on 6.34. Si A = {a = (a1 , . . . , ak ) ∈ Rk : ai = 0} entonces X θ1 = · · · = θk ⇔ ∀a ∈ A, ai θi = 0 Yi v N (θi , σ 2 /ni )
Demostraci´ on. El directo es inmediato, veamos el rec´ıproco, tomemos a1 = 1, a2 = −1, a3 = · · · = ak = 0 entonces θ1 − θ2 = 0 y as´ı sucesivamente θ1 = · · · = θk . Pk P Observaci´ on 6.35. Si defino Sp2 = N 1−k i=1 (ni − 1)Sik con N = ni . entonces k
N − k 2 X (ni − 1) 2 Sp = Si v χ2N −k . 2 σ2 σ i=1 Adem´ as k X i=1
ai Yi v N
k X i=1
Pk ai θi ,
2 2 i=1 ai σ ni
! .
P Se puede demostrar que Sp2 y ai Yi son independientes, luego, si recordamos que si X v N (0, 1) es independiente de χ2n entonces X p v tn χ2n /n
44
Cap´ıtulo 6. Pruebas de hip´otesis obtenemos que k X k a i θi ai Yi − X ai (Yi − θi ) i=1 i=1 √ Pk 2 σ i=1 i=1 ai /ni q = qP v tN −k (N −K) 2 k 2 /n S /(N − k) S a 2 p i p i=1 i σ k X
Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos X H0 : ai θi = 0 H1 : no H0 Consideremos la regi´ on cr´ıtica, ( RC =
) P | ai Yi | pP >m , Sp ai /ni
α = PH0 (RC) = PH0
! P | ai Yi | pP >k , Sp ai /ni
como estamos bajo H0 si utilizamos la observaci´on anterior α = 1 − P (−m < T < m), con T v tN −k , y por lo tanto 1 − α/2 = F (m), k = t1−α/2 (N − k). Nos planteamos ahora la siguiente prueba H0 : θ 1 = · · · = θ k H1 : noH0 y esto es si y solo si H0 :
X
ai θi = 0 ∀a ∈ A
H1 : noH0 P ai Yi 2 Tomo el estad´ıstico Ta = pP 2 , resulta natural plantear la regi´on cr´ıtica RC = sup Ta > k . Sp ai /ni a∈A Debemos entonces hallar la distribuci´ o n de sup T bajo la hip´ o tesis H cierto. Llamemos Ci = Yi 0 a∈A a P ni Ci y Ci = N . P ai √ 2 2 P √ (Ci − C) ni a C 1 n i i i P sup Ta2 = sup P = sup , Sp a∈A ai /ni ai /ni a∈A a∈A P donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz P ai √ 2 P 2 P √ (Ci − C) ni X ai /ni ni (Ci − C)2 ni P P ≤ sup = ni (Ci − C)2 . sup ai /ni ai /ni a∈A a∈A Obtuvimos una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci −C) es claro P que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz se da en ese caso). sup Ta2 =
a∈A
Pk
i=1
ni (Yi − Y )2 Sp2
Pk donde
Y =
i=1
N
ni Yi
,
45
Cap´ıtulo 6. Pruebas de hip´otesis recordemos que χ2n /n v F (n, m), χ2m /m se puede demostrar que
k X
ni (Yi − Yi )2 v χ2k−1 y por lo tanto
i=1
σ 2 χ2k−1 > cte 2 2 a∈A σ χN −k /(N − k) sup
⇔
χ2k−1 /(k − 1) v F (k − 1, N − k) ≥ cte/(k − 1). χ2N −k /(N − k)
Planteamos α = PH0 (RC) = 1 − PH0 F (k − 1, N − k) ≤
cte entonces k−1
cte = F1−α (k − 1, N − k)(k − 1).
Finalmente, obtuvimos la regi´ on cr´ıtica ( ) k 1 X 2 RC = ni (Yi − Yi ) ≥ F1−α (k − 1, N − k)(k − 1) . Sp i=1
46
Cap´ıtulo 7
Modelos Lineales 7.1.
Variable Normal Multivariada
Definici´ on 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el (µ1 , . . . , µn ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn ) cov(X2 X1 ) V ar(X2 ) Σn×n = .. .. .. . . . cov(Xn X1 )
...
vector de medias µ =
V ar(Xn )
Anotamos µ = E(X) y V ar(X) = σn×n . Observaci´ on 7.2. Veamos algunas propiedades 1) Si A ∈ Mk×n es constante entonces E(AX) = AE(X). 2) V ar(AX) = AΣn×n At . 3) Si X ∈ Rn es un vector aleatorio A es una matriz k × n y b un vector k × 1 constante entonces E(AX + b) = AE(X) + b
y
V ar(AX + b) = AΣX At .
4) Si X es un vector aleatorio en Rn , σX es semidefinida positiva. Demostraci´ on. 2) Es inmediato a partir de observar que V ar(X) = E (X − E(X))(X − E(X))t . 4) Tenemos que ver P que para todo λ = (λ1 , . . . , λn ) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue de t que λΣλ = V ar( λi Xi ). Definici´ on 7.3. Normal t´ıpica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribuci´on normal t´ıpica en Rn si las Ui v N (0, 1) y son independientes. Observaci´ on 7.4. La densidad conjunta de U es 1
fU (x) =
2
e− 2 kxk n . (2π) 2
47
Cap´ıtulo 7. Modelos Lineales Definici´ on 7.5. Normal multivariada Decimos que X tiene distribuci´on normal multivariada si existe una matris n × k C y un vector µ n × 1 tal que X = CU + µ. Observaci´ on 7.6. Observemos que si X tiene distribuci´ on normal multivariada entonces E(X) = µ y ΣX = CC t Proposici´ on 7.7. Veamos algunas propiedades de la normal multivariada 1) Si Cn×n es invertible, X es absolutamente coninua y −1
t
1
fX (x) =
e− 2 (x−µ) Σ (x−µ) (2π)n/2 | det Σ|1/2
Σ = CC t .
Demostraci´ on. X = CU + µ = g(U ), g : Rn −→ Rn es invertible ya que C lo es. fX (x) = fg(U ) (x) = fU ((g −1 (x)) 1
=
1 1 = fU (C −1 (x − µ)) | det Jg (g −1 (x))| | det C|
−1 t
−1
e− 2 (x−µ)(C ) C (x−µ) (2π)n/2 | det Σ|1/2
2) La distribuci´ on normal t´ıpica es invariante bajo tranformaciones ortogonales. De hecho es la u ´nica distribuci´ on que depende solamente de la norma, y que es invariante bajo transformaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo transformaciones ortogonales se sigue de la definici´ on y de la propiedad anterior. 3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes. 4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua. Definici´ on 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal t´ıpica, decimos que es degenerada si C no es sobreyectiva Observaci´ on 7.9. Si X es degenerada entonces no es absolutamente conitnua. Demostraci´ on. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre si y solo si det(CC t ) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s. constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al integrarla en S obtendr´ıamos que deber´ıa dar 1 porque X esta contenida ahi, pero 0 porque S tiene medida nula, absurdo. Observaci´ on 7.10. Si X v N (µ, Σ) cualquier subvector de X tambien es normal multivariado. Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A adecuadamente. Observaci´ on 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (µ, Σ) entonces si cov(Xi , Yj ) = 0 ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.
∀i, j enont-
Demostraci´ on. Si Σ es invertible, entonces Σ−1 =
Σ−1 X 0
0 Σ−1 Y
y es f´ acil ver que fX,Y (x) = gX (x)gY (y). Si Σ no es invertible, y ΣY si, entonces (X1 , . . . , Xk ) ∈ S, variedad lineal de dimensi´ on α − k, supongamos que S esta generado por X1 , . . . , Xα entonces (X1 , . . . , Xα , Y1 , . . . , Ym ) est´ a en las hip´ otesis anteriores y por lo tanto son independientes, de donde (X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que ΣY tampoco es invertible es an´ alogo. 48
Cap´ıtulo 7. Modelos Lineales
7.2.
Modelos Lineales
Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces g(˜ x) = g(˜ x, θ) = θ1 X1 + · · · + θk Xk , θ = (θ1 , . . . , θk ). Para estimar g estimamos θ. Se plantea entonces θ1 X11 X12 . . . X1k Y1 . .. .. .. .. . . = .. . . Xn1
Xn2
...
Xnk
X11 .. X= . Xn1
X12 .. .
... .. . ...
X1k
Yn
θk
Se observan n muestras de Y ,
Xn2
,
Xnk
es la matriz de dise˜ no (constante y conocida). En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de dise˜ no, y Y1 θ1 e1 .. .. .. Y = . θ = . e = . , Yn θk en e aleatorio (vector de errores). Ejemplo 7.12. An´ alisis de varianza: Yij = θi + eij , en este caso la matrix X es un vector n × 1 con entradas todas iguales a 1. Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y θ = (α, β), y como matriz de dise˜ no la matriz 1 X1 1 X2 X= . , .. 1
Xn
lo que se busca es entonces ajustar una recta a los datos. Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma an´aloga al ejemplo anterior, si Y = α + β1 x + β2 x2 + · · · + βk xk + e, planteamos la matriz de dise˜ no 1 X1 X12 . . . X1k .. .. X= . . . 1
Xn
Xn2
...
Xnk
Observaci´ on 7.15. Observemos que, en vistas del ejemplo anterior, la funci´ on y = g(x1 , . . . , xn , θ) es lineal en θ pero no en x ˜ = (x1 , . . . , xn ), podr´ıa ser x3 = cos(x1 ) etc.
7.3.
Hip´ otesis del modelo
1) Rango(g(X)) = k. 2) Los errores tienen media 0, E(ei ) = 0 para todo i. 49
Cap´ıtulo 7. Modelos Lineales 3) Homocedasticidad: V ar(ei ) = σ 2 para todo i. 3’) cov(ei , ej ) = 0 para todo i 6= j. 4) el vector e de errores tiene distribuci´on N (0, σ 2 I) en este caso se cumplen 2), 3) y 30 ) Para estimar θ ∈ Rk se utiliza el m´etodo de los m´ınimos cuadrados, consiste en hallar θ ∈ Rk donde se realize m´ın kY − Xθk. θ∈Rk
Teorema 7.16. Bajo la hip´ otesis 1 se cumple que (X t X)−1 X t Y es el estimador por m´ınimos cuadrados de θ. Demostraci´ on. Sea θˆ el valor donde se obtiene el m´ınimo, es decir ˆ 2 ≤ kY − Xθk2 kY − X θk
∀θ ∈ Rk ,
si consideramos la multiplicaci´ on por X como una transformaci´on lineal de Rk en Rn entonces X θˆ ˆ es la proyecci´ on de Y sobre la imagen de X, entonces Y − X θ⊥Xθ para todo θ ∈ Rk , esto es t ˆ 0 = (Xθ) (Y − X θ), o lo que es lo mismo θt X t Y = θt X t X θˆ ∀θ ∈ Rk , luego las transformaciones lineales X t Y y X t Xθ son iguales, de donde θˆ = (X t X)−1 X t Y . Teorema 7.17. a) Bajo las hip´ otesis 1) y 2), θˆ es insesgado. b) Bajo las hip´ otesis 1), 2) y 3), Σθˆ = σ 2 (X t X)−1 . Demostraci´ on. ˆ = (X t X)−1 X t E(Y ) = (X t X)−1 X t Xθ = θ. a) E(θ) b) Σθˆ = Σ(X t X)−1 X t e+θ = (X t X)−1 X t (σ 2 Id)X(X t X)−1 , donde usamos que ΣAX+C = AσX At , finalmente se obtiene, Σθˆ = σ 2 (X t X)−1 , ya que transponer e invertir conmutan. Teorema 7.18. Bajo las hip´ otesis 1) a 4) el E.M.V. de θ coincide con el de m´ınimos cuadrados y ˆ adem´ as el E.M.V. de σ es n1 kY − X θk. . Teorema 7.19. Bajo las hip´ otesis 1) a 4) θˆ es insesgado de m´ınima varianza, uniformemente. Demostraci´ on. Veamos que es suficiente: 1 ˆ 2 exp − 1 kX θˆ − Xθk2 = h(˜ ˆ θ) L(y1 , . . . , yn |θ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 kY − X θk y )g(θ, 2σ 2σ 2 donde hemos usado que Y − X θˆ es perpendicular a X θˆ − Xθ. Es f´acil ver que es completo y por lo tanto minimiza el riesgo uniformemente entre los insesgados, considerando como funci´on de riesgo kk2 . Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribuci´ on Noramal), entonces θˆ es uniformemente de minima varianza entre los estimadores lineales e insesgados, (es decir los ˜ ˆ= CY ). Teorema 7.21. Bajo los supuestos 1) a 4): 50
Cap´ıtulo 7. Modelos Lineales
a)
ˆ 2 kY − X θk nˆ σ2 = v χ2(n−k) 2 2 σ σ
b) s2 =
ˆ nˆ σ2 kY − X θk = es insesgado (de donde σ ˆ 2 es asint´ oticamente insesgado). n−k n−k
c)
kX(θˆ − θ)k2 v F (k, n − k) ks2
d)
λ1 (θˆ1 − θ1 ) + λ(θˆ2 − θ2 ) + · · · + λn (θˆn − θn ) p v tn−k s λt (X t X)−1 λ
∀λ ∈ Rn
Demostraci´ on. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base ortonormal Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base can´onica, B es ortogonal y Y = BZ de donde Z = B −1 Y = B t Y v N (B t Xθ, B t σ 2 IdB) y por lo tanto Z es normal multivariado y ΣZ = σ 2 Id, adem´ as Zi son variables aleatorias independientes con distribuci´on N (γ1 , σ 2 ).
2
2
X n n k n
X
X X
2 ˆ
Zi2 , Z i vi = Z j vj = Z i vi − kY − X θk =
j=1
i=1
i=k+1
k=1
2 n X ˆ 2 Zi kY − X θk = σ2 σ i=k+1
Zi v N (γi , 1), σ2 bastaria entones Pn demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ S y E(Y ) = i=1 γi vi . ! ˆ σ2 kY − X θk 1 2 ˆ E kY − X θk) = E = σ2 b) E(s ) = n−k n−k σ2
2 k k k
X
X X
2 c) kX θˆ − Xθk = Z i vi − γ i vi = (Zi − γi )2 . entonces
i=1
i=1
ˆ − θk kX θX = ks2
i=1
P Zi −γi 2 σ k 1 σ 2 n−k kY
ˆ − X θk
v
χ2k /k 2 χn−k /(n −
k)
v F (k, n − k).
d) λ1 (θˆ1 − θ1 ) + · · · + λn (θˆn − θn ) = λt (θˆ − θ), como θˆ v N (θ, σ 2 (X t X)−1 ), entonces λt (θˆ − θ) v N (0, λt σ 2 (X t X)−1 λ), t ˆ √ λ (θ−θ) t ˆ λ (θ − θ) σ λ(X t X)−1 λ p = , s s λt (X t X)−1 λ σ por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que kY − Xθk2 depende de Zk+1 , . . . , Zn y X θˆ de Zk+1 , . . . , Zk .
51
Cap´ıtulo 7. Modelos Lineales
7.4.
Aplicaci´ on
Construcci´ on de intervalos de confianza para λt θ. Consideremos I = λt θˆ − ks, λt θˆ + ks , ! ! λt (θˆ − θ) t ˆ λ ( θ − θ) k , 1 − α = P (λt θ ∈ I) = P ≤k =P p t t ≤ p t t −1 s λ (X X)−1 λ s λ (X X) λ p de donde, por la parte d) k = t1−α/2 (n − k) λt (X t X)−1 λ. Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1 .
52