Notas para el curso de Introducción a la Estadística,

Notas para el curso de ´ n a la Estad´ıstica, Introduccio dictado por Juan Kalemkerian 1 en la Facultad de Ciencias, el segundo semestre de 2008. 1

Author: Vicente Soto de la Fuente

0 downloads 96 Views 592KB Size

Report

DOWNLOAD PDF

Recommend Stories

Notas para el curso de Física de 1º de Bach

Notas para el curso de Física de 1º de Bach. Prof. Javier Silveira UNIDAD 1 Parte 1: Rayos de Luz, Sombras, Reflexión y Espejos La Luz Desarrollarem

Tus Notas para el Video 1.A

NOTAS PARA EL EVALUADOR:

Emigrar a Quebec Notas para la Entrevista

NOTAS PARA LA HISTORIA DE LA CON QUIST A

J. Daniel Contreras R. NOTAS PARA LA HISTORIA DE LA CON QUIST A 1. Organizaci6n Politica de los Quiches Las cr6nicas y documentos sefialan la exist

Notas del curso de Introducción a los métodos cuantitativos

Notas del curso de Introducción a los métodos cuantitativos R. Urbán Ecuación de segundo grado Una ecuación de segundo grado es aquella que puede re

NOTAS PARA EL PROFESOR 2010

NOTAS PARA EL PROFESOR 2011

NOTAS PARA EL PROFESOR 2010

Notas de curso de invierno (ciclos de la reforma)

Story Transcript

Notas para el curso de ´ n a la Estad´ıstica, Introduccio

dictado por Juan Kalemkerian 1 en la Facultad de Ciencias, el segundo semestre de 2008.

1

Los errores que puedan contener son total responsabilidad de quien las transcribe Por sugerencias y correcciones: [email protected]

´Indice general 1. Introducci´ on 1.1. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Nociones de convergencia de variables aletorias . . . . . . . . . . . . . . . . . . . .

3 3 6

2. Muestreo aleatorio simple 2.1. Algunas definiciones previas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Muestreo en poblaciones normales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Estad´ısticos de Orden para una M.A.S. . . . . . . . . . . . . . . . . . . . . . . . . .

8 8 8 13

3. Teor´ıa de la Estimaci´ on, m´ etodos de estimaci´ on 3.1. Algunas definiciones previas . . . . . . . . . . . . 3.2. M´etodo de los momentos . . . . . . . . . . . . . . 3.3. M´etodo de M´ axima Verosimilitud . . . . . . . . . 3.4. m´etodo de estimaci´ on por cuantiles . . . . . . . . 3.5. Estimaci´ on de la funci´ on de Distribuci´on . . . . . 3.6. Convergencia casi segura de Percentiles . . . . .

15 15 15 16 20 21 23

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

. . . . . .

4. Evaluaci´ on de Estimadores

24

5. Estimacin por intervalos de confianza

33

6. Pruebas de hip´ otesis ´ 6.1. Regi´ on Cr´ıtica Optima, Teorema de Neyman-Pearson 6.2. Familias con cociente de verosimilitud mon´otono . . . 6.3. M´etodo de la raz´ on de verosimilitud para RC: . . . . . 6.4. Pruebas de Bondad de ajuste . . . . . . . . . . . . . . 6.4.1. Test de χ2 : . . . . . . . . . . . . . . . . . . . . 6.4.2. Test de Kolmogorov-Smirnov . . . . . . . . . . 6.5. An´ alisis de Varianza, (ANOVA) . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

36 37 40 42 43 43 43 44

7. Modelos Lineales 7.1. Variable Normal Multivariada 7.2. Modelos Lineales . . . . . . . 7.3. Hip´ otesis del modelo . . . . . 7.4. Aplicaci´ on . . . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

47 47 49 49 52

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

2

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

Cap´ıtulo 1

Introducci´ on Este cap´ıtulo pretende introducir los conceptos de esperanza condicional, as´ı como las nociones de convergencia de variables aletorias, que ser´an necesarios para los siguientes cap´ıtulos. Se asumira que el lector est´ a familiarizado con los conceptos b´asicos de la probabilidad, correspondientes a un primer curso introductorio, no as´ı los del an´alisis real.

1.1.

Esperanza Condicional

Definici´ on 1.1. Dado Ω, A, P un espacio de probabilidad, y X, Y : Ω → R variables aleatorias, definimos la Esperanza Condicional de X dado Y que anotaremos E X|Y , como la funci´ on de Y que verifica E XIY (B) = E E(X|Y )IY (B) para todo B perteneciente a la sigma ´ algebra de borel de R, que anotaremos de aqu´ı en mas como B(R) Observaci´ on 1.2. E(X|Y ) est´ a bien definido existencia: Se sigue del Teorema de Radon-Nikodym unicidad: Supongamos que α(Y ) y β(Y ) cumplen E XIY (B) = E α(Y )IY (B) = E β(Y )IY (B) .

∀B ∈ B(R)

Consideremos B = {α(Y ) > β(Y )}, sabemos que 0 = E (α(Y ) − β(Y ))IY (B) , como (α(Y ) − β(Y ))IY (B) ≥ 0 y su esperanza es 0 entonces (α(Y ) − β(Y ))IY (B) = 0 c.s.. De forma ˆ = {β(Y ) > α(Y )}, obtenemos que (β(Y ) − α(Y ))IY (B) ˆ = totalmente an´ aloga, tomando B 0, c.s., de donde se sigue que α = β c.s. Proposici´ on 1.3. Veamos ahora algunas propiedades de las esperanza condicional, X, Y, Z ser´ an variables aleatorias a valores reales y a, b n´ umeros reales. 1) Linealidad: E(aX + bY |Z) = aE(X|Z) + bE(Y |Z). 2) Si X ≥ 0

c.s. entonces E(X|Y ) ≥ 0

c.s..

3) Si X ≤ Z entonces E(X|Y ) ≤ E(Z|Y ). 3

Cap´ıtulo 1.

Introducci´on

4) E(X|X) = X. 5) E(a|Y ) = a. 6) E(X|Y ) = E(X) si X e Y son independientes. 7) E(Xg(Y )|Y ) = g(Y )E(X|Y ). 8) E E(X|Y ) = E(X). Demostraci´ on. 1) Por la unicidad, basta demostrar que, para todo B ∈ B(R) E (aX + bY )IB (Z) = E (aE(X|Z) + bE(Y |Z))IB (Z) , usando la linealidad de la esperanza el u ´ltimo t´ermino es aE E(X|Z)IB (Z) + bE E(Y |Z)IB (Z) , que, por definici´ on de esperanza condicional, es igual a aE XIB (Z) + bE Y IB (Z) . 2) La demostraci´ on necesita de conceptos del an´alisis real. 3) Es consecuencia inmediata de 2). 4) Es consecuencia inmediata de la unicidad. 6) Queremos ver que E XIB (Y) = E E(X)IB (Y ) , E XIB (Y ) = E(X)E(IB (Y )) por la independencia, y E E(X)IB (Y ) = E(X)E(IB (Y )) dado que una constante es independiente de cualquier variable. 5) Es una consecuencia inmediata de 6). 7) La demostraci´ on necesita de conceptos del an´alisis real. 8) Basta tomar en la definici´ on B = R. Proposici´ on 1.4. Desigualdad de Jensen: Sea ϕ : R → R convexa, entonces ϕ E(X) ≤ E ϕ(X) ϕ E(X|Y ) ≤ E ϕ(X)|Y Recordemos que ϕ es convexa si y solo si ϕ(λp + (1 − λ)q) ≤ λϕ(p) + (1 − λ)ϕ(q) ∀p, q, ∀λ ∈ [0, 1], y que si ϕ es C 2 , ϕ es convexa si y solo si ϕ00 (x) ≤ 0 ∀x. Definici´ on 1.5. Distribuci´ on Condicional: Dadas X, Y v.a., definimos FX|Y =y (x) := P (X ≤ x|Y = y) := E(I( −∞,x] (x)|Y = y). Definici´ on 1.6. Probabilidad Condicional: Dadas X, Y v.a., definimos P (X ∈ [a, b]|Y ) := E(I[a,b] (X)|Y ). Ejemplo 1.7. Veamos por separado, primero el caso en que las variables son discretas, y luego el caso continuo.

4

Cap´ıtulo 1.

Introducci´on

Caso Discreto: Sea (X, Y ) vector aleatorio bidimensional tal que Rec(X, Y ) = (xn , ym ) : n, m ∈ N , definimos la probabilidad condicional en el sentido usual, como PX,Y (x, y) PY (y)

PX|Y =y (x) = P (X = x|Y = y) =

∀x ∈ Rec(X), ∀y ∈ Rec(Y ),

entonces X

E(X|Y ) =

xPX|Y (x),

x∈Rec(X)

Demostraci´ on. Sabemos que X

xPX|Y =y (x) =

x∈Rec(X)

1 PY (y)

X

xPX,Y (x, y) =: α(Y )(y),

x∈Rec(X)

queremos demostrar que 



1 E PY (Y )

X

xPX,Y (x, Y )IB (Y ) = E XIB (Y ) ,

x∈Rec(X)

 1 E PY (Y )

 X

X

xPX,Y (x, Y )IB (Y ) =

x∈Rec(X)

α(y)PY (y)

y∈Rec(Y )∩B

=

X

X

xPX,Y (x, y)IB (Y )

y∈Rec(Y ) x∈Rec(X)

= E XIB (Y ) .

Caso Continuo: Sea (X, Y ) absolutamente continuo, entonces Z

+∞

E(X|Y ) =

x −∞

fX,Y (x, Y ) dx fY (Y )

Demostraci´ on. Z +∞ Z +∞ Z +∞ fX,Y (x, Y ) fXY (x, y) E x dxIB (Y ) = IB (y)dx fy (y)dy x fY (Y ) fy (y) −∞ −∞ −∞ Z +∞ Z +∞ = xIB (y)fX,Y (x, y)dxdy −∞

−∞

= E(XIB (Y )). Luego, la t´esis es consecuencia de la unicidad. Proposici´ on 1.8. F´ ormula de la distribuci´ on conjunta: Dadas X, Y v.a. se tiene que Z y FX,Y (x, y) = FX|Y =t (x)dFy (t) −∞

5

Cap´ıtulo 1.

Introducci´on

Demostraci´ on. FXY (x, y) = P (X ≤ x, Y ≤ y) = E I(−∞,x] (X)I(−∞,y] (Y ) = E E I(−∞,x] (X)I(−∞,y] (Y ) Y Z +∞ I(−∞,y] (t)FX|Y =t (x)dFY (t) = −∞ Z y = FX|Y =t (x)dFY (t) −∞

Definici´ on 1.9. Distribuci´ on condicionada a un conjunto: Dada X v.a. y A ∈ A con P (A) 6= 0 definimos P (X ≤ x ∩ A) FX|A = P (X ≤ x|A) = P (A) Definici´ on 1.10. Esperanza condicionada a un conjunto: Z +∞ E(X|A) = xdFX|A (x) A ∈ A, P (A) 6= 0 −∞

1.2.

Nociones de convergencia de variables aletorias

Definici´ on 1.11. Convergencia en probabilidad y casi segura: Dado Ω, A, P probabilidad, {Xn } una sucesi´ on de v.a. y X una v.a. decimos que

espacio de

P

1) Xn converge a X en probabilidad, y anotamos Xn −→ X si l´ım P |Xn − X| ≤ ε = 1 n→+∞

c.s.

2) Xn converge a X casi seguramente, y anotamos Xn −→ X si P l´ım Xn = X = 1 n→+∞

Definici´ on: Sean Xn v.a. en Ωn , An , Pn y X v.a. en on 1.12. Convergencia en distribuci´ Ω, A, P , decimos que Xn converge en distribuci´on a X y anotamos d

Xn −→ X

si

l´ım FXn (x) = FX (x) ∀x punto de continuidad de FX

n→+∞

Proposici´ on 1.13. Relaci´ on entre convergencias: Si {Xn } y X son v.a. sobre Ω, A, P entonces c.s. P d Xn −→ X ⇒ Xn −→ X ⇒ Xn −→ X. Observaci´ on 1.14. Todos los rec´ıprocos de la proposici´ on anterior son falsos. Teorema 1.15. Ley Fuerte de los grandes n´ umeros: Sean {Xn } v.a. sobre Ω, A, P y Xn independientes id´enticamentes distribuidas (i.i.d.) en L1 y µ = E(X) entonces Xn =

X1 + · · · + Xn c.s. −→ µ n

6

Cap´ıtulo 1.

Introducci´on

Teorema 1.16. Teorema Central del L´ımite: Sean {Xn } definidas en Ω, A, P v.a. i.i.d. en L2 entonces Xn − µ d √ −→ N (0, 1). σ/ n Donde N (0, 1) denota la distribuci´ on normal con esperanza 0 y varianza 1. 2

Observaci´ on 1.17. Si n es ’grande’ y fijo, FXn se aproxima por la distribuci´ on N (µ, σn ) donde µ = E(Xn ) y σ 2 = V ar(Xn )

7

Cap´ıtulo 2

Muestreo aleatorio simple 2.1.

Algunas definiciones previas

Definici´ on 2.1. Muestra aleatoria simple (M.A.S.): X1 , . . . , Xn v.a. definidas en Ω, A, P son una aleatoria simple si son independientes id´enticamente distribuidas (i.i.d.) con distribuci´on igual a la de X. Definici´ on 2.2. Media muestral y Varianza Muestral: dada X1 , . . . , Xn una M.A.S. definimos 1) Media Muestral: Xn =

X1 + . . . , Xn . n n

2) Varianza Muestra Sn2 =

1 X (Xi − Xn )2 n − 1 i=1 n

Observaci´ on 2.3. Sn2 =

1 X 2 Xi2 − nXn n − 1 i=1 c.s.

Observaci´ on 2.4. Si X ∈ L1 , Xn −→ µ = E(X) por L.F.G.N. c.s.

Observaci´ on 2.5. Si X ∈ L2 , Sn2 −→ σ 2 = V ar(X). Demostraci´ on. Sn2

n = n−1

n

1X 2 2 X − Xn n i=1 i

! c.s.

→ E(X 2 ) − µ2 = σ 2 ,

donde hemos usado la L.F.G.N. para las variables Yn = Xn2 .

2.2.

Muestreo en poblaciones normales

Definici´ on 2.6. Distribuci´ on Gamma: Decimos que X tiene distribuci´on Gamma(α, λ) si su densidad es  α  λ xα−1 e−λx si x > 0 fX (x) = Γ(α)  0 si x = 0 Observaci´ on 2.7. Tres propiedades importantes de la distribuci´ on Gamma son: 1) Si X v Gamma(α, λ) entonces E(X) = α/λ y V ar(X) = α/λ2 .

8

Cap´ıtulo 2.

Muestreo aleatorio simple

2) Si X v Gamma(α, λ) e Y v Gamma(β, λ) y son independientes entonces X+Y v Gamma(α+ β, λ). 3) Si α = 1, Gamma(1, λ) = Exp(λ). Definici´ on 2.8. Distribuci´ on Chi cuadrado con k grados de libertad: Decimos que X v χ2k si X v Gamma(k/2, 1/2) es decir si fX (x) =

xk/2−1 e−x/2 I(0,+∞) Γ(k/2)2k/2

Observaci´ on 2.9. Se puede demostrar que E(χ2k ) = k V ar(χ2k ) = 2k

Teorema 2.10. Si X1 , . . . , Xn es una M.A.S. y X v N (0, 1), entonces X12 + · · · + Xk2 = k(X1 , . . . , Xk )k2 v χ2k Demostraci´ on. Por la propiedad 2) de las distribuci´ones Gamma, es suficiente√demostrar √ que Xi2 v 2 2 χ1 . Si X v N (0, 1) entonces, tomando t > 0, FX 2 (t) = P (X ≤ t) = P (|X| ≤ t) = P (− t ≤ X ≤ √ t) = Z √t Z √t Z t 1 1 − 1 s2 1 − 1 s2 1 1 2 2 √ e √ e ds = 2 ds = √ e− 2 u √ , √ u 2π 2π 2π 0 − t 0 2

donde en la primera igualdad hemos usado √ que la funci´on e−1/2x es par, y en la seguna hemos 2 hecho el cambio de variable u = s , 2ds = 1/ udu. Para concluir basta observar que 1

e− 2 u √ √ , 2π u es la densidad de χ21 pero esto se sigue de que Gamma(1/2) =

√

π.

9

Cap´ıtulo 2.

Muestreo aleatorio simple

Definici´ on 2.11. Distribuci´ on T-Student con k grados de libertad: Sean X v N (0, 1) e Y v χ2k independientes, la distribuci´ on de X , Tk = p Y /n se llama distribuci´ on T − Student con k grados de libertad. Decimos que la variable Tk tiene distribuci´ on T − Student no central, con par´ametro de no centralidad µ > 0 si X +µ Tk = p Y /k Observaci´ on 2.12. Se verifica que E(Tk ) = 0 V ar(Tk ) = k/(k − 2) para k > 2. Teorema 2.13. Sea T v Tk , entonces la densidad es fT (t) = √

Γ( k+1 2 ) kπΓ( k2 ) 1 +

t2 k

k+1 2

Demostraci´ on. Tomemos el vector (X, Y ), su densidad es y

k

−1 − 2 1 2 y2 e 1 fX,Y (x, y) = √ e− 2 x k I(0,+∞) (y). k 2π Γ( 2 )2 2

Sea g : Rk × R+ −→ Rk × R+ tal que ! p x g(x, y) = p , y , g es biyectiva y g −1 (u, v) = u v/k, v , y/k tenemos entonces que g(X, Y ) = (U, V ) I(0,+∞) (v) fg(x,y) (u, v) = fU,V (u, v) = fX,Y g −1 (u, v) det Jg g −1 (u, v) donde

√1

y/k

0 luego, sustituyendo

1 √u √ k2 v

! y

1

p det Jg (x, y) = k/y,

√ 2 1 k v 1 e− 2k u v v 2 −1 e− 2 v √ fU,V (u, v) = √ I (v) , (0,+∞) Γ( k2 )2k/2 2π k

como T = U tenemos que Z +∞ fU (u) = fU,V (u, v)dv = √ −∞

Z

1

v

k

2kπΓ(k/2)2 2

+∞

k−1 2

e

−v

“

u2 2k

+ 12

”

dv,

0

por otro lado sabemos que Z +∞ Z +∞ λα Γ(α) xα−1 e−λx dx = 1 entonces xα−1 e−λx dx = α , Γ(α) 0 λ 0 si tomamos entonces α =

k+1 2

x=v yλ=

u2 2k

+

1 2

se concluye la tesis. 10

Cap´ıtulo 2.

Muestreo aleatorio simple

Teorema 2.14. Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ), entonces σ2 1) Xn v N µ, . n 2) Xn y Sn2 son independientes. 3)

n−1 2 S v χ2n−1 . σ2 n

√ (Xn − µ) n v Tn . Sn Demostraci´ on. 4)

1) es inmediato 3) tomemos σ = 1, por inducci´ on en n, para n = 2 tenemos que 2 2 X1 + X2 X1 + X2 2 S2 = X1 − + X2 − 2 2 2 2 2 X1 − X2 X2 − X1 X1 − X2 √ = + = v χ21 , 2 2 2 n−1 (Xn − n o lo que es lo

2 supongamos cierto para n−1. Vamos a usar la igualdad (n−1)Sn2 = (n−2)Sn−1 +

Xn−1 )2 , como estamos tomando σ = 1 tenemos que ver que (n − 1)Sn2 v χ2n−1 2 2 2 mismo (n − 2)Sn−1 + n−1 n (Xn − Xn−1 ) v χn−1 , 2 2 2 por hip´ otesis de inducci´ on (n − 2)Sn−1 v χn−2 , adem´as n−1 n (Xn − Xn ) es independiente de 2 2 2 (n − 2)Sn−1 pues Xn es independiente de Sn−1 por la parte 2), y Xn es independiente de Sn−1 2 pues Sn−1 depende s´ olo de X1 , . . . , Xn y la muestra son un M.A.S. 2 2 Basta entonces ver que n−1 n (Xn − Xn ) v χ1 , 1 n n−1 Xn − Xn−1 v N 0, 1 + = N 0, ⇒ (Xn − Xn−1 )2 v χ21 , n−1 n−1 n y, como la suma de χ2 es tiene distribuci´on χ2 con la suma de los grados tenemos que χ2n−2 + χ21 v χ2n−1 . 11

Cap´ıtulo 2.

Muestreo aleatorio simple

4) Es inmediato a partir de 1,2 y 3. 2) Sn2 =

n X 1 (X1 − Xn )2 + (Xi − Xn )2 n−1 i=2

n n X X 1 2 = ( Xi − Xn ) + (Xi − Xn )2 , n − 1 i=2 i=2

hemos escrito entonces Sn2 en funci´ on de X2 − Xn , . . . , Xn − Xn , basta demostrar entonces que Xn es independiente de X2 − Xn , . . . , Xn − Xn . Consideremos Y1 = Xn , Y2 = X2 − Xn , . . . , Yn = Xn − Xn , y1 = xn , y2 = x2 − xn , . . . , yn = xn − xn y y = g(x1 , . . . , xn ) entonces   1 1 1 ... n n n  −1 1 − 1 ... − n1  n   n Jg =  . . ..   .. . 1 1 1 −n ... 1 − n −n Es f´ acil ver que det(Jg ) = 1/n, basta sumar la primer fila a las demas, y queda una matriz triangular superior con diagonal 1/n, 1, . . . , 1. x2 = y2 + y1 , . . . , xn = yn + y1 de donde ! X −1 g (y) = − yi − y1 , y2 + y1 , . . . , yn + y1 , 2

entonces 1 | det Jg (g −1 (y))| ( !) X X X 1 2 2 2 2 exp − y1 − 2y1 yi + ( yi ) + (yi + 2y1 yi + y1 ) 2 2 2 2 !) ( n n o X X 1 exp − y12 exp − ( yi ) 2 + yi2 . 2 2 2 2

fY (y) = fX (g −1 (y) =

n (2π)n/2

=

n (2π)n/2

Por lo tanto factorizamos respecto de y1 , iterando, son independientes. Observaci´ on 2.15. distribuci´ on de

Distribuci´ on F de Fisher: Sea X v χ2n e Y v χ2m independientes, la X/n Y /m

se denomina distribuci´ on F de Fisher de par´ametros n y m, y la anotamos F (n, m). A modo de motivaci´ on geom´etrica de la distribuci´on F de Fisher, vamos a enunciar el siguiente teorema. Teorema 2.16. Sea A el ´ angulo que forma un vector X v N (0, σ 2 ) en Rd con un subespacio R de dimensi´ on ρ, entonces ρ tan2 (A) v F (d − ρ, ρ) d−ρ

12

Cap´ıtulo 2.

Muestreo aleatorio simple

Observaci´ on 2.17. Si Z v F (n, m) entonces n n Γ n+m n 2 w 2 −1 2 fZ (w) = n+m I(0,+∞) (w) m Γ n2 Γ m n 2 1+ m w 2 2 Teorema 2.18. Sea X1 , . . . , Xn M.A.S. de X v N (µX , σX ) y Y1 , . . . , Yn M.A.S. de Y v N (µY , σY2 ) X e Y independientes, entonces 2 2 SX /σX v F (n − 1, m − 1) 2 2 SY /σY

Demostraci´ on. La demostraci´ on se sigue de la parte 3) y 2) del teorema 2.14

2.3.

Estad´ısticos de Orden para una M.A.S.

Definici´ on 2.19. Muestra Ordenada: Sea X1 , . . . , Xn una M.A.S. de X v FX , definimos X1:n = m´ın{X1 , . . . , Xn } X2:n = m´ın {X1 , . . . , Xn } \ {X1:n } .. . Xn:n = m´ın {X1 , . . . , Xn } \ {X1:n , . . . , Xn:n }

se tiene entonces que X1:n ≤ · · · ≤ Xn:n Teorema 2.20. Distribuci´ on de los percentiles: Sea X1 , . . . , Xn una M.A.S. de X absolutamente continua, entonces fXj:n (x) =

j−1 n−j n! fX (x) FX (x) 1 − FX (x) (j − 1)!(n − j)!

Demostraci´ on. FXj:n = P (Xj:n ≤ x) es decir, que al menos j variables sean menores o iguales uqe x. Consideremos Y la cantidad de observaciones que son menores o iguales que x, entonces Y v Bin(n, p) con p = FX (x). P (Xj:n ≤ x) = P (Y ≥ j) =

n X

P (Y = k) =

k=j

n X

Ckn FX (x)

k

1 − FX (x)

n−k

k=j

entonces, derivando y usando q = 1 − p n X

n! kpk−1 fX (x)q n−k − fX (x)(n − k)q n−k−1 pk (n − k)!k! k=j   n n−1 X X 1 1 = fX (x)n!  pk−1 q n−k − pk q n−k−1  (n − k)!(k − 1)! (n − k − 1)!k! k=j k=j   n n X X 1 1 = fX (x)n!  pk−1 q n−k − pk−1 q n−k  (n − k)!(k − 1)! (n − k)!(k − 1)!

fXj:n (x) =

k=j

k=j+1

1 = fX (x)n! pj−1 q n−j (n − j)!(j − 1)!

13

Cap´ıtulo 2.

Muestreo aleatorio simple

n−1 n−1 y fXmin (x) = nfX (x) 1 − FX (x) Observaci´ on 2.21. fXmax (x) = nfX (x) FX (x) Definici´ on 2.22. Si X tiene densidad f (x) =

Γ(α + β) α−1 x (1 − x)β−1 I(0,1) (x) decimos que X v Γ(α)Γ(β)

Beta(α, β) Observaci´ on 2.23. Si X v Beta(α, β) entonces E(X) = α/(α+β) y V ar(X) =

αβ . (α + β)2 (α + β + 1)

Observaci´ on 2.24. Si X1 , . . . , Xn es una M.A.S. de X v U[0,1] entonces Xj:n v Beta(j, n − j + 1).

14

Cap´ıtulo 3

Teor´ıa de la Estimaci´ on, m´ etodos de estimaci´ on 3.1.

Algunas definiciones previas

Consideremos el caso en que tenemos X1 , . . . , Xn M.A.S. de X v FX (x|θ) donde θ ∈ Rk es un par´ ametro desconocido. ˆ 1 , . . . , Xn ) : Ω −→ Rk Definici´ on 3.1. Sea θˆ : Rn −→ Rk medible, independiente de θ, entonces θ(X es un estimador de θ. Ejemplo 3.2. Si X v N (µ, σ 2 ) y θ = (µ, σ 2 ) entonces si definimos n

ˆ 1 , . . . , xn ) = θ(x

x1 + · · · + xn 1 X x1 + · · · + xn xi − , n n − 1 i=1 n

! : Rn −→ R2

entonces ˆ 1 , . . . , Xn ) = (Xn , S 2 ) θ(X n es un estimador de θ. Observemos que si bien θ es un vector, θˆ es un vector aleatorio a valores en Rk . Definici´ on 3.3. Si X1 , . . . , Xn es una M.A.S. de X v FX (X|θ) y θˆ es un estimador, decimos que P c.s. θˆ es debilmente consistente si θˆ −→ θ. Decimos que es fuertemente consistente si θˆ −→ θ Ejemplo 3.4. Si X v N (µ, σ 2 ) y θˆ = (Xn , Sn2 ) entonces θˆ es fuertemente consistente. Notaci´ on: Anotamos como (H) al conjunto de valores posibles, que puede tomar el par´ametro θ. Por ejemplo si X v N (µ, σ 2 ) θ = (µ, σ 2 ) entonces (H) = R × R+ .

3.2.

M´ etodo de los momentos

Si X1 , . . . , Xn es una M.A.S. de X v F (X|θ) y el sistema    E(X) =      E(X 2 ) =    ..  .       k    E(X ) = 15

θ = (θ1 , . . . , θk ) ∈ Rk y X ∈ L1 . Consideremos Xn n 1X 2 Xi n i .. . n 1X k Xi n i

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Los E(X k ) se llaman momentos poblacionales y las expresiones al otro lado de la igualdad, momentos muestrales. Los θi aparecen en los momentos poblacionales y si despejamos las k incognitas de las k ecuaciones obtenemos los estimadores. Dicho sistema no necesariamente tiene que tener soluci´on ni ser u ´nica. Observemos que por la ley fuerte, los estiamdores que se despejan para cada θi son consistentes. Ejemplo 3.5. Sea X1 , . . . , Xn M.A.S. de X v U[a,b] y θ = (a, b) entonces el m´etodo de los momentos es 1/2(b − a) = P Xn 1/12(b − a)2 + 1/4(a + b)2 = 1/n Xi2 =: M2 Si despejamos b en la primer ecuaci´ on y sustituimos en la segunda obtenemos las soluciones q q a = Xn ± 3(M2 − Xn ), b = Xn ± 3(M2 − Xn ) Como (H) = {(a, b) ∈ R2 : a < b} descartamos soluciones y nos queda q q a ˆ = Xn − 3(M2 − Xn ), ˆb = Xn + 3(M2 − Xn ). Teorema 3.6. M´ etodo de los momentos, existencia de soluci´ on: Si F : (H) ⊂ Rk −→ Rk 2 k es tal que F (θ1 , . . . , θn ) = (E(X), E(X ), . . . , E(X )), entonces, si F es inyectiva, F −1 y F son continuas y si Xn , M2 , . . . , Mk ∈ F (H) c.s. entonces los estimadores por momentos convergen c.s. a θ1 , . . . , θ k . Demostraci´ on. F (θ1 , . . . , θn ) = (M1 , . . . , Mk ) entonces (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ), como c.s.

M1 = Xn −→ E(X) .. . 1 X k c.s. Mk = Xi −→ E(X k ) n i y F −1 es continua entonces c.s. (θˆ1 , . . . , θˆk ) = F −1 (M1 , . . . , Mk ) −→

F −1 E(X), . . . , E(X k ) = F −1 F (θ1 , . . . , θk ) = (θ1 , . . . , θk ),

de donde θˆ es fuertemente consistente.

3.3.

M´ etodo de M´ axima Verosimilitud

Definici´ on 3.7. Funci´ on de Verosimilitud: Dada una M.A.S. de X v F (X|θ) θ ∈ (H) ⊂ Rk L(θ, x ˜) = L(θ, x ˜) =

n Y i=1 n Y

fX (xi |θ) si X es absolutamente continua pX (xi |θ) si es discreta

i=1

El m´etodo consiste entonces en hallar θ ∈ (H) donde se realice m´axθ∈(H) L(θ, x ˜), dicho θˆ es el estimador de m´ axima verosimilitud (E.M.V.) de θ. El m´etodo no asegura la existencia y/o unicidad ˆ de θ.

16

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Ejemplo 3.8. Sea X1 , . . . , Xn una M.A.S. de X v exp(λ) entonces la funci´on de verosimilitud para λ es n Y X L(λ) = λ exp{−λxi } = λn exp{−λ xi }, i=1

i

con xi ≥ 0 ∀i, derivando obtenemos ( 0

n−1

L (λ) = λ

!)

exp −λ

X

n−λ

xi

X

xi

,

n y por lo tanto, como λ 6= 0, si hacemos L0 (λ) = 0 obtenemos λ = P

=

i

i

i xi

el signo de L0 (λ) que es un m´ aximo.

1 , es f´acil ver, mirando Xn

Ejemplo 3.9. Sea X1 , . . . , Xn una M.A.S. de X v U[0,b] (H) = {b > 0}, la funci´on de verosimilitud es entonces ( ( n 1 1 Y 1 si 0 < x , . . . , x < b si b > m´ax{x1 , . . . , xn } 1 n n = L(b) = I[0,b] (xi ) = b bn b 0 si no 0 si no i=1 Como la funci´ on 1/bn es decreciente obtenemos que ˆb = xn:n = m´ax{x1 , . . . , xn }. Observaci´ on 3.10. Interpretaci´ on del m´ etodo: Para el caso discreto, si tenemos X1 , . . . , Xn una M.A.S. y X v pX (X|θ) entonces L(θ|˜ x) =

n Y

pX (xi |θ) =

i=1

n Y

P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ),

i=1

esto es, la probabilidad de que salga la muestra (x1 , . . . , xn ) en funci´on de θ. El m´etodo busca maximizar la probabilidad de obtener el resultado que efectivamente obtuve, el θ que haga que la muestra sea m´ as probable. Principio de invarianza del E.M.V.: Supongamos que tenemos un par´ametro θ ∈ (H) y g : (H) → R, y que estamos interesados en estimar g(θ) por el m´etodo de m´axima verosimilitud, es ˜ que haga que la muestra sea m´as probable. Queremos maximizar ˆ = g(θ) decir queremos encontrar M entonces L∗ (M |˜ x) = sup L(θ|˜ x), {θ:g(θ)=M }

ˆ ˆ = E.M.V. de g(θ), es decir donde se realiza el m´aximo de L∗ entonces M ˆ = g(θ) Veremos que si M siendo θˆ = E.M.V de θ. En efecto: ˆ |˜ L∗ (M x) = sup L∗ (M |˜ x) = sup M

ˆ x) L(θ|˜ x) = sup L(θ, x ˜) = L(θ|˜

sup

M {θ:g(θ)=M }

θ∈(H)

y ˆ x L∗ (g(θ), ˜) =

sup

ˆ x). L(θ|˜ x) = L(θ|˜

ˆ {θ:g(θ)=g(θ)}

ˆ es E.M.V. de g(θ). Entonces g(θ) Ejemplo 3.11. Sea X1 , . . . , Xn v Ber(p), el E.M.V. de p es pˆ = Xn , como σ 2 = p(1 − p) = g(p) por el Principio de Invarianza σ ˆ 2 = g(ˆ p) = pˆ(1 − pˆ). P Observaci´ on 3.12. Si h(θ) = log(L(θ)) = log(fX (xi |θ) podemos, dado que log(x) es una funci´ on creciente, tomar el θ que maximiza h(θ)

17

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Teorema 3.13. Consistencia del E.M.V.: Sea X1 , . . . , Xn i.i.d v f (x|θ) y θ ∈ (H) ⊂ R donde (H) es tal que si θ0 es el valor exacto de θ entonces ∃δ > 0 tal que (θ0 − δ, θ0 + δ) ⊂ (H), si h(θ) = log(L(θ)) es derivable como funci´on de θ y adem´as f (x|θ) = f (x|θ0 ) implica θ = θ0 c.s. entonces ∂ c.s. h(θˆn ) = 0 y θˆn −→ θ0 ∃θˆn ∈ (H) tal que ∂θ Demostraci´ on. h(θ0 ) − h(θ0 − δ) =

n X

log((f (xi |θ0 )) −

i=1

n X

log((f (xi |θ0 − δ))) =

i=1

n X i=1

log

f (xi |θ0 ) f (xi |θ0 − δ)

entonces h(θ0 − δ) − h(θ0 ) 1X = log n n

f (xi |θ0 − δ) f (xi |θ0 )

L.F.G.N.

−→

f (xi |θ0 − δ) E log c.s., f (xi |θ0 )

como − log es una funci´ on convexa, usando la desigualdad de Jensen y la inyectividad. f (xi |θ0 − δ) f (xi |θ0 − δ) E log < log E , f (xi |θ0 ) f (xi |θ0 ) por otro lado E

f (xi |θ0 − δ) f (xi |θ0 )

Z

+∞

= −∞

f (x|θ0 − δ) f (x|θ0 )dx = f (x|θ0 )

Z

+∞

f (x|θ0 )dx = 1. −∞

Luego el l´ımite anterior es negativo. Lo mismo para θ0 − δ. Definamos o n f (xi |θ0 ± δ) h(θ0 ± δ) − h(θ0 ) c.s. −→ E log h(θ0 ± δ) ∀n ≥ n0 , ∂ existe θˆn tal que h(θˆn ) = 0. Definamos ∂θ n o ∂ Bδ = ω ∈ Ω : ∃θˆn ∈ (θ0 − δ, θ0 + δ) y h(θˆn ) = 0 . ∂θ Como Aδ ⊂ Bδ tenemos que P (Bδ ), si tomamos δ = 1/n, ! ∞ \ P B1/n = 1. i=1 c.s. La sucesi´ on θˆn verifica θˆn −→ θ0 y es cero de

∂ ∂θ h.

Observaci´ on 3.14. El teorema anterior no asegura la existencia ni la unicidad del E.M.V. P

d

d

Lema 3.15. Lema de Slutsky: Si Xn −→ c y Yn −→ Y con c constante entonces Xn +Yn −→ c+Y d y Xn Yn −→ cY . d P Recordemos que Xn −→ c ⇔ Xn −→ c. Teorema 3.16. Normalidad asint´ otica del E.M.V: Sea X1 , . . . , Xn una M.A.S. de X v f (x|θ), supongamos que existe δ > 0 tal que (θ0 −δ, θ0 +δ) ∈ (H), si se cumplen, para todo θ ∈ (θ0 −δ, θ0 +δ) 1) ∃{θn } variables aleatorias tal que

∂ c.s. h(θn ) = 0 ∀n y θn −→ θ0 ∂θ

18

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on 2) E

3) E

∂3 ˜ con E(M (X)) ˜ < ∞. h(θ|˜ x) ≤ M (X) ∂θ3 ! ∂ ∂θ f (x|θ) = 0. f (x|θ) ∂2 ∂θ 2 f (x|θ)

4) E

f (x|θ)

5) i(θ) := E

! = 0.

∂ ∂θ f (x|θ)

f (x|θ)

Entonces

!2 > 0, el n´ umero i se denomina n´ umero de informaci´on de Fischer.

√

n θn − θ0

−→ N 0, d

1 i(θ0 )

Demostraci´ on. La demostraci´ on ser´ a una consecuencia de dos afirmaciones: 1 ∂ h(θ0 ) → N (0, i(θ0 )) Afirmaci´ on 1: √ n ∂θ √ 1 ∂ P Afirmaci´ on 2: n(θn − θ0 ) − √ h(θ0 ) −→ 0. ni(θ0 ) ∂θ Veamos primero c´ omo, a partir de estas afirmaciones, usando el Lema de Slutsky se concluye la tesis. En efecto, podemos escribir √ √ 1 ∂ 1 ∂ n(θn − θ0 ) = n(θn − θ0 ) − √ h(θ0 ) + √ h(θ0 ) ni(θ0 ) ∂θ ni(θ0 ) ∂θ Veamos la demostraci´ on de la Afirmaci´on 1: n

n

∂ ∂ f (xi |θ0 ) √ 1 X ∂θ f (xi |θ0 ) √ 1 X ∂θ 1 ∂ √ h(θ0 ) = √ = n = nZ n . n i=1 f (xi |θ0 ) n ∂θ n i=1 f (xi |θ0 )

E(Zi ) = 0 por la hip´ otesis 3) y V ar(Zi ) = E(Zi2 ) − E 2 (Zi ) = i(θ) > 0 por la hip´otesis 5). Luego, √ d si aplicamos el T.C.L. tenemos que nZ n −→ N (0, i(θ0 )). Lo que concluye la demostraci´on de la afirmaci´ on 1. Veamos la demostraci´ on de la Afirmaci´on 2: podemos escribir, usando el desarrollo de Taylor y la hip´ otesis 1, 0=

∂ ∂ ∂2 ∂3 (θn − θ0 )2 h(θn ) = h(θ0 ) + 2 h(θ0 )(θn − θ0 ) + 3 h(θˆn ) ∂θ ∂θ ∂θ ∂θ 2

donde θˆn ∈ [θ0 , θn ], despejando obtenemos θn − θ0 =

∂ − ∂θ h(θn ) ∂2 ∂3 ˆ (θn −θ0 ) 2 h(θ0 ) + 3 h(θn )

∂θ

y √

∂θ

2

√ ∂ − ∂θ h(θn ) n 1 1 ∂ ∂ h(θ0 ) = 2 −√ h(θ0 ) = n(θn − θ0 ) − √ 3 (θ −θ ) ∂ ∂ n 0 ˆ ni(θ0 ) ∂θ ni(θ0 ) ∂θ ∂θ 2 h(θ0 ) + ∂θ 3 h(θn ) 2 " # 1 ∂ −1 1 √ h(θ0 ) − 1 ∂2 1 ∂3 ˆ (θn −θ0 ) i(θ0 ) n ∂θ n ∂θ 2 h(θ0 ) + n ∂θ 3 h(θn ) 2

(3.1)

19

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on 1 ∂ d Nuevamente, como √ h(θ0 ) −→ N (0, i(θ0 )), por el lema de Slutsky, la afirmaci´on 2 queda n ∂θ demostrada si probamos que la expresi´ on entre [] tiende en probabilidad a 0 (o lo que es lo mismo, en distribuci´ on a 0). Sabemos que (θn − θ0 ) P 1 ∂3 h(θˆn ) −→ 0, n ∂θ3 2 P

P

donde hemos usado que si Xn −→ 0 y si E(Yn ) ≤ k ∀n entonces Xn Yn −→ 0. 2 2 ! ∂ ∂ n n ∂ f (x|θ ) f (x |θ ) − f (x |θ ) 2 X X 2 0 i 0 i 0 ∂θ ∂θ 1 1 ∂ 1 ∂ ∂θ f (xi |θ0 ) h(θ0 ) = = . 2 n ∂θ2 n i=1 ∂θ f (xi |θ0 ) n i=1 f (xi |θ0 ) Si aplicamos ahora la L.F.G.N el promedio anterior tiende a su esperanza, que es, aplicando la hip´ otesis 4:   !2 ∂2 ∂ f (x |θ ) f (x |θ ) i 0 i 0  f (x|θ)  ∂θ2 E = −i(θ0 )  − E ∂θ 2 f (x|θ) f (x|θ0 ) de donde se concluye que la expresi´ on entre [] en 3.1. converge en probabilidad a 0 como quer´ıamos demostrar. Observaci´ on 3.17. Sobre las hip´ otesis del teorema anterior 1) Es la t´esis del Teorema 3.13. ! Z +∞ ∂ Z +∞ ∂ ∂ ∂θ f (x|θ) ∂θ f (x|θ) = f (x|θ)dx = f (x|θ)dx, observemos que si pudiera3) E f (x|θ) f (x|θ) ∂θ −∞ −∞ Z +∞ ∂ ∂ mos aplicar convergencia dominada f (x|θ)dx = 1 = 0. ∂θ −∞ ∂θ 4) An´ alogo a 3). 5) Por 3), 5) es pedir que

3.4.

∂ ∂θ f (x|θ)

f (x|θ)

no sea constante.

m´ etodo de estimaci´ on por cuantiles

Definici´ on 3.18. Cuantil o percentil p: Sea X v.a., dado p ∈ (0, 1) el cuantil p es xp = ´ınf x ∈ R : FX (x) ≥ p Observaci´ on 3.19. xp existe, y es m´ınimo Demostraci´ on. Es el infimo de un conjunto acotado inferiormente, por lo tanto existe. Si {xn } es tal que F (xn ) ≥ p y xn → p, como F es continua por derecha l´ım F (xn ) = F (l´ım xn ) = F (xp ) ≥ p. n

n

Definici´ on 3.20. Percentil emp´ırico: Sea X1 , . . . , Xn M.A.S. de X, consideremos la muestra ordenada X1∗ = X1:n ≤ · · · ≤ Xn∗ = Xn:n , entonces ∗ Xnp si np ∈ N Xˆp = ∗ X[np]+1 si np ∈ /N 20

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Pk El m´etodo consiste en plantear la funci´on g(θ) = i=1 (Xˆpi − xpi )2 donde los pi y k son cualesquiera. Lo que se busca es el m´ınimo de g(θ). El argumento que minimiza g(θ) sera θˆ y depender´a de los cuantiles emp´ıricos Xˆpi . Ejemplo 3.21. Si X v (µ, σ 2 ), entonces fX (x|µ, σ 2 ) =

1

πσ 1 +

x−µ 2 σ

.

Es f´ acil ver que E(X) = ∞ y que su mediana es µ. Vamos a estimar θ = (µ, σ 2 ) por el m´etodo ˆ 0,25 , Q2 = X ˆ 0,5 y Q3 = X ˆ 0,75 , estimadores de los cuartiles. de cuantiles. Tomamos k = 4, Q1 = X Entonces, la funci´ on a minimizar es g(µ, σ 2 ) = (Q1 − x0,25 )2 + (Q2 − x0,5 )2 + (Q3 − x0,75 )2 Calculemos los cuartiles x0,25 , x0,5 y x0,75 en funci´on de µ y σ. 1 1 x−µ 2 FX (x|µ, σ ) = + arctan 2 π σ x−µ π Si hacemos FX (x|µ, σ 2 ) = 0,25 entonces arctan = − de donde x = µ − σ. An´alogamente σ 4 x0,5 = µ y x0,75 = µ + σ (estos valores se calculan facilmente a partir de x0,25 usando la paridad de fX ). Luego, la funci´ on a minimizar resulta entonces g(µ, σ 2 ) = (Q1 − µ + σ)2 + (Q2 − µ)2 + (Q3 − µ − σ)2 Derivando esta funci´ on respecto de µ y de σ, el gradiente resultante se anula en µ ˆ=

3.5.

Q1 + Q2 + Q3 3

σ ˆ=

Q3 − Q1 2

Estimaci´ on de la funci´ on de Distribuci´ on

Definici´ on 3.22. Distribuci´ on Emp´ırica: Sea X1 , . . . , Xn M.A.S. de X v FX donde FX es desconocida, la distribuci´ on emp´ırica se define como n

Fn∗ (x) =

1X I(−∞,x] (Xi ) n i=1

Observemos que en cada x nos da la proporci´on de observaciones menores o iguales que x, y que, para x y n fijos, Fn∗ (x) es una v.a. Observemos ademas que si xi 6= xj ∀i 6= j los incrementos de Fn∗ son n , y de tama˜ no 1/n. c.s.

Proposici´ on 3.23. Fn∗ (x) −→ F (x) ∀x ∈ R. Demostraci´ on. Es una consecuencia inmediata de la L.F.G.N a las variables I(−∞,x] v Ber(p) con p = FX (x). Teorema 3.24. Teorema fundamental de la Estad´ıstica, Glivenko-Cantelli, 1937: Sea X1 , . . . , Xn una M.A.S. de X v FX entonces c.s. kFn∗ − FX k∞ = sup Fn∗ (x) − FX (x) −→ 0 x∈R

. Demostraci´ on. Para la demostraci´ on vamos a necesitar el siguiente lema: ∗ Lema 3.25. Yn = supx∈R Fn (x) − FX (X) es una v.a., es decir, es medible.

21

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on Demostraci´ on. Basta demostrar que {Yn ≤ δ} ∈ A f orallδ. {Yn ≤ δ} = |Fn∗ (x) − FX (x)| ≤ δ ∀x ∈ R = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ ∀x ∈ R \ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ x∈R

Basta demostrar que \ \ F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ = F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ x∈R

x∈Q

Fijemos x ∈ R, dado ε > 0 ∃y ∈ Q, y ≥ x tal que 1) Fn∗ (y) − Fn∗ (x) ≤ ε pues Fn∗ es continua por derecha. 2) F (y) − F (x) ≤ ε pues F es continua por derecha. 3) F (y) − δ ≤ Fn∗ (y) ≤ F (y) + δ. Podemos escribir entonces x≤y

3

x≤y

1

3

2

F (x) − δ − ε ≤ F (y) − δ − ε ≤ Fn∗ (y) − ε ≤ Fn∗ (x) ≤ Fn∗ (y) ≤ F (y) + δ ≤ F (x) + ε + δ y por lo tanto F (x) − δ − ε ≤ Fn∗ (x) ≤ F (x) + ε + δ ∀ε > 0 entonces F (x) − δ ≤ Fn∗ (x) ≤ F (x) + δ. lo cual concluye la demostraci´ on del lema. Veamos la demostraci´ on del teorema, para el caso continuo, dado x ∈ R sea Ax = {ω ∈ Ω : F (x)}. Por la proposici´ on anterior sabemos que P (Ax ) = 1 para todo x. Luego l´ımn Fn∗ (x) = T P x∈Q Ax = 1. T Sea A := x∈Q Ax , basta ver que A ⊂ {ω ∈ Ω : l´ımn supx∈R |Fn∗ (x) − FX (x)|0}. Sea ε > 0. Como l´ımx→+∞ F (x) = 0 existe k1 ∈ Q tal que ∀x < k1 F (x) < ε. Como l´ımx→+∞ F (x) = 1 existe k2 ∈ Q tal que ∀x > k2 1 − F (x) < ε. Como F es uniformemente continua en [k1 , k2 ] existe k1 ≤ x2 < . . . < xm ≤ k2 ∈ Q tal que F (xk+1 ) − F (xk ) < ε para todo k = 2, . . . , m − 1. Luego si tomamos −∞ = x0 < x1 = k1 < x2 < . . . < xm < xm+1 = k2 < +∞ = xm+2 se verifica que F (xk+1 ) − F (xk ) < ε para todo k = 0, . . . , m + 1. Si x ∈ R existe k ∈ {0, . . . , m + 2} tal que xk ≤ x ≤ xk+1 entonces 1

2

Fn∗ (x) ≤ Fn∗ (xk+1 ) ≤ F (xk+1 ) + ε F (x) + ε + ε = F (x) + 2ε, donde 1 es porque xk+1 ∈ Q y hemos tomado ω ∈ A. Esta desigualdad vale para n > n0 , que no depende de x. La desigualdad 2 se sigue de que F (xk+1 ) ≤ F (xk ) + ε ≤ F (x) + ε. Razonando de forma an´ aloga llegamos a que, para n > n1 , para todo x tenemos que F (x) − 2ε ≤ Fn∗ (x) ≤ F (x) + 2ε de donde l´ım sup |Fn∗ − F | = 0.

n→+∞

22

Cap´ıtulo 3. Teor´ıa de la Estimaci´on, m´etodos de estimaci´on

3.6.

Convergencia casi segura de Percentiles

Teorema 3.26. Dado p ∈ (0, 1) tal que ∀ε > 0 F (xp + ε) > p entonces el percentil emp´ırico c.s. Xˆp,n x p . Demostraci´ on. Observemos que Fn∗ (Xˆp,n )

=

1 n np = p 1 n ([np] +

1) → p

si np ∈ N . si np ∈ /N

n n dado ε > 0 sabemos que Fn∗ (xp + ε) −→ F (xp + ε) > p c.s. y Fn∗ (Xˆp.n ) −→ p por lo tanto ∀n ≥ n0 se c.s. n cumple que Fn∗ (Xˆp,n ) < Fn∗ (xp + ε), de donde Xˆp,n < xp + ε. Adem´as Fn∗ (xp − ε) F (xp − ε) < p c.s ˆ p,n −→ y, razonando de forma an´ aloga xp − ε < xp . Por lo tanto X xp .

23

Cap´ıtulo 4

Evaluaci´ on de Estimadores Definici´ on 4.1. Estimador insesgado: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) y T = Tn (X1 , . . . , Xn ) estimador de g(θ) con g a valores reales, conocida. Decimos que Tn es insesgado si E(Tn ) = g(θ) ∀θ ∈ (H) n

Tn es asint´ oticamente insesgado si E(Tn ) −→ g(θ) Definici´ on 4.2. Sesgo de un estimador: Se define el sesgo de un estimador Tn como E(Tn )−g(θ) 2 Definici´ on 4.3. Error cuadr´ atico medio: Se define E.C.M (Tn ) = E Tn − g(θ) Es claro que si Tn es un estimador insesgado E.C.M.(Tn ) = V (Tn ), es natural entonces, tomar estimadores con E.C.M. m´ınimo. Definici´ on 4.4. Estimador de m´ınima varianza: Sea Tn un estimador de g(θ) tal que Tn ∈ L2 , decimos que es insesgado en θ0 ∈ (H), de varianza m´ınima si i) Tn es insesgado en θ0 ii) Si Tn0 ∈ L2 es insesgado en θ0 V arθ0 (Tn ) ≤ V arθ0 (Tn0 ). R Observaci´ on 4.5. Eθ Tn (X1 , . . . , Xn ) = Rn Tn (x1 , . . . , xn )dFX (x|θ) Observaci´ on 4.6. Si no pedimos que que Tn sea insesgado, cualquier constante es de m´ınima varianza. Teorema 4.7. Tn es insesgado de minima varianza en θ0 si y solo si Eθ0 (f (X1 , . . . , Xn )Tn (X1 , . . . , Xn )) = 0 para toda f (x1 , . . . , xn ) a valores reales, tal que Eθ (f ) = 0. Demostraci´ on. Para demostrar el teorema ser´a necesario el siguiente lema Lema 4.8. Tn es insesgado de m´ınima varianza en θ0 si y solo si Tn es insesgado y V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) para todo λ ∈ R , para todo f tal que Eθ0 (f ) = 0. Demostraci´ on. Veamos el directo, sea λ y f tal que Eθ0 (f ) = 0, Tn0 = Tn + λf es insesgado pues E(Tn + λf ) = E(Tn ) + λE(f ) = E(Tn ) = g(θ). Como Tn es de m´ınima varianza V arθ0 (Tn ) ≤ V arθ0 (Tn0 ). Para demostrar el rec´ıproco consideremos Tn0 insesgado, entonces Tn0 = Tn + (Tn0 − Tn ), tomemos f = Tn0 − Tn y λ = 1 entonces E(f ) = 0, luego, por hip´otesis V arθ0 (Tn ) ≤ V arθ0 (Tn + λf ) = V arθ0 (Tn0 ).

24

Cap´ıtulo 4. Evaluaci´on de Estimadores Veamos ahora la demostraci´ on del teorema. Por el lema basta ver que V arθ (Tn ) ≤ V arθ0 (Tn +λf ) si y solo si Eθ0 (f Tn ) = 0. V arθ0 (Tn + λf ) = V ar(Tn ) + λ2 V (f ) + 2λcov(Tn , f ) ≥ V arθ0 (Tn ) ∀λ ∈ R ⇔λ2 V arθ0 (f ) + 2λcov(Tn , f ) ≥ 0 ∀λ ∈ R ⇔p(λ) = λ2 V arθ0 2λcov(Tn , f ) ≥ 0 ⇔ cov(Tn , f ) = 0, de lo contrario p tendr´ a 2 raices. cov(Tn , f ) = E(Tn f ) − E(Tn )E(f ) = 0 ⇔ E(Tn f ) = 0.

Definici´ on 4.9. Estimador insesgado de m´ınima varianza uniformemente: Tn es estimador I.M.V.U. si es insesgado de varianza m´ınima ∀θ ∈ (H). Ejemplo 4.10. Sea X1 , . . . , Xn M.A.S. de X v exp(λ), θ = 1/λ. Un estimador de θ es Xn , veamos c.s. que es de m´ınima varianza. Sabemos que Xn −→ E(X) = 1/λ = θ. Si f es tal que E(f ) = 0 para todo θ. Z X E(f ) = f (x1 , . . . , xn )λn exp{−λ xi }dx1 . . . dxn = 0 [0,+∞)n

entonces

Z f (x1 , . . . , xn ) exp{−λ

X

xi }dx1 . . . dxn = 0 ∀λ ∈ R.

[0,+∞)n

Veamos que E(f Xn ) = 0. Z E(f Xn ) =

f (x1 , . . . , xn ) [0,+∞)n

Z ⇔

n X 1 X xi exp{−λ xi }dx1 . . . dxn = 0 n i=1 X ∂ f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0 ∂λ X f (x1 , . . . , xn ) exp{−λ xi } dx1 . . . dxn = 0

f (x1 , . . . , xn ) [0,+∞)n

Z ⇔ [0,+∞)n

⇔

n X 1 X n xi λ exp{−λ xi }dx1 . . . dxn = 0 n i=1

∂ ∂λ

Z

[0,+∞)n

Ejemplo 4.11. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Consideremos Xn estimador de p. Veamos que es de m´ınima varianza, sea f tal que E(f ) = 0 X

E(f ) =

(x1 ,...,xn

=

(x1 ,...,xn

)∈{0,1}n

n X

X

n Y i=1 P

)∈{0,1}n

X

=

f (x1 , . . . , xn )

f (x1 , . . . , xn )p

P

f (x1 , . . . , xn )p

p(xi |p) P

xi

P

xi

xi

(1 − p)n−

xi

(1 − p)n−

k=0 x1 +···+xn =k

=

n X k=0

"

# X

f (x1 , . . . , xn ) pk (1 − p)n−k = 0

x1 +···+xn =k

25

Cap´ıtulo 4. Evaluaci´on de Estimadores Tenemos entonces un polinomio de grado a lo sumo n con mas de n raices, y por lo tanto todos sus coeficientes son nulos. Luego si calculamos ! n X X k k f (x1 , . . . , xn ) p (1 − p)n−k = 0 E(f Xn ) = n k=0

x1 +···+xn =k

Teorema 4.12. Desigualdad de Cramer-Rao: Sea X1 , . . . , Xn M.A.S. de X v fX (x|θ). Si Tn es un estimador insesgado de g(θ). Asumiremos que estamos en las hip´otesis de derivaci´on dentro de la integral, es decir que ! Z n Y ∂ ∂ Tn E(Tn ) = fX (xi |θ) dx1 . . . dxn ∂θ Rn ∂θ i=1 y ∂ ∂θ

Z

n Y

Z fX (xi |θ)dxi =

Rn i=1

Rn

entonces

n ∂ Y fX (xi |θ)dxi , ∂θ i=1

g 0 (θ)

V ar(Tn ) ≥ nE

∂ ∂θ f (x|θ)

2 .

f (x|θ)

Adem´ as, el igual se da si y solo si existe λ = λ(n, θ) tal que c.s.

Tn (X1 , . . . , Xn ) − g(θ) = λ

n X

∂ ∂θ f (xi |θ)

i=1

f (xi |θ)

.

Demostraci´ on. Z n Y ∂ ∂ g (θ) = E(Tn ) = Tn (x1 , . . . , xn ) fX (x|θ)dx1 . . . dxn ∂θ ∂θ Rn i=1 # " Z n Y ∂ fX (xi |θ) dx1 . . . dx n Tn (x1 , . . . , xn ) = Rn ∂θ i=1 Z n ∂ Y = Tn (x1 , . . . , xn ) − g(θ) fX (xi |θ)dx1 . . . dxn ∂θ i=1 Rn r Qn Z ∂ Yn fX (xi |θ) ∂θ Tn (x1 , . . . , xn ) − g(θ) = fX (xi |θ) pQni=1 dx1 . . . dxn i=1 Rn i=1 fX (xi |θ) 0

26

Cap´ıtulo 4. Evaluaci´on de Estimadores entonces, si aplicamos la desigualdad de Cauchy-Schwartz g 0 (θ)

Z

2

≤

Tn − g(θ)

n 2 Y

Rn

Z fX (xi |θ)

i=1

Rn

2 Qn ∂ ∂θQ i=1 fX (xi |θ) n i=1 fX (xi |θ)

2 Qn Z ∂ ∂θQ i=1 fX (xi |θ) =V (Tn ) n Rn i=1 fX (xi |θ) 2 !2 Q n ∂ f (x |θ) X i ∂θQ i=1 =V (Tn )E n i=1 fX (xi |θ) !2 n Y ∂ =V (Tn )E log fX (xi |θ) ∂θ i=1 2 ∂ log(fX (xi |θ)) =V (Tn )E ∂θ !2 X ∂ f (xi |θ) ∂θ =V (Tn )E . f (xi |θ) Definamos g(Xi ) = E

X

∂ ∂θ f (xi |θ)

f (xi |θ)

.

X X X 2 g(Xi ) = E g 2 (Xi ) + 2 g(Xi )g(Xj ) = nE g(Xi )2 + 2 E g(Xi )g(Xj ) . i6=j

i6=j

Basta ver que E g(X )g(X ) = 0 para todo i = 6 j. Como son independientes E g(X )g(X ) = i j i j E g(Xi ) E g(Xj ) . Z

∂ ∂θ f (xi |θ)

f (xi |θ)dx f (xi |θ) Z ∂ f (xi |θ)dx = 0. = R ∂θ

E(g(Xi )) =

R

Para ver cuando se da el igual, observemos que hemos usado la desigualdad de Cauchy-Schwartz, por lo tanto el igual se da si y solo si existe λ = λ(n, θ) independiente de x1 , . . . , xn tal que Q qY ∂ fX (xi |θ) ∂θ (Tn − g(θ)) fX (xi |θ) = λ pQ fX (xi |θ) y esto sucede si y solo si ∂ ∂θQ

Y X ∂ fX (xi |θ) ∂ log fX (xi |θ) = λ log fX (xi |θ) =λ fX (xi |θ) ∂θ ∂θ

X

∂ ∂θ fX (xi |θ)

Q

Tn − g(θ) =λ =λ

fX (xi |θ)

Definici´ on 4.13. Estimador eficiente: Si Tn es un estimador insesgado para g(θ) y cumple el igual en la desigualdad de Cramer-Rao se dice que es eficiente Observaci´ on 4.14. Si θˆ es un estimador de θ, θˆ es eficiente si y solo si i) θˆ es insesgado 27

Cap´ıtulo 4. Evaluaci´on de Estimadores 1

ˆ = ii) V ar(θ) nE

∂ ∂θ f (x|θ)

2

f (x|θ)

Observaci´ on 4.15. Observemos que si θˆ es eficiente, es de m´ınima varianza (entre el conjunto de estimadores que estan el las hip´ otesis del Teorema de Cramer-Rao). Podria no existir un estimador eficiente, adem´ as, existen estimadores de m´ınima varianza que no cumplen la igualdad. Ejemplo 4.16. Sea X1 , . . . , Xn M.A.S. de X v Ber(p), Xn es insesgado y adem´as !2 ! 2 ∂ −1 1 1 1 ∂p p(x|p) nE p+ (1 − p) = n =n = , 2 p(x|p) p 1−p p(1 − p) V ar(X) por lo tanto pˆ = Xn es eficiente. Como Xˆn es eficiente es de m´ınima varianza varianza ya que X es de recorrido finito. Definici´ on 4.17. Estimador Suficiente: Dada X1 , . . . , Xn M.A.S. de X v F (x|θ) y T (X1 , . . . , Xn ) estimador, decimos que T es suficiente para θ si y solo si FX1 ,...,Xn |T no depende de θ. Pn Ejemplo 4.18. Sea X1 , . . . , Xn M.A.S. tal que X v Ber(p) entonces T = i=1 Xi es un estimador suficiente para estimar p. Demostraci´ on. pX1 ,...,Xn |T =t (x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |T = t) = ( P 0 si t 6= xi P P (X1 =x1 )...P (Xn =xn ) si t = xi P (T =t) P

P (X1 , . . . , Xn , T = t) = P (T = t)

P

(1 − p)n− xi = n Ct pt (1 − p)n−t 1 = n. Ct p

xi

Que no depende de p, hemos usado que T v Bin(n, p). Teorema 4.19. T es suficiente para θ si y solo si L(˜ x|θ) =

Qn

i=1

f (xi |θ) = g T (˜ x), θ h(˜ x)

Demostraci´ on. (Caso discreto:) L(˜ x|θ) =

n Y i=1

pX (xi |θ) =

n Y

P (X = xi |θ) = P (X1 = x1 , . . . , Xn = xn |θ) =

i=1

Pθ (X1 = x1 , . . . , Xn = xn |T = t)P (T = t) = h(˜ x)g(T (˜ x, θ)) Veamos el rec´ıproco, supongamos que P (T = t) > 0. P (X1 = x1 , . . . , Xn = xn , T = t) P (T = t) ( 0 si t 6= T (˜ x) = P (X1 =x1 ,...,Xn =xn ) si t = T (˜ x) P (T =t)

P (X1 = x1 , . . . , Xn = xn |T = t) =

Para el caso en que t = T (˜ x) P (X1 = x1 , . . . , Xn = xn ) g(T (˜ x))h(˜ x) =P . y ), θ)h(˜ y) y˜:T (˜ y )=t P (X1 = y1 , . . . , Xn = yn ) y˜:T (˜ y )=t g(T (˜

P (X1 = x1 , . . . , Xn = xn |T = t) = P

28

Cap´ıtulo 4. Evaluaci´on de Estimadores Observemos que, dado que estamos en el caso T (˜ x) = t y g(T (˜ x), θ) = g(t, θ) = g(T (˜ y ), θ). Por lo tanto h(˜ x) P (X1 = x1 , . . . , Xn = xn |T = t) = P . y) y˜:T (˜ y )=t h(˜ Que no depende de θ. Ejemplo Sea X1 , . . . , Xn M.A.S. de X v N (µ, σ 2 ). Estimamos µ y σ 2 , consideremos T (˜ x) = P P 4.20. 2 ( xi , xi ) = (T1 , T2 ). n Y 1 1 √ L(˜ x|(µ, σ)) = exp − 2 (xi − µ)2 σ 2πσ i=1 ( ) n 1 1 X 2 = exp − 2 (xi − µ) 2σ i=1 (2π)n/2 σ n ( n ) n X X 2 −n 2 2 = (2πσ ) 2 exp xi − 2µ xi + nµ i=1 −n 2

= (2π)

i=1

1 σ −n exp − 2 T2 − 2µT1 + nµ2 . 2σ

Por lo tanto si definimos n 1 x), (µ, σ 2 ) = σ −n exp − 2 T2 − 2µT1 + nµ2 . h(˜ x) = (2π)− 2 y g T (˜ 2σ De donde T es suficiente. Observaci´ on 4.21. Siempre existe un estimador suficiente, basta tomar T (˜ x) = x ˜ y h constante. Esto significa que tener toda la muestra es suficiente. Ejemplo 4.22. Si X1 , . . . , Xn es una M.A.S. de X v U [a, b], estimamos (a, b). Q 1 si a < xi < b b−a L x ˜|(a, b) = 0 si no (b − a)n si a < xi < b = 0 si no (b − a)n si a < x1:i ; xn:n < b = 0 si no (b − a)n si a < T1 ; T2 < b = 0 si no

Luego T (˜ x) = (T1 , T2 ) es suficiente. Observaci´ on 4.23. Si T es fuciente, el E.M.V. es funci´ on de un estimador suficiente, ya que en este caso L(˜ x|θ) = g(T (˜ x), θ)h(˜ x), y, al maximizar en θ como h no var´ıa, podemos maximizar solamente en g(T (˜ x), θ) Definici´ on 4.24. Estimador suficiente minimal: T estimador suficiente, es minimal si para todo T 0 estimador suficiente, T es funci´ on de T 0 . Teorema 4.25. Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ), si T es un estimador que cumple: L(˜ x|θ) no depende de θ ⇔ T (˜ x) = T (˜ y) L(˜ y |θ) entonces T es suficiente minimal. 29

Cap´ıtulo 4. Evaluaci´on de Estimadores Demostraci´ on. Veamos primero que T es suficiente, podemos escribir, tomando y˜ tal que T (˜ y) = T (˜ x) L(˜ x|θ) L(˜ y |θ) = h(˜ x)L(˜ y |θ) = h(˜ x)g T (˜ x), θ) . L(˜ x|θ) = L(˜ y |θ) Por lo tanto, por el teorema anterior, T es suficiente ya que hemos podido factorizar la funci´on de verosimilitud. Veamos que T es minimal, sea T 0 suficiente, podemos escribir entonces L(˜ x|θ) = g 0 T 0 (˜ x), θ h0 (˜ x). Sea x ˜ y y˜, T 0 (˜ x) = T 0 (˜ y ) entonces g 0 (T 0 (˜ x), θ)h0 (˜ x) h0 (˜ x) L(˜ x|θ) = 0 0 = , L(˜ y |θ) g (T (˜ y ), θ)h0 (˜ y) h0 (˜ y) que no depende de θ, entonces, usando el directo de nuestra hip´otesis tenemos que T (˜ x) = T (˜ y ). Hemos demostrado que cada ves que T 0 (˜ x) = T 0 (˜ y ) entonces T (˜ x) = T (˜ y ). Veamos que esto implica que T = f (T 0 ). Definimos para z ∈ / Im(T 0 ) f (z) cualquier cosa, y para z ∈ Im(T 0 ) entonces 0 z = T (x) y f (z) := T (x). Definici´ on 4.26. Estad´ıstico Completo: T se dice completo si toda vez que tenga una funci´on g tal que Eθ g(T ) = 0 para todo θ ∈ (H) implica que g(T ) = 0 c.s. Ejemplo 4.27. Sea X1 , . . . , Xn M.A.S. de X v U (0, θ) veamos que θˆ = xn:n es completo. Z

+∞

E(g(T )) =

Z g(t)fT (t)dt =

−∞

0

θ

n tn−1 1 g(t)n n−1 dt = n θ θ θ

Z

θ

tn−1 g(t)dt,

0

Rθ luego E(g(T )) = 0 si y solo si 0 tn−1 g(t)dt = 0 lo cual implica que g(t) = 0, ya que esta integral es derivable c.s., θn−1 g(θ) = 0 entonces g(θ) = 0 para todo θ. Definici´ on 4.28. funci´ on de P´ erdida: Sea (H) y L : (H) × (H) −→ R que verifica i) L(u, v) = L(v, u) para todo u, v ∈ (H). ii) L(u, v) = 0 si y solo si u = v. iii) L es convexa, es decir, para todo p, q ∈ (H) × (H) L(λp + (1 − λ)q) ≤ λL(p) + (1 − λ)L(q). se denomina funci´ on de p´erdida. Observaci´ on 4.29. Si L es C 2 es convexa si y solo si H(x,y) L es semidefinido positivo Definici´ on 4.30. funci´ on de riesgo: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) y θ ∈ (H) desconocida, dado T (X1 , . . . , Xn ) estimador de θ y L una funci´on de perdida, definimos la funci´on de riesgo R(θ, T ) = E L(θ, T ) . Definici´ on 4.31. Estimador de riesgo m´ınimo, uniformemente entre los insesgados: T es E.R.M.U entre los insesgados si dado T 0 estimador insesgado se cumple que R(θ, T ) ≤ R(θ, T 0 ) ∀ θ ∈ (H). Teorema 4.32. entonces

Rao-Blackwell: Si σ(X1 , . . . , Xn ) es insesgado y T (X1 , . . . , Xn ) es suficiente, η(X1 , . . . , Xn ) = E σ(X1 , . . . , Xn )|T (X1 , . . . , Xn ) ,

entonces R(θ, η) ≤ R(θ, σ). 30

Cap´ıtulo 4. Evaluaci´on de Estimadores Demostraci´ on. R(θ, η) = E L(θ, η) = E L(θ, E(σ|T )) = E L(E(θ, σ|T )) ≤ E E(L(θ, σ)|T ) = E L(θ, σ) . Donde hemos usado la desigualdad de Jensen. Observaci´ on 4.33. En la demostraci´ on anterior, la hip´ otesis de que T es suficiente es necesaria para que η sea un estimador de θ. Observaci´ on 4.34. η es insesgado E(η) = E(E(σ|T )) = E(σ) = θ. Lema 4.35. Sea T suficiente, y ψ T (X on de 1 , . . . , Xn ) tal que si f T (X1 , . . . , Xn ) es una funci´ T insesgada entonces ψ T (X1 , . . . , Xn ) = f T (X1 , . . . , Xn ) c.s. entonces ψ(T ) es uniformemente de m´ınimo riesgo entre los insesgados. Demostraci´ on. Sea σ insesgado, por Rao-Blackwell, como T es suficiente R(θ, η) ≤ R(θ, σ), sea η = E(σ|T ) es una funci´ on de T y es insesgado entonces por hip´otesis f (T ) = ψ(T ) c.s.. Entonces η = ψ(T ), y R(θ, ψ(T )) ≤ R(θ, σ), donde σ es arbitrario dentro de los insesgados, por lo tanto ψ es uniformemente de m´ınimo riesgo. Lema 4.36. Si T es completo y f (T (X1 , . . . , Xn )) ψ(T (X1 , . . . , Xn )) son insesgados entonces entonces f (T (X1 , . . . , Xn )) = ψ(T (X1 , . . . , Xn )) c.s. Demostraci´ on. E(f (T ) − ψ(T )) = 0 para todo θ ∈ (H), como T es completo, tomamos g(T ) = f (T ) − ψ(T ) entonces E(g(T )) = 0 para todo θ ∈ (H), entonces g = 0 c.s.. Teorema 4.37. 1) Si T es suficiente y completo y σ es insesgado entonces E(σ|T ) minimiza el riesgo uniformemente entre los insesgados. 2) Si T es suficiente, completo e insesgado entonces T minimiza el riesgo uniformemente entre los insesgados. Demostraci´ on. 1) Sea ψ(T ) = E(σ|T ), entonces ψ es insesgado ya que σ lo es. Si f (T ) es insesgado, por el Lema 4.36 f (T ) = ψ(T ) c.s., entonces, por el Lema 4.35 ψ(T ) minimiza el riesgo uniformemente entre los insesgados. 2) Tomamos σ = E(T |T ) = T y se concluye usando la parte anterior. Ejemplo 4.38. Sea X1 , . . . , Xn M.A.S. de X v Ber(p). Entonces pˆ = Xn es uniformemente de m´ınimo riesgo entre los insesgados. Como ya vimos pˆ es insesgado y suficiente como ya vimos, veamos que es completo. X 0 = E(g(ˆ p)) = g(x)P (X1 = x1 , . . . , Xn = xn ) x1 ,...,xn ∈{0,1}

=

=

n X

X

g

k=0 x1 +···+xn =k n X k k

g

k=0

n

= (1 − p)n

k pk (1 − p)n−k n

p (1 − p)n−k Ank = 0 ∀p

X k p k k! g . n 1−p (n − k)! 31

Cap´ıtulo 4. Evaluaci´on de Estimadores Como p ∈ (0, 1) y tomamos t = p/(1−p). Luego, tenemos un polinomio de grado n, en t con infinitas raices, entonces g(k/n) = 0, para todo k, y para todo n, entonces g(T ) = 0 es 0 c.s.

32

Cap´ıtulo 5

Estimacin por intervalos de confianza Definici´ on 5.1. Intervalo de confianza: Dada X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ desconocido, θ ∈ R. Un intervalo de confianza al nivel 1 − α con α ∈ (0, 1) es I = L(X1 , . . . , Xn ), U (X1 , . . . , Xn ) , donde L y U son estimadores y P (θ ∈ I) = 1 − α. Ejemplo 5.2. Construccin de intervalos de confianza: Sea X v N (µ, σ 2 ) con σ 2 conocido, tomamos θ = µ. Buscamos un intervalo de la forma X n − k, X n + k . Debemos hallar k tal que P (µ ∈ I) = 1 − α, entonces 1 − α =P (X n − k ≤ µ ≤ X n + k) =P (µ − k ≤ X n ≤ µ + k) µ−k−µ µ+k−µ √ √ =Φ −Φ σ/ n σ/ n √ √ − nk nk =Φ −Φ σ σ √ nk =2Φ − 1, σ

donde en la tercer igualdad hemos usado que X v N (µ, σ 2 /µ) y en la ltima la paridad de Φ. Por lo tanto obtuvimos que √ √ nk nk 1 − α/2 = Φ entonces = φ−1 (1 − α/2), σ σ y por lo tanto tomamos

σ k = √ Φ−1 (1 − α/2). n

Notacin: Anotaremos Zp = Φ−1 (p), con esta notacin el intervalo de confianza del ejemplo anterior es σ σ X n − √ Z1−α/2 , X n + √ Z1−α/2 . n n 33

Cap´ıtulo 5.

Estimacin por intervalos de confianza

Ejemplo 5.3. Se X v N (µ, σ 2 ) con σ 2 desconocido, y θ = µ, buscamos un intervalo de la forma X n − kSn , X n + kSn . √ n|X n − µ| √ P (µ ∈ I) = P |X n − µ| ≤ kSn = P ≤ nk . Sn Recordemos que √ n(X n − µ) v Tn−1 , Sn entonces √ √ P (µ ∈ I) =P − nk ≤ T ≤ nk √ √ =FT ( nk) − FT (− nk) √ =2FT ( nk) − 1 = 1 − α, donde hemos usado la simetra de F . Despejando obtenemos k=

t1−α/2 (n − 1) FT−1 (1 − α/2) √ √ = , n n

donde usamos la notacin FT−1 (p) = tp (n − 1) donde n − 1 son los grados de libertad. Por lo tanto el intervalo de confianza para µ al nivel 1 − α es Sn Sn I = X n − √ t1−α/2 (n − 1), X n + √ t1−α/2 (n − 1) . n n c.s.

Obervemos que como Sn −→ σ entonces √ n(X n − µ) d Tn = −→ N (0, 1), Sn

tp (n − 1) → Zp .

Ejemplo 5.4. Si X ∈ L2 cualquiera con E(X) = µ y V ar(X) = σ 2 , si n es grande, en vista de las observaciones anteriores, un intervalo de confianza aproximado, para µ al nivel 1 − α es Sn Sn X n − √ Z1−α/2 , X n + √ Z1−α/2 . n n Ejemplo 5.5. Si X v N (µ, σ 2 ) con µ desconocido, tomamos θ = σ 2 , busquemos a y b tal que P aSn2 ≤ σ 2 ≤ bSn2 = 1 − α, Recordemos que (n − 1)

Sn2 v χ2n−1 , σ2

entonces P (σ 2 /b ≤ Sn2 ≤ σ 2 /a) = P

(n − 1)Sn2 n−1 (n − 1) ≤ ≤ 2 b σ a

=F

n−1 a

−F

n−1 b

,

Basta elegir a tal que F ((n − 1)/a) = 1α/2 y b tal que F ((n − 1)/b) = α/2, de donde a=

n−1 χ21−α/2 (n

− 1)

b=

n−1 , − 1)

χ2α/2 (n

2 2 donde hemos usado la notacin Fχ−1 con (n − 1) grados de 2 (p) = χp (n − 1), para la distribucin χ libertad. Luego el intervalo es " # n−1 n − 1 S2 , . I= χ21−α/2 (n − 1) n χ2α/2 (n − 1)

34

Cap´ıtulo 5.

Estimacin por intervalos de confianza

Ejemplo 5.6. Sea X v Ber(p) con nqgrande tomemos θ = p, si aproximamos usando el T.C.L. es facil ver, como σ 2 = p(1 − p) y Sn = X n (1 − Xn ), nos queda el intervalo q q  Xn (1 − Xn ) Xn (1 − Xn ) √ √ I = Xn − Z1−α/2 , Xn + Z1−α/2  n n 

Ejemplo 5.7. Aplicacin del T.C.L.: Intervalos de confianza aproximados para µ = E(X) cuando σ 2 = f (µ). Consideremos X1 , . . . , Xn M.A.S. de X ∈ L2 y g : R −→ R clase C 1 . Si g 0 (µ) 6= 0, veamos √ d que n(g(Xn − g(µ)) −→ N (0, (σg 0 (µ))2 ) : √ √ √ n(g(Xn − g(µ)) = ng 0 (Cn )(Xn − µ) = g 0 (Cn ) n(Xn − µ), c.s.

con Cn ∈ [Xn , µ] o Cn ∈ [µ, Xn ], sabemos que g 0 (Cn ) −→ g 0 (µ) y tanto usando el lema de Slutsky

√

d

n(Xn − µ) −→ N (0, σ 2 ), por lo

35

Cap´ıtulo 6

Pruebas de hip´ otesis Supongamos que queremos saber si una moneda est´a balanceada o no. Se tira 100 veces y obtenemos 54 caras, debemos tomar una decisi´on entre H0 : p = 1/2

donde p = P (cara)

H1 : p 6= 1/2. Definici´ on 6.1. Test de hip´ otesis: Dada X1 , . . . , Xn M.A.S. de FX (x|θ) con θ desconocido, un test de hip´ otesis es decidir entre 2 hip´ otesis; H0 : θ ∈ A

hip´otesis nula

H1 : θ ∈ B

hip´otesis alternativa

donde suponemos que A, B ⊂ (H) y A ∩ B = ∅. Definici´ on 6.2. Regi´ on Cr´ıtica: La regi´on critica, que anotaremos como RC ⊂ Rn con n el tama˜ no de la muestra, es la zona de rechazo de H0 . Definici´ on 6.3. Regla de decisi´ on: Si (x1 , . . . , xn ) ∈ RC entonces rechazo H0 , en caso contrario si (x1 , . . . , xn ) ∈ / RC no rechazo H0 (acepto H0 ). Ejemplo 6.4. En nuestro ejemplo de la moneda es natural tomar RC = (x1 , . . . , xn ) ∈ {0, 1}n ⊂ Rn : |Xn − 1/2| ≥ k Definici´ on 6.5. Errores de tipo 1 y 2: * error tipo 1: rechazar H0 siendo cierta * error tipo 2: aceptar H0 siendo falsa, H1 es cierta. Definici´ on 6.6. Significaci´ on de una prueba: α = sup Pθ (X1 , . . . , Xn ) ∈ RC = P ( error tipo 1 ). θ∈A

Definici´ on 6.7. Probabilidad del error tipo 2: definimos, para θ ∈ B β(θ) = PH1 (X1 , . . . , Xn ) ∈ / RC = P ( error tipo 2 ). Definici´ on 6.8. Potencia de la prueba: se define como π(θ) = P (X1 , . . . , Xn ) ∈ RC 36

∀θ

Cap´ıtulo 6. Pruebas de hip´otesis Observaci´ on 6.9. π(θ) = 1−β(θ) si θ ∈ B y π(θ) ≤ α si θ ∈ A. En particualr si A es θ0 π(θ0 ) = α. Ejemplo 6.10. Para el caso de la moneda, si tomamos α = 0,05 es decir el 5 %, entonces σ 2 = 1/4. α = P1/2 (X1 , . . . , Xn ) ∈ [1/2 − k, 1/2 + k]c = P1/2 Xn ∈ [1/2 − k, 1/2 + k]c = P 20(Xn − 1/2) ∈ [−20k, 20k]c = 1 − Φ(20k) + Φ(−20k) = 2 − 2Φ(20k) √

donde hemos usado la aproximaci´ on de 100 σ (Xn − 1/2) por una N (0, 1). Obtenemos entonces 20k = Z0,975 de donde k = 0,098. Tenemos entonces la regi´on cr´ıtica RC = (x1 , . . . , xn ) ∈ Rn : |xn − 1/2| ≥ 0,098 . Como |0, 54 − 1/2| no es mayor o igual que 0,98 no rechazo H0 al nivel 5 %. Observaci´ on 6.11. La decisi´ on depende fuertemente del nivel al que trabajo. Concretamente si elegimos α = 0, es decir, la probabilidad de rechazar H0 siendo cierto es 0 siempre acpeto H0 . Calculemos β(p) con p ∈ H1 = {1/2}c con β(p) = Pp (RC c ) = Pp (|Xn − 1/2| < 0,098) = P (0,402 < Xn < 0,598)     0,402 − p  0,598 − p  ∼ − Φ √ = Φ √ p(1−p) 100

p(1−p) 100

Donde hemos usado que Xn v N p, p(1−p) . 100 Observaci´ on 6.12. Si construimos una RC con un nivel dado α entonces puedo controlar el error de tipo 1, y no el error de tipo 2, podria decirse entonces que el error de tipo 1 es mas grave. Observaci´ on 6.13. En general, uno define la regi´ on cr´ıtica a partir de un estimador insesgado RC = {|θˆ − θ0 | ≥ k}. Observaci´ on 6.14. Al permitir variar el tama˜ no de la muestra uno puede fijar los errores α y β y hallar un n que verifique las igualdades. Observaci´ on 6.15. Como el error de tipo 1 es m´ as grave, al rechazar H0 uno debe estar seguro (tener evidencia) de que H0 es falso. No rechazar H0 implica que no hay suficiente evidencia emp´ırica para decir que H0 es falso. No es que se acepte H0 .

6.1.

´ Regi´ on Cr´ıtica Optima, Teorema de Neyman-Pearson

Teorema 6.16. Neyman-Pearson: Sea X1 , . . . , Xn M.A.S. de X v FX (x|θ) absolutamente continua, y el test

( Sea Sk =

n Y f (xi , θ1 ) i=1

f (xi |θ0 )

H0 :

θ = θ0

H1 :

θ = θ1

) ≥ k , si k es tal que PH0 (Sk ) = PH0 (X1 , . . . , Xn ) ∈ Sk = α,

entonces Sk es entre todas las RC de nivel α la que tiene menor β (m´axima potencia). 37

Cap´ıtulo 6. Pruebas de hip´otesis Demostraci´ on. Sea β = Pθ1 (Skc ) y β0 = Pθ1 (S0c ) donde S0 es otra RC de nivel α, entonces β − β0 = Pθ1 (Skc ) − Pθ1 (S0c ) Z Y Z n = f (xi |θ1 )dx1 . . . dxn − Skc i=1

Z =

n Y

n Y

"Z

f (xi |θ1 )dx1 . . . dxn −

=

Z f (xi |θ0 )dx1 . . . dxn −

Skc \S0c i=1 "Z n Y

n Y

# f (xi |θ0 )dx1 . . . dxn

S0c ∩Sk i=1 n Y

Z

f (xi |θ0 )dx1 . . . dxn −

Skc i=1 k Pθ0 (Skc )

f (xi |θ1 )dx1 . . . dxn

S0c ∩Sk i=1

n Y

≤k

n Y

Z

Skc \S0c i=1

=k

f (xi |θ1 )dx1 . . . dxn

S0c i=1

#

f (xi |θ0 )dx1 . . . dxn

S0c i=1

− Pθ0 (S0c ) = k[1 − α − (1 − α)] = 0.

Luego β ≤ β0 , como β0 es arbitrario β es m´ınimo. Ejemplo 6.17. Hallar la forma de la RC ´optima para el caso X v N (µ, 1) y el problema

n Y f (xi |µ1 ) i=1

f (xi |µ0 )

=

n Y

1

2

e− 2 (xi −µ1 )

+ 12 (xi −µ0 )2

H0 :

µ = µ0

H1 :

µ = µ1

1

= e− 2

Pn

2 2 i=1 (xi −µ) +(xi −µ0 )

1

= e− 2 (2µ0 −2µ1 )

Pn

i=1

xi +n(µ21 −µ20 )

i=1

n Y f (xi |µ0 )

f (xi |µ1 ) i=1

≥ kˆ ⇔ (µ1 − µ0 )

n X

xi + n(µ21 − µ20 ) ≥ kˆ

i=1

⇔ n(µ1 − µ0 )xn + n(µ21 − µ20 ) ≥ kˆ kˆ ˜ ⇔ (µ1 − µ0 )xn ≥ − (µ21 − µ20 ) = k. n n Por lo tanto la regi´ on cr´ıtica es: Si µ0 > µ1 RC = (x1 , . . . , xn ) ∈ Rn : xn ≤ n o ˜ k y si µ1 > µ0 la regi´ on cr´ıtica es RC = (x1 , . . . , xn ) ∈ Rn : xn ≥ µ0 −µ 1

˜ k µ0 −µ1

o

Ejemplo 6.18. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y el problema H0 :

µ = µ0

H1 :

µ = µ1

con µ0 < µ1 . Vamos a hallar la RC ´ optima. Como es ´optima, del ejemplo anterior sabemos que tiene la forma {xn ≥ k}, vamos a hallar k tal que P (RC) = α. PH0 (Xn ≥ k) = 1 − PH0 (Xn ≤ k) = 1 − PH0

√ Xn − µ0 √ ≤ n(k − µ0 ) 1/ n

= 1−Φ

Luego si despejamos obtenemos

√

n(k − µ0 ) = Z1−α entonces k = µ0 +

√

n(k − µ0 ) = α.

Z1−α √ . n

38

Cap´ıtulo 6. Pruebas de hip´otesis Observaci´ on 6.19. Si fuese H0 :

µ = µ0

H1 :

µ > µ1

Resulta una RC ´ optima de la misma forma (observar que el hecho de que H1 : µ = µ1 se usa s´ olo cuando µ1 − µ > 0). En este caso decimos que es una RC uniformemente ´ optima o uniformemente de m´ axima potencia. Observaci´ on 6.20. Si fuese H0 : µ ≤ µ0 H1 : µ > µ1 Resulta la misma region cr´ıtica que en el caso anterior. Observemos ademas que se calcula α = on Pµ∈H0 (Xn ≥ k) crece con µ y el supremo es en µ0 . sup PH0 (Xn ≥ k) la funci´ Corolario 6.21. Corolario de Neyman-Pearson, en las hip´otesis del teorema, α + β ≤ 1 Demostraci´ on. c

Z

β = PH1 (S ) =

n Y

Z f (xi |θ1 )dx1 . . . dxn ≤ k

n Y

f (xi |θ0 )dx1 . . . dxn =

S c i=1

S c i=1

k 1−

Z Y n

f (xi |θ1 )dx1 . . . dxn = k(1 − α),

S i=1

si k ≤ 1 entonces β ≤ 1 − α de donde α + β ≤ 1, si k ≥ 1 1 − β = PH1 (S) =

Z Y n

f (xi |θ1 )dx1 . . . dxn ≥ k

Z Y n

f (xi |θ0 )dx1 . . . dxn = kα,

S i=1

S i=1

como k ≥ 1 entonces 1 − β ≥ kα ≥ α de donde α + β ≤ 1. Teorema 6.22. Consideremos X1 , . . . , Xn una M.A.S. de X v FX (x|θ) absolutamente continua, y la prueba

y k = kn es tal que PH0

n Y f (Xi |θ1 ) i=1

Demostraci´ on. log

f (Xi |θ0 )

n Y f (Xi |θ1 ) i=1

!

f (Xi |θ0 )

n Y 1 f (Xi |θ1 ) log n f (Xi |θ0 ) i=1

=

H0 :

µ = µ0

H1 : !

µ = µ1

≥ kn

n X

= α entonces βn → 0.

log

i=1

!

y por la L.F.G.N.

f (X|θ1 ) −→E log f (X|θ0 ) f (X|θ1 ) < log E f (X|θ0 ) Z f (x|θ1 ) = log f (x|θ0 )dx = log(1) = 0. f (x|θ0 ) c.s.

f (Xi |θ1 ) f (Xxi |θ0 )

39

Cap´ıtulo 6. Pruebas de hip´otesis Donde en la primera desigualdad usamos Jensen (estricta porque log es estrictamente c´oncava), y en la siguiente igualdad hicimos el supuesto de H0 cierto, es decir θ = θ0 . Tenemos entonces que n X f (Xi |θ1 ) c.s. −→ −∞. log f (Xi |θ0 ) i=1 Luego, para todo ε > 0 tomando α = ε, y para todo m ∈ N existe n0 tal que ∀n ≥ n0 ! n X f (Xi |θ1 ) P < −m ≥ 1 − ε = 1 − α. log f (Xi |θ0 ) i=1 Llamemos

( Sn =

)

n Y f (Xi |θ1 )

≥ kn

f (Xi |θ)

i=1

y ( An,m

n X

log

i=1

f (Xi |θ) f (Xi |θ)

)

< −m .

Si tomamos ω ∈ An,m ∩ Sn entonces log(Kn ) ≤

n X

log

i=1

f (Xi (ω)|θ1 ) f (Xi (ω)|θ0 )

< −m,

luego, tenemos que ∀ m ∈ N, ∃n0 tal que ∀n ≥ n0 log(kn ) < −m de donde kn → 0. Observemos que Sn ∩ ARn,mQ6= ∅ ya que P (SnR) +QP (An,m ) > α + 1 − α > 1, luego, se intersectan. c Como βn = PH1 (Snc ) = S c f (xi |θ)dx ≤ kn n f (xi |θ)dx → 0. n

Corolario 6.23. Consideremos el caso particular H0 :

Sea Sn =

nQ n

f (xi |θ1 ) i=1 f (xi |θ0 )

θ = θ0

H1 : θ = θ1 o ≥ 1 entonces αn + βn → 0

Pn P i |θ1 ) Demostraci´ on. Si H0 es cierto entonces i=1 log ff (X −→ −∞, de donde αn = PH0 (Sn ) = (Xi |θ0 ) P n n f (Xi |θ1 ) PH 0 i=1 log f (Xi |θ0 ) ≥ 0 −→ 0. Pn P (Xi |θ0 ) Si H1 es cierto entonces i=1 log ff (X −→ −∞. i |θ1 ) β n = PH 1

n X i=1

6.2.

log

f (Xi |θ1 ) f (Xi |θ0 )

! ≤0

−→ 0.

Familias con cociente de verosimilitud mon´ otono

Definici´ on 6.24. Familia con C.V.M.: Una familia de densidades f (·|θ) con θ ∈ (H) ⊂ R tiene C.V.M. si Qn L(˜ x|θ) i=1 f (xi |θ) Q = = g T (˜ x) , n 0 0 L(˜ x|θ ) i=1 f (xi |θ ) donde g : R −→ R es estrictamente creciente, θ > θ0 , y T = Tn es un estimador. Observemos que g depende de n de θ y de θ0 40

Cap´ıtulo 6. Pruebas de hip´otesis Ejemplo 6.25. f (·|θ) es una familia exponencial (para θ ∈ (H) ⊂ R) si n Y

f (xi |θ) = Cn eQ(θ)t(˜x) h(˜ x)

con Cn (θ) > 0,

i=1

si Q es estrictamente creciente la familia tiene C.V.M.: x) Cn (θ) eQ(θ)t(˜x) h(˜ Cn (θ) t(˜x) Q(θ)−Q(θ0 ) L(˜ x|θ) = = e = g(t(˜ x)) L(˜ x|θ0 ) Cn (θ0 ) eQ(θ0 )t(˜x) h(˜ x) Cn (θ0 ) (θ) s Q(θ)−Q(θ 0 ) e , luego, g es una funci´on creciente de s. con g(s) = CCnn(θ 0) Teorema 6.26. Sea X1 , . . . , Xn M.A.S. de X con densidad f (·|θ) perteneciente a una familia con C.V.M, sea T (˜ x) absolutamente continua y θ ∈ (H) ⊂ R, consideremos H0 : θ ≤ θ 0 H1 : θ > θ 0 Si R = {˜ x ∈ Rn : T (˜ x) ≥ k} donde k es tal que R sea R.C. de nivel α, entonces R es R.C. uniformemente de m´ axima potencia. Demostraci´ on. En el conjutno {θ : θ ≤ θ0 } ⊂ (H) defino αk (θ) = α(θ) = Pθ (R). Probaremos que α es creciente y por lo tanto supθ∈H0 α(θ) = α(θ0 ), de donde el k de la hip´otesis es tal que Pθ0 (T (˜ x) ≥ k) = α. Consideremos la prueba H0 : θ = θ 0 H1 : θ = θ00 Con θ00 > θ0 . Por lo tanto aplicando el teorema de Neyman Pearson a esta prueba obtenemos la regi´ on cr´ıtica ´ optima ) ( n Y f (xi |θ00 ) 0 ≥ k = {T (˜ x) ≥ g −1 (k 0 )}, 0) f (x |θ i i=1 en esta igualdad hemos usado que g es creciente, llamemos k 00 = g −1 (k 0 ). Para esta prueba α+β ≤ 1, α = Pθ0 ({T (˜ x ≥ k)}) = α(θ0 ) y β = Pθ00 ({T (˜ x) ≥ k 00 }c ) = 1 − Pθ00 ({T (˜ x) ≥ k 00 }) = 1 − α(θ00 ). 0 00 0 00 0 00 Entonces α(θ ) + 1 − α(θ ) ≤ 1 y por lo tanto α(θ ) ≤ α(θ ). Como θ y θ son arbitrarios se deduce que α creciente. Veamos ahora que R es ´ optima, es decir, uniformemente de m´axima potencia. Supongamos por ˆ < βR (θ), ˆ sabemos que absurdo, que existe otra S RC de nivel α tal que existe θˆ > θ0 y βS (θ) supθ≤θ0 αS (θ) = α ya que hemos supuesto que S es RC de nivel α, por lo tanto αS (θ0 ) ≤ α. Consideremos la prueba H0 : θ = θ 0 H1 : θ > θ 0

(6.1)

Sea S 0 = {T (˜ x) ≥ k} con k 0 tal que αS 0 (θ0 ) = αS (θ0 ), (tal k 0 existe porque hemos supuesto que T es absolutamente continua). Como hemos supuesto que la familia tiene C.V.M. sabemos por el teorema de Neyman Person que S 0 es uniformemente de m´axima potencia para la prueba 6.1. ˆ ≤ βS (θ). ˆ Como αS (θ0 ) ≤ α = αR (θˆ0 ) o Entonces βS 0 (θ) ≤ βS (θ) ∀θ ≥ θ0 . En particular βS 0 (θ) 0 lo que es lo mismo Pθ0 (T (˜ x) ≥ k ) ≤ Pθ0 (T (˜ x ≥ k) obtenemos que k ≤ k 0 , pero esto contradice ˆ ˆ βS 0 (θ) ≤ βS (θ) ya que esto es equivalente a que Pθˆ({T (˜ x) ≥ k 0 }c ) < Pθˆ({T (˜ x) ≥ k}c ) ya que esto 0 implica k ≥ k .

41

Cap´ıtulo 6. Pruebas de hip´otesis

6.3.

M´ etodo de la raz´ on de verosimilitud para RC:

Consideremos X1 , . . . , Xn M.A.S. de X v FX (x|θ) con θ ∈ (H) ⊂ Rk y la prueba H0 : θ ∈ A ⊂ (H) H1 : θ ∈ /A Planteamos una RC de la forma supθ∈A L(˜ x|θ) n ≤k . R= x ˜∈R : supθ∈H L(˜ x|θ) Observemos que para hip´ otesis simples H0 : θ = θ0 y H1 : θ = θ1 se obtiene sup L(˜ x|θ) = L(˜ x|θ0 ) = θ∈A

n Y

f (xi |θ0 )

i=1

y

sup L(˜ x|θ) = θ∈(H)

   x|θ0 ) =   L(˜    x|θ1 ) =  L(˜

n Y i=1 n Y

f (xi |θ0 ) de donde R = ∅ f (xi |θ1 )

i=1

Entonces, la RC de de la raz´ on de verosimilitud queda ) ( n Y f (xi |θ0 ) n ≤k x ˜∈R : f (xi |θ1 ) i=1 que es la RCO del teorema de Neyman Pearson. Ejemplo 6.27. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1) y la prueba H0 : µ = µ0 H1 : µ 6= µ0 Hallaremos la RC de la razon de verosimilitud. Tenemos que sup L(˜ x|µ) = L(˜ x|x) µ∈R

y L(˜ x|µ) = entonces

1 √ 2π

n

(

n

1X 2 n 2 exp − x − µ 2 i=1 i 2

) exp{nµx}

nµ2 0

2 nµ2 2 n L(˜ x|θ0 ) e− 2 +nµ0 x − 2 0 +nµ0 x− nx 2 = = e = e− 2 (µ0 −x) 2 nx 2 − +nx L(˜ x|x) e 2 si planteamos la regi´ on critica

L(˜ x|θ0 ) n ≤ k ⇔ − (x − µ0 )2 ≤ L(k) = k 0 ⇔ |x − µ0 | ≥ k 00 L(˜ x|x) 2 por lo tanto la regi´ on cr´ıtica es de la forma RC = {˜ x ∈ Rn : |x − µ0 | ≥ k} Proposici´ on 6.28. Consideremos la prueba H0 : θ ∈ A ⊂ (H) H1 : θ ∈ /A α(˜ x) =

supθ∈A L(˜ x|θ) supθ∈A g(T (˜ x), θ)h(˜ x) supθ∈A g(T (˜ x), θ) = = = β(T (˜ x)) supθ∈(H) L(˜ x|θ) supθ∈(H) g(T (˜ x), θ)h(˜ x) supθ∈(H) g(T (˜ x, θ)) 42

Cap´ıtulo 6. Pruebas de hip´otesis

6.4.

Pruebas de Bondad de ajuste

Se tiene una M.A.S. X1 , . . . , Xn de X v FX desconocida. Dada F0 una distribuci´on, (conocida o no) se queire tomar una decisi´ on acerca de si X distribuye como F0 o no, es decir, H0 : FX = F0 H1 : FX 6= F0

6.4.1.

Test de χ2 :

Consideremos la prueba H 0 : FX = F0 H1 : FX 6= F0 Dado k ∈ N elijo I1 , . . . , Ik intervalos en R tal que Ii = (ai−1 , ai ], I1 = (−∞, a1 ] y Ik = (ak , +∞] tal que Ii ∩ Ij = ∅ si i 6= j, y ∪ki=1 Ii = R. Si H0 es cierto P (X ∈ Ij ) = F0 (aj ) − F0 (aj−1 ) = F0 (Ij ), c.s. dada X1 , . . . , Xn M.A.S. de X definimos Fn∗ la distribuci´on emp´ırica, sabemos que Fn∗ (Ij ) −→ FX (Ij ). Sea bj la cantidad de observaciones en Ij . Si tomo los valores esperados (bajo H0 cierto) en Pk el intervalo Ij := Ej = nF0 (Ij ), consideremos T = i=1 (bj − Ej )2 . Es razonable entonces construir la RC = {T ≥ k}. P (a −E )2

d

j j , bajo la hip´otesis H0 , se prueba que Tn −→ χ2k−1 . Luego si α = Si definimos Tn = Ej PH0 (Tn ≥ k), se aproxima con la distribuci´on de una χ2k−1 y se halla un k aproximado.

6.4.2.

Test de Kolmogorov-Smirnov

Consideremos H0 : FX = F0 completamente conocidaH1 ; FX 6= F0 tomemos RC = {supx∈R |Fn∗ (x) − F0 (x)| ≥ k}, por Gilvenco−Cantelli Fn∗ converge uniformemente a F0 (x). Para conocer la distribuci´ on de supx∈R |Fn∗ (x) − F0 (x)| tneemos el siguiente teorema. Teorema 6.29. Kolmogorov: Si Dn = supx∈R |Fn∗ (x) − F0 (x)| entonces, si F0 es continua l´ım P

n→+∞

√

∞ X 2 2 (−1)n−1 e−2n z nDn ≤ z = 1 − 2 n=1

Definici´ on 6.30. Dada una prueba de hip´otesis H0 : θ ∈ A H1 : θ ∈ /A cuya regi´ on cr´ıtica sea RC = {T ≥ k} con T = T (X1 , . . . , Xn ) estimador de θ, el p − valor es ˜ ≥ T (˜ sup P T (X) x) θ∈A

Ejemplo 6.31. Sea X1 , . . . , Xn M.A.S. de X v N (µ, 1), consideremos la prueba H0 : µ = µ0 = 0 H1 : µ 6= µ0 = 0 Sabemos que RC = {|xn ≥ k} entonces T (X) = |Xn | el p − valor es √ √ √ PH0 (|Xn ≥ |x) = 1 − PH0 (|Xn | ≤ |x|) = 1 − Φ( n|x|) + Φ(− n|x|) = 2 1 − Φ( n|x|) 43

Cap´ıtulo 6. Pruebas de hip´otesis Proposici´ on 6.32. Si los supremos se realizan en un mismo θ0 ∈ A, α < p − valor ⇔ no rechazo H0 al nivel α. ˜ ≥ k) , Demostraci´ on. Si α < p − valor entonces hallamos k tal que α = supθ∈A P ( T (X ˜ ≥ k < sup P T (X ˜ ≥ T (˜ α = sup P T (X) x) θ∈A

θ∈A

˜ ≥ k < Pθ P T (X) ˜ ≥ T (˜ α = sup P T (X) x) 0

θ0

de donde T (˜ x) < k por lo tanto x ˜ ∈ / RC y no rechado H0 . El razonamiento es an´alogo si α > p − valor. Observaci´ on 6.33. La propiedad se cumple si H0 es simple (θ = θ0 ), o en el caso de concientes de verosimilitud mon´ otonos.

6.5.

An´ alisis de Varianza, (ANOVA)

Supongamos que tenemos {Yij } observaciones, con i = {1, . . . , k} y j = {1, . . . , nj } y que Yij v N (θi , σ 2 ) para todo i, j. Queremos testear si los θi son todos iguales o no. El supuesto de que σ 2 es la misma se llama homocedasticidad. Supongamos que las variables Yij son independientes. Para cada i ∈ {1, . . . , k} definimos n 1 X Yij , Yi = ni j=1 y n

Si2 =

i 1 X (Yij − Yij )2 . ni − 1 j=1

Sabemos que (ni − 1) 2 Si v χ2ni −1 σ2 P Observaci´ on 6.34. Si A = {a = (a1 , . . . , ak ) ∈ Rk : ai = 0} entonces X θ1 = · · · = θk ⇔ ∀a ∈ A, ai θi = 0 Yi v N (θi , σ 2 /ni )

Demostraci´ on. El directo es inmediato, veamos el rec´ıproco, tomemos a1 = 1, a2 = −1, a3 = · · · = ak = 0 entonces θ1 − θ2 = 0 y as´ı sucesivamente θ1 = · · · = θk . Pk P Observaci´ on 6.35. Si defino Sp2 = N 1−k i=1 (ni − 1)Sik con N = ni . entonces k

N − k 2 X (ni − 1) 2 Sp = Si v χ2N −k . 2 σ2 σ i=1 Adem´ as k X i=1

ai Yi v N

k X i=1

Pk ai θi ,

2 2 i=1 ai σ ni

! .

P Se puede demostrar que Sp2 y ai Yi son independientes, luego, si recordamos que si X v N (0, 1) es independiente de χ2n entonces X p v tn χ2n /n

44

Cap´ıtulo 6. Pruebas de hip´otesis obtenemos que k X k a i θi ai Yi − X ai (Yi − θi ) i=1 i=1 √ Pk 2 σ i=1 i=1 ai /ni q = qP v tN −k (N −K) 2 k 2 /n S /(N − k) S a 2 p i p i=1 i σ k X

Supongamos que a ∈ A fijo, y α ∈ (0, 1) tenemos X H0 : ai θi = 0 H1 : no H0 Consideremos la regi´ on cr´ıtica, ( RC =

) P | ai Yi | pP >m , Sp ai /ni

α = PH0 (RC) = PH0

! P | ai Yi | pP >k , Sp ai /ni

como estamos bajo H0 si utilizamos la observaci´on anterior α = 1 − P (−m < T < m), con T v tN −k , y por lo tanto 1 − α/2 = F (m), k = t1−α/2 (N − k). Nos planteamos ahora la siguiente prueba H0 : θ 1 = · · · = θ k H1 : noH0 y esto es si y solo si H0 :

X

ai θi = 0 ∀a ∈ A

H1 : noH0 P ai Yi 2 Tomo el estad´ıstico Ta = pP 2 , resulta natural plantear la regi´on cr´ıtica RC = sup Ta > k . Sp ai /ni a∈A Debemos entonces hallar la distribuci´ o n de sup T bajo la hip´ o tesis H cierto. Llamemos Ci = Yi 0 a∈A a P ni Ci y Ci = N . P ai √ 2 2 P √ (Ci − C) ni a C 1 n i i i P sup Ta2 = sup P = sup , Sp a∈A ai /ni ai /ni a∈A a∈A P donde hemos usado que ai C = 0, si aplicamos la desigualdad de Cauchy-Schwartz P ai √ 2 P 2 P √ (Ci − C) ni X ai /ni ni (Ci − C)2 ni P P ≤ sup = ni (Ci − C)2 . sup ai /ni ai /ni a∈A a∈A Obtuvimos una cota para el supremo, veamos que se alcanza, si tomamos ai = cteni (Ci −C) es claro P que ai = 0, entonces el supremo se alcanza. (Basta observar que la igualdad en Cauchy-Schwartz se da en ese caso). sup Ta2 =

a∈A

Pk

i=1

ni (Yi − Y )2 Sp2

Pk donde

Y =

i=1

N

ni Yi

,

45

Cap´ıtulo 6. Pruebas de hip´otesis recordemos que χ2n /n v F (n, m), χ2m /m se puede demostrar que

k X

ni (Yi − Yi )2 v χ2k−1 y por lo tanto

i=1

σ 2 χ2k−1 > cte 2 2 a∈A σ χN −k /(N − k) sup

⇔

χ2k−1 /(k − 1) v F (k − 1, N − k) ≥ cte/(k − 1). χ2N −k /(N − k)

Planteamos α = PH0 (RC) = 1 − PH0 F (k − 1, N − k) ≤

cte entonces k−1

cte = F1−α (k − 1, N − k)(k − 1).

Finalmente, obtuvimos la regi´ on cr´ıtica ( ) k 1 X 2 RC = ni (Yi − Yi ) ≥ F1−α (k − 1, N − k)(k − 1) . Sp i=1

46

Cap´ıtulo 7

Modelos Lineales 7.1.

Variable Normal Multivariada

Definici´ on 7.1. Dado un vector aleatorio (X1 , . . . , Xn ) recordemos que el (µ1 , . . . , µn ) := (E(X1 ), . . . , E(Xn )), y la matriz de covarianzas es  V ar(X1 ) cov(X1 X2 ) . . . cov(X1 Xn )  cov(X2 X1 ) V ar(X2 )  Σn×n =  .. .. ..  . . . cov(Xn X1 )

...

vector de medias µ =     

V ar(Xn )

Anotamos µ = E(X) y V ar(X) = σn×n . Observaci´ on 7.2. Veamos algunas propiedades 1) Si A ∈ Mk×n es constante entonces E(AX) = AE(X). 2) V ar(AX) = AΣn×n At . 3) Si X ∈ Rn es un vector aleatorio A es una matriz k × n y b un vector k × 1 constante entonces E(AX + b) = AE(X) + b

y

V ar(AX + b) = AΣX At .

4) Si X es un vector aleatorio en Rn , σX es semidefinida positiva. Demostraci´ on. 2) Es inmediato a partir de observar que V ar(X) = E (X − E(X))(X − E(X))t . 4) Tenemos que ver P que para todo λ = (λ1 , . . . , λn ) ∈ Rn entonces λΣλt ≥ 0, y esto se sigue de t que λΣλ = V ar( λi Xi ). Definici´ on 7.3. Normal t´ıpica en Rn : Decimos que el vector U = (U1 , . . . , Un ) tiene distribuci´on normal t´ıpica en Rn si las Ui v N (0, 1) y son independientes. Observaci´ on 7.4. La densidad conjunta de U es 1

fU (x) =

2

e− 2 kxk n . (2π) 2

47

Cap´ıtulo 7. Modelos Lineales Definici´ on 7.5. Normal multivariada Decimos que X tiene distribuci´on normal multivariada si existe una matris n × k C y un vector µ n × 1 tal que X = CU + µ. Observaci´ on 7.6. Observemos que si X tiene distribuci´ on normal multivariada entonces E(X) = µ y ΣX = CC t Proposici´ on 7.7. Veamos algunas propiedades de la normal multivariada 1) Si Cn×n es invertible, X es absolutamente coninua y −1

t

1

fX (x) =

e− 2 (x−µ) Σ (x−µ) (2π)n/2 | det Σ|1/2

Σ = CC t .

Demostraci´ on. X = CU + µ = g(U ), g : Rn −→ Rn es invertible ya que C lo es. fX (x) = fg(U ) (x) = fU ((g −1 (x)) 1

=

1 1 = fU (C −1 (x − µ)) | det Jg (g −1 (x))| | det C|

−1 t

−1

e− 2 (x−µ)(C ) C (x−µ) (2π)n/2 | det Σ|1/2

2) La distribuci´ on normal t´ıpica es invariante bajo tranformaciones ortogonales. De hecho es la u ´nica distribuci´ on que depende solamente de la norma, y que es invariante bajo transformaciones ortogonales (a menos de multiplicarla por constantes). Que es invariante bajo transformaciones ortogonales se sigue de la definici´ on y de la propiedad anterior. 3) Si X es normal multivariada, entonces AX + b tambien lo es, con Am×n y bm×1 constantes. 4) Si X = CU + µ y C es sobreyectiva entonces X es absolutamente continua. Definici´ on 7.8. Normal multivariada degenerada: Si X = CU + µ con U normal t´ıpica, decimos que es degenerada si C no es sobreyectiva Observaci´ on 7.9. Si X es degenerada entonces no es absolutamente conitnua. Demostraci´ on. Supongamos por absurdo que existe una densidad fX . Recordemos que C no es sobre si y solo si det(CC t ) = det(Σ) = 0, si det(Σ) = 0 entonces tΣtt = V ar(tX) = 0 entonces tX es c.s. constante, de donde se sigue que esta contenida en un hiperplano S, si existiese fX (x1 , . . . , xn ), al integrarla en S obtendr´ıamos que deber´ıa dar 1 porque X esta contenida ahi, pero 0 porque S tiene medida nula, absurdo. Observaci´ on 7.10. Si X v N (µ, Σ) cualquier subvector de X tambien es normal multivariado. Esto es obvio de hecho de que si X es normal multivariado, AX tambien lo es, basta tomar A adecuadamente. Observaci´ on 7.11. Si (X1 , . . . , Xk , Y1 , . . . , Yk ) v N (µ, Σ) entonces si cov(Xi , Yj ) = 0 ces (X1 , . . . , Xk ) y (Y1 , . . . , Yk ) son independientes.

∀i, j enont-

Demostraci´ on. Si Σ es invertible, entonces Σ−1 =

Σ−1 X 0

0 Σ−1 Y

y es f´ acil ver que fX,Y (x) = gX (x)gY (y). Si Σ no es invertible, y ΣY si, entonces (X1 , . . . , Xk ) ∈ S, variedad lineal de dimensi´ on α − k, supongamos que S esta generado por X1 , . . . , Xα entonces (X1 , . . . , Xα , Y1 , . . . , Ym ) est´ a en las hip´ otesis anteriores y por lo tanto son independientes, de donde (X1 , . . . , Xk , Y1 , . . . , Ym ) lo son. El caso en que ΣY tampoco es invertible es an´ alogo. 48

Cap´ıtulo 7. Modelos Lineales

7.2.

Modelos Lineales

Se desea estimar Y = g(X1 , . . . , Xk ), se observan medidas de las variables X1 , . . . , Xk y se desea estimar g. A las variables Xi se las denomina explicativas y a la Y explicada. Se plantea entonces g(˜ x) = g(˜ x, θ) = θ1 X1 + · · · + θk Xk , θ = (θ1 , . . . , θk ). Para estimar g estimamos θ. Se plantea entonces       θ1 X11 X12 . . . X1k Y1  .   ..   ..  .. ..   .   .  =  .. . . Xn1

Xn2

...

Xnk

X11  .. X= . Xn1

X12 .. .

... .. . ...

X1k

Yn

θk

Se observan n muestras de Y , 

Xn2

  ,

Xnk

es la matriz de dise˜ no (constante y conocida). En el modelo lineal planteamos Y = Xθ + e donde, X es una matriz de dise˜ no, y       Y1 θ1 e1  ..   ..   ..  Y =  .  θ =  .  e =  . , Yn θk en e aleatorio (vector de errores). Ejemplo 7.12. An´ alisis de varianza: Yij = θi + eij , en este caso la matrix X es un vector n × 1 con entradas todas iguales a 1. Ejemplo 7.13. Modelo lineal simple: Y = α + βX + e, tomamos (Y1 , X1 ), . . . , (Yn , Xn ) y θ = (α, β), y como matriz de dise˜ no la matriz   1 X1  1 X2    X= . ,  ..  1

Xn

lo que se busca es entonces ajustar una recta a los datos. Ejemplo 7.14. Ajuste de un polinomio de grado k: De forma an´aloga al ejemplo anterior, si Y = α + β1 x + β2 x2 + · · · + βk xk + e, planteamos la matriz de dise˜ no   1 X1 X12 . . . X1k  ..  .. X= . . . 1

Xn

Xn2

...

Xnk

Observaci´ on 7.15. Observemos que, en vistas del ejemplo anterior, la funci´ on y = g(x1 , . . . , xn , θ) es lineal en θ pero no en x ˜ = (x1 , . . . , xn ), podr´ıa ser x3 = cos(x1 ) etc.

7.3.

Hip´ otesis del modelo

1) Rango(g(X)) = k. 2) Los errores tienen media 0, E(ei ) = 0 para todo i. 49

Cap´ıtulo 7. Modelos Lineales 3) Homocedasticidad: V ar(ei ) = σ 2 para todo i. 3’) cov(ei , ej ) = 0 para todo i 6= j. 4) el vector e de errores tiene distribuci´on N (0, σ 2 I) en este caso se cumplen 2), 3) y 30 ) Para estimar θ ∈ Rk se utiliza el m´etodo de los m´ınimos cuadrados, consiste en hallar θ ∈ Rk donde se realize m´ın kY − Xθk. θ∈Rk

Teorema 7.16. Bajo la hip´ otesis 1 se cumple que (X t X)−1 X t Y es el estimador por m´ınimos cuadrados de θ. Demostraci´ on. Sea θˆ el valor donde se obtiene el m´ınimo, es decir ˆ 2 ≤ kY − Xθk2 kY − X θk

∀θ ∈ Rk ,

si consideramos la multiplicaci´ on por X como una transformaci´on lineal de Rk en Rn entonces X θˆ ˆ es la proyecci´ on de Y sobre la imagen de X, entonces Y − X θ⊥Xθ para todo θ ∈ Rk , esto es t ˆ 0 = (Xθ) (Y − X θ), o lo que es lo mismo θt X t Y = θt X t X θˆ ∀θ ∈ Rk , luego las transformaciones lineales X t Y y X t Xθ son iguales, de donde θˆ = (X t X)−1 X t Y . Teorema 7.17. a) Bajo las hip´ otesis 1) y 2), θˆ es insesgado. b) Bajo las hip´ otesis 1), 2) y 3), Σθˆ = σ 2 (X t X)−1 . Demostraci´ on. ˆ = (X t X)−1 X t E(Y ) = (X t X)−1 X t Xθ = θ. a) E(θ) b) Σθˆ = Σ(X t X)−1 X t e+θ = (X t X)−1 X t (σ 2 Id)X(X t X)−1 , donde usamos que ΣAX+C = AσX At , finalmente se obtiene, Σθˆ = σ 2 (X t X)−1 , ya que transponer e invertir conmutan. Teorema 7.18. Bajo las hip´ otesis 1) a 4) el E.M.V. de θ coincide con el de m´ınimos cuadrados y ˆ adem´ as el E.M.V. de σ es n1 kY − X θk. . Teorema 7.19. Bajo las hip´ otesis 1) a 4) θˆ es insesgado de m´ınima varianza, uniformemente. Demostraci´ on. Veamos que es suficiente: 1 ˆ 2 exp − 1 kX θˆ − Xθk2 = h(˜ ˆ θ) L(y1 , . . . , yn |θ, σ 2 ) = (2πσ 2 )−n/2 exp − 2 kY − X θk y )g(θ, 2σ 2σ 2 donde hemos usado que Y − X θˆ es perpendicular a X θˆ − Xθ. Es f´acil ver que es completo y por lo tanto minimiza el riesgo uniformemente entre los insesgados, considerando como funci´on de riesgo kk2 . Teorema 7.20. Bajo 1) , 2) y 3), si los ei son independientes (no necesariamente con distribuci´ on Noramal), entonces θˆ es uniformemente de minima varianza entre los estimadores lineales e insesgados, (es decir los ˜ ˆ= CY ). Teorema 7.21. Bajo los supuestos 1) a 4): 50

Cap´ıtulo 7. Modelos Lineales

a)

ˆ 2 kY − X θk nˆ σ2 = v χ2(n−k) 2 2 σ σ

b) s2 =

ˆ nˆ σ2 kY − X θk = es insesgado (de donde σ ˆ 2 es asint´ oticamente insesgado). n−k n−k

c)

kX(θˆ − θ)k2 v F (k, n − k) ks2

d)

λ1 (θˆ1 − θ1 ) + λ(θˆ2 − θ2 ) + · · · + λn (θˆn − θn ) p v tn−k s λt (X t X)−1 λ

∀λ ∈ Rn

Demostraci´ on. a) Sea H = {v1 , . . . , vn } base ortonormal de Rn tal que {v1 , . . . , vk } es base ortonormal Pnde S = Im(X), tenemos entonces que existen Z1 , . . . , Zn variables aleatorias tal que Y = i=1 Zi vi . Si B es la matriz de cambio de base de la base H a la base can´onica, B es ortogonal y Y = BZ de donde Z = B −1 Y = B t Y v N (B t Xθ, B t σ 2 IdB) y por lo tanto Z es normal multivariado y ΣZ = σ 2 Id, adem´ as Zi son variables aleatorias independientes con distribuci´on N (γ1 , σ 2 ).

2

2

X n n k n

X

X X

2 ˆ

Zi2 , Z i vi = Z j vj = Z i vi − kY − X θk =

j=1

i=1

i=k+1

k=1

2 n X ˆ 2 Zi kY − X θk = σ2 σ i=k+1

Zi v N (γi , 1), σ2 bastaria entones Pn demostrar que todos los γi para i = k + 1 son 0. Observemos que E(Y ) = Xθ ∈ S y E(Y ) = i=1 γi vi . ! ˆ σ2 kY − X θk 1 2 ˆ E kY − X θk) = E = σ2 b) E(s ) = n−k n−k σ2

2 k k k

X

X X

2 c) kX θˆ − Xθk = Z i vi − γ i vi = (Zi − γi )2 . entonces

i=1

i=1

ˆ − θk kX θX = ks2

i=1

P Zi −γi 2 σ k 1 σ 2 n−k kY

ˆ − X θk

v

χ2k /k 2 χn−k /(n −

k)

v F (k, n − k).

d) λ1 (θˆ1 − θ1 ) + · · · + λn (θˆn − θn ) = λt (θˆ − θ), como θˆ v N (θ, σ 2 (X t X)−1 ), entonces λt (θˆ − θ) v N (0, λt σ 2 (X t X)−1 λ), t ˆ √ λ (θ−θ) t ˆ λ (θ − θ) σ λ(X t X)−1 λ p = , s s λt (X t X)−1 λ σ por lo tanto si usamos la parte b) solo basta ver que son independientes, esto se sigue de que kY − Xθk2 depende de Zk+1 , . . . , Zn y X θˆ de Zk+1 , . . . , Zk .

51

Cap´ıtulo 7. Modelos Lineales

7.4.

Aplicaci´ on

Construcci´ on de intervalos de confianza para λt θ. Consideremos I = λt θˆ − ks, λt θˆ + ks , ! ! λt (θˆ − θ) t ˆ λ ( θ − θ) k , 1 − α = P (λt θ ∈ I) = P ≤k =P p t t ≤ p t t −1 s λ (X X)−1 λ s λ (X X) λ p de donde, por la parte d) k = t1−α/2 (n − k) λt (X t X)−1 λ. Observemos que en particular tomando λ = (1, . . . , 0) obtenemos un intervalo de confianza para θ1 .

52