Story Transcript
Notas de Clase: Modelos lineales Felipe Osorio ´ lica de Valpara´ıso Pontificia Universidad Cato
´Indice general ´ Cap´ıtulo 1. Elementos de Algebra Matricial 1.1. Vectores y matrices 1.2. Definiciones b´ asicas y propiedades 1.3. Inversa generalizada y sistemas de ecuaciones lineales
1 1 1 13
Cap´ıtulo 2. Preliminares 2.1. Vectores Aleatorios 2.2. Operadores de esperanza y covarianza 2.3. Independencia de vectores aleatorios 2.4. Cambios de variable 2.5. Distribuci´ on normal multivariada 2.6. Alternativas a la distribuci´on normal multivariada∗ 2.7. Algunas distribuciones no centrales 2.8. Distribuci´ on de formas cuadr´aticas Ejercicios
17 17 19 23 24 25 31 34 36 43
Ap´endice A. Diferenciaci´ on matricial A.1. Aproximaci´ on de primer orden A.2. Funciones matriciales A.3. Matriz Hessiana A.4. Reglas fundamentales
45 45 46 48 49
Bibliograf´ıa
51
v
Cap´ıtulo 1
´ Elementos de Algebra Matricial En este Ap´endice se introduce la notaci´on, definiciones y resultados b´asicos de algebra lineal y matricial, esenciales para el estudio de modelos estad´ısticos mul´ tivariados y de regresi´ on lineal. El material presentado a continuaci´on puede ser hallado en textos como Graybill (1983), Ravishanker y Dey (2002) y Magnus y Neudecker (2007). 1.1.
Vectores y matrices
n
Sea R el espacio Euclidiano n-dimensional, de este modo x ∈ Rn representa la n-upla x1 .. x = . , xn de n´ umeros reales. Note que x est´a orientado como un vector “columna”, y por tanto la transpuesta de x es un vector fila, x = (x1 , . . . , xn )> . Una matriz A ∈ Rm×n es un arreglo de n´ umeros a11 a12 · · · a21 a22 · · · A= . .. .. . am1 am2 · · ·
reales a1n a2n .. , . amn
y escribimos A = (aij ). Los n´ umeros reales aij son llamados elementos de A. 1.2.
Definiciones b´ asicas y propiedades
La suma de dos matrices del mismo orden es definida como A + B = (aij ) + (bij ) = (aij + bij ), el producto de una matriz por un escalar λ es λA = Aλ = (λaij ) Resultado 1.1 (Propiedades de la suma matricial). Sean A, B y C matrices del mismo orden y λ, µ escalares. Entonces: (a) A + B = B + A, (b) (A + B) + C = A + (B + C), (c) (λ + µ)A = λA + µA, (d) λ(A + B) = λA + λB, (e) λµA = (λµ)A. 1
2
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
Una matriz cuyos elementos son todos cero se denomina matriz nula y se denota por 0. Tenemos que A + (−1)A = 0. Si A y B son matrices m × n y n × p, respectivamente, se define el producto de A y B como n X AB = C, donde, cij = aik bkj , k=1
para i = 1, . . . , m y j = 1, . . . , p. Resultado 1.2 (Propiedades del producto de matrices). Sean A, B y C matrices de ´ ordenes apropiados. Entonces: (a) (AB)C = A(BC), (b) A(B + C) = AB + AC, (c) (A + B)C = AC + BC. Note que la existencia de AB no implica la existencia de BA y cuando ambos productos existen, en general no son iguales. La transpuesta de una matriz A = (aij ) ∈ Rm×n es la matriz n × m, A> cuyo elemento ij est´ a dado por aji , esto es A> = (aji ). Resultado 1.3 (Propiedades de la transpuesta). Tenemos (a) (A> )> = A, (b) (A + B)> = A> + B > , (c) (AB)> = B > A> . Definimos el producto interno entre dos vectores x, y ∈ Rn como n X > hx, yi = x y = xi yi . i=1
asociado al producto interno tenemos la norma Euclidiana (o largo) de un vector x definida como n X 1/2 kxk = hx, xi1/2 = x2i , i=1
finalmente, la distancia Euclidiana entre dos vectores a y b se define como d(a, b) = ka − bk. Resultado 1.4 (Propiedades del producto interno). Sean a, b y c vectores ndimensionales y λ un escalar, entonces (a) ha, bi = hb, ai, (b) ha, b + ci = ha, bi + ha, ci, (c) λha, bi = hλa, bi = ha, λbi, (d) ha, ai ≥ 0 con la igualdad s´ olo si a = 0, (e) ka ± bk2 = kak2 + kbk2 ± 2ha, bi, (f) ka + bk ≤ kak + kbk. ´ n 1.5 (Desigualdad de Cauchy-Schwarz). |hx, yi| ≤ kxk kyk, ∀x, y ∈ Proposicio Rn con la igualdad s´ olo si x = λy, para alg´ un λ ∈ R.
´ 1.2. DEFINICIONES BASICAS Y PROPIEDADES
3
´ n. Si x = λy, el resultado es inmediato. Sino, note que Demostracio 0 < kx − λyk2 = kxk2 + λ2 kyk2 − 2λhx, yi,
∀λ ∈ R,
de este modo el discriminante del polinomio cuadr´atico debe satisfacer 4hx, yi2 − 4kxk2 kyk2 < 0. El ´ angulo θ entre dos vectores no nulos x, y se define en t´erminos de su producto interno como x> y hx, yi p =√ , cos θ = kxk kyk x> x y > y dos vectores se dicen ortogonales s´olo si x> y = 0. El producto externo entre dos vectores x ∈ Rm y y ∈ Rn es la matriz m × n x ∧ y = xy > = (xi yj ). Ejemplo 1.6. Sea 1n = (1, . . . , 1)> vector n-dimensional cuyos componentes son > todos 1. Note que, 1> n 1n = n. Considere x = (x1 , . . . , xn ) , entonces >
x x=
n X i=1
x2i ,
>
1 x=
n X
xi ,
i=1
de este modo, tenemos n n X X x2i − nx2 = x> x − n( n1 1> x)2 (xi − x)2 = i=1
i=1
= x> x − n( n1 1> x)( n1 1> x) = x> x −
1 > > x 11 x n
1 Jn x n con J n = 1n 1> n . En general sean 1m y 1n vectores de unos m y n dimensionales, respectivamente. Entonces = x> I −
m×n J mn = 1m ∧ 1n = 1m 1> . n ∈R
Una matriz se dice cuadrada si tiene el mismo n´ umero de filas que de columnas, una matriz cuadrada A es triangular inferior (superior) si aij = 0 para i < j (si aij = 0 para i > j). Una matriz cuadrada A = (aij ) se dice sim´etrica si A> = A y sesgo-sim´etrica si A> = −A. Para cualquier matriz cuadrada A = (aij ) se define diag(A) como a11 0 · · · 0 0 a22 · · · 0 diag(A) = . . .. = diag(a11 , a22 , . . . , ann ). . . . . . . . . 0 0 · · · ann Si A = diag(A), decimos que A es matriz diagonal. Un tipo particular de matriz diagonal es la identidad 1 0 ··· 0 0 1 0 I = . . . = (δij ), . . ... .. .. 0 0 ··· 1
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
4
donde δij = 1 si i = j y δij = 0 si i 6= j (δij se denomina delta de Kronecker ). Tenemos que para A ∈ Rm×n I m A = AI n = A. Una matriz cuadrada se dice ortogonal si AA> = A> A = I y sus columnas son ortonormales. Note que, si A = (a1 , . . . , an )
con aj ∈ Rn ,
entonces A tiene columnas ortonormales si ( 1, si i = j, > ai aj = 0, si i 6= j,
i, j = 1, . . . , n.
Una matriz rectangular A ∈ Rm×n puede tener la propiedad AA> = I m ´o A> A = I n pero no ambas, en cuyo caso tal matriz se denomina semi-ortogonal. Una matriz A ∈ Rn×n , se dice idempotente si A2 = A. Decimos que A es matriz de proyecci´ on si es sim´etrica e idempotente, esto es, A> = A y A2 = A. Ejemplo 1.7 (Matriz de centrado). Sea C=I−
1 J n, n
tambi´en conocida como matriz de centrado. Tenemos que C > = C, y 1 1 1 1 1 C 2 = I − J n I − J n = I − J n − J n + 2 J 2n n n n n n pero J 2n = nJ n , luego C 2 = C es matriz idempotente y sim´etrica. Tambi´en es posible notar que n1 J n es matriz de proyecci´on. Cualquier matriz B satisfaciendo B2 = A se dice ra´ız cuadrada de A y se denota como A1/2 tal matriz no necesita ser u ´nica. 1.2.1. Formas lineales y cuadr´ aticas. Sea a ∈ Rn , A ∈ Rn×n y B ∈ > R . La expresi´ on a x se dice una forma lineal en x y x> Ax una forma cuadr´ atica, mientras que x> By es una forma bilineal. Sin p´erdida de generalidad se asumir´a que la matriz asociada a la forma cuadr´atica x> Ax es sim´etrica. Note que siempre es posible n×m
x> Bx = 21 x> (A> + A)x, en cuyo caso tenemos que B es matriz sim´etrica. Decimos que una matriz sim´etrica A es definida positiva (negativa) si x> Ax > 0 (x> Ax < 0) para todo x 6= 0. Cuando x> Ax ≥ 0 (x> Ax ≤ 0) ∀x decimos que A es semidefinida positiva (negativa). Note que las matrices B > B y BB > son semidefinidas positivas y que A es (semi)definida negativa s´ olo si −A es (semi)definida positiva.
´ 1.2. DEFINICIONES BASICAS Y PROPIEDADES
5
Ejemplo 1.8. Considere B = A + λaa> donde A es matriz definida positiva, λ > 0 y a es vector n-dimensional no nulo. Entonces, para todo x 6= 0, x> Bx = x> Ax + λx> aa> x, > > > > > sea z = Pna x,2 entonces x Bx = x Ax + λz z. Ahora, como x Ax > 0 y > z z = i=1 zi > 0 tenemos que la matriz B es definida positiva.
Resultado 1.9. Sea A ∈ Rm×n , B ∈ Rn×p y C ∈ Rn×p y x vector n-dimensional. Entonces (a) Ax = 0 ⇔ A> Ax = 0, (b) AB = 0 ⇔ A> AB = 0, (c) A> AB = A> AC ⇔ AB = AC. ´ n. (a) Claramente Ax = 0 ⇒ A> Ax = 0. Por otro lado, si Demostracio A Ax = 0, entonces x> A> Ax = (Ax)> Ax = 0 y de ah´ı que Ax = 0. (b) sigue desde (a). Finalmente, (c) sigue desde (b) mediante substituir B − C por B en (c). >
Resultado 1.10. Sean A ∈ Rm×n y B, C matrices n × n con B sim´etrica. Entonces (a) Ax = 0, ∀x ∈ Rn s´ olo si A = 0, (b) x> Bx = 0, ∀x ∈ Rn s´ olo si B = 0, (c) x> Cx = 0, ∀x ∈ Rn s´ olo si C > = −C. 1.2.2. Rango de unaPmatriz. Un conjunto de vectores x1 , . . . , xn se dice linealmente independiente si i αi xi = 0 implica que todos los αi = 0. Si x1 , . . . , xn no son linealmente independientes, ellos se dicen linealmente dependientes. Sea A ∈ Rm×n , el rango columna (fila) de A es el n´ umero de columnas (filas) linealmente independientes. Denotamos el rango de A como rg(A), note que rg(A) ≤ m´ın(m, n). Si rg(A) = n decimos que A tiene rango columna completo. Si rg(A) = 0, entonces A es la matriz nula. Por otro lado, si A = 0, entonces rg(A) = 0. Resultado 1.11 (Propiedades del rango). Sea A ∈ Rm×n y B, C matrices de ´ ordenes apropiados, entonces (a) (b) (c) (d) (e)
rg(A) = rg(A> ) = rg(A> A) = rg(AA> ), rg(AB) ≤ m´ın{rg(A), rg(B)}, rg(BAC) = rg(A) si B y C son matrices de rango completo, rg(A + B) ≤ rg(A) + rg(B), si A ∈ Rm×n y Ax = 0 para alg´ un x 6= 0, entonces rg(A) ≤ n − 1.
Ejemplo 1.12. Considere B = aa> , con a 6= 0, note que rg(B) = rg(aa> ) = rg(a), como a es vector no nulo, tenemos que rg(aa> ) = 1.
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
6
El espacio columna de A ∈ Rm×n , denotado por M(A), es el conjunto de vectores M(A) = {y : y = Ax para alg´ un x ∈ Rn }. De este modo, M(A) es el espacio vectorial generado por las columnas de A. La dimensi´ on de este espacio es rg(A). Se tiene que M(A) = M(AA> ) para cualquier matriz A. El espacio nulo, N (A), de una matriz A ∈ Rm×n consiste de todos los vectores n-dimensionales x, tal que Ax = 0, esto es, N (A) = {x ∈ Rn tal que Ax = 0}. Note que, el espacio nulo es el conjunto de todas las soluciones de el sistema lineal homog´eneo Ax = 0. N (A) es un subespacio de Rn y su dimensi´on se denomina nulidad de A. Adem´ as N (A) = {M(A)}⊥ . Finalmente, considere la siguiente proposici´ on Resultado 1.13. Para cualquier matriz A ∈ Rm×n , entonces n = dim(N (A)) + rg(A). Ejemplo 1.14 (Matriz de centrado). Note que, C1 = 1 −
1 > 11 1 = 1 − 1 = 0, n
esto es 1 ∈ N (C) y por tanto rg(C) ≤ n − 1. 1.2.3. Matriz inversa. Sea A una matriz cuadrada de orden n×n. Decimos que A es no singular si rg(A) = n, y que A es singular si rg(A) < n. De este modo, si A es no singular, entonces existe una matriz no singular B tal que AB = BA = I n . La matriz B, denotada A
−1
es u ´nica y se denomina inversa de A.
Resultado 1.15 (Propiedades de la inversa). Siempre que todas las matrices inversas involucradas existan, tenemos que (A−1 )> = (A> )−1 , (AB)−1 = B −1 A−1 , (λA)−1 = λ1 A−1 , P −1 = P > , si P es matriz ortogonal, si A > 0, entonces A−1 > 0, (A + BCD)−1 = A−1 − A−1 B(C −1 + DA−1 B)−1 DA−1 , donde A, B, C y D son matrices m × m, m × n, n × n y n × m, respectivamente (Teorema de Sherman-Morrison-Woodbury), (g) si 1 ± v > A−1 u 6= 0, entonces
(a) (b) (c) (d) (e) (f)
(A ± uv > )−1 = A−1 ∓ (h) (I + λA)−1 = I +
P∞
i=1 (−1)
λ Ai .
i i
A−1 uv > A−1 , 1 ± v > A−1 u
´ 1.2. DEFINICIONES BASICAS Y PROPIEDADES
7
Ejemplo 1.16 (Matriz de correlaci´on intra-clase). Considere la matriz de correlaci´ on intra-clase R(τ ) ∈ Rn×n , la que tambi´en se denomina matriz de equicorrelaci´ on, definida por 1 ρ ··· ρ ρ 1 · · · ρ = φ[(1 − ρ)I + ρ11> ], τ = (φ, ρ)> , R = φ . . . . . ... .. .. ρ
ρ
···
1
donde ρ ∈ (−1, 1) y φ > 0. De este modo, R−1 = φ−1 [(1 − ρ)I + ρ11> ]−1 y usando la propiedad (f) con A = (1 − ρ)I, u = ρ1 y v = 1, tenemos que i 1h 1 1 ρ > R−1 = 11 I− φ 1−ρ (1 − ρ)2 1 + nρ(1 − ρ)−1 h i 1 ρ = I− 11> φ(1 − ρ) 1 + (n − 1)ρ Ejemplo 1.17. Considere la matriz cos θ A= sin θ
− sin θ , cos θ
note que A es matriz ortogonal, y por tanto A−1 = A> . 1.2.4. Determinante de una matriz. El determinante de una matriz corresponde a la funci´ on det : Rn×n → R, denotada com´ unmente como |A| = det(A) y definida como n X Y |A| = (−1)σ(j1 ,...,jn ) aiji i=1
donde la sumatoria es tomada sobre todas las permutaciones (j1 , . . . , jn ) del conjunto de enteros (1, . . . , n), y σ(j1 , . . . , jn ) es el n´ umero de transposiciones necesarias para cambiar (1, . . . , n) en (j1 , . . . , jn ) (una transposici´on consiste en intercambiar dos n´ umeros). Una submatriz de A es un arreglo rectangular obtenido mediante eliminar filas y columnas de A. Un menor es el determinante de una submatriz cuadrada de A. El menor asociado al elemento aij es el determinante de la submatriz de A obtenida por eliminar su i-´esima fila y j-´esima columna. El cofactor de aij , digamos cij es (−1)i+j veces el menor de aij . La matriz C = (cij ) se denomina matriz cofactor de A. La transpuesta de C es llamada adjunta de A y se denota A# . Tenemos que n n X X |A| = aij cij = ajk cjk , para i, k = 1, . . . , n. j=1
j=1
Resultado 1.18 (Propiedades del determinante). Sea A ∈ Rn×n y λ un escalar. Entonces (a) |A| = |A> |, (b) |AB| = |A| |B|, (c) |λA| = λn |A|, (d) |A−1 | = |A|−1 , si A es no singular, Qn (e) si A es matriz triangular, entonces |A| = i=1 aii , (f) el resultado en (e) tambi´en es v´ alido para A = diag(A), note tambi´en que |I n | = 1,
8
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
(g) si A ∈ Rm×n y B ∈ Rn×m , entonces |I m + AB| = |I n + BA|. Ejemplo 1.19 (Determinante de una matriz ortogonal). Considere A matriz ortogonal, esto es, A> A = AA> = I. Entonces |A> A| = |AA> | = 1, luego, |A|2 = 1 y por tanto, |A| = ±1. Ejemplo 1.20 (Determinante de una matriz de correlaci´on intra-clase). Tenemos que R = φ[(1 − ρ)I n + ρ11> ] = φ(1 − ρ)[I n + ρ(1 − ρ)−1 11> ], de este modo, |R| = φn (1 − ρ)n [1 + ρ(1 − ρ)−1 1> 1] = φn (1 − ρ)n−1 (1 − ρ + nρ) = φn (1 − ρ)n−1 [1 + ρ(n − 1)] 1.2.5. La traza de una matriz. La traza de una matriz cuadrada A ∈ Rn×n , denotada por tr(A), es la suma de sus elementos diagonales: tr(A) =
n X
aii .
i=1
Resultado 1.21 (Propiedades de la traza). Siempre que las operaciones matriciales est´en definidas (a) tr(A + B) = tr(A) + tr(B), (b) tr(λA) = λ tr(A) si λ es un escalar, (c) tr(A> ) = tr(A), (d) tr(AB) = tr(BA) (propiedad c´ıclica de la traza), (e) tr(A) = 0 si A = 0. Note en (d) que aunque ambas AB y BA son cuadradas, no necesitan ser del mismo orden. Ejemplo 1.22 (Matriz de centrado). Considere C = I − n1 J n , entonces tr(C) = tr(I) −
1 1 tr(11> ) = n − 1> 1 = n − 1. n n
Ejemplo 1.23. Sea X ∈ Rn×p con rg(X) = p y considere H = X(X > X)−1 X > , luego tr H = tr X(X > X)−1 X > = tr(X > X)−1 X > X = tr I p = p, note adem´ as que tr(I − H) = n − p. Ejemplo 1.24. Considere q = x> Ax, tenemos que q = tr(x> Ax) = tr(Axx> ) Adem´ as, es directo que la normal vectorial (Euclidiana), satisface kxk = (x> x)1/2 = (tr xx> )1/2 , de este modo, podemos definir una normal matricial (Euclidiana) como kAk = (tr A> A)1/2 . En efecto, se tiene que tr(A> A) ≥ 0 con la igualdad s´olo si A = 0.
´ 1.2. DEFINICIONES BASICAS Y PROPIEDADES
9
1.2.6. Valores y vectores propios. Si A y B son matrices reales del mismo orden, una matriz compleja Z puede ser definida como Z = A + iB, donde i denota la unidad imaginaria que satisface i2 = −1. El conjugado complejo de Z, denotado por Z H , se define como Z H = A> − iB > . Una matriz Z ∈ Cn×n se dice Hermitiana si Z H = Z (equivalente complejo de una matriz sim´etrica) y unitaria si Z H Z = I (equivalente complejo de una matriz ortogonal). Sea A una matriz cuadrada n × n. Los valores propios de A son definidos como las ra´ıces de la ecuaci´ on caracter´ıstica |λI − A| = 0, la ecuaci´ on anterior tiene n ra´ıces, en general complejas y posiblemente con algunas repeticiones (multiplicidad). Sea λ un valor propio de A, entonces existe un vector v 6= 0 ∈ Cn tal que (λI − A)v = 0 , esto es, Av = λv. el vector v se denomina vector propio asociado al valor propio λ. Note que, si v es un vector propio, tambi´en lo es αv, ∀α ∈ C, y en particular v/kvk es un vector propio normalizado. Resultado 1.25. Si A ∈ Cn×n es matriz Hermitiana, entonces todos sus valores propios son reales Resultado 1.26. Si A es matriz cuadrada n × n y G es matriz no singular n × n, entonces A y G−1 AG tienen el mismo conjunto de valores propios (con las mismas multiplicidades) ´ n. Note que Demostracio |λI − G−1 AG| = |λG−1 G − G−1 AG| = |G−1 ||λI − A||G| = |λI − A| Resultado 1.27. Una matriz singular tiene al menos un valor propio cero ´ n. Si A es matriz singular, entonces Av = 0 para alg´ Demostracio un v 6= 0, luego desde Av = λv, tenemos que λ = 0. Resultado 1.28. Una matriz sim´etrica es definida positiva (semidefinida positiva) s´ olo si todos sus valores propios son positivos (no-negativos). ´ n. Si A es definida positiva y Av = λv, entonces v > Av = Demostracio λv v. Ahora, como v > Av > 0 y v > v > 0 implica λ > 0. La conversa no ser´a probada aqu´ı. >
Resultado 1.29. Una matriz idempotente s´ olo tiene valores propios 0 o ´ 1. Todos los valores propios de una matriz unitaria tienen modulo 1
10
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
´ n. Sea A matriz idempotente, esto es, A2 = A. De este modo, Demostracio si Av = λv, entonces λv = Av = A2 v = λAv = λ2 v y de ah´ı que λ = λ2 , esto implica que λ = 0 ´o λ = 1. Por otro lado, si A es unitaria, entonces aH A = I. De este modo, si Av = λv, entonces v H AH = λv H , luego v H v = v H AH Av = λλv H v. Como v H v 6= 0, obtenemos que λλ = 1 y de ah´ı que |λ| = 1. Resultado 1.30 (Propiedades de la matrices idempotentes). Sea A matriz n × n, entonces (a) A> y I − A son idempotentes s´ olo si A es idempotente, (b) si A es idempotente, entonces rg(A) = tr(A) = r. Si rg(A) = n, entonces A = I. Ejemplo 1.31 (Matriz de centrado). Sabemos que (ver ejemplo 1.7) la matriz de centrado C es matriz de proyecci´on, luego rg(C) = tr(C) = tr(I − n1 J n ) = n − 1, (compare con ejemplos 1.14 y 1.22). Resultado 1.32. Si A ∈ Cn×n es matriz Hermitiana y v 1 , v 2 son vectores propios asociados a λ1 y λ2 , respectivamente, donde λ1 6= λ2 . Entonces v 1 ⊥ v 2 . El resultado anterior muestra que si todos los valores propios de una matriz Hermitiana A son distintos, entonces existe una base ortonormal de vectores propios tal que A es diagonalizable. ´ n 1.33 (Descomposici´on de Schur). Sea A ∈ Cn×n . Entonces existe una Proposicio matriz unitaria U ∈ Cn×n y una matriz triangular M cuyos elementos diagonales son los valores propios de A, tal que U H AU = M . ´ n 1.34 (Descomposici´on espectral). Sea A ∈ Cn×n matriz Hermitiana. Proposicio Entonces existe una matriz unitaria U ∈ Cn×n tal que U H AU = Λ, donde Λ = diag(λ) es matriz diagonal cuyos elementos diagonales son los valores propios de A. Para aplicaciones en Estad´ıstica siempre haremos uso de la Proposici´on 1.34 considerando A matriz sim´etrica, en cuyo caso todos sus valores propios ser´an reales y U ser´ a una matriz ortogonal. Para Q ∈ Rn×n matriz ortogonal, denotamos el grupo de matrices ortogonales como On = {Q ∈ Rn×n : Q> Q = I} Note que si A es matriz sim´etrica y definida positiva, entonces A = U ΛU > = (U Λ1/2 )(U Λ1/2 )> = (U Λ1/2 U > )2
´ 1.2. DEFINICIONES BASICAS Y PROPIEDADES
11
donde Λ = diag(λ) y Λ1/2 = diag(λ1/2 ). Por tanto, A = M M >,
con M = U Λ1/2 ,
o bien, ´ A = B 2 , con B = U Λ1/2 U > , esto es, B es una matriz ra´ız cuadrada de A. Resultado 1.35. Sea A matriz sim´etrica n × n, con valores propios λ1 , . . . , λn . Entonces Pn (a) tr(A) = Qn i=1 λi , (b) |A| = i=1 λi . ´ n. Usando que A = U ΛU > . Tenemos Demostracio tr(A) = tr(U ΛU > ) = tr(ΛU > U ) = tr(Λ) =
n X
λi
i=1
y |A| = |U ΛU > | = |U ||Λ||U > | = |Λ| =
n Y
λi
i=1
Resultado 1.36. Si A es una matriz sim´etrica con r valores propios distintos de cero, entonces rg(A) = r. ´ n. Tenemos que U > AU = Λ y de ah´ı que Demostracio rg(A) = rg(U ΛU > ) = rg(Λ) = r 1.2.7.
Matrices (semi)definidas positivas.
´ n 1.37. Sea A matriz definida positiva y B semidefinida positiva. EnProposicio tonces |A + B| ≥ |A|, con la igualdad s´ olo si B = 0. ´ n. Tenemos U > AU = Λ, con Λ = diag(λ) y U > U = U U > = Demostracio I. Luego, A + B = U ΛU > + B = U Λ1/2 (I + Λ−1/2 U > BU Λ−1/2 )Λ1/2 U > , de este modo |A + B| = |U Λ1/2 ||I + Λ−1/2 U > BU Λ−1/2 ||Λ1/2 U > | = |U Λ1/2 Λ1/2 U > ||I + Λ−1/2 U > BU Λ−1/2 | = |A||I + Λ−1/2 U > BU Λ−1/2 |. Si B = 0, tenemos |A + B| = |A|. Por otro lado, si B 6= 0. Entonces la matriz I + Λ−1/2 U > BU Λ−1/2 tendr´a al menos un valor propio no nulo y por tanto, |I + Λ−1/2 U > BU Λ−1/2 | > 1, esto es |A + B| > |A|. Para dos matrices sim´etricas A y B, escribimos A ≥ B si A − B es semidefinida positiva. An´ alogamente, escribimos A > B si A − B es definida positiva.
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
12
Resultado 1.38. Sean A, B matrices definidas positivas n × n. Entonces A > B s´ olo si B −1 > A−1 . ´ n 1.39. Sean A y B matrices definidas positivas y A−B ≥ 0. Entonces Proposicio |A| ≥ |B| con la igualdad s´ olo si A = B. ´ n. Sea C = A − B. Como B es definida positiva y C es semideDemostracio finida positiva, tenemos por la Proposici´on 1.37 que |B + C| ≥ |B|, con la igualdad s´ olo si C = 0. 1.2.8.
Descomposiciones matriciales.
´ n 1.40 (Descomposici´on LDL). Si A ∈ Rn×n es matriz sim´etrica y no Proposicio singular, entonces existe L matriz triangular inferior y D = diag(d1 , . . . , dn ), tal que A = LDL> . ´ n 1.41 (Descomposici´on Cholesky). Si A ∈ Rn×n es sim´etrica y definiProposicio da positiva, entonces existe una u ´nica matriz triangular inferior G ∈ Rn×n (factor Cholesky) con elementos diagonales positivos, tal que A = GG> . ´ n 1.42 (Descomposici´on ortogonal-triangular). Sea A ∈ Rm×n , entonProposicio ces existe Q ∈ Om y R ∈ Rm×n , tal que A = QR, donde R=
R1 0
con R1 ∈ Rn×n matriz triangular superior, aqu´ı suponemos que m ≥ n. Si rg(A) = r, entonces las primeras n columnas de Q forman una base ortonormal para M(A). Note que, si A = QR entonces A> A = R> Q> QR = R> R = R> 1 R1 , y R1 corresponde al factor Cholesky de A> A. ´ n 1.43 (Descomposici´on valor singular). Sea A ∈ Rm×n con rg(A) = r, Proposicio entonces existen matrices U ∈ Om , V ∈ On , tal que Dr 0 A=U V >, 0 0 donde D r = diag(δ1 , . . . , δr ) con δi > 0 para i = 1, . . . , r, llamados valores singulares de A. 1.2.9. Matrices particionadas. Sea A una matriz m × n. Considere particionar A como sigue A11 A12 (1.1) A= , A21 A22 donde A11 ∈ Rm1 ×n1 , A12 ∈ Rm1 ×n2 , A21 ∈ Rm2 ×n1 , A22 ∈ Rm2 ×n2 , y m1 + m2 = m, n1 + n2 = n.
1.3. INVERSA GENERALIZADA Y SISTEMAS DE ECUACIONES LINEALES
13
Sea B ∈ Rm×n particionada de manera an´aloga a A, entonces A11 + B 11 A12 + B 12 A+B = . A21 + B 21 A22 + B 22 Ahora, considere C ∈ Rn×p particionada en submatrices C ij , para i, j = 1, 2 con dimensiones adecuadas, entonces A11 C 11 + A12 C 21 A11 C 12 + A12 C 22 AC = . A21 C 11 + A22 C 21 A21 C 12 + A22 C 22 La transpuesta de A est´ a dada por > A11 A = A> 12 >
A> 21 . A> 22
Si A12 y A21 son matrices nulas y si ambas A11 y A22 son matrices no singulares, entonces la inversa de A es −1 A11 0 A−1 = . 0 A−1 22 En general, si A es matriz no singular particionada como en (1.1) y D = A22 − A21 A−1 en es no singular, entonces 11 A12 tambi´ −1 −1 −1 A11 + A−1 A21 A−1 −A−1 11 A12 D 11 11 A12 D A−1 = . −D −1 A21 A−1 D −1 11 Por otro lado, si A es no singular y E = A11 − A12 A−1 22 A21 es no singular, entonces E −1 −E −1 A12 A−1 22 A−1 = . −1 −1 −1 −A−1 A−1 A12 A−1 22 A21 E 22 + A22 A21 E 22 Considere el determinante A11 A12 = |A11 ||A22 | = A11 0 A21 A22
0 , A22
si A11 y A22 son matrices cuadradas. Ahora, para una matriz particionada como en (1.1) con m1 = n1 y m2 = n2 , tenemos −1 |A| = |A11 ||A22 − A21 A−1 11 A12 | = |A22 ||A11 − A12 A22 A21 |,
si A11 y A22 son matrices no singulares.
1.3.
Inversa generalizada y sistemas de ecuaciones lineales
En esta secci´ on se generaliza el concepto de invertibilidad para matrices singulares as´ı como para matrices rectangulares. En particular, introducimos la inversa MoorePenrose (MP), generalizaci´ on que permite resolver de forma expl´ıcita un sistema de ecuaciones lineales.
´ 1. ELEMENTOS DE ALGEBRA MATRICIAL
14
1.3.1. Inversa Moore-Penrose. Sea A ∈ Rm×n , la inversa Moore-Penrose, G ∈ Rn×m debe satisfacer las siguientes condiciones (1.2)
AGA = A,
(1.3)
GAG = G,
(1.4)
(AG)> = AG,
(1.5)
(GA)> = GA.
La inversa MP de A se denota comunmente como A+ . Si G satisface s´olo la condici´ on en (1.2) entonces decimos que G es una inversa generalizada y la denotamos por A− . ´ n 1.44 (Unicidad de la inversa MP). Para cada A, existe una u Proposicio ´nica A+ . Resultado 1.45 (Propiedades de la inversa MP). (a) (b) (c) (d) (e) (f) (g) (h) (i) (j) (k)
A+ = A−1 para A matriz no singular, (A+ )+ = A, (A> )+ = (A+ )> , A+ = A si A es sim´etrica e idempotente, AA+ y A+ A son idempotentes, rg(A) = rg(A+ ) = rg(AA+ ) = rg(A+ A), A> AA+ = A = A+ AA> , > > A> A+ A+ = A+ = A+ A+ A> , A+ = (A> A)+ A> = A> (AA> )+ , A+ = (A> A)−1 A> , si A tiene rango columna completo, A+ = A> (AA> )−1 , si A tiene rango fila completo.
1.3.2. Soluci´ on de sistemas de ecuaciones lineales. La soluci´on general de un sistema de ecuaciones homeg´eneo Ax = 0 es x = (I − A+ A)q, con q un vector arbitr´ ario. La soluci´on de Ax = 0 es u ´nica s´olo si A tiene rango columna completo, esto es, A> A es no singular. El sistema homog´eneo Ax = 0 siempre tiene al menos una soluci´on, digamos x = 0. El sistema no homog´eneo Ax = b, tendr´ a al menos una soluci´ on si es consistente. ´ n 1.46. Sea A ∈ Rm×n y b vector m × 1. Entonces son equivalentes: Proposicio (a) (b) (c) (d)
la ecuaci´ on Ax = b tiene una soluci´ on para x, b ∈ M(A), rg(A : b) = rg(A), AA+ b = b.
´ n 1.47. Una condici´ Proposicio on necesaria y suficiente para que la ecuaci´ on Ax = b tenga una soluci´ on es que AA+ b = b,
1.3. INVERSA GENERALIZADA Y SISTEMAS DE ECUACIONES LINEALES
15
en cuyo caso la soluci´ on general est´ a dada por x = A+ b + (I − A+ A)q, donde q es un vector arbitr´ ario. Si el sistema Ax = b es consistente, entonces tendr´a soluci´ on u ´nica s´olo si A es de rango completo, en cuyo caso la soluci´on est´a dada por x = A−1 b. ´ n 1.48. Una condici´ Proposicio on necesaria y suficiente para que la ecuaci´ on matricial AXB = C tenga una soluci´ on es que AA+ CB + B = C, en cuyo caso la soluci´ on general es X = A+ CB + + Q − A+ AQBB + , donde Q es una matriz arbitr´ aria de o ´rdenes apropiados.
Cap´ıtulo 2
Preliminares 2.1.
Vectores Aleatorios
El prop´ osito de esta secci´ on es introducir algunas propiedades elementales de vectores aleatorios u ´tiles a lo largo de este curso. Se asume que el lector es familiar con el concepto de variable aleatoria unidimensional. Funci´ on de distribuci´ on. Un vector aleatorio n-dimensional X es una funci´ on (medible) desde el espacio de probabilidad Ω a Rn , esto es X : Ω → Rn . Por convenci´ on asumiremos que el vector aleatorio X = (X1 , . . . , Xn )> es un vector columna. ´ n 2.1 (Funci´ Definicio on de distribuci´on). Para X distribu´ıdo en Rn , la funci´ on de distribuci´ on de X es una funci´on F : Rn → [0, 1], tal que (2.1)
F (x) = P(X ≤ x),
∀x ∈ Rn
y denotamos X ∼ F ´ o X ∼ FX . La funci´ on en (2.1) debe ser entendida como F (x) = P(X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), Tn que corresponde a la probabilidad del evento k=1 {Xk ≤ xk }. La funci´ on de distribuci´ on acumulada tiene las siguientes propiedades: (a) F (x) es funci´ on mon´ otona creciente y cont´ınua a la derecha en cada uno de los componentes de X, (b) 0 ≤ F (x) ≤ 1, (c) F (−∞, x2 , . . . , xn ) = · · · = F (x1 , . . . , xn−1 , −∞) = 0, (d) F (+∞, . . . , +∞) = 1. Densidad conjunta. Sea F la funci´on de distribuci´on del vector aleatorio X. Entonces, existe una funci´ on no-negativa f tal que Z x F (x) = f (u) du, x ∈ Rn , −∞
en este caso decimos que X es un vector aleatorio cont´ınuo con funci´ on de densidad f . Por el teorema fundamental del C´alculo, tenemos que ∂ n F (x) . f (x) = ∂x1 · · · ∂xn ¯ = R ∪ {±∞}, para x, y vectores en R ¯ n , entonces Adem´ as, considere R x≤y
esto es, xi ≤ yi , i = 1, . . . , n. 17
18
2. PRELIMINARES
Esto permite definir un rect´ angulo n-dimensional en Rn como I = (a, b] = {x ∈ Rn : a < x ≤ b} ¯ n . Entonces, tambi´en por el teorema fundamental del C´alculo, para todo a, b ∈ R tenemos que si f (x) =
∂ n F (x) . ∂x1 · · · ∂xn
existe y es continua (casi en toda parte) sobre un rect´angulo I, entonces Z P(x ∈ A) = f (x) dx, ∀A ⊂ I. A
Naturalmente la funci´ on de densidad debe satisfacer Z f (x) dx = 1. Rn
Distribuci´ on conjunta, marginal y condicional. Considere el vector alea> > donde X 1 y X 2 son torio n-dimensional X particionado como X = (X > 1 , X2 ) vectores n1 × 1 y n2 × 1, respectivamente, con n = n1 + n2 . Tenemos que X i ∼ Fi , i = 1, 2, de este modo X se denomina la conjunta de X 1 , X 2 mientras que los X 1 y X 2 son llamados marginales de X. Note que, las funciones de distribuci´on marginal pueden ser recuperadas desde la distribuci´ on conjunta mediante F1 (s) = F (s, ∞),
F2 (t) = F (∞, t),
∀s ∈ Rn1 , t ∈ Rn2 .
Cuando X es absolutamente cont´ınua con funci´on de densidad f (x) = f (x1 , x2 ), entonces la funci´ on de densidad de X i tambi´en es absolutamente cont´ınua y puede ser obtenida como Z Z f1 (s) = f (s, u) du, f2 (t) = f (u, t) du, ∀s ∈ Rn1 , t ∈ Rn2 , Rn2
Rn1
el resultado anterior es an´ alogo para el caso de distribuciones discretas. Si X es absolutamente cont´ınuo y f1 (x1 ) > 0, entonces la densidad condicional de X 2 dado X 1 = x1 es fX2 |X1 =x1 (u) =
fX (x1 , u) , f1 (x1 )
con funci´ on de distribuci´ on de X 2 condicional a X 1 = x1 dada por Z u FX2 |X1 =x1 (u) = fX2 |X1 =x1 (t) dt, −∞
tenemos adem´ as que fX2 |X1 =x1 (u) = R
fX (x1 , u) . fX (x1 , t) dt
Rn2
2.2. OPERADORES DE ESPERANZA Y COVARIANZA
2.2.
19
Operadores de esperanza y covarianza
Considere X = (X1 , . . . , Xn )> vector aleatorio n-dimensional con funci´on de densidad f . Entonces la esperanza de cualquier funci´on g de X est´a dada por Z E(g(X)) = g(t)f (t) dt, Rn
siempre que la integral (n-dimensional) exista. M´ as generalmente, sea Z = (Zij ) una funci´on matricial m × n, entonces podemos definir el operador de esperanza de una matriz aleatoria como (2.2)
E(Z(X)) = (E(Zij )),
Zij = Zij (X).
De la definici´ on en (2.2) se desprenden una serie de resultados u ´tiles con relaci´on al operador de esperanza. Por ejemplo, sea A = (aij ) una matriz de constantes, entonces E(A) = A. Resultado 2.2. Sea A = (aij ), B = (bij ) y C = (cij ) matrices de constantes l × m, n × p y l × p, respectivamente. Entonces E(AZB + C) = A E(Z)B + C. ´ n. Sea Y = AZB + C, entonces Demostracio Yij =
m X n X
air Zrs bsj + cij ,
r=1 s=1
de este modo E(AZB + C) = (E(Yij )) =
n m X X
! air E(Zrs )bsj + cij
r=1 s=1
= A E(Z)B + C. Un caso particular importante corresponde a la esperanza de una transformaci´on lineal. Considere el vector aleatorio n-dimensional, Y = AX, donde X es vector aleatorio m × 1, entonces E(AX) = A E(X). Esta propiedad puede ser extendida para sumas de vectores aleatorios, como X X E Ai X i = Ai E(X i ), i
i
de manera similar tenemos que X X E αi Z i = αi E(Z i ), i
i
donde αi son constantes y los Z i son matrices aleatorias. ´ n 2.3 (Matriz de covarianza). Sean X e Y vectores aleatorios m y nDefinicio dimensionales, respectivamente. Se define la matriz de covarianza entre X e Y como la matriz m × n, Cov(X, Y ) = (Cov(Xi , Yj )).
20
2. PRELIMINARES
Podemos apreciar, a partir de la definici´on de covarianza que Cov(X, Y ) = E{(X − E(X))(Y − E(Y ))> }. En efecto, sean µ = E(X) y η = E(Y ). Entonces, Cov(X, Y ) = (Cov(Xi , Yj )) = (E(Xi − µi )(Yj − ηj )) = E([(Xi − µi )(Yj − ηj )]) = E[(X − µ)(Y − η)> ]. Tenemos adem´ as el siguiente resultado Cov(X, Y ) = E{(X − E(X))(Y − E(Y ))> } = E(XY > − E(X)Y > − X E> (Y ) + E(X) E> (Y )) = E(XY > ) − E(X) E> (Y ). Se define la matriz de dispersi´ on (varianza), como Cov(X) = Cov(X, X). De este modo, tenemos Cov(X) = (Cov(Xi , Xj )) = E{(X − E(X))(X − E(X))> }, y, de la misma manera que para el caso de la matriz de covarianza, Cov(X) = E(XX > ) − E(X) E> (X). Ejemplo 2.4. Sea a vector de constantes n × 1, entonces Cov(X − a) = Cov(X), en efecto, note que X − a − E(X − a) = X − E(X), por tanto, tenemos Cov(X − a, X − a) = Cov(X, X) Resultado 2.5. Si X e Y son vectores aleatorios m y n-dimensionales, respectivamente y A ∈ Rl×m , B ∈ Rp×n , entonces Cov(AX, BY ) = A Cov(X, Y )B > . ´ n. Sean U = AX y V = BY , entonces Demostracio Cov(AX, BY ) = Cov(U , V ) = E{(U − E(U ))(V − E(V ))> } = E{(AX − A E(X))(BY − B E(Y ))> } = E{A(X − E(X))(Y − E(Y ))> B > } = A E{(X − E(X))(Y − E(Y ))> }B > = A Cov(X, Y )B > . Tenemos el siguiente caso particular, Cov(AX) = Cov(AX, AX) = A Cov(X, X)A> = A Cov(X)A> . Ejemplo 2.6. Considere X, Y , U y V vectores aleatorios n-dimensionales y A, B, C y D matrices de ´ ordenes apropiados, entonces Cov(AX + BY , CU + DV ) = A Cov(X, U )C > + A Cov(X, V )D > + B Cov(Y , U )C > + B Cov(Y , V )D > .
2.2. OPERADORES DE ESPERANZA Y COVARIANZA
21
tomando U = X, V = Y , C = A y D = B, tenemos Cov(AX + BY ) = Cov(AX + BY , AX + BY ) = A Cov(X)A> + A Cov(X, Y )B > + B Cov(Y , X)A> + B Cov(Y )B > . Resultado 2.7. Toda matriz de dispersi´ on es sim´etrica y semidefinida positiva ´ n. La simetr´ıa de la matriz de dispersi´on es obvia. Para mostrar Demostracio que Cov(X) es semidefinida positiva, sea Z = X − E(X), y considere la variable aleatoria Y = a> Z, para a ∈ Rn un vector arbitrareo. Entonces, a> Cov(X)a = a> E(X − E(X))(X − E(X))> a = E(a> (X − E(X))(X − E(X))> a) = E(a> ZZ > a) = E(Y 2 ) ≥ 0 y por tanto, Cov(X) es semidefinida positiva. Ahora, suponga que Cov(X) es semidefinida positiva de rango r (r ≤ n). Luego Cov(X) = BB > donde B ∈ Rn×r de rango r. Sea Y vector aleatorio r-dimensional con E(Y ) = 0 y Cov(Y ) = I. Haciendo X = BY , sigue que E(X) = 0 y Cov(X) = Cov(BY ) = B Cov(Y )B > = BB > . Es decir, corresponde a una matriz de covarianza.
Resultado 2.8. Sea X vector aleatorio n-dimensional y considere la transformaci´ on lineal Y = AX + b, donde A es una matriz de constantes m × n y b es vector de constantes m × 1. Entonces Cov(Y ) = A Cov(X)A> .
E(Y ) = AX + b,
Ejemplo 2.9. Sea X vector aleatorio n-dimensional con media E(X) = µ y matriz de dispersi´ on Cov(X) = Σ. Sea Σ = U ΛU > la descomposici´ on espectral de Σ, donde U es matriz ortogonal y Λ = diag(λ) y considere la siguiente transformaci´on Z = Λ−1/2 U > (X − µ) de este modo, obtenemos que E(Z) = 0 En efecto, la transformaci´ on Z = Σ y Cov(Z) = I.
y −1/2
Cov(Z) = I. (X − µ) tambi´en satisface que E(Z) = 0
Suponga que Z es una matriz aleatoria n × p cuyas fias son vectores aleatorios independientes p × 1, cada uno con la misma matriz de covarianza Σ. Considere la partici´ on Z > = (Z 1 , . . . , Z n ), donde Cov(Z i ) = Σ, i = 1, . . . , n. Tenemos que Z1 .. > vec(Z ) = . Zn
22
2. PRELIMINARES
y dado que todos los Z i son independientes con la misma matriz de covarianza sigue que Σ 0 ... 0 0 Σ . .. 0 Cov(vec(Z > )) = . .. = I n ⊗ Σ. .. .. . . 0
0
...
Σ
Ahora suponga que llevamos a cabo la transformaci´on lineal Y = AZB, donde A ∈ Rr×n , B ∈ Rp×q son matrices de constantes. Entonces E(Y ) = A E(Z)B, mientras que vec(Y > ) = (A ⊗ B > ) vec(Z > ), de modo que E(vec(Y > )) = (A ⊗ B > ) E(vec(Z)> ). Adem´ as tenemos que Cov(vec(Y > )) = (A ⊗ B > ) Cov(vec(Z > ))(A ⊗ B > )> = (A ⊗ B > )(I n ⊗ Σ)(A> ⊗ B) = AA> ⊗ B > ΣB. ´ n 2.10 (Matriz de correlaci´on). Sea X = (X1 , . . . , Xp )> vector aleatorio Definicio con media µ y matriz de covarianza Σ. Se define la matriz de correlaciones como R = (ρij ) donde ρij =
Cov(Xi , Xj ) σij =√ , 1/2 σii σjj {var(Xi ) var(Xj )}
i, j = 1, . . . , p.
Note que, para Σ matriz de covarianza del vector aleatorio X y con D = diag(Σ) (= diag(σ11 , . . . , σpp ) podemos escribir R = D −1/2 ΣD −1/2 . Cada elemento de la diagonal de R es igual a 1, mientras que sus elementos fuera de la diagonal est´ an entre -1 y 1. Adem´as se desprende desde la definici´on que R es una matriz semidefinida positiva. Resultado 2.11. Sea X vector aleatorio p-dimensional con E(X) = µ y Cov(X) = Σ. Sea A una matriz p × p. Entonces E(X > AX) = tr(AΣ) + µ> Aµ. ´ n. Tenemos Demostracio E(X > AX) = E(tr X > AX) = E(tr AXX > ) = tr E(AXX > ) = tr A E(XX > ) = tr A(Σ + µµ> ) = tr(AΣ) + µ> Aµ. Considere el siguiente caso especial: sea Y = X − a, entonces Cov(Y ) = Cov(X) y tenemos E[(X − a)> A(X − a)] = tr(AΣ) + (µ − a)> A(µ − a).
2.3. INDEPENDENCIA DE VECTORES ALEATORIOS
23
Ejemplo 2.12. Sea X1 , . . . , Xn variables aleatorias independientes e id´enticamente distribu´ıdas con media µ y varianza σ 2 . Considere la forma cuadr´atica n n X X 2 Q= (Xi − X)2 = Xi2 − nX , i=1
de este modo
i=1
Q = X > CX = X > I − n1 J n X,
como Cov(Xi , Xj ) = 0 (i 6= j), Σ = σ 2 I n y E(X) = µ1n , obtenemos que E(Q) = σ 2 tr(C) + µ2 1> C1 = σ 2 (n − 1). Ejemplo 2.13. Sea Y vector aleatorio n-dimensional, tal que E(Y ) = Xβ y Cov(Y ) = σ 2 I, donde X ∈ Rn×p . Considere la siguiente forma cuadr´atica Q = Y > (I − H)Y , con H = X(X > X)−1 X > . Entonces E(Q) = σ 2 tr(I − H) + β > X > (I − H)Xβ = σ 2 (n − p). Resultado 2.14. Si X es vector aleatorio n × 1. Entonces su distribuci´ on est´ a determinada por las distribuciones de las funciones lineales a> X, para todo a ∈ Rn . ´ n. La funci´on caracter´ıstica de a> X es Demostracio ϕa> X (t) = E{exp(ita> X)}, de modo que ϕa> X (1) = E{exp(ia> X)} (= ϕX (a)). Es considerada como una funci´on de a, esto es, la funci´on caracter´ıstica (conjunta) de X. El resultado sigue notando que una distribuci´on en Rn est´a completamente determinada por su funci´ on caracter´ıstica. La funci´ on caracter´ıstica permite un m´etodo bastante operativo para el c´alculo del k-´esimo momentos de un vector aleatorio X. En efecto, ( E(x ⊗ x> ⊗ · · · ⊗ x> ), k par, µk (X) = E(x ⊗ x> ⊗ · · · ⊗ x> ⊗ x), k impar, ∂ k ϕ(t) i−k , k par, > > t=0 ∂t∂t · · · ∂t = k ∂ ϕ(t) i−k , k impar. ∂t∂t> · · · ∂t> ∂t t=0 2.3.
Independencia de vectores aleatorios
Sea Z = (X > , Y > )> con X, Y vectores aleatorios n y q-dimensionales, respectivamente. Se dicen independientes s´olo si F (x, y) = G(x)H(y), donde F (z), G(x) y H(y) son las funciones de distribuci´on de Z, X e Y , respectivamente. Si Z, X e Y tienen densidades f (z), g(x) y h(y), respectivamente. Entonces X e Y son independientes s´ olo si f (z) = g(x)h(y),
24
2. PRELIMINARES
o bien, f (x|y) = g(x). Resultado 2.15. Sean X e Y dos vectores aleatorios independientes. Entonces para funciones cualquiera κ y τ , tenemos E{κ(X)τ (Y )} = E{κ(X)} E{τ (Y )}, si las esperanzas existen. ´ n. En efecto, es f´acil notar que Demostracio Z Z E{κ(X)τ (Y )} = κ(x)τ (y)g(x)h(y) dx dy Z Z = κ(x)g(x) dx τ (y)h(y) dy = E{κ(X)} E{τ (Y )}. 2.4.
Cambios de variable
n
Considere la funci´ on f : R → Rn , el Jacobiano se define como el valor absoluto del determinante de Df (x) y es denotado por J(y → x) = |Df (x)|+ = abs(det(Df (x))), donde y = f (x). Note que si z = f (y) y y = g(x), entonces tenemos J(z → x) = J(z → y) · J(y → x) J(y → x) = {J(x → y)}−1 El siguiente resultado presenta una de aplicaci´on del Jacobiano de una transformaci´ on para obtener la funci´ on de densidad de una transformaci´on de un vector aleatorio. ´ n 2.16 (Transformaci´on de vectores aleatorios continuos). Sea X vector Proposicio aleatorio n-dimensional con densidad fX (x) y soporte S = {x : fX (x) > 0}. Para g : S → Rn diferenciable e invertible, sea y = g(x). Entonces la densidad de Y est´ a dada por fY (y) = |Dg −1 (y)|+ fX (g −1 (y)) = {J(y → x)}−1 fX (g −1 (y)). Ejemplo 2.17. Sea Y = AXB, Y ∈ Rn×q , X ∈ Rn×q , A ∈ Rn×n y B ∈ Rq×q . Entonces d Y = A(d X)B, vectorizando obtenemos vec d Y = (B > ⊗ A) vec d X, esto es, DF (X) = B > ⊗ A, por tanto J(Y → X) = |B > ⊗ A|+ = |A|q+ |B > |n+ = |A|q+ |B|n+
´ NORMAL MULTIVARIADA 2.5. DISTRIBUCION
2.5.
25
Distribuci´ on normal multivariada
La distribuci´ on normal multivariada ocupa un rol central en inferencia multivariada as´ı como en modelaci´ on estad´ıstica. En esta secci´on introducimos la distribuci´ on normal multivariada mediante tres definiciones equivalentes, definiciones que permiten el estudio de las propiedades fundamentales de la distribuci´on normal multivariada. Conceptos preliminares. Una variable aleatoria normal (uni-dimensional) Z tiene una distribuci´ on normal con media cero y varianza uno si su funci´on de densidad es de la forma f (z) = (2π)−1/2 exp − 12 z 2 , z ∈ R, en cuyo caso escribimos Z ∼ N (0, 1). M´as generalmente una variable aleatoria d
Y ∈ R tiene distribuci´ on normal con media µ ∈ R y varianza σ 2 ≥ 0 si Y = µ + σZ, donde Z ∼ N (0, 1). Cuando σ 2 = 0, la distribuci´on N (µ, σ 2 ) se interpreta como una distribuci´ on degenerada en µ. Si Y ∼ N (µ, σ 2 ), entonces su funci´on caracter´ıstica adopta la forma ϕ(t) = exp itµ − 21 σ 2 t2 , t ∈ R. Definici´ on y propiedades. ´ n 2.18. Un vector aleatorio p-dimensional, X tiene distribuci´on normal Definicio con vector de medias µ ∈ Rp y matriz de covarianza Cov(X) = Σ ≥ 0 s´olo si, para todo vector t la variable aleatoria (uni-dimensional) t> X es normal univariada, en cuyo caso escribimos X ∼ Np (µ, Σ). ´ n 2.19. Note que en la definici´on anterior no se ha hecho supuestos Observacio respecto de la independencia de los componentes de X. Resultado 2.20. Suponga que X ∼ Np (µ, Σ) y considere la transformaci´ on lineal Y = AX + b donde A ∈ Rm×p con rg(A) = m. Entonces Y ∼ Nm (Aµ + b, AΣA> ). ´ n. Sea Y = AX + b y simplemente note que Demostracio t> Y = t> AX + t> b = (A> t)> X + t> b = h> X + c, por la Definici´ on 2.18 tenemos que h> X es normal y como c es una constante, sigue > que t Y tiene distribuci´ on normal multivariada. A partir del resultado anterior sigue que todas las distribuciones marginales de X tambi´en son normalmente distribu´ıdas. En particular, tambi´en permite apreciar que la distribuci´ on normal satisface la siguiente propiedad relativa a la simetr´ıa multivariada: d
Z ∼ Np (0, σ 2 I p ) =⇒ QZ = Z,
∀Q ∈ Op .
Resultado 2.21. Si X ∼ Np (µ, Σ), entonces la funci´ on caracter´ıstica de X es dada por ϕX (t) = exp(it> µ − 21 t> Σt).
26
2. PRELIMINARES
´ n. Sabemos que la funci´on caracter´ıstica de un vector aleatorio, Demostracio satisface ϕX (t) = E{exp(it> X)} = ϕt> X (1), donde la funci´ on caracter´ıstica de la variable aleatoria uni-dimensional Y = t> X es evaluada en 1. Como X ∼ Np (µ, Σ) s´olo si t> X ∼ N1 (t> µ, t> Σt), tenemos ϕX (t) = exp it> µ − 21 t> Σt . En efecto, sea Σ matriz de covarianza p × p semidefinida positiva de rango r y sea Z1 , . . . , Zr variables aleatorias iid N (0, 1). Entonces el vector Z = (Z1 , . . . , Zr )> tiene funci´ on caracter´ıstica ϕZ (t) = E{exp(it> Z)} =
r Y
E{exp(itj Zj )}
j=1
=
r Y
exp − 21 t2j = exp − 12 t> t .
j=1
Considere X = µ + BZ, donde B ∈ R con rg(B) = r, tal que Σ = BB > y µ ∈ Rp . Entonces X tiene funci´ on caracter´ıstica p×r
ϕX (t) = E{exp(it> X)} = E{exp(it> (µ + BZ))} = exp(it> µ) E{exp(it> BZ)} = exp(it> µ)ϕZ (h),
h = B>t
= exp(it> µ) exp(− 21 t> BB > t) = exp(it> µ − 12 t> Σt). ´ n 2.22. El Resultado 2.20 puede ser demostrado de manera bastante Observacio simple usando la funci´ on caracter´ıstica (ver Ejercicio 1.4). Resultado 2.23. Si Z ∼ Np (0, I). Entonces E(Z) = 0,
Cov(Z) = I.
´ n. Para mostrar el resultado deseado, podemos calcular el priDemostracio mer y segundo diferencial de la funci´on caracter´ıstica del vector aleatorio Z ∼ Np (0, I). De este modo, dϕZ (t) = −ϕZ (t)t> dt, y d2 ϕZ (t) = − dϕZ (t)t> dt − ϕZ (t)(dt)> dt = ϕZ (t)(dt)> tt> dt − ϕZ (t)(dt)> dt = ϕZ (t)(dt)> (tt> − I) dt, de ah´ı que ∂ϕZ (t) = −ϕZ (t)t, ∂t
∂ 2 ϕZ (t) = ϕZ (t)(tt> − I). ∂t ∂t>
´ NORMAL MULTIVARIADA 2.5. DISTRIBUCION
27
Ahora, el vector de medias y matriz de covarianzas est´an dadas por ∂ϕZ (t) = 0, E(Z) = i−1 ∂t t=0 ∂ 2 ϕZ (t) E(ZZ > ) = i−2 = I = Cov(Z). ∂t ∂t> t=0 ´ n 2.24. Desde los Resultados 2.20 y 2.23, sigue que para la variable Observacio aleatoria X = µ + Σ1/2 Z, Z ∼ Np (0, I), tenemos E(X) = µ y Cov(X) = Σ. Resultado 2.25. Si X ∼ Np (µ, Σ), entonces la distribuci´ on marginal de cualquier subconjunto de k (< p) componentes de X es normal k-variada. ´ n. Considere la siguiente partici´on: Demostracio X1 µ1 Σ11 (2.3) X= , µ= , Σ= X2 µ2 Σ21
Σ12 , Σ22
donde X 1 y µ1 son vectores k × 1 y Σ11 es k × k. Aplicando el Resultado 2.20 con A = (I k , 0) ∈ Rk×p
y
b = 0,
sigue inmediatamente que X 1 ∼ Nk (µ1 , Σ11 ).
Una consecuencia de este resultado es que la distribuci´on marginal de cada componente de X es normal univariada. ´ n 2.26. La inversa del Resultado 2.25 no es verdad en general. Es Observacio decir, que cada componente de un vector aleatorio tenga distribuci´on normal no implica que todo el vector siga una distribuci´on normal multivariada. Resultado 2.27. Si X ∼ Np (µ, Σ) y X, µ y Σ son particionadas como en la Ecuaci´ on (2.3). Entonces los vectores X 1 y X 2 son independientes s´ olo si Σ12 = 0. ´ n. Note que Cov(X 1 , X 2 ) = Σ12 , as´ı la independencia entre Demostracio X 1 y X 2 implica que Σ12 = 0. Suponga ahora que Σ12 = 0. Entonces la funci´on caracter´ıstica ϕX (t) = exp(it> µ − 12 t> Σt) > 1 > 1 > = exp(it> 1 µ1 + it2 µ2 − 2 t1 Σ11 t1 − 2 t2 Σ22 t2 ) > 1 > 1 > = exp(it> 1 µ1 − 2 t1 Σ11 t1 ) exp(it2 µ2 − 2 t2 Σ22 t2 )
= ϕX1 (t1 )ϕX2 (t2 ), es decir, X 1 ∼ Nk (µ1 , Σ11 ) es independiente de X 2 ∼ Np−k (µ2 , Σ22 ).
´ n 2.28. Si X ∼ Np (µ, Σ) y Σ es definida positiva, entonces la densidad Definicio de X asume la forma fX (x) = |2πΣ|−1/2 exp{− 21 (x − µ)> Σ−1 (x − µ)},
x ∈ Rp .
28
2. PRELIMINARES
´ n. Sea Z1 , . . . , Zp variables aleatorias iid N (0, 1). Entonces la Demostracio densidad conjunta de Z = (Z1 , . . . , Zp )> es fZ (z) =
p Y
(2π)−1/2 exp(−zi2 /2) = (2π)−p/2 exp(− 21 kzk2 ).
i=1
Considere X = µ+BZ con µ ∈ Rp y Σ = BB > , con B matriz de rango completo. Entonces, tenemos la transformaci´on inversa Z = g −1 (X) = B −1 (X − µ), y dZ = dg −1 (X) = B −1 dX, con matriz jacobiana Dg −1 (X) = B −1 , como |Dg −1 (X)|+ = |B|−1 = |BB > |−1/2 , obtenemos fX (x) = |Dg −1 (x)|+ fZ (g −1 (x)) = (2π)−p/2 |BB > |−1/2 exp{ 12 (x − µ)> B −> B −1 (x − µ)}, notando que Σ−1 = B −> B −1 sigue el resultado deseado.
Es f´ acil apreciar que la funci´ on de densidad es constante sobre el elipsoide (x − µ)> Σ−1 (x − µ) = λ, en Rp para todo λ > 0. Este elipsoide tiene centro µ, mientras que Σ determina su forma y orientaci´ on. Adem´ as, la variable aleatoria p X (2.4) (X − µ)> Σ−1 (X − µ) = Z > Z = Zi2 , i=1
sigue una distribuci´ on chi-cuadrado con p grados de libertad y la cantidad D = {(X − µ)> Σ−1 (X − µ)}1/2 se conoce como distancia de Mahalanobis de X a µ. Ejemplo 2.29. Sea X ∼ N2 (0, Σ) donde 1 ρ Σ= , ρ 1
0 ≤ ρ ≤ 1.
La siguiente figura presenta la funci´on de densidad para los casos ρ = 0,0, 0,4 y 0,8. ´ n 2.30. Para la existencia de densidad hemos asumido que Σ > 0. Para Observacio el caso en el que Σ ≥ 0 decimos que X sigue una distribuci´on normal singular. Para introducir una definici´ on de la funci´on de densidad asociada a una variable con distribuci´ on normal singular, note que X ∼ N (µ, σ 2 ) con σ 2 = 0 ⇔ x = µ con probabilidad 1 (pues si σ 2 = 0, P(X = µ) = l´ımn→∞ P(|X − µ| < 1/n) = 0, ∀n). Considere Y ∼ Np (µ, Σ) con rg(Σ) = r < p. Entonces, podemos escribir > Λ1 0 U1 > Σ = U ΛU = (U 1 , U 2 ) = U 1 Λ1 U > 1, 0 0 U> 2 donde Λ1 = diag(λ1 , . . . , λr ). De este modo, es claro que U > ΣU =⇒ U > 2 ΣU 2 = 0, es decir, tenemos que U > 2 (Y − µ) = 0 con probabilidad 1. Mientras que U> 1 (Y − µ) ∼ Nr (0, Λ1 ).
´ NORMAL MULTIVARIADA 2.5. DISTRIBUCION rho = 0.0
29
rho = 0.4
0.2
z
0.3
0.2
z
0.3 0.1 0.0 2
0.1 0.0 2 0
0
0
2
y
y
2 −2
x
0
−2
−2
x
−2
3
rho = 0.8
2
0.3 0.2
1
z
0.06
0.1 0.0 2 y
2
x
−2
0.1
0.02
−3
−2
0
−2
0
−1
0
0.14
−3
−2
−1
0
1
2
3
Figura 1. Funci´ on de densidad de X ∼ N2 (0, Σ) para ρ = 0,0, 0,4 y 0,8. > > −1 > U 1 . As´ı, Y tiene la siguiente densiAdem´ as Σ− = U 1 Λ−1 1 U 1 = U 1 (U 1 ΣU 1 ) dad normal (singular) > −1/2 −1 > > exp{− 12 (U > fY (y) = |2π U > U 1 (y − µ)} 1 ΣU 1 | 1 (y − µ)) (U 1 ΣU 1 ) > = (2π)−r/2 |Λ1 |−1/2 exp{− 21 (y − µ)> U 1 Λ−1 1 U 1 (y − µ)}.
El siguiente resultado presenta la distribuci´on condicional de un vector aleatorio con distribuci´ on normal multivariada. Resultado 2.31. Sea X ∼ Np (µ, Σ) y particione X, µ y Σ como: X1 µ1 Σ11 Σ12 X= , µ= , Σ= , X2 µ2 Σ21 Σ22 donde X 1 y µ1 son vectores k × 1, mientras que Σ11 es matriz k × k. Sea Σ− 22 una inversa generalizada de Σ22 , esto es, una matriz que satisface Σ22 Σ− 22 Σ22 = Σ22 , y sea Σ11·2 = Σ11 − Σ12 Σ− 22 Σ21 . Entonces − (a) X 1 − Σ12 Σ− 22 X 2 ∼ Nk (µ1 − Σ12 Σ22 µ2 , Σ11·2 ) y es independiente de X 2 . (b) La distribuci´ on condicional
(X 1 |X 2 = x2 ) ∼ Nk (µ1 + Σ12 Σ− 22 (x2 − µ2 ), Σ11·2 ). ´ n. Considere la transformaci´on lineal Demostracio Y1 I k −B X1 Y = = = CX, Y2 0 I p−k X2
30
2. PRELIMINARES
sigue que Y ∼ Np (Cµ, CΣC > ), donde I k −B µ1 µ1 − Bµ2 Cµ = = 0 I p−k µ2 µ2 Ik 0 I k −B Σ11 Σ12 > CΣC = 0 I p−k Σ21 Σ22 −B > I p−k Σ11 − BΣ21 − Σ12 B > + BΣ22 B > Σ12 − BΣ22 = . Σ21 − Σ22 B > Σ22 De este modo, nuestro inter´es es escoger Σ12 − BΣ22 = 0. Es decir, Σ12 = BΣ22 . Por otro lado, notando que − Σ12 Σ− 22 Σ22 = BΣ22 Σ22 Σ22 = BΣ22 = Σ12 ,
sigue que Σ12 B > = BΣ22 B > (y an´alogamente BΣ21 = BΣ22 B > ). Esto es, si B es escogido como B = Σ12 Σ− on 22 , entonces Y 1 y Y 2 son independientes con distribuci´ conjunta Y1 0 X 1 − Σ12 Σ− µ1 − Σ12 Σ− 22 X 2 22 µ2 , Σ11·2 = ∼ Np . Y2 0 Σ22 X2 µ2 Esto muestra la parte (a). Para notar la parte (b), note que las densidades de Y 1 y Y 2 est´ an dadas por g(y 1 ; δ 1·2 , Σ11·2 ) = |2πΣ11·2 |−1/2 exp{− 12 (y 1 − δ 1·2 )> Σ−1 11·2 (y 1 − δ 1·2 )} f2 (y 2 ; µ2 , Σ22 ) = |2πΣ22 |−1/2 exp{− 21 (y 2 − µ2 )> Σ−1 22 (y 2 − µ2 )}, > > y la densidad conjunta para Y = (Y > 1 , Y 2 ) adopta la forma
f (y 1 , y 2 ; µ, Σ) = g(y 1 ; δ 1·2 , Σ11·2 ) f2 (y 2 ; µ2 , Σ22 ). Como f (x1 , x2 ; µ, Σ) = f1|2 (x1 ; µ, Σ|x2 ) f2 (x2 ; µ2 , Σ22 ), entonces, la densidad condicional de X 1 dado X 2 = x2 debe ser g(y 1 ; δ 1·2 , Σ11·2 ). Adem´ as, es f´ acil notar que la forma cuadr´atica q(y 1 ; µ1·2 , Σ11·2 ) = (y 1 − δ 1·2 )> Σ−1 11·2 (y 1 − δ 1·2 ) − > −1 = (x1 − Σ12 Σ− 22 x2 − δ 1·2 ) Σ11·2 (x1 − Σ12 Σ22 x2 − δ 1·2 )
= (x1 − µ1·2 )> Σ−1 11·2 (x1 − µ1·2 ), donde µ1·2 = µ1 + Σ12 Σ− 22 (x2 − µ2 ), lo que muestra el resultado.
´ n 2.32. La esperanza de la distribuci´on condicional de X 1 dado X 2 , Observacio es decir E(X 1 |X 2 = x2 ) = µ1 + Σ12 Σ− 22 (x2 − µ2 ), se denomina funci´ on de regresi´ on de X 1 sobre X 2 con coeficientes de regresi´on B = Σ12 Σ− on lineal de X 2 y la matriz de covarianza Σ11·2 no 22 . Esta es una funci´ depende de X 2 . Resultado 2.33. Sea X ∼ Np (µ, Σ) y considere Y 1 = A1 X, Y 2 = A2 X dos funciones lineales del vector aleatorio X. La covarianza entre Y 1 y Y 2 es dada por > Cov(Y 1 , Y 2 ) = A1 Cov(X 1 , X 2 )A> 2 = A1 ΣA2
´ NORMAL MULTIVARIADA∗ 2.6. ALTERNATIVAS A LA DISTRIBUCION
31
Este resultado permite obtener una condici´on para la independencia entre dos formas lineales en variables aleatorias normales, estos es Y 1 y Y 2 son independientes s´ olo si A1 ΣA> 2 = 0. Ejemplo Considere X1 , . . . , Xn una muestra aleatoria desde N (µ, σ 2 ) y sea P2.34. n 1 X = n i=1 Xi y el vector de datos centrados Z = (Zi ), con Zi = Xi − X, i = 1, . . . , n. Note que, podemos escribir 1 X = 1> X, Z = CX, n donde C = I n − n1 11> es la matriz de centrado. Tenemos que X ∼ Nn (µ1, σ 2 I n ) y X con Z son independientes pues C1 = 0. Ejemplo 2.35. Sea X ∼ Nn (0, σ 2 I) y considere las transformaciones Y 1 = AX y Y 2 = (I − A+ A)> X. De este modo Cov(Y 1 , Y 2 ) = Cov(AX, (I − A+ A)> X) = σ 2 A(I − A+ A) = 0, pues AA+ A = A y Y 1 con Y 2 son independientes. 2.6.
Alternativas a la distribuci´ on normal multivariada∗
La distribuci´ on normal multivariada es de importancia fundamental en la teor´ıa cl´ asica de modelos lineales as´ı como para an´alisis multivariado. A pesar de su uso amplio, es bien sabido que la inferencia estad´ıstica basada en la distribuci´on normal es vulnerable a la presencia de datos at´ıpicos, esto ha motivado considerar distribuciones alternativas que eviten este tipo de limitaciones. En esta direcci´on, varios autores han sugerido la clase de distribuciones el´ıpticas (ver, por ejemplo Fang et al., 1990; Arellano, 1994) particularmente debido al hecho de incluir distribuciones con colas m´ as pesadas que la normal, tales como la t de Student, exponencial potencia y normal contaminada, entre otras. Una subclase importante de la familia de distribuciones el´ıpticas es la clase de distribuciones de mezcla de escala normal (Andrews y Mallows, 1974) la que tiene propiedades similares a la distribuci´on normal, es relativamente simple de trabajar y permite proponer procedimientos para estimaci´ on robusta. A continuaci´on se presenta la definici´on y algunos ejemplos de distribuciones en la clase el´ıptica. Distribuci´ on uniforme sobre la esfera. La esfera p-dimesional es el conjunto de todos los puntos x ∈ Rp tal que kxk = 1. Una manera de definir la densidad de un vector aleatorio U ∼ S (p) se basa en la siguiente propiedad: ind
Propiedad 2.36. Si Z1 , . . . , Zp ∼ N (0, 1), entonces U = (U1 , . . . , Up )> ∼ S (p) , donde Z U= . kZk Distribuciones de contornos el´ıpticos. ´ n 2.37. Un vector aleatorio p × 1, X se dice que tiene simetr´ıa esf´erica Definicio si para cualquier Q ∈ Op , sigue que d
QX = X. d
Ejemplo 2.38. Sea U ∼ S (p) , entonces es bastante obvio que QU = U .
32
2. PRELIMINARES
´ n 2.39. Un vector aleatorio p-dimensional tiene distribuci´ Definicio on esf´ erica s´ olo si su funci´ on caracter´ıstica satisface a. ϕ(Q> t) = ϕ(t), para todo Q ∈ Op . b. Existe una funci´ on ψ(·) de una variable escalar tal que ϕ(t) = ψ(t> t). En este caso escribimos X ∼ Sp (ψ). Ejemplo 2.40. Sea X ∼ Np (0, I), tenemos que ϕ(t) = exp{− 12 (t21 + · · · + t2p )} = exp{− 21 t> t}. Resultado 2.41. Sea ψ(t> t) la funci´ on caracter´ıstica del vector aleatorio X. Entonces X tiene representaci´ on estoc´ astica d
X = R U, donde U ∼ S (p) y R ∼ F (X) son independientes. d
Resultado 2.42. Suponga que X = R U ∼ S+ p (ψ) (P(X = 0) = 0), entonces d
kXk = R,
X d = U. kXk
Adem´ as kXk y X/kXk son independientes. ´ n 2.43. Un vector aleatorio p × 1, X tiene distribuci´ Definicio on de contornos el´ıpticos con par´ ametros µ ∈ Rp y Σ ≥ 0 si d
X = µ + BY ,
Y ∼ Sk (ψ),
donde B ∈ Rk×p es matriz de rango completo tal que, BB > = Σ con rg(Σ) = k y escribimos X ∼ ECp (µ, Σ; ψ). ´ n 2.44. La funci´ Observacio on caracter´ıstica de X ∼ ECp (µ, Σ; ψ) es de la forma ϕ(t) = exp(it> µ)ψ(t> Σt). Note adem´ as que la representaci´on estoc´astica de X es dada por d
X = µ + R BU , donde R ≥ 0 es independiente de U y BB > = Σ. ´ n 2.45. Se dice que el vector X tiene distribuci´on de contornos el´ıpticos Definicio si su funci´ on de densidad es de la forma f (x) = |Σ|−1/2 g((x − µ)> Σ−1 (x − µ)),
x ∈ Rp ,
donde g : R → [0, ∞) es funci´on decreciente, llamada funci´ on generadora de densidad, tal que: Z ∞ up/2 g(u) du < ∞. 0
´ n 2.46. Asuma que X ∼ ECp (µ, Σ; ψ) con rg(Σ) = k. Entonces, Observacio d
U = (X − µ)> Σ− (X − µ) = R2 , donde Σ− es una inversa generalizada de Σ.
´ NORMAL MULTIVARIADA∗ 2.6. ALTERNATIVAS A LA DISTRIBUCION
33
Ejemplo 2.47 (Distribuci´ on t de Student). La funci´on generadora de densidad de un vector aleatorio con distribuci´on t de Student asume la forma Γ( ν+p u −(ν+p)/2 2 ) g(u) = , ν > 0. 1 + ν Γ( ν2 )(πν)p/2 Para la distribuci´ on t de Student, tenemos que R2 /p ∼ Fp,ν . Adem´as, la funci´on caracter´ıstica de X ∼ tp (µ, Σ, ν) es dada por √ √ k νΣ1/2 tkν/2 ϕ(t) = ν/2−1 t ∈ Rp , exp{it> µ}Kν/2 (k νΣ1/2 tk), 2 Γ(ν/2) donde Kν (x) denota la funci´ on de Bessel modificada de segundo tipo. Ejemplo 2.48 (Distribuci´ on Exponencial Potencia). Para la distribuci´on Exponencial Potencia (G´ omez et al., 1988), la funci´on generadora de densidades es dada por pΓ( p2 )π −p/2 λ g(u) = λ > 0. p exp(−u /2), p Γ(1 + 2λ )21+ 2λ y es usual utilizar la notaci´ on X ∼ PEp (µ, Σ, λ). En este caso tenemos que la variable aleatoria positiva R tiene densidad p p−1 h(r) = exp(−r2λ /2), r > 0. p r p Γ(1 + 2λ )2 2λ p Note tambi´en que R2λ ∼ Gama( 12 , 2λ ).
Distribuciones de mezcla de escala normal. ´ n 2.49. Sea µ ∈ Rp , Σ matriz p × p definida positiva y H funci´on de Definicio distribuci´ on de la variable aleatoria positiva W . Entonces, se dice que el vector aleatorio X sigue una distribuci´ on de mezcla de escala normal si su funci´on de densidad asume la forma Z ∞ −1/2 f (x) = |2πΣ| wp/2 exp(−wu/2) dH(w), 0 >
donde u = (x − µ) Σ
−1
(x − µ) y anotamos X ∼ SMN p (µ, Σ; H).
Ejemplo 2.50 (Distribuci´ on Slash). Un vector aleatorio X tiene distribuci´on Slash si su funci´ on de densidad es de la forma: Z 1 f (x) = ν(2π)−p/2 |Σ|−1/2 wp/2+ν−1 exp(−wu/2) dw. 0
En este caso, tenemos que h(w) = νwν−1 , para w ∈ (0, 1) y ν > 0. Es decir W ∼ Beta(ν, 1). ´ n 2.51. Un vector aleatorio X ∼ SMN p (µ, Σ; H) admite la represenObservacio taci´ on d X = µ + W −1/2 Z, donde Z ∼ Np (0, Σ) y W ∼ H(ν) son independientes. Tambi´en podemos utilizar la siguiente estructura jer´ arquica: X|W ∼ Np (µ, Σ/W ),
W ∼ H(ν).
34
2. PRELIMINARES
2.7.
Algunas distribuciones no centrales
Las distribuciones chi-cuadrado, F, t de Student no central son derivadas desde la distribuci´ on normal multivariada y son u ´tiles para desarrollar la inferencia en modelo lineales. Resultado 2.52. Sea Z ∼ Np (0, I) y sea U = Z > Z. Entonces U ∼ χ2p y cuya densidad es dada por 1 up/2−1 exp(−u/2), u > 0. f (u) = p/2 2 Γ(p/2) ´ n. Como U es una funci´on de variables aleatorias normales, enDemostracio tonces su funci´ on caracter´ıstica asume la forma Z ϕU (t) = E{exp(itU )} = exp(itu)(2π)−p/2 exp(− 21 z > z) dz p R Z −p/2 = (2π) exp(− 12 (1 − 2it)z > z) dz = (1 − 2it)−p/2 , Rp
que corresponde a la funci´ on caracter´ıstica de una variable aleatoria chi-cuadrado con p grados de libertad. ´ n 2.53 (Distribuci´ Definicio on chi-cuadrado no central). Si Y ∼ Np (µ, I), entonces U = Y > Y tiene distribuci´ on chi-cuadrado no central con p grados de libertad y par´ ametro de no centralidad λ = µ> µ/2 en cuyo caso anotamos U ∼ χ2p (λ). Resultado 2.54. Sea Y ∼ Np (µ, I) donde µ = (µ1 , . . . , µp ) 6= 0 y sea U = Y > Y . Entonces la funci´ on caracter´ıstica de U es dada por 2itλ ϕU (t) = (1 − 2it)−p/2 exp , 1 − 2it con λ = µ> µ/2. ´ n. Como Y1 , . . . , Yp son variables aleatorias independientes, teDemostracio nemos p Y ϕU (t) = ϕYj2 (t). j=1
Ahora, la funci´ on caracter´ıstica asociada a la variable aleatoria Yj2 es dada por Z ∞ ϕYj2 (t) = exp(ityj2 )(2π)−1/2 exp{− 12 (yj − µj )2 } dyj −∞ Z ∞ n (1 − 2it) µj 2 o yj − dyj = (2π)−1/2 exp − 2 1 − 2it −∞ n µ2 1 µ2 o j j × exp − , 2 1 − 2it 2 de este modo, n µ2 2it o j ϕYj2 (t) = (1 − 2it)−1/2 exp , 2 1 −P 2it p y por tanto la funci´ on caracter´ıstica de la variable U = j=1 Yj2 , asume la forma 2itλ ϕU (t) = (1 − 2it)−p/2 exp , λ = µ> µ/2. 1 − 2it
2.7. ALGUNAS DISTRIBUCIONES NO CENTRALES
35
´ n 2.55. Es interesante notar que la funci´on caracter´ıstica de la variable Observacio U = Y > Y , puede ser escrita como λ ϕU (t) = (1 − 2it)−p/2 exp −λ 1 − 2it ∞ X {λ/(1 − 2it)}k = (1 − 2it)−p/2 e−λ k! k=0
=
∞ X e−λ λk k=0
k!
(1 − 2it)−(p+2k)/2 .
Es decir, la funci´ on caracter´ıstica de U es un promedio ponderado con pesos Poisson de funciones caracter´ısticas de variables aleatorias chi-cuadrado con p + 2k grados de libertad. Usando la relaci´ on entre la funciones caracter´ısticas y funciones de densidades sigue que la chi-cuadrado no central tiene la siguiente representaci´on de mezcla U |Z ∼ χ2p+2z ,
(2.5)
Z ∼ Poisson(λ),
con densidad f (u) =
∞ X e−λ λk k=0
k!
1 up/2+k−1 exp(−u/2), 2p/2+k Γ( p2 + k)
u > 0.
La representaci´ on en (2.5) es muy u ´til para obtener los momentos de una variable aleatoria con distribuci´ on chi-cuadrado no central. En efecto, el valor esperado de U ∼ χ2p (λ) es dado por E(U ) = E{E(U |Z)} = E{p + 2Z} = p + 2 E(Z) = p + 2λ, mientras que la varianza de U puede ser calculada como var(U ) = E{var(U |Z)} + var{E(U |Z)} = E{2(p + 2Z)} + var(p + 2Z) = 2p + 4λ + 4λ = 2p + 8λ. Resultado 2.56. Si X ∼ Np (µ, Σ) donde Σ es matriz no singular. Entonces (a) (X − µ)> Σ−1 (X − µ) ∼ χ2p . (b) X > Σ−1 X ∼ χ2p (λ), donde λ = 21 µ> Σ−1 µ. ´ n. La idea de la demostraci´on se basa en transformar los compoDemostracio nentes de X en variables aleatorias normales independientes. Considere Σ = BB > con B no singular. Para probar (a), tome Z = B −1 (X − µ), luego Z ∼ Np (0, I) y de este modo (X − µ)> Σ−1 (X − µ) = Z > Z ∼ χ2p (0). Para probar (b), sea Y = B −1 X, luego Y ∼ Np (B −1 µ, I),
36
2. PRELIMINARES
y X > Σ−1 X = Y > B > Σ−1 BY = Y > Y , que por definici´ on tiene una distribuci´on chi-cuadrado no central, con par´ametro de no centralidad 1 1 λ = (B −1 µ)> (B −1 µ) = µ> Σ−1 µ. 2 2 ´ n 2.57 (Distribuci´ Definicio on F no central). Sea X1 ∼ χ2ν1 (λ) y X2 ∼ χ2ν2 variables aleatorias independientes. Entonces, F =
X1 /ν1 ∼ F (ν1 , ν2 , λ), X2 /ν2
es decir F sigue una distribuci´ on F no central con ν1 y ν2 grados de libertad y par´ ametro de no centralidad λ. ´ n 2.58 (Distribuci´ Definicio on Beta no central). Considere U1 ∼ χ2ν1 (λ), U2 ∼ χ2ν2 tal que U1 y U2 son variables aleatorias independientes. Entonces, G=
U1 ∼ Beta(ν1 , ν2 , λ), U1 + U2
esto es, G sigue una distribuci´ on Beta no central con par´ametros de forma y escala ν1 y ν2 , respectivamente y par´ametro de no centralidad λ. ´ n 2.59 (Distribuci´ Definicio on t de Student no central). Si Y ∼ N (µ, σ 2 ) y U/σ 2 ∼ 2 χν son independientes, entonces Y T =p ∼ tν (λ), U/ν
λ = µ/σ,
es llamada una variable aleatoria con distribuci´ on t de Student no central con ν grados de libertad y par´ ametro de no centralidad λ. Note tambi´en que si Z ∼ N (0, 1), U ∼ χ2ν , δ es una constante, y Z es independiente de U , entonces Z +δ T =p ∼ tν (δ). U/ν Adem´ as el cuadrado de una variable aleatoria t no central se distribuye como una variable aleatoria F no central con par´ametro de no centralidad δ = λ2 /2. De este modo, d
t2ν (λ) = F (1, ν, λ2 /2). 2.8.
Distribuci´ on de formas cuadr´ aticas
Para motivar ideas, sabemos que si Z ∼ Np (0, I), entonces U = Z > Z ∼ χ2p pues corresponde a la suma de variables aleatorias iid N (0, 1). El objetivo de esta secci´on es proveer condiciones bajo las cuales variables aleatorias de la forma U = X > AX con Y ∼ Np (µ, Σ) siguen una distribuci´on chi-cuadrado no central as´ı como estudiar sus principales propiedades.
´ DE FORMAS CUADRATICAS ´ 2.8. DISTRIBUCION
37
Resultado 2.60. Si X ∼ Np (µ, I) y A ∈ Rp×p es matriz sim´etrica. Entonces X > AX ∼ χ2k (θ) s´ olo si A es idempotente, en cuyo caso los grados de libertad y el par´ ametro de no centralidad est´ an dados por k = rg(A) = tr(A)
y
θ=
1 > µ Aµ, 2
respectivamente. ´ n. Suponga que A es idempotente de rango k. Entonces existe Demostracio una matriz ortogonal P tal que Ik 0 P > AP = . 0 0 Sea Y = P > X, entonces Y ∼ Np (P > µ, I), y k X 0 > > Ik X AX = Y Y = Yi2 , 0 0 i=1
que sigue una distribuci´ on chi-cuadrado con k grados de libertad. Para el par´ametro de no centralidad θ, note que E{χ2k (θ)} = k + 2θ = E(X > AX) = tr(E(XX > )A) = tr((I + µµ> )A) = k + µ> Aµ, y de ah´ı que θ = 12 µ> Aµ. Ahora, suponga que X > AX ∼ χ2k (θ). Si A tiene rango r, entonces para P matriz ortogonal p × p, Λ1 0 P > AP = , 0 0 con Λ1 = diag(λ1 , . . . , λr ), donde λ1 , . . . , λr son los valores propios no nulos de A. Sea Y = P > X, entonces X > AX = Y > P > AP Y =
r X
λj Yj2 = U.
j=1
Tenemos que Y ∼ Np (δ, I) con δ = P > µ, de modo que Yj2 ∼ χ21 (δj2 /2) con funci´on caracter´ıstica itδ 2 j , ϕYj2 (t) = (1 − 2it)−1/2 exp 1 − 2it por la independencia de Y1 , . . . , Yr sigue que r itλj δ 2 Y j ϕU (t) = (1 − 2itλj )−1/2 exp 1 − 2itλ j j=1 r X = exp it j=1 >
Como X AX ∼
χ2k (θ)
r λj δj2 Y (1 − 2itλj )−1/2 . 1 − 2itλj j=1
tiene funci´on caracter´ıstica
ϕX > AX (t) = (1 − 2it)−k/2 exp
2itθ , 1 − 2it
38
2. PRELIMINARES
entonces desde las dos expresiones anteriores debemos tener r = k, λj = 1, ∀j y P θ = j δj2 /2. Consecuentemente P > AP tiene la forma Ik 0 > P AP = , 0 0 que es idempotente. Luego P > AP = (P > AP )(P > AP ) = P > A2 P
=⇒
A2 = A.
Resultado 2.61. Si X ∼ Np (µ, Σ) donde Σ es no singular y X, µ y Σ son particionados como X1 µ1 Σ11 Σ12 X= , µ= , Σ= , X2 µ2 Σ21 Σ22 donde X 1 , µ1 son k × 1 y Σ11 es k × k. Entonces 2 U = (X − µ)> Σ−1 (X − µ) − (X 1 − µ1 )> Σ−1 11 (X 1 − µ1 ) ∼ χp−k .
´ n. Considere Σ = BB > , donde B es no singular y particione Demostracio B como B1 B= , B 1 ∈ Rk×p . B2 Luego, Σ = BB
>
B1B> 1 = B2B> 1
B1B> 2 , B2B> 2
−1 de donde sigue que Σ11 = B 1 B > (X − µ) ∼ Np (0, I). De 1 . Ahora, sea Z = B este modo, B1 X 1 − µ1 Z= . B2 X 2 − µ2
Entonces > −1 > −1 U = Z >Z − Z >B> B 1 Z = Z > (I − B > B 1 )Z 1 (B 1 B 1 ) 1 (B 1 B 1 )
= Z > (I − H 1 )Z,
> −1 con H 1 = B > B1. 1 (B 1 B 1 )
Note que H 1 es sim´etrica e idempotente y por tanto tambi´en lo es C = I − H 1 . De donde sigue que U ∼ χ2ν , con ν = rg(C) = p − k. El Resultado 2.60 se puede generalizar al caso que X tiene una matriz de covarianza arbitraria. Suponga que X ∼ Np (0, Σ). Una condici´on para que X > AX tenga una distribuci´ on chi-cuadrado es ΣAΣA = ΣA, en cuyo caso los grados de libertad son k = rg(AΣ). Si Σ es no singular, la condici´on resulta AΣA = A. Resultado 2.62. Si X ∼ Np (0, Σ) donde Σ tiene rango k (≤ p) y si A es una inversa generalizada de Σ (ΣAΣ = Σ), entonces X > AX ∼ χ2k .
´ DE FORMAS CUADRATICAS ´ 2.8. DISTRIBUCION
39
´ n. Considere Y = BX donde B es una matriz no singular p×p Demostracio tal que Ik 0 > BΣB = . 0 0 > > Particionando Y = (Y > donde Y 1 es un vector k × 1 sigue que Y 1 ∼ 1 ,Y 2 ) Nk (0, I) y Y 2 = 0 con probabilidad 1. Es decir, tenemos que > Y = (Y > 1 , 0) ,
con probabilidad 1.
Ahora, note que
Ik 0
0 = BΣB > = BΣAΣB > 0 = BΣB > B −> AB −1 BΣB > Ik 0 0 −> −1 I k = B AB . 0 0 0 0
Luego, con probabilidad uno, >
>
X AX = Y B
−>
AB Ik = (Y > 1 , 0) 0 Ik = (Y > 1 , 0) 0
−1
Y1 0 0 Y1 0 0
−> > AB −1 1 , 0)B
Y = (Y 0 −> −1 I k B AB 0 0 0 Y1 2 =Y> 1 Y 1 ∼ χk . 0 0
Resultado 2.63. Si X ∼ Np (µ, Σ), donde Σ es no singular, y A es una matriz olo sim´etrica p × p. Entonces X > AX ∼ χ2k (λ), donde k = rg(A), λ = µ> Aµ/2 s´ si AΣ es matriz idempotente. ´ n. Considere Y = BX, donde B es una matriz no singular p×p Demostracio > tal que BΣB = I p . Entonces X > AX = Y > B −> AB −1 Y , donde Y ∼ Np (Bµ, I). Desde el Resultado 2.60 sigue que X > AX tiene distribuci´ on chi-cuadrado s´ olo si B −> AB −1 es idempotente. Esto es equivalente a mostrar que AΣ es idempotente. Si AΣ es idempotente, tenemos A = AΣA = AB −1 B −> A,
(Σ = B −1 B −> )
as´ı, pre- y post-multiplicando por B −> y B −1 , obtenemos B −> AB −1 = (B −> AB −1 )(B −> AB −1 ), y por tanto es idempotente. Por otro lado, si B −> AB −1 es idempotente, entonces B −> AB −1 = (B −> AB −1 )(B −> AB −1 ) = B −> AΣAB −1 , es decir A = AΣA y de ah´ı que AΣ es idempotente.
40
2. PRELIMINARES
Ejemplo 2.64. Sea X1 , . . . , Xn variables aleatorias iid N (θ, σ 2 ), en este caso podemos definir X = (X1 , . . . , Xn )> tal que X ∼ Nn (θ1n , σ 2 I). Considere la forma cuadr´ atica n 1 X 1 Q= 2 (Xi − X)2 = 2 X > CX = X > AX, σ i=1 σ con C = I n − n1 11> y A = C/σ 2 . De esta manera AΣ = I n −
1 > 11 , n
que es idempotente. Adem´ as 1 rg(A) = tr I n − 11> = n − 1, n y λ=
θ2 > 1 > θ2 > 1 A1 = 1 I − 11 1 = 0. n 2 2σ 2 n
De este modo, Q=
n 1 X (Xi − X)2 ∼ χ2n−1 . σ 2 i=1
Resultado 2.65. Sea X ∼ Np (µ, Σ), Q1 = X > A1 X y Q2 = X > A2 X. Entonces Q1 y Q2 son independientes s´ olo si A1 ΣA2 = 0. ´ lo suficiencia. Sea Y = B −1 X donde Σ = BB > , entonces so Qi = X > Ai X = Y > B −> Ai B −1 Y = Y > Gi Y ,
i = 1, 2.
Entonces, A1 ΣA2 = 0 implica que G1 G2 = 0. Tenemo que, existe una matriz ortogonal P , tal que P > Gi P = M i , i = 1, 2, es diagonal. Adem´ as, M 1 M 2 = P > G1 P P > G2 P = P > G1 G2 P = 0, como P es matriz ortogonal, sigue que los elementos diagonales de G1 y G2 deben ocurrir en posiciones diferentes. Esto es, podemos escribir D1 0 0 0 G1 = y G2 = , 0 0 0 D2 con D 1 matriz diagonal cuya dimensi´on es dada por el rango de A1 , digamos r1 = rg(A1 ). Sea Z = P > Y , luego Qi = Y > Gi Y = Z > P > Gi P Z = Z > M i Z = Z > i Di Z i , > > donde Z = (Z > 1 , Z 2 ) ha sido particionado de acuerdo con D 1 y D 2 . Como Z1 Z= = P > Y ∼ Np (P > Bµ, I), Z2 tenemos que la independencia de Q1 y Q2 sigue desde la independencia entre Z 1 y Z 2.
Resultado 2.66. Sea X ∼ Np (µ, Σ), Q = X > AX y U = BX. Entonces Q y U son independientes s´ olo si BΣA = 0.
´ DE FORMAS CUADRATICAS ´ 2.8. DISTRIBUCION
41
Resultado 2.67 (Teorema de Cochran). Sea X ∼ Np (µ, Σ) y Ai , i = 1, . . . , k matrices sim´etricas con rg(Ai ) = ri y considere A=
k X
Ai ,
i=1
Pk con rg(A) = r. Si AΣ es idempotente y r = i=1 ri , entonces las formas cuadr´ ati> cas Qi = X Ai X son variables aleatorias mutuamente independientes con distribuci´ on chi-cuadrado no central, es decir Qi ∼ χ2ri (λi ), donde λi = µ> Aµi /2, para i = 1, . . . , k. ´ n. Suponga que Σ = I y asuma µ = 0. Adem´as, considere Demostracio A = I (sino, defina Ak+1 = I − A con rg(Ak+1 ) = rk+1 = p − r, y la condici´on sobre el rango es satisfecha). Sea P 1 matriz ortogonal que diagonaliza A1 , de este modo P> 1 A1 P 1 = D 1 , por conveniencia asuma que los elementos diagonales de D 1 se encuentran en las primeras r1 posiciones. Por tanto, P> 1 (I − A1 )P 1 = I − D 1 =
k X
P> 1 Ai P 1 ,
i=2
las u ´ltimos p − r1 elementos diagonales de I − D 1 son 1 y por tanto el rango de I − A1 es al menos p − r1 . Pk Por otro lado, el rango de la suma de matrices i=2 P > 1 Ai P 1 no puede ser mayor que la suma de los rangos de las matrices individuales, que por suposici´on es p − r1 . Por tanto rg(I −A1 ) = p−r1 . Esto implica que P > 1 A1 P 1 tiene unos en las primeras r1 posiciones (existen r1 vectores linealmente independientes tal que (I − A1 )mi = 0, i = 1, . . . , r1 , esto es A1 mi = mi ). Es decir, los valores propios no nulos de A1 son uno y de ah´ı que A1 es idempotente. Por este mismo razonamiento A2 , . . . , Ak son idempotentes. Es posible notar que las primeras r1 filas y columnas de cada una de las matrices P> etricas y semidefinidas positi1 Ai P 1 deben ser cero, pues estas matrices son sim´ vas, adem´ as si una matriz idempotente tiene un elemento diagonal cero toda la fila o columna asociada debe ser cero. De esto sigue que X k 0 0 0 0 I − D1 = = . 0 I n−r1 0 Bi i=2
Sea P2 matriz que diagonaliza la matriz idempotente B 2 tal que P > 2 B 2 P 2 tiene elementos diagonales 1 en las primeras r2 posiciones. Luego P 1 P 2 diagonaliza A1 y A2 tal que la matriz > P> 2 P 1 (A1 + A2 )P 1 P 2 , tiene unos en las primeras r1 + r2 posiciones y ceros en las posiciones restantes. Continuando con esta construcci´on se obtiene una matriz ortogonal P que diagonaliza Ai , i = 1, . . . , k. En este caso Ai Aj = 0 para todo i 6= j = 1, . . . , k que establece la independencia de las variables Qi .
42
2. PRELIMINARES
Se ha asumido que X ∼ Np (0, I). Cuya funci´on caracter´ıstica ϕ(t) = E{exp(i
k X
tj qj )},
j=1
tiene exponente en la integral dado por k X
k
X 1 1 itj qj − x> x = itj x> Aj x − x> x. 2 2 j=1 j=1
> > > Considere la transformaci´ on X = P Z con Z = (Z > donde cada 1 , Z2 , . . . , Zk ) Z i tiene largo ri , i = 1, . . . , k. De este modo el exponente resulta k
−
1X (1 − 2itj )z > j zj , 2 j=1
como Z ∼ Np (0, I) sigue que ϕ(t) =
k Y
(1 − 2itj )−rj ,
j=1
que corresponde a la funci´ on caracter´ıstica de k variables aleatorias independientes chi-cuadrado con rj grados de libertad.
EJERCICIOS
43
Ejercicios 1.1 Sean X 1 , . . . , X n vectores aleatorios independientes con X i ∼ Np (µ, Σ), para i = 1, . . . , n. Obtenga la distribuci´on de n X αi X i , i=1
con α1 , . . . , αn constantes fijas. 1.2 Si X 1 , . . . , X n son independientes cada uno con X i ∼ Np (µ, Σ). Muestre que la distribuci´ on del vector de medias n 1X X= X i, n i=1 es Np (µ, n1 Σ). 1.3 Usando la Definici´ on 2.18, muestre que µ = E(X)
y
Σ = Cov(X).
1.4 Demuestre el Resultado 2.20, usando la funci´on caracter´ıstica de un vector aleatorio normal. 1.5 Sean X1 , . . . , Xn variables aleatorias independientes e id´enticamente distribu´ıdas N (µ, σ 2 ) y defina q=
n−1 X 1 (Xi+1 − Xi )2 , 2(n − 1) i=1
¿Es q un estimador insesgado de σ 2 ? 1.6 Sea X ∼ Nn (µ, Σ) y A = A> . Considere T una matriz ortogonal y Λ una matriz diagonal tal que T > Σ1/2 AΣ1/2 T = Λ, y defina Y = T > Σ−1/2 (X − µ),
u = T > Σ1/2 Aµ.
Obtenga la distribuci´ on de Y y calcule var(u> Y ). 1.7 Considere Z matriz aleatoria n × p con funci´on caracter´ıstica ϕZ (T ) = E{exp(i tr(T > Z))} = exp{− 21 tr(T > T )}. con T ∈ Rn×p . Obtenga la funci´on caracter´ıstica de Y = Σ1/2 ZΘ1/2 + µ, donde µ ∈ Rn×p y Σ, Θ son matrices semidefinidas positivas n × n y p × p, respectivamente. 1.8 Sea Z = U Dα + con U ∈ Rn×p tal que U > U = I, D es matriz diagonal p × p y ∼ Nn (0, σ 2 I). Considere b = (D 2 + λI)−1 DU T Z. α donde λ es un escalar positivo. b (a) Obtenga la distribuci´on de α, (b) Muestre que b = λ(D 2 + λI)−1 α. α − E(α)
44
2. PRELIMINARES
1.9 Sea Y ∼ Nn (Xβ, σ 2 I) y considere b = (X > X)−1 X > Y , u = (D −1 + Z > Z)−1 Z > (Y − Xb), donde X ∈ Rn×p , Z ∈ Rn×q y D es matriz no singular q × q. (a) Halle la distribuci´on de b y u, (b) ¿Son b y u independientes? 1.10 Considere Y Xβ ZDZ > + R ZD ∼ Nn+q , , b 0 DZ > D donde X ∈ Rn×p , Z ∈ Rn×q y R, D son matrices no singulares n × n y q × q, respectivamente. Determine la distribuci´on de b|Y . 1.11 Sea Ui ∼ χni (λi ), i = 1, . . . , K variables aleatorias independientes. Muestre que K X U= Ui ∼ χ2n (λ), i=1
PK
PK
donde n = i=1 ni y λ = i=1 λi . b = (X > X)−1 X > Y , donde X ∈ Rn×p con rg(X) = p y Y ∼ 1.12 Sea β Nn (Xβ, σ 2 I n ). Defina b − g)> [G(X T X)−1 G> ]−1 (Gβ b − g) (Gβ , q= 2 σ donde G ∈ Rm×p con rg(G) = m y g es vector m-dimensional. Determine la distribuci´ on de q. 1.13 Sea Y ∼ Nn (Xβ, σ 2 I n ) y considere las formas cuadr´aticas b >X >X β b b > (Y − X β) b β (Y − X β) , q = , q1 = 2 2 2 σ σ b = (X > X)−1 X T Y con X ∈ Rn×p y rg(X) = p. donde β (a) Halle la distribuci´on de qi , i = 1, 2. (b) Sea q = q1 + q2 , mostrar la independencia conjunta de q1 y q2 . 1.14 Sea Y ∼ Nn (Xβ, σ 2 I) con X ∈ Rn×p y β ∈ Rp . Muestre que Y > (I − n1 J )Y Y > (H − n1 J )Y Y > (I − H)Y , q = , q = , 1 2 σ2 σ2 σ2 con H = X(X > X)−1 X > , tienen distribuciones chi-cuadrado independientes. 1.15 Considere Y = (I p ⊗ 1n )α + , q=
> > > donde Y = (Y > con Y i vector n-dimensional, para i = 1 ,Y 2 ,...,Y p ) > 1, . . . , n, α = (α1 , . . . , αp ) y ∼ Nnp (0, σ 2 I np ). Sean
Y > (I p ⊗ n1 J n )Y Y > (I p ⊗ C)Y , y q = , 2 σ2 σ2 1 donde J n = 1n 1> n y C = I n − n J n. (a) Halle la distribuci´on de qk , k = 1, 2. (b) ¿Son q1 y q2 independientes? q1 =
Ap´endice A
Diferenciaci´ on matricial En esta secci´ on haremos uso de la siguiente notaci´on. φ, f y F representan funciones escalar, vectorial y matricial, respectivamente mientras que ζ, x y X argumentos escalar, vectorial y matricial, respectivamente. A partir de esta convenci´ on es directo que podemos escribir los siguientes casos particulares: φ(X) = tr(X > X),
φ(x) = a> x,
φ(ζ) = ζ 2 ,
f (ζ) = (ζ, ζ 2 )> , 2
F (ζ) = ζ I n ,
f (x) = Ax, >
F (x) = xx ,
f (X) = Xa, F (X) = X > .
Existen varias definiciones para la derivada de una funci´on matricial F (X) con relaci´ on a su argumento (matricial) X. En este ap´endice nos enfocamos en el c´alculo diferencial propuesto por Magnus y Neudecker (1985). Considere φ : S → R con S ⊂ Rn , se define la derivada de φ con relaci´on a x ∈ S como ∂φ(x) ∂φ ∂φ > ∂φ = = ,..., ∈ Rn ∂x ∂x1 ∂xn ∂xi de este modo, introducimos la notaci´on ∂φ(x) ∈ R1×n . ∂x> Ahora, si f : S → Rm , S ⊂ Rn . Entonces la matriz m × n, Df1 (x) ∂f (x) .. Df (x) = , = . ∂x> Dfm (x) Dφ(x) =
es la derivada o matriz Jacobiana de f . La transpuesta de la matriz Jacobiana Df (x) se denomina gradiente de f (x). A.1.
Aproximaci´ on de primer orden
Considere la f´ ormula de Taylor de primer orden, φ(c + u) = φ(c) + uφ0 (c) + rc (u), donde el resto rc (u) = 0. u es de orden m´ as peque˜ no que u conforme u → 0. Note tambi´en que l´ım
u→0
φ(c + u) − φ(c) = φ0 (c). u→0 u l´ım
45
46
´ MATRICIAL A. DIFERENCIACION
De este modo, se define d φ(c; u) = uφ0 (c), como el (primer) diferencial de φ en c con incremento u. Esto motiva la siguiente definici´ on. ´ n A.1 (Diferencial de una funci´on vectorial). Sea f : S → Rm , S ⊂ Rn , Definicio si existe una matriz A ∈ Rm×n , tal que f (c + u) = f (c) + A(c)u + r c (u), para todo u ∈ Rn con ||u|| < δ, y l´ım
u→0
r c (u) = 0, ||u||
entonces la funci´ on f se dice diferenciable en c. El vector m × 1 d f (c; u) = A(c)u, se denomina primer diferencial de f en c con incremento u. Magnus y Neudecker (1985) mostraron la existencia y unicidad del diferencial d f (c; u) de una funci´ on f : S → Rm , S ⊂ Rn (c ∈ S), dado por d f (c; u) = A(c)u tambi´en mostraron la regla de la cadena e invarianza de Cauchy para el diferencial y enunciaron su primer teorema de identificaci´on. Teorema A.2 (Primer teorema de identificaci´on). Sea f : S → Rm , S ⊂ Rn funci´ on diferenciable, c ∈ S y u un vector n-dimensional. Entonces d f (c; u) = (Df (c))u. La matriz Df (c) ∈ Rm×n se denomina matriz Jacobiana. Tenemos tambi´en que ∇f (c) = (Df (c))> es la matriz gradiente de f . Sea f : S → Rm , S ⊂ Rn y fi : S → R el i-´esimo componente de f (i = 1, . . . , m). Sea ej un vector n-dimensional cuyo j-´esimo elemento es uno y los restantes son cero, y considere fi (c + tej ) − fi (c) l´ım t→0 t si el l´ımite existe, se denomina la j-´esima derivada parcial de fi en c y es denotada por Dj fi (c). Note que el elemento ij de Df (c) es Dj fi (c). A.2.
Funciones matriciales
Considere algunos ejemplos de funciones matriciales cos(ζ) sin(ζ) F (ζ) = , F (x) = xx> , F (X) = X > , − sin(ζ) cos(ζ)
X ∈ Rn×q .
Antes de considerar el diferencial de una funci´on matricial F : S → Rm×p , S ⊂ Rn×q introducimos dos conceptos preliminares: la vectorizaci´on de una matriz y el producto Kronecker.
A.2. FUNCIONES MATRICIALES
47
´ n A.3 (Operador de vectorizaci´on). Sea A ∈ Rn×q particionada como Definicio A = (a1 , . . . , aq ), donde ak ∈ Rn es la k-´esima columna de A. Entonces a1 .. vec(A) = . . aq ´ n A.4 (Producto Kronecker). Sea A ∈ Rm×n y B ∈ Rp×q , entonces el Definicio producto Kronecker entre A y B denotado por A ⊗ B es la matriz mp × nq definida como a11 B . . . a1n B .. A ⊗ B = ... . am1 B
...
amn B
Resultado A.5. Sean A, B, C y D matrices de o ´rdenes apropiados y λ escalar. Entonces (a) A ⊗ B ⊗ C = (A ⊗ B) ⊗ C = A ⊗ (B ⊗ C), (b) (A + B) ⊗ (C + D) = A ⊗ C + B ⊗ C + A ⊗ D + B ⊗ D, (c) (A ⊗ B)(C ⊗ D) = AC ⊗ BD, (d) λ ⊗ A = λA = A ⊗ λ, (e) (A ⊗ B)> = A> ⊗ B > , (f) (A ⊗ B)−1 = A−1 ⊗ B −1 , (g) (A ⊗ B)− = A− ⊗ B − . Resultado A.6. Sean A ∈ Rn×n y B ∈ Rp×p . Entonces (a) tr(A ⊗ B) = tr(A) tr(B), (b) |A ⊗ B| = |A|p |B|n , (c) rg(A ⊗ B) = rg(A) rg(B). Observe que, si a ∈ Rn y b ∈ Rp , entonces ab> = a ⊗ b> = b> ⊗ a, por otro lado, tenemos que vec(ab> ) = vec(a ⊗ b> ) = vec(b> ⊗ a) = b ⊗ a. Estos resultados sugieren una conexi´on entre el operador de vectorizaci´on, el producto Kronecker y la traza. Considere el siguiente resultado Resultado A.7. (a) Si A y B son ´ ambas matrices de orden m × n, entonces tr A> B = vec> A vec B, (b) Si A, B y C son de ´ ordenes adecuados, entonces vec ABC = (C > ⊗ A) vec B, donde vec> A = (vec A)> . Finalmente, tenemos el siguiente resultado
´ MATRICIAL A. DIFERENCIACION
48
Resultado A.8. Sean A, B, C y D matrices, tal que, el producto ABCD est´ a definido y es cuadrado, entonces tr ABCD = vec> D > (C > ⊗ A) vec B = vec> D(A ⊗ C > ) vec B > . En el ejemplo anterior, tenemos vec F (ζ) = (cos(ζ), − sin(ζ), sin(ζ), cos(ζ))> , vec F (x) = vec(xx> ) = x ⊗ x, vec F (X) = vec X > = (X ⊗ I q ) vec I q . Sea F : S → Rm×p , S ⊂ Rn×q una funci´on matricial, podemos notar que vec F (X) = f (vec X) esto permite obtener el diferencial de una funci´on matricial considerando la relaci´on vec d F (C; U ) = d f (vec C; vec U ) en cuyo caso F tiene matriz Jacobiana DF (C) = Df (vec C) Las consideraciones anteriores motivan el primer teorema de indentificaci´on para funciones matriciales Magnus y Neudecker (1985) Teorema A.9 (Primer teorema de identificaci´on para funciones matriciales). Sea F : S → Rm×p , S ⊂ Rn×q funci´ on diferenciable, C ∈ S y U matriz n × q. Entonces vec d F (C; U ) = (DF (C)) vec U . con (DF (C))
>
la matriz gradiente de F . A.3.
Matriz Hessiana
Considere φ : S → R con S ⊂ Rn , entonces se define la matriz Hessiana como la matriz de segundas derivadas, dada por ∂ 2 φ(x) ∂ ∂φ(x) > Hφ(x) = = = D(Dφ(x))> . ∂x∂x> ∂x> ∂x> Es posible definir el diferencial de funciones vectoriales y matriciales de manera an´ aloga a la delineada anteriormente. Sin embargo, en este ap´endice nos enfocaremos solamente en el c´ alculo de diferenciales de funciones escalares. El segundo diferencial de una funci´ on escalar est´a dado por d2 φ = d(d φ). Magnus y Neudecker (1985) enunciaron el siguiente teorema de identificaci´on para matrices Hessianas de funciones escalares Teorema A.10 (Segundo teorema de identificaci´on). Sea φ : S → R, S ⊂ Rn dos veces diferenciable, c ∈ S y u vector n-dimensional. Entonces d2 φ(c; u) = u> (Hφ(c))u. donde Hφ(c) ∈ Rn×n es la matriz Hessiana de φ. Algunas ventajas (pr´ acticas) importantes del c´alculo de diferenciales son:
A.4. REGLAS FUNDAMENTALES
49
Sea f (x) funci´ on vectorial m × 1 con argumento x, vector n-dimensional, entonces Df (x) ∈ Rm×n
sin embargo,
d f (x) ∈ Rm
Para funciones matriciales, d F (X) tiene la misma dimensi´on que F sin importar la dimensi´ on de X. A.4.
Reglas fundamentales
A continuaci´ on se presentan algunas reglas fundamentales para el c´alculo de diferenciales Considere u y v funciones escalares y α una constante, entonces: d α = 0,
d(αu) = α d u,
d(u + v) = d u + d v,
d uα = αuα−1 d u,
(d u)v − u(d v) , (v 6= 0), v2 d eu = eu d u,
d log u = u−1 d u, (u > 0)
d αu = αu log α d u, (α > 0),
d(uv) = (d u)v + u(d v)
d(u/v) =
aqu´ı por ejemplo, φ(x) = u(x) + v(x). An´ alogamente para U , V funciones matriciales, α un escalar (constante) y A ∈ Rm×n constante, tenemos d A = 0,
d(αU ) = α d U ,
d(U + V ) = d U + d V , d(U V ) = (d U )V + U d V , d(U ⊗ V ) = d U ⊗ d V , d(U V ) = d U d V , > > d U = (d U ) , d vec U = vec d U , d tr U = tr d U . Otros diferenciales de uso frecuente en Estad´ıstica son: d |F | = |F | tr F −1 d F ,
d log |F | = tr F −1 d F ,
d F −1 = −F −1 (d F )F −1 .
Bibliograf´ıa Andrews, D.F., Mallows, C.L. (1974). Scale mixtures of normal distributions. Journal of the Royal Statistical Society, Series B 36, 99-102. Arellano, R. (1994). Distribui¸c˜ oes El´ıpticas: Propriedades, Inferˆencia e Aplica¸c˜ oes a Modelos de Regress˜ ao. (Unpublished doctoral dissertation). Department of Statistics, University of S˜ ao Paulo, Brazil. Belsley, D.A., Kuh, E., Welsh, R.E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. Wiley, New York. Chatterjee, S., Hadi, A.S. (1988). Sensitivity Analysis in Linear Regression. Wiley, New York. Christensen, R. (2011). Plane Answers to Complex Questions: The Theory of Linear Models, 4th Ed. Springer, New York. Cook, R.D., Weisberg, S. (1982). Residuals and Influence in Regression. Chapman & Hall, New York. D´ıaz-Garc´ıa, J.A., Guti´errez-J´aimez, R. (1999). C´ alculo Diferencial Matricial y Momentos de Matrices Aleat´ orias El´ıpticas. Universidad de Granada. Dobson, A.J. (2002). An Introduction to Generalized Linear Models, 2nd Ed. Chapman & Hall, Boca Rat´ on. Fahrmeir, L., Kneib, T., Lang, S., Marx, B. (2013). Regression: Models, Methods and Applications. Springer, Berlin. Fang, K.T., Kotz, S., Ng, K.W. (1990). Symmetric Multivariate and Related Distributions. Chapman & Hall, London. Galea, M. (1990). T´ecnicas de diagn´ostico en regresi´on lineal. Revista de la Sociedad Chilena de Estad´ıstica 7, 23-44. Gentle, J.E. (2007). Matrix Algebra: Theory, Computation and Applications in Statistics. Springer, New York. G´ omez, E., G´ omez-Villegas, M.A., Mar´ın, J.M. (1988). A multivariate generalization of the power exponential family of distributions. Communications in Statistics - Theory and Methods 27, 589-600. Graybill, F.A. (1961). An Introduction to Linear Statistical Models. McGraw-Hill, New York. Graybill, F.A. (1976). Theory and Application of the Linear Model. Wadsworth & Brooks, Pacific Grove, CA. Graybill, F.A. (1983). Matrices with Applications in Statistics, 2nd Ed. Wadsworth, Belmont, CA. Groß, J. (2003). Linear Regression. Springer, Berlin. Gruber, M.H.J. (1998). Improving Efficiency by Shrinkage. Marcel Dekker, New York. Harville, D.A. (1997). Matrix Algebra from a Statistician’s Perspective. Springer, New York. 51
52
Bibliograf´Ia
Hocking, R. (1996). Methods and Applications of Linear Models. Wiley, New York. Kariya, T., Kurata, H. (2004). Generalized Least Squares. Wiley, Chichester. Lange, K. (1999). Numerical Analysis for Statisticians. Springer, New York. Magnus, J.R., Neudecker, H. (1985). Matrix differential calculus with applications to simple, Hadamard and Kronecker products. Journal of Mathematical Psychology 29, 474-492. Magnus, J.R., Neudecker, H. (2007). Matrix Differential Calculus with Applications in Statistics and Econometrics, 3rd Ed. Wiley, New York. Magnus, J.R. (2010). On the concept of matrix derivative. Journal of Multivariate Analysis 101, 2200-2206. Paula, G.A. (2013). Modelos de Regress˜ ao, com Apoio Computacional. Instituto de Matem´ atica e Estat´ıstica - USP, S˜ao Paulo. Rao, C.R., Toutenburg, H., Shalabh, Heumann, C. (2008). Linear Models and Generalizations: Least Squares and Alternatives. Springer, New York. Ravishanker, N., Dey, D.K. (2002). A First Course in Linear Model Theory. Chapman & Hall, London. Ruppert, D., Wand, M.P., Carroll, R.J. (2003). Semiparametric Regression. Cambridge University Press, Cambridge. Searle, S.R. (1971). Linear Models. Wiley, New York. Searle, S.R. (1982). Matrix Algebra Useful for Statistics. Wiley, New York. Seber, G.A.F., Lee, A.J. (2003). Linear Regression Analysis, 2nd Ed. Wiley, New York. Sen, A., Srivastava, M. (1990). Regression Analysis: Theory, Methods and Applications. Springer, New York. Tong, Y.L. (1990). The Multivariate Normal Distribution. Springer, New York. Weisberg, S. (2005). Applied Linear Regression, 3rd Ed. Wiley, New York