ANALISIS DE REGRESION LINEAL CON ERRORES DISTRIBUIDOS NORMAL SESGADOS

ANALISIS DE REGRESION LINEAL CON ERRORES DISTRIBUIDOS NORMAL SESGADOS María Guadalupe Russell Noriega and Graciela González Farías Comunicación Técnic

2 downloads 121 Views 569KB Size

Recommend Stories


REGRESION LINEAL SIMPLE
REGRESION LINEAL SIMPLE Jorge Galbiati Riesco Se dispone de una mustra de observaciones formadas por pares de variables: (x1, y1) (x2, y2) .. (xn, yn

Errores frecuentes en la interpretación del coeficiente de determinación lineal
11 ELENA MARTINEZ 28/3/05 18:00 Página 315 Anuario Jurídico y Económico Escurialense, XXXVIII (2005) 315-332 / I S S N: 1133-3677 Errores frecuen

CORRELACION Y REGRESION
CORRELACION Y REGRESION Jorge Galbiati Riesco Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1), (x2, y2), .. , (xn

Story Transcript

ANALISIS DE REGRESION LINEAL CON ERRORES DISTRIBUIDOS NORMAL SESGADOS María Guadalupe Russell Noriega and Graciela González Farías Comunicación Técnica No I-02-30/10-12-2002 (PE/CIMAT) (Tesina)

Análisis de Regresión Lineal con Errores Distribuidos Normal Sesgados María Guadalupe Russell Noriega, [email protected] Graciela González Farías, [email protected] Centro de Investigación en Matemáticas, A.C. Apartado Postal 402, C.P. 36000, Guanajuato, Gto., México. December 10, 2002

Contenido 1 Regresión lineal simple con errores normales sesgados

1

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

Distribución normal sesgada univariada . . . . . . . . . . . . . . . . . . . . . . . .

1

Modelo de Regresión lineal simple con errores normales sesgados . . . . . . . . . .

3

Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Ecuaciones de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Cero trivial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Matriz de información de Fisher observada . . . . . . . . . . . . . . . . . . .

7

Cálculo de las segundas derivadas . . . . . . . . . . . . . . . . . . . .

8

Momentos de los estimadores de mínimos cuadrados . . . . . . . . . . . . . .

12

Ejemplo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2 Inferencias para muestras no-aleatorias (Copas y Li 1997)

21

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

Modelo básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

Cálculos de la media y varianza . . . . . . . . . . . . . . . . . . . . . . . . .

26

Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

Ejemplo simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

i

Prólogo Existe una tendencia general en la literatura estadística en dirección a métodos más flexibles para representar características de los datos en la medida de lo posible y reducir así supuestos poco realistas al momento de los análisis realizados. Por ejemplo en el área de análisis clínicos, específicamente en el estudio de datos biomédicos, comparación de distintos tratamientos, y observaciones faltantes, las distribuciones de los datos presentan de manera natural un comportamiento asimétrico. Otro ejemplo es en el estudio de observaciones multivariadas continuas dentro de una aproximación paramétrica, donde un supuesto a vencer y que juega un papel fundamental es el supuesto de normalidad, el cual es la base de muchos métodos de análisis multivariado. Sin lugar a dudas la razón por la cual dicho supuesto es difícil de modificar es debido a la flexibilidad matemática de la distribución normal, en particular su simplicidad cuando trabajamos con operaciones fundamentales como combinaciones lineales, marginalización y condicionamiento, así como su cerradura bajo dichas operaciones. Desde un punto de vista práctico, la aproximación más adoptada para lograr normalidad es la transformación de las variables, lo cual en muchos casos funciona muy bien. Sin embargo pueden presentarse algunos problemas como son: a) Las transformaciones para cada una de las variables involucradas generalmente son por separado, lo que resulta más difícil de interpretar, especialmente cuando cada variable es transformada por una función diferente. ii

CONTENIDO

iii

b) Cuando se asume el supuesto de homocedasticidad, algunas veces la transformación requerida difiere de la transformación para lograr normalidad. Existen una gran cantidad de funciones de densidad que se aproximan a la normal cuando ciertos parámetros tienden a un valor apropiado. Sin embargo sólo un pequeño grupo de distribuciones paramétricas incluyen el caso normal como un miembro propio y no solamente como un caso límite. Más aún, entre la clase de distribuciones con la propiedad de inclusión estricta, resulta que algunas de ellas no son matemáticamente tratables, mientras que otras no aparecen de forma natural. De lo anterior algunas características deseables de dichas distribuciones son: a) Inclusión estricta de la densidad normal; b) Manejable matemáticamente; c) Rango amplio de los índices sesgo y curtosis. Azzalini y Capitanio (1999) dan referencias explícitas en las cuales se estudian diferentes clases paramétricas de distribuciones con algunas características deseables. En nuestra caso particular trabajamos con la distribución normal sesgada definida en el Capítulo 1, así como con algunas propiedades de nuestro interés particular. En el Capitulo 1 tratamos el problema de regresión lineal simple suponiendo que la distribución de los errores es normal sesgada (Azzalini y Capitanio, 1999). La Sección 2 nos sirve para mostrar una breve introducción a la distribución normal sesgada, su definición y algunas propiedades de interés. En las secciones 3 y 4 abordamos el problema de regresión con errores normal sesgados, estimamos los parámetros del modelo mediante la maximización de la función de verosimilitud. Como parte del material estudiado de dichas secciones, se presentan algunas observaciones en torno a los estimadores de mínimos cuadrados para el intercepto y la pendiente; calculamos los primeros momentos y mencionamos algunas propiedades distribucionales. Finalmente en la Sección 5 presentamos un conjunto de datos simulados e ilustramos el procedimiento de simulación, y estimación.

CONTENIDO

iv

En el Capitulo 2 abordamos el problema de regresión usual en el cual la variable dependiente es explicada por ciertas covariables mediante un modelo lineal con errores normales, con la diferencia de que la variable dependiente es observada siempre que una cierta variable auxiliar sea positiva. Dicha variable auxiliar es modelada también por una relación del tipo lineal con errores normales. En la Sección 1 damos una pequeña introducción de este modelo analizado por Copas y Li (1997) para diferentes aplicaciones estadísticas en las cuales el proceso generador de los datos no es aleatorio. En la Sección 2 presentamos el modelo básico, así como la distribución condicional para la variable dependiente estudiada en Copas y Li (1997). Observamos que dicha distribución condicional resulta ser un caso particular de la distribución normal sesgada general dada en Domínguez-Molina et al (2001) y bajo ciertas restricciones de los parámetros la distribución resultante es la distribución de Azzalini (1985) después de agregarle parámetros de localización y escala de la manera usual, dicha expresión viene en Azzalini y Dalla Valle (1996). Presentamos también los cálculos de los primeros dos momentos. En la Sección 3 abordamos el problema de estimación para conjuntos de datos simulados; el proceso de estimación lo realizamos por medio de la maximización directa de la función de log verosimilitud.

Capítulo 1 Regresión lineal simple con errores normales sesgados Introducción El énfasis de este trabajo se basa en explorar el potencial de la distribución normal sesgada en aplicaciones a modelos de regresión lineal. En el contexto de regresión lineal existen una gran cantidad de aplicaciones reales, en las cuales los supuestos de normalidad y varianza constante no son factibles. En numerosas situaciones el comportamiento de los datos resulta ser asimétrico y de aquí la inquietud de estudiar el modelo de regresión lineal asumiendo una distribución con características matemáticas similares a la distribución normal y capaz de reproducir el fenómeno de asimetría presentado por los datos. Suponemos entonces que la distribución de los errores es normal sesgada.

Distribución normal sesgada univariada Consideremos una variable aleatoria continua X con función de densidad de la forma: µ ¶ · µ ¶¸ 1 x−µ x−µ f (x; µ, σ, δ) = 2 φ Φ δ , σ σ σ

(1.1)

con µ el parámetro de localización y σ el parámetro de escala. δ es un número fijo arbitrario conocido como el parámetro de forma, ya que dicho parámetro regula la forma o sesgo de la función de densidad. Finalmente φ (x) y Φ (x) denotan la función de densidad y de distribución de una variable normal estándar, respectivamente. Diremos que X ∼ SN (µ, σ, δ) 1

DISTRIBUCIÓN NORMAL SESGADA UNIVARIADA

2

siempre que su función de densidad este dada por la ecuación (1.1). La densidad f (x; µ, σ, δ) posee algunas propiedades interesantes, como son: 1. Cuando δ = 0, el sesgo desaparece y obtenemos la densidad normal con parámetros µ y σ2. 2. Cuando δ crece (en valor absoluto) el sesgo de la distribución crece. 3. Cuando δ → ∞, la densidad converge a la llamada densidad half-normal con parámetros µ y σ 2 . 4. Si el signo de δ cambia, la densidad se refleja en el lado opuesto del eje vertical. 5. Si X variable aleatoria que distribuye SN (0, 1, δ) , entonces X 2 tiene una distribución χ21 independientemente del valor de δ. Usando los resultados de Azzalini (1985), se tiene que los primeros tres momentos, así como la varianza de la variable aleatoria X son: r r ¡ 2¢ 2 2 σλ; E X = µ2 + 2 µσλ + σ 2 E (X) = µ + π π r r r ¡ 3¢ 2 2 2 3 2 3 3 3 2 E X µ σλ + 3µσ + 3 σ λ− σ λ = µ +3 π π π µ ¶ 2 2 2 Var (X) = σ 1 − λ , π ¢1/2 ¡ . donde λ = λ (δ) = δ/ 1 + δ 2

(1.2)

Para un estudio detallado de la distribución normal sesgada ver Azzalini (1985), Azzalini

y Dalla Valle (1996) y Azzalini y Capitanio (1999). A manera de notación decimos que Ui ∼ SNID (µ, σ, δ) , i = 1, 2, ..., n, lo cual se lee como, los Ui son normales sesgados e independientemente distribuidos con parámetros comunes µ, σ y δ.

MODELO DE REGRESIÓN LINEAL SIMPLE CON ERRORES NORMALES SESGADOS3

Modelo de Regresión lineal simple con errores normales sesgados Considere un modelo de regresión donde la distribución de los errores sigue una distribución normal sesgada y εi independiente de εj para i 6= j, tal y como lo proponen en Azzalini y Capitanio (1999). La forma del modelo para el caso univariado es: yi = α + βxi + εi ,

εi ∼ SNID (0, σ, δ) , i = 1, ..., n,

(1.3)

por lo tanto se sigue que, yi ∼ SNID (α + βxi , σ, δ) . La función de verosimilitud para los parámetros α, β, σ, δ, está dada por el producto de las densidades de la forma (1.1) y se escribe como ¶ µ µ ¶¶ µ n Y − α − βx − α − βx y y i i i i L (α, β, σ, δ; y) = σ1n Φ δ φ σ σ i=1 ! à µ µ ¶¶ n n X Y 1 − α − βx y i i 2 (yi − α − βxi ) Φ δ , ∝ σ1n exp − 2 2σ i=1 σ i=1 así mismo la correspondiente función de log verosimilitud es la siguiente, ¶¶ µ µ n n X 1 X yi − α − βxi 2 . (1.4) (yi − α − βxi ) + ln Φ δ (α, β, σ, δ; y) = −n ln σ − 2 2σ i=1 σ i=1 Se da un ejemplo del cálculo de los estimadores máximo verosímil el cual se realiza numéricamente de la log verosimilitud dada en (1.4). Se maximiza (α, β, σ, δ; y) , para un conjunto de datos simulados, mediante la función nlmin de S-PLUS.

Estimación de parámetros Ecuaciones de verosimilitud Sea Λ (x) = ln Φ (x) , y θ = (α, β, σ, δ) de modo que la log verosimilitud dada en (1.4) se escribe como: ¶¸ · µ n n X yi − α − βxi 1 X 2 . (yi − α − βxi ) + Λ δ (θ) = −n ln σ − 2 2σ i=1 σ i=1

ESTIMACIÓN DE PARÁMETROS

4

Las derivadas parciales con respecto a cada uno de los parámetros α, β, σ, y δ, se presentan a continuación. 1. Notemos que si h (α) = δ

¡ yi −α−βxi ¢ σ

⇒ h0 (α) = − σδ , de modo que la derivada parcial

con respecto a α de (θ) es,

· µ ¶¸ n n ∂ yi − α − βxi 1 X δX 0 (θ) = 2 . (yi − α − βxi ) − Λ δ ∂α σ i=1 σ i=1 σ 2. Así mismo considerando h (β) = δ

¡ yi −α−βxi ¢ σ

(1.5)

⇒ h0 (β) = − σδ xi y de aquí que la

derivada parcial de (θ) con respecto a β es,

· µ ¶¸ n n ∂ δX yi − α − βxi 1 X 0 (θ) = 2 . xi (yi − α − βxi ) − xi Λ δ ∂β σ i=1 σ i=1 σ 3. Si h (σ) = δ

¡ yi −α−βxi ¢ σ

(1.6)

⇒ h0 (σ) = − σδ2 (yi − α − βxi ) , tenemos que la derivada parcial

de (θ) con respecto a σ esta dada por, n ∂ n 1 X (yi − α − βxi )2 (θ) = − + 3 ∂σ σ σ i=1 · µ ¶¸ n δ X yi − α − βxi 0 . (yi − α − βxi ) Λ δ − 2 σ i=1 σ

4. Finalmente si h (δ) = δ

¡ yi −α−βxi ¢ σ

⇒ h0 (δ) =

1 σ

(1.7)

(yi − α − βxi ) y la derivada parcial de

(θ) con respecto a δ es,

· µ ¶¸ n ∂ yi − α − βxi 1X 0 (yi − α − βxi ) Λ δ (θ) = . ∂δ σ i=1 σ

(1.8)

Observación: Al resolver (1.8) obtenemos que el EMV de δ, ˆδ α,β,σ , restringido a los valores de α, β y σ origina la siguiente ecuación n X i=1

· µ ¶¸ y − α − βx i i = 0, (yi − α − βxi ) Λ ˆδ α,β,σ σ 0

ESTIMACIÓN DE PARÁMETROS

5

de la cual, al sustituir δ por ˆδ α,β,σ en la ecuación (1.7) y resolviendo dicha ecuación con respecto a σ obtenemos que, −

n σ ˆ α,β,

+

n 1 X

σ ˆ 3α,β i=1

(yi − α − βxi )2 = 0,

(1.9)

ˆ α,β , restringido a valores dados de α y β está dado de donde se desprende que el EMV de σ, σ por: 1X = (yi − α − βxi )2 . n i=1 n

σ ˆ 2α,β

(1.10)

ˆ 2α,β tiene la misma forma que el EMV usual de σ cuando δ = 0. Sin Note que el estimador σ embargo, es importante recordar que la expresión (1.10) depende de ˆδ α,β,σ y aún cuando nos ahorra una dimensión en la estimación de los EMV de α, β, σ y δ, debido a que tenemos ˆ =σ ˆ αˆ ,βˆ , no ayuda a resolver la verosimilitud de una manera una expresión cerrada para σ sencilla. Observemos que si δ es conocido y diferente de cero el EMV de σ debe ser aquel que satisfaga la ecuación (1.7), debido a que ya no se cumple (1.9). Azzalini (1985) comete el error de suponer que se sigue cumpliendo (1.9) cuando δ es conocido (ver Arnold, et al 1993, página 479).

Cero trivial En esta sección mostramos que los estimadores de mínimos cuadrados (MC) satisfacen las ecuaciones de verosimilitud (1.5), (1.6), (1.7) y (1.8) cuando δ = 0. Sin embargo dicho punto es de inflexión, i.e., no es ni máximo ni mínimo lo cual se demuestra al probar que la matriz de información de Fisher no es positiva definida ni negativa definida. Recordemos que los estimadores de MC para α, β, en el modelo de regresión lineal simple están dados por las siguientes expresiones: sxy α ˆ MC = y − xβˆ MC , βˆ MC = , sxx

ESTIMACIÓN DE PARÁMETROS donde sxy = cumple que

Pn

i=1

6

(xi − x¯) (yi − y¯) , sxx = n X i=1

ˆεMC,i = 0,

n X

Pn

i=1

(xi − x¯)2 y si ˆεMC,i = yi − α ˆ MC − βˆ MC xi , se

xiˆεMC,i = 0,

i=1

n X

ˆε2MC,i = nˆ σ 20 ,

i=1

³ ´ ˆ0 = α ˆ MC , βˆ MC , σ ˆ0, 0 ˆ 0 es el EMV usual para σ cuando δ = 0. Observemos que el punto θ donde σ es una raíz de las ecuaciones de verosimilitud, es decir, las primeras derivadas parciales con respecto a cada uno de los parámetros evaluadas en dicho punto son cero. Ya que Λ (x) = ln Φ (x) , se cumple que φ (x) d Λ (x) = Λ0 (x) = dx Φ (x)

φ (0) = y Λ0 (0) = Φ (0)

r

2 . π

ˆ0 obtenemos que: De esta forma al evaluar las primeras derivadas en el punto θ ¯ n ´ ¯ ∂ 1 X³ ˆ MC xi ¯ (θ; y)¯ y = − α ˆ − β i MC ∂α σ ˆ 20 i=1 θ=ˆ θ0 ´ 1 ³ ˆ n y−α ˆ MC − β MC x¯ = 0 = σ ˆ 20 ¯ n ´ ¯ ∂ 1 X ³ ˆ ¯ y = x x (θ; y)¯ − α ˆ − β i i MC MC i ∂β σ ˆ 20 i=1 θ=ˆ θ0 Ã ! n ³ ´ X 1 =0 xi yi − βˆ MC xi = −nˆ αMC x + σ ˆ 20 i=1 ¯ n ´2 ¯ n ∂ 1 X³ ¯ (θ; y)¯ yi − α = − + 3 ˆ MC − βˆ MC xi ∂σ σ ˆ0 σ ˆ 0 i=1 θ=ˆ θ0 n n = − + =0 σ ˆ0 σ ˆ0 ¯ n ´ ¯ ∂ 1 X³ ¯ (θ; y)¯ yi − α = ˆ MC − βˆ MC xi Λ0 (0) ∂δ σ ˆ 0 i=1 θ=ˆ θ0 n ´ 1 φ (0) X ³ ˆ = yi − α ˆ MC − β MC xi σ ˆ 0 Φ (0) i=1

ESTIMACIÓN DE PARÁMETROS

7

1 = σ ˆ0 1 = σ ˆ0

r r

ˆ0 = Azzalini (1985) observa que el punto θ

´ 2 X³ yi − α ˆ MC − βˆ MC xi π i=1 n

2X ˆε = 0. π i=1 MC,i n

³ ´ α ˆ MC , βˆ MC , σ ˆ 0 , 0 es un punto de inflexión y

de aquí que la matriz de información de Fisher esperada no es positiva definida.1 Los detalles de la demostración de la afirmación anterior no vienen en el trabajo anterior. En la siguiente sección se prueba que la matriz de información de Fisher observada no es positiva definida. Mediante argumentos muy similares se observa que la matriz de información de Fisher esperada tampoco es positiva definida.

Matriz de información de Fisher observada ˆ0 es un punto de inflexión trabajamos con la matriz de Para identificar si el punto θ Fisher observada. La matriz de información de Fisher observada es menos el hessiano de la función de log verosimilitud, i.e., j (α, β, σ, δ) = −∇∇T (α, β, σ, δ) ∂ 2 (α, β, σ, δ) . = − ∂ (α, β, σ, δ) ∂ (α, β, σ, δ)T En términos de θ = (α, β, σ, δ)T tenemos que, j (θ) =

−∇θ ∇Tθ

µ ¶4 ∂2 (θ) = − (θ) . ∂θi ∂θj i,j=1

1 En realidad Azzalini (1985, página 175) dice que la matriz de información de Fisher es singular; sin embargo, cualquier libro de álgebra lineal define una matriz como singular si su determinante es cero. En este caso la matriz resultante no es de covarianzas porque no es positiva definida. No todos sus eigenvalores son del mismo signo.

ESTIMACIÓN DE PARÁMETROS

8

Cálculo de las segundas derivadas En el cálculo de las segundas derivas utilizaremos las siguientes igualdades: φ (x) d d Λ (x) = dx ln Φ (x) = ¥ Λ0 (x) = dx Φ (x) φ (h (x)) 0 ∂ h (x) = Λ0 (h (x)) h0 (x) Λ (h (x)) = ¥ ∂x Φ (h (x)) ∂ Λ0 (h (x)) = Λ00 (h (x)) h0 (x). ¥ ∂x 1. Recordemos que la derivada de (α, β, σ, δ) con respecto a α dada en (1.5) está dada por

· µ ¶¸ n n δX 0 ∂ yi − α − βxi 1 X (θ) = 2 , (yi − α − βxi ) − Λ δ ∂α σ i=1 σ i=1 σ

y de aquí obtenemos las siguientes cuatro derivadas cruzadas · µ ¶¸ n n δ 2 X 00 ∂2 yi − α − βxi , (θ) = − 2 − 2 Λ δ ∂α2 σ σ i=1 σ

· µ ¶¸ n n yi − α − βxi 1 X ∂2 δ2 X 00 (θ) = − 2 , xi − 2 xi Λ δ ∂α∂β σ i=1 σ i=1 σ

· µ ¶¸ n n 2 X ∂2 yi − α − βxi δ X 0 (θ) = − 3 (yi − α − βxi ) + 2 Λ δ ∂α∂σ σ i=1 σ i=1 σ · µ ¶¸ n δ2 X yi − α − βxi + 3 , (yi − α − βxi ) Λ00 δ σ i=1 σ · µ ¶¸ n 1X 0 ∂2 yi − α − βxi Λ δ (θ) = − ∂α∂δ σ i=1 σ · µ ¶¸ n δ X yi − α − βxi 00 (yi − α − βxi ) Λ δ − 2 . σ i=1 σ 2. Similarmente, reescribiendo (1.6) para facilitar los cálculos de las derivada cruzadas de (α, β, σ, δ) con respecto a los parámetros correspondientes, obtenemos que · µ ¶¸ n n yi − α − βxi 1 X δX ∂ 0 (θ) = 2 , xi (yi − α − βxi ) − xi Λ δ ∂β σ i=1 σ i=1 σ

ESTIMACIÓN DE PARÁMETROS de lo cual se sigue que, · µ ¶¸ n n 1 X 2 δ 2 X 2 00 ∂2 yi − α − βxi (θ) = − 2 x + xΛ δ , σ i=1 i σ 2 i=1 i σ ∂β 2 · µ ¶¸ n n 2 X ∂2 yi − α − βxi δ X 0 xi (yi − α − βxi ) + 2 xi Λ δ (θ) = − 3 ∂β∂σ σ i=1 σ i=1 σ · µ ¶¸ n yi − α − βxi δ2 X 00 xi (yi − α − βxi ) Λ δ + 3 , σ i=1 σ · µ ¶¸ n 1X ∂2 yi − α − βxi 0 (θ) = − xi Λ δ ∂β∂δ σ i=1 σ · µ ¶¸ n δ X yi − α − βxi 00 − 2 . xi (yi − α − βxi ) Λ δ σ i=1 σ 3. Así mismo ya que la derivada de (θ) con respecto a σ es, n n ∂ 1 X (θ) = − + 3 (yi − α − βxi )2 ∂σ σ σ i=1 · µ ¶¸ n yi − α − βxi δ X 0 (yi − α − βxi ) Λ δ − 2 σ i=1 σ

así n 3 X n ∂2 (θ) = (yi − α − βxi )2 − 4 2 2 ∂σ σ σ i=1 · µ ¶¸ n yi − α − βxi δ X 0 +2 3 (yi − α − βxi ) Λ δ σ i=1 σ · µ ¶¸ n δ2 X yi − α − βxi 2 00 + 4 , (yi − α − βxi ) Λ δ σ i=1 σ

y · µ ¶¸ n 1 X ∂2 yi − α − βxi 0 (yi − α − βxi ) Λ δ (θ) = − 2 ∂σ∂δ σ i=1 σ · µ ¶¸ n δ X yi − α − βxi 2 00 (yi − α − βxi ) Λ δ − 3 . σ i=1 σ

9

ESTIMACIÓN DE PARÁMETROS

10

4. Finalmente, recordemos que la derivada de (α, β, σ, δ) con respecto a δ es, · µ ¶¸ n ∂ yi − α − βxi 1X 0 (θ) = , (yi − α − βxi ) Λ δ ∂δ σ i=1 σ y por lo tanto, · µ ¶¸ n ∂2 yi − α − βxi 1 X 2 00 . (θ) = 2 (yi − α − βxi ) Λ δ σ i=1 σ ∂δ 2 ˆ0 = El siguiente paso es evaluar las segundas derivadas parciales de (θ) en el punto θ q ³ ´ α ˆ MC , βˆ MC , σ ˆ 0 , 0 , usando además las siguientes igualdades: Λ0 (0) = π2 , y Λ00 (0) = − π2 . ¯ ¯ ∂2 ¯ =− n , (θ; y) ¯ˆ 2 ∂α 2ˆ σ 20 θ0

¯ ¯ n ∂2 (θ; y)¯¯ = − 2 x¯, ∂α∂β σ ˆ0 (α,β,σ,δ)=ˆ θ0 ¯ n ¯ ∂2 2 X ¯ (θ; y)¯ =− 3 ˆεMC,i = 0, ∂α∂σ σ ˆ 0 i=1 θ=ˆ θ0 r ¯ ¯ n 2 ∂2 (θ; y)¯¯ , =− ∂α∂δ σ ˆ0 π θ=ˆ θ0 ¯ n ¯ 1 X 2 ∂2 ¯ (θ; y)¯ =− 2 xi , ∂β 2 σ ˆ 0 i=1 θ=ˆ θ0 ¯ n ¯ 2 X ∂2 ¯ (θ; y)¯ =− 3 xiˆεMC,i = 0, ∂β∂σ σ ˆ 0 i=1 θ=ˆ θ0 r ¯ ¯ 2 n ∂2 (θ; y)¯¯ =− x¯, ∂β∂δ πσ ˆ0 θ=ˆ θ0 ¯ n ¯ 3 X 2 ∂2 n ¯ (θ; y)¯ = ˆε − 4 ∂σ 2 σ ˆ 20 σ ˆ 0 i=1 MC,i θ=ˆ θ0 n 3nˆ σ20 − σ ˆ 20 σ ˆ 40 n = −2 2 , σ ˆ0 =

ESTIMACIÓN DE PARÁMETROS

Dado que

Pn

ε2MC,i i=1 ˆ

11

r ¯ n ¯ ∂2 2 1 X ¯ (θ; y)¯ =− ˆεMC,i = 0. ∂δ∂σ πσ ˆ 20 i=1 θ=ˆ θ0

= nˆ σ 20 obtenemos que

¯ n ¯ ∂2 2 1 X 2 2 ¯ = ˆεMC,i = n. 2 (θ; y)¯ 2 πσ π ∂δ ˆ 0 i=1 θ=ˆ θ0

De las ecuaciones anteriores se tiene que la matriz de información de Fisher observada para ˆ0 es, θ evaluada en θ 

− σˆn2 0

− σˆn2 x¯ 0

− σˆn0

q

2 π

0  q   − n2 x¯ − 12 Pn x2 ³ ´ 0 − π2 σˆn0 x¯ i=1 i σ ˆ0 σ ˆ0 ˆ0 = −  j θ   0 0 −2 σˆn2 0  0  q q 2 − σˆn0 π2 0 n − π2 σˆn0 x¯ π

El determinante de la información de Fisher observada es, Ã ! n h ³ ´i 3 X n ˆ0 = (−1)4 8 det j θ n¯ x2 − x2i , πσ 6 i=1



    .   

utilizando la relación n X i=1

llegamos a

x2i − n¯ x2 =

n X i=1

(xi − x¯)2 ,

n h ³ ´i 3 X ˆ0 = −8 n (xi − x¯)2 < 0. det j θ 6 πˆ σ 0 i=1

Como el determinante de la información de Fisher observada es negativo para k = 4 (par), ³ ´ ˆ0 = α ˆ MC , βˆ MC , σ ˆ 0 , 0 no es un punto que maximiza ni minimiza la función de el punto θ

verosimilitud (ver Marsden y Hoffman (1998), página 365).

Observación: La matriz de información de Fisher (o matriz de información de Fisher esperada) se define como i (θ) = E (j (θ)) . De manera similar al caso anterior y sin necesidad ´ ³ ˆ0, 0 ˆ MC , βˆ MC , σ de calcular las esperanzas involucradas, es posible verificar que el punto α

es punto de inflexión, y concluir así que i (θ) no es positiva definida ni negativa definida.

ESTIMACIÓN DE PARÁMETROS

12

Momentos de los estimadores de mínimos cuadrados En esta sección calculamos la media y la varianza de los estimadores de MC bajo el supuesto de que los errores se distribuyen con la distribución SN (0, σ, δ) . Consideremos el modelo dado en la ecuación (1.3), bajo el supuesto de errores con distribución normal sesgada, se tiene que yi ∼ SNID (α + βxi , σ, δ) , con r 2 E (yi ) = α + βxi + λσ = α∗ + βxi π µ ¶ 2 2 2 Var (yi ) = σ 1 − λ = σ 2y , π q δ donde α∗ = α + λσ π2 y λ = 1/2 , luego se sigue que (1+δ2 ) " n # ³ ´ X 1 bMC E β = E (xi − x¯) (yi − y¯) sxx i=1 # " n n 1X ∗ 1 X ∗ (xi − x¯) α + βxi − (α + βxi ) = sxx i=1 n i=1 =

n 1 X (xi − x¯) (α∗ + βxi − α∗ − β x¯) sxx i=1

n β X (xi − x¯)2 = β. = sxx i=1

Similarmente el valor esperado del estimador del intercepto por MC es, ³ ´ bMC x E (b αMC ) = E y − β ´ ³ bMC x = E (y) − E β 1X ∗ (α + βxi ) − βx n i=1 n

=

= α∗ + β x¯ − βx r

= α∗ = α + λσ

2 . π

El cálculo de las varianzas es como sigue ³ ´ b Var β MC =

" n # X 1 Var (xi − x¯) (yi − y¯) s2xx i=1

(1.11)

ESTIMACIÓN DE PARÁMETROS # " n X 1 (xi − x¯) yi = 2 Var sxx i=1

n 1 X = 2 (xi − x¯)2 Var (yi ) sxx i=1 µ ¶ n 2 2 1 X 2 2 = 2 (xi − x¯) σ 1 − λ sxx i=1 π µ ¶ σ 2y 2 1 2 σ 1 − λ2 = ; = sxx π sxx

³ ´ bMC x Var (b αMC ) = Var y − β ´ ³ ´ ³ bMC , bMC − 2 Cov y¯, β = Var (y) + x¯2 Var β ´ ³ bMC = 0, de donde obtenemos que como veremos inmediatamente Cov y¯, β µ ¶ µ ¶ 2 2 2 2 1 2 2 1 2 Var (b αMC ) = σ 1− λ σ 1 − λ + x¯ n π sxx π µ ¶· ¸ · ¸ 2 2 2 1 x¯ x¯2 2 2 1 = σy . + + = σ 1− λ π n sxx n sxx ³ ´ bMC = 0. Demostración de que Cov y¯, β r !³ ´ 2 bMC − β β y¯ − α − β x¯ − λσ π h ³ ´i bMC − β = E y¯ β ( " #) n 1 X = E y¯ (xi − x¯) (yi − y¯) − β sxx i=1

´ ³ bMC = E Cov y¯, β

Ã

1 X (xi − x¯) E (¯ y) = y yi ) − βE (¯ sxx i=1 ! Ã Ã n r ! n 2 1 X 1X = (xi − x¯) E yj yi − β α + β x¯ + λσ sxx i=1 n j=1 π Ã ! r n n 2 1 1 XX (xi − x¯) E (yj yi ) − β α + β x¯ + λσ = , sxx n i=1 j=1 π n

13

EJEMPLO SIMULADO

14

por independencia entre yi y yj para i 6= j tenemos que ´ ³ bMC Cov y¯, β Ã r !Ã r ! n X n X 1 1 2 2 α + βxj + λσ (xi − x¯) α + βxi + λσ = sxx n i=1 j=1 π π Ã r ! 2 −β α + β x¯ + λσ π ! Ã √ √ n n 2 2 1 1 XX (xi − x¯) αβxj + βxi α + β 2 xi xj + βxi λσ √ + λσ √ βxj = sxx n i=1 j=1 π π ! Ã Ã r ! √ n n 2 2 σ 2 1 1 XX + (xi − x¯) α2 + 2αλσ √ + 2λ2 − β α + β x¯ + λσ , sxx n i=1 j=1 π π π

con ayuda de las relaciones

n X i=1

(xi − x¯) = 0 y

n X i=1

(xi − x¯) xi = sxx ,

lo anterior se reduce a ´ ³ bMC Cov y¯, β Ã ! √ n n n n X X X 1 1X 2 = αβ (xi − x¯) xi + β 2 (xi − x¯) xi xj + βλσ √ (xi − x¯) xi sxx n j=1 π i=1 i=1 i=1 Ã r ! 2 −β α + β x¯ + λσ π Ã ! Ã r ! √ n X 2 2 1 1 αβsxx + β 2 sxx xj + βλσ √ sxx − β α + β x¯ + λσ = sxx n j=1 π π Ã r ! √ 2 1 2 1 2 1 sxx + β sxx x¯ + βλσ √ sxx − β α + β x¯ + λσ = αβ sxx sxx π π sxx r √ 2 2 = 0. = αβ + β 2 x¯ + βλσ √ − βα − β 2 x¯ − βλσ π π

Ejemplo simulado Suponga el modelo de regresión dado en la ecuación (1.3), con la finalidad de ilustrar el procedimiento de estimación, para cada uno de los parámetros en el modelo, vía la maxi-

EJEMPLO SIMULADO

15

mización de la log verosimilitud; así como por el método de mínimos cuadrados, se simulan muestras de tamaño 200. El procedimiento de simulación se basa en la siguiente proposición, debida a Henze (1986). Proposición: Si X0 y X1 son variables independientes N (0, 1) entonces 1 δ X1 |X0 | + p Y =p 1 + δ2 1 + δ2

es una variable que distribuye SN (0, 1, δ) .

Veamos la demostración de esta proposición. Demostración. X0 ∼ N (0, 1) la función generadora de momentos (f.g.m.) de |X0 | es, Z ∞ t|X0 | Ee = etx 2φ (u) du 0 Z ∞ 2 1 2 1 1 t 2 = 2e √ e− 2 (u−t) du 2π Z0 ∞ 1 2 1 2 1 t 2 e− 2 u du = 2e √ 2π −t Z t 1 2 1 2 1 t e− 2 u du = 2e 2 √ 2π −∞ 1 2

= 2e 2 t Φ (t) ,

ahora, si X1 ∼ N (0, 1) entonces su f.g.m. es 1 2

EetX1 = e 2 t , por lo tanto la f.g.m. de Z = √ δ

1+δ2

|X0 | + √ 1

1+δ 2

MZ (t) = M √ δ

1+δ 2

1 X1 1+δ 2

|X0 |+ √

Ã

X1 está dada por

δt

!

(t)

p MX1 1 + δ2 ! Ã 1 2 δt e2t , = 2Φ p 1 + δ2

= M|X0 |

la cual corresponde a la f.g.m. de una SN (0, 1, δ).

Ã

t

p 1 + δ2

!

EJEMPLO SIMULADO

16

Para simular números aleatorios con distribución SN (µ, σ, δ) tomamos Z = µ + σY con Y simulado a partir de la proposición anterior. Una vez simuladas las muestras de tamaño 200 se calculan los estimadores de α, β, σ 2 y δ por medio de la maximización directa de la función de log verosimilitud mediante el procedimiento nlmin de SPLUS. Recordemos que en el análisis de regresión, mínimos cuadrados tratan de estimar la media y la varianza de la variable aleatoria Y, en nuestro caso particular tenemos que dicha media y varianza están dadas en las ecuaciones (1.11). En este sentido calculamos los estimadores de α∗ , β y σ 2y por medio de mínimos cuadrados, con la finalidad de compararlos con los valores de los estimadores obtenidos por máxima verosimilitud. El conjunto de datos simulados se generó bajo el siguiente escenario: α = 1; β = 0.3; δ = 10; σ = 2; n = 200, considerando los valores anteriores y de las ecuaciones (1.11) tenemos que, ∗

α = α + λσ

r

µ ¶ 2 2 2 2 2 = 2.588 y σ y = σ 1 − λ = 1.4787. π π

La tabla siguiente resume las estimaciones de los parámetros por MV y MC. σ 2y

Parámetros

α

β

δ

σ

α∗

Simulación

1

0.3

10

2

2.588 1.48

MC o MV (Dist. Normal)

0.299

2.62

MV (Dist. Normal Sesgada) 1.01 0.299 11.7 2.01 2.6

1.53 1.5

La figura 1.1 presenta el comportamiento de los errores en el modelo, El comportamiento gráfico de los residuales obtenidos mediante mínimos cuadrados, así como los residuales obtenidos por máxima verosimilitud con respecto al parámetro de localización, se muestra en la figura 1.2.

EJEMPLO SIMULADO

0

0

10

20

2

30

Errores

4

40

50

6

60

17

-3

-2

-1

0

1

2

3

0

QQPlot de los errores del modelo

2

4

6

Histograma de los errores del modelo

2

resMV

2

0

0 -2

mod1$residuals

4

4

6

Figura 1.1:

-3

-2

-1

0

1

Residuales de MC

2

3

-3

-2

-1

0

1

2

3

Residuales de MV con respecto al parámetro de localización

Figura 1.2:

EJEMPLO SIMULADO

18

10

yˆi = αˆ MVS + βˆMVS xi + λˆMVSσˆ MVS

2 π

5

y

yˆi = αˆ MC + βˆMC xi

0

yˆ i = αˆ MVS + βˆ MVS xi 0

2

4

6

8

10

x

Figura 1.3: La figura 1.3 presenta la gráfica de dispersión de los datos simulados, con las correspondientes ecuaciones de las rectas ajustadas por MC y MV; recordemos que el procedimiento de MV considera que la distribución de los errores es la normal sesgada. En la mayoría de los escenarios simulados, los estimadores de la pendiente por el método de mínimos cuadrados y máxima verosimilitud resultaron muy parecidos numéricamente, prácticamente las ecuaciones de las rectas estimadas resultaban ser casi paralelas, lo cual se debe que el estimador de la pendiente por MC resulta ser un estimador insesgado y consistente del parámetro β en el modelo. También se observa que los valores estimados para la varianza son muy cercano al valor verdadero, independientemente del comportamiento del resto de los valores estimados. El comportamiento de los residuos residuos (por MV y MC) parece ser normal sesgada general (GNS), pero aún no se ha demostrado dicho resultado, ver González-Farías et al (2002).

CONCLUSIONES

19

Conclusiones En este capítulo observamos que las propiedades distribucionales de los estimadores de mínimos cuadrados de la pendiente y el intercepto del modelo de regresión lineal con errores normales sesgados son similares a los del caso en que los errores son normales. Por ejemplo se observó lo siguiente: 1. El estimador de la pendiente, βˆ MC , es un estimador insesgado de β. Esta propiedad del estimador de la pendiente puede ser de gran utilidad, por ejemplo dicho valor puede considerarse como valor inicial para el EMV de β, o bien como un valor dado en la función verosimilitud. 2. Los estimadores βˆ MC y βˆ MV son aproximadamente iguales (observación empírica). 3. El estimador βˆ MC es consistente al igual que βˆ MV (por esta razón no es sorprendente que βˆ MC ∼ = βˆ MV ), sólo garantizamos consistencia para δ conocido. ´ ³ ˆ ˆ 4. La media muestral, y¯, no está correlacionada con β MC , i.e., Cov y¯, β MC = 0. Cabe señalar que no son independientes ya que la independencia sólo se tiene en el caso normal, por lo que cuando δ = 0 son independientes. ˆ 2MV y σ ˆ 2MC presentan expresiones similares. Dichos estimadores son 5. Los estimadores σ iguales en δ = 0. ˆ MC , βˆ MC es normal sesgada general, como se menciona más ade6. La distribución de α lante. ˆ MC , no es insesgado, en realidad El estimador de mínimos cuadrados para el intercepto, α r 2 , E (ˆ αMC ) = α + λσ π donde λ = √ δ

1+δ2

, más aún p

α ˆ MC −→ α + λσ

r

2 , π

CONCLUSIONES

20

el estimador de mínimos cuadrados del intercepto nunca será bueno (si se desconoce los valores de δ y σ). Si δ y σ son conocidos se puede estimar α mediante r 2 α ¯=α ˆ MC − λσ , π el cual es consistente. ˆ , de σ tiene la misma forma que el EMV de σ ˆ 0 cuando δ = 0 (caso normal), El EMV, σ como se ilustra en la siguiente expresión. σ ˆ 2MV

´2 ´2 1 X³ 1 X³ 2 ˆ ˆ yi − α yi − α = ˆ0 = ˆ MV − β MV xi y σ ˆ MC − β MC xi . n n

El MV de σ tiene la misma interpretación que en el caso de MC (mide las desviaciones alrededor de la media). Dado de que los estimadores de mínimos cuadrados de α y β son combinaciones lineales de las observaciones, se desprende que su distribución es normal sesgada general. Lo anterior se debe a que la distribución normal sesgada es cerrada bajo combinaciones lineales de rango completo por renglón o por columna como se prueba en Gonzalez-Farías, et al (2002). La función de verosimilitud perfil de δ es muy irregular, puede tener múltiples máximos incluyendo entre ellos a δ = ±∞; δ = 0 es siempre una raíz pero no necesariamente un punto que maximice la verosimilitud. En este caso es recomendable seguir las recomendaciones de Azzalini (1985), Arnold et al (1993), Copas y Li (1997). Dichas recomendaciones consisten en estudiar las propiedades de los parámetros α, β y σ, para valores de δ con altos niveles de verosimilitud perfil. Domínguez-Molina y González-Farías (2002) recomiendan niveles de verisimilitud perfil altos (e.g., ≥ 0.5); también observan que la distribución de R = ³ ³ ´ ´ ˆ −2 ln Lp δ − Lp (δ) dista mucho de la distribución ji-cuadrada, esto sucede incluso para

muestras de tamaño 500. Azzalini (1985) recomienda muestras de tamaño grande y sugiere n ≥ 30, pero Arnold et al (1993) dejan claro que n debe ser más grande, n ≥ 200.

Capítulo 2 Inferencias para muestras no-aleatorias (Copas y Li 1997) Introducción Dentro de las contribuciones más importantes de R. Fisher se encuentran los estudios realizados sobre la importancia de aleatorización, no sólo en las áreas de diseños de experimentos y muestreo, sino también como soporte lógico de los distintos métodos de análisis estadístico. El argumento esencial de Fisher es que la aleatorización o equivalentemente el supuesto de muestreo de una población, justifica el uso de las distintas pruebas estándar de significancia, así como el correcto uso de los métodos de inferencia normal. Sin embargo los métodos diseñados para análisis de datos experimentales se aplican también de manera rutinaria a datos observacionales sin que estos reconozcan la ausencia de aleatoriedad desde el punto de vista de Fisher, eliminando así la base sólida para la correcta aplicación de estos métodos. Una gran parte de la estadística moderna se desarrolla en torno a pruebas y verificaciones de los supuestos en los distintos modelos, sin embargo el argumento de aleatoriedad, que da soporte a los supuestos estándar del modelo no es reversible. Es decir, la verificación empírica de los supuestos en un modelo no implican necesariamente que se justifique la propiedad de aleatoriedad. Algunas características de interés de datos observacionales, tales como diferencia significativa entre respuestas de sujetos ante diferentes tratamientos, pueden ser bien justificadas o explicadas por la asimetría incurrida al momento de que dichos sujetos 21

MODELO BÁSICO

22

son asignados a cada uno de los tratamientos. Copas y Li (1997) extienden algunos modelos estadísticos simples incluyendo un parámetro adicional θ que modela los grados de no-aleatoriedad en el mecanismo generador de los datos. El valor de θ = 0 es la hipótesis de aleatoriedad, de modo tal que se supone que los datos son el resultado de un experimento aleatorio. Pensando en θ como un parámetro desconocido paralelo a los parámetros ya existentes en el modelo, se podría proceder en la forma habitual de inferencia paramétrica o bien realizar una prueba de hipótesis de modo que si θ = 0 la justificación de las inferencias estándar esta dada. La forma de proceder de Copas y Li (1997) es mediante inferencia condicional en un rango de valores diferentes de θ y analizar la sensibilidad de sus conclusiones dependiendo de las características de θ cerca del valor cero. También se estudia la log-verosimilitud para θ después de maximizar en función de los otros parámetros, corroborando que mucha de la información de los datos está dada por θ. En nuestro caso particular estudiaremos el modelo propuesto por Copas y Li (1997) observando el hecho de que la distribución condicional resultante es un caso particular de la distribución normal sesgada general (GSN) dada en Domínguez-Molina et al (2001). También se tiene que para ciertos valores de los parámetros dicha distribución contiene a la distribución de Azzalini y Dalla Valle (1996). En la parte final de este capítulo simulamos conjuntos de datos de diferentes tamaños y posteriormente estimamos los parámetros mediante la maximización de la función de log verosimilitud.

Modelo básico Sea Y la variable respuesta de interés y relacionada con la covariable X mediante el siguiente modelo de regresión Y = β T X + σε1 ,

(2.1)

X es un vector de m componentes y x1 = 1 de modo que la primer componente del vector β es el término intercepto y ε1 es una variable aleatoria N (0, 1) . El modelo principal está

MODELO BÁSICO

23

completamente especificado por la ecuación de selección Z = γ T X + ε2 ,

(2.2)

asumiendo también que ε2 es N (0, 1), de modo que (ε1 , ε2 ) es normal estándar bivariada con coeficiente de correlación ρ. Algunas aplicaciones principales de este modelo son: 1. Modelos para datos faltantes (Y es observada sólo si Z > 0), como por ejemplo en el estudio de técnicas de muestreo ante la no-respuesta. 2. Modelos para comparación de ensayos o tratamientos (un sujeto es designado al tratamiento A si Z > 0 o al tratamiento B si Z ≤ 0), como por ejemplo en el estudios de pruebas t-pareadas, comparación de dos muestras, entre otras. Se supone que la covariable X es fija y observada, mientras que los valores actuales de la variable Z nunca son observados, pero siempre se conoce si dicha variable es positiva o negativa. La distribución de (Y, Z)T se obtiene fácilmente dado que la distribución de los errores es

 

ε1 ε2

y por (2.1) y (2.2) obtenemos que  

Y Z





 

 ∼ N2 0,  

 ∼ N2 

T

β X γT X

1 ρ ρ 1

  ,

σ



 , 2

σρ

σρ 1



 .

La función de densidad condicional de y|x, z > 0 se obtiene directamente utilizando la relación, f (y|x, z > 0) =

fY (y) Pr (Z > 0|y) . Pr (Z > 0)

(2.3)

MODELO BÁSICO

24

Es conocido que la variable aleatoria Z|y tiene distribución normal dada por ³ ´ ¢ ρ¡ Z|y ∼ N γ T X + y − β T X , 1 − ρ2 , σ de modo que, Pr (Z ≤ z|y) = Φ

Ã

o bien,

¢! ¡ z − γ T X − ρσ −1 y − β T X p , 1 − ρ2

Pr (Z > 0|y) = Pr (−Z ≤ 0|y) = Φ

Ã

¢! ¡ γ T X + ρσ −1 y − β T X p . 1 − ρ2

Regresando a la densidad f (y|x, z > 0) dada en la ecuación (2.3) obtenemos que −1

σ φ f (y|x, z > 0) =

³

y−β T X σ

´

Φ

µ

γ T X+ρσ −1 (y−β T X )

Φ (γ T X)



1−ρ2



.

(2.4)

Con fines de aplicación Copas y Li (1997) proponen reparametrizar la densidad condicional f (y|x, z > 0), obteniendo la siguiente representación equivalente, −1

−1

f (y|x, z > 0) = σ Φ

θ=

¡ T ¢ γ x φ

½µ

y − βT x σ

¶¾

½ ¶¾ µ ¡ ¢ y − βT x 2 1/2 T Φ 1+θ , γ x+θ σ (2.5)

ρ . (1−ρ2 )1/2

Copas y Li (1997) identifican los siguientes casos particulares del modelo dado en las ecuaciones (2.1) y (2.2). 1. Si ρ = 0 la expresión (2.4) corresponde a la densidad marginal normal de Y en el modelo dado en las ecuaciones (2.1) y (2.2). 2. El caso más simple de este modelo es β = γ = 0 y σ = 1, es decir el caso en que Y y Z son normales estándar bivariada con coeficiente de correlación ρ, de modo que µ ¶ ρ f (y|z > 0) = 2φ (y) Φ √ 2 y, es la distribución normal sesgada de Azzalini (1985). 1−ρ

MODELO BÁSICO

25

³ T ´ ¢ ¡ Sin embargo notemos que si γ = 0 y por notación φ y; β T X, σ 2 = σ −1 φ y−βσ X , la

densidad resultante corresponde a la distribución de Azzalini y Dalla Valle (1996), ³ T ´ µ ³ T ´¶ y−β X ρ −1 σ φ Φ √ 2 y−βσ X σ 1−ρ f (y|x, z > 0) = Φ (0) Ã µ ¶! T ¡ ¢ X y − β ρ = 2φ y; β T X, σ 2 Φ p . σ 1 − ρ2

(2.6)

Mientras que si γ 6= 0 la densidad resultante es la densidad dada en Domínguez-Molina,

et al (2001), ya que

¢! ¡ µ ¶ Ã T ρ T T ¢ ¡ X + X y − β γ X y − β pσ f (y|x, z > 0) = Φ−1 γ T X σ −1 φ Φ σ 1 − ρ2 Ã ¡ρ T ¢ ! ρ T ¢ ¡ ¡ ¢ y − β + γ X σ p . = Φ−1 γ T X φ y; β T X, σ 2 Φ σ 1 − ρ2

(2.7)

Usando el hecho de que Φp (x; µ, Σ) = Pr (X ≤ x) , donde X ∼ Np (µ, Σ) y Φq (Dy; ν, ∆) = Pr (X ≤ Dy) , con X ∼ Np (ν, ∆) , tenemos que ³ρ ´ ´ ³ ³ρ ³ρ ´ ρ T ´ T T T T T Φ1 β X; β − γ X, 1 = Pr U ≤ β X , U ∼ N β X − γ X, 1 σ σ σ σ ´ ³ ρ ρ ρ = Pr U − ( β T X − γ T X) ≤ β T X − ( β T X − γ T X) σ σ ´ σ ³ ρ T T T = Pr U − β X + γ X ≤ γ X σ ¢ ¡ = Pr Z ≤ γ T X , Z ∼ N (0, 1) ¢ ¡ = Φ γT X . Así mismo, ³ρ ³ρ ³ρ ´ ´ ³ ´ ρ ´ y; β T + γ T X, 1 − ρ2 = Pr U ≤ y , U ∼ N β T X − γ T X, 1 − ρ2 Φ1 σ σ σ σ ! Ã ρ T ρ ρ T T T y − ( β X − γ X) U − ( σ β X − γ X) σ p p ≤ σ = Pr 1 − ρ2 1 − ρ2 ! Ã ρ ρ T T y − ( β X − γ X) σ p , Z ∼ N (0, 1) = Pr Z ≤ σ 1 − ρ2 ! Ã ρ ρ T T y − ( β X − γ X) σ p . = Φ σ 1 − ρ2

MODELO BÁSICO

26

De las expresiones anteriores podemos reexpresar la ecuación (2.7) como, ³ρ ´ ρ T T T f (y|x, z > 0) = Φ−1 X; X − γ X, 1 β β 1 σ σ ´ ¡ ¢ ³ρ ρ y; ( β T − γ T )X, 1 − ρ2 , ×φ y; β T X, σ 2 Φ1 σ σ

la cual corresponde a la distribución de una variable aleatoria con distribución GSN tal y como la proponen en Domínguez-Molina, et al (2001), y cuya notación es, ³ ´ ´ ³ρ T T 2 ρ T 2 Y ∼ GSN1,1 β X, σ , , β − γ X, 1 − ρ . σ σ

Cálculos de la media y varianza Para calcular los momentos de la variable Y |x, z > 0 utilizamos la función generatriz de momentos de una variable aleatoria W ∼ GSNp,q (µ, Σ, D, ν, ∆) dada en Domínguez-Molina et al (2001), cuya expresión es la siguiente: ¡ ¢ Φ1 D (µ + Σt) ; ν, ∆ + DΣDT µT t+ 1 tT Σt 2 MW (t) = e , t ∈

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.