Story Transcript
Comparaci´ on de Intervalos de Confianza para el Coeficiente de Correlaci´ on
Liliana Vanessa Pacheco Galindo
Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad´ıstica Medell´ın, Colombia 2013
Comparaci´ on de Intervalos de Confianza para el Coeficiente de Correlaci´ on
Liliana Vanessa Pacheco Galindo
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al t´ıtulo de: Mag´ıster en Ciencias - Estad´ıstica
Director: (Ph.D.) Juan Carlos Correa Morales
L´ınea de Investigaci´on: An´alisis Multivariado Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad´ıstica Medell´ın, Colombia 2013
Dedicatoria
Dedico este trabajo de tesis principalmente a Dios, quien me ha acompa˜ nado hasta estas instancias de mi vida y ha hecho de m´ı quien ahora soy. A mis padres y a mis hermanos, que han sido siempre mi apoyo, gu´ıa y fuente de amor.
A mis compa˜ neros de estudio y a mis profesores, quienes sin su ayuda nunca hubiera podido hacer esta tesis. Y en especial a aquel que me acompa˜ n´o y fue mi apoyo incondicional, D.A.S.
vii
Resumen La construcci´on de intervalos de confianza para la estimaci´on del coeficiente de correlaci´on en la distribuci´on normal bivariada, digamos ρ, es un problema importante en el trabajo estad´ıstico aplicado. Uno de los prop´ositos principales de este trabajo es realizar una revisi´on de los diferentes procedimientos para su construcci´on, en la distribuci´on normal bivariada. Mediante un estudio de simulaci´on se analiza el comportamiento de los niveles de confianza reales y se comparan con los te´oricos. Se estudia adem´as el comportamiento de las longitudes de los intervalos de confianza logrados por nueve m´etodos considerados en la Estad´ıstica cl´asica y dos Intervalos de credibilidad construidos mediante el enfoque Bayesiano para as´ı determinar cu´al metodolog´ıa provee los intervalos m´as cortos y de nivel real m´as cercano al nominal. Adem´as, se propone un indicador que resume de manera m´as efectiva la calidad del intervalo analizado. Dicho estudio de simulaci´on se desarroll´o empleando el software R (R Development Core Team 2010) para construir los intervalos de confianza, las distribuciones muestrales de diversos estad´ısticos utilizados y obtener las gr´aficas de resumen de resultados obtenidos. Dentro del enfoque cl´asico hay ciertos procedimientos que generan mejores resultados para muestras peque˜ nas, mientras que en el enfoque Bayesiano las conclusiones no son homog´eneas en cuanto a la selecci´on de la “mejor” distribuci´on a priori para ρ. Palabras clave: Estimaci´ on por intervalo, Coeficiente de Correlaci´ on, Distribuci´ on Normal Bivariada, Muestreador de Gibbs, Intervalos de Credibilidad.
Abstract The construction of confidence intervals for the estimate of the correlation coefficient in the bivariate normal distribution, say ρ, is an important problem in applied statistical work. One of the main purposes of this paper is to review the different procedures for their construction, in the case of the bivariate normal distribution. Through a simulation study we analyse the behavior of real confidence levels and compare them with the theoretical ones. We also analyse the behavior of the confidence interval’s lengths achieved by nine methods considered in classical statistics and two credibility intervals using the Bayesian methodology to determine which provides the shorter intervals and a coverage probability closer to the nominal one. Furthermore, we propose an indicator that summarizes even more effectively the analyzed interval quality. This simulation study was developed using the R software (R Development Core Team 2010) to construct confidence intervals, sampling distributions of various statistics used in this paper and to get summary results graphs. Within the classical approach there are certain procedures that generate better results for smaller samples, while the Bayesian approach conclusions are not homogeneous in terms of the selection of the “best” apriori distribution for ρ.
viii Keywords: Interval Estimation, Correlation Coefficient, Bivariate Normal Distribution, Gibbs Sampler, Credibility Intervals
Contenido Resumen
VII
1. Introducci´ on
2
2. Metodolog´ıas en la construcci´ on de Intervalos de confianza caso Normal 2.1. Distribuci´on de Probabilidad Normal Bivariada y Multivariada . . . . . 2.2. Coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. M´etodo I: Basado en la transformaci´on Arco tangente . . . . . . 2.3.2. M´etodo II: Intervalo de la Raz´on de Verosimilitud . . . . . . . . 2.3.3. M´etodo III: Bootstrap . . . . . . . . . . . . . . . . . . . . . . . 2.3.4. M´etodo IV: Intervalo de Jeyaratnam . . . . . . . . . . . . . . . 2.3.5. M´etodo V: Test Generalizado para ρ . . . . . . . . . . . . . . .
Bivariada . . . 3 . . . 4 . . . 10 . . . 10 . . . 11 . . . 12 . . . 12 . . . 12
3. Resultados de la Simulaci´ on - Metodolog´ıa Cl´ asica I 3.1. Caso Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14 14
4. Metodolog´ıa Bayesiana para la construcci´ on de Intervalos de 4.1. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . 4.2. Intervalos Bayesianos o Intervalos de credibilidad . . . . . 4.3. Inferencias para el coeficiente de correlaci´on ρ . . . . . . . 4.3.1. Selecci´on de Distribuciones Apriori para ρ . . . . . 4.3.2. Obtenci´on de Distribuciones Aposteriori para ρ . .
37 37 38 38 39 42
Credibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
5. Resultados de la Simulaci´ on - Metodolog´ıa Bayesiana
47
6. Aplicaciones 6.1. Aplicaci´on Base de datos Huevos . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Aplicaci´on Base de Datos Vinos . . . . . . . . . . . . . . . . . . . . . . . . .
54 54 55
7. Conclusiones
57
8. Recomendaciones
58
3
Contenido
1
9. Anexos 9.1. Tablas de Resultados Metodolog´ıa Cl´asica . . 9.2. Inferencias para el coeficiente de correlaci´on ρ 9.2.1. Verosimilitud Simplificada . . . . . . . 9.2.2. Distribuciones condicionales . . . . . .
. . . .
59 59 63 63 65
. . . . .
67 67 72 73 76 77
. . . .
10.C´ odigos en R 10.1. Intervalos de Confianza parte cl´asica . . . . . . 10.2. Error cuadr´atico medio de los estimadores de ρ 10.3. Intervalo de confianza Bayesiano con la apriori 2 10.4. ´Indices de resumen . . . . . . . . . . . . . . . . 10.5. Construcci´on de Cl´ usters . . . . . . . . . . . . . Bibliograf´ıa
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
78
1 Introducci´ on El coeficiente de correlaci´on es una de las medidas estad´ısticas de m´as uso dentro del trabajo aplicado. Algunas de sus propiedades fueron estudiadas por Zheng and Matis (1994), quienes presentan y demuestran algunas de sus propiedades. Debido a su amplia utilizaci´on, varias son sus interpretaciones. Falk and Well (1997) sustentan que el coeficiente de correlaci´on de Pearson, ρ, es ampliamente usado en campos como la educaci´on, psicolog´ıa, y todas las ciencias sociales, y el concepto es empleado en diversas metodolog´ıas de tipo estad´ıstico. La estimaci´on del coeficiente de correlaci´on por medio de intervalos es importante, y para ello se disponen de diversos m´etodos. La metodolog´ıa quiz´a m´as conocida es la propuesta originalmente por Fisher (1915) en la cual se realiza una transformaci´on del coeficiente de correlaci´on muestral, r, y asumiendo normalidad asint´otica, se desarrolla un intervalo para el coeficiente de correlaci´on poblacional ρ, (Krishnamoorthy and Xia, 2007). Tambi´en se conocen transformaciones adicionales hechas por Hotelling (1953) a la propuesta inicial de Fisher. La estad´ıstica bayesiana presenta a su vez metodolog´ıas para la construcci´on de intervalos de credibilidad para par´ametros distribucionales (Bernardo and Smith, 2000). El problema para el analista es la carencia de reglas sobre cu´al f´ormula es preferible. Para esto se pretende realizar un estudio de simulaci´on que permita analizar el comportamiento de los niveles de confianza reales y compararlos con los te´oricos de los diversos intervalos disponibles. As´ı como tambi´en, hacer una comparaci´on de las longitudes del intervalo obtenido por las diferentes metodolog´ıas y la implementaci´on de un indicador que permita relacionar los dos criterios de evaluaci´on anteriormente mencionados. Algunas de las metodolog´ıas empleadas para la construcci´on de los intervalos de confianza pueden encontrarse en: (Fisher, 1921), (Hotelling, 1953), (Pawitan, 2001), (Efron, 1979) y (Krishnamoorthy and Xia, 2007). Y para la construcci´on de los intervalos de credibilidad se emplean las distribuciones a priori de (McCullagh, 1989) y el kernel de la distribuci´on empleada por (Ghosh et al., 2010).
2 Metodolog´ıas en la construcci´ on de Intervalos de confianza caso Normal Bivariada 2.1.
Distribuci´ on de Probabilidad Normal Bivariada y Multivariada
Si se tiene una distribuci´on normal univariada, con media µ y varianza σ 2 , esta tendr´a la siguiente funci´on de densidad (Johnson and Wichern, 2007):
f (x) = √
1
1 (x−µ) 2 σ
e− 2 [
2πσ 2
];
−∞ < x < ∞
(2-1)
Una funci´on de densidad de una normal p−dimensional, para el vector aleatorio X 0 = [X1 , X2 , . . . , Xp ] tiene la forma:
f (x) =
1
e− p/2 1/2 (2π) |Σ|
(x−µ)0 Σ−1 (x−µ) 2
−∞ < xi < ∞;
(2-2) i = 1, 2, . . . , p
donde el vector µ ∈