Comparación de Intervalos de Confianza para el Coeficiente de Correlación. Liliana Vanessa Pacheco Galindo

Comparaci´ on de Intervalos de Confianza para el Coeficiente de Correlaci´ on Liliana Vanessa Pacheco Galindo Universidad Nacional de Colombia Facul

Author: Ana Marín Plaza

7 downloads 44 Views 496KB Size

Report

DOWNLOAD PDF

Recommend Stories

Intervalos de confianza

INTERVALOS DE CONFIANZA

Intervalos de Confianza para dos muestras

8. INTERVALOS DE CONFIANZA

8. INTERVALOS DE CONFIANZA Al estimar el valor de un parámetro de la distribución teórica, no se provee información sobre la incertidumbre en el resul

Intervalos de confianza para la media

Muestreo e Intervalos de Confianza

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Estimación por intervalos de confianza. I.E.S. A Xunqueira I pag. 1 ESTIMACIÓN POR INTERVALOS DE CONFIANZA Conceptos En este tema vamos a estudiar

LECTURA 04: INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL. INTERVALOS DE CONFIANZA ENTRE DOS MEDIAS POBLACIONALES

Tema 11: Intervalos de confianza

Intervalos de Confianza para la diferencia de medias

Intervalos de Confianza para la diferencia de medias INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Sean x11 , x12 , ... x1n1 , una muestra ale

Story Transcript

Comparaci´ on de Intervalos de Confianza para el Coeficiente de Correlaci´ on

Liliana Vanessa Pacheco Galindo

Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad´ıstica Medell´ın, Colombia 2013

Comparaci´ on de Intervalos de Confianza para el Coeficiente de Correlaci´ on

Liliana Vanessa Pacheco Galindo

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al t´ıtulo de: Mag´ıster en Ciencias - Estad´ıstica

Director: (Ph.D.) Juan Carlos Correa Morales

L´ınea de Investigaci´on: An´alisis Multivariado Universidad Nacional de Colombia Facultad de Ciencias, Escuela de Estad´ıstica Medell´ın, Colombia 2013

Dedicatoria

Dedico este trabajo de tesis principalmente a Dios, quien me ha acompa˜ nado hasta estas instancias de mi vida y ha hecho de m´ı quien ahora soy. A mis padres y a mis hermanos, que han sido siempre mi apoyo, gu´ıa y fuente de amor.

A mis compa˜ neros de estudio y a mis profesores, quienes sin su ayuda nunca hubiera podido hacer esta tesis. Y en especial a aquel que me acompa˜ n´o y fue mi apoyo incondicional, D.A.S.

vii

Resumen La construcci´on de intervalos de confianza para la estimaci´on del coeficiente de correlaci´on en la distribuci´on normal bivariada, digamos ρ, es un problema importante en el trabajo estad´ıstico aplicado. Uno de los prop´ositos principales de este trabajo es realizar una revisi´on de los diferentes procedimientos para su construcci´on, en la distribuci´on normal bivariada. Mediante un estudio de simulaci´on se analiza el comportamiento de los niveles de confianza reales y se comparan con los te´oricos. Se estudia adem´as el comportamiento de las longitudes de los intervalos de confianza logrados por nueve m´etodos considerados en la Estad´ıstica cl´asica y dos Intervalos de credibilidad construidos mediante el enfoque Bayesiano para as´ı determinar cu´al metodolog´ıa provee los intervalos m´as cortos y de nivel real m´as cercano al nominal. Adem´as, se propone un indicador que resume de manera m´as efectiva la calidad del intervalo analizado. Dicho estudio de simulaci´on se desarroll´o empleando el software R (R Development Core Team 2010) para construir los intervalos de confianza, las distribuciones muestrales de diversos estad´ısticos utilizados y obtener las gr´aficas de resumen de resultados obtenidos. Dentro del enfoque cl´asico hay ciertos procedimientos que generan mejores resultados para muestras peque˜ nas, mientras que en el enfoque Bayesiano las conclusiones no son homog´eneas en cuanto a la selecci´on de la “mejor” distribuci´on a priori para ρ. Palabras clave: Estimaci´ on por intervalo, Coeficiente de Correlaci´ on, Distribuci´ on Normal Bivariada, Muestreador de Gibbs, Intervalos de Credibilidad.

Abstract The construction of confidence intervals for the estimate of the correlation coefficient in the bivariate normal distribution, say ρ, is an important problem in applied statistical work. One of the main purposes of this paper is to review the different procedures for their construction, in the case of the bivariate normal distribution. Through a simulation study we analyse the behavior of real confidence levels and compare them with the theoretical ones. We also analyse the behavior of the confidence interval’s lengths achieved by nine methods considered in classical statistics and two credibility intervals using the Bayesian methodology to determine which provides the shorter intervals and a coverage probability closer to the nominal one. Furthermore, we propose an indicator that summarizes even more effectively the analyzed interval quality. This simulation study was developed using the R software (R Development Core Team 2010) to construct confidence intervals, sampling distributions of various statistics used in this paper and to get summary results graphs. Within the classical approach there are certain procedures that generate better results for smaller samples, while the Bayesian approach conclusions are not homogeneous in terms of the selection of the “best” apriori distribution for ρ.

viii Keywords: Interval Estimation, Correlation Coefficient, Bivariate Normal Distribution, Gibbs Sampler, Credibility Intervals

Contenido Resumen

VII

1. Introducci´ on

2

2. Metodolog´ıas en la construcci´ on de Intervalos de confianza caso Normal 2.1. Distribuci´on de Probabilidad Normal Bivariada y Multivariada . . . . . 2.2. Coeficiente de correlaci´on . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. M´etodo I: Basado en la transformaci´on Arco tangente . . . . . . 2.3.2. M´etodo II: Intervalo de la Raz´on de Verosimilitud . . . . . . . . 2.3.3. M´etodo III: Bootstrap . . . . . . . . . . . . . . . . . . . . . . . 2.3.4. M´etodo IV: Intervalo de Jeyaratnam . . . . . . . . . . . . . . . 2.3.5. M´etodo V: Test Generalizado para ρ . . . . . . . . . . . . . . .

Bivariada . . . 3 . . . 4 . . . 10 . . . 10 . . . 11 . . . 12 . . . 12 . . . 12

3. Resultados de la Simulaci´ on - Metodolog´ıa Cl´ asica I 3.1. Caso Normal Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14 14

4. Metodolog´ıa Bayesiana para la construcci´ on de Intervalos de 4.1. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . . 4.2. Intervalos Bayesianos o Intervalos de credibilidad . . . . . 4.3. Inferencias para el coeficiente de correlaci´on ρ . . . . . . . 4.3.1. Selecci´on de Distribuciones Apriori para ρ . . . . . 4.3.2. Obtenci´on de Distribuciones Aposteriori para ρ . .

37 37 38 38 39 42

Credibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

5. Resultados de la Simulaci´ on - Metodolog´ıa Bayesiana

47

6. Aplicaciones 6.1. Aplicaci´on Base de datos Huevos . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Aplicaci´on Base de Datos Vinos . . . . . . . . . . . . . . . . . . . . . . . . .

54 54 55

7. Conclusiones

57

8. Recomendaciones

58

3

Contenido

1

9. Anexos 9.1. Tablas de Resultados Metodolog´ıa Cl´asica . . 9.2. Inferencias para el coeficiente de correlaci´on ρ 9.2.1. Verosimilitud Simplificada . . . . . . . 9.2.2. Distribuciones condicionales . . . . . .

. . . .

59 59 63 63 65

. . . . .

67 67 72 73 76 77

. . . .

10.C´ odigos en R 10.1. Intervalos de Confianza parte cl´asica . . . . . . 10.2. Error cuadr´atico medio de los estimadores de ρ 10.3. Intervalo de confianza Bayesiano con la apriori 2 10.4. ´Indices de resumen . . . . . . . . . . . . . . . . 10.5. Construcci´on de Cl´ usters . . . . . . . . . . . . . Bibliograf´ıa

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

. . . .

. . . . .

78

1 Introducci´ on El coeficiente de correlaci´on es una de las medidas estad´ısticas de m´as uso dentro del trabajo aplicado. Algunas de sus propiedades fueron estudiadas por Zheng and Matis (1994), quienes presentan y demuestran algunas de sus propiedades. Debido a su amplia utilizaci´on, varias son sus interpretaciones. Falk and Well (1997) sustentan que el coeficiente de correlaci´on de Pearson, ρ, es ampliamente usado en campos como la educaci´on, psicolog´ıa, y todas las ciencias sociales, y el concepto es empleado en diversas metodolog´ıas de tipo estad´ıstico. La estimaci´on del coeficiente de correlaci´on por medio de intervalos es importante, y para ello se disponen de diversos m´etodos. La metodolog´ıa quiz´a m´as conocida es la propuesta originalmente por Fisher (1915) en la cual se realiza una transformaci´on del coeficiente de correlaci´on muestral, r, y asumiendo normalidad asint´otica, se desarrolla un intervalo para el coeficiente de correlaci´on poblacional ρ, (Krishnamoorthy and Xia, 2007). Tambi´en se conocen transformaciones adicionales hechas por Hotelling (1953) a la propuesta inicial de Fisher. La estad´ıstica bayesiana presenta a su vez metodolog´ıas para la construcci´on de intervalos de credibilidad para par´ametros distribucionales (Bernardo and Smith, 2000). El problema para el analista es la carencia de reglas sobre cu´al f´ormula es preferible. Para esto se pretende realizar un estudio de simulaci´on que permita analizar el comportamiento de los niveles de confianza reales y compararlos con los te´oricos de los diversos intervalos disponibles. As´ı como tambi´en, hacer una comparaci´on de las longitudes del intervalo obtenido por las diferentes metodolog´ıas y la implementaci´on de un indicador que permita relacionar los dos criterios de evaluaci´on anteriormente mencionados. Algunas de las metodolog´ıas empleadas para la construcci´on de los intervalos de confianza pueden encontrarse en: (Fisher, 1921), (Hotelling, 1953), (Pawitan, 2001), (Efron, 1979) y (Krishnamoorthy and Xia, 2007). Y para la construcci´on de los intervalos de credibilidad se emplean las distribuciones a priori de (McCullagh, 1989) y el kernel de la distribuci´on empleada por (Ghosh et al., 2010).

2 Metodolog´ıas en la construcci´ on de Intervalos de confianza caso Normal Bivariada 2.1.

Distribuci´ on de Probabilidad Normal Bivariada y Multivariada

Si se tiene una distribuci´on normal univariada, con media µ y varianza σ 2 , esta tendr´a la siguiente funci´on de densidad (Johnson and Wichern, 2007):

f (x) = √

1

1 (x−µ) 2 σ

e− 2 [

2πσ 2

];

−∞ < x < ∞

(2-1)

Una funci´on de densidad de una normal p−dimensional, para el vector aleatorio X 0 = [X1 , X2 , . . . , Xp ] tiene la forma:

f (x) =

1

e− p/2 1/2 (2π) |Σ|

(x−µ)0 Σ−1 (x−µ) 2

−∞ < xi < ∞;

(2-2) i = 1, 2, . . . , p

donde el vector µ ∈