Story Transcript
Análisis de Regresión Lineal
Fortino Vela ¨Peón
REVISION DE CONCEPTOS BÁSICOS Objetivos Introducir, de manera muy general, algunos de los conceptos matemáticos y estadísticos que se utilizan en el análisis de regresión.
La revisión no es rigurosa y no se dan pruebas debido a que existen diversos textos que hacen muy bien ese trabajo.
La revisión se basa en el apéndice A de Gujarati y Porter (2010).
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
INFERENCIA ESTADÍSTICA A.14 Estimación A menudo se conoce o se está dispuesto a suponer que una variable aleatoria X sigue una distribución de probabilidad particular pero no se conoce el valor del (los) parámetro(s) de la distribución. Para estimar las incógnitas, el procedimiento usual es suponer que se tiene una muestra aleatoria de tamaño n, de una distribución de probabilidad conocida, y utilizar a la información muestral para estimar los parámetros desconocidos. Esto se conoce como el problema de estimación. El problema de estimación puede dividirse en dos categorías: estimación puntual y estimación de intervalos.
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.1 Estimación puntual Sea X una v.a. con FDP f(x; θ ) , donde θ es el parámetro de la distribución (se puede suponer que sólo hay un parámetro desconocido; pero el análisis puede generalizarse). Suponga que se conoce la forma funcional —es decir, se conoce la FDP teórica, tal como la distribución t-pero no se conoce el valor de θ . Por consiguiente, se obtiene una muestra aleatoria de tamaño n para esta FDP conocida y luego se desarrolla una función de valores muéstrales, tal que
θˆ = f ( X 1 , X 2 , X 3 ,..., X n ) proporciona una estimación del verdadero θ . Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
θˆ se conoce como un estadístico o estimador y un valor numérico particular que tome el estimador se conoce como una estimación (obsérvese que θˆ puede ser tratada como una v. a. porque es una función de la información muestral). Un estimador es una regla o fórmula que indica la forma de encontrar el verdadero θ .
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.2 Estimación por intervalo En lugar de obtener solamente una estimación puntual de θ , se pueden obtener dos estimaciones de θ construyendo dos estimadores:
θˆ1 = f ( X 1 , X 2 , X 3 ,..., X n ) y θˆ2 = f ( X 1 , X 2 , X 3 ,..., X n ) y se señala con alguna confianza (es decir, probabilidad) que el
ˆ ˆ intervalo entre θ1 , y θ 2 incluye al verdadero θ . Por tanto, en la estimación por intervalo, en contraste con la estimación puntual, se proporciona un intervalo de posibles valores dentro de los cuales puede encontrarse el verdadero θ. El concepto clave implícito en la estimación de intervalos es la noción de muestreo, o de distribución de probabilidad, de un estimador. Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
Por ejemplo, si una variable X está normalmente distribuida, entonces la media muestral
distribuida con media
µ
X
también está normalmente
σ2 (la verdadera media) y varianza
n
,
donde n es el tamaño de la muestra.
En otras palabras, la distribución muestral (o de probabilidad), de 2 σ un estimador X es .X~ N(µ , ) n
Como resultado, se construye el intervalo:
X ± 2⋅
σ
n
y se dice que hay una probabilidad de aproximadamente 0.95, o 95%, de que intervalos como éste incluyan la verdadera media. Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
En general, en la estimación de intervalos se construyen dos estimadores θ1 , y θ 2 , ambos funciones de los valores muéstrales de X, de tal forma que
ˆ
ˆ
p(θˆ1 < θ < θˆ2 ) = 1- α Este intervalo se conoce como un intervalo de confianza de tamaño 1- α para θ , siendo 1- α el coeficiente de confianza (observe que a α se le conoce como nivel de significancia).
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.3 Métodos de estimación En términos generales, existen tres métodos de estimación de parámetros: 1) mínimos cuadrados ordinarios (MCO); 2) máxima verosimilitud (MV)y 3) método de los momentos (MEM), y su extensión el método generalizado de los momentos (MGM).
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.4 Propiedades de los estimadores Las propiedades estadísticas deseables de los estimadores se encuentran en dos categorías: propiedades de muestra pequeña o muestra finita y propiedades de muestra grande o asintóticas. En estos dos conjuntos de propiedades está implícita la noción de que un estimador tiene una distribución muestral o de probabilidad.
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.4.1 Propiedades de muestra pequeña 1. Insesgamiento. Se dice que un estimador θˆ es un estimador insesgado de θ si
E(θˆ) = θ . Por otra parte, se denomina sesgo(θ θ) a
E(θˆ) - θ ≠ 0 . Figura 3. Estimadores sesgados e insesgados
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
ˆ 2. Mínima varianza. Se dice que θ1 es un estimador de mínima varianza de θ si V (θˆ1 ) ≤ V (θˆ2 ) ˆ donde θ 2 es cualquier otro estimador de θ . Figura 4. Estimadores sesgados e insesgados
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
ˆ ˆ 3. Eficiencia (relativa). Si θ1 y θ 2 son dos estimadores insesgados de
θ y la varianza de θˆ1 es menor o igual que la varianza de θˆ2 , ˆ entonces θ1 es un estimador insesgado de mínima varianza, o mejor insesgado o eficiente.
ˆ ˆ Así, en la figura 4, de los dos estimadores insesgados θ1 , y θ 2 , el ˆ mejor insesgado o eficiente es θ1 . Figura 4. Mejor estimadores insesgados
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
4. Linealidad. Se dice que un estimador θˆ es un estimador lineal de θ si es una función lineal de las observaciones muéstrales. Así, por ejemplo, la media muestral definida como
1 n 1 X = ∑ X i = ( X 1 + X 2 + ... + X n ) n i =1 n es un estimador lineal porque es una función lineal de los valores de X.
En términos generales, existen tres métodos de estimación de parámetros:
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.14.4.2 Propiedades de muestra grande Con frecuencia sucede que un estimador no satisface una o más de las propiedades estadísticas deseables en muestras pequeñas. Pero, a medida que el tamaño de la muestra aumenta indefinidamente, el estimador posee diversas propiedades estadísticas deseables. Estas propiedades se conocen como propiedades de muestra grande, o propiedades asintóticas.
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
1. Insesgamiento asintótico
lim E(θˆ) = θ
2. Consistencia
lim p θˆ − θ < δ = 1 n →∞
n →∞
(
)
δ >0
p lim θˆ = θ n →∞
Figura 5. Consistencia de un estimador
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
3. Eficiencia asintótica. Sea θˆ un estimador de θ . La varianza de la distribución asintótica de θˆ se denomina varianza asintótica de θˆ . Si θˆ es consistente y su varianza asintótica es menor que la varianza asintótica de todos los demás estimadores consistentes de
θ , θˆ es llamado asintóticamente eficiente. 4. Normalidad asintótica. Se dice que un estimador θˆ está normalmente distribuido asintóticamente si su distribución muestral tiende a aproximarse a la distribución normal a medida que el tamaño n de la muestra aumenta de manera indefinida
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
Reglas sobre límite de probabilidad i)
Invarianza (propiedad de Slulsky). Si
θ
y si
h(θˆ)
θˆ
es un estimador consistente de
es cualquier función continua de
θˆ , entonces
plím h(θˆ) = h(θ ) . ii)
Si b es una constante, entonces
iii) Si
θˆ1 y θˆ2
plím b = b .
son estimadores consistentes, entonces
plim (θˆ1 + θˆ2 ) = plim (θˆ1 )+ plim(θˆ2 ) plim (θˆ ⋅ θˆ ) = plim (θˆ ) plim(θˆ ) 1
2
1
2
θˆ1 plim (θˆ1 ) plim ( ) = θˆ2 plim(θˆ2 )
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.15 Contraste de hipótesis La estimación y la prueba de hipótesis constituyen ramas gemelas de la inferencia estadística clásica. El problema de prueba de hipótesis puede plantearse de la siguiente manera: supóngase que se tiene una v. a. X con una FDP conocida f(x; θ ) , donde θ es el parámetro de la distribución. Después de obtener una muestra aleatoria de tamaño n, se obtiene el estimador puntual θˆ . Puesto que el verdadero θ
raramente se conoce, se plantea la
pregunta: ¿es "compatible" el θˆ con algún valor de θ ? En otras palabras, ¿puede nuestra muestra provenir de FDP f(x; θ ) ?
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.15 Elementos de un contraste de hipótesis: el enfoque clásico
1. Determinación de las hipótesis. En el lenguaje de pruebas de * hipótesis, θ = θ
se denomina la hipótesis nula (sostenida) y
generalmente se denota por H 0 . La hipótesis nula se contrasta contra una hipótesis alterna, denotada por H 1 . 2. Nivel de significancia. Cuando se lleva a cabo un contraste de hipótesis es posible que se cometan dos tipos de errores: i) se puede rechazar Ho cuando ésta es, en realidad, cierta; éste se denomina un error tipo I; y ii) también es posible rechazar H0 cuando, en realidad, es falsa; este error se llama error tipo II. Estado de la naturaleza H0 es Decisión H0 es falsa verdadera Rechazar Error tipo I No hay error No rechazar No hay error Error tipo II Agosto, 2012
α=p(error tipo I) β=p(error tipo II) Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
Sería deseable minimizar los errores tipo I y tipo II. Pero, desafortunadamente, para cualquier tamaño de muestra dado, no es posible minimizar ambos errores de manera simultánea. 3. Estadístico de prueba. Indicador que reúne toda la información contenida en la muestra, y que sirve de evidencia para considerar si H0 se rechaza o no. Su forma depende del θ sobre el cual se lleva a cabo el contraste, la distribución muestral de ese θ y, en ocasiones, el tamaño de la muestra n. 4. Regla de decisión (o determinación de la región de rechazo). Considerando la distribución de muestreo de θˆ es posible establecer una regla o formula que suele denominarse regla de decisión. Esta regla delimita la región(es) de aceptación y el (las) área(s) por fuera de la región de aceptación –a las que se les denomina(n) región(es) crítica(s), o región(es) de rechazo de la hipótesis nula. Los límites inferior y superior de la región de aceptación (que la delimitan con las regiones de rechazo) se denominan valores críticos. La situación se ilustra geométricamente en la figura 6. Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
Figura 6. Intervalos de confianza y regla redecisión de un contrate de hipótesis
5. Decisión estadística e interpretación del resultado. Al comparar al estadístico de prueba (EP) con la regla de decisión se puede llegar a la decisión estadística: rechazar o no a H0.
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.16 Elementos de un contraste de hipótesis: el enfoque basado en el valor p En lugar de preseleccionar a α en niveles arbitrarios, tales como 0.01, 0.05 o 0.10, se puede obtener el valor p (probabilidad), o nivel exacto de significancia de un estadístico de prueba. El valor p está definido como el más bajo nivel de significancia al cual puede rechazarse una hipótesis nula. Diversos paquetes estadísticos imprimen el valor p de los estadísticos de prueba estimados. Por consiguiente, se aconseja al lector dar el valor p siempre que sea posible.
Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.17 Tamaño de la muestra y pruebas de hipótesis En datos provenientes de encuestas que comprenden cientos o miles de observaciones, la hipótesis nula se rechaza, al parecer con mayor frecuencia que en las muestras pequeñas. Deaton (2000) señala al respecto lo siguiente1/: “That classical procedures can generate uncomfortable results as the simple size increases is something that is often expressed informally by practitioners, and the phenomenon has been given an excellent treatment by Leamer (1978, pp. 100-120), and it is on this discussion that following is based. The effect most noted by empirical researches is that null hypothesis seems to be more frequently rejected in large samples than in small.”
1/ Deaton, Angus (2000). The analysis of household survey: A microeconomic approach to development policy, Johns Hopkins University Press, Baltimore, p. 130. Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
Nada incorrecto ocurre en el procedimiento de contraste de hipótesis, señala Deaton. Por el contrario2/: “A medida que el tamaño de muestra aumenta, y siempre que se siga un procedimiento de estimación consistente, las estimaciones se aproximarán más a la verdad y están menos dispersos alrededor de ésta, de modo de que las discrepancias que no pueden detectarse en una muestra de tamaño pequeño provocan rechazo en muestras grandes. Las muestras de tamaño grande son como un poder mayor de resolución en un telescopio; las características que no son visibles a la distancia se vuelven cada vez más nítidas a medida que aumenta la amplificación.”
1/ Citado en Gujarati y Porter (2010: 835). Agosto, 2012
Depto. de Producción Económica, UAM-X
Análisis de Regresión Lineal
Fortino Vela ¨Peón
A.17.1 Valores críticos Leamer-Schwarz Tomando en cuenta las ideas de Leamer y Scwartz, Deaton propone ajustar los valores críticos estándar de las pruebas F y χ2 como sigue: Rechace H0: - cuando Fc > ln (n) 2 χ - cuando q > q ⋅ ln (n)
donde ln= logaritmo natural n= tamaño de la muestra q= # restricciones
Agosto, 2012
Depto. de Producción Económica, UAM-X