Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Estad´ıstica y sus aplicaciones en Ciencias Sociales 7. El modelo de regresi´on simple Facultad de Ciencias Sociales - UdelaR ´Indice 7.1 Introduc

2 downloads 76 Views 735KB Size

Story Transcript

Estad´ıstica y sus aplicaciones en Ciencias Sociales 7. El modelo de regresi´on simple

Facultad de Ciencias Sociales - UdelaR

´Indice

7.1 Introducci´on 7.2 An´alisis de regresi´ on 7.3 El Modelo de Regresi´ on Lineal Simple 7.4 M´etodos de estimaci´ on 7.5 Propiedades algebraicas de los estimadores

7.1 Introducci´on: ¿Qu´e es la econometr´ıa?

I

La econometr´ıa es la ciencia que aplica m´etodos matem´aticos y estad´ısticos de an´alisis de datos con el objetivo de dotar de una base emp´ırica a una teor´ıa social (en particular econ´omica).

I

La metodolog´ıa aplicada en econometr´ıa no ha sido utilizada exclusivamente por la ciencia econ´ omica.

I

El principal problema que tienen las ciencias sociales es que la mayor parte de los datos son no experimentales, siendo mucho m´as compleja su recolecci´ on.

I

Metodolog´ıa: 1. Contar con una teor´ıa social (o econ´ omica) que requiera validez y su equivalente modelo econom´etrico. 2. Tener datos de la realidad que permitan estimar dicho modelo para contrastarlo. 3. Realizar inferencia o pruebas de hip´ otesis que nos permitan determinar si nuestros resultados son estad´ısticamente significativos.

I

Si la respuesta es afirmativa podremos realizar recomendaciones de pol´ıticas asociadas.

Metodolog´ıa aplicada Teoría Social (Económica) Modelo Econométrico

Ecuación

Datos

Supuestos

Estimación

Inferencia y prueba de hipótesis



Predicciones y recomendaciones de política

No

7.2 An´alisis de regresi´on: ¿Qu´e es una regresi´on?

I

En una regresi´on buscamos un modelo para representar la dependencia de una variable respuesta, y , respecto a otra variable explicativa, x.

I

El objeto es el de estimar el promedio poblacional de la variable dependiente condicionando los valores de la variable explicativa.

Ingresos y educaci´on 3000

2500

Salario por hora

2000

1500

1000

500

0 6

7

8

9

10 11 Años de educación formal

12

13

14

15

I

Para cada a˜ no de educaci´ on formal tenemos un rango o distribuci´on de salario por hora y el promedio del salario aumenta a medida que se incrementan los a˜ nos de educaci´on.

I

Si trazamos una recta que tome los valores promedio de salario para cada a˜ no de educaci´ on observamos este hecho.

I

La recta corresponde a la recta de regresi´ on y nos permite predecir para cada a˜ no de educaci´ on formal el salario promedio correspondiente.

Regresi´on vs. Causalidad

I

La regresi´on es una relaci´ on estad´ıstica y no implica causalidad a priori.

I

Una relaci´on estad´ıstica no puede por s´ı misma implicar en forma l´ogica una causalidad.

Regresi´on vs. Correlaci´on I

El an´alisis de correlaci´ on est´a estrechamente ligado al de regresi´on, aunque conceptualmente son cosas muy diferentes.

Correlaci´on: I

mide el grado de asociaci´ on lineal entre dos variables,

I

las variables son tomadas de forma sim´etrica.

Regresi´on: I

estimamos el valor promedio de una variable dependiente , y , dada una variable explicativa, x,

I

las variables son tratadas de forma asim´etrica: y es la variable aleatoria de inter´es y x es la variable aleatoria que puede influir en y .

Precauciones I

El coeficiente de correlaci´ on mide una relaci´ on lineal

I

Correlaci´on no implica causalidad, es s´ olo una relaci´on estad´ıstica

I

Correlaci´on puede indicar una relaci´ on espuria.

El an´alisis de correlaci´ on puede ayudarnos a determinar la ecuaci´on de estimaci´on y si ´esta realmente describe su verdadero comportamiento.

7.3 El Modelo de regresi´on lineal simple

I

Sean y y x dos variables que representan una poblaci´on.

I

Estamos interesados en explicar y en t´erminos de x o estudiar c´omo var´ıa y ante cambios en x.

I

Al crear un modelo que “explique y en t´erminos de x” tenemos varios problemas: 1. Dado que no existe una relaci´ on exacta entre dos variables: ¿c´ omo tomamos en cuenta otros factores que alteran a y ? 2. ¿Cu´al es la relaci´ on funcional entre y y x? 3. ¿C´ omo nos aseguramos de capturar una relaci´on ceteris paribus entre y y x (si eso queremos)?

7.3.1 El MRL Consideremos la siguiente ecuaci´ on que relaciona y con x de la siguiente forma: y = β0 + β1 x + u (1) Esta es una representaci´ on del modelo de regresi´ on lineal simple, de dos variables o bivariada. I

y se la denomina variable dependiente, explicada, de respuesta, predicha, o regresando.

I

x se la denomina variable independiente, explicativa, de control, predictora, o regresor.

I

La variable u, denominada t´ermino de error o perturbaci´on de la relaci´on, representa los factores, aparte de x, que influyen en y .

I

β0 es la magnitud que no es explicada por la variable dependiente

I

β1 es el par´ametro de la pendiente de la relaci´on entre x e y si se mantienen fijos en u los otros factores, o sea ∆u = 0: ∆y = β1 ∆x

si

∆u = 0

(2)

I

β1 tambi´en muestra la dependencia lineal (o correlaci´on) entre la variable dependiente e independiente.

I

Un cambio de una unidad en x tiene el mismo efecto en y cualquiera que sea el valor inicial de x.

Ejemplo: Salarios y educaci´on I

Este modelo relaciona el salario de una persona con la educaci´on observada y otros factores no observados. salario = β0 + β1 educ + u

I

salario se mide en pesos por hora y educ corresponde a la cantidad de a˜ nos de educaci´ on formal.

I

β1 mide el cambio en el salario por hora cuando se introduce un a˜ no de formaci´ on adicional, manteniendo todos los dem´as factores fijos.

I

Entre los dem´as factores se incluyen la experiencia en el trabajo, la habilidad innata, la antig¨ uedad en el empleo actual, etc.

7.3.2 Supuesto fundamental del MRL I

Para poder obtener conclusiones de como afecta x a y debemos establecer alg´ un supuesto de c´ omo se relacionan u y x.

I

Dado que u y x son variables aleatorias, podemos definir la distribuci´on condicional de u dado cualquier valor de x.

I

En particular, para cualquier x, podemos obtener el valor esperado (o promedio) de u.

I

El supuesto crucial es que el valor promedio de u no depende de x (media condicional cero). E (u|x) = 0

(3)

Este supuesto significa que para cualquier x, el promedio de los factores inobservables es el mismo e igual al promedio de u para toda la poblaci´on. I

Ejemplo salario y educ: si u es la habilidad innata, que se cumpla (3) implica que el nivel de habilidad medio de la poblaci´on es el mismo para todos los niveles educativos. Si pensamos que la habilidad media de las personas aumenta con los a˜ nos de educaci´ on (3) es falso.

I

Una consecuencia de este supuesto es: E (y |x) = E (β0 + β1 x + u|x) = β0 + β1 x

I

Como observamos en el gr´afico de la p´agina 7 el salario por hora es diferente para individuos con el mismo nivel educativo.

I

Tambi´en observamos que en promedio, el salario se incrementa con educ.

I

La uni´on de los valores esperados del salario condicionados a los a˜ nos de educaci´ on representa la funci´ on de regresi´ on poblacional (FRP): E (y |x) = β0 + β1 x

I

El t´ermino poblacional refiere a que estamos trabajando con toda la poblaci´on.

I

La FRP la vamos a conocer en casos excepcionales, ya que rara vez vamos a tener datos de toda la poblaci´on.

I

La FRP es una funci´ on lineal de las x E(y|x) = β0 + β1x . u4 {

y y4

y3 y2

y1

u {. 2

.} u1 x1

I

.} u3

x2

x3

x4

x

La linealidad significa que un aumento de una unidad en x cambia el valor esperado de y en la cantidad β1 .

7.3.3 Consecuencias del supuesto fundamental E (u|x) = 0

E (u) = 0

I

se obtiene de integrar E (u|x) para todo el recorrido de x, como para todo valor de x es igual a cero, integrar 0 arroja el valor esperado de u igual a cero. Cov (u, x) = E [u − E (u)]E [x − E (x)] = E (ux) = 0

I

(4)

dado que el valor esperado de u no depende de x, no est´an correlacionadas y su covarianza es cero.

(5)

7.4 M´etodos de estimaci´on

Los m´etodos que tenemos para estimar c´ omo influye una variable dependiente sobre una independiente suelen ser: 7.4.1 M´etodo de Momentos 7.4.2 M´ınimos Cuadrados Ordinarios Existen otros m´etodos de estimaci´ on que exceden los objetivos de este curso.

7.4.1 M´etodo de Momentos La estimaci´on de los par´ametros del modelo a partir del m´etodo de momentos consiste en utilizar los momentos correspondientes a los errores: E (u) = E [y − β0 − β1 x] = 0 E (xu) = E [x(y − β0 − β1 x)] = 0

I

Estas ecuaciones implican dos restricciones en la distribuci´on conjunta de x e y en la poblaci´ on.

I

Dado que hay dos par´ametros desconocidos (β0 , β1 ) y dos ecuaciones que cumplen con la condici´ on podemos identificarlos.

I

Consideremos una muestra de tama˜ no n: {yi , xi } con i = 1, 2, ..., n, extra´ıda aleatoriamente de la poblaci´on.

I

Buscamos estimar los par´ametros β0 y β1 que provienen del MRL, por lo que podemos establecer: yi = β0 + β1 xi + ui

I

Dada la muestra de datos, elegimos los valores estimados de βˆ0 y βˆ1 para resolver las contrapartidas muestrales: n

1X [yi − βb0 − βˆ1 xi ] = 0 n i=1

n 1X

n

i=1

[xi (yi − βb0 − βˆ1 xi )] = 0

I

Desarrollando la primera ecuaci´ on se obtiene: n n n 1X βb0 X βb1 X yi − 1− xi = 0 n n n i=1

I

I

i

Que se puede escribir como: y − βb0 − βb1 x = 0

i

(6)

Una vez que tenemos el estimador de la pendiente βb1 es f´acil obtener el de la ordenada al origen βb0 , dados los promedios muestrales y y x. βb0 = y − βb1 x (7)

I

Sustituyendo (7) en la segunda ecuaci´ on de las contrapartidas muestrales, se obtiene: n

1X xi (yi − (y − βb1 x) − βb1 xi ) = 0 n i=1

I

lo que reordenando da: n X i=1

xi (yi − y ) = βb1

n X i=1

xi (xi − x)

I

Dado que: n n X X yi − nxy = nxy − nxy = 0 (xyi − xy ) = x i=1

i=1 I

y que: n X

(xxi − x 2 ) = x

Podemos sumar cero en la primer sumatoria: n X

xi (yi − y ) =

i=1 I

xi − nx 2 = nx 2 − nx 2 = 0

i=1

i=1 I

n X

n X

(xi yi − xi y − xyi + xy ) =

i=1

n X

(xi − x) (yi − y )

i=1

Y sumar cero a la segunda sumatoria: n X i=1

xi (xi − x) =

n X i=1

n  X (xi − x)2 xi2 − xi x − xi x + x 2 = i=1

Estimador de la pendiente

I

El estimador de la pendiente es: Pn (xi − x) (yi − y ) b β1 = i=1 Pn 2 i=1 (xi − x)

(8)

I

El estimador de la pendiente es igual a la covarianza muestral entre x e y , dividida por la varianza muestral de las x (siempre positiva).

I

b Si la covarianza Pnentre x e y2 es positiva, β1 ser´a positivo. Se requiere que i=1 (xi − x) > 0

I

I

La “l´ınea de regresi´ on” o funci´ on de regresi´ on muestral b b (FRM) es la recta ajustada yb = β0 + β1 x. En el gr´afico se representa con los puntos muestrales y los residuos. Diferentes muestras generar´an diferentes rectas estimadas.

.

y4

û4 {

y = β 0 + β1 x y3 y2

y1

û2 { .

.} û1 x1

I

.} û3

x2

x3

x4

x

El objetivo del an´alisis de regresi´ on es estimar la FRP en base a la FRM.

7.4.2 M´ınimos cuadrados ordinarios

I

Podemos pensar a cada observaci´ on como compuesta de un parte explicada y una parte inexplicada: yi = ybi + ubi

I

Los MCO descomponen cada observaci´ on i en dos partes, un valor ajustado ybi y un residuo ubi . El residuo ubi es conceptualmente diferente del error.

I

El residuo de la observaci´ on i lo podemos escribir como: ubi = yi − ybi = yi − βb0 − βb1 xi

I

Si queremos que la FRM sea lo m´as cercana posible a la FRP, debemos tratar de elegir los coeficientes de regresi´on de tal forma que los residuos sean lo m´as peque˜ nos posibles.

I

De acuerdo a esto un criterio para escoger la FRM podr´ıa ser la de minimizar la suma de los residuos al cuadrado: n X i=1

I

I

ubi2

n n X X 2 = (yi − ybi ) = (yi − βb0 − βb1 xi )2 i=1

(9)

i=1

Se realiza la minimizaci´ on de los cudarados para penalizar m´as a los errores de las observaciones que se desv´ıan de la FRP. De esta forma, elP m´etodo de MCO elige βˆ0 y βˆ1 tal que para la muestra dada ni=1 ubi2 sea lo m´as peque˜ na posible.

I

Para resolver el problema de MCO se minimiza la ecuaci´on (9), obteni´endose las siguientes condiciones de primer orden: ∂

Pn



∂ βb0 Pn

bi2 i=1 u

bi2 i=1 u

∂ βb1

= −2 = −2

n X [yi − βb0 − βb1 xi ] = 0 i=1 n X

[xi (yi − βb0 − βˆ1 xi )] = 0

i=1

I

Que son las mismas ecuaciones que obten´ıamos del m´etodo de momentos, por lo que los estimadores de la pendiente y el intercepto son los mismos que por el m´etodo anterior.

I

Por lo tanto: MCO βb0

M´ etodo de Momentos = βb0

MCO βb1

M´ etodo de Momentos = βb1

Ejemplo: Ingreso y consumo Intentaremos estimar la siguiente relaci´ on entre consumo privado e ingreso disponible: C = β0 + β1 YD + u A˜ nos 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 Promedio:

Consumo privado (Y ) 672.1 696.8 737.1 767.9 762.8 779.4 823.1 864.3 903.2 927.6 793.4

Ingreso disponible (X ) 751.6 779.2 810.3 864.7 857.5 874.9 906.8 942.9 988.8 1015.7 879.2

Ejemplo: se pide 1. Estimar la relaci´on entre C e YD empleando MCO, es decir, obtener los valores estimados del t´ermino constante y de la pendiente. P1979 i=1970 (xi − x)(yi − y ) βˆ1 = P1979 2 i=1970 (xi − x) βˆ0 = y − βˆ1 x 2. Comentar la direcci´ on de la relaci´ on. ¿El t´ermino constante se presta a una interpretaci´ on u ´til en este caso? Explicar la respuesta. 3. Si el ingreso disponible asciende a 970 d´ olares en 1980, ¿cu´al ser´a el consumo proyectado? 4. Calcular los valores ajustados y los residuos para cada observaci´on y comprobar que los residuos suman (aproximadamente) cero.

Interpretaci´on de la regresi´on

I

Cuando el ingreso disponible es 0, el consumo es menor a cero. Esto no tiene sentido, lo que sucede es que esta muestra es muy peque˜ na y la ecuaci´ on de regresi´ on no tiene muy buenos resultados para niveles de ingreso disponible muy bajos.

I

El valor estimado de la pendiente indica que con un peso m´as de ingreso disponible se incrementa en 0.98 pesos el consumo.

I

¿Cu´anto es el consumo predicho si el ingreso disponible se duplica? 4b y = βb1 4x ⇒ 4Cb = 0,9793 × 2 = 1,959

Efecto de la muestra en la estimaci´on de los par´ametros 1000

950 y = 0.9793x - 67.581 900

Consumo privado

y = 0.8632x + 39.12 850 FRM2

800

FRM1 Lineal (FRM2)

750

Lineal (FRM1)

700

650

600 720

770

820

870 920 Ingreso disponible

970

1020

1070

7.5 Propiedades algebraicas de los estimadores MCO I

La suma y la media muestral de los residuos MCO es nula: n X

ubi = 0

(10)

i=1 I

La covarianza muestral entre los regresores y los residuos MCO es nula: n X xi ubi = 0 (11) i=1

I

El punto (y , x) siempre pasa por la regresi´ on MCO. yb = βb0 + βb1 x = yb

(12)

7.5.1 Definiciones: Medidas de variaci´on de la variable dependiente 1. Suma de los cuadrados totales: SCT ≡

n X (yi − y )2

(13)

i=1

2. Suma explicada de los cuadrados: SEC ≡

n X

(ybi − y )2

(14)

i=1

3. Suma de los cuadrados de los residuos: SCR ≡

n X i=1

2

ubi =

n X i=1

(yi − yb)2

(15)

La SCT la podemos expresar como: SCT

=

n X

(yi − y )2

i=1

=

n X

[(yi − ybi ) + (ybi − y )]2

i=1

= =

n X i=1 n X

[ubi + (ybi − y )]2 ubi 2 +2

n X

ubi (ybi − y ) +

i=1

|i=1{z } = SCR + 2

n X

n X (ybi − y )2

|i=1 {z ubi (ybi −y ) +

SEC

i=1

| = SCR + SCT

= SCR + SEC

{z 0

} +

SEC

}

7.5.2 Bondad de ajuste

I

¿Qu´e tan bien se ajusta a los datos de nuestra muestra la l´ınea de regresi´on muestral?

I

Se puede calcular la fracci´ on de la suma de cuadrados total (SCT) explicada por el modelo, a la que se llama R-cuadrado de la regresi´on o coeficiente de determinaci´ on: R2 =

I

SCR SEC =1− SCT SCT

Se interpreta como la fracci´ on o porcentaje de la variaci´on muestral de y que es explicada por x.

Comentarios sobre R 2 I

R 2 ∈ [0, 1] I

I

I

Si R 2 = 0 es porque β1 es cero, menos el t´ermino constante, la FRM va a ser una recta horizontal. En este caso el valor predicho de y es y , ya que desviaciones de x respecto a su media no se traducen en una predicci´ on diferente para y . x no tiene poder explicativo en y . Si R 2 = 1 ocurre si los valores de x y y est´an todos en el mismo hiperplano (en una l´ınea recta) por lo que los residuos son cero.

Es posible demostrar que R2 es igual al cuadrado del coeficiente de correlaci´ on muestral entre yi y ybi . De aqu´ı procede el t´ermino.

I

Obtener un R2 elevado no implica que el modelo es apropiado ni que las estimaciones de los coeficientes son buenas.

I

Obtener un R2 bajo no implica que el modelo es inapropiado ni que las estimaciones de los coeficientes son malas.

I

Depende de la construcci´ on de nuestro modelo y de las preguntas que deseamos responder con ´el.

7.5.3 Valor esperado y varianza de los estimadores MCO

Supuesto RLS1 (linealidad de los par´ametros) I

Supongamos que el modelo en la poblaci´ on es lineal en los par´ametros como en y = β0 + β1 x + u

Supuesto RLS2 (muestreo aleatorio) I

Supongamos una muestra aleatoria de tama˜ no n, {(yi , xi ), i = 1, 2, ...n}, del modelo poblacional. Entonces se puede escribir el modelo como: yi = β0 + β1 xi + ui ,

i = 1, 2, ...n

Supuesto RLS3 (Media condicionada nula) I

Supongamos E (u|x) = 0 y por tanto E (ui |xi ) = 0.

Supuesto RLS4 (Variaci´ on muestral de la variable independiente) I

Supongamos que hay variaci´ on en las xi (no son todas iguales a una constante).

Comentario: I

Los estimadores MCO son funciones de las observaciones xi , yi . Las propiedades estad´ısticas de los estimadores de MCO son condicionales a los valores muestrales de las xi . Es como tratar las xi como fijas en muestras repetidas.

I

La posibilidad de muestras repetidas no es muy realista en los contextos no experimentales. Consecuencia: es necesario prestar particular atenci´ on a la posible correlaci´on entre las x y las u y a las razones por las que esto puede suceder.

Insesgamiento: E (βbi ) = βi E (βb1 ) = β1

E (βb0 ) = β0

I

El condicionamiento en los valores muestrales de la variable independiente permite tomar a las funciones de las xi como no aleatorias.

I

Los estimadores MCO de los par´ametros β1 y β0 son entonces insesgados.

I

Recordar que insesgamiento es una descripci´ on del estimador – en cada muestra podemos estar “cerca” o “lejos” del par´ametro verdadero.

Demostraci´on insesgamiento para β1 Sabemos que: Pn (x − x)(yi − y ) i=1 b Pn i β1 = (xi − x)2 Pn i=1 (xi − x)yi = Pi=1 n (xi − x)2 Pni=1 i − x)(β0 + β1 xi + ui ) i=1 (xP = n 2 i=1 (xi − x) Pn P P β0 i=1 (xi − x) + β1 ni=1 (xi − x)xi + ni=1 (xi − x)ui Pn = (xi − x)2 Pni=1 Pn β1 i=1 (xi − x)2 (xi − x)ui β0 × 0 = Pn + Pn + Pi=1 n 2 2 2 (xi − x) (xi − x) i=1 (xi − x) | i=1 {z } | i=1 {z } Pn (xi − x)ui = 0 + β1 + Pi=1 n 2 i=1 (xi − x)

Por lo tanto: Pn

xu − i=1 Pni i i=1 (xi

βb1 = β1 +

P x ni=1 ui − x)2

(16)

Tomando valor esperado, condicional en las observaciones:  Pn

E (βb1 |x) = E (β1 |x) +E | {z } =

β1

+

P  xi ui − x ni=1 ui i=1 Pn |x 2 i=1 (xi − x) P P E ( ni=1 xi ui | x) E ( ni=1 ui Pn P −x n 2 i=1 (xi − x) i=1 (xi − |

=

β1

=

β1

+

{z 0

Es posible demostrar que E (βb0 |x) = β0

} | +

{z 0

| x) x)2 }

Comentarios sobre el insesgamiento

I

El insesgamiento es una caracter´ıstica de las distribuciones muestrales de βˆ1 y βˆ0 , que no dice nada sobre el valor estimado que obtenemos para una muestra determinada. Si la muestra que obtenemos es “t´ıpica”, el valor estimado se “aproxima” al valor poblacional.

I

Si el RLS3 no se cumple, obtendremos estimadores sesgados de los par´ametros poblacionales.

I

Las estimaciones sesgadas nos podr´ıan llevar a recomendaciones de pol´ıtica que no son correctas.

Varianza de los estimadores MCO I

Sabemos que la distribuci´ on en el muestreo de nuestro estimador est´a centrada en el par´ametro. Quisi´eramos saber qu´e tan dispersa es ´esta distribuci´ on.

I

Supuesto RLS5 (Homoscedasticidad) Var (u|x) = E [u − E (u)|x]2 = E [u 2 |x] = σ2

I

Este supuesto establece que la variaci´ on alrededor de la recta de regresi´on es la misma para todos los valores de x. Esto implica que la funci´ on de densidad del t´ermino de error u es la misma.

Caso homosced´astico: Var (u | x) no depende de x

y f(y|x)

. x1

x2

. E(y|x) = β + β x 0

1

Varianza muestral de βb0 y βb1

I

Se puede demostrar que: σ2 σ2 = 2 nVar (x) i=1 (xi − x) P P σ2 n x 2 σ2 n x 2 Var (βb0 |x) = Pn i=1 i 2 = 2 i=1 i n i=1 (xi − x) n Var (x) Var (βb1 |x) = Pn

(17)

(18)

Varianza muestral del error

I

No conocemos la varianza del error, σ 2 , ya que no observamos los errores, ui , sino los residuos, ubi .

I

Residuos y errores son diferentes: ui ubi

= yi − β0 − β1 xi = yi − βb0 − βb1 xi

I

Los errores lo obtenemos de los par´ametros poblacionales y por tanto, nunca son observables.

I

Los residuos se obtienen de los par´ametros muestrales.

I

Con los residuos es posible realizar una estimaci´on de la varianza del error. ubi = yi − ybi = ui + β0 + β1 xi − βb0 − βb1 xi

I

Reordenando obtenemos: ubi − ui = (βb0 − β0 ) − (βb1 − β1 )xi

I

Si bien el valor esperado de la diferencia entre error y residuo es cero, no ocurre lo mismo con la diferencia simple.

I

Como E (u 2 ) = σ 2 , es natural intentar σ 2 a partir de Pnestimar 2 la suma de los residuos al cuadrado, i=1 ubi .

I

Un estimador de σ 2 ser´ıa: 2

σ b =

Pn

2 i=1 ui

n

I

El problema es que no observamos ui , sino que lo debemos estimar con ubi .

I

Es posible demostrar que el estimador insesgado de σ 2 es: Pn ubi 2 σ b2 = i=1 (19) n−2

Estimaci´on de la varianza del error

I

El estimador insesgado de σ 2 no es simplemente el promedio de los residuos al cuadrado, sino que su denominador est´a “corregido por los grados de libertad”.

I

El P denominador no es n sino (n − 2) porque E ( ni=1 ubi2 ) = (n − 2)σ 2 .

I

La divisi´on por (n − 2) lleva a que σ b2 sea insesgado para σ 2 . √ b2 . El estimador natural de σ es σ b= σ

I

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.