REGRESION LINEAL SIMPLE. = α + β + ε. y = α + β x

REGRESION LINEAL SIMPLE FORMULARIO Jorge Galbiati Riesco Modelo de Regresión Lineal Simple y = α+βx + ε en que α y β son fijos, ε es una variable a

Author: Manuel Paz Alcaraz

1 downloads 63 Views 46KB Size

Report

DOWNLOAD PDF

Recommend Stories

REGRESION LINEAL SIMPLE

REGRESION LINEAL SIMPLE Jorge Galbiati Riesco Se dispone de una mustra de observaciones formadas por pares de variables: (x1, y1) (x2, y2) .. (xn, yn

Regresión lineal simple

Regresión lineal simple _______________________________________________________ 1.-Introducción 2.- Regresión simple. Gráficos 3.- Ecuación de regres

Regresión lineal simple

1 Índice Regresión lineal simple José Gabriel Palomo Sánchez [email protected] E.U.A.T. U.P.M. Julio de 2011 Índice Índice I 1 El problem

ANALISIS DE REGRESION LINEAL CON ERRORES DISTRIBUIDOS NORMAL SESGADOS

CORRELACION Y REGRESION

CORRELACION Y REGRESION Jorge Galbiati Riesco Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1), (x2, y2), .. , (xn

Regresi6n simple. Introducci6n. Esquema del capitulo. y= f(x)

Regresi6n simple / Esquema del capitulo 12.1. Analisis de correlacion Contraste de hipotesis de la correlacion 12.2. Modelo de regresion lineal 12.3.

(X, y) = {[x}. (x, y}}

PAST SIMPLE (PASADO SIMPLE)

Y = ßo + ß1X + ε. La función de regresión lineal simple es expresado como:

1 Regresión Lineal Simple Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es una línea recta, se tiene una regre

TEMA 6 EL LINEAL. 6.2 Análisis del lineal. 6.1 Definición y funciones del lineal. 6.1 Definición y funciones del lineal

6.1 Definición y funciones del lineal TEMA 6 EL LINEAL Getafe, 27 de febrero de 2009 H. salen: “El lineal se puede definir como todo el espacio de

Story Transcript

REGRESION LINEAL SIMPLE FORMULARIO

Jorge Galbiati Riesco

Modelo de Regresión Lineal Simple

y = α+βx + ε en que α y β son fijos, ε es una variable aleatoria con esperanaza E(ε) = 0 y 2

varianza V(ε) = σ2 fija. Los parámetros del modelo son α , β y σ .

x representa la variable independiente, que toma valores fijos determinados por el experimentador. y es la variable dependiente, que es aleatoria por depender de ε. El valor esperado de y dado algún valor x de x, es

y = α+βx que se denomina recta de regresión.

α es el intercepto de la recta con el eje de las y. β es la pendiente de la recta. Para estimar los parámetros del modelo, se dispone de una muestra de n pares (xi,yi), i=1,2,...,n, que corresponden a observaciones de un experimento en que el experimentador asignó valores arbitrarios a la variable independiente x y observó los correspondientes resultados de la variable y, que supone se comporta de acuerdo al modelo de regresión lineal simple. En tal caso las observaciones obedecen a la relación

y i = α + β ⋅ xi + ε i

i=1,2,...,n

en que los ei son variables aleatorias independientes, con igual distribución, media 0 y varianza común σ2. Se denominan errores.

1

Estimadores mínimo cuadráticos de los parámetros 2 Los estimadores de α, β y σ , son, respectivamente, a, b y σ) 2 , en que

a = y −b⋅x b=

σ) 2 = en que x =

S yy − b ⋅ S xy

S xy S xx =

n−2

S xy2 ⎞ 1 ⎛⎜ ⎟ S yy − n − 2 ⎜⎝ S xx ⎟⎠

1 n 1 n xi e y = ∑ y i son los promedios de las x y de las y, ∑ n i =1 n i =1

respectivamente. 2

S xx

1⎛ n ⎞ = ∑ x − ⎜ ∑ xi ⎟ n ⎝ i =1 ⎠ i =1

S yy

1⎛ n ⎞ = ∑ y − ⎜ ∑ yi ⎟ n ⎝ i =1 ⎠ i =1

n

2 i

n

2

2 i

n 1⎛ n ⎞ ⎛ n ⎞ S xy = ∑ xi ⋅ y i − ⎜ ∑ xi ⎟ ⋅ ⎜ ∑ y i ⎟ n ⎝ i =1 ⎠ ⎝ i =1 ⎠ i =1

Recta de regresión ajustada o recta de regresión estimada

yˆ = a + bx las observaciones ajustadas están dadas por

yˆ i = a + bxi

i = 1,2,...,n

Residuos Son las diferencias entre los valores observados y los valores ajustados de la variable independiente y

ei = y i − yˆ i = y i − a − b ⋅ xi

i = 1,2,...,n

Varianza estimada del error n S yy − b ⋅ S xy S xy2 ⎞ 1 ⎛⎜ ) 2 2 ⎟ = σ = ∑ ei = S yy − ⎜ ⎟ − − n 2 n 2 S i =1 xx ⎠ ⎝

2

en que los ei son las diferencias entre los valores observados y los valores ajustados de la variable independiente y

ei = y i − yˆ i = y i − a − b ⋅ xi

i = 1,2,...,n

y son los residuos.

σ) 2 es un estimador insesgado de la varianza de los errores ε i del modelo de regresión lineal simple. Valores esperados, varianzas y covarianza de los estimadores de α y de β

E (a) = α

E (b) = β

ambos son estimadores insesgados.

⎡1 x 2 ⎤ Var (a ) = σ 2 ⋅ ⎢ + ⎥ ⎣ n S xx ⎦

Cov(a, b) = −σ 2 ⋅

Var (b) =

σ2 S xx

x S xx

Para estimar las varianzas y covarianza, se sustituye σ2 por el estimador σ) 2 .

Valor esperado del estimador de la varianza σ2

E (σˆ 2 ) = σ2 también es un estimador insesgado.

Coeficiente de determinación Es una medida de bondad de ajuste de la recta yˆ = a + bx a los puntos (xi,yi), y corresponde al cuadrado del coeficiente de correlación entre los valores observados de la variable dependiente y y los valores ajustados. Es igual a 2

R =

S xy2 S xx S yy

Intervalos de confianza para estimar los parámetros α , β y σ

2

3

Para que sean válidos estos intervalos, debe cumplirse el supuesto adicional de que los errores ε i tienen distribución normal, es decir

ε i ~ N (o, σ 2 ), independientes

para i=1,2,...,n

Intervalo de coeficiente de confianza 100(1-α) para α :

a±t

1−

1 x2 + n S xx

α ( n − 2) ⋅ σˆ ⋅ 2

Intervalo de coeficiente de confianza 100(1-α) para β :

b± t

1−

α

( n − 2) ⋅

σˆ

2

S xx

Pruebas de hipótesis para los parámetros α , β y σ

2

Para efectuar estas pruebas, tambien se requiere el supuesto de normalidad precedente. Prueba de nivel de significación α para α : La hipótesis nula es α = α0 ó α ≤ αo ó α ≥ α El estadístico de prueba es

a −αo

t=

σˆ ⋅

1 x2 + n S xx

su distribución dada la hipótesis nula es t de student con n-2 grados de libertad. Prueba de nivel de significación α para β : La hipótesis nula es β = β0 ó β ≤ βo ó β ≥ β El estadístico de prueba es

t=

b − βo σˆ S xx

su distribución dada la hipótesis nula es t de student con n-2 grados de libertad. Prueba de nivel de significación α para σ2 :

4

La hipótesis nula es σ2 = σ20 ó σ2 ≤ σ20 ó σ2 ≥ σ20 El estadístico de prueba es

σˆ 2 x = ( n − 2) ⋅ 2 σo su distribución dada la hipótesis nula es ji-cuadrado con n-2 grados de libertad. Análisis de varianza La prueba de hipótesis asociada al análisis de varianza en el caso de regresión lineal simple es Ho: β = 0 H1: β ≠ 0 Para efectuar esta prueba se requiere el supuesto adicional de que los errores tienen distribución normal. La tabla de análisis de varianza es la siguiente: Fuente de

Sumas de

Grados de

Cuadrados

variación

cuadrados. SC

libertad. GL

medios. CM

Cuociente F

Regresión

Syy - Sxy2/Sxx

1

SCReg

CMReg /CMErr

Error

Sxy2/Sxx

n-2

SCErr/(n-2)

--

Total

Syy

n-1

--

--

El estadístico de prueba es F = CMReg / CMErr Tiene distribución F con 1 grado de libertad en el numerador y n-2 grados de libertad en el denominador. Se rechaza la hipótesis nula si F es grande.

Predicción

5

Es la estimación del valor de la variable dependiente Y cuando la variable dependiente X toma un valor xo cualquiera. El valor puntual de una predicción se obtiene reemplazando xo en la ecuación de la recta estimada, es decir, es igual a

y o = a + b ⋅ xo Predicción de una observación individual mediante intervalos de confianza Para construir un intervalo de confianza para una predicción es necesario que se verifique el supuesto de normalidad de los errores. Un intervalo de confianza para la predicción del valor individual de una observación Y cuando la variable independiente X toma el valor xo está dado por

(a + b ⋅ xo ) ± t en que t

1−

α

1−

α ( n − 2) ⋅ σˆ ⋅ 1 + 2

1 ( xo − x ) 2 + n S xx

(n − 2) es el cuantil de la distribución t de student que acumula una

2

probabilidad 1 −

α 2

; σˆ es la desviación estándar del error, estimada; x es el

promedio de los valores observados de X ; Sxx es la suma de cuadrados centrados de las X.

Predicción de la respuesta media mediante intervalos de confianza

a + b ⋅ xo ± t

1−

α ( n − 2) ⋅ σˆ ⋅ 2

1 ( xo − x ) 2 + n S xx

Se puede ver que es similar al intervalo para un valor individual, pero es más angosto, debido a que la estimación de un promedio es más precisa que la de un valor individual.

Bandas de confianza Si se considera xo como una variable que recorre todo el dominio de la X , los extremos de los intervalos de confianza describen unas bandas con forma de hipérbolas, cuya parte más angosta está en X = x , el promedio, y se ensanchan a medida que se alejan del centro de los valores observados de la variable X.

6