Story Transcript
ANÁLISIS DE REGRESIÓN Edgar Acuña Fernandez Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez
REGRESIÓN LINEAL SIMPLE • Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Cuando hay solo una predictora se llama regresion simple. • Modelo de regresión. Ecuación que representa la relación entre las variables. Cuando el modelo es lineal se llama regresion lineal • Para estimar la ecuación del modelo se debe tener una muestra de entrenamiento. Edgar Acuña
Analisis de Regresion
Enero, 2013
Ejemplo 1 NACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90 Edgar Acuña
Analisis de Regresion
TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9 Enero, 2013
ia op hi Et dia bo m Ca
l ga ne e S
ia liv Bo
100
tasa de mortalidad
150
200
Relacion de la tasa de mortalidad con el porcentaje de inmunizacion
a di In
ey rk Tu
50
il az Br
t yp Eg
ion at er d Fe n_ ia s s Ru
0
e ec re G
20
40
60
80
a in Ch o ic ex M l nd b m la epu do o g e n lycPd _R da Ki Itaan an h na an d_ Firnl zec Ca Jap te F i C Un
100
porcentaje de inmunizacion
Edgar Acuña
Analisis de Regresion
Enero, 2013
Ejemplo de una linea de Regresion ia op hi Et dia bo m Ca
l ga ne e S
ia liv Bo
100
tasademortalidad
150
200
Relacion de la tasa de mortalidad con el porcentaje de inmunizacion
^ y = 224.3163 + -2.135869x
ey rk Tu
50
il az Br
i ss Ru
t yp Eg
ion at er d e _F an
0
40
60
a in Ch o ic ex M li m nd b la epu do o g e cP ly in d _R da n n taa h Ia na pan _K Firnl zec Ca Ja ited F C n U
e ec re G
20
a di In
80
100
porcentaje de inmunizacion
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.1.1Usos del análisis de regresión a) Predicción b) Descripción c) Control d) Selección de variables
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2 El modelo de Regresión Lineal simple
Y = α + βX + ε Considerando la muestra (Xi,Yi) para i=1,…n
Yi = α + βX i+ei • Suposiciones del modelo: La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante σ2. Los errores ei y e j (i≠j=1…,n) son independientes entre si Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2.1Estimación de la línea de regresión
usando Mínimos Cuadrados Se debe Minimizar
Q(α, β ) = ∑ e = n
i =1
2 i
n
2 ( y − α − β x ) ∑ i i i =1
Derivando parcialmente con respecto a α y β se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce
βˆ =
n
n
n
i=1
i=1 n
i=1
n∑xi yi − ∑xi ∑ yi n
n∑x − (∑xi ) i=1
Edgar Acuña
2 i
i=1
O equivalentemente
2
βˆ =
S xy S xx
αˆ = y − βˆx Analisis de Regresion
Enero, 2013
1.2.2 Interpretación de los coeficientes de regresión estimados )
La pendiente β indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. )
El intercepto α indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable considerar que el rango de valores de x incluye a cero.
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2.3 Propiedades de los estimadores mínimos cuadráticos de regresión )
)
a) β es un estimador insegado de β. Es decir, E( β )=β ) es un estimador insegado de α. Es decir, E( α) )=α
b) α
)
c) La varianza de β es
σ2 Sxx
y la
)
de α
es
1 x2 σ ( + ) n Sxx 2
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2.4 Distribución de los estimadores mínimos cuadráticos Para efecto de hacer inferencia en regresión, se requiere asumir que los errores ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante σ . En consecuencia, también las yi ' s se distribuyen normalmente con 2 media α + βxi y varianza σ . Se puede establecer que: 2 2 σ x 1 βˆ ~ N(β , ) αˆ ~ N (α , ( + )σ 2 ) Sxx n S xx
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2.5 Propiedades de los residuales Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la línea de regresión. n
a)
ri = 0 La suma de los residuales es 0. Es decir, ∑ i =1 n
b)
∑r x i
i =1 n
c)
)
∑r y i =1
i
Edgar Acuña
i
i
=0 =0
Analisis de Regresion
Enero, 2013
1.2.7 Descomposición de la suma de cuadrados total La desviacion de un valor observado de la variable de respuesta con respecto a su media se puede escribir como: ) ) ( yi − y ) = ( yi − yi ) + ( yi − y ) n
n
∑ ( yi − y ) 2 =
) ∑ ( yi − yi ) 2 +
i =1
i =1
n
)
∑(y i =1
i
− y)2
SST = SSE + SSR Se puede deducir que
SSR = βˆ
n
2
2 ( x − x ) ∑ i i =1
Edgar Acuña
Analisis de Regresion
Enero, 2013
Se puede demostrar que:
E(SSR) = E(βˆ 2Sxx) = σ 2 + β 2Sxx Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)
SST
~ χ '(2n −1)
σ2 ii)
SSE
σ
2
SSR iii)
σ2
Edgar Acuña
~χ
2 ( n−2)
~ χ '(21)
(Ji-Cuadrado no central con n-1 g.l)
Equivalentemente
(n − 2) s 2
σ2
~ χ (2n − 2)
(Ji-Cuadrado no central con 1 g.l) Analisis de Regresion
Enero, 2013
1.2.6 Estimación de la varianza del error • Un estimador insesgado de σ 2 es: n
s2 =
) 2 ( y − y ∑ i i) i =1
n−2
n
=
∑r i =1
2
i
n−2
s 2 es tambien llamado el cuadrado medio del error
(MSE)
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.2.8 El Coeficiente de Determinación R 2 Es una medida de la bondad de ajuste del modelo R
2
SSR * 100 % = SST 2
Un modelo de regresion con R mayor o igual a 75% se puede considerar bastante aceptable. 2
Nota: El valor de R es afectado por la presencia de valores anormales.
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.3 Inferencia en Regresion Lineal Simple • Pruebas de hipótesis e intervalos de confianza acerca de los coeficientes de regresión del modelo de regresión poblacional. • Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta
Edgar Acuña
Analisis de Regresion
Enero, 2013
1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t. La pendiente de regresión2 se distribuye como una normal con σ media β y varianza Sxx Un intervalo de confianza del 100(1-α)% para la pendiente poblacional β es de la forma: ) ( β − t ( n − 2,α / 2)
s Sxx
) , β + t ( n − 2,α / 2)
s Sxx
)
Donde α representa el nivel de significación.
Edgar Acuña
Analisis de Regresion
Enero, 2013
Intervalo de confianza para el intercepto α Un intervalo de confianza del 100(1-α)% para el intercepto α de la linea de regresión poblacional es de la forma:
1 x2 ) 1 x2 (α − t ( n − 2,α / 2 ) s + , α + t ( n − 2,α / 2 ) s + ) n Sxx n Sxx )
Edgar Acuña
Analisis de Regresion
Enero, 2013
Pruebas de hipótesis para la pendiente β (asumiendo que su valor es β* ) Caso I Ho: β=β* Ha: ββ*
)
β −β* s Sxx
~ t( n − 2)
Regla de Decisión Rechazar Ho, Rechazar Ho
Rechazar Ho
si |tcal |>t(α/2,n-2) si tcal>t(α,n-2) si tcal