Story Transcript
Análisis de Regresión Lineal Simple. Introducción Regresión Simple Método de los mínimos cuadrados Propiedades de los estim. min. cuadrados Predicción Evaluación de la intensidad de la relación lineal Ejercicios
Introducción Es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de alguna forma de la/s variable/s de entrada al mismo. El problema de la regresión consiste en encontrar una relación entre la variable dependiente Y, y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relación que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir valores de Y, a partir de los valores de Xi. Según que la variable de salida dependa de una o varias variables de entrada: regresión SIMPLE (una sola variable de entrada), regresión MULTIPLE Dependiendo de la forma que presente la función que relaciona las variables: regresión LINEAL (la función es una recta), regresión PARABÓLICA, regresión HIPERBÓLICA, etc ...
1
Introducción En el análisis de regresión deberemos contemplar los siguientes aspectos: Determinar interrelación entre variables (test de independencia, etc ...) Determinar tipo de función matemática que relaciona óptimamente las variables. (representación gráfica) Calcular parámetros de dicha función matemática y determinar bondad de ajuste. Realizar predicciones de la variable dependiente a partir de la independiente.
Regresión Simple En este caso consideramos la existencia de una única variable de predicción X. Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las cuales se han observado bajo unas condiciones experimentales que representan los valores de la variable de predicción X: x1, x2, ... xn Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y varíen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por µY/x y σ2Y/x, respectivamente. Ejemplo: Dosis inicial de droga (X) Cantidad de droga a los 5 minutos (Y) 0.05 0.01 0.05 0.02 0.05 0.00 0.10 0.05 0.10 0.01 0.20 0.15 0.30 0.25
2
Regresión Simple Supongamos que se administra una cantidad X=x de droga. ¿Cuál será la predicción óptima del valor que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (µY/x). Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para cada valor de x existe una distribución de cantidad de droga a los 5 minutos y lo que se busca es la media de esa distribución, dado x. Es importante hacer notar que en la regresión no es posible establecer una relación causa-efecto entre las Y y las x, ya que un cambio en las x no causará uno correspondiente en la variable respuesta. De manera obvia, existe una relación entre la altura y el peso de una persona, pero ¿implica esta relación que pueda cambiar la altura de las personas si se modifica su peso?.
Regresión Simple El interés recae en determinar una función matemática sencilla f(x)=µY/x, por ejemplo un polinomio, que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la función que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta. El primer paso será determinar el modelo o función matemática que se va a utilizar. Un procedimiento sencillo para seleccionar el modelo de regresión a utilizar, consiste en graficar la variable respuesta contra la variable de predicción. Si la gráfica revela una tendencia lineal, deberá suponerse un modelo de regresión lineal.
3
Regresión Simple El lugar geométrico de los puntos (x, µY/x)) recibe el nombre de curva de regresión poblacional, y no es más que la representación gráfica de la función f(x) que aproxima a la relación entre las variables. Estas curvas de regresión son curvas de predicción ideales, que usualmente no conocemos. Obsérvese que µY/x es un parámetro, la media de la v. a. Y/x que, en principio habría que estimar a partir de los datos muestrales de que disponemos.
Y µy/x=α+βx
x1
x2
x3
x4
x5 x6
Regresión Simple Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parámetros que intervienen en el mismo. La REGRESIÓN LINEAL SIMPLE implica que µY/x está linealmente relacionado con x por la ecuación de regresión lineal poblacional: µY/x = α + βx
con α y β ∈ R y β≠0
donde los coeficientes de regresión α y β son parámetros que deben estimarse a partir de los datos muestrales. Lo que sí podemos conocer a partir de los datos muestrales es la ecuación de regresión lineal ajustada, que es el resultado de estimar los parámetros de la expresión anterior, donde las estimaciones a y b representan la intersección y la pendiente de y respectivamente
µˆ Y/x= αˆ + βˆx llamando yˆ =µˆ Y/x a = αˆ
yˆ = a + bx
b = βˆ
4
Regresión Simple Un conjunto de datos podrá dar evidencia de linealidad sobre los valores de x cubiertos por dicho conjunto. Para valores de X más allá de la zona cubierta por los datos no tendremos nunca evidencia de linealidad.
No se debe usar nunca la recta de regresión ajustada para predecir valores de Y correspondientes a valores de X fuera del rango cubierto por los datos.
Método de los mínimos cuadrados Al utilizar el modelo de regresión lineal, hemos definido cada variable aleatoria Yi=Y/xi de la siguiente forma: Yi = µY/xi + Ei = α + βxi + Ei donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que para cada observación yi de Yi, (xi,yi), toma un valor εi Cuando usamos la línea de regresión ajustada observaciones (xi,yi) satisface:
yˆ = a + bx , cada par de
yˆ i = a + bxi + ei
donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de los datos y el valor ajustado mediante la recta de regresión, ei = y i − yˆ i )
5
Método de los mínimos cuadrados Dibujando sobre el diagrama de dispersión las líneas de regresión real y ajustada y los dos tipos de errores, obtenemos: (xi,yi) Y y^ = a + bx ei εi µy/x=α+βx
xi Se encontrarán a y b, estimaciones de α y β, de tal forma que la suma de los cuadrados de los residuos sea mínima. Con frecuencia, la suma de los cuadrados de los residuos recibe el nombre de suma de los cuadrados de los errores alrededor de la línea de regresión y se representa por SSE. Este procedimiento de minimización para estimar los parámetros se llama método de los mínimos cuadrados.
Método de los mínimos cuadrados Siendo {(xi,,yi ), i = 1,2, ..., n} la nube de puntos observada. Se encontrarán a y b con objeto de minimizar: 2
2
SSE = ∑in=1ei 2= ∑in=1 ( yi - yˆ i ) = ∑in=1 ( yi - a - b xi )
Diferenciando SSE con respecto a a y b, se tiene:
∂SSE = -2 ∑in=1( y i - a - b xi ) xi ∂b
∂SSE = -2 ∑in=1( y i - a - b xi ) ∂a
Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las ecuaciones siguientes (llamadas ecuaciones normales): na + b ∑in=1 xi= ∑in=1 yi a ∑in=1 xi+b ∑in=1 xi 2 = ∑in=1 xi y i
las cuales se pueden resolver simultáneamente (por Cramer) para dar las fórmulas de cálculo de a y b: n ∑in=1 xi y i -( ∑in=1 xi )( ∑in=1 y i ) βˆ = b = n ∑in=1 xi 2 -( ∑in=1 xi )2 n n ∑ y -b ∑i=1 xi αˆ = a = i=1 i = y - bx n
6
Propiedades de los estimadores mínimos cuadrados Partimos de un conjunto de datos:
X
Y
x1
Y1
x2
Y2
...
...
xn
Yn
donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: µ Y/xi = α + βxi que se estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parámetros α y β. Además de estimar la relación lineal entre x e y para propósitos de predicción, se puede también estar interesado en la realización de inferencias acerca de su pendiente y el punto de intersección. Para realizar pruebas de hipótesis y la determinación de intervalos de confianza de α y β, se debe hacer la suposición adicional de que cada Yi está normalmente distribuida, son todas independientes y su varianza es la misma para todas y viene dada por σ2. Por tanto: Yi≈ N( µ Y/xi = α + βxi , σ2 )
Propiedades de los estimadores mínimos cuadrados Una estimación insesgada de esta varianza σ2 viene dada por: SSE SSE S yy - b S xy por tanto s = = σˆ 2 = s 2 = n-2 n-2 n-2 donde: SSE = ∑in=1( yi - a - b xi )2 como a = y - b x SSE = ∑in=1( yi - ( y - b x ) - b xi )2 SSE = ∑in=1( yi - y )2 -2b ∑in=1( xi - x )( yi - y )+ b2 ∑in=1( xi - x )2 SSE = S yy - 2b S xy + b2 S xx SSE = S yy - b S xy
SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresión estimada. 2
n Sxx es una medida de la variabilidad de x y viene dada por: S xx = ∑i=1( xi - x )
2
n Syy es una medida de la variabilidad de y y viene dada por: S yy = ∑i=1( yi - y )
Sxy es una medida de la variabilidad conjunta de x e y y viene dada por: n S xy = ∑i=1( xi - x )( yi - y )
7
Propiedades de los estimadores mínimos cuadrados La b de la ecuación de la recta de regresión ajustada podría entonces S xy ponerse en función de Sxy y Sxx como: b= S xx Bajo estas suposiciones de independencia, normalidad y homocedasticidad del modelo, se cumple que los estadísticos:
tb =
b-β s S xx
a -α
ta =
n
s
2
xi ∑ i =1 n S xx
se distribuyen aproximadamente según una t de Student con n-2 grados de libertad y nos sirven para obtener intervalos de confianza y contrastar hipótesis referidas a los parámetros poblacionales.
Propiedades de los estimadores mínimos cuadrados Intervalo de Confianza para β Un intervalo de confianza del (1 - α) 100% para el parámetro β en la línea de regresión µ Y/xi = α + βxi es: t s t s b - α/2 < β < b + α/2 S xx S xx donde tα/2 es un valor de la distribución t con n -2 grados de libertad, que deja a su derecha una probabilidad α/2. Contraste de Hipótesis β = β0 Para probar la hipótesis nula H0 de que β = β0 en contra de la alternativa apropiada (β > β0, β < β0),de nuevo se utiliza la distribución t con n-2 grados de libertad para establecer la región crítica y entonces basar la decisión en el valor de: R.C. = t b / | t b |> t α/2 , n − 2 b - β0 tb = s R.C. = t / t > tα , n −2
S xx
{ } {b b } R.C. = {t b / t b < − tα , n −2}
8
Propiedades de los estimadores mínimos cuadrados Intervalo de Confianza para α Un intervalo de confianza del (1 - α) 100% para el parámetro α en la línea 2 2 n n de regresión µ Y/xi = α + βxi es: tα/2 s ∑i=1 xi tα/2 s ∑i=1 xi a α0, α < α0),de nuevo se utiliza la distribución t con n-2 grados de libertad para establecer la región crítica y entonces basar la decisión en el valor de:
R.C. = {t a / | t a |> t α/2 , n −2}
a -α
ta = s
n
2
xi ∑ n S xx i =1
R.C. = {t a / t a > t α , n − 2}
R.C. = {t a / t a < − tα , n − 2}
Predicción La ecuación y = a + b x puede utilizarse para pronosticar o predecir la respuesta media µY/x0 en x = x0, donde x0 no es necesariamente uno de los valores preseleccionados, o puede utilizarse para predecir un valor sencillo y0 de la variable Y0 cuando x = x0. Esto es, si X es el peso humano, e Y es la estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media verdadera de estatura de los humanos µY/x0 en un peso elegido x0=70 kg; o bien podemos estar interesados en un intervalo de confianza sobre una estatura individual Y0 en un peso elegido x0 = 70 kg. Se esperaría que el error de predicción fuera más grande cuando se pronostica un valor que cuando se predice una media. Esto afectará la amplitud de los intervalos para los valores que se pronostican. Por tanto, lo que en estimación puntual se hacía igual para ambos casos, en estimación por intervalos, da lugar a dos intervalos diferentes.
9
Predicción Intervalo de Confianza de µY/x0 Un intervalo de confianza del (1-α) 100% para la respuesta media µY/x0 es: 2
yˆ 0 - tα/2 s
2
1 ( x0 - x ) 1 ( x0 - x ) + < µ Y < yˆ 0 + tα/2 s + n n x0 S xx S xx
donde tα/2 es un valor de la distribución t con n-2 grados de libertad. Intervalo de Prediccion para Y0 Un intervalo de predicción del (1-α) 100% para una sola respuesta y0 es: 2
2
1 ( -x) 1 ( -x) < µ Y < yˆ 0 + tα/2 s 1+ + x0 yˆ 0 - tα/2 s 1 + + x0 n n x0 S xx S xx
donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
Evaluación de la intensidad de la relación lineal Hasta ahora el método que teníamos de saber cuándo era conveniente suponer que la relación entre las variables era lineal, era sólo mediante el diagrama de dispersión. Pero ya en su momento habíamos comentado que este argumento era muy débil y que existían otros métodos de saberlo. Básicamente son dos los métodos de averiguarlo. Método del Análisis de la Varianza Es un procedimiento que subdivide la variación total de la variable dependiente Y en componentes más significativas. Supóngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la línea de regresión ajustada. Habíamos obtenido SSE = Syy - b Sxy, de donde: Syy = b Sxy + SSE o bien, haciendo
SST = Syy SSR = b Sxy
tenemos:
SST = SSR + SSE
10
Evaluación de la intensidad de la relación lineal Hemos descompuesto la variación total de la variable dependiente en dos componentes más significativas para el experimentador. SST = Suma total corregida de los cuadrados SSR = Suma de los cuadrados de regresión. Refleja la cantidad de variación de los valores de y explicados por la recta de regresión ajustada SSE = Suma de los cuadrados del error residual. Refleja la variación alrededor de la línea de regresión. Inexplicada por la recta de regresión. H0 : β = 0 Estamos entonces interesados en probar la hipótesis: H1 : β ≠ 0 La hipótesis nula afirma que el modelo es µY/x = α, es decir, que las variaciones de y son independientes de los valores de x y totalmente aleatorias. La hipótesis alternativa afirma, en cambio, que una porción significativa de la variación de y se explica mediante el modelo de regresión lineal de y sobre x.
Evaluación de la intensidad de la relación lineal Bajo las condiciones de la hipótesis nula, puede demostrarse que SSR/σ2 y SSE/σ2 son valores de variables independientes χ2 con 1 y n-2 grados de libertad respectivamente, y SST/σ2 también es un valor de variable χ2 con n-1 grados de libertad. Para probar la hipótesis nula se usa el estadístico: SSR
SSR MSR SSR f= = 1 = = 2 SSE SSE MSE s : (n − 2) 2 ( n − 2) σ
σ2
:1
y se rechaza H0 con un nivel de significación α cuando f > Fα, (1, n-2). Análisis de la varianza para probar β = 0 frente a β ≠ 0 Fuente de variación
Suma de cuadrados
Grados de libertad
Regresión
SSR = b Sxy
Error
SSE = Syy - b Sx
n -2
Total
SST = Syy
n -1
1
Cuadrados medios
Estadístico calculado
MSR = SSR / 1 MSE = SSE / n-2
f = MSR/MSE
Región Crítica = [ F(1, n-2),α, +∞)
11
Evaluación de la intensidad de la relación lineal Método del Coeficiente de Determinación Este método consiste en calcular un estadístico, cuyo valor nos indicará si se puede considerar aceptable o no el modelo de regresión lineal. Por estar basado en el coeficiente de correlación empezaremos explicando la CORRELACION. El análisis de CORRELACION intenta medir la fuerza de la relación lineal entre dos variables, por medio de un simple número que recibe el nombre de coeficiente de correlación de Pearson, y viene dado por:
ρ xy =
cov(X,Y) cov(X,Y) = VAR(X)VAR(Y) σ xσ y
donde cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y] Si valores pequeños de x están asociados a valores pequeños de y, y valores grandes de x están asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrán el mismo signo, y por tanto (X - E[X]) (Y - E[Y]) > 0 ⇒ cov (X,Y) > 0
Evaluación de la intensidad de la relación lineal Análogamente si valores pequeños de x están asociados a valores grandes de y, y valores grandes de x están asociados a valores pequeños de y, entonces (X - E[X]) y (Y - E[Y]) tendrán distinto signo, y por tanto (X E[X]) (Y - E[Y]) < 0 ⇒ cov (X,Y) t α , n − 2 2
que bajo H0, sigue una distribución t de Student con n - 2 grados de libertad.
14
Ejercicios Ejercicio 8.1 Estamos midiendo la relación entre la altura (X) y la longitud (Y) de la concha de cierta especie de lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares de mediciones como estas: X
0.9
1.5
...
2.7
Y
3.1
3.6
...
6.3
cuyas sumatorias son las siguientes: n
∑i=1 xi= 56.5 2
n ∑i=1 xi = 117.68
n
∑i=1 y i= 151.1
n
∑i=1 xi y i= 311.96
2
n ∑i=1 y i = 832.85
n = 28
Se pide calcular: a) Coeficiente de correlación y recta de regresión de Y sobre X b) ¿Es válido el modelo lineal?. Justificar la respuesta. c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2. d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2. NOTA: Para los intervalos de confianza, tómese α = 0.01
Ejercicios a)
n ∑in=1 xi2-( ∑in=1 xi )2 28(117.68) - (56.5 )2 = = 3.6711 n 28 2 2 2 n n n ∑i=1 yi -( ∑i=1 yi ) 28(832.85) - (151.1 ) = = 17.4496 S yy = n 28 n ∑in=1 xi yi -( ∑in=1 xi )( ∑in=1 y i ) 28(311.96) - (56.5)(151.1) = = 7.0618 S xy = n 28 S xy S xy b = βˆ = = 1.9236 = 0.8823 r xy = S xx S xx =
S xx S yy
n
n ∑i=1 y i ∑ x - b i=1 i = 1.5148 n n yˆ = a + bx = 1.5148 + 1.9236 x
a = αˆ = y - b x =
2
r xy = 0.7785
Luego el 77.85% de la variación de Y puede ser atribuida a su asociación lineal creciente ( rxy > 0) con X
15
Ejercicios b) La cuestión que se nos plantea en este apartado es ¿Es suficiente la cantidad r2xy obtenida en el apartado anterior?. Para averiguarlo realizamos el contraste: H0: β = 0 H1: β ≠ 0 para el que se realizaba el siguiente análisis de la varianza: Análisis de la varianza para probar β = 0 Fuente de variación
Suma de cuadrados
Grados libertad
Regresión
SSR = bSxy = 13.5843
1
Error
SSE = Syy - bSxy= 3.8654
n-2 = 26
Total
SST = Syy= 17.4496
n-1= 27
Cuadrados medios
Estadístico calculado
MSR = SSR/1 = 13.5843
f =MSR/MSE f = 91.35
MSE = SSE/26 = 0.1487
R.C = [ F (1, 26) ,0.05 , +∞) = [4.23, +∞) como 91.35 cae dentro de la región crítica, se rechaza H0, por lo que se acepta como válido el modelo lineal.
Ejercicios Otro contraste equivalente que podía haberse realizado es: H0: ρxy = 0 (no es válido) H1: ρxy ≠ 0 (es válido) r xy n - 2
0.8823 26 4.499 = = = 9.56 1 - 0.7785 0.4706 1 - r2 R.C : t / | t |> t n- 2,α = {t / | t |> t 26,0.025}= {t / | t |> 2.056}
t n- 2 =
{
2
}
9.56 pertenece a la región crítica, luego se rechaza H0 y se considera válido el modelo lineal.
16
Ejercicios 2 1 ( x0 - x ) α s ˆ I , = + α ± y µ t n 2, y/ x 0 0 c) 2 n S xx
t n- 2, α = t 26,0.05 = 1.706
t n- 2,α s
2
x0 = 2
2
2 1 ( x0 - x ) + = 1.706 * 0.3856 * 0.1892 = 0.1245 n S xx
yˆ 0 = 1.5148 + 1.9236 * 2 = 5.362
SSE 3.8654 = = 0.1487 s = 0.3856 n-2 26 2 ( x0 - x ) 2 ( x0 - x ) = 0.000324 = 0.000088 S xx x = 2.018 s 2 =
I µ y/ x0 ,0.1 = [5.2375, 5.4865]
Ejercicios ( -x 2 d) I y0 ,α = yˆ 0 ± t n-2,α s 1 + 1 + x0 )
n
2
S xx
t n- 2,α = t 26,0.025 = 2.056 2
2
1 ( x0 - x ) = 2.0566 * 0.3856 * 1.0177 = 0.807 t n- 2,α s 1 + + 2 n S xx
Para 95%
I y0 ,0.05 = [4.555,6.169]
2 1 (x - x) I y0 ,α = yˆ 0 ± t n- 2,α s 1 + + 0 2 n S xx t n- 2,α = t 26,0.05 = 1.706 2
2
1 ( x0 - x ) = 1.706 * 0.3856 * 1.0177 = 0.6695 t n- 2,α s 1 + + 2 n S xx
Para 90%
I y0 ,0.1 = [4.6925,6.032]
17