Story Transcript
Análisis de Regresión y Correlación
Material Preparado por Olga Susana Filippini y Hugo Delfino
1
ORIGEN HISTÓRICO DEL TÉRMINO REGRESlÓN El término regresión fue introducido por Francis Galton. En un famoso artículo Galton plantea que, a pesar de la presencia de una tendencia en la que los padres de estatura alta tenían hijos altos y los padres de estatura baja tenían hijos bajos, la estatura promedio de los niños nacidos de padres de una estatura dada tendía a moverse o «regresar» hacia la estatura promedio de población total. En otras palabras, la estatura de los hijos inusualmente altos o de padres inusualmente bajos tiende a moverse hacia la estatura promedio de la población. La ley de regresón universal de Galton fue confirmada por su amigo Karl Pearson, quien reunió más de registros de estaturas de miembros de grupos familiares. Pearson encontró que la estatura promedio de los hijos de un grupo de padres de estatura alta era menor que la estatura de sus padres y la estatura promedio de los hijos de un grupo de padres de estatura baja era mayor que estatura de sus padres, generándose un fenómeno mediante el cual los hijos altos e hijos bajos «regresaban» en forma similar hacia la estatura promedio de todos los hombres. En palabras de Galton, se trataba de una «regresión hacia la mediocridad». Material Preparado por Olga Susana Filippini y Hugo Delfino
2
Introducción Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables • Ejemplos: • Después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de marketing podría tratar de predecir las ventas para determinado nivel de gastos de publicidad.
• Se quiere estimar el consumo de un bien en función de los ingresos de la familia. Material Preparado por Olga Susana Filippini y Hugo Delfino
3
Ejemplos • Después de revisar la relación entre la dosis de fertilizante aplicado y el rendimiento de un cultivos ventas, un agricultor podría tratar de predecir el rendimiento del cultivo en qq/ha en función de la cantidad de fertilizante a aplicar. Teniendo en cuenta todos los gastos e ingresos esperados, establecer el punto optimo de dosis de fertilizante a utilizar. • Un ingeniero en alimentos puede ver la relación existente entre el tiempo y el número de bacterias que se producen. Material Preparado por Olga Susana Filippini y Hugo Delfino
4
Introducción En general uno desea conocer la relación existente entre las variables y cuantificarla. La representación gráfica es eficaz para obtener una información intuitiva sobre la relación entre variables. Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de interés. Material Preparado por Olga Susana Filippini y Hugo Delfino
5
Diagrama de dispersión Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Material Preparado por Olga Susana Filippini y Hugo Delfino
6
Conceptos básicos • Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos variables • Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables. Con el objeto de predecir una en función de la/s otra/s. Material Preparado por Olga Susana Filippini y Hugo Delfino
7
Conceptos básicos • Variable dependiente (Y): es la variable que se desea predecir o estimar
• Variables independientes (Xi ). Son las variables que proveen las bases para estimar. • Regresión simple: interviene una sola variable independiente • Regresión múltiple: intervienen dos o más variables independientes. • Regresión lineal: la función es una combinación lineal de los parámetros. • Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal Material Preparado por Olga Susana Filippini y Hugo Delfino
8
Coeficiente de correlación lineal • Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones · Varía entre -1.00 y 1.00. · Valores de -1.00 o 1.00 indican correlación perfecta. · Valor igual a 0.0 indica ausencia de correlación. · Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa
Material Preparado por Olga Susana Filippini y Hugo Delfino
9
Correlación Negativa Perfecta
Y
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3
4
5 X
6
7
8
9
Material Preparado por Olga Susana Filippini y Hugo Delfino
10 10
Correlación Positiva Perfecta
Y
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3
4
5 X
6
7
8
9
Material Preparado por Olga Susana Filippini y Hugo Delfino
10 11
Ausencia de Correlación
Y
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3
4
5 X
6
7
8
9
Material Preparado por Olga Susana Filippini y Hugo Delfino
10 12
Correlación Fuerte y Positiva
Y
10 9 8 7 6 5 4 3 2 1 0 0
1
2
3
4
5 X
6
7
8
9
Material Preparado por Olga Susana Filippini y Hugo Delfino
10 13
Coeficiente de correlación (r) Pearson
r
r
Covarianci a ( XY ) Var ( X ) *Var (Y ) n( XY ) ( X )( Y ) 2
2
2
n( X ) ( X ) n( Y ) ( Y )
Material Preparado por Olga Susana Filippini y Hugo Delfino
2
14
Test de hipótesis del coeficiente de correlación 1.
Hipótesis: H0: la correlación en la población es 0. H1: la correlación en la población no es 0.
2.
Nivel de significación:
= 0.05. t
r
n
2
3.
Estadística de la prueba: se distribuye 1 r2 como un t de Student con n-2 grados de libertad.
4.
Regla de decisión: Rechazamos H0 si, y solo si, el valor de t calculado es mayor que el valor t teórico, o el valor p es menor que el fijado . En caso contrario, se acepta H0.
5.
Conclusión: Si rechazo H0 concluyo que hay evidencias de correlación entre las variables. En caso contrario no
Material Preparado por Olga Susana Filippini y Hugo Delfino
15
Modelo de Regresión Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística: • Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática • Una dispersión de las observaciones alrededor de la curva de relación estadística Material Preparado por Olga Susana Filippini y Hugo Delfino
16
Modelo de Regresión Estas dos características están implícitas en un modelo de regresión, postulando que: • En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X. • Las medias de estas distribuciones varían de manera sistemática al variar X.
Material Preparado por Olga Susana Filippini y Hugo Delfino
17
Representación gráfica del modelo de Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X Material Preparado por Olga Susana Filippini y Hugo Delfino
18
Análisis de Regresión • Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la variable independiente (X). • Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión. Material Preparado por Olga Susana Filippini y Hugo Delfino
19
Proceso de estimación de la regresión lineal simple Modelo de regresión
y= 0+ 1x+ Ecuación de regresión
E(y)= 0+ 1x Parámetros desconocidos 0. 1
proporcionan estimados 1
x x1 x2 . . . xn
y y1 y2 . . . yn
Ecuación estimada de regresión
b0 y b 1 0y
Datos de la muestra
y=b0+b1x Estadísticos de la muestra
b0.b1 Material Preparado por Olga Susana Filippini y Hugo Delfino
20
Método de Mínimos Cuadrados • Considera la desviación de yi con respecto a su valor esperado: yi – ( 0 + 1·xi) • Se considera la suma de n desviaciones elevadas al cuadrado. Este criterio se denota como: n
Q
Yi
0
1
Xi
2
i 1
• Los estimadores de 0 y 1 son b0 y b1 que se obtienen minimizando las ecuaciones normales Yi X iYi
n b0 b1 b0
Xi X i b1
X i2
Material Preparado por Olga Susana Filippini y Hugo Delfino
21
Posibles modelos en la regresión lineal simple Sección B Sección A Relación lineal positiva Relación lineal negativa Ey
Ey Línea de regresión
*
La pendiente es positiva
*
La pendiente es negativa
Sección C No hay relación Ey
1
La pendiente es 0
1
*
1
Línea de regresión
x
x * Ordenada al origen
Línea de regresión
x
0
Material Preparado por Olga Susana Filippini y Hugo Delfino
22
Estimación de la ecuación de Regresión • yˆ i = b0 + b1xi, donde: •
yˆ i es el valor estimado de y para distintos x.
• b0 es la intersección o el valor estimado de y cuando x=0 • b1 es la pendiente de la línea, o el cambio promedio de y para cada cambio en una unidad de x • el principio de mínimos cuadrados es usado para obtener b0 y b1 : b1 b0
n(
xy) ( x)( y ) n( x 2 ) ( x ) 2 y
n
b1
x n
Material Preparado por Olga Susana Filippini y Hugo Delfino
23
Interpretación gráfica de coeficientes de regresión
Material Preparado por Olga Susana Filippini y Hugo Delfino
24
Regresión Lineal simple en términos matriciales Yi= 0+ 1xi+
i
Y1= 0+ 1x1+
donde i=1, .....,n 1
. .
Yn= 0+ 1xn+
Yi
n
Y1
1X 1
Y2
1X 2
. Yn
Xi
.. 1X n
1 0 i
2 i
1
. n
En términos matriciales Y=X + Material Preparado por Olga Susana Filippini y Hugo Delfino
25
Regresión Lineal simple en términos matriciales En términos matriciales encontrar el estimador de mínimos cuadrados implica resolver: b= (X´X)-1 X´Y Para producir las estimaciones Yˆi
Yˆ1 Yˆ
2
.
Xb
Yˆn
Los residuales se obtienen e Y Yˆ Y Xb Material Preparado por Olga Susana Filippini y Hugo Delfino
26
Prueba de Hipótesis Global • La prueba global es usada para investigar si la combinación lineal de variables independientes es significativa. • Las hipótesis son :
H0:
1
2
3
...
k
0
Ha : Al menos un coeficiente de regresión es distinto de cero. La distribución estadística F es usada en esta prueba ,con k (número de variables independientes) y n-(k+1) grados de libertad , donde n es el tamaño de muestra. Material Preparado por Olga Susana Filippini y Hugo Delfino
27
Prueba de Hipótesis Parciales • La prueba “t” de Student es utilizada para determinar cual variable independiente tiene coeficientes de de regresión distinto de cero. Son llamadas pruebas parciales. • Las variables con coeficiente de regresión cero son eliminadas. • La estadística “t” se utiliza en este caso con n (k+1) grados de libertad.
Material Preparado por Olga Susana Filippini y Hugo Delfino
28
Estimación de la variancia de los términos del error ( 2) Debe ser estimada por varios motivos
• Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y. • Para realizar inferencias con respecto a la función de regresión y la predicción de Y. • La lógica del desarrollo de un estimador de 2 para el modelo de regresión es la misma que cuando se muestrea una sola población • La variancia de cada observación Yi es 2, la misma que la de cada término del error Material Preparado por Olga Susana Filippini y Hugo Delfino
29
Estimación de la variancia de los términos del error ( 2) Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yˆi Por tanto, las desviaciones son los residuales
ˆi = ei Yi - Y Y la suma de cuadrados es: n
SCe i 1
(Yi Yˆi ) 2
n
n
(Yi b0 b1 X 1 ) 2 i 1
Material Preparado por Olga Susana Filippini y Hugo Delfino
ei2 i 1 30
Material Preparado por Olga Susana Filippini y Hugo Delfino
31
Estimación de la variancia de los términos del error ( 2) La suma de cuadrados del error, tiene n-(k+1) grados de libertad asociados con ella, ya que se tuvieron que estimar k parámetros. Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios 2 n
CM e
SCe n (k 1)
e i 1
i
n (k 1)
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de 2 Material Preparado por Olga Susana Filippini y Hugo Delfino
32
Análisis de Variancia en el análisis de regresión • El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y. • La variación de los Yi se mide convencionalmente en términos de las desviaciones
(Yi
Yi )
• La medida de la variación total SCtot, es la suma de las desviaciones al cuadrado
(Yi
Yi )
2
Material Preparado por Olga Susana Filippini y Hugo Delfino
33
Variación Total
Material Preparado por Olga Susana Filippini y Hugo Delfino
34
Desarrollo formal de la partición Consideremos la desviación
(Yi
Podemos descomponerla en
Yi
Y
ˆi (Y
Yi )
Y) (Yi
ˆi ) Y
T R E (T): desviación total (R): es la desviación del valor ajustado por la regresión con respecto a la media general (E): es la desviación de la observación con respecto a la línea de regresión Material Preparado por Olga Susana Filippini y Hugo Delfino
35
Partición de la variación total
Material Preparado por Olga Susana Filippini y Hugo Delfino
36
Desarrollo formal de la partición Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
Y
i
Y
2
ˆ (Y
i
Y)
2
(Y
i
ˆ) Y
2
i
SCtot SCreg SCer (SCtot): Suma de cuadrados total (SCreg): Suma de cuadrados de la regresión (SCer): Suma de cuadrados del error Dividiendo por los grados de libertad, (n-1), (k) y (n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia. Material Preparado por Olga Susana Filippini y Hugo Delfino
37
Coeficiente de Determinación • Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X. · El coeficiente de determinación es cuadrado del coeficiente de correlación, y varia entre 0 y 1.
Para calcular el R2 se utilizó la siguiente fórmula:
R
2
( yˆ c ( yo
2
y) 2 y)
Material Preparado por Olga Susana Filippini y Hugo Delfino
38
Supuestos • • • • •
Linealidad. Independencia de los residuos. Homocedasticidad Normalidad No colinealidad.
Material Preparado por Olga Susana Filippini y Hugo Delfino
39
Linealidad • La relación entre las variables independientes y dependientes es lineal. • ¿Cómo se prueba? • Diagrama de dispersión entre las variables
Material Preparado por Olga Susana Filippini y Hugo Delfino
40
Diagrama de dispersión Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o valores inusitados, que son puntos de los datos que aparecen separados del resto.
Material Preparado por Olga Susana Filippini y Hugo Delfino
41
Independencia de los Residuos • Los residuos son una variable aleatoria. • No deben estar autocorrelacionados. Es común que ocurra en series temporales. • ¿Cómo diagnosticar? • Durbin Watson (e e ) n
2
i
DW
i 1
i 2 n
ei2 i 1
• Varia entre 0 y 4 alrededor de 2 significa independencia de los residuos. Material Preparado por Olga Susana Filippini y Hugo Delfino
42
Homocedasticidad • Para cada valor de la variable independiente la variación alrededor de la línea de regresión de la variable dependiente es constante. • ¿Cómo diagnosticar? • Gráfico de dispersión entre las valores pronosticados y los residuales (ambos estandarizados)
Material Preparado por Olga Susana Filippini y Hugo Delfino
43
Análisis de residuos
residuos estandarizados
valores pronosticados
Los residuos deberían estar: • Distribuidos aleatoriamente alrededor del 0, es decir que haya aproximadamente la misma cantidad de valores positivos y negativos. • Variar entre -3 y +3. Esto indica que el modelo que se especifico es correcto Material Preparado por Olga Susana Filippini y Hugo Delfino
44
Análisis de residuos
residuos estandarizados
valores pronosticados
Caso 1: Se requieren mas variables en el modelo. Caso 2: La relación no es lineal entre las variables. Caso 3: Hay heterocedasticidad.
Material Preparado por Olga Susana Filippini y Hugo Delfino
45
Normalidad de los Residuos • Residuo: ei Yi Y ei e • Residuo tipificado: zi • Los residuos deben seguir una distribución Normal. • ¿Cómo probarlo? • Histograma de los residuos. • Gráfico de probabilidad normal
Material Preparado por Olga Susana Filippini y Hugo Delfino
46
No colinealidad • Colinealidad lineal perfecta cuando una variable se relaciona de forma perfectamente lineal con otra. • Colinealidad perfecta: no se pueden estimar los parámetros. • Colinealidad parcial: aumenta los residuos tipificados y produce coeficientes de regresión inestables.
• ¿Cómo diagnosticar? • FIV (Factores de Inflación de la Variancia)
Material Preparado por Olga Susana Filippini y Hugo Delfino
47
Regresión múltiple • Para dos variables independientes, la forma general de la ecuación de Regresión múltiple es: • • •
•
Y ' a b1 X1 b2 X 2 X1 y X2 son las variables independientes . a es la intercepción con Y cuando X1 y X2 son iguales a cero . b1 es el porcentaje de cambio en Y por cada unidad de cambio en X1 manteniendo X2 constante. La misma interpretación se aplica a b2. b1. y b2. son llamados coeficientes de Regresión Parciales. Material Preparado por Olga Susana Filippini y Hugo Delfino
48
Proceso de estimación de la regresión múltiple Modelo de regresión múltiple
y= 0+ 1x1+
2x2+... +
Datos de la muestra
pxp +
Ecuación de regresión múltiple
E(y)=
0+ 1x1+
2x2+...
+
pxp
Son parámetros desconocidos 0. 1
2...
x1
x2
xp
y
.
.
.
.
.
.
.
.
.
.
.
.
p
b0.b1 .b2....bp proporcionan estimados 0. 1. 2..... . p
Ecuación estimada de regresión
y= b0.b1x1+b2x2+... +bpxp b0b1b2...bp son
estadísticos de la Material Preparado por Olga Susana Filippini y Hugo Delfino muestra
49
Modelo general • La Regresión Múltiple General con k variables independientes esta dada por:
Y'
a
b1 X1
b2 X 2 ... bk X k
• El criterio de Mínimos cuadrados es utilizado para estimar los parámetros de la ecuación. • Calcular b1, b2, etc.es muy tedioso. Hay software que puede utilizarse para resolver el algebra matricial que se usa en la estimación de los parámetros
Material Preparado por Olga Susana Filippini y Hugo Delfino
50
Inferencia en el análisis de Regresión
• Estimación por intervalo de los parámetros de la regresión, 0 y 1. • En todo lo que sigue, asumiremos el modelo de errores con distribución normal • Yi = 0 + 1·Xi + i [1] • donde 0 y 1 son parámetros, las Xi son constantes conocidas y los i son errores independientes con distribución N(0,1).
Material Preparado por Olga Susana Filippini y Hugo Delfino
51
Inferencias acerca de b1
1-
Distribución por muestreo de b1
Xi
X
Yi
Xi
X
Y 2
• La distribución por muestreo de b1 se refiere a los distintos valores de b1 que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. 2 2 b1 • E(b1) = 1 2 Xi
b1
1
b1 b1 s b1
1
X
N (0,1) necesitamos estimar (b1) mediante s(b1) tn
2
P t
Por lo tanto P b1
t1
2
;n 2
2
s b1
1
;n 2
b1
b1 s b1 t1
2
1
;n 2
t1
2
s b1
s 2 b1
CM E Xi
X
1
;n 2
1
Material Preparado por Olga Susana Filippini y Hugo Delfino
52
2
.
Inferencias acerca de
0-
Distribución por muestreo de b0
b0
Y
b1 X
• La distribución por muestreo de b0 se refiere a los distintos valores de b0 que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. 1 X2 2 2 b0 • E(b0) = 0 2 n Xi
b0
0
b0 b0 s b0
0
X
N (0,1) necesitamos estimar
(b0) mediante s(b0)
Por lo tanto
b0 s b0
tn
2
P t 2
P b0 t1
2
;n 2
s b0
1
;n 2
b0 t1
2
0
;n 2
t1
2
s b0
2
s b0
CM E
1 n
X2 Xi
1
;n 2
1
Material Preparado por Olga Susana Filippini y Hugo Delfino
53
X
2
Estimación por intervalo de E(Yi) - Distribución por muestreo de Yˆi . Yˆi
b0 b1 X i
• La distribución por muestreo de Yˆi se refiere a los distintos valores de Yˆi que se obtendrían con muestras repetidas cuando los niveles de la variable independiente X se mantienen constantes de muestra en muestra. X X 1 Yˆ • E(Yˆi ) = E(Yi) n X X 2
2
2
i
i
2
i
Yˆi Yˆh
E Yi Yˆi E Yh s Yˆh
necesitamos estimar (Yˆi) mediante s(Yˆi )
Por lo tanto
Yˆh
P t 2
P Yˆi t1
2
;n 2
s Yˆi
;n 2
E Yi
1
E Yh s Yˆh
Yˆi t1
2
;n 2
s Yˆi 2
t1
s Yˆi
2
;n 2
CM E
1 n
Xi Xi
X
2
X
2
1
1
Material Preparado por Olga Susana Filippini y Hugo Delfino
54