Story Transcript
Universidad Autónoma de Madrid
Regresión y correlación
1
Tema 8
1. Regresión lineal simple 1.1 Contraste sobre β 1.2 Regresión en formato ANOVA 2. Correlación. Contraste sobre ρxy
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
2
1. Regresión lineal simple Objetivo: predecir una variable Y (dependiente o criterio) a partir de una X (independiente o predictora). Ambas cuantitativas. Para un caso i la ecuación en la población es: Yi = α + βXi + Ei Siendo: Parámetros: α : Origen de la recta β : Pendiente de la recta Ei : Error aleatorio
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
3
En la muestra se estima α y β con A y B:
B=
n ∑ X i Yi − ∑ X i ∑ Yi i
i
i
n ∑ X i2 − ∑ X i i i
2
A = Y − BX Con estos estimadores, la ecuación es: Yi = A +BXi + Ei Por lo que el valor predicho para cada Xi es: Y'i = A +BXi El error en el pronóstico es: Ei = Yi - Y'i Ejemplo: Se intenta predecir el absentismo laboral Y (en horas al año) a partir del salario X (en euros semanales).
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
4
X (€) 150 200 175 160 210 895 B=
Y (horas) 300 406 442 330 422 1900
n ∑ X iYi − ∑ X i ∑ Yi i
i
i
2
n ∑ X i2 − ∑ X i i i (5)344970 − (895 )1900 = = 1,86 2 (5)162825 − 895
A = Y − BX 1900 895 = − 1,86 5 5 = 380 − (1,86)179 = 47,06
Luego: Y'i = 47,06 +1,86Xi Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
X 150 200 175 160 210 895
Y 300 406 442 330 422 1900
5
Y' 326,06 419,06 372,56 344,66 437,66
E -26,06 -13,06 69,44 -14,66 -15,66 0
E =0
W
440
W W
y
400
360 W
320 W
150
170
190
210
x Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
6
1.1 Contraste sobre β Objetivo: Comprobar si hay relación lineal, y de que tipo es esta, entre X e Y. 1. Hipótesis Bilateral: H0: β = 0 (no hay relación lineal, son linealmente independientes) H1: β ≠ 0 (hay relación lineal) Unilateral derecho: H0: β ≤ 0 (no hay relación lineal) H1: β > 0 (hay relación lineal positiva) Unilateral izquierdo: H0: β ≥ 0 (no hay relación lineal) H1: β < 0 (hay relación lineal negativa) 2. Supuestos Independencia Normalidad Homocedasticidad Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
7
3. Estadístico de contraste B T=
2 ( X − X ) ∑ i i
∑ (Y
i
− Yi ' ) 2 / (n − 2)
i
Cuya distribución es tn-2 4. Zona crítica Bilateral: T ≤ α/2tn-2 y T ≥ 1-α/2tn-2 Unilateral derecho: T ≥ 1-αtn-2 Unilateral izquierdo: T ≤ αtn-2 Ejemplo: Contrastar si al aumentar el salario (X) aumenta el absentismo (Y) con α=0,01. 1.
Hipótesis H0 : β ≤ 0 H1 : β > 0
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
8
2. Supuestos: normalidad, independencia, homocedasticidad. 3. Estadístico de contraste
B T =
2 X X − ( ) ∑ i i
2 Y Y − ( ' ) ∑ i i / ( n − 2) i
=
1,86 2620 = 2,1 6131,75 / 3
Distribución tn-2 = t3 4. Zona crítica Unilateral derecho: 0,99t3 = 4,541 5. Decisión Mantener H0 Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
9
1.2 Regresión en formato ANOVA Combinación lineal de variables
X = k 1Y + k 2 Z Ejemplo: Un examen tiene dos partes: teórica y práctica. La parte teórica (Y) cuenta un 40% y la parte práctica (Z) un 60% de la nota final (X).
X = 0,6 Y + 0, 4 Z Si una persona obtiene en el teórico un 4,5 y en el práctico un 6,1 su puntuación final es:
X = ( 0,6)4,5 + ( 0, 4 ) 6,1 = 5,14
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
10
La media y la varianza de X son:
E ( X ) = k 1 E (Y ) + k 2 E ( Z ) Var ( X ) = k 12Var (Y ) + k 22Var ( Z ) + 2 k 1 k 2 Cov (Y , Z ) Ejemplo: Si en el teórico y el práctico se obtiene los siguientes resultados: Y Media 5,1 Varianza 3,8 Cov (Y, Z) = 3,1
Z 6,7 4,2
Entonces los resultados para la nota final son:
E ( X ) = ( 0,6 )5,1 + ( 0, 4 ) 6,7 = 5,74 Var ( X ) = 0 , 6 2 ( 3 ,8 ) + 0 , 4 2 ( 4 , 2 ) + 2 ( 0 , 6 )( 0 , 4 ) 3 ,1 = 3,528
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
11
El modelo es: Yi = A +BXi + Ei Por lo que : Yi = Y'i + Ei De donde se deduce: E (Yi ) = E (Yi ' ) + E ( Ei ) = E ( A + BX i ) = A + BE( X i )
S =S +S 2 Y
2 Y'
2 E
= B 2 S X2 + S E2 Es decir: SCT = SCR + SCE Ejemplo: Vimos que X = 179 y Y = 380 . Se comprueba que: E(Yi) = 47,06 + (1,86)179 = 380
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
12
(∑ Y ) −
2
SCT = ∑ (Yi − Y ) 2 = ∑ Yi 2 i
i
i
n
SCR = ∑ (Y ' i −Y ) 2 = B 2 SCT ( X ) i
SCE = ∑ E i2 =∑ (Yi − Y ' i ) 2 = SCT − SCR i
i
Tabla de ANOVA FV
SC
gl
Regresión
SCR
1
Error
SCE
n-2
Total
SCT
n-1
MC
F
SCR 1 SCE n−2
MCR MCE
F ~ F1, n-2 H0: β = 0 (no hay relación lineal)
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
13
Ejemplo:
( Y) ∑ SCT = ∑ Y − n
2
2
i
i
SCE =
i
19002 = 737184 − = 15184 5
2 2 2 E = ( − 26 , 09 ) + L + ( − 15 , 63 ) = 6131,75 ∑ i i
SCR = SCT − SCE = 15184 − 6131,75 = 9052,25 FV R E T
SC gl MC 9052,25 1 9052,25 6131,75 n-2=3 2043,92 15184 n-1=4
F 4,429
F ~ F1, 3 1-αF1, n-2
= 0,99F1, 3 = 34,12
Mantenemos H0. No hay relación lineal.
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
14
2. Correlación de Pearson Objetivo: cuantificar la intensidad y sentido de la relación entre dos variables X e Y cuantitativas. Cálculo de rxy en la muestra: rxy =
n ∑ X iYi − ∑ X i ∑ Yi i
i
n ∑ X i2 − ∑ X i i i
2
i
n ∑ Yi 2 − ∑ Yi i i
2
La correlación al cuadrado resulta ser: r = 2
SCR SCT
(Nota: SCT = SCR + SCE) r2 es el equivalente en regresión a las medidas de tamaño del efecto del ANOVA: η2, ε2 y ω2. Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
15
Contraste sobre ρxy 1. Hipótesis Bilateral: H0: ρXY = 0; H1: ρXY ≠ 0 U. derecho: H0: ρXY ≤ 0 ; H1: ρXY > 0 U. izquierdo: H0: ρXY≥ 0 ; H1: ρXY < 0 2. Supuestos Independencia Normalidad 3. Estadístico de contraste T=
rXY n − 2 2 1 − rXY
Cuya distribución es tn-2 4. Zona crítica Bilateral: T ≤ α/2 t n-2 y T ≥ 1-α/2 t Unilateral derecho: T ≥ 1-α t n-2 Unilateral izquierdo: T ≤ α t n-2 Análisis de Datos en Psicología II
n-2
Tema 8
Universidad Autónoma de Madrid
16
Ejemplo: Comprobar si el salario (X) correlaciona positivamente con el absentismo (Y) utilizando α=0,01. 1. Hipótesis H0: ρXY ≤ 0 ; H1: ρXY > 0 2. Supuestos: Independencia Normalidad 3. Estadístico de contraste
rXY =
=
n ∑ X iYi − ∑ X i ∑ Yi i
i
2
i
2
n ∑ X i2 − ∑ X i n ∑ Yi 2 − ∑ Yi i i i i (5)344970 − (895 )1900 = 0,772 2 2 (5)162825 − 895 (5) 737184 − 1900
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
T=
rXY n − 2 1− r
2 XY
17
=
0,772 3 1 − 0,772
2
= 2,1
Distribución tn-2 = t3 4. Zona crítica: T ≥ 0,99 t 3 = 4,541 5. Decisión.
Mantener H0
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
18
Formulario del tema 8 Contraste sobre β B T=
2 ( X − X ) ∑ i i
2 ( Y − Y ' ) ∑ i i / (n − 2) i
T ~ tn-2 Regresión en formato ANOVA
(∑ Y ) −
2
SCT = ∑ (Yi − Y ) = ∑ Yi 2
i
2
i
i
n
SCR = ∑ (Y ' i −Y ) 2 = B 2 SCT ( X ) i
SCE = ∑ E i2 =∑ (Yi − Y ' i ) 2 = SCT − SCR i
i
GLT = n-1 GLR = 1 GLE = n-2 Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
19
Contraste sobre ρ
T=
rXY n − 2 2 1 − rXY
T ~ tn-2
Análisis de Datos en Psicología II
Tema 8
Universidad Autónoma de Madrid
20
Ejercicios recomendados del libro: 8.3 8.5 8.6 8.9 8.10
Análisis de Datos en Psicología II
Tema 8