REGRESIÓN Y CORRELACIÓN Métodos Estadísticos Aplicados a las Auditorías Sociolaborales

REGRESIÓN Y CORRELACIÓN Métodos Estadísticos Aplicados a las Auditorías Sociolaborales Francisco Álvarez González [email protected] DISTRIBUCI

2 downloads 102 Views 271KB Size

Recommend Stories


1.- HABILIDADES SOCIOLABORALES
1.- HABILIDADES SOCIOLABORALES. 1.1 Significado y valor del trabajo. El trabajo es cualquier actividad productiva realizada mediante esfuerzo, conocim

Fundamentos de imagen digital aplicados a radiología
Fundamentos de imagen digital aplicados a radiología Poster no.: S-1330 Congreso: SERAM 2012 Tipo del póster: Presentación Electrónica Educativa A

Espasticidad, conceptos fisiológicos y fisiopatológicos aplicados a la clínica
REVISIÓN NEUROLÓGICA Espasticidad, conceptos fisiológicos y fisiopatológicos aplicados a la clínica Bolaños-Jiménez Rodrigo,*,† Arizmendi-Vargas Jorg

Fundamentos Psicológicos Aplicados al Deporte
Fundamentos Psicológicos Aplicados al Deporte FUNDAMENTOS PSICOLÓGICOS APLICADOS AL DEPORTE 1 Sesión No. 9 Nombre: Entrenamiento psicológico y rend

LOS REMEDIOS APLICADOS A CONCENTRACIONES EN TIEMPOS DE CRISIS
LOS REMEDIOS APLICADOS A CONCENTRACIONES EN TIEMPOS DE CRISIS Marcos Araujo Director del Departamento de Derecho Comunitario y de la Competencia de Ga

Métodos Estadísticos aplicados a la Ingeniería. 1º Ingeniería Industrial
Métodos Estadísticos aplicados a la Ingeniería 1º Ingeniería Industrial 2º cuatrimestre 2008/2009 Introducción - ¿Qué es la Estadística? La estadís

Story Transcript

REGRESIÓN Y CORRELACIÓN Métodos Estadísticos Aplicados a las Auditorías Sociolaborales Francisco Álvarez González [email protected]

DISTRIBUCIONES BIVARIANTES El estudio de la relación existente entre dos variables X e Y conduce a la consideración simultánea de ambas variables estadísticas. Tal distribución de las dos variables se denomina bivariante. La presentación de los datos experimentalmente observados puede hacerse : a) Mediante los pares (Xi , Yi) :

(X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ... c) Tabla de frecuencias de doble entrada :

b) Tabla simple de frecuencias : X X1 X2

Y Y1 Y2

n n1 n2

....

....

....

Xn

Yn

nn

Y2 n12 n22 ....

....

....

n21 ....

....

n2m ....

Xn

nn1

nn2

....

nnm

X1 X2

X

Y ....

Y1 n11

....

Ym n1m

Distribuciones marginales : Son las obtenidas de la distribución bivariante, al considerar de forma independiente cada una de las dos variables. De ellas obtendremos los parámetros de centralización y dispersión característicos : media y desviación típica.

X , s 2X

, Y , s 2Y

, sX

, sY

Covarianza : Este índice de variación conjunta de X e Y se define como :

s XY =

s XY =

∑ n .(X i

i

− X )( . Yi − Y )

i

=

∑ n . X .Y

N ∑∑ nij .(X i − X ).(Y j − Y ) i

j

N

i

i

i

i

N

− X .Y

∑∑ n .X .Y ij

=

i

j

N

i

para tablas simples de frecuencias j

− X .Y

para tablas de frecuencias de doble

entrada. Si sXY = 0 expresará que las variables X e Y son independientes.

RECTAS DE REGRESIÓN Representando los pares de observaciones (X,Y) como puntos en un plano cartesiano, obtenemos el denominado diagrama de dispersión o nube de puntos. Por recta de regresión o de ajuste entendemos la recta que más se aproxima a los puntos representativos de las observaciones (X,Y). El método de los mínimos cuadrados proporciona un sistema de obtención de tales rectas, estableciendo que sea mínima la suma de los cuadrados de las separaciones existentes entre cada punto y la recta.

Según se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen, respectivamente, las rectas de regresión de Y sobre X y de X sobre Y.

Regresión y correlación (F. Álvarez) - 1

RECTA DE REGRESIÓN DE Y SOBRE X Y' = a + b.X

a = ordenada en el origen b = coeficiente de regresión de Y sobre X = pendiente de la recta de regresión = tangente del ángulo que forma con el eje horizontal. Y' = predicciones de Y para el valor X observado.

Los coeficientes a y b de la recta de regresión de Y sobre X se obtienen resolviendo el sistema :

a.∑ f . X

+ b.∑ n. X s XY s 2X

b=

el cuál tiene como solución :

b.∑ n. X

+

a.N

∑ n.Y ⎫⎬ ∑ n.X .Y ⎭

= =

2

a = Y − b. X

RECTA DE REGRESIÓN DE X SOBRE Y X' = a' + b'.Y

a' = ordenada en el origen b' = coeficiente de regresión de X sobre Y = pendiente de la recta de regresión. X' = predicciones de X para el valor Y observado.

Los coeficientes a' y b' de la recta de regresión de X sobre Y se obtienen igualmente al resolver :

+ b'.∑ n.Y + b'.∑ n.Y 2

a'.N a '.∑ f .Y b' =

o directamente :

s XY s Y2

∑ n. X ⎫⎬ ∑ n.X .Y ⎭

= =

a ' = X − b'. Y

Otro procedimiento de cálculo simplificado permite obtener los coeficientes de regresión del siguiente modo :

b=

N .∑ X .Y − (∑ X )( . ∑Y )

b' =

N .∑ X 2 − (∑ X )

2

N .∑ X .Y − (∑ X )( . ∑Y ) N .∑ Y 2 − (∑ Y )

2

Si utilizamos puntuaciones diferenciales : x = X − X y = Y− Y , las rectas de regresión pierden el término independiente (ordenadas en el origen a y a' ) al ser las medias nulas, siendo su expresión : y' = b.x x' = b'.y

COEFICIENTE DE CORRELACIÓN DE PEARSON La recta de regresión es la que pasa más cerca de las observaciones, pero no nos indica si pasa muy cerca o no de ellas. Hemos de definir una medida del grado de asociación o relación entre ambas variables, lo cuál, en términos de recta de ajuste, indicará la bondad de la misma. Tal coeficiente se denomina coeficiente de correlación, definido por Pearson del siguiente modo :

n

r = b . b' =

s XY sX . sY

ya que : r =

b . b' =

s XY s XY . = s 2X s 2Y

s 2XY s = XY 2 2 sX . sY sX . sY

Según las expresiones finales obtenidas para b y b', podemos también calcularlo como :

r= La expresión

. ∑Y ) N .∑ X .Y − (∑ X )(

[N .∑ X

2

][

− (∑ X ) . N .∑ Y 2 − (∑ Y ) 2

2

]

n conduce a las siguientes relaciones (sin más que multiplicar y dividir por sX o por sY ) : r = b.

sX sY

r = b'.

sY sX

De aquí resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones típicas son iguales a 1) : r = b = b' y las rectas de regresión son : z'Y = r.z'X ; z'X = r.z'Y El coeficiente de correlación toma siempre valores comprendidos entre -1 y 1 : -1 ≤ r ≤ 1

2 - Regresión y correlación (F. Álvarez)

Interpretación : r próximo a 0 próximo a 1 próximo a -1

Asociación de las variables Variables independientes o no relacionadas linealmente Variables relacionadas directamente (cuando una aumenta la otra también) Variables relacionadas inversamente (cuando una aumenta la otra disminuye)

Bondad del ajuste Mala recta de ajuste. No pasa cerca de las observaciones. Buena recta de ajuste. Creciente (pendientes b y b' positivas) Buena recta de ajuste. Decreciente (pendientes b y b' negativas)

CURVA DE REGRESIÓN DE LA MEDIA Este método es aplicable cuando una de las dos variables (o las dos) contiene un bajo número de valores distintos.

Curva de regresión de la media de Y condicionada a X : El procedimiento consiste en sustituir todos los pares de observaciones que tienen el mismo valor de X por un único par que tiene por componentes dicho valor de X y la media de los valores de Y. De igual modo puede establecerse la curva de regresión de la media de X condicionada a Y. Así, por ejemplo, la figura muestra los pares siguientes: X=1 : (1,1) , (1,3) sustituidos por el par (1,2) , al ser 2 la media de 1 y 3. X=2 : (2,1) , (2,4) , (2,5) sustituidos por el par (2,3'33) , al ser 3'33 la media de 1, 4 y 5. ... etc ... Con los pares (1,2) , (2,3'33), ... obtenemos la recta de regresión por el procedimiento ya descrito.

Razón de correlación :

η 2 = 1−

ni .s y2 1 .∑ 2 i N sY

Toma valores comprendidos entre 0 y 1 y siempre verifica que η2 ≥ r2 (r=coef. de correlación lineal). La relación entre las variables X , Y será de tipo lineal, cuanto más 2 2 próximo sea η a r .

OTROS PROCEDIMIENTOS DE CÁLCULO DEL COEFICIENTE DE CORRELACIÓN r Coeficiente de correlación ϕ (phi) : El siguiente procedimiento se puede utilizar cuando las dos variables X e Y son dicotómicas. Y X

1 a c

1 0

Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento representado en la tabla de la izquierda. El coeficiente de correlación ϕ toma el valor :

0 b d

ϕ=

ad − bc (a + b )(. c + d )(. a + c )(. b + d )

Coeficiente de correlación biserial puntual rbp : El siguiente procedimiento se puede utilizar cuando una variable es continua y la otra dicotómica. Supuesta X continua :

rbp =

X1 − X0 . p. q sX

Siendo :

X1 X0 sX p q=1-p

la media de los valores de X que se corresponden con un 1 en Y. la media de los valores de X que se corresponden con un 0 en Y. la desviación típica de X (considerados sus valores globalmente). la proporción de unos en Y. la proporción de ceros en Y.

Coeficiente de correlación por rangos de Spearman ρ : El siguiente procedimiento se puede utilizar cuando las dos variables son ordinales (reordenaciones de una serie de elementos).

ρ = 1−

6.∑ d 2

(

)

N. N 2 − 1

Siendo d las diferencias entre los valores de X e Y. Regresión y correlación (F. Álvarez) - 3

Los coeficientes de correlación anteriores no son más que una adaptación del coeficiente de correlación de Pearson para tipos especiales de variables. En consecuencia, su valor coincide con el que habríamos obtenido siguiendo el procedimiento de Pearson (r); por ello, su interpretación es la establecida para r .

OTROS COEFICIENTES DE CORRELACIÓN NO BASADOS EN EL PEARSON Coeficiente de correlación tetracórica: Puede utilizarse cuando ambas variables son continuas , pero ambas pueden dicotomizarse artificialmente. Y X

1 0

1 a c

Asignemos los valores 0 y 1 a ambas variables y realicemos el recuento que se representa en la tabla de la izquierda.

0 b d

A) Método abreviado (aproximado) : 1º Calculamos los productos : a.d y b.c. 2º Si a.d > b.c , calculamos el cociente : C = a.d / b.c (el coeficiente de correlación será positivo) 3º Si a.d < b.c , calculamos el cociente : C = b.c / a.d (el coeficiente de correlación será negativo) 4º Consultando la tabla de cálculo del coeficiente de correlación tetracórico, localizamos el cociente C en el intervalo que lo contiene (con extremos A y B). A su derecha encontramos el coeficiente de correlación tetracórico (rt), como un valor numérico (n) más R. De aquí :

rt = n + R

con : R =

C−A 100 . ( B − A )

B) Método exacto : El coeficiente de correlación tetracórico rt será el resultado de resolver la siguiente ecuación :

rt + z. z'.

rt 2 r3 r4 a. d − b. c + ( z 2 − 1) . ( z' 2 −1) . t + ( z 3 − 3z) . ( z' 3 −3z') . t + ... = 2 2! 3! 4! n . f ( z). f ( z' )

Como es lógico, la mayor exactitud en el cálculo rt , se obtiene al considerar un mayor número de sumandos del desarrollo en serie anterior. Esta dificultad aconseja seguir el método abreviado descrito anteriormente. En la ecuación que permite calcular rt : • z valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las cantidades (a+c)/n o (b+d)/n. • z' valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las cantidades (a+b)/n o (c+d)/n. • f(z) y f(z') ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas para cada m.

Coeficiente de correlación biserial rb : Puede utilizarse cuando ambas variables son continuas , pero una de ellas puede dicotomizarse artificialmente. Supuesta X continua y Y dicotomizada (valores 1 y 0) , el coeficiente de correlación biserial se calcula del modo siguiente :

X − X0 p. q rb = 1 . sX f ( z) La ordenada f(z) :

Siendo :

X1 X0 sX

la media de los valores de X que se corresponden con un 1 en Y. la media de los valores de X que se corresponden con un 0 en Y. la desviación típica de X (considerados sus valores globalmente).

p la proporción de unos en Y. q=1-p la proporción de ceros en Y. z el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el área p.

f(z)

la ordenada correspondiente a z en la curva normal. NOTA : Los cálculos de z y f(z) no es preciso realizarlos ya que, para cada valor de la probabilidad p (o q indistintamente), se encuentran tabulados los valores de p.q/f(z).

4 - Regresión y correlación (F. Álvarez)

Coeficiente de correlación τ (tau) de Kendall : Como el de rangos de Spearman, este coeficiente es aplicable cuando las dos variables son ordinales (reordenaciones de una serie de elementos). Procedimiento de cálculo : a) Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden ascendente. b) Comparamos cada valor de Y con los Yi siguientes, contando una permanencia si Y < Yi y una inversión si Y > Yi.

τ=

Np − Ni n.( n − 1) 2

Siendo : • n el número de pares de valores (X , Y) • Np el número total de "permanencias" • Ni el número total de "inversiones"

Utilización e interpretación de los coeficientes estudiados en este epígrafe: Los coeficientes tetracórico y biserial parten de variables continuas que pueden dicotomizarse (ambas o sólo una). Para su aplicación rigurosa es necesario que : 1. la distribución de la variable o variables consideradas continuas debe ser "normal". 2. la relación que suponemos existe entre ambas variables es de tipo "lineal". Sus valores no tienen porqué coincidir con el del coeficiente de correlación de Pearson, si bien verifican las mismas propiedades que éste. Es decir : • Los coeficientes tetracórico y τ toman valores comprendidos entre -1 y 1 : -1 ≤ coeficiente ≤ 1. • El coeficiente biserial puede ser mayor que 1 y menor que -1. En valor absoluto, será mayor que el biserial puntual. • Valores próximos a cero implican falta de relación entre las variables (independencia).

FUENTES DE VARIANZA EN LA CORRELACIÓN Expresemos la desviación de Y respecto de su media como :

(Y − Y ')

(Y '−Y )

(Y − Y ) = (Y − Y ') + (Y '−Y )

es el error cometido en la predicción. Representa la porción de información no asociada a X. representa, en consecuencia, la información asociada a X.

∑ (Y − Y ) = ∑ (Y − Y ') + ∑ (Y '−Y ) ∑ (Y − Y ') + 2

En términos de varianzas :

∑ (Y − Y )

2

2

2

∑ (Y '−Y )

2

=

Varianza total

Varianza no explicada por X (varianza de los errores o residual)

2

Varianza explicada por X

Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporción de varianza de Y no explicada y explicada por la variable X. La manipulación de esta operación conduce a las expresiones y definiciones siguientes :

∑ (Y − Y ) ∑ (Y − Y )

2 2

∑ (Y − Y ') + ∑ (Y '−Y ) =1= ∑ (Y − Y ) ∑ (Y − Y ) ∑ (Y '−Y ) 2

2

2

2

∑ (Y − Y ') = ∑ (Y − Y )

2

2

+ r2

2

Varianza de las predicciones Y' =

s = 2 Y'

N

Proporción de varianza de las predicciones Y' =

s 2Y' = r2 s 2Y

Proporción de varianza explicada por X = r2 = Coeficiente de determinación ( R2 ) Proporción de varianza no explicada por X = 1 - r2

∑ (Y − Y ') =

2

Varianza de los errores o residual =

s =s 2 e

2 Y .X

N

∑ (Y − Y ) . ∑ (Y − Y ') = N ∑ (Y − Y ) 2

2

2

(

= sY2 . 1 − r 2

)

La raíz cuadrada de la varianza residual se denomina error típico de la predicción : s Y . X = s Y . 1 − r 2 IMPORTANTE : Observe los diferentes significados e interpretaciones de r2. Regresión y correlación (F. Álvarez) - 5

FORMULARIO - RESUMEN DEL TEMA

∑ n.x x= N

s

2 x

∑ n.x =

∑ n. y y=

2

−x

N

2

s

N

Recta de regresión de y sobre x (puntuaciones directas)

y' = a + b. x

Predicciones : y ' = y Recta de regresión de x sobre y (puntuaciones directas)

2 y

∑ n. y = N

− y2

s xy =

a.N + b.∑ n.x a.∑ n.x + b.∑ n.x 2

= =

∑ n. y ⎫⎬ ∑ n.x. y ⎭

b'.∑ n. y

=

∑ n.x ⎫⎬ ∑ n.x. y ⎭

a'.N

+

a'.∑ n. y + b'.∑ n. y 2

x' = a '+ b'. y Predicciones : x ' = x

2

=

∑ n.x. y − x. y N

b=

sxy

s2x a = y − b. x

b' =

sxy

s2y a ' = x − b'. y

Coeficiente de correlación (de Pearson y equivalentes) : Pearson

r = b. b' =

Phí

sxy

sx . sy sy s r = b. x = b'. sy sx

ϕ=

Biserial puntual

ad − bc ( a + b).( c + d ).( a + c).( b + d )

rbp =

x1 − x0 . p. q sx

Rangos de Spearman

ρ = 1−

6. ∑ d 2 N. ( N 2 − 1)

Coeficiente de correlación no basados en el de Pearson :

rt = n + R Puntuaciones directas (x,y)

y' = a + b. x

Tetracórico

Biserial

(Tabulado)

X − X0 p. q rb = 1 . sX f ( z)

con : R =

C−A 100 . ( B − A )

Puntuaciones diferenciales (d x

= x − x , dy = y − y)

d x = 0 , d y = 0 , sdx = s x , sdy = s y , sdxdy = s xy (a = 0 ; b se mantiene)

Tau de Kendall

τ=

Np − Ni n.( n − 1) 2

Puntuaciones tipificadas

⎛ x−x y− y⎞ , zy = ⎟ ⎜zx = sx sy ⎠ ⎝ zx = 0 , zy = 0 szx = 1 , szy = 1 , szxzy = (a = 0 ; b = r)

r=

sxy sx . sy

d y ' = b. d x

Relación fundamental : Varianza de y = = Varianza residual (de errores) + Varianza de las predicciones. Varianza de las predicciones :

z y ' = r. z x

s2y = se2 + s2y ' s2y'

Proporción de varianza explicada o asociada a la regresión, o proporción de varianza de las predicciones, o coeficiente de determinación : 6 - Regresión y correlación (F. Álvarez)

( y '− y ) 2 ∑ = N

s2y ' s2y

= r2

sxy sx . s y

=r

Varianza de los errores (o residual) :

se2

=

Error típico de la predicción (raíz de la varianza de los errores): Proporción de varianza no explicada o no asociada a la regresión, o proporción de varianza de los errores :

s2y.x

( y − y') 2 2 ∑ = = s .( 1 − r 2 ) N

y

s y.x = s y . 1 − r 2

se2 = 1− r2 s2y

Signo de b = signo de b’ = signo de r = signo de la covarianza r = 0 ⇔ absoluta independencia r = 1 o r = -1 ⇔ absoluta dependencia (directa o inversa)

-1 ≤ r ≤ 1 0 ≤ r2 ≤ 1

Regresión y correlación (F. Álvarez) - 7

EJERCICIOS RESUELTOS 1 La tabla siguiente contiene los resultados de las calificaciones en Matemáticas (X) y Lengua (Y) de un grupo de 40 alumnos de Secundaria. X 3 3 5 6 6 6 7 8

Y 4 5 5 6 7 8 7 8

n 3 5 12 4 5 3 6 2

a) b) c) d) e)

Obtenga la recta de regresión de Y sobre X. Obtenga la recta de regresión de X sobre Y. Calcule e interprete el coeficiente de correlación lineal. Obtenga el error típico de la predicción. ¿ Qué proporción de varianza de Y no queda explicada por X ?.

Tabla de cálculos : X 3 3 5 6 6 6 7 8

a)

Y 4 5 5 6 7 8 7 8

n 3 5 12 4 5 3 6 2 40

n.Y 12 25 60 24 35 24 42 16 238

n.X2 27 45 300 144 180 108 294 128 1226

Y=

238 = 5' 95 40

n.Y2 48 125 300 144 245 192 294 128 1476

n.X.Y 36 75 300 144 210 144 294 128 1331

Recta de regresión de Y sobre X. X=

b=

n.X 9 15 60 24 30 18 42 16 214

N .∑ X .Y − (∑ X )( . ∑Y ) N .∑ X − (∑ X ) 2

2

=

214 = 5' 35 40

40.1331 − 214.238 2308 = = 0'71 Recta de regresión de Y sobre X : 3244 40.1226 − 214 2 Y' = 2'1436 + 0'7115.X

a = Y − b . X = 5' 95 − 0' 7115 . 5' 35 = 2' 1436

b)

Recta de regresión de X sobre Y. N .∑ X .Y − (∑ X )( . ∑ Y ) 40.1331 − 214.238 2308 b' = = = = 0'96 2 Recta de regresión de X sobre Y : 2396 40.1476 − 238 2 N .∑ Y 2 − (∑ Y ) X' = -0'3815 + 0'9633.Y

a ' = X − b ' . Y = 5' 35 − 0' 9633 . 5' 95 = − 0' 3815

c)

Coeficiente de correlación de Pearson. Conocidos los coeficientes de regresión puede calcularse como :

r = b . b' = 0' 7115 . 0' 9633 = 0' 8279 Existe una elevada relación entre las calificaciones en Matemáticas y Lengua. Dicha relación es positiva (directa); es decir, alumnos con altas calificaciones en Matemáticas se corresponden con altas calificaciones en Lengua, y a la inversa. Podemos afirmar que las rectas de regresión obtenidas son buenas rectas de ajuste. Es decir, expresan con una elevada aproximación la relación matemática (lineal) existente entre las calificaciones en Matemáticas y Lengua.

d)

Error típico de la predicción. sY2 =

Calculada la varianza de Y :

∑ n .Y i

i

N

i

2

−Y 2 =

1476 − 5'95 2 = 1'4975 40

s Y . X = s Y . 1 − r = 1' 4975 . 1 − 0' 8279 2 = 0' 6864 2

8 - Regresión y correlación (F. Álvarez)

e)

Proporción de varianza no explicada por X. La proporciona : 1 - r2 = 1 - 0'82792 = 0'3146. Es decir el 31'46%.

2 De la distribución bivariante siguiente :

X

a) b) c) d) e)

Y 1 1 9 0

0 0 0 8

2 4 6

2 5 0 0

Obtenga la recta de regresión de Y sobre X. Obtenga la recta de regresión de X sobre Y. Calcule e interprete el coeficiente de correlación lineal. Calcule su varianza residual. Calcule e interprete el coeficiente de determinación.

Obtenemos las distribuciones marginales de X y de Y totalizando las frecuencias en filas y columnas :

X

X 2 4 6

n 6 9 8 23

Y 1 1 9 0 10

0 0 0 8 8

2 4 6 Σ n.X2 24 144 288 456

n.X 12 36 48 96

2 5 0 0 5 Y 0 1 2

Σ 6 9 8 23 n 8 10 5 23

n.Y 0 10 10 20

n.Y2 0 10 20 30

La suma de los productos de X por Y hemos de obtenerla directamente de la tabla proporcionada :

∑ X .Y = ∑∑ n .X .Y ij

i

i

j

=

0.2.0 + 1.2.1 + 5.2.2 + 0.4.0 + 9.4.1 + 0.4.2 + 8.6.0 + 0.6.1 + 0.6.2 = 58

j

Como puede observarse, sólo realizamos los productos correspondientes a frecuencias y valores de variables no nulos. X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58



Utilicemos las medias y varianzas de X e Y, así como la covarianza, en los cálculos solicitados.

X=

96 = 4' 1739 23

20 = 0' 8696 23

Y=

∑∑ n . X .Y ij

Covarianza =

a)

s XY =

s 2X =

i

j

N

i

j

− X .Y =

456 − 4' 1739 2 = 2' 4045 23

s Y2 =

30 − 0' 8696 2 = 0' 5482 23

∑ X .Y − X .Y = 58 − 4'1739.0'8696 = −1'1078 N

23

Recta de regresión de Y sobre X : b=

s XY −1' 1078 = = − 0' 4607 2' 4045 s X2

a = Y − b . X = 0' 8696 − ( − 0' 4607 ). 4' 1739 = 2' 7925

Y' = 2'7925 - 0'4607 . X b)

Recta de regresión de X sobre Y : b' =

s XY −1' 1078 = = − 2' 0207 0' 5482 s Y2

a ' = X − b'. Y = 4' 1739 − ( − 2' 0207 ). 0' 8696 = 5' 9310

X' = 5'9310 - 2'0207 . Y c)

Coeficiente de correlación : Utilizando la expresión r = b.b' = (− 0'4607 )( . − 2'0207 ) = ±0'9648

podemos tener duda en cuanto

al signo del coeficiente de correlación. Este signo es el de b y b', ya que es el que proporciona la covarianza. Calculado como r =

s XY = sX . sY

−1' 1078

= − 0' 9648 no se planteará tal dificultad.

2' 4045 . 0' 5486 Regresión y correlación (F. Álvarez) - 9

d)

Varianza residual : 2 se2 = sY2. X = sY2 . 1 − r 2 = 0'5482. 1 − (− 0'9648) = 0'0379

e)

Coeficiente de determinación :

(

(

)

)

Es el cuadrado del coeficiente de correlación, representando la proporción de varianza explicada por la variable X (en el ajuste de Y sobre X).

R 2 = r 2 = (− 0'9648) = 0'9309 2

La variable X explica el 93'09% de la varianza de Y. Sólo el 6'91% no es atribuible a X.

3 De la siguiente distribución bivariante :

X

a) b) c) d) e)

[0,1) 1 3 1

2 3 4

Y [1,2) 2 6 2

[2,3] 1 3 1

Calcule e interprete el valor de la covarianza. Obtenga la recta de regresión de Y sobre X. Obtenga la recta de regresión de X sobre Y. Calcule el coeficiente de correlación lineal y el de determinación. De la varianza total de Y , determine la proporción atribuible a la variable X.

Totalizando filas y columnas obtendremos las distribuciones marginales de X e Y :

X

X 2 3 4

n 4 12 4 20

∑ X .Y = ∑∑ n .X .Y ij

i

a)

i

2 3 4

n.X2 16 108 64 188

n.X 8 36 16 60 j

=

Y 1'5 2 6 2 10

0'5 1 3 1 5

2'5 1 3 1 5 Y 0'5 1'5 2'5

4 12 4 20 n 5 10 5 20

n.Y 2'5 15 12'5 30

n.Y2 1'25 22'5 31'25 55

1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90

j

Covarianza : X=

∑∑ n . X .Y ij

Covarianza =

s XY =

i

j

N

i

60 =3 20

j

− X .Y =

Y=

30 = 1' 5 20

∑ X .Y − X .Y = 90 − 3.1'5 = 4'5 − 4'5 = 0 N

20

Interpretación : Las variables son independientes. Siendo nula la covarianza, también los serán los coeficientes de regresión, el coeficiente de correlación y el de determinación, dado que en sus cálculos interviene la covarianza en el numerador. Al ser nulos los coeficientes de regresión, a coincidirá con la media de Y y a' con la de X.

b)

Recta de regresión de Y sobre X : b=

c)

s XY 0 = 2 =0 2 sX sX

a = Y − b . X = 1' 5 − 0 . 3 = 1' 5



Y' = 1'5



X' = 3

Recta de regresión de X sobre Y : b' =

s XY 0 = 2 =0 2 sY sY

a ' = X − b'. Y = 3 − 0 . 1' 5 = 3

10 - Regresión y correlación (F. Álvarez)

d)

Coeficiente de correlación y de determinación : Como se indicó en el apartado a), al ser nula la covarianza, ambos coeficientes también lo son :

r = b . b' = 0 . 0 = 0

e)

r=

s XY 0 = =0 sX . sY sX . sY

R 2 = r2 = 0

Proporción de varianza explicada por X : Proporción de varianza explicada por X = r2 = Coeficiente de determinación = 0

4 Se desea estudiar la relación entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo del alumno que lo realiza. Los resultados observados fueron : Test 1 1 2 2 3 4 4 5 5

Sexo Varón Hembra Varón Hembra Varón Hembra Varón Hembra Varón

Nº de alumnos 3 1 2 4 3 5 1 1 2

a) Mida el grado de asociación existente entre las dos variables mediante el coeficiente más adecuado. b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.

a)

Siendo dicotómica la segunda variable, calcularemos el coeficiente de correlación biserial puntual : Denominando Y a la variable sexo (asignamos : 1=Hombre ; 0=Mujer) y X a la variable puntuación en el test, procederemos a los cálculos necesarios para su obtención. Ello nos conduce a calcular las medias de los valores de X que se corresponden con un 1 y con un 0 en Y (X1 y X0) de forma separada, así como la desviación típica de X. Las siguientes tablas facilitan nuestras operaciones : X 1 1 2 2 3 4 4 5 5

Y 1 0 1 0 1 0 1 0 1

n 3 1 2 4 3 5 1 1 2 N= 22

n.X 3 1 4 8 9 20 4 5 10 64

n.X2 3 1 8 16 27 80 16 25 50 226

X1 1 2 3 4 5

n 3 2 3 1 2 11 p

n.X1 3 4 9 4 10 30

X0 1 2 4 5

n 1 4 5 1 11 q

n.X0 1 8 20 5 34

30 34 11 11 X0 = p= = 0' 5 q= = 0' 5 = 1 − p = 2' 7273 = 3' 0909 11 11 22 22 64 226 X= = 2' 9091 s 2X = − 2' 90912 = 1' 8099 ⇒ s X = 1' 8099 = 1' 3453 22 22 X − X0 2' 7273 − 3' 0909 Con esto : rbp = 1 . p. q = . 0' 5 . 0' 5 = − 0' 1351 sX 1' 3453 X1 =

b)

Coeficiente de correlación de Pearson : El propósito de este apartado no es otro que comprobar que efectivamente coinciden los coeficientes de correlación de Pearson y biserial puntual. Calculemos la media y desviación típica de Y, así como la covarianza:

Regresión y correlación (F. Álvarez) - 11

Y= s XY

X

Y

n

f.Y

n.Y2

n.X.Y

1 1 2 2 3 4 4 5 5

1 0 1 0 1 0 1 0 1

3 1 2 4 3 5 1 1 2 22

3 0 2 0 3 0 1 0 2 11

3 0 2 0 3 0 1 0 2 11

3 0 4 0 9 0 4 0 10 30

11 11 − 0' 5 2 = 0' 25 ⇒ s Y = 0' 25 = 0' 5 = 0' 5 s 2Y = 22 22 −0' 0909 30 = − 2' 9091. 0' 5 = − 0' 0909 ⇒ r= = −0' 1351 22 1' 3453. 0' 5

5 La siguiente tabla nos muestra la distribución por sexo de un grupo de 167 personas, indicando si fuman o no. Fuma 85 10

Hombre Mujer

No fuma 12 60

a) Calcule el coeficiente de más adecuado para medir el grado de asociación existente entre el sexo y el ser o no fumador. b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior.

a) Las dos variables son dicotómicas. El coeficiente específico para esta situación es el coeficiente de correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos : Y X

ϕ= b)

1 (Fuma) a = 85 c = 10 95

1 (Hombre) 0 (Mujer)

ad − bc

(a + b )(. c + d )(. a + c )(. b + d )

=

0 (No fuma) b = 12 d = 60 72

85.60 − 12.10 97.70.95.72

97 70

= 0'7307

Coeficiente de correlación de Pearson : X 1 1 0 0

Y 1 0 1 0

n 85 12 10 60 167

n.X 85 12 0 0 97

n.Y 85 0 10 0 95

n.X2 85 12 0 0 97

n.Y2 85 0 10 0 95

n.X.Y 85 0 0 0 85

97 97 = 0' 5808 s 2X = − 0' 5808 2 = 0' 2435 ⇒ s X = 0' 2435 = 0' 4934 167 167 95 95 Y= = 0' 5689 s 2Y = − 0' 5689 2 = 0' 2453 ⇒ s Y = 0' 2453 = 0' 4952 167 167 85 0' 1786 s XY = − 0' 5808 . 0' 5689 = 0' 1786 ⇒ r= = 0' 7307 167 0' 4934 . 0' 4952 X=

Coincidente con el calculado en el apartado anterior, como era de esperar.

12 - Regresión y correlación (F. Álvarez)

6 Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso. Las clasificaciones en dichas pruebas fueron : 100 metros : A,B,C,D,E,F,G,H,I,J,K,L Peso : K,I,J,L,G,H,F,D,E,B,C,A a) Determine la relación existente entre las dos clasificaciones en las pruebas descritas, mediante el coeficiente más adecuado. b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado anterior. Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de correlación por el método de los rangos de Spearman.

a)

Coeficiente de correlación ρ : 6.∑ d 2 6.552 ρ = 1− = 1− = −0'9301 2 N. N − 1 12. 12 2 − 1

(

)

(

)

(Ver tabla siguiente)

A continuación se ofrecen las tablas auxiliares de cálculos de ρ y r , calculados para comprobar que coinciden. X 1 2 3 4 5 6 7 8 9 10 11 12 78

b)

Para el cálculo de ρ Y d 11 -10 9 -7 10 -7 12 -8 7 -2 8 -2 6 1 4 4 5 4 2 8 3 8 1 11 78 0

d2 100 49 49 64 4 4 1 16 16 64 64 121 552

X 1 2 3 4 5 6 7 8 9 10 11 12 78

Para el cálculo de r Y X2 Y2 11 1 121 9 4 81 10 9 100 12 16 144 7 25 49 8 36 64 6 49 36 4 64 16 5 81 25 2 100 4 3 121 9 1 144 1 78 650 650

X.Y 11 18 30 48 35 48 42 32 45 20 33 12 374

Coeficiente de correlación de Pearson : 650 78 = 6' 5 s 2X = − 6' 5 2 = 11' 9167 ⇒ s X = 11' 9167 = 3' 4521 12 12 650 78 Y= = 6' 5 s 2Y = − 6' 5 2 = 11' 9167 ⇒ s Y = 11' 9167 = 3' 4521 12 12 −11' 0833 374 s XY = − 6' 5 . 6' 5 = − 11' 0833 ⇒ r= = − 0' 9301 12 3' 4521. 3' 4521 X=

En efecto coinciden los coeficientes de correlación obtenidos por los dos métodos. Su alto valor negativo (próximo a -1) nos indica que existe una fuerte relación entre las dos clasificaciones en las pruebas atléticas, quedando mejor clasificados en una los peor clasificados en la otra.

7 De los archivos de la Dirección provincial de Tráfico se han seleccionado los expedientes de 64 conductores, realizando el siguiente recuento en función del sexo (M = mujer ; H = hombre) y el número de multas impuestas durante el último año. Sexo Nº de multas en el último año

1 2 3 4 5 6

M 9 7 6 1 1 0

H 0 0 2 9 11 18

¿ Qué conclusión puede deducirse acerca de la relación existente entre sexo y número de denuncias ?. Utilice para ello el índice de asociación más apropiado. Al ser dicotómica la variable sexo, obtendremos el coeficiente de correlación biserial puntual : Regresión y correlación (F. Álvarez) - 13

Y X

1 2 3 4 5 6

M=1

H=0

n

n.X

n.X2

Y=1 n.X1

Y=0 n.X0

9 7 6 1 1 0 24

0 0 2 9 11 18 40

9 7 8 10 12 18 N=64

9 14 24 40 60 108 255

9 28 72 160 300 648 1217

9 14 18 4 5 0 50

0 0 6 36 55 108 205

50 205 24 40 = 2' 0833 = 5' 125 X0 = p= = 0' 375 q = = 0' 625 = 1 − p 24 40 64 64 1217 255 X= = 3' 9844 s 2X = − 3' 9844 2 = 3' 1404 ⇒ s X = 3' 1404 = 1' 7721 64 64 X − X0 2' 0833 − 5' 125 Con esto : rbp = 1 . p. q = . 0' 375 . 0' 625 = − 0' 831 sX 1' 7721 X1 =

Es decir existe una fuerte relación, de sentido inverso, entre ambas variables. Algo que podía advertirse al analizar el recuento de las observaciones.

8 Para analizar si existe o no relación entre las calificaciones en materias científicas y las del área literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada área). Clasificados por orden de puntuación resultó : Alumno P. Científica P. Literaria

1 3º 3º

2 6º 5º

3 7º 7º

4 1º 4º

5 2º 1º

6 8º 8º

7 5º 2º

8 4º 6º

Utilizando el índice adecuado establezca el grado de relación que existe entre las calificaciones de dichas áreas de conocimiento. Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba científica y en la literaria . Ordenadas las primeras, calculemos sus diferencias : X 1 2 3 4 5 6 7 8

Con ello :

ρ = 1−

6.∑ d 2

(

Y 4 1 3 6 2 5 7 8

)

N. N −1 2

= 1−

d -3 1 0 -2 3 1 0 0

d2 9 1 0 4 9 1 0 0 24

6.24 = 0'7143 8. 8 2 − 1

(

)

Es decir, existe una alta relación entre las calificaciones. Generalmente un alumno con altas calificaciones en el área científica tendrá altas calificaciones en el área de conocimientos literarios.

14 - Regresión y correlación (F. Álvarez)

9 Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias y sólo 2 de Letras. Calcule el coeficiente de correlación más adecuado para medir el grado de asociación existente entre las variables descritas. Se trata de analizar la relación que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo. Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos : Y X

ϕ=

1 (Repite) a = 16 c=2 18

1 (Ciencias) 0 (Letras)

0 (No repite) b=1 d = 12 13

17 14

ad − bc 16.12 − 1.2 = = 0'8051⇒ alta relación entre las variables. (a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13

10 Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepción visual. Los resultados fueron los siguientes : Test A Test B

3 4

4 5

5 5

5 6

6 7

7 8

8 8

9 10

10 11

12 14

a) Obtenga las ecuaciones de las rectas de regresión del test A sobre el B, en puntuaciones directas, diferenciales y típicas. b) Determine la proporción de varianza residual que se presenta en dicho ajuste. Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B, procedemos a realizar los cálculos necesarios : X 3 4 5 5 6 7 8 9 10 12 69

b=

a)

b)

[N .∑ X

X.Y 12 20 25 30 42 56 64 90 110 168 617

∑ Y − b . ∑ X = 78 − 1' 0809 . 69 = 0' 3416 N

N

. ∑Y ) N .∑ X .Y − (∑ X )( 2

Y2 16 25 25 36 49 64 64 100 121 196 696

. ∑ Y ) 10.617 − 69.78 N .∑ X .Y − (∑ X )( = = 1'0809 2 10.549 − 69 2 N .∑ X 2 − (∑ X )

a = Y − b. X =

r=

X2 9 16 25 25 36 49 64 81 100 144 549

Y 4 5 5 6 7 8 8 10 11 14 78

][

10

− (∑ X ) . N .∑ Y − (∑ Y ) 2

2

2

]

=

10

10.617 − 69.78

(10.549 − 69 )(. 10.696 − 78 ) 2

2

= 0'9861

Rectas de regresión : 1º.- En puntuaciones directas :

Y' = a + b . X

Y' = 0'3416 + 1'0809 . X

2º.- En puntuaciones diferenciales :

y' = b . x

y' = 1'0809 . x

3º.- En puntuaciones tipificadas:

zy' = r .zx

zy' = 0'9861 .zx

Proporción de varianza residual : Cuando se habla de proporción siempre se refiere al cociente entre la varianza total de Y; es decir, a la proporción de varianza de Y que representa la varianza solicitada. Regresión y correlación (F. Álvarez) - 15

2 Y .X 2 Y

s s

=

(

s .1− r sY2 2 Y

(

se2 = sY2. X = sY2 . 1 − r 2

Siendo la varianza de los errores (residual) : 2

) = 1− r

2

)

= 1 − 0'98612 = 0'0277

Sólo representa un 2'77% de la varianza del test A (Y), siendo la proporción de varianza no explicada por el test B (X).

11 A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) , (1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7) a) b) c)

Calcule la ecuación de la recta de regresión de Y sobre X. Represente gráficamente el diagrama de dispersión y la recta de regresión. Calcule e interprete el coeficiente de correlación.

Cálculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) : X 1 2 3 4 5 15

X=

a)

15 =3 5

b=

s 2X =

1' 4 = 0' 7 2

55 − 32 = 2 5

Y 4 5 5 6 7 27

Y=

X2 1 4 9 16 25 55

27 = 5' 4 5

Y2 16 25 25 36 49 151

s Y2 =

X.Y 4 10 15 24 35 88

151 − 5' 4 2 = 1' 04 5

a = 5' 4 − 0' 7. 3 = 3' 3

s XY =

88 − 3. 5' 4 = 1' 4 5

Y = 3'3 + 0'7 . X

b) Para X = 0 Para X = 5

Y = 3'3 Y = 6'8

(0 , 3'3) (5 , 6'8)

Enlazando los dos puntos anteriores obtenemos la gráfica de la recta.

Observe que el punto que tiene por coordenadas las medias de X e Y (3 , 5'4) , es un punto contenido en la recta de regresión. Apreciamos la proximidad de los puntos a la recta de ajuste, así como que dicha recta es creciente (r > 0).

c)

r=

1' 4

= 0' 9707

2 . 1' 04 Elevada relación entre las variables y de signo positivo. La recta de regresión es una buena función de ajuste, siendo creciente (r > 0). Para representar gráficamente la recta de regresión, localizamos dos puntos cualesquiera de ella : Y = 3'3 + 0'7 . X

16 - Regresión y correlación (F. Álvarez)

12 La recta de regresión de Y sobre X, calculada en el estudio de la relación existente entre dos variables, tiene por ecuación Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84. Si la distribución de las predicciones de Y tiene como media 3'6 y varianza 1'619936, a) calcule la media y varianza de X b) determine la ecuación de la recta de regresión de X sobre Y c) obtenga el valor del coeficiente de correlación. Iniciamos aquí una serie de ejemplos que requieren para su resolución el empleo de las diferentes relaciones funcionales (fórmulas para entendernos) tratadas en el tema. Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores conocidos. Tal vez así podamos obtener los que nos pida el problema. 1º.2º.3º.-

Y ' = 5'4 − 0'9. X

(a = Y − b. X )

5'4 = Y + 0'9. X

⎞ ⎛ s ⎜⎜ b = XY = −0'9 ⎟⎟ 2 sX ⎠ ⎝

s 2Y = 1' 84 s Y = 1' 84 = 1' 3565 Y' = Y = 3'6 s 2Y' = 1' 619936

Siendo 3'6 la media de Y, la expresión de a nos permite obtener la media de X :

5' 4 = Y + 0' 9 . X

5' 4 = 3' 6 + 0' 9 . X



X=

5' 4 − 3' 6 =2 0' 9

La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresión b necesitamos conocer antes la covarianza o el coeficiente de correlación). Partiendo, por ejemplo, de la proporción de varianza explicada (hace referencia a la varianza de las predicciones) :

r2 =

s 2Y' 1' 619936 = = 0' 8804 1' 84 s 2Y

⇒ r = 0' 8804 = ± 0' 9383

El coeficiente de correlación será negativo, ya que lo es el coeficiente de regresión b (b = -0'9), luego : r = 0'9383 .

sX nos permitirá calcular la desviación típica de X : sY sX −0' 9383. 1' 3565 ⇒ − 0' 9383 = − 0' 9 . ⇒ sX = = 1' 4142 ⇒ s X2 = 1' 4142 2 = 2 1' 3565 − 0' 9

La expresión r = b .

r = b.

sX sY

Finalmente, calculemos la recta de ajuste de X sobre Y :

b' =

s s XY 1' 4142 = r . X = − 0' 9383. = − 0' 9783 sY 1' 3565 s Y2

a ' = X − b' . Y = 2 − ( − 0' 9783 ). 3' 6 = 5' 5217

Su ecuación es : X' = 5'5217 - 0'9783 . Y

13 La recta de regresión de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la proporción de varianza no explicada por X del 25'58%. a) Calcule los coeficientes de correlación y de determinación. b) Siendo X = 5, ¿ qué pronóstico diferencial corresponde a una puntuación directa X = 4 ?.

a)

Los coeficientes de correlación y de determinación se obtienen directamente de la proporción de varianza no explicada : 1 - r2 = 0'2558 ⇒ r2 = 1 - 0'2558 = 0'7442 Luego : Coeficiente de determinación :

R2 = r2 = 0'7442

Coeficiente de correlación :

r = 0' 7442 = ± 0' 8627

Para determinar si el coeficiente de correlación es positivo o negativo se pueden seguir distintos procedimientos. Uno podría consistir en dibujar la recta de regresión (enlazando los dos puntos conocidos) observando si es creciente (b > 0 y r > 0) o decreciente (b < 0 y r < 0). Así resulta que es creciente y, por tanto, r = 0'8627.

b)

Determinemos la recta de regresión en puntuaciones directas y diferenciales : Si la recta de regresión Y' = a + b.X pasa por (0'5,0) y (0,-0'4) , significa que : - para X = 0'5 Y' = 0 : 0 = a + b.0'5 - para X = 0 Y' = -0'4 : -0'4 = a + b.0 ⇒ -0'4 = a ⇒ 0 = -0'4 + b.0'5 ⇒ b = 0'4 / 0'5 = 0'8 Regresión y correlación (F. Álvarez) - 17

La recta de regresión es : en puntuaciones directas : en puntuaciones diferenciales :

Y' = -0'4 + 0'8 . X y' = 0'8 . x

A la puntuación directa X = 4 , le corresponde una puntuación diferencial : x = X − X = 4 − 5 = − 1 luego el pronóstico diferencial correspondiente es : y' = 0'8 . x = 0'8 . (-1) ⇒ y' = -0'8 NOTA : Calculado b = 0'8 > 0, concluiremos que el coeficiente de correlación es también positivo (r = 0'8627), tal como se dedujo en el apartado a).

14 A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2 respectivamente. Si la proporción de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son: 1 , 3 , 5 , 6 y 11 a) obtenga las ecuaciones de las dos rectas de regresión b) calcule el coeficiente de correlación c) un pronóstico tipificado 1'1868 , ¿ a qué puntuación directa de X corresponde ?.

a) En la recta de regresión de Y sobre X : Y' = a + b.X - Para X = 2 , Y' = 3'2 : 3'2 = a + 2.b - Para X = 6 , Y' = 7'2 : 7'2 = a + 6.b Resolviendo el sistema obtenemos : a = 1'2 b = 1

Y' = 1'2 + X

Para el cálculo de la recta de regresión de X sobre Y no disponemos de elementos suficientes de momento.

b) Con los valores conocidos de Y calculamos su media, varianza y desviación típica :

Y=

1 + 3 + 5 + 6 + 11 = 5' 2 5

s 2Y =

12 + 3 2 + 5 2 + 6 2 + 112 − 5' 2 2 = 11' 36 5

s Y = 11' 36 = 3' 3705

Si la proporción de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el coeficiente de correlación r también será positivo. Es decir :

r = + 0' 7042 = 0' 8392 De la recta de regresión de Y sobre X deducimos (para las medias) :

Y ' = Y = 1' 2 + X



X = Y − 1' 2 = 5' 2 − 1' 2 = 4

La desviación típica de X la podemos obtener ahora de la relación :

r = b.

sX sY



sX =

r . s Y 0' 8392. 3' 3705 = = 2' 8284 1 b



s X2 = 2' 8284 2 = 8

a bis) Estamos en condiciones de calcular la recta de regresión de X sobre Y : s r . s X 0' 8392. 2' 8284 r = b'. Y ⇒ b' = = = 0' 7042 ⇒ a = X − 0' 7042. Y = 4 − 0' 7042. 5' 2 = 0' 3380 3' 3705 sX sY La recta de regresión de X sobre Y tiene por ecuación : X' = 0'3380 + 0'7042 . Y

c)

z Y' = 0' 8392. z X La recta de regresión de Y sobre X en puntuaciones típicas es : z Y' = r . z X Para el pronóstico tipificado 1'1868 deduciremos el valor tipificado de X. Teniendo en cuenta el proceso de tipificación, deduciremos la puntuación directa de X z Y' = 1' 1868

zX =

1' 1868 X− X X−4 = 1' 4142 = = 0' 8392 sX 2' 8284



X = 1' 4142. 2' 8284 + 4 = 8

15 En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron dicotomizadas por la Mediana formándose dos categorías: altos (A) y bajos (B). Los resultados son los siguientes : Sujeto X Y

1 B 5

2 A 3

3 B 3

4 A 0

5 A 1

6 B 3

7 B 2

8 A 0

9 A 1

10 B 2

Elija y calcule el índice de correlación adecuado para medir la relación existente entre X e Y. 18 - Regresión y correlación (F. Álvarez)

X

nA nA.X nB nB.X X

0 1 2 3 4 5

XA =

2 2 0 1 0 0

0 2 0 3 0 0

0 0 2 2 0 1

0 0 4 6 0 5

5

5

5

15

n

0 1 2 3 4 5

n.X n.X2

2 2 2 3 0 1

0 2 4 9 0 5

0 2 8 27 0 25

10

20

62

5 15 20 62 = 1; XB = = 3 ; X = = 2 ; SX = − 2 2 = 1483 ' 5 5 10 10 rbp =

XA − X B 1− 3 5 5 . p. q = . . = −0'674 SX 1483 ' 10 10

Cierta relación entre las variables, de signo inverso. A mayor puntuación en la prueba Y menor nivel en X.

16 La puntuación estimada de la variable Y para un valor 0 de la variable X es 0’5454, siendo la varianza de esta variable 16’5. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variación de X es 4’545% y que la varianza del error es 0’318297, hallar : a) la correlación de Pearson entre X e Y. b) la ecuación de regresión para pronosticar Y a partir de X. c) la varianza de las puntuaciones pronosticadas. Datos

:

Y' = a + b. X → 0'5454 = a + b.0 → a = 0'5454 ; S 2X = 16'5 ;

S e2 S 2y

a)

1 - r2 = 0’04545 ⇒ r2 = 1 - 0’04545 = 0’95455 ⇒ r = 0’977

b)

a = 0’5454

= 1 − r 2 = 0'04545 ; S e2 = 0'318297

0'318297 = 0'04545 ⇒ S 2Y = 7'003 ⇒ S Y = 2'646 S 2Y S r.S Y 0'977.2'646 r = b. X ⇒ b = = = 0'6364 ⇒ Y' = 0'5454 + 0'6364. X SY SX 16'5

S 2Y = S e2 + S Y2 '

c)

→ S Y2 ' = S Y2 − S e2 = 7'003 − 0'318297 = 6'684703

17 Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 2’4545 y 3’7272 respectivamente. El coeficiente de correlación entre X e Y es 0’977, y la varianza de la variable X es 16’5. Con estos datos calcular : a) la ecuación de la recta de regresión. b) la varianza de las puntuaciones pronosticadas. c) la proporción de varianza de la variable Y no asociada a la variación de X. Datos :

⎧2'4545 = a + 3. b Y' = a + b. X → ⎨ ⎩ 3'7272 = a + 5. b

a)

Resolviendo el sistema anterior :

b)

r2 =

r = b. c)

s2y ' s2y

a = 0’54545

r = 0'977

b = 0’63635

S2X = 16'5 Y’ = 0’54545 + 0’63635.X

⇒ s2y ' = r 2 . s2y

SX 16'5 ⇒ 0'977 = 0'63635. = 0'6364 ⇒ SY = 2'656594 ⇒ SY2 ' = 0'977 2 .2'656594 2 = 6'7366 SY SY

1 - r2 = 1 - 0’9772 = 0’045471

(4’5471%) Regresión y correlación (F. Álvarez) - 19

18 Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final. a) Encuentre la puntuación pronosticada en LKS de un sujeto cuya puntuación directa en C es 15. b) Encuentre la parte de la varianza de LKS asociada a la variación de C. c) Interprete el resultado obtenido al calcular el estadístico que expresa la relación entre LKS y C. Sujetos LKS C Y = LKS

A 49 8

B 40 16

C 43 14

D 31 20

E 37 12

X=C X 8 16 14 20 12 70

Y 49 40 43 31 37 200

X2 64 256 196 400 144 1060

Y2 2401 1600 1849 961 1369 8180

X.Y 392 640 602 620 444 2698

70 200 1060 = 14 ; Y = = 40 ; S 2X = − 14 2 = 16 ; S X = 4 5 5 5 8180 2698 S 2Y = − 40 2 = 36 ; S Y = 6 ; S XY = − 14.40 = −20'4 5 5 X=

b = -20’4 / 16 = -1’275

a = 40 - (.1’275).14 = 57’85

a) Y’ = 57’85 - 1’275.X = 57’85 - 1’275 . 15 = 38’725 b)

r = -20’4 / 4 . 6 = -0’85 ⇒ r2 = 0’7225 (72’25%)

c) Alta relación entre las dos pruebas (r=-0’85) y de signo inverso. Es decir, un sujeto con alta puntuación en LKS tendrá baja puntuación en C

19 La empresa de publicidad “VENDEBIEN” quiere saber si la aceptación o rechazo dependen del sexo. Para ello se encuesta a 200 personas de las cuáles el 50% son mujeres; 40 hombres rechazan el producto mientras que 30 mujeres lo aceptan. Elija y calcule el índice de correlación adecuado para interpretar estos datos.

Aceptan Rechazan

ϕ=

H a=60 c=40

M b=30 d=70

60.70 − 30.40 ad − bc = = 0'3015 ( a + b).( c + d ).( a + c).( b + d ) 90110 . .100.100

Escasa relación entre la aceptación y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.

20 La ecuación de la recta de regresión que permite pronosticar las calificaciones en Psicología Matemática II (Y) a partir de las calificaciones en Psicología Matemática I (X) es la siguiente : Y’ = 0’8.X - 0’25 Sabiendo que Sx

= (4/5).Sy ; Sy = 3 , X , Y.

y que

X − Y = 1'74 , calcule :

a) rxy b) la varianza de las puntuaciones pronosticadas. c) la proporción de varianza error cometida al pronosticar, utilizando la recta de regresión anterior.

20 - Regresión y correlación (F. Álvarez)

Datos :

Y' = 0'8. X − 0'25 ; S X =

4 . S ; S = 3 ; X − Y = 1'74 5 Y Y

a)

⎫⎪ b = 0'8 2'4 S 4 ⎬ ⇒ r = b. X = 0'8. = 0'64 S X = .3 = 2'4 ⎪ 3 SY ⎭ 5 a = Y − b. X −0'25 = Y − 0'8. X ⎫ ⎧ X = 7'45 ⎬⇒⎨ ' X − Y = 174 ⎭ ⎩ Y = 5'71

b)

r =

c)

1 - r2 = 1 - 0'642 = 0'5904 (59'04%)

2

s2y ' s2y

⇒ s2y ' = r 2 . s2y = 0'64 2 .32 = 3'6864

21 La recta de regresión de Y sobre X, que permite el pronóstico en el rendimiento en un trabajo manual a partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y’ = 8 y al de abscisas en X = -4, en puntuaciones directas. a) Calcule la ecuación de la recta de regresión anterior en puntuaciones directas. b) Represente gráficamente la recta de regresión anterior. c) Calcule el coeficiente de correlación entre X e Y sabiendo que la varianza de los errores es la cuarta parte de la varianza de Y. b)

a) Para X = 0 , Y’ = 8 y, para X = -4, Y’ = 0

⎧ 8=a ⎧a = 8 Y' = a + b. X → ⎨ ⇒⎨ → Y' = 8 + 2. X ⎩b = 2 ⎩0 = a − 4. b

c)

1 S 2e = .S 2Y 4

⇒ S e2 = S 2Y . ( 1 − r 2 )

1 2 .S Y 3 4 ⇒ r2 = 1− 2 = 1− 2 = 4 SY SY S 2e

⇒ r = 0'866

22 Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :

X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10 a) Elena C. obtuvo una puntuación de 130 en X. Estime su puntuación en Y. b) Se estimó la puntuación 1’28 en la variable Y para Gonzalo S.. ¿ Cuál fue su puntuación en la variable X ?. c) Determinar el valor de

a)

b = r.

sy sx

= 0'7.

Sy.x

y la desviación típica de las puntuaciones pronosticadas (Sy’).

0'55 = 0'0385 ; a = 130 ' − 0'0385x119 = −3'2815 ⇒ Y' = −3'2815 + 0'0385. X ⇒ 10

⇒ Y' = −3'2815 + 0'0385130 . = 1'7235 b)

c)

1’28 = -3’2815+0’0385.X ⇒ X = 118’48

S Y.X = S Y . 1 − r 2 = 0'55. 1 − 0'7 2 = 0'3928 S 2Y' = S Y2 − S Y2 .X = 0'3025 − 01543 ' = 01482 ' ⇒ S Y' = 0'385

Regresión y correlación (F. Álvarez) - 21

23 La siguiente gráfica muestra las calificaciones obtenidas por dos grupos de alumnos que han estudiado con dos métodos de enseñanza distintos (A y B). Elija, calcule e interprete el coeficiente de correlación más adecuado para estudiar la relación entre el método de enseñanza y las calificaciones.

XA

XB

2 4 6 8

2 4 5 6 9 10 36

20

X X2

2

4

6

8

2

4

5

6

9

10

56

4

16

36

64

4

16

25

36

81

100

382

Biserial puntual (rbp). Una cuantitativa (calificación) y la otra dicotómica (método).

XA =

20 36 56 = 5 ; XB = = 6; X = = 5'6 ; S X = 4 6 10 rbp =

382 − 5'6 2 = 2'61 10

XA − X B 5− 6 4 6 . p. q = . . = −0187 ' SX 2'61 10 10 r2 = 0’035 (3’5%)

Existe una relación muy baja (del 3’5%) entre el método seguido y las calificaciones. De aceptarse la relación diríamos que los alumnos que siguen el método B obtienen mejores resultados (signo negativo de r).

24 Sabemos que las puntuaciones diferenciales pronosticadas (y’) son cinco veces las puntuaciones diferenciales de la variable X, y que la proporción de varianza asociada entre X e Y es igual a 0’25. Calcular : a) La pendiente de la recta de regresión de Y sobre X en puntuaciones directas y diferenciales. b) La pendiente de la recta de regresión de Y sobre X en puntuaciones típicas. c) La pendiente de la recta de regresión de X sobre Y en puntuaciones directas.

y’ = 5x

Datos :

r = 2

s2y ' s2y

= 0'25

a)

b=5

b)

r2 = 0’25 ⇒ r = 0’5

c)

b.b’ = r2 ⇒ 5.b’ = 0’25 ⇒ b’ = 0’25 / 5 = 0’05

25 Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos : Σxy=480 ; Σx2=400 ; Σy2=ΣY=900. Sabiendo además que X e Y son dos variables cuantitativas que mantienen una relación lineal y que, lógicamente, Σx = Σy = 0 a) ¿Cuánto valdrá el coeficiente de correlación de Pearson entre X e Y ?. b) ¿Cuánto valdrá la desviación típica de los errores cometidos al pronosticar Y a partir de X ?. c) ¿ Qué puntuación directa pronosticaremos en Y a un sujeto que ha obtenido una puntuación x=-2 ?. Se sigue en el enunciado la notación usual de representación de puntuaciones directas (mayúscula) y diferenciales (minúscula). Recordemos que : 22 - Regresión y correlación (F. Álvarez)

En puntuaciones directas

S XY =

∑ ni .(X i − X )(. Yi − Y ) i

N

S X2 = a)

∑ n .(X i

− X)

2

i

=

i

N

Para puntuaciones diferenciales :

s xy

∑ xy = 480 = 4'8 = n

sx =

100

=

∑ ni . X i .Yi i

N

∑ n .X i

i

N

∑ x2 n

2 i

En puntuaciones diferenciales

− X .Y

S XY =

S X2 =

−X2

400 = =2 100

sy =

∑ y2 n

=

∑ n .x . y i

i

i

i

N

∑ n .x i

2 i

i

N

900 =3 100

r = 4’8 / 2'3 = 0’8 b)

se = s y.x = s y . 1 − r 2 = 3. 1 − 0'8 2 = 18 '

c)

En puntuaciones diferenciales : y’ = b.x , con b = r . Para x = -2 : y’ = 1’2 . (-2) = -2’4 Como :

y' = Y'− Y ⇒ Y' = y'+ Y = y'+

sy

3 = 0'8. = 12 ' sx 2

∑ Y = −2'4 + 900 = −2'4 + 9 = 6'6 N

100

26 La empresa de publicidad “VENDEBIEN” quiere saber si existe relación entre la duración de un anuncio en T.V. y la aceptación o rechazo del mismo. Los resultados de la encuesta se incluyen en la siguiente tabla. Elija y calcule el índice de correlación adecuado para interpretar estos datos.

Duración 5-9 10 - 14 15 - 19 20 - 24 25 - 29

X

n

n.X

n.X2

3 5 6 4 2

21 60 102 88 54

147 720 1734 1936 1458

20

325

5995

5-9 10-14 15-19 20-24 25-29

XA =

7 12 17 22 27

nA nA.X nR nR.X X 3 4 4 1 0

21 48 68 22 0

0 1 2 3 2

0 12 34 66 54

12

159

8

166

7 12 17 22 27

Aceptación 3 4 4 1 0

Rechazo 0 1 2 3 2

159 166 325 5995 = 13'25 ; X R = = 20'75 ; X = = 16'25 ; S X = − 16'252 = 5'974 12 8 20 20 X − XR 13'25 − 20'75 12 8 rbp = A . p. q = = −0'615 . . SX 5'974 20 20

Cierta relación entre las variables, de signo inverso. A mayor duración mayor rechazo.

27 El gabinete de estudios sobre “Malestar Social” desea conocer si existe relación entre la consumición de drogas y la comisión de delitos sobre la propiedad. Para ello se selecciona una muestra y se comprueba que 50 individuos han consumido algún tipo de droga y a la vez han estado implicados en delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que la muestra constaba de 500 individuos, ¿ qué conclusión obtendrá el gabinete de estudios ?. (Elija, calcule e interprete el coeficiente de correlación adecuado).

Regresión y correlación (F. Álvarez) - 23

Droga SI a=50 c=150

Delito SI Delito NO

ϕ=

Droga NO b=50 d=250

. ad − bc 50.250 − 50150 = 0144 ' = (a + b).( c + d ).( a + c).( b + d ) 100.400.200.300

Escasa relación entre consumo de drogas y comisión de delitos. De aceptarla, la mayor comisión de delitos se produce en consumidores de drogas.

28 Un grupo de hombres y mujeres responde a una prueba (X). Los datos obtenidos aparecen en la siguiente tabla. Elija razonadamente, calcule e interprete el coeficiente de correlación adecuado, para estudiar la relación entre las puntuaciones de la prueba y la variable sexo.

2-4 5-7 8-10 11-13

XM =

Mujeres 8 6 5 1

X 11 - 13 8 - 10 5-7 2-4

X nM nM.X nH nH.X X

n

n.X

n.X2

3 6 9 12

7 11 11 11

21 66 99 132

63 396 891 1584

40

318

2934

1 5 6 8

3 30 54 96

6 6 5 3

18 36 45 36

20

183

20

135

3 6 9 12

Hombres 3 5 6 6

183 135 318 2934 = 9'15 ; X H = = 6'75 ; X = = 7'95 ; S X = − 7'952 = 3186 ' 40 40 20 20 rbp =

XM − XH 9'15 − 6'75 20 20 . p. q = . . = 0'377 SX 3186 ' 40 40

Muy débil relación entre las variables, de signo directo. De aceptarse, la mayor calificación se produce en mujeres.

29 Elija el coeficiente de correlación más apropiado entre las variables “puntuaciones en un test de inteligencia” (X), y “prejuicio antiprotestante” (Y), teniendo en cuenta el cuadro adjunto. En este cuadro, fA significa frecuencia con alto prejuicio y fB frecuencia con bajo. Calcule el coeficiente de correlación elegido y comente brevemente el resultado obtenido.

0-2 3-5 6-8 9-11

XA =

9 - 11 6-8 3-5 0-2

X

X

nA nA.X nB nB.X X

n

n.X

n.X2

1 4 7 10

0 0 40 40

0 0 280 400

10 10 0 0

10 40 0 0

10 10 40 40

10 40 280 400

10 160 1960 4000

80

680

20

50

100

730

6130

1 4 7 10

Y fA 40 40 0 0

fB 0 0 10 10

730 6130 680 50 = 8'5 ; X B = = 2'5 ; X = = 7'3 ; S X = − 7'32 = 2'83 80 20 100 100 rbp =

XA − X B 8'5 − 2'5 80 20 . p. q = . . = 0'848 SX 2'83 100 100

Elevada relación entre las variables, de signo directo. A mayor puntuación en el test mayor prejuicio antiprotestante.

24 - Regresión y correlación (F. Álvarez)

30 Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :

X = 50 , Y = 6 , S x = 6 , S Y = 2 , rxy = 0'8 , n = 5 a) ¿ Qué puntuación directa en Y pronosticaremos a un sujeto que obtuvo una puntuación directa en X de 52 ?.) b) ¿ Cuánto valen



y

S y.x

?.

sy

2 = 0'8. = 0'267 ; a = 6 − 0'267 x50 = −7'35 ⇒ sx 6 Y' = −7'35 + 0'267. X ⇒ Y' = −7'35 + 0'267 x52 = 6'534

b = r.

a)

S 2y'

S Y.X = S Y . 1 − r 2 = 2. 1 − 0'8 2 = 12 '

b)

S Y2 ' = S Y2 − S Y2 .X = 4 − 144 ' = 2'56

31 Estudiando una muestra de 50 alumnos de BUP se observó que una proporción de 0’10 estaba compuesta por alumnos hijos únicos. De los 50 alumnos, una proporción de 0’6 comían en el Colegio. Si sabemos que una proporción de 0’04, con respecto al total, son hijos únicos que no comen en el Colegio. ¿ Existe una relación entre ser hijo único o no y comer o no en el Colegio ?. Halle el coeficiente de correlación que corresponda e interprete el resultado.

Comen SI Comen NO

Único SI a=3 c=2

ϕ=

Único NO b=27 d=18

318 . − 27.2 ad − bc =0 = (a + b).( c + d ).(a + c).( b + d ) 30.20.5.45

Las variables son independientes. No existe ningún tipo de relación entre ser hijo único y comer en el colegio.

32 La desviación típica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2. También conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo que el índice de asociación entre las variables ansiedad y sexo es igual a +1, y que el número de varones es superior al de mujeres : a) ¿ Qué coeficiente de correlación habrá sido utilizado ?. b) Interprete el valor del coeficiente de correlación. c) Calcule la proporción de varones que componen nuestra muestra. a)

Biserial puntual (rbp). Una cuantitativa y la otra dicotómica.

b)

Relación perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.

rbp = c)

xv − xm 10 − 5 2 . p. q = 1 = . p. q ⇒ p. q = = 0'4 ⇒ p. q = 016 ' 2 5 sx

' ⇒ p − p 2 = 016 ' ⇒ p 2 − p + 016 ' =0⇒p= p.(1 − p) = 016

1 ± 1 − 0'64 1 ± 0'6 ⎧ p = 0'8 = =⎨ 2 2 ⎩ p = 0'2

La solución es 0’8 al indicar que hay más varones que mujeres.

33 0 X 1 2 3

[0,10) 0 0 5 3

Y [10,20) 1 5 18 2

[20,30) 0 20 6 1

[30,40] 16 3 0 0

Con la presente distribución bivariante obtenga : a) recta de regresión de la media de Y condicionada a X b) coeficiente de correlación de la media de Y condicionada a X c) recta de regresión de Y sobre X d) coeficiente de correlación lineal (de Y sobre X) e) razón de correlación.

Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el significado de la razón de correlación calculada. Regresión y correlación (F. Álvarez) - 25

a) b) Para cada valor de la variable X, determinamos la media de los correspondientes valores de Y. Obtendremos también las varianzas de cada valor Y para calcular posteriormente la razón de correlación (apartado e). [0,10) [10,20) [20,30) [30,40] X=0

X=1

X=2

X=3

y f

5 0

15 1

25 0

f.y f.y2

35 16

0

15

0

560

Σ = 575

0

225

0

1960

Σ = 2185

Σ = 17

[0,10)

[10,20)

[20,30)

[30,40]

y f

5 0

15 5

25 20

35 3

f.y

0

75

500

105

Σ = 680

f.y2

0

1125

12500

3675

Σ = 17300

[0,10)

[10,20)

[20,30)

[30,40]

5 5

15 18

25 6

35 0

Σ = 29

y f

Σ = 28

f.y

25

270

150

0

Σ = 445

f.y2

125

4050

3750

0

Σ = 7925

[0,10)

[10,20)

[20,30)

[30,40]

5 3

15 2

25 1

35 0

Σ=6

f.y

15

30

25

0

Σ = 70

2

75

450

625

0

Σ = 1150

y f f.y

Con las tablas de cálculos anteriores obtenemos :

X

Y (*)

n

X=0

y 1 = 33'8

= 22 '1453

0

33'8

17

X=1

y 2 = 24 '3

= 28'0612

1

24'3

28

X=2

y 3 = 15'3

= 37 '8121

2

15'3

29

X=3

y 4 = 11'7

3

11'7

6

s 2y1 s 2y 2 s 2y 3 s 2y 4

= 55'5556 ( )

* Medias de cada Y condicionado a X

Con esta distribución procedemos a calcular la recta de regresión y el coeficiente de correlación (omitimos la tabla de cálculos) : Σ n.X Σ n.X2 Σ n.Y Σ n.Y2 Σ n.X.Y

= = = = =

104 198 1768'9 43565'15 1778'4

Media de X = 1'3 Varianza de X = 0'785 Media de Y = 22'11 Varianza de Y = 55'657 Covarianza = -6'5146

Recta de regresión de la media de Y condicionada a X Y' = 32'8998 - 8'2989.X Coeficiente de correlación de la media de Y condicionada a X 2 r = -0'9856 (r = 0'9714)

c) d)

X

Y

0 0 0 0 1 1 1 1 2 2 2 2 3 3 3 3

5 15 25 35 5 15 25 35 5 15 25 35 5 15 25 35

26 - Regresión y correlación (F. Álvarez)

n

n.X

n.X²

n.Y

n.Y²

n.X.Y

0 1 0 16 0 5 20 3 5 18 6 0 3 2 1 0

0 0 0 0 0 5 20 3 10 36 12 0 9 6 3 0

0 0 0 0 0 5 20 3 20 72 24 0 27 18 9 0

0 15 0 560 0 75 500 105 25 270 150 0 15 30 25 0

0 225 0 19600 0 1125 12500 3675 125 4050 3750 0 75 450 625 0

0 0 0 0 0 75 500 105 50 540 300 0 45 90 75 0

80

104

198

1770

46200

1780

Media de X = 1'3 Varianza de X = 0'785 Media de Y = 22'125 Varianza de Y = 87'9844 Covarianza = -6'5125

Recta de regresión de Y sobre X Y' = 32'91 - 8'2962.X Coeficiente de correlación lineal 2 r = -0'7836 (r = 0'6141)

e) Razón de correlación : 2

ni .s y 1 1 17.22'1453 + 28.28'0612 + 29.37'8121 + 6.55'5556 η = 1 − .∑ 2 i = 1 − . = 0'6317 N 80 87'9844 sY 2

Conclusiones : • •

Comprobamos que η2 toma un valor comprendido entre 0 y 1 y verifica que η2 ≥ r2 (0'6317 ≥ 0'6141). Al ser muy próximo η2 a r2, concluimos que la relación entre las variables X , Y es de tipo lineal.



Esta última conclusión habríamos deducido al comprobar que las rectas de ajuste de Y sobre X y la de la media de Y condicionada a X prácticamente coinciden : Y' = 32'91 - 8'2962.X Y' = 32'8998 - 8'2989.X



La sustitución de las observaciones Yi por su promedio, ha permitido aumentar el valor del coeficiente de correlación : r = -0'7836 r = -0'9856 incrementando así la proporción de varianza explicada por el ajuste : 2 r2 = 0'9714 (97'14%) r = 0'6141 (61'41%)

34 De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemáticas y en Filosofía. El número de aprobados en ambas ascendió a 15, suspendiendo 12 las dos materias, mientras que sólo aprobó Matemáticas el 10% de los alumnos. a) Calcule el coeficiente de correlación más adecuado para medir el grado de asociación existente entre las variables descritas. b) Asumiendo que las calificaciones en Matemáticas y en Filosofía se distribuyen normalmente, determine otro coeficiente que estudie el nivel de asociación y no esté basado en el concepto de correlación de Pearson Se trata de analizar la relación que puede existir entre las calificaciones en las dos materias. a) Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

X Matemáticas

ϕ=

ad − bc

1 (Aprueban) 0 (Suspenden)

(a + b )(. c + d )(. a + c )(. b + d )

=

Y - Filosofía 1 (Aprueban) 0 (Suspenden) a = 15 b=4 c=9 d = 12 24 16

15.12 − 4.9 19.21.24.16

19 21

= 0'3679⇒ baja relación entre las variables.

El aprobar o suspender una materia no condiciona el resultado final en la otra. b) Siendo las dos variables dicotómicas (normalmente distribuidas inicialmente), calculamos el coeficiente de correlación tetracórica (rt). 1º Calculamos los productos : a.d = 15 . 12 = 180 y b.c = 4 . 9 = 36. 2º Como a.d > b.c , calculamos el cociente : C = a.d / b.c = 180 / 36 = 5 (rt será positivo) 3º Consultamos la tabla XXV, para el cálculo del coeficiente de correlación tetracórico, localizando el cociente C=5 en el intervalo (A,B) = (4'8305 , 5'0075), al cuál corresponde un coeficiente 0'56 + R. De aquí :

R=

C−A 5 − 4'8305 = = 0'00958⇒rt = 0'56 + R = 0'56 + 0'00958 = 0'56958 100.(B − A) 100.(5'0075 − 4'8305)

NOTA : Generalmente se verifica que el coeficiente de correlación tetracórica y el coeficiente ϕ verifican la relación : Regresión y correlación (F. Álvarez) - 27

rt ≈ 1'5 . ϕ (con mayor rigor para valores del coeficiente tetracórico, menores o iguales a 0'5). En nuestro caso : 1'5 . ϕ = 1'5 . 0'3679 = 0'55185 ≈ rt Esto permite tener una referencia sobre el intervalo (-1 , 1), a la hora de interpretar el valor obtenido con el coeficiente de correlación tetracórica. Calculando el valor aproximado de ϕ , podremos medir el grado de asociación :

ϕ≈

rt 0'56958 = = 0'37972 15 ' 15 '



baja relación entre las variables

35 Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de COU, seleccionamos seis alumnos. Clasificados por orden de puntuación final en cada materia resultó : Alumno Matemáticas Filosofía

1 3º 3º

2 6º 5º

3 4º 6º

4 1º 4º

5 2º 1º

6 5º 2º

a) Utilizando el índice adecuado, basado en el concepto de correlación de Pearson, establezca el grado de relación que existe entre las calificaciones de las dos asignaturas. b) Resuelva lo solicitado en el apartado anterior mediante un índice que no esté basado en el concepto de correlación de Pearson a) Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos reordenaciones de los 8 alumnos). Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemáticas y en Filosofía. Ordenando las primeras (X), calculamos sus diferencias con las segundas : X 1 2 3 4 5 6

ρ = 1−

Con ello :

Y 4 1 3 6 2 5

d -3 1 0 -2 3 1

6. ∑ d 2

N. ( N 2 − 1)

= 1−

6 . 24

d2 9 1 0 4 9 1 24

6. ( 6 2 − 1)

= 0'3143

Es decir, apenas existe relación entre las calificaciones. b) Procede ahora el cálculo del coeficiente de correlación τ (tau) de Kendall : Reordenamos los pares de observaciones de modo que la variable X (primer elemento del par) quede en orden ascendente y comparamos cada valor de Y con los Yi siguientes, contando una permanencia (P) si Y < Yi y una inversión (I) si Y > Yi. : X 1 2 3 4 5 6

Y 4 1 3 6 2 5

(4,1) I (4,3) I (4,6) P (4,2) I (4,5) P

(1,3) P (1,6) P (1,2) P (1,5) P

(3,6) P (3,2) I (3,5) P

(2,5) P

En total hemos encontrado 8 permanencias (P) y 4 inversiones (I). Con ello :

τ=

Np − Ni 8−4 4 = = = 0'2667 n.( n − 1) 6.(6 − 1) 15 2 2

Es decir, como ocurrió con el coeficiente ρ, existe una escasa relación entre las calificaciones en Matemáticas y Filosofía.

28 - Regresión y correlación (F. Álvarez)

36 Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de COU, seleccionamos 30 alumnos analizando la puntuación final en cada materia . Teniendo en cuenta que se nos proporcionó en Filosofía solamente si el alumno aprobó (A) o suspendió, establezca el grado de relación que existe entre las calificaciones en dichas materias.

2 3 4 5 6 8

X Matemáticas

Y Filosofía A S 2 1 5 0 10 2 4 0 3 1 1 1

a) utilizando el índice adecuado, basado en el concepto de correlación de Pearson. b) mediante un índice que no esté basado en el concepto de correlación de Pearson. a) Al ser dicotómica la 2ª variable, obtendremos el coeficiente de correlación biserial puntual : Y X

2 3 4 5 6 8

S=0

n

n.X

n.X2

Y=1 n.X1

2 5 10 4 3 1 25

1 0 2 0 1 1 5

3 5 12 4 4 2 N=30

6 15 48 20 24 16 129

12 45 192 100 144 128 621

4 15 40 20 18 8 105

Y=0 n.X0 2 0 8 0 6 8 24

5 24 25 q= = 0167 ' = 4'8 p= = 0'833 30 5 30 621 − 4'32 = 2'21 ⇒ s X = 2'21 = 1487 ' s2X = 30

105 = 4'2 25 129 X= = 4'3 30

X0 =

X1 =

Con esto :

A=1

rbp =

X1 − X 0 4'2 − 4'8 . p. q = . 0'833.0167 ' ' = −01505 1487 ' sX

Es decir apenas existe relación entre ambas variables. b) Calculemos ahora el coeficiente de correlación biserial rb : Tomando el menor de los valores de p y q : min (p,q) = min (0'833 , 0'167) = 0'167

p. q (Tabla XXIII), que resulta ser igual a 0'55609 . f ( z) X1 − X 0 p. q 4'2 − 4'8 rb = = . .0'55609 = −0'2244 1487 ' sX f ( z)

obtenemos el valor tabulado del cociente Con esto :

Aunque no coincide su valor con el coeficiente de correlación biserial puntual, también podemos concluir que apenas existe relación entre ambas variables.

37 Hemos encontrado, utilizando el criterio de mínimos cuadrados, que las rectas de regresión de Y sobre X en puntuaciones directas y típicas son, respectivamente :

Y' = 1'2 . X + 4

zy' = 0'8 . zx

Sabiendo que : X = 5 , Y = 10 , S X = 2 , S Y = 3 , calcular : a) La varianza de las puntuaciones pronosticadas en Y. b) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 5 a todos los valores de X. c) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 3 a todos los valores de Y y multiplicamos por 2 todos los valores de X. Regresión y correlación (F. Álvarez) - 29

La recta de ajuste en puntuaciones típicas nos proporciona el coeficiente de correlación : r = 0'8 En consecuencia, sobra del enunciado el conocer una de las dos desviaciones típicas. Conocido r = 0'8 ; b = 1'2 y una de las desviaciones típicas (de X o de Y), la otra la habríamos calculado a partir de la relación :

r = b.

SX SY

Su conocimiento permite obtener la covarianza (cuyo cálculo tampoco resulta imprescindible) :

r= a)

S XY S X . SY

⇒ S XY = r. S X . SY = 0'8.2.3 = 4'8

2

Varianza de los pronósticos : SY'

Obtenida de la relación que proporciona la proporción de varianza explicada por el ajuste : S 2Y ' = r 2 → S 2Y ' = S Y2 . r 2 = 32 .0'8 2 = 5'76 S 2Y b) Si a los valores de X les sumamos 5, la nueva media se incrementa en 5, pero las medidas de dispersión se mantienen inalterables. Resulta así : X = 5 + 5 = 10 , Y = 10 , S X = 2 , SY = 3, S XY = 4' 8

b=

Luego :

S XY = 1'2 S2X

a = Y − b. X = 10 − 12 ' . 10 = −2 → Y' = −2 + 12 ' .X

c) Si a los valores de Y les sumamos 3, la nueva media se incrementa en 3, pero las medidas de dispersión se mantienen inalterables. Si los valores de X los multiplicamos por 2, la nueva media se multiplica por 2, y las medidas de dispersión también (la varianza por el cuadrado). Resulta así : X = 5 . 2 = 10 , Y = 10 + 3 = 13 , S X = 2 . 2 = 4 , SY = 3, S XY = 4' 8. 2 = 9'6 Luego :

b=

S XY S2X



2. S XY 2 = . b = 0'6 2 2 . S2X 4

a = Y − b. X = 13 − 0'6 . 10 = 7 → Y' = 7 + 0'6. X

38 Se desea estudiar si existe relación entre `padecer diabetes y ceguera en la tercera edad. Para ello se analiza una muestra de 1000 personas del INSERSO encontrándose que de todas ellas un 50% presentan simultáneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y el resto presentan en la misma medida sólo una u otra deficiencia. Con estos datos elija, calcule e interprete el coeficiente de correlación adecuado a dicho estudio. Se trata de analizar la relación que puede existir entre las dos enfermedades. Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) . • Padecen ambas 50% de 1000 500 • No padecen ninguna 40% de 1000 400 • Padecen sólo diabetes La mitad de los 100 restantes 50 • Padecen sólo ceguera La mitad de los 100 restantes 50 Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :

X Diabetes

ϕ=

1 (Padece) 0 (No padece)

ad − bc

( a + b) .( c + d).( a + c) .( b + d)

=

Y - Ceguera 1 (Padece) 0 (No padece) a = 500 b = 50 c = 50 d = 400 550 450

500.400 − 50.50 = 0'798 550.450.550.450



550 450

alta relación entre las variables.

El padecer o no una dolencia condiciona el padecer la otra.

30 - Regresión y correlación (F. Álvarez)

EJERCICIOS PROPUESTOS 1 X

Y

n

4 4 5 6 6 6

0 1 2 2 3 4

3 5 6 2 8 1

0 1 2

2 3 0 0

De la presente distribución conjunta de las dos variables (X,Y) : b) b) c)

Obtener la recta de regresión de Y sobre X en puntuaciones diferenciales. Obtener la recta de regresión de X sobre Y en puntuaciones típicas.. Calcular e interpretar la proporción de varianza residual.

2 Y

X

4 1 6 2

6 0 4 4

8 0 0 5

De la presente distribución conjunta de las variables (X,Y) : a) Obtener la recta de regresión de Y sobre X. b) Calcular e interpretar el coeficiente de determinación. c) Calcular su varianza residual.

3 De los 10 pares de valores que se representan en el diagrama de dispersión de la izquierda, a) Calcular la recta de regresión de Y sobre X. b) Calcular e interpretar el coeficiente de correlación lineal c) Determinar la proporción de varianza asociada a X. d) Calcular la media y varianza de las predicciones Y'. .

4 Y

X

3 4 5

0 0 3 5

1 1 7

2 5 15 1

3 12 2 0

De la presente distribución conjunta de las variables (X,Y) : a) Calcular la frecuencia que falta sabiendo que la media de X es igual a 4. b) Obtener la recta de regresión de Y sobre X en puntuaciones diferenciales. c) Calcular la proporción de varianza residual.

5 Edad

Hermanos

n

[10,15) [10,15) [10,15) [15,20) [15,20) [20,25] [20,25]

0 1 2 1 2 1 2

3 5 9 5 10 3 5

De la distribución de edades y número de hermanos de 40 jóvenes : a) c)

Obtener las rectas de regresión en puntuaciones directas, diferenciales y tipificadas. Calcular e interpretar el coeficiente de correlación lineal.

6 Las siguientes distribuciones bivariantes pretenden estudiar el grado de relación existente entre las variables : a) Puntuación en un test de agresividad y sexo. b) Clasificación (de mayor a menor) según la nota media obtenida en las asignaturas del curso y en una prueba tendente a determinar su coeficiente intelectual. c) Ser bebedor y ser fumador. Determine y calcule en cada caso el índice adecuado que permite medir el grado de relación entre las variables descritas.

Regresión y correlación (F. Álvarez) - 31

(I)

Puntos test [ 0,10) [10,20) [20,30) [30,40) [40,50) [50,60)

Sexo Hombre Mujer 0 2 5 3 11 9 20 22 14 9 6 6

(II) Alumno Nota media C.I.

1 2º 3º

2 4º 4º

3 5º 6º

4 1º 1º

Sí No

Fuman Sí No 4 31 41 14

(III) Beben

5 6º 5º

6 3º 2º

7 La proporción de varianza residual, en un ajuste de Y sobre X, es del 22'12%. a) Determine dicha recta de ajuste sabiendo que a una puntuación directa X=2 corresponde una predicción 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3). b) Calcule el coeficiente de correlación. c) ¿ Qué pronóstico diferencial corresponde a una puntuación directa X=5, si X = 0 ?.

8 En el estudio de la relación lineal existente entre dos variables X e Y se observó que eran independientes. Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154, a) calcule las ecuaciones de las dos rectas de regresión b) determine el error típico de la predicción.

9 De los cálculos realizados para estudiar la relación existente entre las variables X e Y, se conoce que : - la recta de ajuste de Y sobre X pasa por el punto (2,2) - las media de X es igual a 1 y la de Y vale 4 - la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047. A la vista de estos datos, calcule : a) Ecuaciones de las dos rectas de regresión en puntuaciones directas, diferenciales y típicas. b) Proporción de varianza no asociada a X.

10 Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresión correspondientes a la distribución bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que existe una relación lineal perfecta y directa entre ellas.

11 En el estudio de la relación lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas 0 y 2 de X le corresponden unos pronósticos respectivos 3’3243 y 7’7567. Sabiendo que la proporción de varianza asociada al ajuste es del 94’65% y que la variable dependiente tiene por media 8’2 y varianza 15’36, calcular : a) Ecuación de la recta de ajuste. b) Coeficiente de correlación. c) Media y varianza de la variable X. d) Varianza residual y de las predicciones.

12 Analizamos las edades de 8 personas que acuden a un examen para la obtención del carnet de conducir. Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 años, determine el coeficiente más adecuado para medir el grado de relación de la edad con la superación o no del examen.

13 Para los siguientes pares de valores de las variables X e Y : (12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 6’5) , (14 , 2) , (11, 8’5) , (12, 3) , (14 , 1’5) , (10, 9) , ( 11, 7) calcular la proporción de varianza que explica el ajuste de Y sobre X.

14 X Y f

0 -6 3

1 -2 6

1 -1 11

1 1 16

32 - Regresión y correlación (F. Álvarez)

2 3 3

3 8 1

3 9 4

5 12 2

Determine la varianza de los errores y de las predicciones, correspondientes al ajuste de Y sobre X en la distribución anterior.

15 En un grupo de 10 alumnos se han obtenido las calificaciones en Anatomía, separando el ejercicio teórico del práctico. El profesor encargado ordenó tales calificaciones de mayor a menor puntuación, encontrando los resultados siguientes : Alumno Clasificación teoría Clasificación práctica

1 6 6

2 2 10

3 7 4

4 10 3

5 4 9

6 1 7

7 8 2

8 5 5

9 9 1

10 3 8

Elija y calcule el índice de correlación adecuado para medir si existe relación o no entre las calificaciones en las dos partes del examen.

16 Para los valores 0 y 2 de la variable X se obtuvieron unos pronósticos de la variable dependiente iguales a 6’8617 y 14’0531 respectivamente. Sabiendo que la proporción de varianza de la variable Y no asociada a la variación de X es del 17’32%, y la varianza de la variable independiente es 2’9375, calcular : a) la ecuación de la recta de regresión de Y sobre X. b) la varianza de las puntuaciones pronosticadas y la varianza residual. c) el coeficiente de correlación entre X e Y

17 Y

X

0 1 2

1 6 0 2

2 8 7 0

3 3 10 5

4 0 1 8

5 1 0 6

Con la presente distribución bivariante obtenga : a) recta de regresión de la media de Y condicionada a X b) coeficiente de correlación de la media de Y condicionada a X c) recta de regresión de Y sobre X d) coeficiente de correlación lineal (de Y sobre X)

e) razón de correlación. f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el significado de la razón de correlación calculada.

18 Determine y calcule en cada uno de los siguioentes supuestos, el índice adecuado (no basado en el concepto de correlación de Pearson) que permita medir el grado de asociación entre las variables X e Y. (I)

Y X -2 -1 0 1 2

0 6 4 2 0 1

1 1 4 6 5 8

(II) (ordinales) X Y

A C

B F

C D

D E

1 0

1 2 50

(III)

E A

F B

Y X

0 40 8

Regresión y correlación (F. Álvarez) - 33

SOLUCIONES DE LOS EJERCICIOS PROPUESTOS 1 s 2X = 0'7456

X = 5'12 a) b = 1'133 b) r = 0'909 c) 1 - r2 = 0'1737

s 2Y = 1'1584

Y = 1'96

s XY = 0'8448

y' = 1'133 . x zy' = 0'909 . zx La proporción de varianza no explicada por X supone el 17'37% de la de Y.

2 s 2X = 0'5216

X = 1'28 a) a = 2'6871 b) R2 = r2 = 0'5711 c) s 2 = 1'5097 Y.X

s 2Y = 3'52

Y = 5'2

s XY = 1'024

Y' = 2'6871 + 1'9632 . X b = 1'9632 Representa la proporción de varianza de Y explicada por X (el 57'11%)

3 s 2X = 8'25

X = 5'5 a) a = 1'9333 b) r = 0'8188 c) R2 = r2 = 0'6704 d) Y ' = Y = 4’05

s 2Y = 1'8225

Y = 4'05

s XY = 3'175

Y' = 1'9333 + 0'3848 . X b = 0'3848 Elevada relación entre las variables (de tipo directo)

s 2Y' = 1'2218

4 s 2X = 0'5714

X =4 a) n = 12 b) b = -0'9167 c) 1 - r2 = 0'4813

y' = -0'9167 . x

X = 16'375

s 2X = 14'3594

Y = 1'6508

s 2Y = 0'9257

s XY = -0'5238

Y = 1'525

s 2Y = 0'3994

s XY = 0'4656

5 a = 0'994 b = 0'0324 a' = 14'597 b' = 1'1659 r = 0'1944 y' = 0'0324 . x zy' = 0'1944 . zx a) Y' = 0'994 + 0'0324 . X X' = 14'597 + 1'1659 . Y x' = 1'1659 .y zx' = 0'1944 . zy Las variables no están relacionadas linealmente (son independientes) b) r = 0'1944

6 (I)

Coeficiente biserial puntual

rbp = 0'0389

(II)

Coeficiente ρ de los rangos de Spearman

ρ = 0'8857

(III)

Coeficiente ϕ

ϕ = - 0'6154

7 a)

Y = 0'3 + 0'9 . X

a)

Y' = 1

b)

r = 0'8825

b)

sY.X = sY = 0'7845

c)

y' = 4'5

8 X' = 2

9 a) Y' = 6 - 2 . X X' = 2'6667 - 0'4167 . Y b) 1 - r2 = 0'1667

10 y' = 1'5 . x

x' = 0'6667 . y

34 - Regresión y correlación (F. Álvarez)

y' = -2 . x x' = -0'4167 .y

zy' = -0'9129 . zx zx' = -0'9129 . zy

11 a) b) c) d)

Y’ = 3’3243 + 2’2162.X 0’9729 2’2, 2’96 0’8216, 14’5384

12 rbp = 0’56

13 0’8331

(o bien el 83’31%)

14 1’9543 ; 15’5069

15 ρ = -0’8667

16 a) b) c)

Y’ = 6’8617 + 3’5957 . X 39’98 y 7’96 0’9093

a) b) c) d) e)

YM’ = 1'9317 + 0'9049 . X rM = 0'9924 Y’ = 1'9268 + 0'8862 . X r = 0'6067 η2 = 0’3749 (próximo a r2 = 0'3681)

17

18 (I)

Coeficiente biserial

rb = - 0'7250

(II)

Coeficiente τ de Kendall

τ = - 0'3333

(III)

Coeficiente tetracórico

rt = - 0'7744

Regresión y correlación (F. Álvarez) - 35

Cálculo del coeficiente de correlación biserial La tabla proporciona, para el menor de los valores p y q, la cantidad :

min(p,q) 0'00 0'01 0'02 0'03 0'04 0'05 0'06 0'07 0'08 0'09 0'10 0'11 0'12 0'13 0'14 0'15 0'16 0'17 0'18 0'19 0'20 0'21 0'22 0'23 0'24 0'25 0'26 0'27 0'28 0'29 0'30 0'31 0'32 0'33 0'34 0'35 0'36 0'37 0'38 0'39 0'40 0'41 0'42 0'43 0'44 0'45 0'46 0'47 0'48 0'49 0'50

0'000 0'37186 0'40502 0'42781 0'44569 0'46061 0'47349 0'48487 0'49508 0'50435 0'51284 0'52066 0'52791 0'53465 0'54096 0'54686 0'55240 0'55762 0'56253 0'56716 0'57154 0'57568 0'57958 0'58328 0'58677 0'59007 0'59319 0'59614 0'59892 0'60154 0'60401 0'60633 0'60851 0'61055 0'61245 0'61422 0'61586 0'61738 0'61878 0'62006 0'62122 0'62226 0'62319 0'62401 0'62471 0'62531 0'62579 0'62617 0'62644 0'62660 0'62666

p.q f ( z)

0'001

0'002

0'003

0'004

0'005

0'006

0'007

0'008

0'009

0'29788 0'37603 0'40762 0'42977 0'44729 0'46198 0'47469 0'48594 0'49605 0'50523 0'51365 0'52141 0'52860 0'53530 0'54156 0'54743 0'55294 0'55812 0'56301 0'56761 0'57196 0'57608 0'57996 0'58364 0'58711 0'59039 0'59350 0'59643 0'59919 0'60180 0'60425 0'60656 0'60872 0'61074 0'61263 0'61439 0'61602 0'61753 0'61891 0'62018 0'62133 0'62236 0'62328 0'62408 0'62478 0'62536 0'62584 0'62620 0'62646 0'62661

0'31576 0'37994 0'41014 0'43169 0'44887 0'46333 0'47587 0'48700 0'49701 0'50611 0'51445 0'52215 0'52929 0'53595 0'54217 0'54800 0'55347 0'55862 0'56348 0'56806 0'57239 0'57647 0'58034 0'58399 0'58745 0'59071 0'59380 0'59671 0'59946 0'60205 0'60449 0'60678 0'60893 0'61094 0'61281 0'61456 0'61618 0'61767 0'61904 0'62030 0'62143 0'62245 0'62336 0'62416 0'62484 0'62541 0'62588 0'62623 0'62648 0'62662

0'32772 0'38363 0'41257 0'43357 0'45042 0'46466 0'47704 0'48804 0'49795 0'50697 0'51525 0'52289 0'52998 0'53659 0'54277 0'54856 0'55400 0'55912 0'56395 0'56850 0'57281 0'57687 0'58071 0'58435 0'58778 0'59103 0'59410 0'59699 0'59973 0'60230 0'60472 0'60700 0'60913 0'61113 0'61299 0'61473 0'61633 0'61781 0'61917 0'62042 0'62154 0'62255 0'62345 0'62423 0'62490 0'62547 0'62592 0'62626 0'62650 0'62663

0'33699 0'38712 0'41493 0'43540 0'45195 0'46597 0'47820 0'48908 0'49889 0'50783 0'51604 0'52362 0'53066 0'53723 0'54336 0'54912 0'55453 0'55962 0'56442 0'56895 0'57322 0'57726 0'58109 0'58470 0'58811 0'59134 0'59439 0'59727 0'59999 0'60255 0'60496 0'60722 0'60934 0'61132 0'61317 0'61489 0'61649 0'61796 0'61930 0'62053 0'62165 0'62264 0'62353 0'62430 0'62496 0'62552 0'62596 0'62629 0'62652 0'62664

0'34469 0'39044 0'41722 0'43720 0'45345 0'46726 0'47934 0'49011 0'49982 0'50868 0'51682 0'52435 0'53134 0'53786 0'54396 0'54967 0'55505 0'56011 0'56488 0'56938 0'57364 0'57766 0'58146 0'58505 0'58845 0'59166 0'59469 0'59755 0'60025 0'60280 0'60519 0'60744 0'60954 0'61151 0'61335 0'61506 0'61664 0'61810 0'61943 0'62065 0'62175 0'62274 0'62361 0'62437 0'62502 0'62556 0'62600 0'62632 0'62654 0'62664

0'35133 0'39360 0'41945 0'43897 0'45492 0'46854 0'48047 0'49112 0'50074 0'50953 0'51760 0'52507 0'53201 0'53849 0'54454 0'55023 0'55557 0'56060 0'56534 0'56982 0'57405 0'57805 0'58182 0'58540 0'58878 0'59197 0'59498 0'59783 0'60051 0'60304 0'60542 0'60765 0'60975 0'61170 0'61353 0'61522 0'61679 0'61824 0'61956 0'62077 0'62186 0'62283 0'62369 0'62444 0'62508 0'62561 0'62603 0'62635 0'62655 0'62665

0'35722 0'39663 0'42162 0'44069 0'45638 0'46980 0'48159 0'49213 0'50166 0'51036 0'51838 0'52579 0'53268 0'53911 0'54513 0'55078 0'55609 0'56109 0'56580 0'57025 0'57446 0'57843 0'58219 0'58574 0'58910 0'59228 0'59528 0'59811 0'60077 0'60329 0'60565 0'60787 0'60995 0'61189 0'61370 0'61538 0'61694 0'61837 0'61969 0'62088 0'62196 0'62292 0'62377 0'62451 0'62514 0'62566 0'62607 0'62637 0'62657 0'62665

0'36253 0'39954 0'42373 0'44239 0'45781 0'47105 0'48270 0'49312 0'50256 0'51120 0'51914 0'52650 0'53334 0'53973 0'54571 0'55132 0'55660 0'56157 0'56626 0'57069 0'57487 0'57882 0'58256 0'58609 0'58943 0'59258 0'59557 0'59838 0'60103 0'60353 0'60588 0'60808 0'61015 0'61208 0'61388 0'61554 0'61709 0'61851 0'61981 0'62099 0'62206 0'62301 0'62385 0'62458 0'62520 0'62571 0'62611 0'62640 0'62658 0'62665

0'36738 0'40233 0'42579 0'44406 0'45922 0'47228 0'48379 0'49411 0'50346 0'51202 0'51990 0'52721 0'53400 0'54034 0'54629 0'55186 0'55711 0'56205 0'56671 0'57111 0'57527 0'57920 0'58292 0'58643 0'58975 0'59289 0'59585 0'59865 0'60129 0'60377 0'60611 0'60830 0'61035 0'61226 0'61405 0'61570 0'61724 0'61865 0'61993 0'62111 0'62216 0'62310 0'62393 0'62465 0'62525 0'62575 0'62614 0'62642 0'62659 0'62666

36 - Regresión y correlación (F. Álvarez)

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.