5 Relaciones entre variables

5 ´ ANALISIS EXPLORATORIO DE DATOS 5 39 Relaciones entre variables. 5.1 Ejercicios. Ejercicio 5.1 En una muestra de 1500 individuos se recogen

36 downloads 234 Views 98KB Size

Story Transcript

5

´ ANALISIS EXPLORATORIO DE DATOS

5

39

Relaciones entre variables.

5.1

Ejercicios.

Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos medidas antropom´etricas X e Y . Los resultados que se obtienen son x = 14,

y = 100,

sx = 2,

sy = 25,

sxy = 45.

Obtener el modelo de regresi´ on lineal que mejor aproxima Y en funci´ on de X. Utilizando este modelo calcular de modo aproximado la cantidad Y esperada cuando X = 15. Respuesta: Buscamos la recta Yˆ = a + b X que mejor aproxima los valores de Y , seg´ un el criterio de los m´ınimos cuadrados, en la nube de puntos que resulta de representar en un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta son: 45 sxy = 11.25, b= 2 = sx 4 a = y − b x = 100 − (11.25)(14) = −57.5. As´ı, el modelo lineal es: Yˆ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo lineal predice un valor de Y de yˆ = −57.5 + 11.25(15) = 111.25. En este punto hay que preguntarse c´ omo de fiable es esta predicci´ on. Para dar una respuesta necesitamos estudiar las propiedades de la regresi´ on lineal. Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos variables X e Y se obtiene la siguiente informaci´ on:    xi = 24, xi yi = 64, yi = 40, s2y = 12, s2x = 6. a) Obtener la recta de regresi´ on de Y sobre X. Explicar el significado de los par´ ametros. b) Calcular el coeficiente de determinaci´ on. Comentar el resultado e indicar el porcentaje de variaci´ on de Y que no est´ a explicado por el modelo de regresi´ on lineal. c) Si el modelo es adecuado, ¿cu´ al es la predicci´ on para un valor de x = 4? d) Obtener la recta de regresi´ on de X sobre Y . Respuestas: a) Buscamos la recta Yˆ = a + b X: xy − x y 64/8 − (24/8)(40/8) sXY = −1.167, = b= 2 = sX s2X 6 24 4 − (−1.167) = 8.5. 8 8 el par´ ametro b es el pendiente de la recta de regresi´ on y mide la variaci´ on de Y cuando X aumenta una unidad. Puesto que b < 0 esto significa que a medida que X aumenta la variable Y tiende a disminuir, es decir, existe una relaci´ on inversa entre X e Y . El par´ ametro a es el valor de la ordenada en el origen, es decir, el punto en que la recta cruza el eje vertical. La recta de regresi´ on es a = y − bx =

Yˆ = 8.5 − 1.167 X.

5

´ ANALISIS EXPLORATORIO DE DATOS

40

b) Puesto que se trata de un modelo lineal, el coeficiente de determinaci´ on coincide con el coeficiente de correlaci´ on lineal de Pearson al cuadrado:  2  2 sXY −7 2 = = = 0.68, R2 = rXY sX sY 6 · 12 esto significa que el modelo de regresi´ on lineal explica el 68% de la variabilidad de Y en funci´ on de la de X. Por tanto, queda un 32% de variabilidad no explicada. c) La predicci´ on que realiza este modelo es yˆ = 8.5 − 1.167(4) = 3.83, que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un 68% de la variabilidad total. ˆ =a d) Buscamos la recta X ˜ + ˜b Y : ˜b = sXY = −7 = −0.583, s2Y 12 40 24 − (−0.583) = 5.915, 8 8 ˆ = 5.915 − 0.583 Y . Observemos que los valores que se obtienen por tanto, el modelo es X para la pendiente de la recta y para el t´ermino independiente no coinciden en absoluto con los que se obtendr´ıan despejando de la ecuaci´ on Yˆ = 8.5 − 1.167 X, que ser´ıan X = 7.284 − 0.857 Yˆ y resulta del todo incorrecto utilizar esta u ´ltima ecuaci´ on para predecir X en funci´ on de Y . a ˜ = x − ˜b y =

Ejercicio 5.3 La tabla siguiente contiene la edad X y la m´ axima de la presi´ on sangu´ınea Y de un grupo de 10 mujeres: Edad Presi´ on

56 14.8

42 12.6

72 15.9

36 11.8

63 14.9

47 13.0

55 15.1

49 14.2

38 11.4

42 14.1

a) Calculad el coeficiente de correlaci´ on lineal entre las variables y decid qu´e indica. b) Determinad la recta de regresi´ on de Y sobre X, justificando la adecuaci´ on de un modelo lineal. Interpretad los coeficientes. c) Valorad la bondad del modelo. d) Haced las predicciones siguientes, s´ olo cuando cre´ ais que tengan sentido: d.1) Presi´ on sangu´ınea de una mujer de 51 a˜ nos. d.2) Presi´ on sangu´ınea de una ni˜ na de 10 a˜ nos. d.3) Presi´ on sangu´ınea de una hombre de 54 a˜ nos. Respuestas: Construimos la tabla auxiliar para realizar los c´ alculos de los apartados a) y b): xi 56 42 72 36 63 47 55 49 38 42 500

yi 14.8 12.6 15.9 11.8 14.9 13 15.1 14.2 11.4 14.1 137.8

x2i 3136 1764 5184 1296 3969 2209 3025 2401 1444 1764 26192

yi2 219.04 158.76 252.81 139.24 222.01 169 228.01 201.64 129.96 198.81 1919.28

xi yi 828.8 529.2 1144.8 424.8 938.7 611 830.5 695.8 433.2 592.2 7029

5

´ ANALISIS EXPLORATORIO DE DATOS

Las medias son:

500 = 50, 10 las varianzas y covarianza son: x=

s2X = x2 − x2 =

y=

41

137.8 = 13.78, 10

26192 − 502 = 119.2, 10

1919.28 − 13.782 = 2.04, 10 7029 − 50 · 13.78 = 13.9 sXY = xy − x y = 10 y el coeficiente de correlaci´ on lineal es s2Y = y 2 − y 2 =

rXY =

5

´ ANALISIS EXPLORATORIO DE DATOS

Ejercicio 5.5 Dada la siguiente distribuci´ on bidimensional encontrar el modelo de regresi´ on (lineal o parab´ olico) que mejor se ajuste a la nube de puntos. xi yi

b=

sXY 13.9 = 0.12, = s2X 119.2

1 13

1 15

2 18

3 19

4 21

5 16

5 20

6 14

Respuesta: Si realizamos un gr´ afico de dispersi´ on, a primera vista puede apreciarse que el modelo lineal va a tener un peor ajuste que el modelo parab´ olico (v´ease la figura 1). Figure 1: Gr´ afico de dispersi´on con los datos del ejercicio 5.5

sXY 13.9 = 0.89, =√ sx sY 119.2 · 2.04

que indica una dependencia lineal moderada y directa entre X e Y . Cuanto mayor es X mayor tiende a ser Y . La recta de regresi´ on de Y sobre X es Yˆ = a + b X, cuyos coeficientes son:

42

22 17.6

yi 13.2 8.8

a = y − b x = 137.78 − 0.12 · 50 = 7.95. 4.4

El coeficiente a es la intersecci´ on con el eje de ordenadas, mientras que b es la pendiente de la recta de regresi´ on. c) El ajuste del modelo se mide mediante el coeficiente de determinaci´ on R2 , que en el 2 . Entonces, R2 = 0.892 = 0.79, que indica que caso del modelo lineal coincide con rXY un 79% de la variabilidad de Y viene explicada por el modelo de la recta de regresi´ on, mientras que queda sin explicar un 21% de la variabilidad. d) S´ olo tiene sentido realizar la predicci´ on del apartado (d1). Para un valor de x = 51 el modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90. Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por observaciones de dos variables X e Y y se ha obtenido un coeficiente de determinaci´ on de 0.03. Discutid si las siguientes afirmaciones son ciertas y por qu´e: a) b) c) d) e) f)

El coeficiente de correlaci´ on lineal entre X e Y valdr´ a 0.173. La covarianza entre X e Y puede ser negativa. Las variables X e Y son casi independientes. El coeficiente de determinaci´ on entre −X e Y valdr´ a -0.03. El coeficiente de determinaci´ on entre −X y −Y valdr´ a 0.03. S´ olo el 3% de la variabilidad total de Y queda sin explicar en el modelo.

Respuestas: a) b) c) d) e) f)

√ √ Falso, rXY = ± R2 = ± 0.03 = ±0.173. Cierto. Falso, pues la relaci´ on entre X e Y puede ser no lineal. Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03. Cierto. Falso, el modelo s´ olo explica un 3% de la variablidad de Y , por tanto, queda por explicar un 97%.

0

1

2

3

4

5

6

7

xi Empezamos ajustando el modelo m´ as sencillo, que es el lineal. Es decir, proponemos el modelo Yˆ = a+b X, para cuyo c´ alculo utilizaremos las 5 primeras columnas de la siguiente tabla: xi 1 1 2 3 4 5 5 6 27

yi 13 15 18 19 21 16 20 14 136

xi yi 13 15 36 57 84 80 100 84 469

x2i 1 1 4 9 16 25 25 36 117

yi2 169 225 324 361 441 256 400 196 2372

yˆi 16.0821 16.0821 16.4686 16.8551 17.2415 17.6280 17.6280 18.0145 136

ei -3.0821 -1.0821 1.5314 2.1449 3.7585 -1.6280 2.3720 -4.0145 0

e2i 9.499 1.171 2.345 4.601 14.126 2.650 5.626 16.116 56.135

Para el c´ alculo de a y b necesitamos las medias y covarianza de X e Y y la varianza de X: 27 136 = 3.375, y = = 17, x= 8 8 469 − (3.375)(17) = 1.25, sXY = x y − x y = 8 117 2 2 2 − 3.3752 = 3.234, sX = x − x = 8 por tanto, sXY 1.25 b= 2 = = 0.386, sX 3.234

5

´ ANALISIS EXPLORATORIO DE DATOS

43

5

´ ANALISIS EXPLORATORIO DE DATOS

a = y − b x = 17 − (0.386)(3.375) = 15.696,

donde s2e es la varianza de los residuos y s2Y es la varianza de Y , que se obtienen utilizando las columnas 8 y 5 de la tabla anterior, respectivamente:

sXY 1.25 = 0.2538, = sX sY (3.234)(7.5)

2 rXY = 0.06441.

Puesto que el modelo lineal tiene muy mal ajuste, proponemos el modelo de regresi´ on alculo utilizaremos las 8 primeras columnas de parab´ olico Yˆ = a + b X + c X 2 , para cuyo c´ la siguiente tabla: yi 13 15 18 19 21 16 20 14 136

xi yi 13 15 36 57 84 80 100 84 469

x2i yi 13 15 72 171 336 400 500 504 2011

x2i 1 1 4 9 16 25 25 36 117

yi2 169 225 324 361 441 256 400 196 2372

x3i 1 1 8 27 64 125 125 216 567

x4i 1 1 16 81 256 625 625 1296 2901

yˆi 13.925 13.925 17.935 19.961 20.003 18.059 18.059 14.132 136

ei -0.925 1.075 0.065 -0.961 0.997 -2.059 1.941 -0.132 0

Las f´ ormulas que nos permiten obtener los par´ ametros a, b y c son: b = c =

sXY s2X 2 − sX 2 Y sXX 2 , s2X s2X 2 − s2XX 2 s2X sX 2 Y − sXX 2 sXY , s2X s2X 2 − s2XX 2

a = y − b x − c x2 . Vamos a calcular las medias, covarianzas y varianzas que nos faltan: x2 = sXX 2 = x x2 − x x2 =

117 = 14.625, 8 567 − 3.375 · 14.625 = 21.5156, 8

e2i 0.856 1.155 0.004 0.924 0.995 4.241 3.766 0.017 11.959

2

y substituyendo, obtenemos: b = 6.987,

c = −0.992,

a = 7.930.

Por tanto, el modelo propuesto es Y = 7.930 + 6.987 X − 0.992 X 2 . La columna 9 de la tabla anterior contiene los valores ajustados seg´ un este modelo, yˆi , y la columna 10 contiene los residuos ei = yi − yˆi . Para estudiar la bondad de ajuste calculamos el coeficiente de determinaci´ on: R2 = 1 −

2372 − 172 = 7.5, 8 de manera que R2 = 1 − 7.017/7.5 = 0.06441. Es decir que solamente el 6% de la variabilidad de los datos queda explicada por el modelo. Puesto que se trata de un modelo lineal, el valor de R2 coincide con el cuadrado del 2 . Por tanto, en este caso, coeficiente de correlaci´ on lineal de Pearson, es decir, rXY podr´ıamos habernos ahorrado el c´ alculo de R2 .

xi 1 1 2 3 4 5 5 6 27

s2X 2 = x4 − x2

56.135 − 0 = 7.017, 8

s2Y = y 2 − y 2 =

rXY =

2011 − 14.625 · 17 = 2.75, 8 2901 − 14.6252 = 148.734, = 8

sX 2 Y = x2 y − x2 y =

de manera que el modelo propuesto es Y = 15.696 + 0.386 X. La columna 6 de la tabla anterior contiene los valores ajustados seg´ un este modelo, yˆi , y la columna 7 contiene los residuos ei = yi − yˆi (observad que tienen media cero). La forma general de estudiar la bondad de ajuste de un modelo es mediante el coeficiente de determinaci´ on R 2 : s2 R2 = 1 − 2e , sY

s2e = e2 − e2 =

44

s2e 11.959/8 = 0.8007. =1− s2Y 7.5

Este resultado nos dice que el 80% de la variabilidad de los datos est´ a explicada por el modelo de regresi´ on parab´ olica. Observad que en este caso es del todo incorrecto utilizar 2 como medida de bondad de ajuste del modelo. rXY Ejercicio 5.6 Los datos siguientes forman parte de un anuncio publicado por un joyero de Singapur en el peri´ odico Straits Times el 29 de febrero de 1992. Estos datos hacen referencia al precio (en d´ olares de Singapur) de anillos que llevan un diamante. El tama˜ no de un diamante, que se indica en quilates (1 quilate=200 mg). tama˜ no precio tama˜ no precio

0.17 355 0.16 345

0.16 328 0.17 352

0.17 350 0.16 332

0.25 675 0.17 353

0.16 342 0.18 438

0.15 322 0.23 595

0.21 483 0.23 553

0.15 323 0.12 223

Ajustad un modelo lineal a estos datos y decidid si el ajuste obtenido es bueno. Comprobad si se cumplen para los residuos las suposiciones de independencia y de varianza constante. Respuesta: Entre las dos variables, “tama˜ no” y “precio”, es el tama˜ no de un diamante el que determina el precio del anillo. Por tanto, escogemos X =“tama˜ no” como variable independiente y Y =“precio” como variable dependiente. Realizamos un diagrama de dispersi´ on para ver si puede utilizarse la regresi´ on lineal. El gr´ afico obtenido (v´ease la figura 2) indica que el modelo lineal es adecuado para representar la relaci´ on entre X e Y . Construimos la tabla auxiliar para realizar los c´ alculos: xi 0.17 0.16 0.17 0.25 0.16 0.15 0.21 0.15 0.16 0.17 0.16 0.17 0.18 0.23 0.23 0.12 2.84

yi 355 328 350 675 342 322 483 323 345 352 332 353 438 595 553 223 6369

x2i 0.0289 0.0256 0.0289 0.0625 0.0256 0.0225 0.0441 0.0225 0.0256 0.0289 0.0256 0.0289 0.0324 0.0529 0.0529 0.0144 0.5222

yi2 126025 107584 122500 455625 116964 103684 233289 104329 119025 123904 110224 124609 191844 354025 305809 49729 2749169

xi yi 60.35 52.48 59.50 168.75 54.72 48.30 101.43 48.45 55.20 59.84 53.12 60.01 78.84 136.85 127.19 26.76 1191.79

5

´ ANALISIS EXPLORATORIO DE DATOS

45

5

´ ANALISIS EXPLORATORIO DE DATOS xi 0.17 0.16 0.17 0.25 0.16 0.15 0.21 0.15 0.16 0.17 0.16 0.17 0.18 0.23 0.23 0.12

Figure 2: Gr´ afico de dispersi´on con los datos del ejercicio 5.6

473 439

yi

405 372 338

0

0.17

0.22

0.27

0.32

0.37

2.84 = 0.1775, 16 las varianzas y covarianza son: x=

s2X = x2 − x2 =

y=

yˆi 371.9435 337.1180 371.9435 650.5475 337.1180 302.2925 511.2455 302.2925 337.1180 371.9435 337.1180 371.9435 406.7690 580.8965 580.8965 197.8160

ei -16.9435 -9.1180 -21.9435 24.4525 4.8820 19.7075 -28.2455 20.7075 7.8820 -19.9435 -5.1180 -18.9435 31.2310 14.1035 -27.8965 25.1840

Posteriormente se construye un diagrama de dispersi´ on de los pares (xi , ei ), i = 1, . . . , 16. Este diagrama ( v´ease la figura 3) permite concluir que los residuos no presentan ninguna regularidad evidente y que la amplitud de la dispersi´ on de los residuos es m´ as o menos constante a lo largo del eje X. Por tanto, se puede considerar que los residuos en el modelo lineal son independientes y de varianza constante.

xi Las medias son:

yi 355 328 350 675 342 322 483 323 345 352 332 353 438 595 553 223

46

6369 = 398.0625, 16

Figure 3: Gr´ afico de residuos de los datos del ejercicio 5.6

0.5222 − 0.17752 = 0.0011, 16

2749169 − 398.06252 = 13369.3086, 16 1191.79 − 0.1775 · 398.0625 = 3.8308. sXY = xy − x y = 16 ˆ La recta de regresi´ on de Y sobre X es Y = a + b X, cuyos coeficientes son: s2Y = y 2 − y 2 =

31.23 19.34

ei 7.44

sXY 3.8308 = 3482.55, b= 2 = sX 0.0011

-4.45

a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09, por tanto, el modelo ajustado es Y = −220.09 + 3482.55 X. El coeficiente de correlaci´ on lineal es sXY 3.8308 = 0.9989, rXY = =√ sx sY 0.0011 · 13369.3086

-16.35

0

0.17

0.22

que indica una dependencia lineal muy fuerte y directa entre X e Y . El valor de R = 2 = 0.9978 indica que el ajuste es muy bueno, puesto que el modelo lineal explica el rXY 99.78% de la variabilidad de Y . Para comprobar las suposiciones de independecia de los residuos y de varianza constante, on yˆi = a + b xi y el hay que calcular para cada valor xi de la variable X la predicci´ correspondiente residuo ei = yi − yˆi .

0.27

0.32

0.37

xi

2

Ejercicio 5.7 Las ecuaciones siguientes 5 4 Yˆ = − X − , 3 3

ˆ = −1 Y − 1, X 2 2

representan las rectas de regresi´ on lineal de una distribuci´ on estad´ıstica bivariante. Hallad los coeficientes de determinaci´ on y de correlaci´ on entre las variables X e Y . Respuesta: Si llamamos b a la pendiente de la recta de regresi´ on de Y sobre X y ˜b a la

5

´ ANALISIS EXPLORATORIO DE DATOS

47

pendiente de la recta de regresi´ on de X sobre Y , entonces: b=−

sXY 5 = 2 , 3 sX

5

´ ANALISIS EXPLORATORIO DE DATOS

Por tanto, si la dependencia entre X e Y es directa:

˜b = − 1 = sXY . 2 s2Y

b=

24 , 5

a = y − bx = 8 − 24 5

Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la siguiente relaci´ on entre el coeficiente de determinaci´ on y el coeficiente de correlaci´ on lineal:   2   sXY 5 1 5 2 = = b ˜b = − R2 = rXY − = = 0.83. sX sY 3 2 6

de manera que el modelo es Yˆ = −16 + la dependencia entre X e Y es inversa:

Para calcular el coeficiente de correlaci´ on lineal hay que tener en cuenta que la pendiente de la recta de regresi´ on es negativa, √ √ rXY = − R2 = − 0.83 = −0.91.

de manera que el modelo ahora es Yˆ = 32 −

Ejercicio 5.8 Dos distribuciones estad´ısticas tienen como rectas de regresi´ on de Y sobre X, respectivamente, 3 5 1 Yˆ = + X, Yˆ = 2 + X, 3 4 5 ¿Puede asegurarse que la segunda distribuci´ on tiene un coeficiente de determinaci´ on mayor que la primera? Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que la de la primera no permite asegurar que R2 vaya tambi´en a ser mayor, puesto que R2 depende del grado de acercamiento de la recta a la nube de puntos. Ejercicio 5.9 De una distribuci´ on estad´ıstica bivariante se conocen x = 5, y = 8, CVY = on de Y sobre X, ¿cu´ al es la predicci´ on del modelo 3 CVX . Mediante la recta de regresi´ para un valor de x = 6, a) en el caso que R2 = 0? b) en el caso que R2 = 1? Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se tiene que 2 , y por tanto, R2 = rXY R2 = 0 =⇒ sXY = 0 =⇒ b = 0. De manera que el modelo queda: Yˆ = a, y teniendo en cuenta que a = y − b x = 8, se tiene que Yˆ = 8, que no depende del valor de la variable X. As´ı, la predicci´ on de este modelo para x = 6 es y = 8. b) Debemos determinar los coeficentes a y b del modelo lineal. Empezamos buscando 2 b = ssXY 2 . Puesto que R = 1, tenemos que: X

R2 = 1 =⇒

s2XY = 1; s2X s2Y

sXY = ±sX sY .

A partir de la relaci´ on CVY = 3 CVX podemos deducir que: CVY = 3 CVX =⇒

sX sY =3 ; y x

sY = 3 sX

48

24 y = sX . x 8

on anteriormente encontrada para sXY Substituyendo esta expresi´ on de sY en la expresi´ tenemos que: sXY 24 24 = b. sXY = ± s2X ; =± 8 s2X 5

b=−

24 , 5

24 · 5 = −16, 5

X, y la predicci´ on para x = 6 es yˆ = 12.8. Si

a = y − bx = 8 + 24 5

24 · 5 = 32, 5

X, y la predicci´ on para x = 6 es yˆ = 3.2.

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.