Story Transcript
Estadística Descriptiva Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
1. Se ha realizado un estudio sobre el consumo de gas (en m3) en las viviendas de una urbanización durante el mes de enero, obteniéndose los datos que se muestran en la tabla. Consumo de gas (m3) 50‐100 100‐200 200‐400 400‐500
Viviendas 10 40 60 10
a) Represente el histograma de esta distribución. b) Calcule el consumo medio de gas de las viviendas. ¿El valor hallado es representativo de la distribución? c) Calcule el consumo más frecuente. d) Averigüe el valor del tercer cuartil de la distribución del consumo de gas y explique su significado e) Si la factura del gas consiste en una cantidad fija de 20€ más 0,5€ por cada m3 consumido, calcule la factura media de las viviendas y determine si la factura es más dispersa que el consumo. Solución: a) Consumo gas
amplitud ci
densidad ni
hi
ni ci
Ni
xi
xi ni
x2i ni
50 ‐ 100
50
10
0,2
10
75
750
56250
100 ‐ 200
100
40
0,4
150
6000
900000
200 ‐ 400
200
60
0,3
300
18000
5400000
400 ‐ 500
100
10
0,1
50 90 110 120
450
4500
2025000
29250
8381250
4
xi ni
b) El consumo medio de gas de las viviendas: a1 x i1
N
1
29250 243,75 m3 120
4
x2i ni
a2 i1
N
8381250 69843,75 s2 a2 a12 69843,75 (243,75) 2 10429,6875 120
sX 10429,6875 102,1258 m3 C.V
sX 102,1258 0,42 (42%) x 243,75
El consumo medio de gas de las viviendas es de 243,75 m3, con una dispersión del 42%. Con lo cual, el consumo medio de gas no es muy representativo.
c) El consumo más frecuente se encuentra en el intervalo modal [100‐200), puesto que es en el que se alcanza la máxima densidad de frecuencia. Md Li
hi hi 1 (hi hi 1 ) (hi hi 1 )
ci 100
0,4 0,2 3 100 166,67 m (0,4 0,2) (0,4 0,3)
Adviértase que si la amplitud de los intervalos fuera constante: Md Li
ni ni 1 (ni ni 1 ) (ni ni 1 )
ci
3. N Ni1 3. 120 4 d) El tercer cuartil: 90 , observando en la columna Ni , Q 3 P75 Li ci , de donde: 4 Ni Ni1
Q 3 P75 200
90 50 3 200 333,33 m 110 50
El 75% de las viviendas que consumen menos, consumen como máximo 333,33 m3 de gas. e) Según el enunciado del apartado, la factura del gas viene dada por la relación Y 20 0,5. X , por tanto, hay un cambio de origen y de escala: La factura media: Y 20 0,5. X 20 0,5. 243,75 141,875 € s2Y Var(20 0,5.X) 0,52 .s2X s Y 0,5.sX 0,5.102,1258 51,063 € C.V
S Y 51,063 0,36 (36%) y 141,875
La factura del gas está menos dispersa que el consumo. CAMBIO DE ORIGEN Y DE ESCALA DE LA MEDIA Y VARIANZA: y a bx k
y
yi .ni i1
N
k
(a bxi ). ni i1
N
k
k
i1
i1
a ni b x i .ni N
k
a
ni i1
N 2
k
b
x .n i1
i
N
i
abx
E(y) E(a bx) y a b x
La media se ve afectada por el mismo cambio de origen y de escala efectuada sobre la variable. k
s2y
(yi y) 2 .ni i 1
N
k
(a b xi (a b x) 2 . ni i1
N
k
(b xi b x)2 . ni i1
N
k
b2
(x x) . n i1
2
i
i
N
b2 s2x
Var(a b x) b2 . s2x La varianza no se ve afectada por el cambio de origen pero si por el cambio de escala efectuado sobre la variable. 2. De una distribución bidimensional (X,Y) se sabe que al aumentar los valores de X aumentan los de Y. Se ha obtenido la recta de regresión lineal mínimo cuadrática de Y sobre X y se ha comprobado que la varianza residual, Sry2 vale cero. Se tienen además los valores de los siguientes momentos respecto al origen:
a10 2
a20 40
a01 10
a02 125
a) Determine la varianza debida a la regresión en la recta de Y/X y el valor de la covarianza. b) Se hace un cambio de variable de la forma X’= 2X. Si se obtiene la nueva recta de regresión de Y/X´, ¿será bueno el ajuste? Razone su respuesta. c) Se decide cambiar la función de ajuste de Y sobre X por una constante, Y = c. Utilizando el método de mínimos cuadrados, determine el valor de esta constante para nuestro caso. Solución: 2 2 2 s a a 40 2 36 a) Las varianzas de las variables X e Y, respectivamente, son: 2x 20 210 2 s y a02 a01 125 10 25
Siendo sry2 s2y (1 R2 ) 0 1 R2 0 R2 1 , existe una dependencia funcional, el ajuste es perfecto. Para calcular la covarianza sxy tenemos en cuenta que
R2 b . b'
sxy sxy . 1 s2xy s2x . s2y 36 . 25 900 s xy 900 30 s2x s2y
b) El coeficiente de determinación R2 es invariante ante un cambio de origen y de escala, con lo que la bondad del ajuste será idéntico. c) E(y) E(c) y c
3
INVARIABILIDAD DEL COEFICIENTE DE CORRELACIÓN LINEAL R2: X' k X
CAMBIO DE ORIGEN:
CAMBIO DE ESCALA:
a'10 x ' E(X') E(k X) kE(X) k x
a'10 x ' E(X') E(m X) m E(X) m x
a'11 E(X'Y) E (m X)Y E(mY) E(X Y) m y a11
a'11 E(X'Y) E(k X Y) kE(X Y) ka11
s x'y a'11 x 'y m y a11 (m x) y a11 x y s xy
sx'y a'11 x 'y ka11 k x y k(a11 x y) ksxy
a'20 s Var (m X) s
a'20 s2x' Var (k X) k 2 Var(X) k2 s2x
2 x'
c
s x'y s
2 x'
s xy s
2 x
R'2 c . c'
c'
2 x
s x'y s
2 y
s xy s
c
2 y
s xy sxy s2xy . R2 2 2 2 2 sx s y sx . s y
s x'y s
2 x'
ksxy 2 2 x
k s
R'2 c . c'
c'
s x'y s
2 y
ks xy s2y
ksxy ksxy s2xy . R2 2 2 2 2 2 k sx s y sx . sy
El coeficiente de determinación R2 es invariante ante un cambio de origen y de escala 3. Abel Grandes Pistado preguntó a sus 31 compañeros de clase qué calificación obtuvieron en el último examen de estadística. Sólo recuerda que él aprobó con la nota mediana de 5,6667 y su tocayo Escasi Lopasa tuvo un 4,6 (una de las notas más frecuentes habidas). Y, haciendo memoria, ha podido completar los siguientes datos:
Nota de estadística 0 ‐ 4 4 ‐ 5 5 ‐ 7 7 ‐ 9 9 ‐ 10
Número de alumnos 8 n2 n3 6 6
Calcule: a) ¿Qué proporción de alumnos ha obtenido una nota superior a 5? ¿Cómo es la distribución respecto a la moda? b) Estudie la dispersión relativa de las notas a partir del coeficiente de variación de Pearson. Interprete los resultados. c) ¿Cómo afecta a la homogeneidad de la distribución que este examen sea un 60 por ciento de la calificación final? d) Comente, con base estadística, el grado de concentración de las notas de este examen. Solución:
4
a) ni ci
Ni
4 1
2 8 n2 6 h2 6
8 14
2 2 1
n3 6 h3 3 3 6 6 6 32
20 26 32
L i L i1
amplitud
0 ‐ 4 4 ‐ 5 5 ‐ 7 7 ‐ 9 9 ‐ 10
ci
ni
hi
m
Ni % N 25 43,75 62,50 81,25 100 212,5
Ui % pi qi % UN
xi
xi .ni
Ui x i . ni
x2i .ni
2 4,5
16 27
16 43
32 121,5
8,70 23,37
16,30 20,38
6 8 9,5
36 48 57 184
79 127 184
216 384 541,5 1295
42,93 69,02 100
19,57 12,23 000 68,48
pi
i 1
qi
Sabemos que, Me 5,6667 y Md 4 ,6 Para hallar n2 y n3 , podemos recurrir a la moda o a la mediana, a saber. La moda aproximada cuando existen distintas amplitudes: Md Li 4,60 4
hi 1 hi 1 hi 1
ci
h3 1,2 1 h3 3 n3 h3 .c3 3.2 6 2 h3 0,4
siendo, N 32 8 n2 6 6 6 n2 32 26 6 N Ni1 La mediana Me Li 2 ci Ni Ni1
32 (8 n2 ) 8 n2 2 2 n2 6 5,6667 5 2 0,6 n3 (8 n2 n3 ) (8 n2 ) 12n2
N 32 20 n2 n3 n3 32 26 6
La proporción de alumnos que obtienen una nota superior a 5. La distribución respecto a la moda. p
xi 5 666 n n n . 100 3 4 5 .100 .100 56,25 % 32 32 N
La distribución es bimodal, puesto que h2 h5 6 b) Dispersión relativa de las notas a partir del coeficiente de variación de Pearson. Interpretar los resultados. 5
a1 x
xi ni i 1
N
5
184 5,75 a2 32
x2i ni i 1
N
1295 40,46875 32
s2x a2 a12 40,46875 5,752 7,40625 sx 7,40625 2,72 C.V
sx 2,72 0,4730 (47,30%) , la dispersión es del 47,30 %, es decir, una dispersión media. x 5,75
c) La homogeneidad de la distribución, cuando el examen es un 60 % de la calificación final. 5
CAMBIO DE ESCALA DEL COEFICIENTE DE VARIACIÓN DE PEARSON C.V: y k . x E(y) E(k . x) k . E(x) k . x Var (y) Var (k . x) k .Var(x) k . s 2
2
2 x
s y k . s k . sx 2
2 x
C.Vy
k . sx sx C.VX k.x x
El Coeficiente de Variación de Pearson es invariante ante un cambio de escala.
C.Vfinal
s final 2. s x 0,4730 (47,30%) xfinal 2 . x
d) Grado de concentración de las notas de este examen. 5 1
El índice de concentración de Gini: IG
(pi qi ) i 1 5 1
pi
68,48 0,32 (32 %) 212,5
i 1
La concentración es medio‐baja.
4. Se han obtenido las siguientes expresiones para las rectas de regresión mínimo cuadráticas de una variable bidimensional (X,Y), donde X es el gasto mensual en ocio e Y el gasto mensual en transporte de un grupo de amigos: Y 4X 2 Y 2X 10
Sabiendo además que la covarianza entre ambas variables sxy 60 . Se pide: a) Identifique cuál es la recta de regresión de Y/X y de X/Y. b) Interprete los coeficientes de las rectas de regresión. c) Porcentaje de variabilidad explicada y no explicada por la recta. d) Calcule la varianza residual en la regresión Y/X. ¿Coincidirá con la varianza residual en la regresión X/Y? Justifique su respuesta. Solución: a) Recta de regresión Y/X: Y 2X 10 , pendiente b 2
Recta de regresión X/Y: Y 4 X 2 4 X Y 2 X
1 1 1 Y , pendiente b' 4 2 4
La otra opción no puede ocurrir: Recta de regresión Y/X: Y 4 X 2 Recta de regresión X/Y: Y 2X 10 2X Y 10 X
6
1 Y5 2
puesto que R2 b . b' 4 .
1 2 cuando se sabe que 0 R2 1 2
b) Como las dos pendientes son positivas (2 y 1/4), la recta de regresión de Y/X tiene mayor
pendiente en valor absoluto que la de X/Y c) El coeficiente de determinación lineal R2 b . b' 2 .
1 1 0,5 4 2
La recta de regresión de Y sobre X explica el 50% de la variabilidad de la variable dependiente y el otro 50% es no explicado. s xy 60 2 b s2 2 s2 sx 30 x x d) b' s xy 1 60 s2 240 y s2y 4 s2y
sry2 s2x .(1 R2 ) sry2 30 . (1 0,5) 15 Las varianzas residuales: 2 2 2 2 srx s y .(1 R ) srx 240 . (1 0,5) 120
5. Sabiendo que x 3 , s2x 6 , s2y 8 y que la recta de regresión de Y sobre X es y 4 0,667. x
Obtener la recta de regresión de X sobre Y. Solución: y 4 0,667. x 4 0,667. 3 2 s xy s xy Y/X: y 4 0,667. x b 0,667 s2 6 s xy 0,667 . 6 4 x sxy 4 0,5 b' 2 sy 8 X/Y: x a' b'y x a' b' y 3 a' 0,5 . 2 a' 4
x 4 0,5 . y
6. Hallar la recta de regresión de Y sobre X sabiendo que x 4,1 , y 2,3 y la recta pasa por el punto (5,9 , 3,5) Solución: y a b x 2,3 a 4,1 . b Y/X: y a b x por pasar por (5,9 , 3,5) 3,5 a 5,9 . b
7
a 4,1 . b 2,3 a 5,9 . b 3,5
1,2 0,667 b 1,8 a 2,3 4,1 . 0,667 0,435
y 0,435 0,667. x
7. La tabla muestra la comprensión lectora (X) de dos grupos de individuos educados en niveles socioculturales altos (A) y bajos (B).
Intervalos 0 ‐ 6 7 ‐ 13 14 ‐ 20 21 ‐ 27 28 ‐ 34
nA 4 6 9 12 9
nB 4 7 9 8 2
Si a partir de la puntuación X 19 se considera una comprensión lectora buena. Se pide: a) Porcentaje de personas en cada grupo con una buena comprensión lectora. b) ¿Entre qué valores de comprensión lectora estará la quinta parte central del Grupo A? c) ¿Entre qué valores de comprensión del Grupo B se encuentran los 12 centrales? d) ¿Cuál de los dos grupos presenta mayor variabilidad? Solución:
a) Adviértase que los intervalos son cerrados, se deben expresar abiertos a la derecha con extremos reales: Intervalos
x
ci
nA
NA
x.nA
‐ 0, 5 ‐ 6,5 6,5 ‐ 13, 5 13,5 ‐ 20, 5 20,5 ‐ 27, 5 27,5 ‐ 34,5
3 10 17 24 31
7 7 7 7 7
4 6 9 12 9
4 10 19 31 40
12 60 153 288 279 792
x 2 .nA 36 600 2601 6912 8649 18798
nB
NB
x.nB
4 7 9 8 2
4 11 20 28 30
12 70 153 192 62 489
x 2 .nB 36 700 2601 4608 1922 9867
Se calcula el orden k del percentil que es igual a 19. Este da el porcentaje de las personas que tienen menos de 19 puntos. La respuesta será su diferencia hasta 100.
En el Grupo A: k . 40 10 7 . (0,4 . k 10) 100 Pk 19 13,5 . 7 19 13,5 19 10 9
49,5 2,8 . k 70 k 119,5 / 2,8 42,68
El 57,32% 100 42,68 57,32 tiene una buena comprensión lectora en el Grupo A.
8
En el Grupo B: k . 30 11 7 . (0,3 . k 11) Pk 19 13,5 100 . 7 19 13,5 20 11 9
49,5 2,1 . k 77 k 126,5 / 2,1 60,24
El 39,76% 100 60,24 39,76 tiene una buena comprensión lectora en el Grupo B. En consecuencia, el Grupo A tiene una mejor comprensión lectora. b) La quinta parte representa el 20%. Con relación al centro (50%), cubrirán desde el 40% al 60%, se tendrá que calcular el Percentil 40 y el Percentil 60 de la distribución de comprensión lectora del Grupo A.
P40
P60
40 . 40 10 16 10 100 13,5 . 7 13,5 . 7 18,17 19 10 19 10 60 . 40 19 24 19 100 20,5 . 7 20,5 . 7 23,42 31 19 31 19
La quinta parte central del Grupo A se encuentra entre los valores [18,17 ‐ 23,42] c) Los 12 valores representa el(12 / 30 40%) . Con relación al centro (50%), cubrirán desde el 30% al 70%, teniendo que calcular el Percentil 30 y el Percentil 70 de la distribución de comprensión lectora del Grupo B.
P30
P70
30 . 30 4 94 6,5 100 . 7 6,5 . 7 11,5 11 4 11 4 70 . 30 20 21 20 20,5 100 . 7 20,5 . 7 21,375 28 20 28 20
Los 12 centrales valores centrales de comprensión del Grupo B se encuentran entre [11,5 ‐ 21,375] d) Mayor variabilidad tendrá aquel grupo que posea mayor dispersión entre sus valores, es decir, si la media aritmética es representativa de las observaciones (no existen valores extremos exageradamente distanciados de la mayoría). El estadístico más adecuado para medir la variabilidad relativa entre dos series es el Coeficiente de Variación de Pearson, entendiendo que un valor mayor indica menor homogeneidad, un valor menor refleja menor dispersión o variabilidad. xA
792 19,8 40
s2A
18798 19,82 77,91 40
sA 9
77,91 8,83
xB
489 16,3 30
CVA
sB2
9867 16,32 63,21 30
8,83 . 100 44,59% 19,8
CVB
sB
63,21 7,95
7,95 . 100 48,77% 16,3
El Grupo B presenta mayor variabilidad relativa, en contra de lo obtenido comparando la desviación típica. 8. A partir de la tabla adjunta, donde N 11 , Y 0
X \ Y 0 1
‐ 2 0 3
2
0
0 1 n22 1
1 0 n23 0
a) ¿Son independientes las variables estadísticamente? b) Rectas de regresión de Y/X e X/Y c) ¿Qué parte de la varianza calculada Y es explicada por la regresión? ¿Qué parte es debida a causas ajenas?. Solución:
a) X \ Y
‐ 2
0
1
ni
0 1
0 3 0
0 n23 0 n23
1
2 n j
1 n22 1 2 n22
3
De otra parte, Y
3 n22 n23 1 5 n22 n23 11
2 . 3 0 n23 0 n23 6 11
5 n22 6 11 n22 0 X \ Y
‐ 2
0
1
ni
0 1 2 n j
0 3 0
1 0 1
0 6 0
1 9 1
3
2
6
11
Las variables X e Y son independientes n n n cuando se verifica ij i j i, j N N N
No son independientes porque no se verifica la relación:
10
n 1 1 2 n n2 x 12 1 11 11 11 N N N
b) 3 3
x i y j nij
a11 i1 j1
N
1 2 . 1. 3 1 . 1. 6 0 11
3
3
x i ni
x i ni 2
1.9 0 2.1 a10 x i1 1 a20 i1 N 11 N 13 2 2 2 s2x a20 a10 1 sx 0,43 11 11 11 3
a01 y
y j n j j1
N
s2y a02 a201
3
0 a02
18 18 0 sy 11 11
y j n j
1 2 13 1 . 9 22 . 1 11 11
2
j1
N
1 18 (2)2 . 3 12 . 6 11 11
18 1,28 11
covarianza: sxy a11 a10 . a01 0 1 . 0 0
El coeficiente de regresión de Y sobre X (pendiente de la recta): b
sxy s
2 x
0 0 2 / 11
Y a b X 0 a 0 . 1 a 0 Y / X : Y 0
El coeficiente de regresión de X sobre Y (pendiente de la recta): b'
sxy s
2 Y
0 0 18 / 11
X a' b' Y 1 a' 0 . 0 a' 1 X / Y : X 1 COEFICIENTE DETERMINACIÓN: r2 b . b' 0 Las rectas son perpendiculares, y en consecuencia, las variables (X, Y) son INCORRELADAS VARIANZA RESIDUAL DE Y: sry2 s2y (1 r2 ) sry2 s2y s2Y explicada sr2Y
18 18 s2Y explicada 11 11
18 18 (1 0) 11 11
s2Y explicada 0
11
9. La variable X tiene x 4 y s2x 1 . Determinar el coeficiente de variación de Pearson de las variables:
W
(X 3) 2
,
Z
(X 2) 3
Solución: 3 1 1 1 3 1 3 E(W) E 2 2 X 2 2 . E(X) w 2 2 . x 2 2 Var (W) Var 3 1 X 1 . Var(X) 1 . s2 s 1 . s 1 x W x 2 2 2 4 2 2
C.Vw
sw 1 / 2 1 w 1/2
2 1 1 2 2 1 2 E(Z) E 3 3 X 3 3 . E(X) z 3 3 . x 3 2 Var (Z) Var 2 1 X 1 . Var(X) 1 . s2 s 1 . s 1 x z x 3 3 3 9 3 3
C.Vz
sz 1 / 3 1 z 2/3 2
COEFICIENTE DE VARIACIÓN DE PEARSON : CAMBIO DE ORIGEN Y DE ESCALA E(Y) E (a b . X) a b . E(X) a b . X
Var (Y) Var a b . X b2 . Var(X) b2 . s2x s y b . s x
C.Vy
b . sx sx a a b.X X b
El Coeficiente de Variación de Pearson se encuentra afectado ante un cambio de origen.
12
10. Si s y sx y r 0 ¿La recta de regresión Y/X tiene mayor pendiente que la de X/Y? Solución:
RELACIÓN ENTRE LOS COEFICIENTES DE REGRESIÓN Y CORRELACIÓN b
sxy
b' r
sxy b . s2x
2 x
s s xy s
s xy b . s2y
2 y
s xy sx . sy
s xy r. sx . s y
Si s y sx , r 0 r.
sy sx
r.
sx sy
s b . s2x r. sx . s y b r. y sx s b' . s2y r. s x . s y b' r. x sy b b'
11. Sean dos variables X e Y, tipificadas e incorreladas. Escribir la recta de regresión de Y sobre X Solución: x 0 sx 1 Por ser (X, Y) variables tipificadas: y 0 sy 1 b 0 Por ser (X, Y) variables incorreladas: sxy 0 r2 0 b' 0 y a b. x a y 0 Y/X: y a b . x b0
Y/X: y 0 12. En una regresión lineal las varianza explicada por la regresión y residual son iguales. ¿Cuánto vale el coeficiente de determinación?. Solución: 2 s2y sry2 sRy 2sry2
r 1 2
sry2 s
2 y
r 1 2
sry2
1 1 1 2sry 2 2
13
Sea yˆ i el valor teórico que correspondería a la recta de regresión de Y sobre X yˆ i a b . x i , elevando al cuadrado la descomposición (y i y) (yi yˆ i ) (yˆ i y) : (yi y)2 (yi yˆ i ) (yˆ i y) (yi yˆ i )2 (yˆ i y)2 2 (yi yˆ i ) (yˆ i y) 2
0
se observa que, (y i yˆ i ).(yˆ i y ) (yi a bx i ).(a bx i y ) a (yi a bx i ) b x i (y i a bx i ) y (y i a bx i ) 0
suma cuadrados total
(yi y )
2
suma cuadrados residual
Dividiendo por N:
(yi yˆ i)
2
0
0
suma cuadrados explicada
2 (yˆ i y )
2 2 2 (yi y ) (yi yˆ i ) (yˆ i y ) N N N 2 2 2 sy sry sRy
2 s2y sry2 sRy
2 por s2y : Dividiendo la expresión s2y sry2 sRy
2 s2y sry2 sRy
r2 sry2 s2y (1 r2 ) 2 s s 1 Ry2 2 sry2 s s r 1 y s2y 2 ry 2 y
2 s2y . r2 sRy
13. Determinar si son coherentes los datos:
a) N 100 , x 5 , y 8 , s2x 12,5 , s2y 70 , r2 0,9 b) La suma de residuos al cuadrado correspondientes a una de las posibles rectas de regresión vale 100 Solución:
Solo son útiles: N 100 , s2x 12,5 , s2y 70 , r2 0,9 , (yi yˆ i )2 100 sry2
2 2 (yi yˆ i ) 100 (x i xˆ i ) 100 1 ó srx2 1 N 100 N 100
De otra parte, Y/X: sry2 s2y (1 r2 ) sry2 70 (1 0,9) 7 1
No son coherentes.
X/Y: srx2 s2x (1 r2 ) srx2 12,5 (1 0,9) 1,25 1 14
No son coherentes.
14. Dada la siguiente distribución:
xi
5
10
15
20
25
ni
3
7
5
3
5
a) Calcular la media armónica, geométrica y aritmética b) Calcular la varianza, desviación típica y coeficiente de variación de Pearson c) Hallar la media aritmética y la desviación típica de la variable X tipificada d) Mediante la transformación y
x 15 , hallar la media, varianza y desviación típica 5
Solución:
a) xi
5
10
15
20
25
ni
3
7
5
3
5
23
x i ni
15
70
75
60
125
345
ni
xi
125
10000000
759375
8000
9765625
7,415771484 . 1025
ni xi
0,6
0,7
0,3333
0,15
0,2
1,9833
x 2i ni
75
700
1125
1200
3125
6225
xA
N N 23 11,597 5 n n1 n2 n3 n4 n5 1,9833 i i1 x i x1 x 2 x 3 x 4 x 5 5
xG 23 xni i 23 xn11 . xn22 . xn33 . xn44 . xn55 23 7,415771484 . 1025 13,329 i 1
5
x i ni
a1 x i1
N
345 15 23
La relación entre las diferentes medias es: xA xG x 5
2 x i ni
6225 270,652 s2x a2 a12 270,652 152 45,652 N 23 sx 45,652 6,76
b) a2 i1
CVx
s x 6,76 0,45 [45% de dispersión de los datos] x 15
15
c) La variable X tipifica: zi xi
5
10
15
20
25
ni
3
7
5
3
5
‐1,479
‐0,740
0
0,740
1,479
‐4,438
‐5,178
0
2,219
7,396
0
z ni
6,565
3,830
0
1,641
10,941
23
yi
‐2
‐1
0
1
2
yi ni
‐6
‐7
0
3
10
0
y 2i ni
12
7
0
3
20
42
xi x sx
zi
zi ni 2 i
5
z
xi x sx
zi ni
i1
N
5
zi ni Toda variable tipificada tiene 0 23 0 s2z i1 (z)2 0 1 23 N 23 media 0 y varianza 1
d) Con la transformación y 5
yi ni
y i1
N
23
2
x 15 5 5
y i ni 2
0 0 s2y i1 23 N
(y)2
42 42 0 1,826 s y 23 23
No son necesarios los cálculos, se conoce: 1 15 x 15 1 y E 5 5 E x 3 3 5 x 3 5 0 x 15 1 1 45,652 s2y Var 2 Var x s2x 1,826 25 25 5 5
16
42 1,35 23
15. Ana acude con su hijo a la consulta de un odontólogo para cuatro restauraciones dentarais, observando que el doctor aplicaba cantidades de cemento de ionómeros de vidrio con flúor y composite (Y, en gramos) conforme a los diámetros de perforación de cada pieza dental (X, en milímetros) como se refleja a continuación:
X \ Y 0 ‐ 3 3 ‐ 5 5 ‐ 10
0 ‐ 1
1 ‐ 3 1
3 ‐ 6
1
6 ‐ 10
1 1
Se pide: a) ¿Son independientes estadísticamente ambas variables?. Razone la respuesta. b) Calcule las rectas de regresión de Y/X e X/Y. Interpretar los resultados. c) ¿Qué parte de la varianza de las perforaciones habidas (X) es explicada por la cantidad de ionómeros de vidrio consumida (Y)? ¿Qué parte no es explicada?. Solución:
a) Las variables X e Y son independientes cuando se verifica
X \ Y
0,5
2
4,5
8
ni
x i ni
x 2i ni
1
1 2 1
1,5 8 7,5
2,25 32 56,25
17
90,5
1,5 4 7,5 n j
1
1
1
1
1
4
y j n j
0,50
2
4,50
8
15
0,25
4
20,25
64
88,5
1
2 j
y n j
1
Las variables no son independientes:
n12 N
n n i j i, j N N N
nij
1 n1 n2 1 1 4 N N 44
3 4
x i y j nij
b) a11 i1 j1
N
1 1,5 . 2 . 1 4 . 0,5 . 1 4 . 4,5 . 1 7,5 . 8 . 1 20,75 4
3
x i ni
a10 x i1
N
3
2 x i ni
17 4,25 a20 i1 4 N
2 s2x a20 a10 22,625 4,252 4,5625 sx
4
a01 y
y j n j j1
N
4
15 3,75 a02 4
y j n j
90,5 22,625 4
4,5625 2,136
2
j1
N
17
88,5 22,125 4
s2y a02 a201 22,125 3,752 8,0625 s y
8,0625 2,84
covarianza: sxy a11 a10 . a01 20,75 4,25 . 3,75 4,8125
El coeficiente de regresión de Y sobre X (pendiente de la recta): b
sxy s
2 x
4,8125 1,055 4,5625
Y a b X 3,75 a 1,055 . 4,25 a 0,734 Y / X : Y 0,734 1,055 X
El coeficiente de regresión de X sobre Y (pendiente de la recta): b'
sxy s
2 Y
4,8125 0,597 8,0625
X a' b' Y 4,25 a' 0,597 . 3,75 a' 2,011 X / Y : X 2,011 0,597 Y c) COEFICIENTE DETERMINACIÓN: r2 b . b' 1,055 . 0,597 0,6298 VARIANZA RESIDUAL DE X: srx2 s2x (1 r2 ) srx2 4,5625 (1 0,6298) 1,689 NO EXPLICADA s2x
srx2
varianza residual no explicada
2 sRx
sRx s x srx 2
2
2
varianza regresión explicada
18
2 sRx 8,0625 1,689 6,3735 EXPLICADA
16. El salario medio mensual en cientos de euros de 160 obreros se distribuye de la siguiente forma:
Intervalos ni
4 ‐ 8 3
8 ‐ 12 12
12‐ 16 40
16 ‐ 20 47
20 ‐ 24 32
24 ‐ 28 13
28 ‐ 32 9
32 ‐ 36 4
a) Media aritmética, mediana, moda y percentil 75. b) Coeficiente de asimetría de Fisher. c) Realizar una redistribución en la que los intervalos tengan una amplitud de 8, y con estos nuevos intervalos calcular la media aritmética y el coeficiente de variación de Pearson. Comparar los resultados obtenidos en el apartado (a) Solución:
a) Intervalos xi
4 ‐ 8
8 ‐ 12
12‐ 16
16 ‐ 20
20 ‐ 24
24 ‐ 28
28 ‐ 32
32 ‐ 36
6
10
14
18
22
26
30
34
ni
3
12
40
47
32
13
9
4
Ni
3
15
55
102
134
147
156
160
hi ni / ci
0,75
3
10
11,75
8
3,25
2,25
1
40
x i . ni
18
120
560
846
704
338
270
136
2992
(x i x)
‐12,7
‐8,7
‐4,7
‐0,7
3,3
7,3
11,3
15,3
(x i x) ni
‐38,1
‐104,4
‐188
‐32,9
105,6
94,9
101,7
61,2
0
(x i x)2 ni
483,87
908,28
883,6
23,03
348,48
692,77
1149,21
936,36
5425,60
(x i x)3 ni
‐6145,149
8
x i . ni
a1 x i1
Md L i
N
‐7902,036 ‐4152,92 ‐16,121 1149,984 5057,221 12986,073
160
14326,308 15303,36
N Ni1 80 55 2992 18,7 Me L i 2 ci Me 16 . 4 18,13 160 Ni Ni1 102 55 hi hi 1
(hi hi 1 ) (hi hi 1 )
ci Md 16
Se verifica la relación x Me Md
11,75 10 . 4 17,27 (11,75 10) (11,75 8)
Distribución asimétrica a la derecha o positiva
Adviértase que para calcular la moda, cuando la amplitud de los intervalos es igual, para trabajar con una escala más pequeña, se puede emplear la expresión: Md L i
ni ni 1 (ni ni 1 ) (ni ni 1 )
ci Md 16
47 40 . 4 17,27 (47 40) (47 32)
75 N Ni1 120 102 P75 Li 100 ci Q 3 P75 20 . 4 22,25 Ni Ni1 134 102 19
g1 0 Asimetría a la derecha o positiva m3 b) Coeficiente de asimetría de Fisher: g1 3 g1 0 Simetría s g1 0 Asimetría ala izquierda o negativa 8
2 (x i x) .ni
m2 s2 i1
N
5425,60 33,91 (varianza) s 160
33,91 5,82 (desviación típica)
8
3 (x i x) . ni
m3 i1
g1
N
15303,36 95,65 160
m3 95,65 0,485 0 s3 5,823
Distribución asimétrica a la derecha o positiva.
c) Intervalos xi
4 ‐ 12 8
12 ‐ 20 16
20 ‐ 28 24
28 ‐ 36 32
ni
15
87
45
13
160
x i . ni
120
1392
1080
416
3008
960
22272
25920
13312
62464
2 i
x . ni 4
x i . ni
a1 x i1
CV
N
4
2 x i . ni
3008 18,8 a2 i1 160 N
62464 390,4 s2x a2 a12 390,4 18,82 36,96 160
36,96 sx 0,32 (32% de dispersión de los datos) x 18,8
La media aritmética cambia, se ha transformado la distribución de datos.
20
17. La distribución de salarios de una empresa es la siguiente:
Salario (euros) 3000 ‐ 5000 1000 ‐ 2000 5000 ‐ 9000 2000 ‐ 3000
Empleados 25 100 5 50
a) Estudiar la concentración de salarios b) ¿Qué porcentaje de empleados percibe el 50% de los salarios? c) La empresa como política comercial analiza subir los salarios a todos los empleados, con un incremento del 10%, o bien con un aumento de 200 euros por empleado. ¿Cuál de las dos opciones sería más equitativa? d) ¿Cuál es la concentración de salarios si el número de empleados hubiera sido el doble? Solución:
a) La concentración de salarios se analiza mediante el Índice de Gini, que no varía mediante cambios de escala (subida porcentual del 10% a los empleados) mientras que queda modificado con cambios de origen (subida lineal de 200 euros a cada empleado). Ordenando los salarios en forma creciente: Salarios
xi
ni
Ni
x i ni
1000 ‐ 2000 2000 ‐ 3000 3000 ‐ 5000 5000 ‐ 9000
1500 2500 4000 7000
100 50 25 5
100 150 175 180
150000 125000 100000 35000 410000
ui xi n i acumulada 150000 275000 375000 410000
Ni .100 N 55,56 x 83,33 97,22 100 236,11
% pi
% qi
ui .100 uk
36,59 50 67,07 91,46 100 195,12
3
qi
195,12 IG 1 i31 1 0,174 (concentración de salarios del 17,4%) 236,11 pi i1
b) En la tabla se observa que el 55,56% de los empleados percibe el 36,59% de los salarios, y el 83,33% de los empleados percibe el 67,07% de los salarios. En consecuencia, el 50% de los salarios estará distribuido entre un conjunto de empleados situado entre el 55,56 y el 83,33%. Bajo la hipótesis de linealidad, se establece la relación de porcentajes: 27,77 . 13,41 67,07 36,59 50 36,59 30,48 13,41 x 55,56 x 67,78% 83,33 55,56 x 55,56 27,77 x 55,56 30,48
21
c) SUBIDA DE SALARIOS DEL 10% ‐ Cambio de escala en los salarios x'i 1,1. xi
ni
Ni
x'i ni
1650 2750 4400 7700
100 50 25 5
100 150 175 180
165000 137500 110000 38500 451000
u'i x'i n i acumulada 165000 302500 412500 451000
% pi
Ni .100 N
% q'i
55,56 83,33 97,22 100 236,11
u'i .100 uk'
36,59 67,07 91,46 100 195,12
3
qi
195,12 0,174 (concentración de salarios del 17,4%) IG 1 i31 1 236,11 pi i1
Adviértase que: q'i
ui .1,1 ui qi uk .1,1 uk
Con una subida del 10% a cada empleado, la equidistribución no varía. El cambio de escala en los salarios no afecta al Índice de Gini, propiedad conocida como Principio de la Renta relativa. SUBIDA LINEAL DE SALARIOS DE 200 EUROS ‐ Cambio de origen en los salarios x 'i 200 x i
ni
Ni
x'i ni
1700 2700 4200 7200
100 50 25 5
100 150 175 180
170000 135000 105000 36000 446000
u'i x'i n i acumulada 170000 305000 410000 446000
% pi
Ni .100 N
55,56 83,33 97,22 100 236,11
% q'i
u'i .100 uk'
38,12 68,39 91,93 100 198,43
3
qi
IG 1 i31
pi
1
198,43 0,16 (concentración de salarios del 16%) 236,11
i1
Con una subida lineal de 200 euros a cada empleado, la equidistribución de salarios es más equitativa. Si por el contrario la empresa hubiera rebajado 50 euros a cada empleado, la equidistribución de salarios sería menos equitativa. El cambio de origen en los salarios afecta al Índice de Gini, propiedad conocida como Principio de Dalton.
22
d) Concentración salarios si el número de empleados hubiera sido el doble: SUBIDA LINEAL DE EMPLEADOS ‐ Cambio de escala en la Población n'i
xi 1500 2500 4000 7000
2 ni
200 100 50 10 360
N'i
xi n'i
200 300 350 360
300000 250000 200000 70000 820000
u'i xi n'i acumulada 300000 550000 750000 820000
%p'i
N' i .100 N
% q'i
55,56 83,33 97,22 100,00 236,11
u'i .100 uk'
36,59 67,07 91,46 100,00 195,12
3
qi
195,12 IG 1 i31 1 0,174 (concentración de salarios del 17,4%) 236,11 p i i1
El cambio de escala en la población no afecta al Índice de Gini, propiedad conocida como Principio de la Población. Es decir, el tamaño de la población no importa, lo que interesa son las proporciones de individuos de la población que perciben diferentes niveles de salario. 18. Dada la tabla de correlación:
X \ Y ‐ 1 0 1
‐ 1 2 2 1
0 1 4 0
1 2 2 1
Estudiar la independencia estadística, calcular las rectas de regresión y la correlación entre ambas variables. Solución:
a) X \ Y
‐ 1
0
1
ni
x i .ni
x 2i . ni
‐ 1 0 1 n j
2 2 1
1 4 0
2 2 1
5 8 2
‐5 0 2
5 0 2
5
5
5
N 15
‐3
7
y j . n j
‐5
0
5
0
5
0
5
10
2 j
y . n j
Las variables X e Y son independientes cuando se verifica
n n i j i, j N N N
nij
Si alguna de las frecuencias absolutas es igual a 0 no son independientes estadísticamente:
23
n32 n3 n2 0 2 5 . . N N N 15 15 15
3 3
x i . y j .nij
a11 i1 j1
N 3
x i ni
a10 x
i1
N
1 1.(1). 2 1. 1. 2 1. (1). 1 1. 1. 1 0 15 3
x i ni 7 3 7 6 1 1 2 a20 i1 s2x a20 a10 15 5 N 15 15 5 25
3
a01 y
y j n j j1
N
3
0 a02
2
y j n j
2
2
j1
N
10 10 10 s2Y a02 a201 0 15 15 15
b 0 Rectas regresión perpendiculares 1 sxy a11 a10 . a01 0 . 0 0 r2 0 5 b' 0 variables INCORRELADAS
Rectas de regresión: y a b. x a y 0 Y/X: y a b . x y0 b0
1 0,2 x a' b' . y a' x X/Y: x a' b' . y 5 b' 0
x 0,2
19. La variable estadística X tiene x 2 , s x 1 . Determinar la media aritmética, la varianza y el X 1 coeficiente de variación de Pearson de Y 2 Solución: 1 1 1 1 1 1 1 E(Y) E 2 2 X 2 2 . E(X) y 2 2 . x 2 2 Var (Y) Var 1 1 X 1 . Var(X) 1 . s2 s 1 . s 1 x Y x 2 2 2 4 2 2
C.VY
sY 1 / 2 1 y 1/2
24
20. La varianza explicada por una regresión lineal simple es el doble de la varianza residual, ¿Cuánto vale el coeficiente de determinación? Solución: 2 sRy 2sry2
2 s2y sry2 sRy 3 sry2
s s (1 r ) r 1 2 ry
2 y
2
2
sry2 s
2 y
1
sry2
1 2 1 3s 3 3 2 ry
21. Dada la distribución:
xi
2
4
8
10
ni
3
4
1
2
a) Calcula los coeficientes de asimetría de Pearson y de Fisher, coeficiente de curtosis. b) Siendo la variable X
Y 1 , halla los coeficientes de asimetría de Pearson y Fisher de la variable Y 2
c) ¿Tienen el mismo coeficiente de Variación de Pearson las dos variables? c) Calcula el coeficiente de curtosis de las variables X e Y Solución:
a) xi
ni
Ni
x i .ni
xi x
(x i x)2
(x i x)2 . ni
(x i x)3 . ni
(x i x)4 . ni
2 4 8 10
3 4 1 2 10
3 7 8 10
6 16 8 20 50
‐3 ‐1 3 5
9 1 9 25
27 4 9 50 90
‐81 ‐4 27 250 192
243 4 81 1250 1578
4
x i . ni
x i1
N
4
2 (x i x) . ni
50 5 Mex 4 Mdx 4 s2x i1 10
Coeficiente asimetría de Pearson: APx
N
90 9 sx 9 3 10
x Mdx 5 4 0,33 0 asimetría a la derecha o positiva sx 3 4
3 (x i x) . ni
Coeficiente de asimetría de Fisher: m3x i1 g1x
N
192 19,2 s3x 33 27 10
m3x 19,2 0,71 0 asimetría a la derecha o positiva s3x 27 25
4
4 (x i x) . ni
Coeficiente de curtosis: m4x i1 g2x
N
1578 157,8 s4x 34 81 10
m4x 157,8 3 3 1,05 0 menor apuntamiento que la normal (PLATICÚRTICA) 4 sx 81
b) Y 1 2X Los coeficientes de asimetría de Pearson y de Fisher son invariantes ante un cambio de origen y de escala y, en consecuencia, la distribución Y presenta: APy 0,33 0 asimetría a la derecha o positiva g1y 0,71 0 asimetría a la derecha o positiva Haciendo las operaciones: yi
ni
Ni
y i .ni
yi y
(y i y)2
(y i y)2 . ni
(yi y)3 . ni
(yi y)4 . ni
5 9 17 21
3 4 1 2 10
3 7 8 10
15 36 17 42 110
‐6 ‐2 6 10
36 4 36 100
108 16 36 200 360
‐648 ‐32 216 2000 1536
3888 64 1296 20000 25248
4
yi . ni
y i1
N
4
2 (y i y) . ni
110 11 Mey 9 Mdy 9 s2y i1 10
Coeficiente asimetría de Pearson: APy
y Mdy sy
N
360 36 s y 36 6 10
11 9 0,33 0 asimetría a la derecha o positiva 6
4
3 (yi y) . ni
Coeficiente de asimetría de Fisher: m3y i1
g1y
m3y s
3 y
N
1536 153,6 s3y 63 216 10
153,6 0,71 0 asimetría a la derecha o positiva 216
c) El coeficiente de variación de Pearson es invariante ante un cambio de escala (Y 2X) pero no 2sx ante un cambio de origen (Y 1 2X) . En este caso: CVy . No tienen, por tanto, el mismo 12x coeficiente de variación. Coeficiente de variación de Pearson de X: CVx
sx 3 0,6 (60% de dispersión de los datos) x 5
26
Coeficiente de variación de Pearson de Y: CVy
2.sx 6 0,54 (54% de dispersión de los datos) 1 x 11
d) El coeficiente de curtosis o apuntamiento es invariante ante un cambio de origen y de escala (Y 1 2X) y, en consecuencia: g2y 1,05 0 menor apuntamiento que la normal (PLATICÚRTICA) 4
4 (y i y) . ni 25248 i1 2524,8 s4y 64 1296 Haciendo operaciones: m4y N 10
g2y
m4y s
4 y
3
2524,8 3 1,05 0 menor apuntamiento que la normal (PLATICÚRTICA) 1296
27
PARCIALILLO 22 DE FEBRERO 2013 1. Se ha realizado un estudio entre 100 mujeres mayores de 25 años, observándose el número de hijos de las mismas. El resultado ha sido:
Número de hijos (x i ) 0 1 2 3 4 5 6
Número de mujeres (ni ) 13 20 25 20 11 7 4
a) Calcular el número medio de hijos, la mediana, la moda y el tercer cuartil b) ¿Cuál es el número máximo de hijos que tiene el 70% de las mujeres que menos hijos tienen? c) Calcular el coeficiente de variación de Pearson d) Calcular el coeficiente de asimetría de Fisher y el coeficiente de curtosis Solución:
a) xi
ni
Ni
0 1 2 3 4 5 6
13 20 25 20 11 7 4 100
13 33 58 78 89 96 100
75 50
fi =
ni N
Fi =
0,13 0,20 0,25 0,20 0,11 0,07 0,04 1,0
Ni N
0,13 0,33 0,58 0,78 0,89 0,96 1
x i ni
(x i ‐ x)
(x i ‐ x) 2
(x i ‐ x) 2 ni
(x i ‐ x) 3 ni
(x i ‐ x) 4 ni
0 20 50 60 44 35 24 233
‐2,33 ‐1,33 ‐0,33 0,67 1,67 2,67 3,67
5,43 1,77 0,11 0,45 2,79 7,13 13,47
70,58 35,38 2,72 8,98 30,68 49,90 53,88 252,11
‐164,44 ‐47,05 ‐0,90 6,02 51,23 133,24 197,72 175,82
383,15 62,58 0,30 4,03 85,56 355,75 725,65 1617,01
7
Media aritmética: x
xi ni i1
N
233 2,33 100
Mediana: Me 2 (pasa de la mitad 50%) Md 2 (n3 25, el más grande)
100. 3 75 : Q 3 3 hijos (F4 pasa del 75%) 3º Cuartil 4 28
b) El número máximo de hijos que tiene el 70% de las mujeres que menos hijos tienen es el Decil 7 (Percentil 70) Decil 7 ó Percentil 70: 3 hijos (F4 pasa de 0,7) 7
c) Varianza: m2 s 2
x x 2 ni i1
N
Desviación típica: s
252,11 2,5211 hijos 2 100
2,5211 1,59 hijos
Coeficiente de Variación de Pearson: C.V
S 1,59 0,6824 una dispersión del 68,24% x 2,33
d) Coeficiente de asimetría de Fisher: 1 7 (x i x) 3 ni 1,76 m3 N i1 0,4378 0 Asimetría a la derecha o positiva g 1 3 s s3 1,59 3
Coeficiente de curtosis:
g 2
m4 3 s4
1 N
7
(x i x) 4 ni i1
s
4
16,17 3 0,47 0 PLATICÚRTICA 1,59 4
2. Los salarios de los empleados de la cadena de producción de una empresa se distribuyen según la tabla adjunta: Salarios Nº empleados
10 ‐ 20 12000
20 ‐ 40 6000
40 ‐ 50 1000
50 ‐ 100 800
100 ‐ 200 200
¿Qué porcentaje de empleados que percibe el 50% de los salarios? ¿Es equilibrada la distribución de salarios?
Solución: Salarios [L i ‐ L i+1 )
xi
ni
Ni
x i ni
10 ‐ 20
15
12000
12000
180000
acumulada 180000
20 ‐ 40 40 ‐ 50 50 ‐ 100 100 ‐ 200
30 45 75 150
6000 1000 800 200
18000 19000 19800 20000
180000 45000 60000 30000
360000 405000 465000 495000
5
ni 20000 i1
ui = x i n i
5
Ni .100 N 60 x 90 95 99 100
%pi =
4
x i ni 495000
pi 344
i1
i1
29
% qi =
ui .100 uk
36,36 50 72,73 81,82 93,94 100 4
qi 284,85 i1
En la tabla se observa que el 60% de los empleados percibe el 36,36% de los salarios y que el 90% de los empleados percibe el 72,73% de los salarios. Para estimar el porcentaje (x) de empleados que percibe el 50% de los salarios se necesita realizar una interpolación lineal: x 60 90 60 50 36,36 72,73 36,36
x 60 90 60 13,64 36,37
x 71,25%
4
qi
IG 1 i41
pi
1
284,85 0,17 344
i1
La concentración es pequeña, pudiendo concluir que la distribución de salarios es equilibrada.
3. Sea la distribución bidimensional, donde las variables X e Y son estadísticamente independientes. X \ Y 1 2 Se pide:
3 3 2
4 c 6
a) Calcular las medias y varianzas marginales. b) Hallar la covarianza y las rectas de regresión.
Solución: X \ Y 1 2 n•j
ni•
3 3 2
4 c 6
3c 8
5
6c
11 c
Por ser independientes:
c c c 18 x (3 c).(6 c) c.(11 c) c 9 11 c 3 c 6 c 2
30
nij N
ni n j . i, j N N
MEDIAS Y VARIANZAS MARGINALES:
X \ Y 1 2 n•j
3 3 2
4 9 6
ni•
5
15
20
12 8
MARGINAL DE LA VARIABLE X: 2
a10 x
xi ni i1
N
2
x 2i ni 1 1 1 . 12 2 . 8 1,4 a20 i1 12 . 12 22 . 8 2,2 20 N 20
2 s2x a20 a10 2,2 1,42 0,24
MARGINAL DE LA VARIABLE Y: 2
a01 y
y n j
j1
2
j
N
1 3 . 5 4 . 15 3,75 a02 20
y j1
2 j
N
nj
1 2 3 . 5 42 . 15 14,25 20
s2y a02 a201 14,25 3,752 0,1875
b) covarianza: sxy a11 a10 a01
2
a11
X \ Y 1 2 n•j
X \ Y 1 2 n j
3 3 2
4 9 6
ni•
5
15
20
12 8
2
x y n i1 j1
i
j
ij
N
1.3.3 1.4.9 2.3.2 2.4.6 105 5,25 20 30
sxy a11 a10 a01 5,25 1,4 . 3,75 0 Sin calcular la covarianza, se conocía que la covarianza sxy 0 por ser (X, Y) variables independientes. Si (X,Y) independientes Si sxy 0
s XY 0 (X,Y) No son independientes
Por otra parte, se conoce que en las rectas de regresión:
Y/X: Y a bX X/Y: X a' b'Y
Los coeficientes de regresión respectivos (b, b') dependen de la covarianza sxy , dado que vienen expresados: b
sxy s
2 x
, b'
sxy s2y
.
31
Si sxy 0 b 0 , b' 0 Y /X: Y a Con lo cual, las rectas de regresión solicitadas son: X / Y : X a'
Los coeficientes respectivos (a, a') se calculan teniendo en cuenta: recta regresión Y/X
Y / X : Y a bX Y a bX 3,75 a 0 x 1,4 a 3,75 Y 3,75 recta regresión X/Y
X / Y : X a' b'Y X a' b'Y 1,4 a' 0 x 3,75 a' 1,4 X 1,4 Adviértase que cuando las variables (X, Y) son independientes, la covarianza sxy 0 En consecuencia:
Las coeficientes de regresión b 0 , b' 0 La recta de regresión de Y/X: Y Y 3,75 La recta de regresión de X/Y: X X 1,4 El coeficiente de determinación r2 b . b' 0 , es decir, las dos rectas son perpendiculares y las variables son INCORRELADADAS.
Si (X,Y) independientes
s XY 0
4. En una distribución bidimensional se conoce: r 0,7 Obtener:
sx 1,2
y 4
X / Y : X 0,6 0,44 Y
a) Recta de regresión de Y/X b) Varianza de Y
Solución: a) Recta de regresión de X sobre Y: a' 0,6 , b' 0,44 X 0,6 0,44 Y X 0,6 0,44 Y X 0,6 0,44. 4 2,36
De otra parte, el coeficiente de determinación r2: r2 b . b' 0,72 b . 0,44 b
0,72 1,114 0,44
32
b0 b' 0
r2 0
La recta de regresión de Y sobre X: Y a bX Y a bX 4 a 1,114 . 2,36 a 1,37 Y/X: Y 1,37 1,114 X b) Varianza de la Y: Sabemos que, sx 1,2 b
sxy s
2 x
1,114
sxy 1,22
b' 0,44
b 1,114
sxy 1,114 . 1,22 1,604
33
EXAMEN DE ESTADÍSTICA DESCRIPTIVA
GRADO EN ECONOMÍA 14 de Mayo 2013 1. Una institución pública decidió estudiar el gasto mensual en alimentación en una ciudad, para lo cual se seleccionó un distrito y se tomó muestras cuyo resultado fue el que sigue: Distrito 1 Gasto ($) Nº Familias 100 – 200 24 200 – 300 36 300 – 400 20 400 – 500 20 500 – 1000 50 a) Halle el gasto medio y el mediano en alimentación del distrito b) Si existe un segundo distrito de 120 familias con un gasto medio de 419,4 $ y una desviación típica de 242,701 $, ¿cuál de los dos tiene un gasto medio más representativo? c) Halle el gasto medio y la desviación típica del conjunto de los dos distritos. d) ¿Cuál es el nivel de gasto realizado por un mayor número de familias en el distrito 1? e) ¿Cuál es el máximo gasto realizado entre las 50 familias con menor gasto del distrito 1? f) Un índice de Gini de 0,10 en esta distribución ¿qué nos indicaría?
Solución: a) [L i L i1 )
xi
ni
100 – 200 200 – 300 300 – 400 400 – 500 500 – 1000
150 250 350 450 750
24 36 20 20 50 150
x i .ni
x2i .ni
3600 540000 9000 2250000 7000 2450000 9000 4050000 37500 28125000 66100 37415000
Ni 24 60 80 100 150
ni N 0,16 0,24 0,13 0,13 0,33
fi
Ni N 0,16 0,40 0,53 0,66 1
Fi
ci
di
100 100 100 100 500
5
x n i
i
66100 440,67$ N 150 El Gasto mediano se encuentra en el intervalo 300 400 Gasto medio: x
i1
N 150 Ni1 60 75 60 150 Mediana ci 300 2 100 300 100 375 $ 75 : Me L i 2 Ni Ni1 80 60 80 60 2 ni
34
ni ci
0,24 0,36 0,2 0,2 0,1
b) El coeficiente de variación de Pearson mide el grado de homogeneidad de una distribución 5 x 2i ni 37415000 s2x a2 x 2 i1 x2 440,672 55243,28 N 150 Distrito 1 s x 55243,28 235,04 s x 235,04 0,5334 (55,34%) CVx x 440,67 s y 242,701 y 419,4 Distrito 2 s y 242,701 CV 0,5787 (57,87%) x y 419,4 Al tener el Distrito 1 un Coeficiente de Variación de Pearson más pequeño (menor dispersión del gasto medio) indica que tiene una media más representativa que el Distrito 2. c) El gasto medio y desviación típica conjunta de los dos distritos: Distrito 2: (Y ; n2 120 , y 419,4 , s y 242,701)
Distrito 1: (X ; n1 150 , x 440,67 , sx 235,04) N n1 n2 150 120 270 _______
xy
n1 x n2 y 150 . 440,67 120 . 419,4 431,22 media ponderada n1 n2 150 120 media ponderada de las varianzas parciales
varianza ponderada de las medias parciales
2
varianza total
s2x1 x2
2
s2i ni i1
N intra‐grupos
(x x) n 2
i1
i
i
N entre‐grupos
media ponderada de las varianzas parciales 2
s n 2 i
i1
i
N
n1 s2x n2 s2y n1 n2
150 . 235,042 120 . 242,7012 56870,45 150 120
varianza ponderada de las medias parciales 2
(x x) n i1
2
i
i
N
(440,67 431,22)2 . 150 (419,4 431,22)2 . 120 111,71 270
35
varianza total
s2x y
56870,45 111,71 56982,16
sx y
56982,16 238,71
d) El intervalo modal es 200 300 por tener mayor densidad de frecuencia d2 0,36 Md L i
(d i d i1 ) (d i d i1 ) (d i d i1 )
c i Moda aproximada: Md L i
Intervalo 200 300 : Md 200
Moda aproximada: Md L i
d i1 d i1 d i1
ci
(0,36 0,24) 100 242,86 $ (0,36 0,24) (0,36 0,2)
d i 1 d i1 d i1
c i 200
0,2 100 245,45 $ 0,24 0,2
e) Máximo gasto realizado entre las 50 familias con menor gasto del distrito 1 33,33 . N Ni1 50 100 ci 150 0,33 (33,33%) P33,33 Li Ni Ni1 ni
33,33 . 150 Ni1 50 24 100 P33,33 L i ci 200 100 272,22 $ Ni Ni1 60 24 ni
f) Un índice de Gini de 0,10, al ser próximo a cero, indica que el gasto se encuentra bastante bien repartido entre las familias.
2. Se ha realizado un estudio para determinar la recta de regresión que explique el gasto diario de los clientes del hotel (Y, medida en €) en función de la edad de los mismos (X, medida en años). Tras analizar los datos se ha obtenido la siguiente recta de regresión Y/X: Y 25 2,9 X a) Interprete los resultados de la recta de regresión. b) Si se sabe que sx 10 y que s y 30 , determine la bondad del ajuste de esta recta de regresión a partir del coeficiente de correlación lineal e interprétela. c) Calcule los parámetros de la regresión de X sobre Y sabiendo que la media de edad de los clientes es de 30 años. d) ¿Cuál sería la edad esperada para un huésped que ha gastado diariamente 100 euros? ¿La predicción será fiable?. Razone la respuesta.
Solución: a) 2’9 es el coeficiente de regresión lineal. Al ser positivo cuando X crece, Y crece e indica el aumento de gasto de un cliente cuando su edad aumenta en una unidad. 36
25 euros es el valor de Y para X=0 años. En este caso no tiene sentido. b) La bondad del ajuste viene dado por el coeficiente de determinación: s a 25 b xy2 sxy b . s2x s xy 2,9 . 102 290 Y/X : Y 25 2,9 X sx b 2,9 Coeficiente determinación: r2 b . b'
s2xy s2x . s2y
2902 0,934 102 . 302
La relación lineal es bastante buena ya que el 93,4% de la variabilidad de Y se explica a partir de su dependencia con la variable X. c) x 30 y 25 2,9 . x y 25 2,9 . 30 112 Y 25 2,9 X r2 0,934 b' 0,322 b' X a' b' Y b 2,9 x a' b' y 30 a' 0,322 . 112 a' 6,064 Recta de regresión de X/Y: X a' b' Y X 6,064 0,322 . Y d) Edad esperada para un huésped con un gasto diario de 100 euros X / Y : para Y 100 X 6,064 0,322 . 100 26,136 euros
La predicción es con una fiabilidad del 93,4% (r2 0,934)
3. Un sector de la economía nacional dispone del valor de producción a precios corrientes de cada año (miles de euros) y los índices de precios de Laspeyres y Fisher.
Año 2007 2008 2009 2010 2011 2012
Producción (precios corrientes) 78.147 91.357 88.854 92.892 101.336 102.578
Lp (%)
Fp (%)
100 104,22 107,25 109,05 114,87 126,35
100 105,34 108,94 111,36 117,67 130,18
Utilizando el deflactor más idóneo, calcular la producción anual en precios constantes de 2007.
Solución: Para calcular el valor real (precios constantes) de una magnitud se requiere deflactar el valor nominal (precios corrientes), eliminando la influencia que han experimentado los precios. Para ello, se deflacta la serie dividiendo el valor nominal entre un índice de precios. 37
(precios corrientes) VtN Valor Nominal R Valor Real Vt = t . 100 Índice Precios Ip,0 (precios constantes)
El deflactor más adecuado es el de Paasche, ya que con éste índice de precios se obtiene una relación entre valores monetarios corrientes y valores monetarios constantes. n
n
Índice de Paasche: Pp
pit . qit i 1 n
pi0 . qit
VtR
i 1
VtN Pp
pit .qit i1 n
pit .qit
n
pi0 .qit i1
i1 n
pi0 .qit i1
El índice de precios de Fisher Fp Lp .Pp Pp
(Fp )2 Lp
Año
Producción (precios corrientes) VtN
% Lp
% Fp
2007 2008 2009 2010 2011 2012
78.147 91.357 88.854 92.892 101.336 102.578
100 104,22 107,25 109,05 114,87 126,35
100 105,34 108,94 111,36 117,67 130,18
2
38
%Pp
(Fp ) Lp
100 106,47 110,66 113,72 120,54 134,13
Producción (precios constantes 2007) VtN R Vt Pp 78147 85803,75 80297,04 81685,61 84069,58 76478,78
4. En la tabla adjunta se reflejan las ventas trimestrales de una empresa en millones de euros. Halle la serie desestacionalizada por el método de las medias móviles. Trimestres \ Años Primero Segundo Tercero Cuarto
2008 2 2 3 3
2009 3 4 5 4
2010 2 4 5 4
2011 4 5 7 3
2012 5 6 8 5
Solución: Se obtienen las medias móviles de tamaño 4 (período de las variaciones estacionales), que al ser un número par, serán descentradas y corresponderán a los períodos intermedios entre cada dos trimestres consecutivos: Y1 Y2 Y3 Y4 2 2 3 3 2,5 4 4 Y Y4 Y5 Y6 3 3 3 4 Y4 ,5 3 3,25 4 4 …………………………………………………………………… Y Y Y Y 3568 Y17,5 16 17 18 19 5,5 4 4
Y2 Y3 Y4 Y5 2 3 3 3 2,75 4 4 Y Y Y Y 334 5 Y5,5 4 5 6 7 3,75 4 4 …………………………………………………………………… Y Y Y Y 5685 Y18,5 17 18 19 20 6 4 4
Y2,5
SERIE DESCENTRADA Trimestres \ Años Primero ‐ Segundo Segundo ‐ Tercero Tercero ‐ Cuarto Cuarto ‐ Primero
2008 ‐‐‐‐‐‐ 2,5 2,75 3,25
Y3,5
2009 3,75 4 3,75 3,75
2010 3,75 3,75 4,25 4,5
2011 5 4,75 5 5,25
2012 5,5 6 ‐‐‐‐‐‐ ‐‐‐‐‐‐
Para corregir la nueva serie de móviles descentrada, a partir de ella se calcula la media aritmética de cada dos valores sucesivos, asignando este nuevo valor al instante central de los dos periodos considerados, es decir: Y2,5 Y3,5
2,5 2,75 2,625 2 2 …………………………………………………………………… Y Y 5,25 5,5 5,375 Y17 16,5 17,5 2 2 Y3
Y3,5 Y4,5
2,75 3,25 3 2 2 …………………………………………………………………… Y Y 5,5 6 5,75 Y18 17,,5 18,5 2 2 Y4
SERIE CENTRADA: COMPONENTES TENDENCIA Y CÍCLICA Trimestres \ Años 2008 2009 2010 Primero ‐‐‐‐‐‐ 3,5 3,750 Segundo ‐‐‐‐‐‐ 3,875 3,750 Tercero 2,625 3,875 4 Cuarto 3 3,750 4,375
2011 4,750 4,875 4,875 5,125
La línea que une los puntos Y3 , Y4 , , Y18 se toma como línea de tendencia. 39
2012 5,375 5,750 ‐‐‐‐‐‐ ‐‐‐‐‐‐
El inconveniente que presenta el método de las medias móviles es que no permite efectuar predicciones, puesto que con él no se obtiene la expresión de una fórmula matemática que facilite obtener el valor de la tendencia para un instante futuro. Este motivo hace que el método se utilice poco para determinar la tendencia, aunque sí se utiliza en el cálculo de los índices de variación estacional (IVE). Al aplicar el método de las medias móviles, en el esquema multiplicativo Yit = Tit .Eit .Cit .A it , lo que realmente se obtiene es una aproximación de Tit .Cit (componentes tendencia y cíclica), quedando sin analizar las componentes estacional ( Eit ) y accidental (Ait ). La tendencia Tit y la componente cíclica Cit se eliminarán dividiendo cada dato de la serie original Yit por la correspondiente media móvil:
Yit Tit .Cit
=
Trimestres \ Años Primero Segundo Tercero Cuarto
Tit .Eit .Cit .A it Tit .Cit
2008 ‐‐‐ ‐‐‐ 3/2,625 3/3
= Eit .A it quedando la componente estacional y accidental
2009 3/3,5 4/3,875 5/3,875 4/3,75
COMPONENTES ESTACIONAL Y ACCIDENTAL Trimestres \ Años 2008 2009 Primero ‐‐‐‐‐‐ 0,857 Segundo ‐‐‐‐‐‐ 1,032 Tercero 1,143 1,290 Cuarto 1 1,067
2010 2/3,75 4/3,75 5/4 4/4,375
2011 4/4,75 5/4,875 7/4,875 3/5,125
2012 5/5,375 6/5,75 ‐‐‐ ‐‐‐
2010 0,533 1,067 1,250 0,914
2011 0,842 1,026 1,436 0,585
2012 0,930 1,043 ‐‐‐‐‐‐ ‐‐‐‐‐‐
El Índice Bruto de Variación Estacional (IBVE) se calcula eliminando la componente accidental A i t . Para ello, se hace el cálculo de las medias aritméticas trimestrales, es decir, la media aritmética de cada fila de la tabla anterior (donde solo aparecía el producto de Ei t . A i t ): 0,857 0,533 0,842 0,930 0,791 4 1,143 + 1,290 + 1,250 + 1,436 = 1,280 4
Trim \ Años Primero Segundo Tercero Cuarto
1,032 + 1,067 + 1,026 + 1,043 = 1,042 4 1 + 1,067 + 0,914 + 0,585 = 0,892 4
COMP. ESTACIONAL Y ACCIDENTAL 2008 2009 2010 2011 2012 ‐‐‐‐‐‐ 0,857 0,533 0,842 0,930 ‐‐‐‐‐‐ 1,032 1,067 1,026 1,043 1,143 1,290 1,250 1,436 ‐‐‐‐‐‐ 1 1,067 0,914 0,585 ‐‐‐‐‐‐
COMPONENTE ESTACIONAL IBVE % IVE (0,791 / 1,001) . 100 78,990 0,791 (1,042 / 1,001) . 100 104,095 1,042 (1,280 / 1,001) . 100 127,847 1,280 (0,892 / 1,001) . 100 89,067 0,892 1,001
40
400
IBVE
4,004 1,001 4
Adviértase que los índices de variación estacional (IVE) tienen que sumar 4 (400%) Sobre un nivel medio de ventas, la influencia de la variación estacional (% IVE ‐100) produce: 1º Trimestre: 2º Trimestre: 3º Trimestre: 4º Trimestre:
(78,990 100) 21,01% (104,095 100) 4,095 % (127,847 100) 27,847 % (89,067 100) 10,933 %
descenso de ventas del 21,01% aumento de ventas del 4,095% aumento de ventas del 27,847% descenso de ventas del 10,933%
La DESESTACIONALIZACIÓN (aplicando el método a la razón a la media móvil) consiste en dividir cada valor de la serie original por cada Índice de Variación Estacional correspondiente, en porcentaje Yit .100 % IVEt
Trimestres \ Años 2008 2009 2010 2011 2012 (3/78,99).100 (2/78,99).100 (4/78,99).100 (5/78,99).100 Primero (2/78,99).100 (2/104,095).100 (4/104,095).100 (4/104,095).100 (5/104,095).100 (6/104,095).100 Segundo (3/127,847).100 (5/127,847).100 (5/127,847).100 (7/127,847).100 (8/127,847).100 Tercero (3/89,067).100 (4/89,067).100 (4/89,067).100 (3/89,067).100 (5/89,067).100 Cuarto SERIE DESESTACIONALIZADA Trimestres \ Años 2008 Primero 2,532 Segundo 1,921 Tercero 2,347 Cuarto 3,368
2009 3,798 3,843 3,911 4,491
2010 2,532 3,843 3,911 4,491
41
2011 5,064 4,803 5,475 3,368
2012 6,330 5,764 6,257 5,614
EXAMEN DE ESTADÍSTICA DESCRIPTIVA
GRADO EN ECONOMÍA 21 de Junio 2013
1. En una fábrica trabajan 20.000 personas en la cadena de producción, cuyos salarios, en miles de euros, se distribuyen según la tabla adjunta: Salarios Nº trabajadores
10 ‐ 20 12.000
40 ‐ 50 1.000
20 ‐ 40 6.000
50 ‐ 100 800
100 ‐ 200 200
a) Determine el grado de concentración de los salarios b) ¿Qué parte de la nómina percibe el 5% del personal mejor pagado? c) ¿Qué porcentaje de los trabajadores percibe el 50% de los salarios? d) Si la empresa hace una reestructuración del 60% de plantilla en cada uno de los tramos de los salarios, ¿cuál sería el índice de Gini?
Solución: a) Ordenando los datos de forma creciente:
Salarios
xi
ni
Ni
xi ni
10 ‐ 20
15
12000
12000
180000
20 ‐ 40 40 ‐ 50 50 ‐ 100 100 ‐ 200
30 45 75 150
6000 1000 800 200
18000 19000 19800 20000
180000 45000 60000 30000
%pi
Ni .100 N
60 x 90 95 99 ‐‐‐‐‐‐ 344
Ui x i n i acumulada 180000 360000 405000 465000 495000
%qi
Ui .100 Uk
36,36 50 72,73 81,82 93,94 ‐‐‐‐‐‐ 284,85
5
Índice de Gini: IG 1
q i 1 5
p i 1
i
1
284,85 0,1719 (17,19%) 344
i
b) Comenzando por los salarios más bajos, se observa que el 81,82% de los salarios, es percibido por el 95% de la plantilla. En consecuencia, el 5% del personal mejor pagado percibe el 18,18% c) Se observa que el 60% de los trabajadores percibe el 36,36% de los salarios, mientras que el 90% de los trabajadores percibe el 72,73% de los salarios. Para estimar el porcentaje x de trabajadores que percibe el 50% de los salarios, se realiza una interpolación lineal: 42
90 60 x 60 x 71,25 % 72,73 36,36 50 36,36
d) El índice de Gini tiene que ser coherente con el Principio de la Población, es decir, el índice de Gini no varia cuando el conjunto de individuos con la misma renta se multiplican por un escalar. En consecuencia, si la empresa hace una modificación de la plantilla del 60% en todos los tramos de salarios el índice de Gini tiene que ser el mismo: IG 0,1719
2. Dada la tabla de correlación: X\Y 1 2
0 1 4
3 5 4
6 2 1
a) Hallar las rectas de regresión mínimo cuadráticas asociadas. b) Hallar la varianza explicada por la regresión y la varianza residual de la recta Y/X, explicando los resultados.
Solución: a) Se efectúan los cálculos necesarios para obtener los momentos respecto al origen: X \ Y
0
3
6
ni
x i ni
x 2i ni
1 2
1 4
5 4
2 1
8 9
8 18
8 36
n j
5
9
3
17
26
44
y j n j
0
27
18
45
y 2j n j
0
81
108
189
2
a10 x
2
xi ni
26 1,53 17
i1
N
a20
3
a01 y 2
a11
j1
i1
j
N
45 2,65 17
a02
2 i
ni
N 3
y n j
x
y j1
2 i
N
n j
x i y j nij
44 2,59 17
189 11,12 17
0 0
15 24
63
2 s2x a20 a10 2,59 1,532 0,25
s2y a02 a201 11,12 2,652 4,1
3
x y n i1 j1
N
i
j
ij
63 3,71 17
sxy a11 a10 . a01 3,71 1,53 . 2,65 0,34
43
12 12
sxy 0,34 1,36 b 2 Recta regresión Y/X: Y a b X sx 0,25 y a b x a y b x 2,65 1,36 . 1,53 4,73
Y/X: Y 4,73 1,36 X s xy 0,34 0,083 b' 2 sy 4,1 Recta regresión X/Y: X a' b' Y x a' b' y a' x b' y 1,53 0,083 . 2,65 1,75
X/Y: X 1,75 0,083 Y b) Coeficiente de determinación: r2 b . b' ( 1,36). ( 0,083) 0,1129 Varianza residual de Y: sr2y s2y (1 r2 ) 4,1 (1 0,1129) 3,637 s2y sR2 y sr2y sR2 y s2y sr2y 4,1 3,637 0,463 Varianza explicada por la regresión: sR2 y s2y . r2 4,1 . 0,1129 0,463 La mayor parte de la variable dependiente Y resulta ser residual, un
3,637 . 100 88,7% . 4,1
En consecuencia, una pequeña parte queda explicada por la regresión: r2 . 100 0,1129 . 100 11,29% (0,463 / 4,1) . 100 11,29%
Al ser la varianza explicada muy pequeña, el ajuste no es bueno y las rectas de regresión no pueden utilizarse de manera fiable para hacer predicciones.
44
3. Un trabajador ha recibido los siguientes salarios en los años 2005 y 2006: Salario 2005 = 18.565 euros Salario 2006 = 19.005 euros Esta persona quiere saber si su poder adquisitivo ha aumentado en el año 2006 respecto al 2005. Para ello dispone de la siguiente información relativa al Índice de Precios de Consumo con base el año 2002 2006 IPC2005 2002 109,93 % e IPC2002 113,63 %
a) Interprete el valor de los números índice proporcionados b) Determine e interprete la tasa de variación que ha sufrido el poder adquisitivo de este asalariado entre los años 2005 y 2006, en términos nominales y en términos reales (constantes del 2002)
c) Si el salario del trabajador en el año 2002 fue de 16.000 euros, ¿cuál fue la tasa media anual acumulativa en términos nominales y reales (constantes del 2002) en el periodo 2002‐2006? Solución: a)
IPC2005 2002 = 109,93% En el año 2005 los precios se han incrementado un 9,93% respecto al año 2002 IPC2006 2002 = 113,63% En el año 2006 los precios se han incrementado un 13,63% respecto al año 2002 b) Para calcular el salario real (precios constantes) se requiere deflactar el salario nominal (precios corrientes), eliminando la influencia que han experimentado los precios. Para ello, se deflacta la serie dividiendo el valor nominal entre el IPC corriente cons tante SN2005 18565 precios corrientes 16888,02 euros precios constantes SR2005 2005 IPC2002 1,0993 Salario nominal Salario real = t corriente IPC2002 SRcons tante SN2006 19005 16725,34 euros 6 2006 1,1363 IPC200 2002
19005 2006 Nominal: TV2005 18665 1 . 100 2,37% Tasas de variación 16725,34 2006 Real: 1 . 100 0,963% TV2005 16888,02 En términos nominales el salario ha crecido un 2,37%, aunque en términos reales (eliminado el efecto de la inflación), el salario ha disminuido un 0,963%. c) La tasa media anual acumulativa en términos nominales y reales (constantes del 2002) en el periodo 2002‐2006 corriente SN2006 19005 I 1,1878 salario nominal SN2002 16000 cons tante SR2006 16725,34 I 1,0453 salario real SR2002 16000
45
Tasa de variación media anual en términos nominales:
TM nominal
4
I salario nominal 1
4
1,1878 1 1,04396 1 0,4396 (4,396%)
Tasa de variación media anual en términos reales:
TM real 4 I salario real 1
1,0453 1 1,0111 1 0,111 (1,11%)
4
4. Tras analizar los datos referentes a un año y medio (desde 2004.1 hasta 2005.2) de una determinada serie temporal (Y), de periodicidad trimestral, se han obtenido los siguientes resultados con t = 0, 1, … , 5: t = 15
t
2
= 55
ty
t
= 71.950
y
y
= 19.073
t
2 t
= 97.199.705
Los índices de variación estacionales han sido: IVE1 = 1,033
IVE2 = 0,87
IVE3 = 0,97
IVE4 = 1,127
a) Realice un ajuste lineal de la tendencia de la serie. Determine a partir del coeficiente de determinación lineal si el ajuste es bueno o malo, y prediga el valor de la serie para el tercer y cuarto trimestre del año 2005. b) Interprete estadísticamente los IVEs
Solución: s ty b 2 a) Recta de regresión de Y sobre t: Y a b.t st a y b t 6
6
6
yt
t
15 2,5 t N 6
19073 3178,83 y N 6 t 1
i1
a11
ty t 1
N 6
s ty a11 t . y 11991,67 2,5 . 3178,83 4044,59 s2t
t
t i1
6
71950 11991,67 6
2
t2
55 2,52 2,92 6
4044,59 1385,13 b con lo que, Y = ‐283,99 + 1385,13.t 2,92 a 3178,83 1385,13 . 2,5 283,99 El Coeficiente de determinación lineal: R2 b . b' 6
b'
s ty s
2 y
s2y
y t 1
N
2 t
y2
97199705 3178,832 6094990,66 6 46
b'
4044,59 0,00066 6094990,66
R2 b . b' 1385,13 . 0,00066 0,914 El modelo es bueno porque explica el 91,4% ( R2 = 0,914 ) de la variabilidad de Yt en función de t. Para predecir el tercer (t 6) y cuarto trimestre (t 7) de 2005: Y = ‐283,99 + 1385,13.t 2005.3: Y = ‐283,99 + 1385,13 . 6 = 8026,79 2005.4: Y = ‐283,99 + 1385,13 . 7 = 9411,92 En el esquema multiplicativo Yit = Tit . Eit . Cit . A it Yit = Tit . IVEh (h t) = T2005.3 . IVE3 = 8026,79 . 0,97 = 7785,99 Y Yit = Tit . IVEh 2005.3 Y2005.4 = T2005.4 . IVE4 = 9411,92 . 1,127 = 10607,23
b) Los índices de variación estacional muestran el componente estacional en el esquema multiplicativo. El componente estacional Eit son las oscilaciones que sufre una serie temporal en periodos inferiores o iguales a un año. IVE1 = 1,033
IVE2 = 0,87
IVE3 = 0,97
IVE4 = 1,127
IVE1 = 1,033 significa que por el hecho de estar en el primer trimestre, la variable Yit es un 3,3% mayor que el comportamiento habitual o tendencia de la serie. IVE2 = 0,87 significa que por el hecho de estar en el segundo trimestre, la variable Yit es un 13% menor que el comportamiento habitual o tendencia de la serie.
47
. 4
EXAMEN DE ESTADÍSTICA DESCRIPTIVA
EXAMEN DE ESTADÍSTICA DESCRIPTIVA 28 DE JUNIO 2013 1.‐ Se quieren analizar los accidentes de tráfico en las provincias españolas. Se disponen de los siguientes datos: Accidentes de Tráfico (miles) 0 ‐ 15 15 ‐ 35 35 ‐ 50
Nº de Provincias españolas 25 15 10
a) Obtenga el número medio de accidentes por provincia y su valor mediano. b) La media obtenida en el apartado anterior, ¿es representativa? c) ¿Se producen en España los accidentes de forma concentrada según provincias? Justifique el indicador empleado para medir la concentración de los accidentes e interprete los resultados.
d) En Alemania se ha realizado un estudio similar al español. Se ha obtenido un índice de Gini del 0,70. Dibuje las curvas de Lorenz teóricas que representarían los indicadores de concentración de ambos países y explique la posición de cada una de ellas.
Solución: a) [L i L i1 )
xi
ni
ci
Ni
xi n i
x 2i n i
0 ‐ 15 15 ‐ 35 35 ‐ 50
7,5 25 42,5
25 15 10
15 20 15
15 40 50
187,5 375 425 987,5
1406,25 9375 18062,5 28843,75
3
Número medio accidentes: x
x n i1
i
N
i
987,5 19,75 50
N 50 Ni1 15 25 15 ci 15 2 20 15 20 23 Valor mediano: Me L i 2 Ni Ni1 40 15 40 15 ni
b) Para saber si la media obtenida es representativa se calcula el Coeficiente de Variación de Pearson: 48
3
a2
x i1
2 i
ni
N
28843,75 576,875 50
s2 a2 a12 576,875 19,752 186,8125 s 186,8125 13,67 CV
s 13,67 0,6911 (69,11%) x 19,75
El Coeficiente de Variación de Pearson cuantifica el grado de dispersión (69,11%), que resuelta ser alto, por lo que la media aritmética no es representativa.
c) Rentas [L i L i1 )
xi
ni
Ni
xi n i
0 ‐ 15 15 ‐ 35 35 ‐ 50
7,5 25 42,5
25 15 10
15 40 50
187,5 375 425
Ui x i n i acumulada 187,5 562,5 987,5
%pi
Ni N
100
%qi
50 80 100
987,5
Ui 100 Uk
18,99 56,96 100 75,95
130
% (pi qi ) 31,01 23,04 0 54,05
El grado de concentración de accidentes viene reflejado por el Índice de Gini: 2
IG 1
qi i1 2
p i1
2
75,95 1 0,4158 (41,58%) o bien IG i1 130
(pi qi ) 2
p
i
i1
54,05 0,4158 130
i
Cuanto más próximo a cero se encuentre el Índice de Gini será más equitativo el grado de concentración de accidentes, siendo de 41,58%, se puede concluir que existe concentración de accidentes.
d)
IG (Alemania) 0,70 IG (España) 0,4158 concluyendo que en Alemania están más concentrados los accidentes, esto es, al dibujar las curvas teóricas, la curva de Lorenz de España se encontraría más próxima a la diagonal principal.
49
2.‐ A partir de la tabla adjunta, siendo N 11 , Y 0 X \ Y 0 1
‐ 2 0 3
2
0
0 1 n22 1
1 0 n23 0
a) ¿Son independientes las variables estadísticamente? b) Rectas de regresión de Y/X e X/Y c) ¿Qué parte de la varianza calculada Y es explicada por la regresión? ¿Qué parte es debida a
causas ajenas?
Solución: a) X \ Y
‐ 2
0
1
ni
0 1
0 3 0
0 n23 0 n23
1
2 n j
1 n22 1 2 n22
3
De otra parte, Y
3 n22 n23 1 5 n22 n23 11
2 . 3 0 n23 0 n23 6 11
5 n22 6 11 n22 0 X \ Y
‐ 2
0
1
ni
0 1 2 n j
0 3 0
1 0 1
0 6 0
1 9 1
3
2
6
11
Las variables X e Y son independientes n n n cuando se verifica ij i j i, j N N N
No son independientes porque no se verifica la relación:
n 1 1 2 n n2 x 12 1 11 11 11 N N N
b) 3 3
x i y j nij
a11 i1 j1
N
1 2 . 1. 3 1 . 1. 6 0 11
3
a10 x
x i ni
i1
N
3
x i ni 2
1.9 0 2.1 1 a20 i1 11 N 50
1 2 13 1 . 9 22 . 1 11 11
2 s2x a20 a10
13 2 1 sx 11 11
2 0,43 11
3
a01 y
y j n j j1
N
s2y a02 a201
3
0 a02
18 18 0 sy 11 11
y j n j 2
j1
N
1 18 (2)2 . 3 12 . 6 11 11
18 1,28 11
covarianza: sxy a11 a10 . a01 0 1 . 0 0
El coeficiente de regresión de Y sobre X (pendiente de la recta): b
sxy s
2 x
0 0 2 / 11
Y a b X 0 a 0 . 1 a 0 Y / X : Y 0
El coeficiente de regresión de X sobre Y (pendiente de la recta): b'
sxy s
2 Y
0 0 18 / 11
X a' b' Y 1 a' 0 . 0 a' 1 X / Y : X 1 COEFICIENTE DETERMINACIÓN: r2 b . b' 0 Las rectas son perpendiculares, y en consecuencia, las variables (X, Y) son INCORRELADAS VARIANZA RESIDUAL DE Y: sry2 s2y (1 r2 ) sry2 s2y s2Y explicada sr2Y
18 18 s2Y explicada 11 11
18 18 (1 0) 11 11
s2Y explicada 0
51
3.‐ En la tabla se presenta el valor de importaciones de un país durante los años 2009 y 2010. Importaciones Alimentos Otros bienes de consumo Bienes de capital Bienes intermedios TOTAL
2009 1010 7450 2400 4755 15615
2010 1200 7955 2210 6256 17621
Se sabe que las importaciones tanto de alimentos como de otros bienes de consumo se pagaron un 3% más caras en 2010 que en 2009. Las importaciones de bienes de capital subieron sus precios un 1,2% y las de bienes intermedios bajaron un 0,5%. Se pide: a) Calcular el índice de precios total de las importaciones en 2010 con base 2009, utilizando Laspeyres y Paasche. b) ¿Cuánto crecieron las importaciones en cantidad en 2009 con respecto a 2010?
Solución: a) Utilizando el índice de precios de Laspeyres:
Laspeyres pi,09 . qi,09 Importaciones Alimentos 1010 Otros bienes de consumo 7450 Bienes de capital 2400 Bienes intermedios 4755 TOTAL 15615
pi,10 . qi,09
pi,10 . qi,10
1200 7955 2210 6256 17621
1,03 x 1010 = 1040,3 1,03 x 7450 = 7673,5 1,012 x 2400 = 2428,8 0,995 x 4755 = 4731,23
15873,83
4
Lp
pi,10 .qi,09 i1 4
pi,09 .qi,09
. 100
15873,83 . 100 101,66 % 15615
i1
Utilizando el índice de precios de Paasche:
Paasche Importaciones Alimentos Otros bienes de consumo Bienes de capital Bienes intermedios TOTAL
pi,09 . qi,09
pi,10 . qi,10
1010 7450 2400 4755 15615
1200 7955 2210 6256 17621 52
pi,09 . qi,10 1200/1,03 = 1165,05 7955/1,03 = 7723,30 2210/1,012 = 2183,79 6256/0,995 = 6287,44
17359,58
4
Pp
pit .qit i1 4
pi0 .qit
. 100
17621 . 100 101,51% 17359,58
i1
b) Para calcular los índices cuánticos de Laspeyres y Paasche se requiere hallar previamente el índice de valor de las importaciones entre 2009 con base 2010. 4
10 IV09
V 10 V09
pi,10 . qi,10 i1 4
pi,09 . qi,09
17621 1,1285 (112,85%) 15615
i1
Siendo, IV0t LP 0t . PQ 0t
10 10 IV09 112,85 . 100 111,01% PQ 09 10 . 100 101,66 LP 09 PP 0t . L Q 0t 10 10 IV09 112,85 . 100 111,17 % L Q 09 10 . 100 101,51 PP 09
53
4.‐ En la tabla adjunta se reflejan las ventas trimestrales de una empresa en millones de euros. Trimestres \ Años Primero Segundo Tercero Cuarto
2006 1 2 4 3
2007 2 3 5 4
2008 2 4 5 3
2009 3 4 7 6
2010 5 7 8 7
Suponiendo un esquema de agregación multiplicativo en la serie temporal: a) Desestacionalice la serie de ventas por el método de las medias móviles. b) Calcule los Índices de Variación Estacional (IVEs) por el método de la tendencia.
Solución: a) Para calcular la tendencia secular de la serie por el método de las medias móviles, se obtienen primero medias móviles de tamaño 4 (período de las variaciones estacionales), que al ser un número par, se pierden 4 datos, resulta una serie descentrada y corresponderán a los períodos intermedios entre cada dos trimestres consecutivos. Cálculo de las medias móviles: 12 4 3 2,5 entre segundo y tercer trimestre de 2006 4 2 4 32 2,75 entre tercer y cuarto trimestre de 2006 4 4 323 3 entre cuarto trimestre de 2006 y primer trimestre de 2007 4 323 5 3,25 entre primer y segundo trimestre de 2007 4 23 5 4 3,5 entre segundo y tercer trimestre de 2007 4
SERIE DESCENTRADA de medias móviles Trimestres \ Años 2006 2007 Primero‐Segundo ‐‐‐ 3,25 Segundo‐Tercero 2,5 3,5 Tercero‐Cuarto 2,75 3,5 Cuarto‐Primero 3 3,75
2008 3,75 3,5 3,75 3,75
2009 4,25 5 5,5 6,25
2010 6,5 6,75 ‐‐‐ ‐‐‐
Para centrar la serie hay que calcular la media aritmética de cada dos observaciones sucesivas, de este modo, las medias que irán apareciendo, respectivamente, serán: 2,5 2,75 2,625 2
2,75 3 2,875 2
3 3,25 3,125 2
3,25 3,5 3,375 2
3,5 3,5 3,5 2
3,5 3,75 3,625 2
3,75 3,75 3,75 2
3,75 3,5 3,625 2
3,5 3,75 3,625 2
3,75 3,75 3,75 2
54
3,75 4 ,25 4 2
4 ,25 5 4 ,625 2
5 5,5 5,25 2
5,5 6,25 5,875 2
6,25 6,5 6,375 2
6,5 6,75 6,625 2
SERIE CENTRADA de las medias móviles: Trimestres \ Años 2006 2007 Primero ‐‐‐ 3,125 Segundo ‐‐‐ 3,375 Tercero 2,625 3,5 Cuarto 2,875 3,625
2008 3,75 3,625 3,625 3,75
2009 4 4,625 5,25 5,875
2010 6,375 6,625 ‐‐‐ ‐‐‐
La línea que se obtiene al representar gráficamente la serie de la tabla (t , yit ) será la línea de tendencia, que comienza en el tercer trimestre de 2006 y finaliza en el segundo trimestre de 2010.
Al aplicar el método de las medias móviles, en el esquema multiplicativo Yi t Ti t .Ei t . Ci t . Ai t , lo que realmente se obtiene en la serie cronológica es una aproximación de Ti t . Ci t , quedando sin analizar las componentes estacional ( Eit ) y accidental (Ait ). La tendencia y la componente cíclica se eliminarán dividiendo cada dato de la serie original por la correspondiente media móvil:
Yi t Ti t . Ci t
Ti t . Ei t . Ci t . Ai t Ti t . Ci t
Trimestres \ Años Primero Segundo Tercero Cuarto
Ei t . Ai t quedando la componente estacional y accidental
2006 ‐‐‐ ‐‐‐ 4/2,625 3/2,875
2007 2/3,125 3/3,375 5/3,5 4/3,625
2008 2/3,75 4/3,625 5/3,625 3/3,75
SERIE con las componentes estacional y accidental Trimestres \ Años 2006 2007 2008 Primero ‐‐‐ 0,640 0,533 Segundo ‐‐‐ 0,889 1,103 Tercero 1,524 1,429 1,379 Cuarto 1,043 1,103 0,8 55
2009 3/4 4/4,625 7/5,25 6/5,875
2010 5/6,375 7/6,625 ‐‐‐ ‐‐‐
2009 0,750 0,865 1,333 1,021
2010 0,784 1,057 ‐‐‐ ‐‐‐
Se elimina la componente accidental Ai t con el cálculo de las medias aritméticas trimestrales, es decir, la media aritmética de cada fila de la tabla anterior (donde solo aparecía el producto de Ei t . Ai t ):
0,640 0,533 0,750 0,784 0,889 1,103 0,865 1,057 0,677 0,978 4 4
1,524 1,429 1,379 1,333 1,043 1,103 0,8 1,021 1,416 0,992 4 4
Trimestres \ Años Primero Segundo Tercero Cuarto
2006 ‐‐‐ ‐‐‐ 1,524 1,043
2007 0,640 0,889 1,429 1,103
Se calcula la media aritmética de los cuatro valores obtenidos anteriormente
2008 0,533 1,103 1,379 0,8
2009 0,750 0,865 1,333 1,021
IVBE 0,677 0,978 1,416 0,992 1,016
2010 0,784 1,057 ‐‐‐ ‐‐‐
0,677 0,978 1,416 0,992 1,016 4
Se calculan los Índices de Variación Estacional, expresando para ello cada uno de los valores anteriores en forma de porcentaje sobre la media anual, obteniendo: Trimestres \ Años Primero Segundo Tercero Cuarto
IVE (%) (0,677/1,016) . 100 = 66,63 (0,978/1,016) . 100 = 96,31 (1,416/1,016) . 100 = 139,41 (0,992/1,016) . 100= 97,65 400 %
DESESTACIONALIZACIÓN (aplicando el método a la razón a la media móvil).‐ El proceso consiste en dividir cada valor de la serie original por cada Índice de Variación Estacional correspondiente: Trimestres \ Años Primero Segundo Tercero Cuarto
2006 1/0,6663 2/0,9631 4/1,3941 3/0,9765
2007 2/0,6663 3/0,9631 5/1,3941 4/0,9765
2008 2/0,6663 4/0,9631 5/1,3941 3/0,9765
Serie desestacionalizada, método a la razón a la media móvil Trimestres \ Años 2006 2007 2008 Primero 1,501 3,002 3,002 Segundo 2,077 3,115 4,153 Tercero 2,869 3,587 3,587 Cuarto 3,072 4,096 3,072
56
2009 3/0,6663 4/0,9631 7/1,3941 6/0,9765
2010 5/0,6663 7/0,9631 8/1,3941 7/0,9765
2009 4,502 4,153 5,021 6,144
2010 7,504 7,268 5,738 7,168
b) Los Índices de Variación Estacional (IVEs) por el método de la tendencia. Se calculan las medias anuales y t (medias para cada año de k = 4 subperiodos) Trimestres \ Años Primero Segundo Tercero Cuarto
2006 1 2 4 3
2007 2 3 5 4
2008 2 4 5 3
2009 3 4 7 6
2010 5 7 8 7
y 2006 2,5
y 2007 3,5
y 2008 3,5
y 2009 5
y 2010 6,75
4
yi t
y t i1
4
t (2006 , 2007 , ,2010) medias anuales
La tendencia media anual T t se obtiene ajustando una recta de regresión a los años (t1 , t2 , , tn ) y a las medias anuales y t , donde t (t1 , t2 , , tn ) : T t yˆ t a b . t (t2006 , t2007 , , t2010 )
2006
2007
2008
2009
2010
y t medias anuales
2,50
3,50
3,50
5,00
6,75
Por el método de los mínimos cuadrados, resulta: a 2003,75 y b 1 con lo que, T t yˆ t 2003,75 t t (t2006 , t2007 , , t2010 ) , resulta pues: Tendencia media anual (t2006 , t2007 , , t2010 )
2006
2007
2008
2009
2010
T t
2,25
3,25
4,25
5,25
6,25
A partir de la tendencia media anual T t se obtiene el valor de la tendencia para los distintos subperíodos, según la expresión general:
Ti t T t i
k 1 b . tendencia media anual para los subperíodos k‐ésimos 2 k
donde, t Año (2006, 2007, ..., 2010) Subperíodo donde se calcula la tendencia (trimestral i = 1, 2, i 3, 4) k Número total de subperíodos ( datos trimestrales k = 4) b Pendiente de la recta de regresión = 1 4 1 1 . 1,875 2 4 4 1 1 Trimestre Segundo 2006 : Ti2006 2,25 2 . 2,125 2 4
Trimestre Primero 2006 : Ti2006 2,25 1
57
4 1 1 . 2,375 2 4 4 1 1 Trimestre Primero 2007 : Ti2007 3,25 1 . 2,875 2 4 4 1 1 Trimestre Primero 2008 : Ti2008 4 ,25 1 . 3,875 2 4 4 1 1 Trimestre Primero 2009 : Ti2009 4 ,25 1 . 4 ,875 2 4 4 1 1 Trimestre Primero 2010 : Ti2010 5,25 1 . 5,875 2 4
Trimestre Tercero 2006 : Ti2006 2,25 3
SERIE DE LA TENDENCIA (k=4 trimestres) i Primero 1 Segundo 2 Tercero 3 Cuarto 4
t
2006 1,875 2,125 2,375 2,625
2007 2,875 3,125 3,375 3,625
2008 3,875 4,125 4,375 4,625
2009 4,875 5,125 5,375 5,625
2010 5,875 6,125 6,375 6,625
Representación gráfica de la serie con los datos originales y la serie suavizada de tendencia
Para eliminar la tendencia y la componente cíclica se divide cada término de la serie original entre el correspondiente término de la serie teórica de tendencia. SE ELIMINA LA TENDENCIA Y LA COMPONENTE CÍCLICA DE LA SERIE Trimestres \ Años 2006 2007 2008 2009 Primero 1/1,875 2/2,875 2/3,875 3/4,875 Segundo 2/2,125 3/3,125 4/4,125 4/5,125 Tercero 4/2,375 5/3,375 5/4,375 7/5,375 Cuarto 3/2,625 4/3,625 3/4,625 6/5,625
2010 5/5,875 7/6,125 8/6,375 7/6,625
Señalar que, en el esquema multiplicativo, al aplicar el método de los mínimos cuadrados, lo que se obtiene es una aproximación, ya que en el período que se considera (un año) es suficientemente pequeño, pudiendo suponer que la componente cíclica está incluida en la tendencia secular, puesto que en un período tan corto no da lugar a que se manifiestes plenamente las variaciones cíclicas.
58
Serie con las COMPONENTES ESTACIONAL y ACCIDENTAL Trimestres \ Años 2006 2007 2008 Primero 0,533 0,696 0,516 Segundo 0,941 0,960 0,970 Tercero 1,684 1,481 1,143 Cuarto 1,143 1,103 0,649
2009 0,615 0,780 1,302 1,067
2010 0,851 1,143 1,255 1,057
Para eliminar la componente accidental, calculamos para cada trimestre la media aritmética de los valores obtenidos por trimestres (filas) en la serie anterior con las componentes estacional y accidental. 0,533 0,696 0,516 0,615 0,851 0,941 0,96 0,97 0,78 1,143 0,642 0,959 5 5 1,684 1,481 1,143 1,302 1,255 1,143 1,103 0,649 1,067 1,057 1,373 1,004 5 5
Trimestres \ Años Primero Segundo Tercero Cuarto
2006 0,533 0,941 1,684 1,143
2007 0,696 0,960 1,481 1,103
2008 0,516 0,970 1,143 0,649
El promedio anual de las cuatro medias aritméticas:
2009 0,615 0,780 1,302 1,067
2010 0,851 1,143 1,255 1,057
IBVE 0,642 0,959 1,373 1,004 0,994
0,642 0,959 1,373 1,004 0,994 4
Se calculan los Índices de Variación Estacional, expresando para ello cada uno de las valores obtenidos (medias aritméticas por trimestres) en forma de porcentaje sobre la media anual, obteniendo: Trimestres \ Años Primero Segundo Tercero Cuarto
IBVE 0,642 0,959 1,373 1,004
IVE (%) (0,642/0,944).100 = 64,59 (0,959/0,944).100 = 96,48 (1,373/0,944).100 = 138,13 (1,004/0,944).100 = 101,01
En definitiva, sobre un nivel medio de ventas, la influencia de la variación estacional produce: 1º Trimestre: ( 64,59 ‐ 100 = ‐35,41) un descenso de ventas del 35,41% 2º Trimestre: (96,48 ‐ 100 = ‐3,52) un descenso de ventas del 3,42% 3º Trimestre: (138,13 ‐ 100 = 38,13) un aumento de ventas del 38,13% 4º Trimestre: (101,01 ‐ 100 = 1,01) un aumento de ventas del 1,01%
59