Story Transcript
Estadística Descriptiva ‐ EXCEL ‐ SPSS Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
Estadística Teórica I
ESTADÍSTICA UNIDIMENSIONAL
Estadística Descriptiva ‐ EXCEL ‐ SPSS Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
Ejercicios Estadística Descriptiva Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
1. En la tabla se muestran las rentas (en miles de euros) y el número de personas que las perciben: Rentas (miles euros) [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
ni 12 18 24 12 12
Se quiere obtener: a) b) c) d) e) f) g) h)
El polígono de frecuencias absolutas y el histograma. Mediana, Percentil 75 y Moda. Media Aritmética, Media Geométrica y Armónica. Desviación Media (respecto a la media) y Coeficiente de Variación Media. Coeficientes de Asimetría de Pearson y de Fisher. Hallar la Media Aritmética y Desviación Típica utilizando un cambio de variable. Coeficiente de Curtosis. Concentración de la renta (curva de Lorenz, Índice de Gini).
Solución:
a) El polígono de frecuencias absolutas y el histograma.‐ La tabla de frecuencias absolutas:
Rentas (miles euros) [L i − L i+1 )
xi
ni
Ni
Amplitud ci
3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
5 10 15 20 25
12 18 24 12 12
12 30 54 66 78
4 6 4 6 4
En la construcción del histograma hemos de colocar encima de cada intervalo un rectángulo cuyo área sea igual (en número) a la frecuencia absoluta de dicho intervalo, procediendo a calcular la altura h i de cada rectángulo h i =
ni ci
donde c i es la longitud del intervalo
3
39 58,5
hi = 3 3 6 2 3
ni ci
b) Mediana, Percentil 75 y Moda. En las tablas de tipo III, los intervalos no son de amplitud constante. N 2
Para calcular la Mediana, =
78 = 39 . La observación 39 se encuentra en el intervalo [13 ‐ 17) 2
Calculamos la Mediana: N 78 − Ni−1 − 30 39 − 30 Me = Li + 2 ci = 13 + 2 4 = 13 + 4 = 14 ,5 Ni − Ni−1 54 − 30 54 − 30
En la representación gráfica se establece una proporcionalidad entre las bases y las alturas. • En el caso del Percentil 75,
75. 78 = 58,5 100
La observación 58,5 se encuentra en el intervalo [17 ‐ 23) 75.N − Ni−1 58,5 − 54 100 ci = 17 + 6 = 18,125 P75 = Li + 66 − 54 Ni − Ni−1
• La Moda es el intervalo de máxima frecuencia. Por tanto, el intervalo modal es [13 ‐ 17). La posición exacta de la moda se calcula estableciendo una proporcionalidad entre las bases y las alturas.
4
En nuestro caso, Md = Li +
(h i − h i−1 ) (h i − h i−1 ) + (h i − h i+1 )
c i con lo cual, Md = 13 +
La moda aproximada cuando existen distintas amplitudes: Md = Li +
(6 − 3) 4 = 13,428 (6 − 3) + (6 − 2)
hi +1 hi −1 + hi +1
ci = 13 +
2 4 = 14 ,6 3+2
c) Media Aritmética, Media Geométrica y Armónica. Rentas [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
xi
ni
xi . ni
ni / xi
log x i
n i log x i
5 10 15 20 25
12 18 24 12 12
60 180 360 240 300
2,4 1,8 1,6 0,6 0,48
0,6989 1 1,1760 1,3010 1,3979
8,3868 18 28,224 15,612 16,7748
5
∑ n i = 78
i =1 5
∑ xi.ni
‐ Media aritmética: x = i=1 ‐ Media geométrica: xG = 1
N
=
n
N
5
5
5
∑ xi.ni = 1140
∑ n i log xi = 86,9976
∑ ni / xi = 6,88 i =1
i =1
i =1
1140 = 14 ,615 (miles de euros) 78 n
n
n
x1 1 x2 2 x 3 3 L xk k , para el cálculo se procede tomando logaritmos, con lo 1
1
k
cual: log xG = log ⎡⎢x1 1 x2 2 x 3 3 L xk k ⎤⎥ = ⎡⎢log (x1 1 ) + log (x2 2 ) + L + log (xk k )⎤⎥ = ∑ n i log xi ⎦ N⎣ ⎦ N N ⎣ n
n
n
n
n
n
n
i =1
xG
⎡1 k ⎤ ⎢ ∑ n i log x i ⎥ N ⎦ = 10 ⎣ i=1
en consecuencia, log xG =
‐ Media armónica: x A =
1 N
k
5
1
∑ n i log xi = 78 ( 86,9976 ) = 1,115 ⇒ i =1
N , con lo cual, x A = ni
∑x i =1
i
xG = 101,115 = 13,031 (miles de euros)
78 N = = 11,337 (miles de euros) n i 6,88 ∑x i =1 i 5
Obsérvese que se verifica la fórmula de Foster, para distribuciones de frecuencias con valores positivos: x A ≤ xG ≤ x d) Desviación Media (respecto a la media) y Coeficiente de Desviación Media. Rentas [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
xi
ni
x i .ni
xi − x
xi − x ni
5 10 15 20 25
12 18 24 12 12
60 180 360 240 300
9,615 4,615 0,385 5,385 10,385
115,38 83,07 9,24 64,62 124,62
5
∑ n i = 78 i =1
5
∑ xi.ni = 1140 i =1
5
5
∑ i =1
xi − x ni = 396,93
5
x=
∑ xi.ni i =1
N
=
1140 = 14 ,615 78 k
‐ La desviación media respecto a la media aritmética: DM (x) = 5
con lo cual, DM (x) =
∑ i =1
xi − x ni N
=
∑ i =1
xi − x ni N
396,93 = 5,088 78
‐ El coeficiente de variación media respecto a la media aritmética: CVDM (x ) = CVDM (x) =
DMx x
=
DMx x
5,088 = 0,3481 14 ,615 k
NOTA.‐ La desviación media respecto a la mediana: DM (Me ) = variación media respecto a la mediana CVDM (Me ) =
∑ i =1
xi − Me ni N
y el coeficiente de
DM (Me ) Me
e) Coeficientes de Asimetría de Pearson y de Fisher. • El coeficiente de asimetría de Pearson exige el cálculo de la Moda Md y la desviación típica σ ⎧ AP > 0 Asimetría a la derecha o positiva x − Md ⎪ AP = ⎨ AP = 0 Simetría σ ⎪ ⎩ AP < 0 Asimetría a la izquierda o negativa
Este coeficiente tiene sentido cuando la moda es única
⎧ AF > 0 Asimetría a la derecha o positiva m3 ⎪ • El coeficiente de asimetría de Fisher: AF = 3 ⎨ AF = 0 Simetría σ ⎪ ⎩AF < 0 Asimetría a la izquierda o negativa Sabemos que, Md = 13,428 x = 14 ,615
Rentas [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
xi
ni
x i .ni
xi − x
(xi − x)2 n i
(xi − x)3 n i
5 10 15 20 25
12 18 24 12 12
60 180 360 240 300
‐ 9,615 ‐ 4,615 0,385 5,385 10,385
1109,38 383,368 3,557 347,979 1294,179
‐ 10666,676 ‐ 1769,243 1,369 1873,865 13440,046
3138,463
2879,361
5
5
i =1
i =1
∑ n i = 78 ∑ xi.ni = 1140
6
♦ Varianza, desviación típica y tercer momento respecto a la media: 5
∑ (xi − x)2 n i
m2 = σ2 = i=1
N
=
3183,463 = 40,237 ⇒ σ = 78
40,237 = 6,343
5
∑ (xi − x)3 n i
El tercer momento respecto a la media: m3 = i=1
N
=
2879,361 = 36,915 78
x − Md 14 ,615 − 13,428 = = 0,187 > 0 , con lo que la σ 6,343 distribución presenta una asimetría a la derecha o positiva.
♦ El coeficiente de asimetría de Pearson: AP =
m3 36,915 = = 0,145 > 0 , con lo que la distribución σ 3 6,3433 presenta una asimetría a la derecha o positiva.
♦ El coeficiente de asimetría de Fisher: AF =
f) Hallar la media aritmética y desviación típica utilizando un cambio de variable. Hacemos el cambio de variable zi =
Rentas [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
xi − 15 5
xi
ni
xi . ni
zi
zi .ni
z2i .ni
5 10 15 20 25
12 18 24 12 12
60 180 360 240 300
‐2 ‐1 0 1 2
‐24 ‐18 0 12 24
48 18 0 12 48
5
5
∑ n i = 78
∑ xi.ni = 1140
i =1
i =1
5
∑ zi.ni = −6 i =1
5
∑ zi.ni i =1
♦ Media aritmética: a1 = z =
Siendo zi =
N
=
−6 = −0,0769 78
xi − 15 ⇒ x = 15 + 5 z = 15 + 5( − 0,0769 ) = 14 ,615 5
NOTA.‐ E [ a + b x ] = a + b E( x ) 2
⎡ 5 ⎤ ∑ ⎢ ∑ zi n i ⎥ 126 2 2 ⎥ = ♦ Varianza: σ z = a2 − a1 = i=1 − ⎢ i =1 − (−0,0769)2 = 1,60947 N N 78 ⎢ ⎥ ⎢⎣ ⎥⎦ Desviación típica: σ z = 1,60947 = 1,2686 5
z2i n i
7
5
∑ z2i .ni = 126 i =1
Como zi =
xi − 15 ⇒ σ x = 5 σ z = 5(1,2686 ) = 6,343 5
NOTA.‐ V [ a + b x ] = b2 . V ( x )
g) Coeficiente de Curtosis. La curtosis de una distribución de frecuencias es el apuntamiento que presenta el polígono de m frecuencias alrededor de la media. El coeficiente de curtosis g 2 = 44 − 3 , siendo σ k
k
m2 = σ2 =
∑ (xi − x)2 n i i=1
N
y m4 =
∑ (xi − x)4 n i i=1
N
g 2 > 0 Más apuntamiento que la normal: Leptocúrtica g 2 = 0 Igual apuntamiento que la normal: Mesocúrtica g 2 < 0 Menor apuntamiento que la normal: Platicúrtica
En la distribución, conocemos: x = 14,615 σ x = 6,343 Rentas [L i − L i+1 ) 3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
xi
ni
x i .ni
(xi − x)2
(xi − x)2 n i
(xi − x)4 n i
5 10 15 20 25
12 18 24 12 12
60 180 360 240 300
92,4482 21,2982 0,1482 28,9982 107,848
1109,38 383,368 3,557 347,979 1294,179
102560,036 8165,039 0,5271 10090,747 139574,293
3138,463
260390,6421
5
5
i =1
i =1
∑ n i = 78 ∑ xi.ni = 1140 El momento de cuarto orden respecto a la media será: k
∑ (xi − x)4 n i
m4 = i=1
N
=
260390,6421 = 3338,3415 78
♦ El coeficiente de curtosis de Fisher: g2 =
m4 3338,3415 −3 ⇒ − 3 = −0,9377 < 0 4 σ 6,3434
La distribución presenta menor apuntamiento que la normal: Platicúrtica
8
Estadística Descriptiva Unidimensional Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
g) Concentración de la renta (curva de Lorenz, Índice de Gini). Hasta este momento la palabra 'concentración' era la opuesta a 'dispersión', cuando nos ocupábamos del estudio descriptivo de los valores observados de la variable. Con las medidas de concentración nuestro objetivo será analizar el total de los recursos repartidos entre todos los individuos que intervienen en la distribución. Señalar que la cantidad total de los recursos no suelen estar siempre repartidos de forma equitativa, sino que, por el contrario, habrá individuos que se repartan una mayor cantidad de recursos que otros. Para analizar la concentración necesitamos calcular las proporciones de individuos pi = m
recursos acumulados qi =
∑ xi n i i =1 k
∑ xi n i
Ni N
y de
m
∑ xi n i
= i =1 Nx
. Destacar que, al estar ordenados los xi de forma
i =1
creciente, la proporción de individuos pi siempre tiene que avanzar más rápido que la proporción de recursos repartidos qi , es decir pi ≥ qi . De este modo, la gráfica que se realiza sobre un cuadrado de lado la unidad "curva de concentración o curva de Lorenz" siempre estará por encima de la diagonal principal del cuadrado. Realizamos la siguiente tabla: m
Rentas [L i − L i+1 )
ni
xi
Ni
pi = N i N
m
x i .ni
∑ xi n i i =1
∑ xi n i
qi = i=k1
pi − qi
∑ xi n i i =1
3 ‐ 7 7 ‐ 13 13 ‐ 17 17 ‐ 23 23 ‐ 27
5 10 15 20 25
12 18 24 12 12 5
∑ n i = 78 i =1
12 30 54 66 78
0,1538 0,3846 0,6923 0,8461 ‐
60 180 360 240 300
∑ p i = 2,08
1140
4
i =1
60 240 600 840 1140
0,052 0,2105 0,5263 0,7368 ‐
0,1018 0,1741 0,166 0,1093 ‐
∑ q i = 1,53
∑ (pi − qi ) = 0,551
4
9
i =1
4
i =1
♦ La curva de concentración o curva de Lorenz
La idea de medir el área da como resultado el llamado índice de concentración de Gini, que se define como el doble del área comprendida entre la diagonal y la curva de Lorenz. k −1
IG =
∑ (pi − qi ) i =1
k −1
∑ pi i =1
•
•
•
•
Obsérvese que cuando pi = qi ⇒ IG = 0 es el caso de equidistribución, la curva de Lorenz se encuentra sobre la diagonal del cuadrado. En el caso de máxima concentración (un individuo se lleva el total de los recursos), ocurre que q1 = q2 = L = qk −1 = 0 , el IG = 1 , la curva de Lorenz está sobre los lados del cuadrado. 0 ≤ IG ≤ 1 , cuanto más equitativo sea el reparto de recursos será más cercano a cero, y más cercano a uno cuanto mayor concentración exista.
Tanto la curva de Lorenz como el Índice de Gini se pueden presentar y calcular considerando las proporciones de individuos ( pi ) y de recursos ( qi ) en porcentajes. 4
∑ (pi − qi )
♦ En nuestro caso, el Índice de Gini : IG = i=1
4
∑ pi i =1
equidistribuida, no está muy concentrada.
10
=
0,551 = 0,2649 . Luego la renta, aunque no 2,08
2. Una cooperativa agrícola tiene cinco fincas en explotación. La producción de trigo y rendimientos por hectárea obtenidos son:
Fincas A B C D E
Producción (Qm) 2400 3200 3600 4200 4400
Rendimientos (Qm/Ha) 12 10 15 14 16
¿Cuál es el rendimiento medio por hectárea para el conjunto de la cooperativa? Solución:
Como se promedia una magnitud relativa, se debe utilizar la media armónica. Es decir: x A =
k
N pi
∑x i =1
Fincas
Producción (Qm)
Rendimientos (Qm/Ha)
pi
xi
2400 3200 3600 4200 4400
12 10 15 14 16
A B C D E
p i / xi
200 320 240 300 275
5
5
N = ∑ pi = 17800
∑ p i / xi = 1335
i =1
x A =
i
i =1
17800 = 13,33 Qm / Ha 1335
Nota.‐ En casos de magnitudes relativas el valor medio se tiene que calcular a través de la media armónica; transformando previamente la información se puede calcular utilizando la media aritmética. Es decir: Fincas A B C D E
Producción (Qm) Rendimientos (Qm/Ha) Superficie (Ha) pi
xi
n i = p i / xi
2400 3200 3600 4200 4400
12 10 15 14 16
200 320 240 300 275 N = 1335
17800
5
∑ xi ni
El rendimiento medio sería: R = i=1
N
=
17800 = 13,33 Qm / Ha 1335
11
Producción
pi ni
xi ni
2400 3200 3600 4200 4400 5
∑ xi ni = 17800 i =1
28800 32000 54000 58800 70400 5
∑ pi ni = 244000 i =1
Adviértase que la media aritmética es la media aritmética de los rendimientos ponderados por la 5
∑ xi ni
correspondiente superficie: R = i=1
N
=
17800 = 13,33 Qm / Ha 200 + 320 + 240 + 300 + 275
3. En la tabla adjunta se muestra la productividad (piezas/hora) de los empleados de una empresa, considerando su categoría profesional:
Categoría A B C D
Productividad (piezas/hora) 10 25 40 15
a) Hallar la productividad media en el conjunto de la empresa. b) Hallar el tiempo medio empleado para fabricar una pieza. ¿Cuál es el número de piezas diarias en una jornada laboral de 8 horas?. Solución:
a) La productividad media en la empresa (suponiendo que el número de empleados de cada categoría es el mismo) es la media armónica de la productividad de cada categoría, es decir: x A =
N 4 4 = = = 17,24 piezas / hora 1 1 1 1 0,232 ni + + + ∑ x 10 25 40 15 i 4
i =1
b) El tiempo medio empleado a la hora t será el inverso de la media armónica: t =
1 1 = = 0,058 horas / pieza = 0,058 . 60 = 3,48 minutos / pieza x A 17,24 piezas / hora
El número de piezas diarias en una jornada de 8 horas será: T = x A . 8 = 17,24 . 8 = 137,92 ≈ 138 unidades
4. Una distribución (xi , ni ) presenta las siguientes características: N = 20
Md = 5
x =6
σ2x = 2,4
⎧ (x i + 3 , ni ) ⎪ Determinar los mismos parámetros para las distribuciones: ⎨ ⎪ (10 x , n ) i i ⎩
Solución:
12
a) Se define la variable yi = xi + 3 , que considerando las propiedades de los estadísticos mencionados, verifica que:
∑ (xi + 3).ni = ∑ xi .ni + 3 ∑ .ni = x + 3 = 6 + 3 = 9
•
y=
•
σ2y =
•
Md (y) = Md (x) + 3 = 5 + 3 = 8
N
N
N
∑ (yi − y)2 .ni = ∑ [(xi + 3) − (x + 3)]2 .ni = ∑ (xi − x)2 .ni = σ2 = 2,4 N
N
N
x
b) Se hace el cambio de variable wi = 10 xi
∑ 10 xi .ni = 10 ∑ xi .ni = 10 x = 10 . 6 = 60
•
w=
•
σ2y =
•
Md (y) = 10 Md (x) = 10 . 5 = 50
N
N
∑ (yi − y)2 .ni = ∑ [10 xi − 10 x ] 2 .ni = 102 ∑ (xi − x)2 .ni = 100 σ2 = 240 N
N
N
x
5. Dos distribuciones simétricas y campaniformes presentan la siguiente información:
Distribución X Me = 16
Distribución Y M0 = 18
σ2x = 36
σ2y = 36
¿Cuál de las dos distribuciones presenta mayor variabilidad? Solución:
Como son distribuciones de tipo campaniforme y simétricas, la media aritmética, mediana y moda coinciden. En otras palabras, x = 16 y y = 18 Por otra parte, para analizar la variabilidad de las dos distribuciones no podemos recurrir a la comparación de varianzas, puede ser que ambas distribuciones se expresen en unidades diferentes, y además hay que relacionar la variabilidad con el promedio correspondiente. En esta línea, utilizaremos el coeficiente de variación de Pearson: σy 6 6 σ C.Vx = x = = 0,375 C.Vy = = = 0,333 y 18 x 16
La distribución Y presenta un coeficiente menor, por lo que tiene una dispersión relativa más pequeña.
13
6a. Una población se encuentra dividida en dos estratos
A B
Nº elementos 100 400
Media aritmética 4 6
Varianza 9 16
Hallar la media y la varianza para el conjunto de la población. Solución:
El peso o tamaño relativo de cada estrato será: pi =
Ni N
N 100 N 400 = 0,2 pB = B = = 0,8 En este caso, p A = A = N 500 N 500 x A = 4 σ2A = 9 xB = 6 σB2 = 16 • La media total de la población será: x = p A x A + pB xB = 0,2. 4 + 0,8 . 6 = 5,6 • La varianza es: σ2x = p A σ2A + pB σB2 + p A (x A − x)2 + pB (xB − x)2 σ2x = 0,2 . 9 + 0,8 . 16 + 0,2. (4 − 5,6)2 + 0,8 . (6 − 5,6)2 = 15,24 Nota.‐ Cuando la población se ha subdividido en k estratos o categorías, de forma que: N = N1 + N2 + L + Nk . Estrato o Categoría 1
Tamaño N1
Media aritmética x1
Varianza
2
N2
x2
σ22
3
N3
x3
σ23
M k
M Nk
M x4
σk2
El peso o tamaño relativo de cada estrato pi =
σ12
Ni
N Los valores de la variable X se representan por xij , donde los subíndices indican el valor i‐ésimo del estrato j‐ésimo. La media aritmética de toda la población será entonces: x=
(x11 + x 21 + L + xN1 1 ) + (x12 + x 22 + L + xN2 2 ) + L + (x1k + x 2k + L + xN k k ) N N1
N2
Nk
i =1
i =1
i =1
k
∑ xi 1 + ∑ xi 2 + L + ∑ xi Nk
=
N
=
Nj
∑ ∑ x ij
=
j =1 i =1
N
, en función de las medias de cada estrato será:
14
Nj
N1
N2
Nk
i =1
i =1
i =1
k
∑ xi 1 + ∑ xi 2 + L + ∑ xi Nk
x=
k
∑ ∑ x ij ∑N j
j =1 i =1
=
N
Nj
Nj
j =1
=
N
∑ x ij
i =1
N
k
= ∑ pj xj j =1
Para calcular la varianza de toda la población, se tiene en cuenta: k Nj
k
∑ ∑(xij − x)
σ2x =
j = 1 i =1
=
N
k Nj
k
+
N
=
N
j =1 i =1
=
N
= 04444 6444 47 8 k Nj
∑ ∑ (x j − x )
2
j =1 i =1
j = 1 i =1
Nj
∑ ∑[(xij − x j ) + (x j − x)2 ]
2
k Nj
∑ ∑ (xij − x j )
=
Nj
∑ ∑ (xij − x + x j − x j )
2
∑ ∑ (xij − x j ).(x j − x)
2
j =1 i =1
N
j =1 i = 1
+2
, con lo cual,
N Nj
k
Nj
k
Nj
k
∑ (xij − x j )2
j =1
Nj
∑ ∑(xij − x j )2 ∑ ∑ (x j − x)2 ∑ Nj
σ2x =
j = 1 i =1
+
N
j =1 i =1
N
=
k
i =1
N
∑ Nj (x j − x)2
+
j =1
N
entonces, k
k
j =1
j =1
σ2x = ∑ p j . σ2xj + ∑ p j . (x j − x)2 , siendo σ2xj la varianza del estrato o categoría j‐ésimo.
Adviértase que en el caso de dos estratos o categorías: 2
x = ∑ p j x j = p1 x1 + p2 x2
j =1 2
2
j =1
j =1
σ2x = ∑ p j . σ2xj + ∑ p j . (x j − x)2 = p1 σ2x1 + p2 σ2x2 + p1 (x1 − x)2 + p2 (x2 − x)2
15
7. Dadas las observaciones de la variable (X,Y):
X \ Y 1 2 3 4 5
1 3 2 0 0 0
2 0 0 4 4 0
4 0 0 0 0 4
Determinar razonadamente: a) La independencia o dependencia de las variables. b) La recta de regresión de Y sobre X c) ¿Cuál sería el valor de Y para X=6 según la regresión realizada?. ¿Es fiable el valor obtenido?. Solución:
a) Se completa la tabla: X \ Y 1 2 3 4 5
1 3 2 0 0 0 5
ny j
2 0 0 4 4 0 8
4 0 0 0 0 4 4
nxi
3 2 4 4 4 17
5
3
∑∑ nij
a11 = i=1 j=1
=
N
1 (1.1.3 + 2.1.2 + 3.2.4 + 4.2.4 + 5.4.4 = 8,412 17
Las distribuciones marginales de X e Y vienen reflejadas en la siguiente tabla: xi
nxi
xi .nx i
x2i . nxi
1 2 3 4 5
3 2 4 4 4
3 4 12 16 20
3 8 36 64 100
5
5
5
i =1
i=1
i =1
5
∑ xi .nxi
a10 = x = i=1
N
=
55 = 3,235 17
5
∑ x2i .nxi
a20 = i=1
∑ nxi = 17 ∑ x i .nx i = 55 ∑ x2i .nxi = 211
N
=
211 = 12,412 17
2 σ2x = a20 − a10 = 12,412 − 3,2352 = 1,95
3
Yj
ny j
y j . ny j
y2j . ny j
1 2 4
5 8 4
5 16 16
5 32 64
3
∑ ny j = 17 j =1
3
∑ y j .ny j = 37 j =1
3
∑ y2j .ny j = 101 j =1
16
a01 = y =
∑ y j . ny j j =1
N
=
37 = 2,176 17
3
a02 =
∑ y2j .ny j j =1
N
=
101 = 5,941 17
σ2y = a02 − a201 = 5,941 − 2,1762 = 1,21
Las variables (X,Y) son independientes cuando la covarianza m11 = a11 − a10 . a01 = 0 , en este caso, m11 = 8,42 − 3,235. 2,176 = 1,38 ≠ 0 a las variables X e Y no son independientes.
b) La recta de regresión de X sobre Y viene dada por la expresión: y − y = y − 2,176 =
βY / X =
m11 (x − x ) , con lo que, σ2x
1,38 (x − 3,235) ⇒ y = − 0,089 + 0,7 . x (recta de regresión de Y sobre X) 1,95
m11 1,38 = = 0,7 coeficiente de regresión o pendiente de la recta de Y sobre X, al ser σ2x 1,95
βY / X > 0 la recta es creciente.
c) Cuando x = 6 , el valor de y según la recta de regresión será: y = − 0,089 + 0,7 . 6 = 4 ,111 Para analizar la fiabilidad del valor obtenido recurrimos al coeficiente de correlación ρ (otras personas, lo hacen con el coeficiente de determinación ρ2 ). El coeficiente de determinación se define como el producto de los coeficientes de regresión: ρ2 = βY / X . βX / Y = en nuestro caso, ρ2 =
2 m11 m11 m11 = . σ2x σ2y σ2x . σ2y
1,382 = 0,80 . Dado que 0 ≤ ρ2 ≤ 1 , y que el coeficiente de determinación 1,95. 1,21
está próximo a uno, podemos concluir que la fiabilidad de los resultados es muy grande. Si hubiéramos optado por el coeficiente de correlación: ρ = ρ=
m11 , se tendría: σx . σ y
1,38 = 0,898 . Dado que −1 ≤ ρ ≤ 1 , diríamos que la fiabilidad de los resultados es muy 1,95. 1,21
grande, estando en correlación positiva.
NOTA.‐ Para hallar el valor medio de la distribución condicionada X/Y=2 La distribución de frecuencias sería: X \ Y=2 1 2 3 4 5
2 0 0 4 4 0
nxi / Y =2
xi .nx i / Y =2
0 0 4 4 0 8
0 0 12 16 0 28
5
∑ xi .nxi / Y =2
x Y = 2 = i =1
17
N
=
28 = 3,5 8
8. Una vacuna antitetánica se administró a una muestra de cuarenta y dos personas. Posteriormente, a las cinco horas de su inyección, se tomó la temperatura a las mismas, obteniendo:
Temperatura en grados Número de personas
37 1
37,2 5
37,5 15
38 6
38,1 10
38,5 5
39 0
Se pide: a) b) c) d)
Media geométrica. Hallar la mediana. Coeficiente de variación media (tomando como parámetro la media). Coeficiente de asimetría de Pearson.
Solución:
a) Cálculo de la media geométrica xi
ni
37 37,2 37,5 38 38,1 38,5 39
1 5 15 Me 6 10 5 0 42
Media geométrica: xG = 1
N
n
n
Ni
log x i
n i .log xi
1 6 21 27 37 42 42
1,568 1,571 1,574 1,580 1,581 1,585 1,591
1,568 7,853 23,610 9,479 15,809 7,927 0 66,247
n
n
x1 1 x2 2 x 3 3 L xk k , para el cálculo se procede tomando logaritmos, con lo 1
1
k
cual: log xG = log ⎡⎢x1 1 x2 2 x 3 3 L xk k ⎤⎥ = ⎡⎢log (x1 1 ) + log (x2 2 ) + L + log (xk k )⎤⎥ = ∑ n i log xi ⎦ N⎣ ⎦ N i =1 N ⎣ xG
n
n
n
n
n
n
n
⎡1 k ⎤ ⎢ ∑ n i log x i ⎥ ⎢⎣ N i =1 ⎥⎦ = 10
en consecuencia, log xG =
1 N
7
1
∑ n i log xi = 42 ( 66,247 ) = 1,577 ⇒ i =1
xG = 101,577 = 37,757 grados
b) Cálculo de la mediana N / 2 = 42 / 2 = 21
En el diagrama de frecuencias acumuladas, observamos que 21 se encuentra en la columna de la frecuencia absoluta acumulada Ni . Por tanto, la mediana Me será el punto medio entre 37,5 y 38. Es decir, Me = 37,75
18
c) Coeficiente de variación media (tomando como parámetro la media) 7
∑ xi.ni
Lo primero que hemos de calcular es la media aritmética: x = i=1
N
=
1587 = 37,78 42
xi
ni
xi .n i
xi − x .n i
(xi − x ) 2
(x i − x ) 2 .n i
37 37,2 37,5 38 38,1 38,5 39
1 5 15 6 10 5 0 42
37 186 562,5 228 381 192,5 0 1587
0,78 2,9 4,2 1,32 3,2 3,6 0 16
0,608 0,336 0,078 0,048 0,102 0,518 1,488
0,60 1,68 1,18 0,29 1,02 2,59 0 7,36
La desviación media DM respecto a la media aritmética viene dada por la expresión: 7
DM (x) =
∑ i =1
x i − x ni N
=
16 = 0,38 42
Luego el coeficiente de variación media respecto a la media, CVDM (x) =
DMx x
=
0,38 = 0,01 37,78
d) Coeficiente de asimetría de Pearson
⎧ AP > 0 Asimetría a la derecha o positiva x − Md ⎪ AP = ⎨ AP = 0 Simetría σ ⎪ ⎩ AP < 0 Asimetría a la izquierda o negativa
Este coeficiente tiene sentido cuando la moda es única
7
La moda Md = 37,5 y la desviación típica σ = por tanto, AP =
∑ (xi − x) 2 .n i i =1
N
=
7,36 = 0,42 42
x − Md 37,78 − 37,5 = = 0,67 por lo que la distribución es asimétrica a la derecha. σ 0,42
19
9. Para dos empresas, A y B, del sector de hostelería, las distribuciones de los salarios mensuales entre sus empleados, en cientos de euros, son las siguientes:
Empresa A Salarios Número de empleados 6,5 ‐ 7,5 10 7,5 ‐ 8,5 15 8,5 ‐ 9,5 40 9,5 ‐ 10,5 25 10,5 ‐ 11,5 10
Salarios 8,5 ‐ 9,5 9,5 ‐ 10,5 10,5 ‐ 11,5 11,5 ‐ 12,5 12,5 ‐ 13,5
Empresa B Número de empleados 10 15 40 25 10
Se pide: a) Para qué empresa es mayor el salario medio mensual. b) Para cuál de ellas resulta más representativo el salario medio. c) ¿Cuál sería el salario que define el 25% más alto de la banda salarial, en ambas empresas?. Solución:
a) Para qué empresa es mayor el salario medio mensual.
Salarios
xi
6,5 ‐ 7,5 7,5 ‐ 8,5 8,5 ‐ 9,5 9,5 ‐ 10,5 10,5 ‐ 11,5
7 8 9 10 11
Salarios
yj
8,5 ‐ 9,5 9,5 ‐ 10,5 10,5 ‐ 11,5 11,5 ‐ 12,5 12,5 ‐ 13,5
9 10 11 12 13
Empresa A ni Ni 10 15 40 25 10 100
10 25 65 90 100
Empresa B nj Nj 10 15 40 25 10 100
10 25 65 90 100
5
x i .n i
xI2 .n i
70 120 360 250 110 910
490 960 3240 2500 1210 8400
y j .n j
y2j .nj
90 150 440 300 130 1110
810 1500 4840 3600 1690 12440
∑ xi .ni
a1 = x = i=1
N
=
910 = 9,1 100
5
∑ x2i .ni
8400 = 84 N 100 σ2x = a2 − a12 = 84 − 9,12 = 1,19 a σx = 1,091
a2 = i=1
=
5
a1 = y =
∑ y j .n j j=1
N
=
1110 = 11,1 100
5
∑ y2j .nj
12440 = 124,40 N 100 σ2y = a2 − a12 = 124,4 − 11,12 = 1,19 a σy = 1,091
a2 = i=1
=
La empresa B presenta un salario medio mensual mayor.
b) Para cuál de ellas resulta más representativo el salario medio. En una distribución, la medida óptima que critica la representatividad de la media aritmética es la desviación típica, de forma que cuanto mayor sea ésta, menos representativa es la media aritmética. Cuando se desea comparar la representatividad de dos medias aritméticas de dos distribuciones diferentes, no tiene sentido compararlas con una medida de dispersión absoluta (desviaciones
20
típicas). Se debe emplear una medida de dispersión relativa, medida sin dimensiones y que no depende de las unidades empleadas en las distribuciones que deseamos comparar. Una medida de dispersión relativa es el coeficiente de variación de Pearson: C.V = σx 1,091 = = 0,1199 x 9,1 σ 1,091 Empresa B: C.Vy = y = = 0,0983 y 11,1
Empresa A: C.Vx = En consecuencia,
σ x
C.Vy < C.Vx
La empresa B presenta una dispersión más pequeña, siendo más homogénea respecto a los salarios y su media aritmética será más representativa. c) ¿Cuál sería el salario que define el 25% más alto de la banda salarial, en ambas empresas?. Para conocer qué salario define el 25% más alto de la banda salarial, se calcula el percentil 75 (o el tercer cuartil). Para ello, se debe averiguar que intervalo lo contiene, que será el primero cuya frecuencia absoluta acumulada sea superior a (75.N / 100 = 75.100 / 100 = 75) 75.N − Ni−1 75 − 65 Empresa A: P75 = Li + 100 ci = 9,5 + 1 = 9,9 Ni − Ni−1 90 − 65 75.N − Ni−1 75 − 65 100 Empresa B: P75 = Li + ci = 11,5 + 1 = 11,9 Ni − Ni−1 90 − 65 El 25% de los salarios más altos en las dos empresas son, respectivamente, 990 euros y 1190 euros. Observando los salarios, lógicamente se podría haber previsto que P75 (B) = P75 (A) + 2
10. En dos regiones diferentes se determinaron las siguientes distribuciones de la renta (expresados en 10.000 euros):
Región A Niveles de renta Número de individuos 0,5 ‐ 1,5 345 1,5 ‐ 2,5 225 2,5 ‐ 3,5 182 4,5 ‐ 6,5 56 6,5 ‐ 10 32
Región B Niveles de renta Número de individuos 0,5 ‐ 1,5 583 1,5 ‐ 2,5 435 2,5 ‐ 3,5 194 4,5 ‐ 6,5 221 6,5 ‐ 10 67
a) ¿Depende el índice de concentración de Gini de los individuos incluidos en cada nivel? b) Determinar la concentración de la renta para el conjunto de las dos regiones. Dibujar la curva de Lorenz correspondiente. c) ¿Qué parte de la renta percibe el 5% del personal mejor pagado en la región A?. d) ¿Qué porcentaje de individuos percibe el 50% de la renta en la región B?.
21
Solución:
a) ¿Depende el índice de concentración de Gini de los individuos incluidos en cada nivel? Región A m
Renta
ni
xi
x i .n i
m
∑ xi n i
Ni
i =1
∑ xi n i
pi = N i N
qi = i=k1
∑ xi n i
pi − qi
i =1
0,5 ‐ 1,5 1,5 ‐ 2,5 2,5 ‐ 3,5 4,5 ‐ 6,5 6,5 ‐ 10
1 2 3,5 5,5 8,25
345 225 182 56 32 840
345 450 637 308 264 2004
345 795 1432 1740 2004
345 570 752 808 840
0,4107 0,6786 0,8952 0,9619 1 3,9464
0,1722 0,3967 0,7146 0,8683 1
0,2386 0,2819 0,1807 0,0936 0 0,7947
Región B m
Renta
xi
ni
0,5 ‐ 1,5 1,5 ‐ 2,5 2,5 ‐ 3,5 4,5 ‐ 6,5 6,5 ‐ 10
1 2 3,5 5,5 8,25
583 435 194 221 67 1500
x i .n i
m
∑ xi n i
Ni
pi = N i N
583 1453 2132 3347,5 3900,25
583 1018 1212 1433 1500
0,3887 0,6787 0,8080 0,9553 1 3,8307
i =1
∑ xi n i
qi = i=k1
∑ xi n i
pi − qi
i =1
583 870 679 1215,5 552,75 3900,25
0,1495 0,3725 0,5466 0,8583 1
0,2392 0,3061 0,2614 0,0971 0 0,9037
n −1
El índice de concentración de Gini: IG =
∑ (pi − qi ) i =1
n −1
∑ pi
0 ≤ IG ≤ 1
i =1
4
∑ (pi − qi )
Región A: IG (A) = i=1
4
∑ pi
4
=
∑ (pi − qi )
0,7947 = 0,27 Región B: IG (B) = i=1 2,9474
i =1
4
∑ pi
=
0,9037 = 0,32 2,8307
i =1
Como IG (A) ≠ IG (B) , con los mismo niveles de renta, el índice de Gini depende del número de empleados en cada nivel.
22
b) Determinar la concentración de la renta para el conjunto de las dos regiones. Dibujar la curva de Lorenz correspondiente. Distribución de renta para las dos regiones m
Renta
xi
ni
0,5 ‐ 1,5 1,5 ‐ 2,5 2,5 ‐ 3,5 4,5 ‐ 6,5 6,5 ‐ 10
1 2 3,5 5,5 8,25
928 660 376 277 99 2340
x i .n i
m
∑ xi n i
Ni
pi = N i N
928 2248 3564 5087,5 5904,25
928 1588 1964 2241 2340
0,3966 0,6786 0,8393 0,9577 1 3,8722
i =1
∑ xi n i
qi = i=k1
∑ xi n i
pi − qi
i =1
928 1320 1316 1523,5 816,75 5904,25
0,1572 0,3807 0,6036 0,8617 1
0,2394 0,2979 0,2357 0,0960 0 0,8690
4
∑ (pi − qi )
El índice de concentración de Gini es: IG = i=1
4
∑ pi
=
0,8690 = 0,30 2,8722
i =1
Se puede verificar que IG (A) < IG < IG (B) , y que IG ≠ IG (A) + IG (B)
La curva de concentración de Lorenz plasma su coherencia con el índice de Gini calculado, puesto que cuanto más próxima esté la curva a la diagonal principal menor será la concentración, y en consecuencia, mejor será la distribución de la renta.
c) ¿Qué parte de la renta percibe el 5% del personal mejor pagado en la región A? Región A m
Renta
% pi = (N i N).100
∑ xi n i
% qi = i=k1
∑ xi n i
. 100
i =1
0,5 ‐ 1,5 1,5 ‐ 2,5 2,5 ‐ 3,5 4,5 ‐ 6,5 6,5 ‐ 10
41,07 67, 86 89, 52 95 96,19 100
El 5% de individuos mejor pagados será la que va del tramo del 95% al 100% (columna pi ).
17,22 39,67 71,46 84,08 86,83 100
23
Para determinar el porcentaje de renta que le correspondería al 95% de los individuos mejor pagados, bajo la hipótesis de linealidad, se puede establecer la relación siguiente en porcentajes: 96,19 − 89,52 95 − 89,52 84 ,23 = a x= = 12,62 86,83 − 71,46 x 6,67 en consecuencia, el 95% de los individuos percibiría una renta de 71,46 % + 12,62 % = 84,08 % Al 5% de los individuos mejor pagados le corresponde un porcentaje de la nómina (columna qi ): 100 % − 84,08 % = 15,92 % de la renta
d) ¿Qué porcentaje de individuos percibe el 50% de la renta en la región B? Región B
En la tabla se observa que al 67,86 % de los individuos le corresponde el 38,07 % de la renta, y al 83,93 % de individuos el 60,36 % de la renta.
m
Renta
% pi = (N i N).100
∑ xi n i
% qi = i=k1
∑ xi n i
. 100
i =1
0,5 ‐ 1,5 1,5 ‐ 2,5 2,5 ‐ 3,5 4,5 ‐ 6,5 6,5 ‐ 10
39,66 67,86 x 83,93 95,77 100
En consecuencia, el 50 % de la renta estará distribuida entre un conjunto de individuos situado entre el 67,86 % y el 83,93 %.
15,72 38,07 50 60,36 86,17 100
Bajo la hipótesis de linealidad, se establece la relación en porcentajes:
83,93 − 67,86 x − 67,86 191,72 = a x = 67,86 + = 76,46 60,36 − 38,07 50 − 38,07 22,29 Por tanto, el 50 % de la renta se reparte entre el 76,46 % de los individuos.
11. En la tabla adjuntan aparecen las notas obtenidas por diez alumnos:
Matemáticas Estadística
2 3
10 8
8 7
6 5
4 4
3 4
8 6
6 6
2 1
1 1
a) Si otro alumno obtiene un 5 en cada asignatura, en relación con la clase. ¿en cuál de ellas ha sacado mejor nota?. b) Hallar la recta de regresión que explica la nota de estadística en función de la nota de matemáticas?. c) Cuando un alumno consiga un 6 en matemáticas, ¿qué nota es previsible que obtenga en estadística?. ¿Con qué grado de fiabilidad?. Solución:
24
a) Para conocer la posición relativa de la calificación de un nuevo estudiante respecto a las calificaciones de los diez estudiantes, es necesario conocer el número de unidades de desviación típica que se ha separado de la media en cada una de las dos asignaturas. Para ello, se utiliza la variable tipificada. En este sentido, llamando X ="calificación de matemáticas" e Y = "calificación en estadística", si el nuevo alumno obtiene (x=5, y=5), para comparar en qué asignatura ha obtenido mejor calificación x−x y−y tendríamos que tipificar: e , el valor más alto obtenido será el de mejor calificación. σx σy Es necesario calcular la media aritmética y la varianza de cada una de las dos distribuciones: matemáticas (X) y estadística (Y). 10
∑ xi
a1 = x = i=1 = N
2 + 10 + 8 + 6 + 4 + 3 + 8 + 6 + 2 + 1 =5 10
10
a2 =
∑ x2i i =1
N
=
4 + 100 + 64 + 36 + 16 + 9 + 64 + 36 + 4 + 1 = 33,4 10
σ2x = a2 − a12 = 33,4 − 52 = 8,4
σx = 8,4 = 2,898
a
10
∑ yi
a1 = y = i=1 = N
3+8 +7+ 5+ 4 + 4 +6 +6 +1+1 = 4 ,5 10
10
∑ y2i
a2 = i=1 = N
9 + 64 + 49 + 25 + 16 + 16 + 36 + 36 + 1 + 1 = 25,3 10
σ2y = a2 − a12 = 25,3 − 4 ,52 = 5,05
a
σy = 5,05 = 2,247
El nuevo alumno respecto al grupo: Matemáticas:
x − x 5−5 y − y 5 − 4 ,5 = = 0 Estadística: = = 0,22 σy 2,247 σx 2,898
Ha obtenido mejor calificación en Estadística que supera la media, en unidades de desviación típica.
b) La recta de regresión de Y sobre X, aplicando el método de los mínimos cuadrados, viene dada por la expresión: y − y =
m11 (x − x) , donde la covarianza m11 = a11 − x y σ 2x
10
∑ xi . yi
El momento a11 = i=1
N
=
2.3 + 10.8 + 8.7 + 6.5 + 4.4 + 3.4 + 8.6 + 6.6 + 2.1 + 1.1 = 28,7 10 25
con lo que, la covarianza m11 = a11 − x . y = 28,7 − 5. 4 ,5 = 6,2 La recta de regresión de Y sobre X: y − 4 ,5 =
6,2 (x − 5) 8,4
⇒
y = 0,81 + 0,738 x
c) El objetivo más importante de la regresión es la perdición del comportamiento de una variable para un valor determinado de la otra. La fiabilidad de la predicción, en principio, será tanto mejor cuanto mayor sea la correlación entre las variables. En consecuencia, una medida de la bondad de la predicción podría venir dada por el coeficiente de determinación ρ2 ( 0 ≤ ρ2 ≤ 1 ), o por el coeficiente de correlación ρ ( − 1 ≤ ρ ≤ 1 ). Para obtener la calificación en estadística (Y) de un alumno que ha obtenido un 6 en matemáticas (X) recurrimos a la recta de regresión y = 0,81 + 0,738 x , sustituyendo x = 6 : y = 0,81 + 0,738. 6 = 5,238 calificación en estadística La fiabilidad viene dada por el coeficiente de determinación: ρ2 =
2 m11 6,22 = = 0,91 σ2x . σ2y 8,4 . 5,05
La recta de regresión explica el 91% las notas de estadística en función de las matemáticas.
12a. Un curso se encuentra dividido en tres grupos con los siguientes datos:
Grupo 1 2 3
Número alumnos 30 40 50
Nota media 7 6 5,5
Se pide: a) b) c) d)
Nota media para todo el curso. Coeficientes de variación de cada grupo. ¿Cuál es el grupo más homogéneo? Varianza de todas las notas del curso.
Solución:
26
Varianza 1,2 1,6 0,8
a) Entre los grupos
Dentro de los grupos
Grupos
Ni
xi
Ni . xi
xi − x
Ni .(xi − x)
σ2i
Ni . σ2i
1
N1 = 30
x1 = 7
210
0,958
27,533
σ12 = 1,2
36
2
N2 = 40
x2 = 6
240
‐ 0,042
0,071
σ22 = 1,6
64
3
N3 = 50
x3 = 5,5
14,688
σ23
40
275
2
‐ 0,542
3
3
∑ Ni . xi = 725
N = 120
= 0,8
∑ Ni .(xi − x) 2 = 42,29
i =1
i =1
3
∑ Ni . σ2i = 140 i =1
3
∑ Ni . xi
La media aritmética x para todo el curso será: x = i=1
N
=
725 = 6,042 120
b) Los coeficientes de variación de Pearson para cada grupo son: Grupo 1: σ C.V1 = 1 = x1
1,2 7
Grupo 2: σ C.V2 = 2 = x2
= 0,156
1,6 6
= 0,21
Grupo 3: 0,8 σ C.V3 = 3 = = 0,163 x3 5,5
c) El grupo más homogéneo será aquel que tenga un coeficiente de variación de Pearson menor. En este sentido, el Grupo 1 es el más homogéneo. d) La varianza para todo el curso será: σ2 =
1 3 1 3 . ∑ Ni . σ2i + . ∑ Ni .(xi − x) 2 N4 N4 i=2 1 4 i=14244 1 3 1 3
dentro de los grupos
entre grupos
140 42,29 1 3 1 3 varianza del curso, σ2 = . ∑ Ni . σ2i + . ∑ Ni .(xi − x) 2 = + = 1,522 120 120 N i =1 N i =1
13a. Los salarios mensuales de los trabajadores de Muebles Quintana, según sus categorías son:
Categoría Número trabajadores A B
8 12
Salario medio (euros) 2100 630
Moda (euros) 1750 560
Desviación típica (euros) 490 140
Se pide: a) Salario medio y desviación típica de todos los trabajadores de la empresa. b) Si un trabajador de categoría A gana 1610 euros y otro trabajador de categoría B gana 560 euros. ¿cuál de los dos trabajadores tuvo mejor posición en su grupo? c) ¿Cuál es el salario más frecuente de todos los trabajadores de la empresa? d) Si en otra empresa similar el salario medio de sus trabajadores es de 1050 euros, con una desviación típica de 525 euros. ¿qué empresa tiene una distribución de salarios más homogénea? Solución:
27
a) Salario medio y desviación típica de todos los trabajadores de la empresa. Entre los grupos
Dentro de los grupos
Ni
xi
Ni . xi
xi − x
Ni .(xi − x)2
σ2i
A
N1 = 8
x1 = 2100
16800
882
6223392
σ12 = 4902
1920800
B
N2 = 12 x2 = 630
4148928
σ22
235200
7560
‐588
2
N = 20
= 140
2
∑ Ni . xi =
∑ Ni .(xi − x) 2 =
i =1
i =1
= 24360
Ni . σ2i
= 10372320
2
2
∑ Ni . σ2i = i =1
= 2156000
La empresa se encuentra estructurada en dos categorías o estratos. El salario medio de la empresa será: 2
∑ Ni . xi
x = i=1
N
=
24360 = 1218 euros/mes 20
La varianza de la empresa (varianza total) se descompone en la varianza dentro de cada categoría y 1 2 1 2 varianza entre categorías, es decir: σ2 = . ∑ Ni . σ2i + . ∑ Ni .(xi − x) 2 626416 N4 N4 i =2 1 4 i=14244 1 3 1 3 dentro de los estratos
entre estratos
1 2 2156000 10372320 1 2 Varianza de la empresa: σ2 = . ∑ Ni . σ2i + . ∑ Ni .(xi − x) 2 = + = 626416 euros2 N i =1 N i =1 20 20 Desviación típica de la empresa: σ = 626416 = 791,46 euros b) Si un trabajador de categoría A gana 1610 euros y otro trabajador de categoría B gana 560 euros. ¿cuál de los dos trabajadores tuvo mejor posición en su grupo? Al tratarse de dos observaciones procedentes de dos distribuciones con características diferentes, es necesario pasar a una única distribución en la que sea posible comparar las dos observaciones. En este sentido, se pasa a la tipificación de las mismas, es decir: zA =
1610 − 2100 560 − 630 = −1 zB = = −0,5 490 140
siendo zB > zA , se deduce que el empleado de la empleado de categoría B obtuvo una mejor posición en su grupo que el empleado de categoría A. Señalar que, por ser los dos valores tipificados negativos, refleja que su salario está por debajo del salario medio en ambos casos. c) ¿Cuál es el salario más frecuente de todos los trabajadores de la empresa? El salario más frecuente de todos los trabajadores será el que tenga mayor frecuencia absoluta. La moda para los trabajadores de la categoría A es 1750, mientras que para los trabajadores de la categoría B es 560. No obstante, desconocemos cuáles son las frecuencias absolutas de los diferentes 28
salarios de los trabajadores, no pudiendo por tanto determinar con exactitud la moda para toda la empresa. d) Si en otra empresa similar el salario medio de sus trabajadores es de 1050 euros, con una desviación típica de 525 euros. ¿qué empresa tiene una distribución de salarios más homogénea? Como se pretende comparar la homogeneidad entre dos distribuciones, se debe calcular el coeficiente de variación de Pearson para ambas distribuciones: Muebles Quintana: C.V =
Otra Empresa: C.V =
σ 791,46 = = 0,65 x 1218
σ 525 = = 0,50 x 1050
La otra empresa, al tener un coeficiente de variación de Pearson menor, presenta una distribución de salarios más homogénea.
CAMBIO DE ORIGEN Y DE ESCALA DE UNA VARIABLE ESTADÍSTICA k
k
∑ xi .ni
Sea una variable estadística X con media x = i=1
y varianza σ2x =
N
∑ (xi − x) 2 .ni i =1
N
Si efectuamos un cambio de origen y de escala sobre la variable X, esto es, construimos otra variable Y = a X + b , siendo a > 0 y b constantes (multiplicar X por una constante "a" es efectuar un cambio de escala y sumar una constante "b" es realizar un cambio de origen).
En definitiva, para cada dato xi hay un yi = a xi + b , con la misma frecuencia absoluta ni . De tal modo, tenemos las tablas de frecuencias:
xi
ni
yi
ni
x1
n1
y1
n1
x2
n2
y2
n2
M xk
M nk
M yk
M nk
N
N
Entonces, la media aritmética, la varianza, y el coeficiente de variación de Pearson de la nueva variable serán: k
∑ yi .ni
y = i=1 •
N
=
1 N
k
1
k
1
k
∑ (a xi + b).ni = a N ∑ xi .ni + b N ∑ ni = a x + b i =1
i =1
i =1
La media se ve afectada por el mismo cambio de origen y de escala efectuada sobre la variable.
29
k
∑ (yi − y) 2 .ni
σ2y = i=1 •
N
k
=
∑ (a xi + b − a x − b) 2 .ni i =1
N
k
= a2
∑ (xi − x) 2 .ni i =1
= a2 σ2x
La varianza no se ve afectada por el cambio de origen pero si por el cambio de escala efectuado sobre la variable.
El coeficiente de variación de Pearson C.Vy = •
N
σy y
=
a σx . ax + b
Si se efectúa un cambio de escala (b = 0) , se tiene: C.Vy =
σy y
=
a σx = C.Vx ax
El cambio de escala no afecta al coeficiente de variación. •
Si solo se efectúa un cambio de origen (a = 1) , queda: C.Vy =
El cambio de origen si afecta al coeficiente de variación.
30
σy y
=
σx ≠ C.Vx x +b
Cuestionario Estadística Descriptiva Facultad Ciencias Económicas y Empresariales Departamento de Economía Aplicada Profesor: Santiago de la Fuente Fernández
1. En la tabla adjunta se reflejan dos operaciones que una empresa ha realizado con una compañía con sede en Gran Bretaña: Importe (miles de euros) 270 187
Cambio de la libra 259 262,1
¿Qué promedio debe utilizar para conocer el cambio medio de dichas operaciones?. Razone la respuesta. Solución:
Cambio de la libra: xi
Importe (euros): n i
n i xi
259 262,1
270.000 187.000
270.000/259 = 1042,471 187.000/262,1 = 713,468 2
∑n i
N = 457.000 270.000 = 1042,471 libras 259 187.000 187 miles euros son = 713,468 libras 259
270 miles euros son
xA =
i=1
x i = 1755,939
N 457.000 = = 260,26 euros / libra n i 1755,939 ∑x i=1 i 2
2. Una empresa quiere saber qué porcentaje de trabajadores recibe el 50% de la masa salarial y para ello utiliza la mediana de la distribución de rentas. ¿Es correcto?. Razone la respuesta. Solución: No sería correcto porque la mediana de la distribución de rentas es aquella cantidad tal que el 50% del número de individuos percibe una renta menor o igual que ella.
3. El coeficiente de variación de Pearson: a) Permite comparar distribuciones, únicamente si tienen el mismo número de elementos. b) No varia al efectuar un cambio de origen c) Carece de unidades de medida d) Ninguna de las respuestas es correcta Solución: Carece de unidades de medida.
31
4. En una distribución simétrica se verifica que: a) La media coincide con la moda en todos los casos b) El rango depende del número de observaciones c) La mediana coincide con la moda en todos los casos d) Ninguna de las respuestas es correcta Solución: Ninguna de las respuestas es correcta.
5. Cuál de las siguientes afirmaciones es verdadera: a) La media es un estadístico que no utiliza toda la información muestral b) La mediana no se ve afectada por los valores extremos c) La media no se ve afectada por los valores extremos d) Ninguna de las respuestas es correcta. Solución: La mediana no se ve afectada por los valores extremos.
6. Si el coeficiente de curtosis de Fisher es mayor que cero: a) La distribución es platicúrtica b) La distribución es mesocúrtica c) La distribución es leptocúrtica d) Ninguna de las respuestas es correcta Solución: La distribución es leptocúrtica.
7. Cuál de las siguientes variables es de tipo discreto: a) Tiempo de espera del ave b) Distancia entre las capitales de provincia c) El número de viviendas existentes en Madrid d) Ninguna de las respuestas es correcta Solución: El número de viviendas existentes en Madrid.
8. En una distribución x = 4 y la σ2x = 16 . Definimos una nueva distribución y = 2x + 1 . denotando por C.V. el coeficiente de variación de Pearson. ¿Cuál de las siguientes respuestas es correcta?: a) C.Vx = C.Vy b) C.Vx > C.Vy c) 2 C.Vx = C.Vy d) Ninguna de las respuestas es correcta. Solución: C.Vy =
σy y
=
σ σ 2σx = x < x ⇒ C.Vx > C.Vy 1 x 2x + 1 x + 2
32
9. Si el coeficiente de asimetría de Fisher es menor que cero, la distribución es: a) Asimétrica negativa o a la izquierda b) Asimétrica positiva o a la derecha c) Simétrica d) Ninguna de las respuestas es correcta Solución: Asimétrica negativa o a la izquierda El coeficiente de simetría de Fisher se define como ⎧ AF > 0 Asimetría a la derecha o positiva m3 ⎪ AF = 3 ⎨ AF = 0 Simetría σ ⎪ ⎩AF < 0 Asimetría a la izquierda o negativa
10. Si el coeficiente de asimetría de Pearson es mayor que cero, la distribución es: a) Asimétrica negativa o a la izquierda b) Asimétrica positiva o a la derecha c) Simétrica d) Ninguna de las respuestas es correcta Solución: Asimétrica positiva o a la derecha El coeficiente de simetría de Pearson se define como ⎧ A P > 0 Asimetría a la derecha o positiva x − Md ⎪ AP = ⎨ AP = 0 Simetría σ ⎪ ⎩ A P < 0 Asimetría a la izquierda o negativa
Tiene sentido obtener este coeficiente cuando la moda es única.
11. Concepto de curtosis. Solución: La curtosis de una distribución de frecuencias es el apuntamiento que presenta el polígono de frecuencias alrededor de la media. Si está muy apuntado diremos que la distribución es leptocúrtica, si poco apuntado platicúrtica, y si el apuntamiento es intermedio mesocúrtica.
Platicúrtica Mesocúrtica Leptocúrtica k
k
El coeficiente g2 =
m4 donde m2 = σ2 = 4 σ
∑ (xi − x)2 n i i=1
N
y m4 =
33
∑ (xi − x)4 n i i=1
N
indica el apuntamiento de forma de la distribución comparándola con la distribución normal (Campana de Gauss), donde se tiene que:
g2 > 3 Más apuntamiento que la normal: Leptocúrtica g2 = 3 Igual apuntamiento que la normal: Mesocúrtica g2 < 3 Menor apuntamiento que la normal: Platicúrtica
12. Señale las ventajas e inconvenientes de la media aritmética como medida de posición de una distribución. k
Solución: a1 = x =
∑ xi n i i=1
N
Se puede calcular en todas las variables, es decir siempre que las observaciones sean cuantitativas. Para su cálculo se utilizan todos los valores de la distribución. Es única para cada distribución de frecuencias. Tiene un claro significado, ya que al ser el centro de gravedad de la distribución representa todos los valores observados. El principal inconveniente es que es un valor muy sensible a los valores extremos, con lo que en las distribuciones con gran dispersión de datos puede llegar a perder totalmente su significado.
13. Señale las ventajas e inconvenientes de la media geométrica como medida de posición de una distribución. k
∑ n i log xi
Solución: xG = N xn11 xn22 xn33 L xnkk donde xG = antilog i=1
N
Es más representativa que la media aritmética cuando la variable evoluciona de forma acumulativa con efectos multiplicativos. Cuando existe, es decir cuando la variable no tiene valores negativos, y cuando está definida, es decir cuando la distribución no tiene valores nulos, su valor está definida de forma objetiva y es único. Para su cálculo se tiene en cuenta todos los valores de la distribución. Los valores extremos tienen menor influencia que en la media aritmética. Los principales inconvenientes: Mayor complicación en los cálculos. Su indefinición (da números con naturaleza imaginaria) cuando tiene valores negativos y cuando una observación toma el valor nulo.
34
14. Señale las ventajas e inconvenientes de la media armónica como medida de posición de una distribución. ¿En que casos es conveniente utilizarla? Solución: Es una medida estadística que se utiliza cuando que se desean promediar rendimientos, velocidades, productividades, etc. Sólo se puede calcular cuando no hay observaciones iguales a cero. Las principales ventajas son: • Es más representativa que otras medidas en los casos de obtener promedios de velocidades, rendimientos, productividades, etc. • Está definida de forma objetiva y es única. • Su cálculo es sencillo y se tienen en cuenta todos los valores de la distribución. • Los valores extremos tienen menor influencia que en la media aritmética. El principal inconveniente se produce cuando se utilizan variables con valores muy pequeños; en estos casos, sus inversos pueden aumentar casi hasta el infinito, eliminando el efecto del resto de los valores. Por esta misma razón, no es posible calcularla cuando algún valor es cero, ya que se produce una indeterminación matemática.
15. Indique razonadamente cómo se comporta la media aritmética ante un cambio de escala y un cambio de origen en una variable. Solución: Supongamos que sobre una variable X i efectuamos un cambio de origen y de escala: Yi = a X i + b (multiplicar por ‘a’ es un cambio de escala y sumar ‘b’ es un cambio de origen). La media
aritmética de Yi sería: Y=
1 k 1 k a k b k Yi n i = ∑ (a X i + b) n i = ∑ X i n i + ∑ n i = a X + b ∑ N i=1 N i=1 N i=1 N i=1
Es decir, la media aritmética queda afectada por el mismo cambio de origen y de escala.
16. Defina los conceptos estadísticos de población, marco estadístico, muestra e individuo o unidad estadística. Solución:
Población.‐ Es el conjunto de elementos que cumplen una determinada característica.
Marco estadístico.‐ Es el conjunto de información (ficheros, listados, etc.) que permite identificar a todos los individuos de la población. Es la base informativa que empleamos para seleccionar la muestra. En el marco estadístico no siempre está contenido todo el universo (por las omisiones, duplicaciones, unidades mal clasificadas, etc.)
Muestra.‐ Cualquier subconjunto de individuos pertenecientes a una población determinada.
Individuo o Unidad de investigación.‐ Cada uno de los elementos de la población. 35
17. Defina el concepto y significado de las medidas de curtosis de una distribución estadística. Solución: Las medidas de curtosis o apuntamiento tratan de estudiar la distribución de frecuencias en la zona media. El mayor o menor número de valores de la variable alrededor de la media dará lugar a una distribución más o menos apuntada. Para estudiar el apuntamiento comparamos el perfil de la distribución (polígono de frecuencias o histograma) con la x2
1 −2 denominada Campana de Gauss de ecuación: y = e 2π
Para ello, se utiliza el coeficiente de curtosis de Fisher: g2 =
m4 −3 σ4
Según el valor de esta expresión, tendremos una distribución mesocúrtica cuando g2 = 0 , leptocúrtica cuando g2 > 0 , o platicúrtica cuando g2 < 0
18. ¿En qué casos es preferible, por ser más representativa, utilizar la media geométrica en lugar de la media aritmética? Solución: Cuando los valores a promediar tengan entre sí una relación multiplicativa en lugar de aditiva. Por ejemplo, en las tasas de crecimiento. Ejemplo: Las tasas de crecimiento de una determinada magnitud a lo largo de cuatro períodos de tiempo han sido, respectivamente, 1,2 ; 1,5 ; 1,1 ; 1,3 . La tasa media habrá sido la media geométrica: xG = 4 (1,2)(1,5)(1,1)(1,3) ≅ 1,27
19. Si a una variable X i la sometemos al mismo tiempo a un cambio de origen 0 y a un cambio de escala C, ¿cuál o cuáles de las afirmaciones son falsas o correctas? a) Los cambios de origen afectan a la media aritmética b) Los cambios de escala afectan a la media aritmética c) La varianza y la desviación típica sólo se ven afectados por los cambios de escala Solución: Las tres afirmaciones son correctas. Sea Yi =
Xi −0 C
entonces, Y =
1 1 0 X −0 1 ⎛ Xi −0 ⎞ ⎜⎜ ⎟⎟n i = ⎡⎢ ∑ X i n i − ∑n i ⎤⎥ = ∑ C ⎣N N C N ⎝ C ⎠ ⎦
Es decir, la media aritmética se ve afectada por los cambios de origen y de escala. 1 Var (Y) = N
1 ∑(Yi − Y) n i = N 2
2
⎛ Xi −0 X −0 ⎞ 1 ∑ ⎜⎜ C − C ⎟⎟ n i = N ⎝ ⎠
2
⎛ Xi − X ⎞ 1 ∑ ⎜⎜ C ⎟⎟ n i = C2 Var (X) ⎝ ⎠
36
La varianza se ve afectada por los cambios de escala. En consecuencia, también la desviación típica.
20. Tenemos una distribución con los siguientes datos expresados en euros: 1, 8, 9 y 85. Indique a simple vista si la media aritmética es representativa para esta distribución. ¿Qué debería hacerse para valorar adecuadamente esta representatividad?. ¿Qué medidas deberían calcularse?. Solución: • •
A simple vista no parece que la media aritmética sea representativa, puesto que el valor de 85 euros se aleja mucho de los otros tres. Para valorar adecuadamente la representatividad hay que calcular el coeficiente de variación de
σ : x 1 + 8 + 9 + 85 1 + 64 + 85 + 7225 a1 = x = = 25,75 a2 = = 1483,75 4 4 34 ,36 σ = 1483,75 − (25,75)2 = 34 ,36 con lo cual, C.V = = 1,33 25,75
Pearson: C.V =
al ser el C.V. mayor que la unidad, debemos descartar la media aritmética como parámetro adecuado.
21. Defina las medidas de simetría y apuntamiento de una distribución de frecuencias. Solución: Coeficiente de asimetría de Fisher: g1 =
m3 = σ3
Coeficiente de asimetría de Pearson: AP =
1 k ∑ (xi − x)3 n i N i=1 3
2 ⎡1 k 2 ⎤ ⎢ ∑ (x i − x) n i ⎥ ⎣ N i=1 ⎦
x − Md σ
Coeficiente de asimetría de Bowley: AB =
Q 3 + Q 1 − 2Me Q 3 − Q1
Coeficiente de asimetría de Excel: Aexcel =
N N ⎡ xi − x ⎤ ∑ (N − 1)(N − 2) i=1 ⎢⎣ σ ⎥⎦
3
En todos los casos, si el coeficiente es positivo hay asimetría a la derecha, si es negativo hay asimetría a la izquierda, y si es cero la distribución es simétrica. •
Respecto a las medidas de apuntamiento:
⎧> 0 Más apuntamiento que la normal: Leptocúrtica ⎪ Coeficiente de Fisher: g 2 = 4 − 3 ⎨ = 0 Igual apuntamiento que la normal: Mesocúrtica σ ⎪ < 0 Menor apuntamiento que la normal: Platicúrtica ⎩ m4
37
N(N − 1) (xi − x )4 ⎤ ⎡ 3(N − 1)2 ⎤ ∑ σ ⎥ − ⎢ (N − 2)(N − 3) ⎥ ⎦ ⎣ (N − 1)(N − 2)(N − 3) ⎦ ⎣ ⎡
Coeficiente de Excel: Cexcel = ⎢
Cexcel
⎧> 0 Más apuntamiento que la normal: Leptocúrtica ⎪ ⎨ = 0 Igual apuntamiento que la normal: Mesocúrtica ⎪ < 0 Menor apuntamiento que la normal: Platicúrtica ⎩
22. ¿Qué coeficiente compara la forma de una distribución cualquiera con una distribución normal? a) b) c) d)
El coeficiente de asimetría de Fisher El coeficiente de variación de Pearson El coeficiente de curtosis de Fisher Ninguna de las anteriores
Solución: El coeficiente de curtosis de Fisher.
23. ¿De qué depende el coeficiente de variación de Pearson? a) b) c) d)
Promedio considerado El signo del numerador de dicho coeficiente Siempre tiene signo positivo Ninguna de los anteriores
Solución: Promedio considerado. 24. Multiplicando por cuatro los valores de una serie Xi = x1, x2 , L , xn se obtiene la serie Yi = y1, y2 , L , yn . ¿Cuál de las siguientes afirmaciones es correcta? a) Ambas series tienen la misma varianza b) Ambas tienen el mismo coeficiente de variación c) Ambas tienen la misma media d) Ninguna de las anteriores Solución: Ambas tienen el mismo coeficiente de variación.
25. Dentro de las tareas a desarrollar en la etapa de definición de objetivos en una investigación estadística podemos encontrar: a) Recogida de datos b) Tratamiento de los datos c) Diseño del cuestionario d) Ninguna de las anteriores Solución: Ninguna de las anteriores.
38
26. ¿En qué ocasiones no debe utilizarse la media armónica? a) b) c) d)
Valores muy pequeños de la variable Cuando existen valores de la variable igual a cero Las respuestas (a) y (b) son correctas Ninguna de las anteriores
Solución: Las respuestas (a) y (b) son correctas.
27. En una distribución unidimensional, el momento de orden uno respecto a la media m1 =
a) b) c) d)
1 k ∑ (xi − x)n i es igual a: N i=1
0 x
Depende de los valores de x Ninguna respuesta es correcta
Solución: 0
28. En una distribución de frecuencias, el segundo cuartil coincide con la mediana: a) b) c) d)
Si la distribución es creciente Si la media aritmética es igual a la mediana En todos los casos Ninguna respuesta es correcta
Solución: En todos los casos.
29. En tres empresas del mismo grupo se dan las siguientes cifras de producción total y productividad media por empleado: Empresa Producción total (unidades) Producción por empleado
A 200 0,5
¿Cuál de las respuestas corresponde a la productividad media? a) b) c) d)
≈ 1,47 ≈ 0,66 ≈ 0,68 Ninguna respuesta es correcta
Solución: ≈ 0,68. x A =
200 + 350 + 400 = 0,678 ≅ 0,68 200 350 400 + + 0,5 0,7 0,8 39
B 350 0,7
C 400 0,8
30. En la distribución unidimensional adjunta, ¿qué medida de posición central debe utilizarse? xi ni
a) b) c) d)
‐3 1
‐2 5
‐1 1
1 1
2 5
3 1
Media Asimetría Moda Mediana
Solución: Moda.
31. La media y la varianza de una serie de observaciones, respectivamente, son 0 y 4. Si doblamos el valor de cada observación, la media y la varianza serán: a) b) c) d)
0 y 8 0 y 4 0 y 16 Ninguna respuesta es correcta
Solución: 0 y 16.
32. En una distribución se conoce m4 = 4 ,23 (momento de orden 4 respecto a la media) y σ 2 = 1,2 . Según estos datos, la distribución es: a) b) c) d)
Platicúrtica Mesocúrtica Leptocúrtica Simétrica
Solución: Platicúrtica. g 2 =
m4 σ
4
−3=
4 ,23 − 3 = −0,0625 < 0 1,22
33. Si el coeficiente de variación de Pearson de una variable X es igual a 2 y su media es 4. ¿Cuál es la desviación típica de la variable Y = (X / 8) − 0,5 ? a) 4
b) 1
c) 2
Solución: 1 σx ⇒ σ x = 8 ⇒ σ 2x = 64 4 σ 2 64 X X Var (Y) = Var ⎛⎜ − 0,5 ⎞⎟ = Var ⎛⎜ ⎞⎟ = x = = 1 ⇒ σ y = 1 ⎝8 ⎠ ⎝ 8 ⎠ 64 64
C.Vx = 2 =
40
d) 0
34. ¿Cuál es el coeficiente de asimetría de Fisher de la distribución adjunta? xi ni
a) ≈ 0,4
Solución: 0,25 g1 =
m3 σ
3
=
1 3
2 6
b) ≈ 0,25 1 k (x i − x)3 n i ∑ N i=1 3 ⎤2
⎡1 k 2 ⎢ ∑ (x i − x ) n i ⎥ ⎣ N i=1 ⎦
3 4
c) ≈ 0,12
=
0,21 3 (0,89) 2
4 2 d) Otra respuesta
= 0,25
35. Cuando en una población la concentración de renta es máxima: a) b) c) d)
El índice de Gini es igual a 1 La curva de Lorenz es la diagonal que va desde el punto (0,0) al (100,100) Las respuestas (a) y (b) son correctas Ninguna de las respuestas es correcta
Solución: El índice de Gini es igual a 1
36. La curva de Lorenz se encuentra tanto más alejada de la diagonal cuanto: a) b) c) d)
Menores sean las diferencias (pi − qi ) Mayores sean las diferencias (pi − qi ) Más próximos estén los valores de pi y qi (pi = qi ) Ninguna de las anteriores
Solución: Mayores sean las diferencias (pi − qi )
41
42