Story Transcript
TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA. MEDIDAS DE CONCENTRACIÓN. Medidas de localización. Medidas de dispersión. Coeficiente de variación. Momentos de una distribución de frecuencias. Estudio de asimetría y apuntamiento. Diagrama de caja.
OBJETIVOS: ✔ Calcular estadísticos para resumir el centro, la dispersión y la forma de una
distribución. Estudiar las propiedades de estos estadísticos. ✔ Explorar la propiedad de robustez o resistencia en relación a estos estadísticos ✔ Entender las limitaciones de las distintas medidas estudiadas y en qué situaciones
estas medidas son apropiadas. ✔ Aprender a construir e interpretar los diagramas de cajas como gráfico que
muestra visualmente información sobre la distribución.
1
Descripción numérica de una variable estadística (numérica) Objetivo: Resumir distintos aspectos de las distribuciones de frecuencias Interés de los resúmenes numéricos: Unos pocos números resumen toda la distribución. Complemento natural de la descripción gráfica. Facilitan la comparación de muestras con modelos de referencia y la comparación entre muestras.
Medidas de localización: media, mediana, moda, media geométrica, media armónica, media cuadrática, medias recortadas, medias winsorizadas, cuartiles, cuantiles. Medidas de dispersión: Rango, recorrido intercuartílico, varianza, desviación típica, desviación media, MEDA, coeficiente de variación, … Medidas de forma: coeficiente de asimetría, coeficiente de apuntamiento.
2
¿Qué es un estadístico? Cualquier función con los datos de la muestra destinada a cuantificar algún aspecto de la distribución de frecuencias. Cuando la muestra es representativa, los estadísticos muestrales son aproximaciones naturales de los parámetros poblacionales correspondientes definidos de manera análoga. EJEMPLOS
n 1 m′ = n ∑ xik . k i= 1
Muestra: x1, x2,..., xn
n 1 m = n ∑ ( xi − x) k . k i= 1
Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo
x(1) ≤ x(2) ≤ ...≤ x(n)
x(n): Máximo
x(r): Estadístico de orden r, r = 1, ..., n.
3
Familias de estadísticos más importantes -MOMENTOS MUESTRALES: Momentos respecto al origen: Momento de orden k, k=1, 2, ...:
n 1 m′ = n ∑ xik . k i= 1
Momentos respecto a la media: Momento de orden k, k=2, 3, ...:
-ESTADÍSTICOS DE ORDEN:
n M = 1n ∑ ( xi − x)k . k i= 1
Muestra: x1, x2,..., xn Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo
x(n): Máximo
x(1) ≤ x(2) ≤ ...≤ x(n) x(r): Estadístico de orden r, r = 1, ..., n.
-CUANTILES: 0 ≤ p ≤ 1, p Punto que parte la distribución de frecuencias en dos trozos, a la izquierda p% y a la derecha (1-p)%. x np no entero. ( [ np ] + 1) 4 x p = 1 + x x np entero. ( [ np ] + 1) 2 ( [ np ] )
Medidas de localización (posición ó centro) (1) Sean x1, x2, …, xn n valores de una variable cuantitativa, para que m sea un promedio de estos n valores debe verificarse: ✔ Simetría: la medida no varía auque los valores sean considerados en orden diferente ✔ min( x1 , x2 ,..., xn ) ≤ m ≤ max( x1 , x2 ,..., xn ) ✔ Homogeneidad: para cualquier número real a el promedio de
ax1 , ax2 ,..., axn
es am
5
Medidas de localización (posición ó centro) (2) ✔ Media ✔ Mediana ✔ Moda ✔ Otros promedios: Media cuadrática Media armónica Media geométrica ✔ Trimedia ✔ Media k - recortada ó α % recortada ✔Percentiles 6
Media (1) Media (media aritmética ó media muestral)
Muestra: x1, x2,..., xn
1 n X = ∑ xi n i= 1 Es el centro de gravedad de la distribución de frecuencias n
∑ (x − x) = 0 i= 1
i
La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A n 2
min ∑ ( x − A) A i= 1
i
7
Media (2) Muestra tabulada:
k
k
k ni -Variable discreta: X = ∑i = 1 ni xi = ∑i = 1 n xi = ∑i = 1 f i xi -Variable continua: (datos agrupados en k clases) 1 n
X ≅
k
1 n
∑
i= 1
n i mi =
k
∑
i= 1
f i mi
Ej. Ácido úrico (datos en tema 2) datos X≅
X≅ X=
k
1 n
∑
i= 1
k
∑
i= 1 n
ni mi =
1 20
[2(3.5) + 5(4.5) + 6(5.5) + 4(6.5) + 2(7.5) + 1(8.5)] = 5.6
f i mi = 0.10(3.5) + 0.25(4.5) + 0.30(5.5) + 0.20(6.5) + 0.10(7.5) + 0.05(8.5) = 5.6
1 1 x = (4.9 + 5.3 + ... + 4.1) = 5.575 ∑ i n i= 1 20
Valor exacto de la media
Error = |media- valor aproximado| = |5.575 – 5.6| = 0.025 En general el error al calcular la media aproximada con los datos agrupados está acotado
| X − X agru |≤
1 máximo{ A1 , A2 ,..., Ak } 2
8
Media (3) Falta de robustez de la media Ejemplo 1: Media = [ 0(4) + 1(4) + 2(1) ] / 9 = 0.6667
Media = [ 0(3) + 1(4) + 2(1) +6(1) ] / 9 = 1.333
Xi (valores)
ni
Xi (valores)
ni
0
4
0
3
1
4
1
4
2
1
2
1
Total = 9
6
1
Total = 9
Ejemplo 2: Datos:
1, 2, 3, 4, 7, 8, 9
n=7 media = 4.858
1, 2, 3, 4, 7, 8, 2450
n=7 media = 353.6
9
Media (4) Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada de las medias.
(x1, x2, ..., xn) = (x1, x2, ..., xk) ∪ (xk+1, xk+2, ..., xn) 1 X = ∑ x k k
1
1 kX + (n − k ) X X= ∑ x = n n n
1
i= 1
i= 1
i
1 X = ∑ x n− k n
2
i= k + 1
i
2
i
Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6 nota media =
15(5) + 7.5(7) + ... + 6(9) 181.5 = = 6.368 15 + 7.5 + 6 28.5
En general con s grupos de tamaños n1, n2, ..., ns X=
1 n n X + n X + ... + ns X s xi = 1 1 2 2 ∑ n i= 1 n
10
Media (5) Media ponderada Media ponderada de k valores (x1, x2, ..., xk) con pesos (w1, w2, ..., wk) : ∑i = 1 k w1 x1 + w2 x2 + ... + wk xk = = ∑ k w1 + w2 + ... + wk i= 1 ∑i = 1 wi k
wi xi
wi k xi ∑j = 1 w j
Si tomamos los pesos (p1, p2, ..., pk) de forma que sumen uno la media ponderada se calcula k como
∑
i= 1
pi xi
Comprobamos como definiendo
pi =
wi k
∑
j= 1
wj
ambas expresiones coinciden
Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6
15(5) + 7.5(7) + ... + 6(9) = 6.368 15 + 7.5 + 6 11
Media (6) PROPIEDADES DE LA MEDIA: La suma de las desviaciones de la media a las observaciones es cero
n
∑ (x − x) = 0 i= 1
i
Cambios de origen y escala en los datos yi = a + b xi, i = 1, 2, …, n conllevan los mismos cambios en la media
Y = a + bX
La media de una suma es la suma de las medias
x1 , x2 ,..., xn → X
y1 , y2 ,..., yn → Y
x1 + y1 , x2 + y2 , ..., xn + y n → X + Y La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A
n
∑
i= 1
( xi − A) 2
n
∑i = 1 ( xi − min x∈ ℜ
A) 2
Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada (por los tamaños de los grupos) de las medias.
12
Otros promedios Muestra sin tabular n
Media cuadrática
M =
∑ x
2
k
i
i= 1
MQ =
n
Q
1
M = Media armónica
n
M =
n
G
log( M G ) =
MH ≤ MG ≤ X ≤ MQ
i= 1
Muestra tabulada (variable continua) k
xi2 ni MQ ≅
n
1
MH ≅
1 k 1 ∑ ni n i = 1 xi
∑
i= 1
mi2 ni n
1 1 1 ni ∑ n i = 1 mi k
i
x x ...x 1
∑
MH =
1 1 ∑ n x
H
i= 1
Media geométrica
Muestra tabulada (variable discreta)
2
MG =
n
x1n1 x 2n2 ...x knk
MG ≅
n
m1n1 m2n2 ...mknk
n
1 n ∑ log( xi ) n i=1 13
Mediana (1) Me Punto que parte la distribución en dos mitades del 50% a cada lado Observación central en la muestra ordenada Si n es impar Si n es par
Me = X((n+1)/2) Me ∈ (X(n/2) , X(n/2
+ 1)
)
Me = (X(n/2) + X(n/2 + 1)) /2
Ejemplos: Datos 1: 1, 2, 3, 4, 6, 7, 8
n=7 Me = 4
media = 4.4
Datos 2: 1, 2, 3, 4, 5, 6, 7, 8
n=8 Me = 4.5
media = 4.5
Datos 3: 1, 3, 4, 2, 7, 2450, 8
n=7 Me = 4
1, 2, 3, 4, 7, 8, 2450
media = 353.6 14
Mediana (2) Histograma de frecuencias
Polígono de frecuencias acumuladas
0.24 0.2
frec.
0.16 frec. 0.12
0.5
0.08
0.5
0.04 0
1.5
2
2.5
0.5 3
3.5
4
4.5
0
Cálculo de la mediana para datos agrupados: L j − L j− 1 n Me ≅ L j − 1 + ( − N j − 1 ) 2 N j − N j− 1
Me
Nj n/2 Nj-1 15 Lj-1
Me
Lj
Mediana (3) Ejemplo cálculo de la mediana para una variable discreta a partir de la tabla de frecuencias Xi
ni
Ni
fi
Fi
1
20
20
0.2 0.2
2
60
80
0.6 0.8
3
20
100 0.2 1
1 0.75 0.5 0.25
1
Me = 2
2
3
16
Moda Mo = Punto donde se alcanza el máximo de la distribución de frecuencias. Hay distribuciones con varias modas locales (bimodales o multimodales) 5
frecuencia
4 3 2 1 0 1
2
3
4
5
6
7
8
Moda absoluta Modas relativas Intervalo modal
17
Posición relativa de media, mediana y moda
18
Posición relativa de media, mediana y moda Distribución con asimetría positiva CA>0
Distribución con asimetría negativa CA 0 k
(
)
(
)
(
)
(
)
(
)
fr X − X ≤ 2 S ≥ 1 − fr X − X ≤ 3S ≥ 1 − fr X − X ≤ 4 S ≥ 1 − fr X − X ≤ 5S ≥ 1 − fr X − X ≤ 6S ≥ 1 −
1 22 1 32 1 42 1 52 1 62
= 0.7500, k = 2 = 0.8888, k = 3 = 0.9375, k = 4 = 0.9600, k = 5 = 0.9722, k = 6
42
Desigualdad de Chebychev (2): Ejemplo En un laboratorio se hace una prueba de impureza en 15 frascos de un determinado compuesto químico. Los resultados en % fueron: 0,04 0,14 0,17 0,19 0,22 0,06 0,14 0,17 0,21 0,24 0,12 0,15 0,18 0,021 0,025
Media = 0.166
S2 = 0,0034
S = 0,058
La desigualdad de Chebychev nos dice que: al menos el 75 % de los frascos (en este caso 11) están en (X - 2 S, X + 2 S ), o sea, en (0,166 – 2(0,058), 0,166–2(0,058)) (0,050, 0,282) Si contamos en estos datos tenemos 14 de los 15 en este intervalo , lo cual representa el 93 % (media - 3 S, media + 3 S ) (-0,008, 0,340) contiene al menos el 88,88 % de las observaciones (media - 4 S, media + 4 S ) (-0,066, 0,398) contiene al menos el 93,75 % de las 43 observaciones
Desigualdad de Chebychev (3)
Ejercicio Si los paquetes de café llenados en un proceso tienen un peso medio de 500 gr con una desviación de 3 gr ¿Qué porcentaje de paquetes como mínimo debe contener entre 495 y 505 gr? 505 – 495 =10
media ± 5
5 = k S= k 3 k = 5 / 3
En (media – 5/3 S, media + 5/3 S) = (495, 505) está al menos el 64 % 1−
100% = 64% 2 5 / 3
(
1
)
44
Típificación ó estandarización x1 , x2, ..., xn datos originales (calculamos la media y la desviación típica)
zi =
xi − X S
i = 1,2,...
z1, z2, ..., zn datos tipificados o estandarizados
Z = 0; SZ = 1
Características de una muestra tipificada: Una muestra tipificada tiene media 0 y desviación típica 1. Una variable tipificada no tiene unidades. La estandarización facilita la comparación de la forma de las distribuciones (elimina los factores posición y dispersión). 1 = 0.7500, k = 2 22 1 fr ( − 3 ≤ Z ≤ 3) ≥ 1 − 2 = 0.8888, k = 3 3 1 fr ( − 4 ≤ Z ≤ 4 ) ≥ 1 − 2 = 0.9375, k = 4 4 fr ( − 2 ≤ Z ≤ 2 ) ≥ 1 −
45
Ejemplo Un estudiante obtuvo 84 de 100 puntos posibles en el examen final de matemáticas, en el que la nota media fue 76 y S = 10. En el examen de Física obtuvo 90 de los 100 puntos posibles, siendo la media 82 y S =16. ¿En qué examen sobresalió más?
84 − 76 = 0,8 10
90 − 82 = 0,5 16
Matemáticas
Física
46
Estudio de la forma de una distribución de frecuencias
✔ Simetría y asimetría
✔Apuntamiento ✔Unimodalidad y multimodalidad
47
Estudio de la forma: simetría Medidas de forma: asimetría y curtosis
Distribución simétrica.
Distribución asimétrica positiva o a la derecha.
Distribución asimétrica negativa o a la izquierda.
48
Estudio de la forma: gráfico de simetría Muestra: x1, x2,..., xn
x(1) x(2) x(3) x(4) … Me ... x(n-3) x(n-2) x(n-1) x(n)
Muestra ordenada: x(1), x(2),..., x(n) Puntos del gráfico de simetría: Asimetría a la derecha
simetría
( Me-X(1) , X(n)-Me ) ( Me-X(2) , X(n-1)-Me ) ( Me-X(3) , X(n-2)-Me )
x(n+1-i) – Me Asimetría a la izqierda
Encima de la mediana
…………………… ( Me-X(i) , X(n+1-i) -Me ) ………………………. ( Me-X(n) , X(1) -Me )
Me – x(i) Debajo de la mediana 49
Estudio de la forma: asimetría Coeficientes de asimetría
n
x1 , x2, ..., xn datos originales
CA =
z1, z2, ..., zn datos tipificados Distribución simétrica:
1 n
∑
i= 1
( xi − X ) 3 S3
CA =
n
1 n
∑
i= 1
xi − X 1 = n ∑ S i= 1 n
3
zi3
CA≅0
Distribución asimétrica positiva: CA>0 (cola derecha más pesada) Distribución asimétrica negativa: CA 3
Distribución menos apuntada
Cap < 3
Nota: Algunos autores utilizan Cap – 3
1 n
52
Diagrama de cajas Resumen “rápido” de una distribución de frecuencias de una muestra utilizando cinco estadísticos: Los cuartiles (Q1, Me, Q3 )y las observaciones extremas: (máximo y mínimo) Aporta información rápida sobre posición dispersión y forma de la distribución. Límite inferior: Límite superior:
LI = Q1-1.5(Q3-Q1) LS = Q3+1.5(Q3-Q1)
Con datos “normales” el intervalo (LI, LS) contiene ≅ 99%
Caja: Q1, Me, Q3. (contiene el 50% de datos) Patas: la observación más grande y la más pequeña en (LI, LS) Observaciones fuera de (LI, LS): Posibles datos anómalos (outliers), errores de medición, errores de tecleado, etc. Box-and-Whisker Plot
0
1
2
3
4
5
RATE
6
Box-and-Whisker Plot
7
8
9
10
6
8
10
TRKS
12
14
16
53
Ejercicio Construir el diagrama de caja para los dos conjuntos de datos: Datos 1: 11, 16, 10, 3, 18, 13.5, 20, 4, 13, 11, 14 Datos 2:
11, 18, 11, 13, 1.2, 27, 16, 0.3, 10,
54
Ejemplos (1) Count = 100
Histograma
Count = 100 Histograma
Average = -0,0640857
30
Average = 9,519
30 25
Median = -0,075049
20 10 0 -2,1
-1,1
-0,1
0,9
1,9
2,9
variable_1
Variance = 0,750669 Standard deviation = 0,866411
freque ncy
frequency
40
Median = 9,6799
20 15
Variance = 1,23371 Standard deviation = 1,11073
10 5 0 6,1
8,1
10,1
12,1
14,1
variable_2
Minimum = -1,85481 Maximum = 1,80786 Range = 3,66267
Box-and-Whisker Plot
-1,9
-0,9
0,1
1,1
Box-and-Whisker Plot
Lower quartile = 8,77181 Upper quartile = 10,2807 Interquartile range = 1,50884
Lower quartile = -0,681725 Upper quartile = 0,474407 Interquartile range = 1,15613
2,1
variable_1
6,3
distance above median
1,6
Coeff. of variation = -1351,96%
1,2 0,8 0,4 0 0,4
0,8
1,2
distance below median
1,6
2
7,3
8,3
9,3
10,3
11,3
12,3
Skewness = -0,551752 Kurtosis = 0,0989451
13,3
variable_2
Symmetry Plot distance above median
Skewness = 0,0626271 Kurtosis = -0,366943
Symmetry Plot 2
0
Minimum = 6,38084 Maximum = 11,6511 Range = 5,27026
Coeff. of variation = 11,6685%
4 3 2 1 0 0
1
2
3
4
distance below median
55
Ejemplos (2) Count = 100
Histograma
30
Average = 0,852294
30
Median = 0,768443
20 10 0 -0,1
0,9
1,9
2,9
3,9
variable_3
Average = 4,74735
25
frequency
frequency
40
Count = 100
Histograma
20
Median = 4,84373
15 10 5
Variance = 0,25616 Standard deviation = 0,506122
0 3 ,1
4,1
5 ,1
6,1
7,1
variable_4
Minimum = 0,0804361 Maximum = 2,35899 Range = 2,27855
Box-and-Whisker Plot
Minimum = 3,24821 Maximum = 6,02834 Range = 2,78013
Box-and-Whisker Plot
Lower quartile = 4,31734 Upper quartile = 5,21241 Interquartile range = 0,895065
Lower quartile = 0,471769 Upper quartile = 1,06874 Interquartile range = 0,596966 0 ,4
0,8
1 ,2
1,6
2
2,4
variable_3
distan ce above med ian
Symmetry Plot
3,2
Coeff. of variation = 59,3835%
1 ,6 1 ,2 0 ,8 0 ,4
3,7
0
0 ,4
0 ,8
1,2
1 ,6
4,7
5,2
5,7
6,2
Skewness = -0,40001 Kurtosis = -0,29679
variable_4
Symmetry Plot 1,6
Coeff. of variation = 12,5334%
1,2 0,8 0,4 0 0
0
4,2
Skewness = 0,887279 Kurtosis = 0,515766 distance above median
0
Variance = 0,354031 Standard deviation = 0,595005
0,4
0,8
1,2
1,6
distance below median
distance below median
56
Ejemplos (3) Count = 100
Histograma
Average = 0,88735
50
30
Average = 1,03167
40
Median = 0,890489
20 10 0 0
0,3
0,6
0,9
1,2
1,5
variable_5
Variance = 0,0427095 Standard deviation = 0,206663
frequency
frequency
Count = 100
Histograma
40
30
Median = 0,734301
20 10 0 -0,4
1,6
5,6
7,6
9,6
Minimum = 0,0157658 Maximum = 5,52775 Range = 5,51198
Box-and-Whisker Plot
Lower quartile = 0,732473 Upper quartile = 1,03123 Interquartile range = 0,298757 0
0,3
0 ,6
0,9
1,2
1,5
variable_5
Lower quartile = 0,335971 Upper quartile = 1,37452 Interquartile range = 1,03854 0
Skewness = -0,0830608 Kurtosis = 0,00188654
1
2
3
4
5
6
Skewness = 1,907 Kurtosis = 5,2778
variable_6
distance above median
Coeff. of variation = 23,2899%
0 ,6 0 ,5 0 ,4 0 ,3 0 ,2 0 ,1 0 0
0,1
0 ,2
0,3
0,4
distance below median
0,5
0,6
distance above median
Symmetry Plot Symmetry Plot
Variance = 0,898493 Standard deviation = 0,947889
variable_6
Minimum = 0,35354 Maximum = 1,41765 Range = 1,06411
Box-and-Whisker Plot
3,6
5
Coeff. of variation = 91,8793%
4 3 2 1 0 0
1
2
3
4
5
distance below median
57
Ejercicio (A) Para cada una de las variables de la tabla siguiente escribir la letra del histograma correpondiente
58
Ejercicio (B) 1
4
3
2
5
6
7
59
Ejercicio (B) 2
1 3
5
4 6
7
60
Ejercicio (C) Empareja cada uno de los histogramas con su diagrama de caja correspondiente y explica porqué haces tal asignación
61
Estudio de la concentración Estudiamos la CONCENTRACIÓN para variables cuantitativas positivas en las cuales la suma de los valores individuales tiene el sentido de un “todo” del cual cada individuo participa con una “parte”. La idea es analizar el grado de homogeneidad ó igualdad o falta de estas en el reparto del “todo”. Ejemplos: ✓ la riqueza de la población de un país ✓ Los salarios de los empleados de una empresa o de un sector ✓ La población de los municipios de una provincia.
No tiene sentido con variables como la altura, el número de pie, etc
La concentración oscila entre una situación en la cual un individuo tiene el “todo” y el resto no tiene nada (máxima concentración) y una situación en la que todos los individuos tienen exactamente la misma cantidad (concentración mínima). Contruiremos el índice de Gini para medir las situaciones intermedias y la curva 62 de Lorenz para visualizar el grado de concentración.
Concentración: Curva de Lorenz Ejemplo:
Ui cantidades acumuladas por los individuos
Fi
frecuencia acumulada de individuos
63
Concentración: Índice de Gini (1) Se ordenan los valores de la variable (ó las clases) de menor a mayor. Se comparan cantidades acumuladas por los individuos (o clases) con frecuencias acumuladas de individuos
q i = x i ni
ui =
qi k
∑
j= 1
ni
x i ni
=
k
∑
qj
n fi = i = n
j= 1
x jnj
ni k
∑
j= 1
ni
Ui = Fi =
i
∑
j= 1
uj
IG =
i
∑
j= 1
Índice de Gini
fj
∑
( Fi − U i )
i
∑ Fi − 1 i
El índice de Gini toma está entre 0 y 1. El índice de Gini toma el valor 0 cuando hay igualdad, i.e. todos los individuos disponen de igual “parte” del “todo” (mínima concentración). El índice de Gini toma el valor 1 cuando hay máxima desigualdad, i.e. un individuo dispone del “todo” y el resto de individuos no tienen ninguna “parte” (máxima concentración). 64
Concentración: Índice de Gini (2) 3 ejemplos: Cliente
Ventas
ni
Fi
qi
Ui
Fi - Ui
A
100
1
0.25
100
0.188
B
200
1
0.50
200
0.06 30.18
C
625
1
0.75
625
D
675
1
1
675
8 0.57 8 1
total
1600
4
2.5
1 600
1.82 9
Cliente
Ventas
ni
Fi
qi
Ui
A
400
1
0.25
400
0.25
B
400
1
0.50
400
C
400
1
0.75
D
400
1
total
1600
4
IG =
Fi - Ui
0.313
IG =
0.172
0.672 = 0.448 1.5
0 0.672
Cliente
Ventas
ni
Fi
qi
Ui
Fi - Ui
0
A
0
1
0.25
400
0
0.25
0.50
0
B
0
1
0.50
400
0
0.50
400
0.75
0
C
0
1
0.75
400
0
0.75
1
400
1
0
D
1600
1
1
400
1
0
2.5
1600
2.5
0
total
1600
4
2.5
1600
1
1.5
IG =
1.5 =1 1.5
0 = 0 1.5
65
Ejemplo curva de Lorenz (2)
66
Ejemplo concentración
Conclusión: Concentración baja en las dos zonas. Menor concentración en la zona 2.
67
Más sobre concentración Existen otros índices, por ejemplo, Índice de Theil: x1 , x2, ..., xk con frecuencias n1, n2, …, nk respectivamente
T = log(n) +
k
∑
i= 1
ni ci log(ci )
con
ci =
xi k
∑
j= 1
x jnj
Cuando existe equidistribución T= 0 y cuando un individuo acapara “todo” T= log(n). Otra definición del índice IT = T / log(n) 68
Ejemplo curva de Lorenz: población CyL (1) DISTRIBUCIÓN DE LOS MUNICIPIOS POR EL NÚMERO DE HABITANTES DE DERECHO. AÑO 1996.
Ávila
NÚMERO DE MUNICIPIOS EN CADA INTERVALO DE HABITANTES De De De De De De De De De Menos De 101 De 501 Total 1.001 a 2.001 a 3.001 a 5.001 a 10.001 a 20.001 a 30.001 a 50.001 a 100.001 a de 101 a 500 a 1.000 2.000 3.000 5.000 10.000 20.000 30.000 50.000 100.000 500.000 248 34 159 30 9 8 4 3 0 0 1 0 0
Burgos
371
118
192
37
9
8
2
2
0
1
1
0
1
León
211
1
62
58
54
11
14
4
4
1
0
1
1
Palencia
191
39
111
18
11
6
2
3
0
0
0
1
0
Salamanca
362
32
245
53
20
4
2
3
2
0
0
0
1
Segovia
208
56
109
22
12
4
1
3
0
0
0
1
0
Soria
183
81
81
9
3
3
3
2
0
0
1
0
0
Valladolid
225
34
125
27
22
7
2
5
1
1
0
0
1
Zamora Castilla y León España
248
6
154
60
25
0
0
1
1
0
0
1
0
2.247
401
1.238
314
165
51
30
26
8
3
3
4
4
8.077
797
2.934
1.169
1.044
547
475
516
309
119
57
55
49
Más de 500.000 0 0 0 0 0 0 0 0 0 0 6
69
Ejemplo curva de Lorenz: población CyL (2) Avila
0.0
0.0
0.2
0.2
0.4
0.4
U
U
0.6
0.6
0.8
0.8
1.0
1.0
Castilla y Leon
0.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
1.0
P
P
Burgos
0.0
0.2
0.4
0.6 P
0.8
1.0
0.0
0.0
0.2
0.2
0.4
0.4
U
U
0.6
0.6
0.8
0.8
1.0
1.0
Zamora
0.0
0.2
0.4
0.6 P
0.8
1.0
70