TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA. MEDIDAS DE CONCENTRACIÓN

TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA. MEDIDAS DE CONCENTRACIÓN. Medidas de localizaci

Author: Juan Carlos Carrizo Sandoval

2 downloads 112 Views 2MB Size

Report

DOWNLOAD PDF

Recommend Stories

Tema 3. DESCRIPCIÓN DE UNA VARIABLE: MEDIDAS DE LOCALIZACIÓN

Tema 3. DESCRIPCIÓN DE UNA VARIABLE: MEDIDAS DE LOCALIZACIÓN CONTENIDO: 1. 2. 3. 4. 5. MODA MEDIANA MEDIA ARITMÉTICA CUANTILES DIAGRAMA DE CAJA Lec

Estadística Empresarial. Cuaderno de Ejercicios. Temas 2. Análisis estadístico de una variable: medidas de posición y medidas de dispersión

Estadística Empresarial Cuaderno de Ejercicios Temas 2 Análisis estadístico de una variable: medidas de posición y medidas de dispersión Estadística

TEMA 02 UNIDADES Y MEDIDAS

Tema 1: Medidas y unidades

Tema 3. Medidas de tendencia central Ejercicios resueltos 1

Tema 3. Medidas de tendencia central Ejercicios resueltos 1 Ejercicio resuelto 3.1 La demanda de cierto art´ıculo en 48 d´ıas fue 1, 4, 1, 0, 2, 1,

o medidas antipiratería 3

UNESCO EL OBSERVATORIO MUNDIAL DE LUCHA CONTRA LA PIRATERÍA COSTA RICA I. LEGISLACIÓN 3 1. Legislación sobre el derecho de autor 3 2. Otros te

3. MEDIDAS FUNDAMENTALES DE PROTECCIÓN RADIOLÓGICA 12

Índice 1. INTRODUCCIÓN 5 1.1. Objeto del Manual .........................................................................................5 1.2. Ámb

Medidas de higiene y seguridad

MEDIDAS ELECTRICAS I MEDIDAS ELECTRICAS

UNIVERSIDAD NACIONAL DE SANTIAGO DEL ESTERO FACULTAD DE CIENCIAS EXACTAS Y TECNOLOGIAS MEDIDAS ELECTRICAS I MEDIDAS ELECTRICAS DEPARTAMENTO ACADEMIC

Unidad 3. Medidas de tendencia central y de dispersión

Unidad 3 Medidas de tendencia central y de dispersión Introducción L os métodos tabulares y gráficos tienen algunas limitaciones para describir y

Story Transcript

TEMA 3: DESCRIPCIÓN NUMÉRICA DE UNA VARIABLE ESTADÍSTICA: MEDIDAS DE LOCALIZACIÓN, DISPERSIÓN Y FORMA. MEDIDAS DE CONCENTRACIÓN. Medidas de localización. Medidas de dispersión. Coeficiente de variación. Momentos de una distribución de frecuencias. Estudio de asimetría y apuntamiento. Diagrama de caja.

OBJETIVOS: ✔ Calcular estadísticos para resumir el centro, la dispersión y la forma de una

distribución. Estudiar las propiedades de estos estadísticos. ✔ Explorar la propiedad de robustez o resistencia en relación a estos estadísticos ✔ Entender las limitaciones de las distintas medidas estudiadas y en qué situaciones

estas medidas son apropiadas. ✔ Aprender a construir e interpretar los diagramas de cajas como gráfico que

muestra visualmente información sobre la distribución.

1

Descripción numérica de una variable estadística (numérica) Objetivo: Resumir distintos aspectos de las distribuciones de frecuencias Interés de los resúmenes numéricos: Unos pocos números resumen toda la distribución. Complemento natural de la descripción gráfica. Facilitan la comparación de muestras con modelos de referencia y la comparación entre muestras.

Medidas de localización: media, mediana, moda, media geométrica, media armónica, media cuadrática, medias recortadas, medias winsorizadas, cuartiles, cuantiles. Medidas de dispersión: Rango, recorrido intercuartílico, varianza, desviación típica, desviación media, MEDA, coeficiente de variación, … Medidas de forma: coeficiente de asimetría, coeficiente de apuntamiento.

2

¿Qué es un estadístico? Cualquier función con los datos de la muestra destinada a cuantificar algún aspecto de la distribución de frecuencias. Cuando la muestra es representativa, los estadísticos muestrales son aproximaciones naturales de los parámetros poblacionales correspondientes definidos de manera análoga. EJEMPLOS

n 1 m′ = n ∑ xik . k i= 1

Muestra: x1, x2,..., xn

n 1 m = n ∑ ( xi − x) k . k i= 1

Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo

x(1) ≤ x(2) ≤ ...≤ x(n)

x(n): Máximo

x(r): Estadístico de orden r, r = 1, ..., n.

3

Familias de estadísticos más importantes -MOMENTOS MUESTRALES: Momentos respecto al origen: Momento de orden k, k=1, 2, ...:

n 1 m′ = n ∑ xik . k i= 1

Momentos respecto a la media: Momento de orden k, k=2, 3, ...:

-ESTADÍSTICOS DE ORDEN:

n M = 1n ∑ ( xi − x)k . k i= 1

Muestra: x1, x2,..., xn Muestra ordenada: x(1), x(2),..., x(n) x(1): Mínimo

x(n): Máximo

x(1) ≤ x(2) ≤ ...≤ x(n) x(r): Estadístico de orden r, r = 1, ..., n.

-CUANTILES: 0 ≤ p ≤ 1, p  Punto que parte la distribución de frecuencias en dos trozos, a la izquierda p% y a la derecha (1-p)%. x np no entero.  ( [ np ] + 1) 4 x p =  1   + x   x np entero. ( [ np ] + 1)   2  ( [ np ] )

Medidas de localización (posición ó centro) (1) Sean x1, x2, …, xn n valores de una variable cuantitativa, para que m sea un promedio de estos n valores debe verificarse: ✔ Simetría: la medida no varía auque los valores sean considerados en orden diferente ✔ min( x1 , x2 ,..., xn ) ≤ m ≤ max( x1 , x2 ,..., xn ) ✔ Homogeneidad: para cualquier número real a el promedio de

ax1 , ax2 ,..., axn

es am

5

Medidas de localización (posición ó centro) (2) ✔ Media ✔ Mediana ✔ Moda ✔ Otros promedios: Media cuadrática Media armónica Media geométrica ✔ Trimedia ✔ Media k - recortada ó α % recortada ✔Percentiles 6

Media (1) Media (media aritmética ó media muestral)

Muestra: x1, x2,..., xn

1 n X = ∑ xi n i= 1 Es el centro de gravedad de la distribución de frecuencias n

∑ (x − x) = 0 i= 1

i

La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A n 2

min ∑ ( x − A) A i= 1

i

7

Media (2) Muestra tabulada:

k

k

k ni -Variable discreta: X = ∑i = 1 ni xi = ∑i = 1 n xi = ∑i = 1 f i xi -Variable continua: (datos agrupados en k clases) 1 n

X ≅

k

1 n

∑

i= 1

n i mi =

k

∑

i= 1

f i mi

Ej. Ácido úrico (datos en tema 2) datos X≅

X≅ X=

k

1 n

∑

i= 1

k

∑

i= 1 n

ni mi =

1 20

[2(3.5) + 5(4.5) + 6(5.5) + 4(6.5) + 2(7.5) + 1(8.5)] = 5.6

f i mi = 0.10(3.5) + 0.25(4.5) + 0.30(5.5) + 0.20(6.5) + 0.10(7.5) + 0.05(8.5) = 5.6

1 1 x = (4.9 + 5.3 + ... + 4.1) = 5.575 ∑ i n i= 1 20

Valor exacto de la media

Error = |media- valor aproximado| = |5.575 – 5.6| = 0.025 En general el error al calcular la media aproximada con los datos agrupados está acotado

| X − X agru |≤

1 máximo{ A1 , A2 ,..., Ak } 2

8

Media (3) Falta de robustez de la media Ejemplo 1: Media = [ 0(4) + 1(4) + 2(1) ] / 9 = 0.6667

Media = [ 0(3) + 1(4) + 2(1) +6(1) ] / 9 = 1.333

Xi (valores)

ni

Xi (valores)

ni

0

4

0

3

1

4

1

4

2

1

2

1

Total = 9

6

1

Total = 9

Ejemplo 2: Datos:

1, 2, 3, 4, 7, 8, 9

n=7 media = 4.858

1, 2, 3, 4, 7, 8, 2450

n=7 media = 353.6

9

Media (4) Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada de las medias.

(x1, x2, ..., xn) = (x1, x2, ..., xk) ∪ (xk+1, xk+2, ..., xn) 1 X = ∑ x k k

1

1 kX + (n − k ) X X= ∑ x = n n n

1

i= 1

i= 1

i

1 X = ∑ x n− k n

2

i= k + 1

i

2

i

Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6 nota media =

15(5) + 7.5(7) + ... + 6(9) 181.5 = = 6.368 15 + 7.5 + 6 28.5

En general con s grupos de tamaños n1, n2, ..., ns X=

1 n n X + n X + ... + ns X s xi = 1 1 2 2 ∑ n i= 1 n

10

Media (5) Media ponderada Media ponderada de k valores (x1, x2, ..., xk) con pesos (w1, w2, ..., wk) :   ∑i = 1 k w1 x1 + w2 x2 + ... + wk xk  = = ∑ k  w1 + w2 + ... + wk i= 1  ∑i = 1 wi  k

wi xi

  wi  k  xi ∑j = 1 w j  

Si tomamos los pesos (p1, p2, ..., pk) de forma que sumen uno la media ponderada se calcula k como

∑

i= 1

pi xi

Comprobamos como definiendo

pi =

wi k

∑

j= 1

wj

ambas expresiones coinciden

Ejemplo: nota media de un alumno con calificaciones en tres asignaturas A: 5, B:7, C: 9. Créditos de cada asignatura: A: 15, B: 7.5, C: 6

15(5) + 7.5(7) + ... + 6(9) = 6.368 15 + 7.5 + 6 11

Media (6) PROPIEDADES DE LA MEDIA:  La suma de las desviaciones de la media a las observaciones es cero

n

∑ (x − x) = 0 i= 1

i

 Cambios de origen y escala en los datos yi = a + b xi, i = 1, 2, …, n conllevan los mismos cambios en la media

Y = a + bX

 La media de una suma es la suma de las medias

x1 , x2 ,..., xn → X

y1 , y2 ,..., yn → Y

x1 + y1 , x2 + y2 , ..., xn + y n → X + Y  La media es el valor A que hace mínima la suma de cuadrados de las desviaciones respecto a A

n

∑

i= 1

( xi − A) 2

n

∑i = 1 ( xi − min x∈ ℜ

A) 2

 Si la muestra esta dividida en dos grupos, la media de la muestra es la media ponderada (por los tamaños de los grupos) de las medias.

12

Otros promedios Muestra sin tabular n

Media cuadrática

M =

∑ x

2

k

i

i= 1

MQ =

n

Q

1

M = Media armónica

n

M =

n

G

log( M G ) =

MH ≤ MG ≤ X ≤ MQ

i= 1

Muestra tabulada (variable continua) k

xi2 ni MQ ≅

n

1

MH ≅

1 k 1 ∑ ni n i = 1 xi

∑

i= 1

mi2 ni n

1 1 1 ni ∑ n i = 1 mi k

i

x x ...x 1

∑

MH =

1 1 ∑ n x

H

i= 1

Media geométrica

Muestra tabulada (variable discreta)

2

MG =

n

x1n1 x 2n2 ...x knk

MG ≅

n

m1n1 m2n2 ...mknk

n

1 n ∑ log( xi ) n i=1 13

Mediana (1) Me Punto que parte la distribución en dos mitades del 50% a cada lado Observación central en la muestra ordenada Si n es impar Si n es par

Me = X((n+1)/2) Me ∈ (X(n/2) , X(n/2

+ 1)

)

Me = (X(n/2) + X(n/2 + 1)) /2

Ejemplos: Datos 1:  1, 2, 3, 4, 6, 7, 8

n=7 Me = 4

media = 4.4

Datos 2:  1, 2, 3, 4, 5, 6, 7, 8

n=8 Me = 4.5

media = 4.5

Datos 3:  1, 3, 4, 2, 7, 2450, 8

n=7 Me = 4

1, 2, 3, 4, 7, 8, 2450

media = 353.6 14

Mediana (2) Histograma de frecuencias

Polígono de frecuencias acumuladas

0.24 0.2

frec.

0.16 frec. 0.12

0.5

0.08

0.5

0.04 0

1.5

2

2.5

0.5 3

3.5

4

4.5

0

Cálculo de la mediana para datos agrupados: L j − L j− 1 n Me ≅ L j − 1 + ( − N j − 1 ) 2 N j − N j− 1

Me

Nj n/2 Nj-1 15 Lj-1

Me

Lj

Mediana (3) Ejemplo cálculo de la mediana para una variable discreta a partir de la tabla de frecuencias Xi

ni

Ni

fi

Fi

1

20

20

0.2 0.2

2

60

80

0.6 0.8

3

20

100 0.2 1

1 0.75 0.5 0.25

1

Me = 2

2

3

16

Moda Mo = Punto donde se alcanza el máximo de la distribución de frecuencias. Hay distribuciones con varias modas locales (bimodales o multimodales) 5

frecuencia

4 3 2 1 0 1

2

3

4

5

6

7

8

Moda absoluta Modas relativas Intervalo modal

17

Posición relativa de media, mediana y moda

18

Posición relativa de media, mediana y moda Distribución con asimetría positiva CA>0

Distribución con asimetría negativa CA 0 k

(

)

(

)

(

)

(

)

(

)

fr X − X ≤ 2 S ≥ 1 − fr X − X ≤ 3S ≥ 1 − fr X − X ≤ 4 S ≥ 1 − fr X − X ≤ 5S ≥ 1 − fr X − X ≤ 6S ≥ 1 −

1 22 1 32 1 42 1 52 1 62

= 0.7500, k = 2 = 0.8888, k = 3 = 0.9375, k = 4 = 0.9600, k = 5 = 0.9722, k = 6

42

Desigualdad de Chebychev (2): Ejemplo En un laboratorio se hace una prueba de impureza en 15 frascos de un determinado compuesto químico. Los resultados en % fueron: 0,04 0,14 0,17 0,19 0,22 0,06 0,14 0,17 0,21 0,24 0,12 0,15 0,18 0,021 0,025

Media = 0.166

S2 = 0,0034

S = 0,058

La desigualdad de Chebychev nos dice que: al menos el 75 % de los frascos (en este caso 11) están en (X - 2 S, X + 2 S ), o sea, en (0,166 – 2(0,058), 0,166–2(0,058)) (0,050, 0,282) Si contamos en estos datos tenemos 14 de los 15 en este intervalo , lo cual representa el 93 % (media - 3 S, media + 3 S )  (-0,008, 0,340) contiene al menos el 88,88 % de las observaciones (media - 4 S, media + 4 S )  (-0,066, 0,398) contiene al menos el 93,75 % de las 43 observaciones

Desigualdad de Chebychev (3)

Ejercicio Si los paquetes de café llenados en un proceso tienen un peso medio de 500 gr con una desviación de 3 gr ¿Qué porcentaje de paquetes como mínimo debe contener entre 495 y 505 gr? 505 – 495 =10

media ± 5

5 = k S= k 3  k = 5 / 3

En (media – 5/3 S, media + 5/3 S) = (495, 505) está al menos el 64 %    1−  

   100% = 64% 2 5 / 3 

(

1

)

44

Típificación ó estandarización x1 , x2, ..., xn datos originales (calculamos la media y la desviación típica)

zi =

xi − X S

i = 1,2,...

z1, z2, ..., zn datos tipificados o estandarizados

Z = 0; SZ = 1

Características de una muestra tipificada: Una muestra tipificada tiene media 0 y desviación típica 1. Una variable tipificada no tiene unidades. La estandarización facilita la comparación de la forma de las distribuciones (elimina los factores posición y dispersión). 1 = 0.7500, k = 2 22 1 fr ( − 3 ≤ Z ≤ 3) ≥ 1 − 2 = 0.8888, k = 3 3 1 fr ( − 4 ≤ Z ≤ 4 ) ≥ 1 − 2 = 0.9375, k = 4 4 fr ( − 2 ≤ Z ≤ 2 ) ≥ 1 −

45

Ejemplo Un estudiante obtuvo 84 de 100 puntos posibles en el examen final de matemáticas, en el que la nota media fue 76 y S = 10. En el examen de Física obtuvo 90 de los 100 puntos posibles, siendo la media 82 y S =16. ¿En qué examen sobresalió más?

84 − 76 = 0,8 10

90 − 82 = 0,5 16

Matemáticas

Física

46

Estudio de la forma de una distribución de frecuencias

✔ Simetría y asimetría

✔Apuntamiento ✔Unimodalidad y multimodalidad

47

Estudio de la forma: simetría Medidas de forma: asimetría y curtosis

Distribución simétrica.

Distribución asimétrica positiva o a la derecha.

Distribución asimétrica negativa o a la izquierda.

48

Estudio de la forma: gráfico de simetría Muestra: x1, x2,..., xn

x(1) x(2) x(3) x(4) … Me ... x(n-3) x(n-2) x(n-1) x(n)

Muestra ordenada: x(1), x(2),..., x(n) Puntos del gráfico de simetría: Asimetría a la derecha

simetría

( Me-X(1) , X(n)-Me ) ( Me-X(2) , X(n-1)-Me ) ( Me-X(3) , X(n-2)-Me )

x(n+1-i) – Me Asimetría a la izqierda

Encima de la mediana

…………………… ( Me-X(i) , X(n+1-i) -Me ) ………………………. ( Me-X(n) , X(1) -Me )

Me – x(i) Debajo de la mediana 49

Estudio de la forma: asimetría Coeficientes de asimetría

n

x1 , x2, ..., xn datos originales

CA =

z1, z2, ..., zn datos tipificados Distribución simétrica:

1 n

∑

i= 1

( xi − X ) 3 S3

CA =

n

1 n

∑

i= 1

 xi − X 1 = n ∑  S i= 1  n

   

3

zi3

CA≅0

Distribución asimétrica positiva: CA>0 (cola derecha más pesada) Distribución asimétrica negativa: CA 3

Distribución menos apuntada

Cap < 3

Nota: Algunos autores utilizan Cap – 3

1 n

52

Diagrama de cajas Resumen “rápido” de una distribución de frecuencias de una muestra utilizando cinco estadísticos: Los cuartiles (Q1, Me, Q3 )y las observaciones extremas: (máximo y mínimo) Aporta información rápida sobre posición dispersión y forma de la distribución. Límite inferior: Límite superior:

LI = Q1-1.5(Q3-Q1) LS = Q3+1.5(Q3-Q1)

Con datos “normales” el intervalo (LI, LS) contiene ≅ 99%

Caja: Q1, Me, Q3. (contiene el 50% de datos) Patas: la observación más grande y la más pequeña en (LI, LS) Observaciones fuera de (LI, LS): Posibles datos anómalos (outliers), errores de medición, errores de tecleado, etc. Box-and-Whisker Plot

0

1

2

3

4

5

RATE

6

Box-and-Whisker Plot

7

8

9

10

6

8

10

TRKS

12

14

16

53

Ejercicio Construir el diagrama de caja para los dos conjuntos de datos: Datos 1: 11, 16, 10, 3, 18, 13.5, 20, 4, 13, 11, 14 Datos 2:

11, 18, 11, 13, 1.2, 27, 16, 0.3, 10,

54

Ejemplos (1) Count = 100

Histograma

Count = 100 Histograma

Average = -0,0640857

30

Average = 9,519

30 25

Median = -0,075049

20 10 0 -2,1

-1,1

-0,1

0,9

1,9

2,9

variable_1

Variance = 0,750669 Standard deviation = 0,866411

freque ncy

frequency

40

Median = 9,6799

20 15

Variance = 1,23371 Standard deviation = 1,11073

10 5 0 6,1

8,1

10,1

12,1

14,1

variable_2

Minimum = -1,85481 Maximum = 1,80786 Range = 3,66267

Box-and-Whisker Plot

-1,9

-0,9

0,1

1,1

Box-and-Whisker Plot

Lower quartile = 8,77181 Upper quartile = 10,2807 Interquartile range = 1,50884

Lower quartile = -0,681725 Upper quartile = 0,474407 Interquartile range = 1,15613

2,1

variable_1

6,3

distance above median

1,6

Coeff. of variation = -1351,96%

1,2 0,8 0,4 0 0,4

0,8

1,2

distance below median

1,6

2

7,3

8,3

9,3

10,3

11,3

12,3

Skewness = -0,551752 Kurtosis = 0,0989451

13,3

variable_2

Symmetry Plot distance above median

Skewness = 0,0626271 Kurtosis = -0,366943

Symmetry Plot 2

0

Minimum = 6,38084 Maximum = 11,6511 Range = 5,27026

Coeff. of variation = 11,6685%

4 3 2 1 0 0

1

2

3

4

distance below median

55

Ejemplos (2) Count = 100

Histograma

30

Average = 0,852294

30

Median = 0,768443

20 10 0 -0,1

0,9

1,9

2,9

3,9

variable_3

Average = 4,74735

25

frequency

frequency

40

Count = 100

Histograma

20

Median = 4,84373

15 10 5

Variance = 0,25616 Standard deviation = 0,506122

0 3 ,1

4,1

5 ,1

6,1

7,1

variable_4

Minimum = 0,0804361 Maximum = 2,35899 Range = 2,27855

Box-and-Whisker Plot

Minimum = 3,24821 Maximum = 6,02834 Range = 2,78013

Box-and-Whisker Plot

Lower quartile = 4,31734 Upper quartile = 5,21241 Interquartile range = 0,895065

Lower quartile = 0,471769 Upper quartile = 1,06874 Interquartile range = 0,596966 0 ,4

0,8

1 ,2

1,6

2

2,4

variable_3

distan ce above med ian

Symmetry Plot

3,2

Coeff. of variation = 59,3835%

1 ,6 1 ,2 0 ,8 0 ,4

3,7

0

0 ,4

0 ,8

1,2

1 ,6

4,7

5,2

5,7

6,2

Skewness = -0,40001 Kurtosis = -0,29679

variable_4

Symmetry Plot 1,6

Coeff. of variation = 12,5334%

1,2 0,8 0,4 0 0

0

4,2

Skewness = 0,887279 Kurtosis = 0,515766 distance above median

0

Variance = 0,354031 Standard deviation = 0,595005

0,4

0,8

1,2

1,6

distance below median

distance below median

56

Ejemplos (3) Count = 100

Histograma

Average = 0,88735

50

30

Average = 1,03167

40

Median = 0,890489

20 10 0 0

0,3

0,6

0,9

1,2

1,5

variable_5

Variance = 0,0427095 Standard deviation = 0,206663

frequency

frequency

Count = 100

Histograma

40

30

Median = 0,734301

20 10 0 -0,4

1,6

5,6

7,6

9,6

Minimum = 0,0157658 Maximum = 5,52775 Range = 5,51198

Box-and-Whisker Plot

Lower quartile = 0,732473 Upper quartile = 1,03123 Interquartile range = 0,298757 0

0,3

0 ,6

0,9

1,2

1,5

variable_5

Lower quartile = 0,335971 Upper quartile = 1,37452 Interquartile range = 1,03854 0

Skewness = -0,0830608 Kurtosis = 0,00188654

1

2

3

4

5

6

Skewness = 1,907 Kurtosis = 5,2778

variable_6

distance above median

Coeff. of variation = 23,2899%

0 ,6 0 ,5 0 ,4 0 ,3 0 ,2 0 ,1 0 0

0,1

0 ,2

0,3

0,4

distance below median

0,5

0,6

distance above median

Symmetry Plot Symmetry Plot

Variance = 0,898493 Standard deviation = 0,947889

variable_6

Minimum = 0,35354 Maximum = 1,41765 Range = 1,06411

Box-and-Whisker Plot

3,6

5

Coeff. of variation = 91,8793%

4 3 2 1 0 0

1

2

3

4

5

distance below median

57

Ejercicio (A) Para cada una de las variables de la tabla siguiente escribir la letra del histograma correpondiente

58

Ejercicio (B) 1

4

3

2

5

6

7

59

Ejercicio (B) 2

1 3

5

4 6

7

60

Ejercicio (C) Empareja cada uno de los histogramas con su diagrama de caja correspondiente y explica porqué haces tal asignación

61

Estudio de la concentración Estudiamos la CONCENTRACIÓN para variables cuantitativas positivas en las cuales la suma de los valores individuales tiene el sentido de un “todo” del cual cada individuo participa con una “parte”. La idea es analizar el grado de homogeneidad ó igualdad o falta de estas en el reparto del “todo”. Ejemplos: ✓ la riqueza de la población de un país ✓ Los salarios de los empleados de una empresa o de un sector ✓ La población de los municipios de una provincia.

No tiene sentido con variables como la altura, el número de pie, etc

La concentración oscila entre una situación en la cual un individuo tiene el “todo” y el resto no tiene nada (máxima concentración) y una situación en la que todos los individuos tienen exactamente la misma cantidad (concentración mínima). Contruiremos el índice de Gini para medir las situaciones intermedias y la curva 62 de Lorenz para visualizar el grado de concentración.

Concentración: Curva de Lorenz Ejemplo:

Ui cantidades acumuladas por los individuos

Fi

frecuencia acumulada de individuos

63

Concentración: Índice de Gini (1) Se ordenan los valores de la variable (ó las clases) de menor a mayor. Se comparan cantidades acumuladas por los individuos (o clases) con frecuencias acumuladas de individuos

q i = x i ni

ui =

qi k

∑

j= 1

ni

x i ni

=

k

∑

qj

n fi = i = n

j= 1

x jnj

ni k

∑

j= 1

ni

Ui = Fi =

i

∑

j= 1

uj

IG =

i

∑

j= 1

Índice de Gini

fj

∑

( Fi − U i )

i

   ∑ Fi  − 1  i 

El índice de Gini toma está entre 0 y 1. El índice de Gini toma el valor 0 cuando hay igualdad, i.e. todos los individuos disponen de igual “parte” del “todo” (mínima concentración). El índice de Gini toma el valor 1 cuando hay máxima desigualdad, i.e. un individuo dispone del “todo” y el resto de individuos no tienen ninguna “parte” (máxima concentración). 64

Concentración: Índice de Gini (2) 3 ejemplos: Cliente

Ventas

ni

Fi

qi

Ui

Fi - Ui

A

100

1

0.25

100

0.188

B

200

1

0.50

200

0.06 30.18

C

625

1

0.75

625

D

675

1

1

675

8 0.57 8 1

total

1600

4

2.5

1 600

1.82 9

Cliente

Ventas

ni

Fi

qi

Ui

A

400

1

0.25

400

0.25

B

400

1

0.50

400

C

400

1

0.75

D

400

1

total

1600

4

IG =

Fi - Ui

0.313

IG =

0.172

0.672 = 0.448 1.5

0 0.672

Cliente

Ventas

ni

Fi

qi

Ui

Fi - Ui

0

A

0

1

0.25

400

0

0.25

0.50

0

B

0

1

0.50

400

0

0.50

400

0.75

0

C

0

1

0.75

400

0

0.75

1

400

1

0

D

1600

1

1

400

1

0

2.5

1600

2.5

0

total

1600

4

2.5

1600

1

1.5

IG =

1.5 =1 1.5

0 = 0 1.5

65

Ejemplo curva de Lorenz (2)

66

Ejemplo concentración

Conclusión: Concentración baja en las dos zonas. Menor concentración en la zona 2.

67

Más sobre concentración Existen otros índices, por ejemplo, Índice de Theil: x1 , x2, ..., xk con frecuencias n1, n2, …, nk respectivamente

T = log(n) +

k

∑

i= 1

ni ci log(ci )

con

ci =

xi k

∑

j= 1

x jnj

Cuando existe equidistribución T= 0 y cuando un individuo acapara “todo” T= log(n). Otra definición del índice IT = T / log(n) 68

Ejemplo curva de Lorenz: población CyL (1) DISTRIBUCIÓN DE LOS MUNICIPIOS POR EL NÚMERO DE HABITANTES DE DERECHO. AÑO 1996.

Ávila

NÚMERO DE MUNICIPIOS EN CADA INTERVALO DE HABITANTES De De De De De De De De De Menos De 101 De 501 Total 1.001 a 2.001 a 3.001 a 5.001 a 10.001 a 20.001 a 30.001 a 50.001 a 100.001 a de 101 a 500 a 1.000 2.000 3.000 5.000 10.000 20.000 30.000 50.000 100.000 500.000 248 34 159 30 9 8 4 3 0 0 1 0 0

Burgos

371

118

192

37

9

8

2

2

0

1

1

0

1

León

211

1

62

58

54

11

14

4

4

1

0

1

1

Palencia

191

39

111

18

11

6

2

3

0

0

0

1

0

Salamanca

362

32

245

53

20

4

2

3

2

0

0

0

1

Segovia

208

56

109

22

12

4

1

3

0

0

0

1

0

Soria

183

81

81

9

3

3

3

2

0

0

1

0

0

Valladolid

225

34

125

27

22

7

2

5

1

1

0

0

1

Zamora Castilla y León España

248

6

154

60

25

0

0

1

1

0

0

1

0

2.247

401

1.238

314

165

51

30

26

8

3

3

4

4

8.077

797

2.934

1.169

1.044

547

475

516

309

119

57

55

49

Más de 500.000 0 0 0 0 0 0 0 0 0 0 6

69

Ejemplo curva de Lorenz: población CyL (2) Avila

0.0

0.0

0.2

0.2

0.4

0.4

U

U

0.6

0.6

0.8

0.8

1.0

1.0

Castilla y Leon

0.0

0.2

0.4

0.6

0.8

0.0

1.0

0.2

0.4

0.6

0.8

1.0

P

P

Burgos

0.0

0.2

0.4

0.6 P

0.8

1.0

0.0

0.0

0.2

0.2

0.4

0.4

U

U

0.6

0.6

0.8

0.8

1.0

1.0

Zamora

0.0

0.2

0.4

0.6 P

0.8

1.0

70