3 Características asociadas a una distribución de frecuencias

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 1 3 Características asociadas a una distribu

6 downloads 161 Views 122KB Size

Recommend Stories


A. OFERTAS PARA EMPRESAS ASOCIADAS A AMETIC
La Caixa ha firmado un convenio de colaboración con AMETIC, para ofrecer servicios financieros a las empresas asociadas a AMETIC y a los proveedores d

ALTERACIONES DE LA HEMOSTASIA ASOCIADAS A HEPATOPATIA
ALTERACIONES DE LA HEMOSTASIA ASOCIADAS A HEPATOPATIA ALTERACIONES DE LA HEMOSTASIA ASOCIADAS A HEPATOPATIA DR. JULIO E. SELVA PALLARES Unidad de Hem

Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS
Tema 2. DESCRIPCIÓN DE UNA VARIABLE: TABLAS DE FRECUENCIAS CONTENIDO: 1. Descripción de variables cualitativas 9 Frecuencia absoluta y relativa 9 Diag

ENDOMETRITIS ASOCIADAS A SERVICIOS DE SALUD
Endometritis asociadas a servicios de salud ENDOMETRITIS ASOCIADAS A SERVICIOS DE SALUD Gonzalo Aramayo Resumen Una de las infecciones frecuentes en

Divisor de Frecuencias
Circuito Integrado. Telecomunicaciones

Story Transcript

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 1

3

Características asociadas a una distribución de frecuencias.

3.1 Medidas de tendencia central. 3.1.1 Mediana 3.1.1.a Caso no agrupado. 3.1.1.b Caso agrupado.

3.1.2 Moda. 3.1.3 Media aritmética. 3.1.4 Relación entre la media, mediana y moda. 3.1.5 Otras medidas de tendencia central. 3.1.5.a Media geométrica. 3.1.5.b Media armónica. 3.1.5.c Media cuadrática. 3.1.5.d Comparación de las diversas medias.

3.2 Características de dispersión. 3.2.1 Desviación absoluta media. 3.2.2 Varianza. Desviación típica. Cuasivarianza. 3.2.3 Coeficiente de variación de Pearson. 3.2.4 Cuartiles. Recorrido intercuartílico. Recorrido. 3.2.5 Momentos. 3.2.6 Índice de diversidad. 3.3 Características de forma. 3.3.1 Coeficiente de simetría.

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 2

3.3.2 Coeficiente de curtosis. 3.4 Introducción a los outliers. 3.4.1 Errores en las observaciones muestrales. 3.4.2 Métodos simples de identificación de outliers. 3.4.2.a Método basado en la desviación típica. 3.4.2.b Método basado en el recorrido intercuartílico.

3.4.3 Métodos simples de acomodación de outliers. 3.4.3.a Método de recorte. 3.4.3.b Método de reemplazamiento.

3.4.4 Diagrama de caja y bigotes.

3.1 Medidas de tendencia central. Intentan representar los valores de una muestra o población indicando dónde se localizan pero no cómo se localizan. El estadísitico Yule indicó una serie de condiciones ideales que deben cumplir para ser buenas:

Propiedades de Yule: 1.

Debe ser definida objetivamente a partir de los datos.

2.

Debe depender de todas las observaciones que tiene la muestra o la población.

3.

Debe de tener un significado concreto, sencillo y fácil de entender.

4.

Debe de ser de cálculo fácil y rápido.

5.

Debe de ser poco sensible a las fluctuaciones del muestreo.

6.

Debe ser adecuado a los cálculos algebraicos posteriores.

3.1.1 Mediana. Es aquel valor de la variable estadística que divide en dos efectivos iguales a los datos supuestos ordenados por valor creciente. Deja el 50% de las observaciones a la izquierda y el otro 50% a la derecha. Me = xi / Fi = 0’5

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 3

3.1.1.a Caso no agrupado en intervalos. §

Con n impar:

Ejemplo:

Me = x F n +1I G J

H2K

2, 6, 3, 10, 7, 4, 11, 8, 10

n=9

2, 3, 4, 6, 7, 8, 10, 10, 11 Ç Me = x(5) = x(10/2)

§

Con n par:

Ejemplo:

(a)

H 2K

H2K

2

6, 2, 10, 7, 4, 11, 8, 10

2, 4, 6, 7, 8, 10, 10, 11 §

Me =

x F n I + x F n +1 I G J G J

n=8

Me = 7’5

Caso tabla de frecuencias no agrupada.

0’5 = Fi / [xi, xi+1)

Me =

xi + xi +1 2

Ej: Edad 3 4 7 9 15 25 40

Me =

(b)

ni 8 10 9 8 20 10 5

Ni 8 18 27 35 55 65 70

Fi 0’11 0’26 0’39 0’5 0’79 0’93 1

x ( 35) + x ( 36) 9 + 15 = 12 ; Me = = 12 2 2

Fi-1 < 0’5 < Fi

Edad 3 4 7 9 15 25 40

Ni 8 7 12 20 4 11 9

Ni 8 15 27 47 51 62 71

( | Ni-1 < n·0’5 < Ni | ) Fi 0’11 0’21 0’38 0’66 0’72 0’87 1

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 4 Caso tabla de frecuencias agrupada. Xi ? / Fi = 0’5

F i+ 1

Fi-1 < 0’5 ≤ Fi

FG N H

i −1

<

n = n ⋅ 0,5 ≤ N i 2

Fi 0 ’5 F i–1

IJ K

e i– 1

M e

ei

e i+ 1

La Me pertenece a Me ∈ (ei-1, ei ] ≡ intervalo mediano. AB AD = CB DE

E C

A

Me = ei −1 + x = ei −1 +

B

x=

D

0,5 − Fi −1 ⋅ ai Fi − Fi −1

0,5 − Fi −1 0,5 − Fi −1 ⋅ ai = Fi − Fi −1 fi

ai x = 0,5 − Fi −1 Fi − Fi −1 n n − N i −1 − N i −1 2 ⋅ ai = ⋅ ai = 2 ⋅ ai N i − N i −1 hi

x ei-1

Me

I

Ejemplo: Gastos (20, 25] (25, 30] (30, 35] (35, 40] (40, 45]

ei

ni 100 150 200 180 142

Ni 100 250 450 630 772

Fi 0,1295 0,3238 0,5829 0,8161 1,0000

0,5 − 0,37 ⋅ 5 = 33,4 0,67 − 0,37 0,37 < 0,5 < 0,67 I i = ( 30,35] ≡ Intervalo mediano Me = 30 +

n = 386 ≤ 450 I i = ( 30, 35] 2 386 − 250 Me = 30 + ⋅ 5 = 33,4 200

250 <

Propiedades: 1) Yule: P1, P3, P4, P5 2) Es el valor que divide al histograma en 2 partes iguales. Área = n/2 3) La desviación absoluta media es mínima respecto de la mediana. k

1 n ∑ xi − a n i =1 i =1 d abs ( Me ) = min a ∈R d abs (a )

d abs (a ) = ∑ xi − a ⋅ f i = q

( Me < a ) n

∑x

i

i =1 n

∑x i =1

i

x1 ≤ x 2 ≤ K ≤ x m−1 ≤ Me ≤ x m ≤ K ≤ x k −1 ≤ a ≤ x k ≤ K ≤ x n m −1

k −1

i =1

i =m

− a = ∑ xi − a + ∑ xi − a m −1

k −1

i =1

i =m

− Me = ∑ x i − Me + ∑ x i − Me

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 5 n

∑ i =1

n

xi − a − ∑ xi − Me = i =1

m−1

m −1

k −1

k −1

n

n

= ∑ ( a − xi ) − ∑ ( Me − xi ) + ∑ ( a − xi ) − ∑ ( x − Me) + ∑ ( xi − a ) − ∑ ( xi − Me) = i =1 i=m m i=k k 1 1 44442i =4444 3 1 44442i =4444 3 1 44442i =4444 3 m−1

k −1

∑ ( a − Me )

n

∑ ( a − 2 xi + Me )

i =1

∑ ( Me− a )

i=m

i=k

k -1

se le suma y se le resta

∑ (a − Me) i=m

m−1

k −1

i =1

i=m

b g b g = bm − 1gba − Meg − bn − m + 1gba − Meg + 2 ∑ ba − x g = b∗g n

= ∑ ( a − Me) + ∑ a − 2 xi + Me + a − Me + ∑ Me − a = i=m

k −1

i

i=m

Dos posibles situaciones:

(a) n es par ⇒ m − 1 = n − m + 1 k −1

b

( x m −1 ≤ Me ≤ x n )

g

(∗ ) = 2∑ a − xi ≥ 0 i =m

(b) n es impar ⇒ Me = x m , m − 1 = n − m

F I + 2G ∑ ba − x gJ ≥ 0 b∗g = −ba − Meg + 2 ⋅ ba − Meg + 2 ∑ ba − x g = b1a4−2Me g 4 3 H K k −1

k −1

i

i

i = m+1

i = m+ n 1 4 4244 3

≥0

≥0

n

3.1.2 Moda La moda de una variable estadística es el valor/es que tiene/n asociada la frecuencia máxima.

Mo = xi ni = max n j j =1Kk

(a)

Mo = 15,

ni = 20

(b)

Mo = 9,

n”9”=20

Si hay 2 máximos pues es bimodal y ya está.

Tabla de frecuencias agrupadas en intervalos (unimodal) Intervalo modal ≡ intervalo más alto del histograma ≡ Ii = (ei-1, ei] → hi

A hi hi+1 hi-1

B

Mo = ei–1 + x Los triángulos APC y BPD son semejantes (ángulos iguales)

D C

δ1 = hi – hi–1 δ2 = hi – hi+1

δ1 AC BD δ 1 , = = MP NP x ai − x

Ii-1 Mo Ii+1 ei-1 ei

b

g

b

g

δ 1 ai − x = δ 2 x , x δ 1 + δ 2 = a1δ 1 Mo = ei −1 + x = ei −1 +

δ1 ⋅ ai δ1 +δ2

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 6 Ejemplo: Edad (0, 5] (5, 15] (15, 30] (30, 45] (45, 65] (65, 75] (75, 95]

Ni 44,3 910,5 1099,1 912,7 1217,9 426,5 218,0 4829

ai 5 10 15 15 20 10 20

hi = ni/ai 8,86 91,05 73,27 60,8 60,9 42,65 10,9

Ii / hi = max hj j=1,…,k δ1 = hi – hi–1 δ2 = hi – hi+1 (5, 15] ≡ int. Modal

82,19 ⋅ 10 = 13,2 82,19 + 17,78 δ 1 = 91,05 − 8,86 = 82,19 δ 2 = 91,05 − 73,27 = 17,78 Mo = 5 +

La moda cumple las propiedades de Yule: P1, P3, P4.

3.1.3 Media aritmética. Es la suma ponderada de todas las modalidades de la variable por sus respectuvas frecuencias relativas. k

x = ∑ xi ⋅ f i = i =1

1 k ∑ xi ⋅ ni n i =1

Si la tabla de frecuencias está agrupada en intervalos, se calcula con las marcas de clase. Propiedades: (1) Yule: P1, P2, P3, P4, P6.

∑ bx k

(2)

i

g

− x ⋅ fi = 0

i =1

q k

k

k

xi f i − ∑ x ⋅ f i = x − x ∑ f i = 0 ∑ i =2 13 i =1 i =1 1 =1

n k

(3)

b

d cua (a ) = ∑ xi − a i =1

g

2

d cua ( x ) = min d cua (a ) a ∈R

fi

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 7 q k

k

b

d cua (a ) = ∑ ( x i − a ) 2 f i = ∑ xi − x + x − a ± x i =1

i =1

k

k

b

i =1

i =1

bg b

= d cua x + x − a

g ∑f 2

k

g

2

2

fi =

b gb g + 2b x − a g∑ b x − x g f = d b x g + b x − a g ≥ d b x g 12 4 4 3

= ∑ ( xi − x ) f i + ∑ x − a 2

g

k

f i + 2 ∑ xi − x x − a f i = i =1 k

i

13 i =2 1

2

i

i

cua

i =1 4 1 4244 3

1

cua

≥0

0

n (4)

Sean a , b ∈R Y = aX + b = aX + b

q k

k

b

g

k

k

Y = ∑ yi f i = ∑ axi + b f i = a ∑ xi f i + b ∑ f i i =1 i =1 i =1 i =1 123 1 23 1

X

n (5) Sean a , b ∈R aX + bY = aX + bY Por verificar las propiedades 4 y 5 se dice que la media tiene la propiedad de la linealidad. (6) Calcular gráficamente la media X = A − B donde A =

∑x

i

fi B =

i xi > 0

q k

x = ∑ xi f i = i =1

− xi

xi f i ∑ xi f i + i ∑ i xi ≥ 0 xi < 0 12 4 4 3 1 424 3 A

−B

n Tabla de frecuencias no agrupada (Curva acumulada) Ej:

1, 1, 2, 2, 2, 3, 4, 6, 6, 7 k

x=

∑x i =1

i

n k

x=

∑x i =1

i

n k

= ⋅ ni

34 = 3,4 10 =

34 = 3,4 10

x = ∑ xi f i = 3,4 1

xi 1 2 3 4 6 7

ni xi·ni fi xi·fi 2 2 0’2 0’2 3 6 0’3 0’6 1 3 0’1 0’3 1 4 0’1 0’4 2 12 0’2 1’2 1 7 0’1 0’7 10 34 1 3’4

∑x

i xi < 0

i

fi

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 8

3.1.4 Relación entre media, mediana y moda. Bajo distribuciones unimodales x − Mo ≈ 3( x − Me) w Mo | Media

w Me

w Media

| Me

| Mo

El caso es que cumplen una simetría. También se puede dar el caso en que las 3 sean iguales.

3.1.5 Otras medidas de tendencia central. 3.1.5.a Media geométrica. Dadas x1,…, xk (>0)

G=

F I = G∏ x J H K k

n

n1 1

n2 2

x x ... x

nk k

1

n

ni i

i =1

F I log G = logG ∏ x J H K k

1

n

ni i

i =1

1 = log n

FG ∏ x IJ = 1 ∑ n log x H K n k

k

= ∏ xi f i i =1

k

ni i

i

i =1

i

i =1

3.1.5.b Media armónica. Dadas x1,…, xk (>0)

n H= k 1 ∑ x ni i =1 i

1 = H

;

3.1.5.c Media cuadrática. k

Q=

Propiedad: Siempre se cumple que H ≤ G ≤ x < Q

∑x i =1

2 i i

n

n

n

1

i =1

i

∑x

n

ni

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 9 Ejemplo: log x 0 0’477 0’602 0’699

x=

X 1 3 4 5

ni 2 3 1 2 n=8

1 ⋅ 2 + 3 ⋅ 3 + 4 ⋅ 1 + 5 ⋅ 2 25 ' = = 3125 8 8

c

G = 12 + 32 + 4 + 52

h

1

8

= 2700

1

8

= 2'684

0 ⋅ 2 + 0'477 ⋅ 3 + 0'602 ⋅ 1 + 0'699 ⋅ 2 = 0'428875 → G = 2'684 8 8 8 H= = = 2'1917 1 1 1 1 3'65 ⋅ 2 + ⋅ 3 + ⋅1 + ⋅ 2 5 4 3 2

log G =

Q=

12 ⋅ 2 + 32 ⋅ 3 + 4 2 ⋅ 1 + 52 ⋅ 2 = 3'446 8

3.2 Características de dispersión. Las medidas de tendencia central no siempre son fiables, a veces son un poco engañosas, por eso recurrimos a las medidas de dispersión. Estas intentan medir hasta las medidas de tendencia central para ver cómo son de representativas las medidas.

3.2.1 Desviación absoluta media. Dadas x1,…, xk de X se define la desviación absoluta media respecto a la media aritmética como k

Dx = ∑ xi − x ⋅ f i i =1

Dx = 0 ⇔ xi = x Dx ≥ 0 Desviación absoluta media con respecto a la mediana. k

D Me = ∑ xi − Me ⋅ f i i =1

D Me = 0 ⇔ xi = Me D Me ≥ 0

D Me ≤ Dx

3.2.2 Varianza. Desviación típica. Cuasivarianza. §

Varianza de X:

∑bx k

k

b

g

S 2 = σ 2 = ∑ xi − x f i = 1 424 3 i =1 ≥0

S 2 = 0 ⇔ xi = x S2 ≥ 0

2

i

g

2

− x ni

i =1

n

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 10 §

Desviación típica de X: S = σ = + S

§

Cuasivarianza de X:

∑ bx k

S C2 = §

i

g

2

− x ni

i =1

2

n −1

Cuasidesviación típica de X: S C = + S C ; nS 2

bg

Nota: d cua a =

∑ bx k

i

−a

i =1

g

2

2

b g

= n − 1 S C2

bg

f i ≥ d cua x = S 2

Cálculo alternativo: k

b

S 2 = ∑ xi − x i =1

g

2

k

k

k

k

k

i =1

i =1

i =1

i =1

i =1

f i = ∑ xi2 f i + ∑ x 2 f i − 2 ∑ xi xf i = ∑ xi2 f i + x 2 − 2 x 2 = ∑ xi 2 f i − x 2 =

k

=

∑x

2 i

i =1

n

ni

− x2

Propiedades: (1) var (ax+b) = a2 var (x), a,b ∈ R q k

b

var( y ) = ∑ yi − y i =1

g

2

fi

k

={

Y = ax + b = ax + b

b

= ∑ axi + b/ − ax − b/ i =1

g

2

k

b

f i = a 2 ∑ xi − x i =1

n (2) var (c) = 0 ⇔ c = cte. (3) var( x + y ) = var( x) + var( y ) + 2 ⋅ (

k

∑x y

− x ⋅ y) 144244 3 i

i

i =1

cov( x , y )

q

( x1 , y1 ) K ( x n , x n ) → z = x + y: z1 = x1 + y1 , z2 = x 2 + y 2 ,K , z n = x n + y n var( z) = var( x + y ) = =

b

1 n 1 n 2 ( z z ) − = ∑ i ∑ x i + yi − ( x − y ) n i =1 n i =1

g

2

=

1 n 1 n 2 n ( xi − x ) 2 + ∑ ( yi − y ) 2 + ∑ ( x i − x )( yi − y ) ∑ n i =1 n i =1 n i =1

n (4) Desigualdad de Chebyshev:

fr

dmx

i

dmx

ri ≤ k1 , ∀k > 0 2

1 1 = 2 = 0,11 9 3

k =3 fr

xi − x ≥ kσ

i

xi − x < kσ

ri ≥ 1 − k1

2

g

2

fi

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 11 q

m A = mx

r x − x < kσ r = ∑ bx − x g f = ∑ ( x − x )

A2 = xi xi − x ≥ kσ 1

i

i

k

S2

2

i

i

i =1

fi +

xi ∈Ai

∑f

= k 2σ 2

2

i

xi ∈A2

i

= k 2σ 2 f r ( A2 ),

∑(x

i

− x )2 fi ≥

xi ∈A2

f r ( A2 ) ≤

∑ (x

i

− x)2 fi ≥

xi ∈A2

∑k

2

σ 2 fi =

xi ∈A2

1 k2

n Ejemplo: xi 100 ni 10 x=

120 5

125 4

140 3

n=22

100 ⋅ 10 + 120 ⋅ 5 + 125 ⋅ 4 + 140 ⋅ 3 = 114'54 22 k

S = 2

∑ (x

i

− x ) 2 ni

i =1

n

=

(100 − 114'54) 2 ⋅ 10 + (120 − 114'54) 2 ⋅ 5 + (125 − 114'54) 2 ⋅ 4 + (140 − 114'54) 2 ⋅ 3 ' = 21116 22

S = + S = 14'53 n S C2 = S 2 = 212'21, S C = + S C2 = 14'87 n −1 2

3.2.3 Coeficiente de variación de Pearson. CV X =

S x

(CV X ≥ 0)

Cuando la media es un valor cercano a 0 no debe emplearse Pearson. Propiedad: Y = aX

CVy = CVx

q

Y = aX

S y2 = a 2 S x2 , S y = aS x

CV y =

Sy

=

y

aS x = CV x ax

n Def: Se define el cuantil de nivel α (0≤ α ≤1)

X α Fxα = α α

] Xα

3.2.4 Cuartiles. Recorrido intercuartílico. Recorrido. Def: §

Cuartiles:

Q1 = X0’25 ,

Q2 = X0’5 = Me , 25% |

Q1 |

Q3 = X0’75

25% Q2 25% Q3 | |

25% |

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 12 §

Deciles:

D1 = X0’1 ,

§

Percentiles:

P1 = X0’01 , … , P99 = X0’99

§

Octiles:

O1 = X0’125 , … , O7 = X0’875

D2 = X0’2 , … , D9 = X0’9

Cálculo: No agrupado en intervalos:

xi + x i +1 ( N i = nα ) 2 < α < Fi → x d = x i ( N i −1 < nα < N i )

(A) Fi = α i → x d = (B) Fi −1

Agrupado en intervalos:

Fi −1 < α ≤

→ xα = ei −1 +

F {i

Ii = ( ei −1, ei )

α − Fi −1 nα − N i −1 ⋅ ai = ei −1 + ⋅ ai fi ni

Definiciones: · Intervalo intercuartílico: Abarca el 50% de las observaciones centrales. [Q1, Q3] · Recorrido intercuartílico: IQR = Q3 – Q1 IQR siempre es ≥ 0. Si el recorrido intercuartílico es 0 entonces existe muy poca dispersión. · Recorrido:

R = Max xi – Min xi

Ejemplo: xi 20 30 40 50 60

ni 8 10 12 6 4 n=40

Ni 8 18 30 36 40

fi 0’2 0’25 0’3 0’15 0’1 1

Fi 0’2 0’45 0’75 0’9 1

Q1 = X 0' 25 = 30 0,2 < α = 0,25 < 0,45 D8 = X 0'8 = 50 0,75 < α = 0,8 < 0,9 30 < nα = 32 < 36 P45 = X 0' 45 =

30 + 40 = 35 2

40 + 50 = 45 2 [ 30, 45] IQR = 15

Q3 = X 0' 75 =

R = 60 − 20 = 40

3.2.5 Momentos. Def: -

Momentos de orden r (r>0, entero) respecto al valor a∈R k

k

(a ) = ∑ ( xi − a ) r f i = i =1

∑(x

i

− a ) r ni

i =1

n

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 13 -

Momento central: k

(a = x );

k

µ r = ∑ ( xi − x ) r f i =

∑ (x

i

1

n

i =1

-

− x ) r ni

Momento no central: k

xi r ni

k

(a = 0);

mr

∑x

r i

fi

i

n

i =1

2 m1 = x µ 2 = S k 2 2 2 2 µ 1 = 0 µ 2 = S = ∑ xi f i − x = m2 − m1 1

3.2.6 Índice de diversidad de Shanon Mide cómo de repartidas están las observaciones en las modalidades. k

H = − ∑ f i ⋅ log f i ≥ 0 i =1 k

H = −∑ i =1

b

g LMN∑ n log n − ∑ n log n OPQ = n1 LMNn log n − ∑ n log n OPQ =

k ni n n 1 log i = − ∑ i log ni − log n = n n n i =1 n

k

k

i

i =1

k

i

i

i =1

k

=

n log n − ∑ ni log ni

H max

i =1

n = log n

≥0

(ni = 1, n = k )

Índice de diversidad:

0≤ J =

H ≤1 H max

Ejemplo:

Color de pelo Morenos Rubios Otros

ni 60 25 15 100

fi 0’6 0’25 0’15

log fi –0’2218 –0’6021 –0’8239

k

H = − ∑ f i log f i i =1

J=

H H 0'407210 = = = 0'203605 H max log n log 100 123 2

J es el índice de diversidad, y, en este caso, existe poca diversidad porque está cercano a 0.

i

i =1

i

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 14

3.3 Características de forma. 3.3.1 Coeficientes de simetría. Diremos que una distribución de frecuencias es simétrica cuando los valores de la variable equidistantes de un valor central tienen las mismas frecuencias.

Valor central

Valor central

Se dirá asimétrica a la izquierda o a la derecha según presenten la cola (las frecuencias descienden más por la derecha o por la izquierda) por la derecha o por la izquierda.

Asimetría a la derecha

§

Asimetría a la izquierda

Coeficiente de simetría de Pearson:

AS =

x − Mo S

Que es una fórmula válida para distribuciones unimodales. •

Si AS ≈ 0 entonces es simétrica.



Si AS < 0 entonces es asimétrica a la izquierda.



Si AS > 0 entonces es asimétrica a la derecha.

§

Coeficiente de simetría de Fisher:

∑ bx k

γ1 =

i

−x

1

S

3

g

3

fi

=

FG H

g IJK

µ 1 1 k 3 xi − x ni = 33 ∑ 3 S n i =1 S



Si γ1 ≈ 0 diremos que es simétrica.



Si γ1 < 0 diremos que es asimétrica a la izquierda.



Si γ1 > 0 diremos que es asimétrica a la derecha.

b

Estadística _________________ Tema 3. Características asociadas a una distribución de frecuencias. Pág. 15 Ejemplo: X -1’897 -1’265 -1’632 0 0’632 1’265 1’897

ni 1 2 3 4 3 2 1

x=0 S =1 γ1 =0 Simétrica

Y -2’205 -1’654 -1’103 -0’551 0 0’551 1’103

ni 1 1 1 1 3 4 3

y=0 S =1 γ 1 = −0'86 Asimétrica a la izquierda

Estadística _________________

Tema 6. Medidas de dependencia estadística entre 2 variables.. Pág. 16

Propiedad: Si tengo Y = aX + b, a,b ∈ R entonces γ1(Y) = γ2(X)

3.3.2 Coeficiente de Curtosis. Cuando una distribución cualquiera se compara con la distribución normal de la misma media y la misma desviación típica interesa saber si es más o menos puntiaguda que ella. •

En el caso de que sea menos puntiaguda la vamos a

denominar platicúrtica. •

Si es igual que la campana de Gauss la

denominaremos mesocúrtica. • §

Si es más puntiaguda la llamaremos leptocúrtica.

Coeficiente de curtosis de Fisher (coeficiente de apuntamiento)

∑ bx k

γ2 =

i

−x

g

4

fi

1

S

4



Si γ2 ≈ 0 entonces es mesocúrtica.



Si γ2 < 0 entonces es platicúrtica.



Si γ2 > 0 entonces es leptocúrtica.

−3=

FG H

IJ K

µ 1 1 k ( xi − x ) 3 ni − 3 = 44 − 3 ∑ 3 S n i =1 S

Ejemplo: X -3 -2 -1 0 1 2 3

ni 1 2 3 8 3 2 1

Y -3 -2 -1 0 1 2 3

ni 2 0 2 12 2 0 2

Z -3 -2 -1 0 1 2 3

x =0

y=0

z=0

S= 2 γ1 =0

S= 2 γ1 =0

S= 2 γ1 =0

ni 0 4 4 4 4 4 0

En este caso todas son simétricas pero se diferencian por el apuntamiento: γ2 = -0’1 ≈ 0 γ2 =1’1 γ2 = -1’3 (mesocúrtica) (leptocúrtica) (platicúrtica)

3.4 Introducción a los outliers. Ejemplo: X = “Alturas en cm. de alumnos de 7º de E.G.B.”

n = 20

150, 151, 150, 147, 155, 145 151, 152, 150 149, 160, 142, 158, 153, 144, 190, 145, 147, 151, 156.

xi 142 144 145

Ni 1 1 2

Ni 1 2 4

Estadística _________________ 147 149 150 151 152 153 155 156 158 160 190

2 1 3 3 1 1 1 1 1 1 1 20

Tema 6. Medidas de dependencia estadística entre 2 variables.. Pág. 17

6 7 10 13 14 15 16 17 18 19 20

3.4.1 Errores en las observaciones muestrales. Son los elementos que intervienen en la recogida de observaciones: (1) Ω, población (2) M, muestra (3) X(M) variable recogida sobre la muestra (4) E, experimentador. Clasificación de los errores: (1) Variabilidad inherente o propia de la fuente. (2) Errores del medio (Redondeo forzoso) (3) Errores del experimentador. (a) Error de información. (b) Error de planificación (c) Error de realización (Redondeo equívoco, pasar mal los datos,…) Clasificación de las observaciones extrañas o anómalas: (1) Observaciones atípicas: cuando existe una gran variabilidad inherente X(M) (2) Observaciones erróneas: cuando presentan un gran error de medio o del experimentador X(M)

Def: Llamamos outliers a aquella observación que siendo atípica o errónea tiene un comportamiento muy diferente al resto de los datos frente al análisis que se desea realizar sobre las observaciones experimentales. Cualquier observación que no sea outlier la llamaremos inlier.

Estadística _________________

Tema 6. Medidas de dependencia estadística entre 2 variables.. Pág. 18

3.4.2 Métodos simples de identificación de outliers. 3.4.2.a Método basado en la desviación típica. Consiste en escoger un intervalo que albergue al menos un 88’88% de las observaciones. El intervalo será el siguiente:

[ x − kσ , x + kσ ] Se suele escoger k = 3. Las observaciones que caen dentro del intervalo serán INLIERS y representan al menos un 88’88% Las observaciones que caen fuera del intervalo serán OUTLIERS y son como máximo un 11’12%

3.4.2.b Método basado en el rango intercuartílico. En este caso el intervalo es [Q1, Q3], que contiene el 50% de las observaciones más centrales. Recordamos que el recorrido intercuartílico es IQR = Q3 – Q1. Def: Vallas interiores:

f1 = Q1 –1’5·IQR f2 = Q3 +1’5·IQR

Las observaciones que caen fuera del intervalo [f1, f2] son OUTSIDE. Vallas exteriores: F1 = Q1 –3·IQR F2 = Q3 +3·IQR Las observaciones que caen fuera del intervalo [F1, F2] son FAR OUTSIDE. Este método no se ve afectado por las propias observaciones.

3.4.3 Métodos simples de acomodación de outliers. 3.4.3.a Método de recorte (TRIMMING) Las medias y varianzas recortadas para una proporción α1, α2 de valores mayores se calcula de manera usual eliminando previamente del conjunto de datos una proporción α1 de los valores más pequeños y otra α2 de los valores mayores. X -7 0 1 2 100 200

1 10 10 10 1 1 33

De aquí se pasa a… X 0 1 2

10 10 10 30

Estadística _________________

Tema 6. Medidas de dependencia estadística entre 2 variables.. Pág. 19

3.4.3.b Método de reemplazamiento (WINSORIZING) La diferencia con el método anterior es que las observaciones que componen α1 de valores más pequeños se sustituyen por el valor más pequeño de las observaciones restantes, mientras que las observaciones α2 de valores más grandes se sustituyen por el valor mayor de las observaciones restantes. En el ejemplo anterior pasaríamos a la siguiente tabla: X 0 1 2

11 10 12 33

3.4.4 Diagrama de caja y bigotes (BOX-AND-WHISKER) Para construirlo hay que fijar la escala con los valores del máximo y el mínimo. Localizar la Me y los cuartiles y dibujar un rectángulo que conecte estos últimos y dentro de los mismos marcar la mediana con un segmento.

A cada lado de la caja se trazan segmentos rectilíneos hasta las observaciones más extremas dentro de las vallas interiores (valores adyacentes). Sobre dicha línea se marcan los outside con cuadrados y los far outside con asteriscos.

En el ejemplo anterior de las alturas de los niños de EGB el diagrama sería algo así:

Get in touch

Social

© Copyright 2013 - 2025 MYDOKUMENT.COM - All rights reserved.