1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo 1.1 Definiciones básicas Elemento o unidad de muestreo: objeto en el que se toman las mediciones Población objet

Author: Francisco Fidalgo Barbero

3 downloads 114 Views 684KB Size

Report

DOWNLOAD PDF

Recommend Stories

1. PLANTEAMIENTO DEL PROBLEMA

1 PLANTEAMIENTO DEL PROBLEMA

1. Planteamiento del Problema

1. DELIMITACION DEL PROBLEMA

1 1. DELIMITACION DEL PROBLEMA El mercado de las mascotas es un mercado emergente que ha tomado mucha fuerza, hay diversidad de productos y servicios

1.- PLANTEAMIENTO DEL PROBLEMA

1. Planteamiento del Problema

PROBLEMA 1 PROBLEMA 2

Story Transcript

1. Elementos del problema de Muestreo 1.1 Definiciones básicas Elemento o unidad de muestreo: objeto en el que se toman las mediciones Población objetivo: conjunto de elementos que deseamos estudiar Muestra: subconjunto de la población

Población muestreada: colección de todos los elementos posibles que podrían seleccionarse para la muestra

Unidad de muestreo: son conjuntos (no solapados) de elementos de la población que cubren la población completa

Marco de muestreo: es la lista de las unidades de muestreo 1

1. Elementos del problema de Muestreo 1.1 Definiciones básicas Población Objetivo

Población del marco de muestreo

No localizable

No incluida en el marco de muestreo

Rehusa responder

POBLACIÓN MUESTREADA

No es elegible para la encuesta

Otras causas……

2

1. Elementos del problema de Muestreo 1.2 Selección de la muestra Muestreo aleatorio simple: Todas las muestras de un determinado tamaño tienen la misma probabilidad de ser seleccionadas. Muestreo aleatorio estratificado: Se divide a la población en grupos, denominados estratos, y se seleccionar una muestra aleatoria simple de cada estrato. Muestreo por conglomerados: Se divide a la población en grupos, denominados conglomerados, y seleccionar una muestra aleatoria simple de conglomerados. Muestreo sistemático: Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos.

3

1. Elementos del problema de Muestreo 1.3 Fuentes de error 1.3.1 Errores de muestreo θ = característica desconocida de la población

θˆ = estimador de la característica

θˆ − θ = Error de estimación

P  θˆ − θ ≤ B  = 1 − α ,  

0 30)

p− p → N (0,1) pqɵ n −1

16

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.1. Media, varianza y proporción muestrales: Propiedades. Error de estimación.

σ σ  σ    µ P  −2 ≤ y−µ ≤2 = 0,95 ⇒ P y − ≤ 2    = 0,95 n n n  

    y−µ P  − Zα ≤ ≤ Zα  = 1 − α σ 2 2     n

    y−µ P  −1,96 ≤ ≤ 1,96  = 0,95 σ     n

1,96 ≈ 2

σ σ   Py −2 ≤ µ ≤ y+2  = 0,95 n n 

σ σ   y − 2 , y + 2   n n  17

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.1. Media, varianza y proporción muestrales: Propiedades. Error de estimación.

σ   P y−µ ≤ 2  = 0,95 n  Desigualdad de Tchebychev

E(X ) = µ

( )

V (X ) =σ2

( )

E y =µ V y =

σ2 n

k=2

⇒

P  X − µ ≤ kσ  ≥ 1 −

1 k2

σ  1  ⇒ P y−µ ≤ 2  ≥ 1 − 4 = 0, 75 n  18

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.

ESTIMACIÓN PUNTUAL

INTERVALO DE CONFIANZA

1 n y = ∑ yi n i =1

2 V ( y) = 2

S n

S S   , y+2  y−2  n n 

S S   se acepta H 0 : µ = µ0 si µ0 ∈  y − 2 ,y+2  n n  CONTRASTE DE HIPÓTESIS

se rechaza H 0

S S   si µ0 ∉  y − 2 ,y+2  n n  19

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.3 Determinación del tamaño muestral.

2 V ( y) = 2

σ2 n

=B

4

σ2 n

=B ⇒n= 2

σ =S 2

pq 2 V ( p) = 2 =B n

σ2 2

B 4

2

pq pq n= 2 = B D 4 p= p

=

σ2 D

B2 , D= 4

R σ≅ 4

R2 ⇔ σ ≅ 16 2

B2 , D= 4 1 p=q= 2

20

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas MEDIA

VARIANZA DEL ESTIMADOR

1 n p = ∑ yi , n i =1

1 n y = ∑ yi n i =1

ESTIMADOR

CUASIVARIANZA MUESTRAL

PROPORCIÓN

(

1 n S = yi − y ∑ n − 1 i =1 2

V ( y) =

σ2 n

)

2

(

yi = 0, 1

1 n S = ∑ yi − y n − 1 i =1 2

S2 pq V ( p) = V ( y) = n n

)

2

n pqɵ = n −1

pqɵ V ( p) = n −1 21

2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas MEDIA

PROPORCIÓN

S 2 V ( y) = 2 n

pqɵ 2 V ( p) = 2 n −1

S S   , y+2  y−2  n n 

 pqɵ pqɵ   p−2  , p+2  n −1 n −1   

LIMITE DEL ERROR DE ESTIMACIÓN=B

INTERVALO DE CONFIANZA

TAMAÑO MUESTRAL

n=

σ2 2

B 4

=

σ2 D

B2 , D= 4

pq pq n= 2 = B D 4

B2 , D= 4 22

2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.1 Estimación de la media, proporción y total poblacionales.

( )

n

E y =µ

1 µ = y = ∑ yi n i =1

( )

V y =

σ2  N −n

E (S2 ) =

  n  N −1 

N σ2 N −1

 N −1 2  E S  =σ2  N 

S2  N − n  V y =   n  N 

( )

 N −n    N 

N τɵ = N y = n

n

∑y i =1

i

1  N −n ≥ 0,95 ⇔ n ≤ N = 5% N   20  N 

2 2 S N − n S V (τɵ ) = V ( N y ) = N V ( y ) = N = N ( N − n) n N n 2

2

23

2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.1 Estimación de la media, proporción y total poblacionales.

1 n p = ∑ yi , n i =1

τɵ = N p

yi = 0, 1

n pqɵ S = n −1 2

S2 N − n pqɵ N − n V ( p) = = n N n −1 N

pqɵ 2 ɵ V (τ ) = V ( N p ) = N V ( p ) = N ( N − n) n −1

24

2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.2. Determinación del tamaño muestral.

2

Nσ 2 =B ⇒ n= ( N − 1) D + σ 2 n N −1

σ2 N −n

σ =S 2

2

Npq n= ( N − 1) D + pq

p= p

B2 D= (media ) 4

R σ≅ 4

B2 D= 4

p=q=

( proporcion)

B2 D= 4N 2

(total )

R2 ⇔ σ ≅ 16 2

B2 D= 4N 2

(total )

1 2 25

2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas MEDIA TOTAL

ESTIMADOR

VARIANZA DEL ESTIMADOR

1 n y = ∑ yi τɵ = N y n i =1

S2 N − n V ( y) = n N

LIMITE DEL ERROR DE 2 V ( y) ESTIMACIÓN=B

PROPORCIÓN TOTAL

1 n p = ∑ yi n i =1

pqɵ N − n V (τɵ ) = N 2 V ( y ) V ( p) = n −1 N

2 V (τɵ ) = N 2 V ( y ) 2 V ( p)

τɵ = N p

V (τɵ ) = N 2 V ( p )

2 V (τɵ ) = N 2 V ( p ) 26

2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas MEDIA TOTAL INTERVALO DE CONFIANZA

(y − 2

V ( y) , y + 2 V ( y)

) (p − 2

V ( p) , p + 2 V ( p)

)

(τɵ − 2

V (τɵ ) , τɵ + 2 V (τɵ )

) (τɵ − 2

V (τɵ ) , τɵ + 2 V (τɵ )

)

Nσ 2 n= ( N − 1) D + σ 2 TAMAÑO MUESTRAL

PROPORCIÓN TOTAL

B2 D= 4 B2 D= 4N 2

(media )

(total )

n=

Npq ( N − 1) D + pq

B2 D= 4

( proporcion)

B2 D= 4N 2

(total )

27

3. Muestreo Aleatorio Estratificado 3.1 Selección de una muestra aleatoria estratificada. Notación. L = número de estratos N = tamaño de la población

N i = tamaño del estrato

n = tamaño de la muestra

ni = tamaño de la muestra del estrato i L

N = ∑ Ni

n = ∑ ni

µi = media poblacional del estrato i

y i = media muestral del estrato i

L

i =1 i=

i =1 i=

τ i = total poblacional del estrato i σ i2 = varianza poblacional del estrato i pi = proporción poblacional del estrato i

Si2 = varianza muestral del estrato i p i = proporción muestral del estrato i

ci = coste de una observación del estrato i 28

3. Muestreo Aleatorio Estratificado 3.2 Estimación de la media, proporción y total poblacionales. L

N i y i = τɵ i

τ = ∑τ i i =1

L

τɵ st = ∑ N i y i i =1

2 S N −n V (τɵ st ) = ∑ N i2 V ( y i ) = ∑ N i2 i i i ni N i i =1 i =1 L

τɵ st

1 y st = = N N

L

∑N y i =1

i

i

1 V ( y st ) = 2 N

y st ≠ y

L

1 N V ( yi ) = 2 ∑ N i =1 2 i

L

Si2 N i − ni N ∑ ni N i i =1

τɵ st ≠ τɵ = N y

L

2 i

29

3. Muestreo Aleatorio Estratificado 3.2 Estimación de la media, proporción y total poblacionales. MEDIA TOTAL

1 y st = N

PROPORCIÓN TOTAL

L

∑N y i

i =1

i

L

1 p st = N

∑N i =1

i

pi

ESTIMADOR L

τɵ st = ∑ N i y i i =1

VARIANZA DEL ESTIMADOR

1 V ( y st ) = 2 N

L

τɵ st = ∑ N i p i i =1

Si2 N i − ni 1 L 2 p i qɵ i N i − ni V ( p st ) = 2 ∑ N i N ∑ N i =1 ni − 1 N i ni Ni i =1 L

2 i

2 S N −n V (τɵ st ) = ∑Ni2 i i i ni Ni i=1 L

V (τɵ st ) =

p i qɵ i N i − ni N ∑ ni − 1 N i i =1 L

2 i

30

3. Muestreo Aleatorio Estratificado 3.3 Determinación del tamaño muestral. 1 V ( y st ) = 2 N

2 V ( y st ) = B

L

∑ n=

i =1

N σ 2 i

ωi

N D + ∑ N iσ

L

σ = pi qi

i =1

∑ i =1

2 i

σ i2 N i − ni ni N i − 1

2 i

B2 D= 4

L

B2 D= 4N 2

N pi qi

ωi

N 2 D + ∑ N i pi qi

(media)

B2 D= 4N 2

2 i

i =1

ni = nωi

B2 D= 4

L

i =1

n=

∑N

2 i

2

2 i

L

(total )

( proporción)

(total ) 31

3. Muestreo Aleatorio Estratificado 3.4.1 Asignación óptima. N jσ j

ωj =

p jq j

Nj

cj

ωj =

Niσ i ∑ ci i =1 L

cj

L

∑ Ni i =1

pi qi ci

Minimiza el coste de obtención de la muestra para un límite del error de estimación fijado. L

L

∑ Ni σ i ci n=

∑

i =1

i =1

Ni σ i ci

L

∑ Ni n=

L

N D + ∑ N iσ 2

i =1

i =1

L

∑ Ni

pi qi ci

i =1

pi qi ci

L

N D + ∑ N i pi qi 2

2 i

i =1

Minimiza el límite del error de estimación para un coste de obtención de la muestra fijo. L

C∑ n=

i =1

N iσ i ci

L

∑Nσ i =1

i

i

ci

L

C ∑ Ni n=

i =1

pi qi ci

c1n1 + c2 n2 + c3 n3 = C c1ω1n + c2ω2 n + c3ω3n = C

L

∑N i =1

i

pi qi ci

n=

C c1ω1 + c2ω2 + c3ω3

32

3. Muestreo Aleatorio Estratificado 3.4.2 Asignación de Neyman. Si c1 = c2 = ... = ci = ... = cL

Caso numérico:

(∑ N σ )

2

L

ωj =

N jσ j L

∑ Niσ i

n=

i

i =1

i

L

N D + ∑ N iσ i2 2

i =1

i =1

Caso dicotómico:

(∑ N

2

L

ωj =

N j pjqj L

∑N i =1

i

pi qi

n=

i =1

i

pi qi

)

L

N D + ∑ N i pi qi 2

i =1

33

3. Muestreo Aleatorio Estratificado 3.4.3 Asignación proporcional. σ 12 = σ 22 = ... = σ i2 = ... = σ L2

Si c1 = c2 = ... = ci = ... = cL

L

Caso numérico:

ωj =

Nj N

n=

Caso dicotómico:

∑N σ i

i =1

2 i

L

1 ND + N

2 N σ ∑ i i i =1

L

ωj =

Nj N

n=

∑N pq i =1

1 ND + N

i

i i

L

∑N pq i =1

i

i i

Ventajas: y st = y

p st = p

τɵ st = τɵ

Resuelve complicaciones en la asignación para varias mediciones muestrales 34

3. Muestreo Aleatorio Estratificado 3.4 Asignación de la muestra. Determinación del tamaño muestral y asignación para varias estimaciones

Asignación óptima/Neyman 1ª estimación: n = 100

ω1 = 0,10 ⇒ n1 = 10

ω2 = 0,90 ⇒ n2 = 90

2ª estimación: n = 40

ω1 = 0,50 ⇒ n1 = 20

ω2 = 0,50 ⇒ n2 = 20

Asignación proporcional 1ª estimación: n = 100

ω1 = 0,30 ⇒ n1 = 30

ω2 = 0, 70 ⇒ n2 = 70

2ª estimación: n = 40

ω1 = 0,30 ⇒ n1 = 12

ω2 = 0, 70 ⇒ n2 = 28

35

3. Muestreo Aleatorio Estratificado 3.5 Estratificación después de seleccionar la muestra.

Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No electrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación.

36

3. Muestreo Aleatorio Estratificado 3.5 Estratificación después de seleccionar la muestra. Solución: y1 = 1 y st = N

5730 = 95,5€ 60

2

2

i =1

i =1

∑ Ni y i = ∑

1 V ( y st ) = 2 N 2

=∑ i =1

y2 =

2080 = 52€ 40

Ni y i = (0,30 × 95,5) + (0, 70 × 52) = 65, 05€ N

2 Si2 N i − ni N i2 Si2 N i − ni N =∑ 2 = ∑ n N N n N i =1 i =1 i i i i 2

2 i

2

2 2  N i  Si2  N S 2 200   2 90  = ∑ =  0,30   +  0, 70  = 159, 225 N ni N n 60 40 i =1      i  2 i 2

2 i

2

2 V ( y st ) =25,24€

y=

5730 + 2080 7810 = = 78,10€ 60 + 40 100

37

4. Muestreo con información auxiliar 4.1 Introducción Y

Variable bajo estudio

X

Variable que proporciona la información auxiliar

Muestra constituida por n pares:

(x1 , y1 ),..., (xn , yn )

Bajo una fuerte relación lineal positiva

1   rxy >  2 

y dependiendo de la relación entre ambas variables utilizaremos: •Estimadores de razón

( y = bx )

•Estimadores de regresión

( y = a + bx )

•Estimadores de diferencia

( y = a + x)

38

4. Muestreo con información auxiliar 4.2 Estimación de razón Se define la razón como el cociente:

τy R= τx

µY R= µX

τ y = Nµ y τ x = Nµ x

Entonces si se conocen los valores de la media y del total de X sólo hay que estimar el valor de R (r):

τˆ y = rτ x

µˆ y = r µ x n

y = • ESTIMADOR DE LA RAZÓN: r = x

∑

yi

∑

xi

i =1 n i =1

1 S r2  N − n  ˆ • VARIANZA ESTIMADA DE r: V (r ) = 2 µ x n  N 

1 n 2 Sr = ( yi − rxi ) ∑ n − 1 i =1 2

39

4. Muestreo con información auxiliar 4.2 Estimación de razón 4.2.1 Estimación de la media y el total poblacionales Entre X e Y existe una alta correlación lineal positiva y que el modelo lineal pasa por el origen.

• ESTIMADOR DE LA MEDIA:

µˆ y = rµ x

•VARIANZA ESTIMADA DEL ESTIMADOR:

• ESTIMADOR DEL TOTAL:

2 S Vˆ (µˆ y ) = µ Vˆ (r ) = r n 2 x

 N −n    N 

τˆ y = rτ x

•VARIANZA ESTIMADA DEL ESTIMADOR: 2 2 2 τ S N − n S   2 r  N −n Vˆ (τˆy ) = τ x2Vˆ (r ) = x2 r  = N   µ x n  N  n  N 

40

4. Muestreo con información auxiliar 4.2 Estimación de razón 4.2.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error de magnitud B

Nσ r2 n= 2 σ r + ND

 B 2 µ x2  4 para estimar la razón    2  B para estimar la media D= 4   2  B  4 N 2 para estimar el total  

• N debe ser conocido o estimado •

σ r2 se estima utilizando una muestra previa (tamaño n’): σˆ r2 = S r2

•

µˆ x2 = x 2

41

4. Muestreo con información auxiliar 4.3 Estimación de regresión Entre X e Y existe una alta correlación lineal positiva y el modelo lineal no pasa por el origen.

aˆ = y − bˆx

Modelo lineal simple

y = a + bx

n

Método de mínimos cuadrados

bˆ =

s xy s x2

ˆ + bx ˆ = y + bˆ ( x − x ) y = y − bx

S x2

=

∑ (y i =1

i

− y )( xi − x )

n

2 ( ) x − x ∑ i i =1

1 n 2 S = x − x ( ) ∑ i n − 1 i =1

1 n 2 s = ∑ ( xi − x ) n i =1

1 n S xy = ( xi − x )( yi − y ) ∑ n − 1 i =1

1 n sxy = ∑ ( xi − x )( yi − y ) n i =1

2 x

donde

=

S xy

2 x

42

4. Muestreo con información auxiliar 4.3 Estimación de regresión 4.3.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA:

µˆ yL = aˆ + bˆµ x = y + bˆ(µ x − x )

2 S L • VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (µˆ yL ) = n

( (

1 n S = yi − y + bˆ ( xi − x ) ∑ n − 2 i =1 2 L

n − 1  2 S xy =  S y − 2 n−2 Sx 2

))

2

 N −n    N 

n 1  n 2 2 2 ˆ = y − y − b x − x ( i ) ∑( i ) ∑ n − 2  i =1 i =1 

 n −1 2 n 2 2 S y (1 − rxy ) = s y (1 − rxy2 )  = n−2  n−2

• ESTIMADOR DEL TOTAL:

τˆ yL = Nµˆ yL

• VARIANZA ESTIMADA DEL ESTIMADOR:

Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL )

43

4. Muestreo con información auxiliar 4.3 Estimación de regresión 4.3.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la media y el total no supere una cota de error de magnitud B

Nσ L2 n= 2 σ L + ND

•

 B2  4 para estimar la media  D=  B2  para estimar el total  4 N 2

σ L2 se estima utilizando una muestra previa (tamaño n’): σˆ L2 = S L2

44

4. Muestreo con información auxiliar 4.4 Estimación de diferencia Entre X e Y existe una alta correlación lineal positiva y la pendiente del modelo es uno.

4.4.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: µˆ yD = y + (µ x − x ) = µ x + d donde d = y − x •VARIANZA ESTIMADA DEL ESTIMADOR: donde S

2 D

S D2  N − n  ˆ V (µˆ yD ) =   n  N 

2 2 1 n 1 n ( ( ) ) ( ) = y − x + d = d − d y ∑ i i ∑ i n − 1 i =1 n − 1 i =1

d i = y i − xi

S D2 = cuasivarianza de los d i • ESTIMADOR DEL TOTAL:

τˆ yD = Nµˆ yD

•VARIANZA ESTIMADA DEL ESTIMADOR:

Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD )

45

4. Muestreo con información auxiliar 4.4 Estimación de diferencia 4.4.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la media y el total no supere una cota de error de magnitud B

Nσ D2 n= 2 σ D + ND

 B2  4 para estimar la media  D=  B2  para estimar el total  4 N 2

• σ D se estima utilizando una muestra previa (tamaño n’): 2

σˆ D2 = S D2

46

5. Muestreo sistemático 5.1 Selección de una muestra sistemática. Usos. Ventajas Muestra Sistemática de 1 en k: 1. Ordenar los elementos de la población 2. Seleccionar aleatoriamente un elemento i (llamado punto de inicio) de los primeros k elementos de la población. 3. Después seleccionar cada k-esimo elemento hasta conseguir una muestra de tamaño n . N k se toma como el número entero menor o igual que n

Ventajas del muestreo sistemático frente al muestreo aleatorio simple: • En la práctica, el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. • Frecuentemente, con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. 47

5. Muestreo sistemático 5.2 Estimación de la media, proporción y el total poblacionales • ESTIMADOR DE LA MEDIA POBLACIONAL: µˆ = y sy =

1 n ∑ yi + ( j −1) k n j =1

2 S  N −n •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ ( y sy ) =   n  N  σ2 N −n σ2 V (y) = [ V y sy = 1 + (n − 1)ρ ] n N −1 n

( )

ρ

= coef. Correlación entre los elementos de la muestra sistemática

• ESTIMADOR DEL TOTAL POBLACIONAL:

τˆ = Ny sy

2 S •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (τˆ ) = N Vˆ ( y sy ) = N n 2

• ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy = •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ ( pˆ sy ) =

2

 N −n   N  

1 n ∑ y i + ( j −1) k n j =1

pˆ sy qˆ sy  N − n    n −1  N 

48

5. Muestreo sistemático 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas V (y) =

σ2 N −n n N −1

V ( y sy ) =

σ2 n

[1 + (n − 1)ρ ]

1. Población ordenada: cuando los elementos que la constituyen están ordenados de acuerdo con los valores, crecientes o decrecientes, de una determinada característica.

ρ ≤0

V ( y sy ) ≤ V ( y )

m.s. es preferible al m.a.s.

2. Población aleatoria: cuando los elementos están ordenados al azar.

ρ≅0

V ( y sy ) ≅ V ( y )

Es indiferente usar m.s. ó m.a.s.

3. Población periódica: cuando los elementos tienen una variación cíclica.

ρ ≥0

V ( y sy ) > V ( y )

m.a.s. es preferible al m.s.

49

5. Muestreo sistemático 5.4 Determinación del tamaño muestral Tamaño muestral necesario para estimar la media y el total poblacionales con un límite B para el error de estimación  B2  4 para estimar la media  Nσ 2 D= n= 2 ( N − 1) D + σ  2  B para estimar el total  4N 4N 2 Tamaño muestral necesario para estimar la proporción poblacional con un límite B para el error de estimación

n=

Npq ( N − 1) D + pq

 B2  4 para estimar la proporción  D=  2  B para estimar el total  4N 2 50

6. Muestreo por Conglomerados 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. Notación N = conglomerados en la población.

n = conglomerados en la muestra. mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i N

M = ∑ mi = elementos en la población i =1

n

m = ∑ mi = elementos en la muestra M=

1 N

i =1

N

∑m i =1

i

= tamaño medio de los conglomerados de la población. 1 n m = ∑ mi = tamaño medio de los conglomerados de la muestra. n i =1 51

6. Muestreo por Conglomerados 6.3 Estimación de la media, proporción y total poblacionales. n

µ=y=

∑y i =1 n

i

∑m i =1

i

1 N − n Sc2 V ( y) = 2 N n M

τɵ = M y

V (τɵ ) = M 2 V ( y )

τɵ t = N y t

2 S V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t n

1 n y t = ∑ yi n i =1

N − n St2 V ( yt ) = N n

Si m1 = m2 = ... = mN

(

1 n S = yi − ymi ∑ n − 1 i =1 2 c

(

1 n S = yi − y t ∑ n − 1 i =1 2 t

⇒ M y = N yt

)

2

52

)

2

6. Muestreo por Conglomerados 6.4 Determinación del tamaño muestral. n

τɵ = M y

µ=y=

∑y i =1 n

i

∑m i =1

i

2

Nσ c2 n= ND + σ c2

1 n σ =S = yi − ymi ∑ n − 1 i =1

τɵ t = N y t

1 n y t = ∑ yi n i =1

Nσ t2 n= ND + σ t2

2 c

(

2 c

)

2

B M D= 4 B2 D= 4N 2

(media) (total )

m.a.s. sobre los totales de los conglomerados

(

1 n σ =S = yi − y t ∑ n − 1 i =1 2 t

2

2 t

)

2

B2 D= . 2 4N

53

7. Estimación del tamaño de la población 7.1 Muestreo directo 1. Se selecciona una muestra aleatoria de tamaño t, se marcan y devuelven a la población. 2. Se selecciona una muestra de tamaño n (fijado de antemano) de la misma población y se observa cuántos de ellos están marcados. (s= nº elementos marcados en esta muestra) Proporción de elementos marcados en la 2ª muestra:

p = proporción de elementos marcados en la población

t = N

pˆ =

s n

t ⇒ N= p

t t nt ˆ = • ESTIMADOR DE N: N = = pˆ s / n s

( )

2 t n( n − s ) • VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ Nˆ = s3

54

7. Estimación del tamaño de la población 7.2 Muestreo inverso

1. Se selecciona una muestra aleatoria de tamaño t de la población, se marcan y se devuelven a la población. 2. Se selecciona una muestra de tamaño n hasta que se obtienen s elementos marcados.

• ESTIMADOR DE N:

t t nt Nˆ = = = pˆ s / n s

• VARIANZA ESTIMADA DEL ESTIMADOR:

( )

2 t n( n − s ) ˆ ˆ V N = 2 s (s + 1)

55

7. Estimación del tamaño de la población 7.3.1 Estimación de la densidad y del tamaño de la población A= área donde está contenida la población 1. Se divide a la población en N cuadros de igual área mi =nº elementos en el cuadro i-esimo

a

2. Se toma una muestra de n cuadros de los N existentes. Se observa el número de elementos que contiene la muestra: n

m = ∑ mi i =1

3. Se calcula la densidad de elementos en la muestra: nº elementos en la muestra m λˆ = = área de la muestra na 4. Dado que la densidad poblacional es

λ=

nº elementos en la población M = área de la población A

⇒ M = Aλ 56

7. Estimación del tamaño de la población 7.3.1 Estimación de la densidad y del tamaño de la población • ESTIMADOR DE LA DENSIDAD:

m ˆ λ= na

•VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (λˆ ) =

m ˆ 1 = λ na a 2n2

m ˆ ˆ • ESTIMADOR DEL TAMAÑO POBLACIONAL: M = Aλ = A na •VARIANZA ESTIMADA DEL ESTIMADOR:

2 A m ˆ Vˆ ( Mˆ ) = A Vˆ (λ ) = 2 2 a n 2

7.3.2 Muestreo por cuadros en el espacio temporal En determinadas ocasiones, podemos tomar los cuadros como intervalos temporales 57

7. Estimación del tamaño de la población 7.3.3 Cuadros cargados Cuadro cargado=cuadro que contiene al menos un elemento objeto de estudio 1. Se divide a la población en N cuadros de igual área a 2. Se toma una muestra de n cuadros de los N existentes. y = número de cuadros no cargados 3. La densidad poblacional se estima como y su varianza como

Dado que

1 n− y Vˆ (λˆ ) = 2 a ny

1 a

 y n

λˆ = − ln 

M = Aλ

ESTIMADOR DEL TAMAÑO DE LA POBLACIÓN

VARIANZA ESTIMADA DEL ESTIMADOR

A  y Mˆ = Aλˆ = − ln  a n

2 A n− y Vˆ ( Mˆ ) = 2 a ny

58

8. Análisis Cluster 8.1 Introducción Análisis cluster: serie de técnicas que tienen por objeto la búsqueda de grupos similares de individuos o variables. Es una técnica completamente numérica en la que no se realizan hipótesis previas. Pasos en un análisis cluster: •

Establecer un indicador (distancia o similaridad) que nos diga en qué medida cada par de observaciones se parece entre sí.

2. Crear los grupos de forma que cada uno de ellos contenga aquellas observaciones que más se parezcan. 3. Describir los grupos obtenidos y compararlos.

Tipos de técnicas para realizar este análisis: •Técnicas jerárquicas •Técnicas no jerárquicas

59

8. Análisis Cluster 8.2 Medidas de similaridad Ejemplo 8.1 30,00

Nombre Empresa

Inversión publicidad

Ventas

E8

E4

16

10

E2

12

14

E3

10

22

E4

12

25

E5

45

10

E6

50

15

E7

45

25

E8

50

27

E3

Ventas

E1

E7

25,00

20,00

E6

15,00 E2

E1

E5

10,00

10

20

30

Inversion

40

50

60

8. Análisis Cluster 8.2 Medidas de similaridad 8.2.1 Medidas de similaridad para variables métricas k

∑

(A) Distancia Euclídea: D ij = Ejemplo 8.2

p =1

( x ip − x jp )

2

D12 =

(16 − 12 ) + (10 − 14 ) 2

2

= 5, 66

Matriz de distancias euclideas distancia euclídea Caso

1:E1

2:E2

5:E5

6:E6

7:E7

8:E8

,00

5,66

13,42

15,52

29,00

34,37

32,65

38,01

2:E2

5,66

,00

8,25

11,00

33,24

38,01

34,79

40,16

3:E3

13,42

8,25

,00

3,61

37,00

40,61

35,13

40,31

4:E4

15,52

11,00

3,61

,00

36,25

39,29

33,00

38,05

5:E5

29,00

33,24

37,00

36,25

,00

7,07

15,00

17,72

6:E6

34,37

38,01

40,61

39,29

7,07

,00

11,18

12,00

7:E7

32,65

34,79

35,13

33,00

15,00

11,18

,00

5,39

8:E8

38,01

40,16

40,31

38,05

17,72

12,00

5,39

,00

∑ (x k

p =1

4:E4

1:E1

(B) Distancia Euclídea al cuadrado: D ij =

3:E3

ip

− x jp )

2

(C) Distancia de Minskowski:  k n  D ij =  ∑ x ip − x jp   p =1 

1 n

61

8. Análisis Cluster 8.2 Medidas de similaridad 8.2.2 Medidas de similaridad para datos binarios Ejemplo 8.3 Observaciones E1

Variables X1

X2

X3

X4

1

1

0

0

E2

0

1

1

1

E3

1

1

0

1

E4

0

0

0

1

E5

1

1

1

0

(A) Distancia euclídea al cuadrado (B) Distancia euclídea Dij = (C) Diferencia de tamaño

E2

E1

1 0

1 0

1 1 2 0 1 0

E2

1 a b 0 c d

Dij = b + c

b+c

Dij =

E1

Ejemplo 8.4

(b − c )

2

(a + b + c + d )

2

D12 =

( 2 − 1)

2

(1 + 2 + 1 + 0 )

2

= 0, 063 62

8. Análisis Cluster 8.3 Estandarización de los datos Ejemplo 8.5 En el siguiente cuadro se recoge el tamaño de los activos y el número de trabajadores de 8 empresas: Empresa

Activos

Trabajadores

E1

10.000.000.000

100

E2

10.050.000.000

90

E3

10.000.000.000

200

E4

10.050.000.000

190

E5

20.000.000.000

200

E6

20.050.000.000

190

E7

20.000.000.000

100

E8

20.050.000.000

90

63

8. Análisis Cluster 8.3 Estandarización de los datos Matriz de distancias

Ejemplo 8.5 (Continuación) Caso 1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8

1:E1 ,000 5,0E+07 100,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10

2:E2 5,0E+07 ,000 5,0E+07 100,000 1,0E+10 1,0E+10 1,0E+10 1,0E+10

3:E3 100,000 5,0E+07 ,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10

distancia euclídea 4:E4 5:E5 5,0E+07 1,0E+10 100,000 1,0E+10 5,0E+07 1,0E+10 ,000 1,0E+10 1,0E+10 ,000 1,0E+10 5,0E+07 1,0E+10 100,000 1,0E+10 5,0E+07

6:E6 1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 ,000 5,0E+07 100,000

7:E7 1,0E+10 1,0E+10 1,0E+10 1,0E+10 100,000 5,0E+07 ,000 5,0E+07

8:E8 1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 100,000 5,0E+07 ,000

Esta es una matriz de disimilaridades

GRUPO 1: [E1,E2,E3,E4] Activos en torno de los 10.000 millones GRUPO 2: [E5,E6,E7,E8] Activos en torno de los 20.000 millones Procesos de estandarización: • Puntuaciones Z. • Rango 1. • Rango 0 a 1.

64

8. Análisis Cluster 8.3 Estandarización de los datos Ejemplo 8.6

Matriz de distancias Distancia euclídea

Caso

1:E1

2:E2

3:E3

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

,000

,186

1,862

1,675

2,639

2,518

1,871

1,889

2:E2

,186

,000

2,048

1,862

2,767

2,639

1,871

1,871

3:E3

1,862

2,048

,000

,186

1,871

1,889

2,639

2,780

4:E4

1,675

1,862

,186

,000

1,871

1,871

2,504

2,639

5:E5

2,639

2,767

1,871

1,871

,000

,186

1,862

2,048

6:E6

2,518

2,639

1,889

1,871

,186

,000

1,675

1,862

7:E7

1,871

1,871

2,639

2,504

1,862

1,675

,000

,186

8:E8

1,889

1,871

2,780

2,639

2,048

1,862

,186

,000

GRUPO 1: E1 y E2

GRUPO 2: E3 y E4

GRUPO 3: E5 y E6

GRUPO 4: E7 y E8 65

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (A) Método de agrupación de centroides distancia euclídea al cuadrado

Ejemplo 8.7 Caso

1:E1

2:E2

3:E3

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

0

32

180

241

841

1181

1066

1445

2:E2

32

0

68

121

1105

1445

1210

1613

3:E3

180

68

0

13

1369

1649

1234

1625

4:E4

241

121

13

0

1314

1544

1089

1448

5:E5

841

1105

1369

1314

0

50

225

314

6:E6

1181

1445

1649

1544

50

0

125

144

7:E7

1066

1210

1234

1089

225

125

0

29

8:E8

1445

1613

1625

1448

314

144

29

0

Observaciones más cercana: E3 y E4 (distancia=13)

Grupo E3-4

10 + 12 = 11 2 22+25 Ventas de E3-4= = 23,5 2

Calculo del centroide de E3-4: Publicidad de E3-4 =

66

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación)

Datos actualizados: Nombre Empresa

Inversión en publicidad

Ventas

E1

16

10

E2

12

14

E3-4

11

23,5

E5

45

10

E6

50

15

E7

45

25

E8

50

27

67

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación)

Matriz de distancias actualizadas distancia euclídea al cuadrado

Caso

1:E1

2:E2

3:E3-4

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

,0

32,0

207,3

241,0

841,0

1181,0

1066,0

1445,0

2:E2

32,0

,0

91,3

121,0

1105,0

1445,0

1210,0

1613,0

3:E3-4

207,3

91,3

,0

3,3

1338,3

1593,3

1158,3

1533,3

4:E4

241,0

121,0

3,3

,0

1314,0

1544,0

1089,0

1448,0

5:E5

841,0

1105,0

1338,3

1314,0

,0

50,0

225,0

314,0

6:E6

1181,0

1445,0

1593,3

1544,0

50,0

,0

125,0

144,0

7:E7

1066,0

1210,0

1158,3

1089,0

225,0

125,0

,0

29,0

8:E8

1445,0

1613,0

1533,3

1448,0

314,0

144,0

29,0

,0

DE1, E 3− 4 = (16 − 11) + (10 − 23,5 ) = 207,3 2

2

Próxima unión E7-E8

68

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación) Historial de conglomeración

Etapa 1 2 3 4 5 6 7

Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5

Coeficientes 13,000 29,000 32,000 50,000 141,250 182,250 1227,250

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6

Próxima etapa 5 6 5 6 7 7 0

En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se fusionan dos grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre de uno solo de sus integrantes (E1-2 se representa por 1, E3-4 se representa por 3). La columna de coeficientes refleja las distancias a las que estaban los grupos que se 69 van fusionando en cada etapa.

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación) * * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * *

Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

E3

3

òûòòòø

E4

4

ò÷

E1

1

òûòòò÷

ó

E2

2

ò÷

ó

E7

7

òûòòòòòø

ó

E8

8

ò÷

E5

5

òûòòòòò÷

E6

6

ò÷

ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø

ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 70

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (B) Método del vecino más cercano (vinculación simple)

Ejemplo 8.8 Historial de conglomeración

Etapa 1 2 3 4 5 6 7

Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5

Coeficientes 13,000 29,000 32,000 50,000 68,000 125,000 841,000

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6

Próxima etapa 5 6 5 6 7 7 0

71

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.8 (Continuación) 30,00

E8

2

1 E4

25,00

E7

Ventas

E3

20,00

6 5 E6

15,00

4

E2

7

3 E1

E5

10,00

10

20

30

Inversion

40

50

72

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (C) Método del vecino más lejano (vinculación completa)

Ejemplo 8.9 Historial de conglomeración

Etapa 1 2 3 4 5 6 7

Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5

Coeficientes 13,000 29,000 32,000 50,000 241,000 314,000 1649,000

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6

Próxima etapa 5 6 5 6 7 7 0

73

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.9 (Continuación) 30,00

E8

2

1 E4

25,00

E7

Ventas

E3

20,00

6 5 7 E6

15,00

4

E2

3 E1

E5

10,00

10

20

30

Inversion

40

50

74

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (D) Método de la vinculación promedio (vinculación intergrupos)

Ejemplo 8.10 Historial de conglomeración

Etapa 1 2 3 4 5 6 7

Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5

Coeficientes 13,000 29,000 32,000 50,000 152,500 202,000 1323,625

Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6

Etapa 5:

Próxima etapa 5 6 5 6 7 7 0

Observ.

Distancia

E1, E3

180

E1, E4

241

E2, E3

68

E2, E4

121

Media

152,5

75

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Selección del número de conglomerados de la solución • Dendograma • Tasas de variación entre los coeficientes de conglomeración obtenidos en etapas sucesivas Etapa

Observaciones que se fusionan

Grupos Resultantes

Nº grupos

Coeficiente

Tasa de Variación

1

[E3,E4]

[E3,E4],E1,E2,E5,E6,E7,E8

7

6,5

2,23

2

[E7,E8]

[E3,E4][E7,E8],E1,E2,E5,E6

6

21

0,76

3

[E1,E2]

[E1,E2][E3,E4][E7,E8],E5,E6

5

37

0,67

4

[E5,E6]

[E1,E2][E3,E4][E5,E6][E7,E8]

4

62

2,27

5

[E1,E2][E3,E4]

[E1,E2,E3,E4][E5,E6][E7,E8]

3

203,3

0,89

6

[E5,E6][E7,E8]

[E1,E2,E3,E4][E5,E6,E7,E8]

2

385,5

6,32

7

[E1,E2,E3,E4][E5,E6,E7,E8]

[E1,E2,E3,E4,E5,E6,E7,E8]

1

2824

-

21 − 6,5 T1 = = 2, 23 6,5

76

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos A. Selección de los centroides iniciales Aspectos a tener en cuenta en la elección de los centroides iniciales: 1. El investigador propone los centroides iniciales. 2. Si éste no está seguro, un posible camino es realizar un análisis jerárquico y observar el dendograma. 3. Si no se tiene ninguna idea previa, el SPSS (u otros paquetes estadísticos) los selecciona. B. Asignación de observaciones a grupos (cluster)

C. Se recalculan los centroides

D. Se aplica criterio de convergencia 77

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 1. Calcular la distancia de cada observación a los centroides iniciales calculados en la fase anterior. Cada observación se asigna al conglomerado al que esté más cercano (utilizando distancias euclideas). Inversión

Ventas

Distancias Centroide 1

Distancias Conglomerado Centroide 2 asignado

E1

16

10

34,37

15,52

2

E2

12

14

38,01

11

2

E3

10

22

40,61

3,61

2

E4

12

25

39,29

0

2

E5

45

10

7,07

36,25

1

E6

50

15

0

39,29

1

E7

45

25

11,18

33

1

E8

50

27

12

38,05

1

78

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 2. Una vez efectuada la asignación de observaciones a conglomerados, se recalculan los centroides Centroides iniciales

Centroides finales

Conglomerado

Publicidad

1

50

15

47,5

19,25

2

12

25

12,5

17,75

45 + 50 + 45 + 50 = 47,5 4 16 + 12 + 10 + 12 = 12,5 4

Ventas Publicidad

Ventas

10 + 15 + 25 + 27 = 19, 25 4 10 + 14 + 22 + 25 = 17, 75 4 79

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 3. Se repite el paso 1 clasificando cada observación en el conglomerado del que dista menos. El proceso se detiene cuando no se produce ninguna reasignación de observaciones a conglomerados o hasta que se alcance un determinado número de iteraciones que se puede establecer como opción al ejecutar el análisis. Inversión Ventas Distancias Distancias Conglomerado Centroide 1 Centroide 2 asignado E1

16

10

32,83

8,50

2

E2

12

14

35,89

3,78

2

E3

10

22

37,60

4,93

2

E4

12

25

35,96

7,27

2

E5

45

10

9,58

33,41

1

E6

50

15

4,93

37,60

1

E7

45

25

6,27

33,30

1

E8

50

27

8,14

38,62

1

80

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: Centros iniciales de los conglomerados

Historial de iteraciones(a) Cambio en los centros de los conglomerados

Conglomerado 1

2

Inversión

50

12

Iteración

Ventas

15

25

1

4,931

7,267

2

,000

,000

d = (47,5 − 50) 2 + (19, 25 − 15) 2 = 4,931

d = (50 − 12) 2 + (15 − 25) 2 = 39, 29

1

2

a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es de 39,294.

81

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: Pertenencia a los conglomerados Nº de caso

Centros de los conglomerados finales Conglomerado

Conglomerado

Distancia

1

E1

2

8,504

2

E2

2

3,783

3

E3

2

4,931

4

E4

2

7,267

5

E5

1

9,582

6

E6

1

4,931

7

E7

1

6,270

8

E8

1

8,143

1

2

Inversión

47,50

12,50

Ventas

19,25

17,75

82

8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: ANOVA Conglomerado Media cuadrática Inversión Ventas

Error Media cuadrática

gl

F

gl

Sig.

2450,000

1

7,333

6

334,091

,000

4,500

1

56,917

6

,079

,788

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales. 83

9. Componentes principales 9.1 Introducción La utilidad de la técnica de componentes principales es doble:

1. Por un lado, el análisis de componentes principales permite resumir de forma óptima la información proporcionada por las variables originales mediante las componentes.

2. Permite transformar las variables originales, en general correladas (solapamiento en la información), en nuevas variables incorreladas, facilitando la interpretación de los datos.

84

9. Componentes principales 9.2 Componentes principales

[

]

Sea S la matriz de covarianza asociada con el vector aleatorio X ' = X 1 , X 2 ,..., X p . Supongamos

que

S

( λ1 , φ1 ) , ( λ2 , φ2 ) ,..., ( λ p , φ p )

tiene

pares

de

valores

y

vectores

propios

donde

λ1 ≥ λ2 ≥ ⋯ ≥ λ p ≥ 0. La i-ésima componente

principal está dada por

Yi = φi' X = φi1 X 1 + φi 2 X 2 + ⋯ + φip X p , i = 1, 2,..., p con esta elección Var (Yi ) = φi' Sφi = λi , i = 1, 2,..., p Cov(Yi , Yk ) = φ Sφk = 0, i ≠ k ' i

•

85

9. Componentes principales 9.2 Componentes principales Sean Y1 = φ1' X , Y2 = φ2' X ,..., Yp = φ p' X las componentes principales. Entonces p

p

i =1

i =1

s11 + s22 + ⋯ + s pp = ∑ Var ( X i ) = λ1 + λ2 + ⋯ + λ p = ∑ Var (Yi ) .

La proporción de la varianza total explicada por la k -esima componente principal es

λk

λ1 + ⋯ + λ p

, k = 1,2,..., p

el coeficiente de correlación entre la componente Yi y la variable X k es: rYi , X k =

φik λi skk

, i, k = 1, 2,..., p

86

9. Componentes principales 9.2 Componentes principales Ejemplo9.1

 3.50  1.9 1.1 x = ; S =    3.50   1.1 1.1

S − λI = 0

1.9 − λ 1.1 1.9 1.1 1 0 =0  −λ  =0⇔ 1.1 1.1 − λ  1.1 1.1 0 1

λ 2 − 3λ + 0.88 = 0

( S − λ1I ) φ1 = 0. −0.77φ11 + 1.10φ12 = 0 1.10φ11 − 1.57φ12 = 0

λ1 = 2.67 y λ2 = 0.33

 1.9 1.1  1 0    φ11   −0.77 1.1   φ11    − 2.67    φ  = 0 ⇔   φ  = 0 1.1 1.1 0 1 1.1 − 1.57      12     12  

⇒ φ11 = 1.43φ12 .

φ112 + φ122 = 1

 0.82  ⇒ φ1 =    0.57 

87

9. Componentes principales 9.2 Componentes principales

X  X  Y1 = φ '1  1  = ( 0.82 0.57 )  1  = 0.82 X 1 + 0.57 X 2  X2   X2  X  Y2 = ( −0.57 0.82 )  1  = −0.57 X 1 + 0.82 X 2  X2 

88

9. Componentes principales 9.2 Componentes principales 0  1.9 1.1  2.67 S = ; S = Y    0.33   1.1 1.1  0

rx1x2 =

s12 ( X ) 1.1 = = 0.76 s11 ( X ) s22 ( X ) 1.9 1.1

2

∑Var ( X ) =tr ( S ) = 1.9 + 1.1 = 3 i

i =1 2

∑Var (Y ) =tr (S i

i =1

rY1 , X1 =

φ11 λ1 s11

=

λ1

x

λ1 + λ2

2

Y ) = ∑ λi = 2.67 + 0.33 = 3

=

2.67 = 0.89 3

i =1

0.82 2.67 = 0.97 1.9

rY1 , X 2 =

φ12 λ1 s22

=

0.57 2.67 = 0.89 1.1

89

9. Componentes principales 9.2 Componentes principales Estadísticos descriptivos

VAR00001

Media 3,5000

Desviación típica 1,37840

N del análisis 6

VAR00002

3,5000

1,04881

6

Varianza total explicada Componente

Bruta

Autovalores iniciales(a)

1

Total 2,670

% de la varianza 89,016

% acumulado 89,016

2

,330

10,984

100,000

Método de extracción: Análisis de Componentes principales. Matriz de componentes(a) Bruta

Reescalada

Componente

Componente

1

1

VAR00001

1,338

,971

VAR00002

,938

,894

φ11 =

1,338 = 0,82 2, 67

φ12 =

0,938 = 0,57 2, 67

90

9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas

Zi

X i − µi ) ( = sii

E [Z ] = 0

p

p

i =1

i =1

Cov( Z ) = R

∑ Var (Yi ) = ∑Var ( Z i ) = p

rYi , Zk = φik λi , i, k = 1,..., p λk p

91

9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas 1 4  S =  4 100  

 1 0.4  R= .  0.4 1 

'  λ1 = 100.16 φ1 = ( 0.040, 0.999 )  S :  λ = 0.84 φ ' = ( 0.999, −0.040 ) 2 2 

 Y1 = 0.040 X 1 + 0.999 X 2 S :  Y2 = 0.999 X 1 − 0.040 X 2

λ1

λ1 + λ2 rY1 , X1 = rY1 , X 2 =

φ11 λ1 s11

φ12 λ1 s22

=

100.16 = 0.992 101

= 0.4 =

0.999 100.16 = 0.999 100

92

9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas '  λ1 = 1.4 φ1 = ( 0.707, 0.707 )  R:  λ = 0.6 φ ' = ( 0.707, −0.707 ) 2  2

 X 1 − µ1   X 2 − µ2  = 0.707 + 0.707 = 0.707 + 0.707 Y Z Z  1 1 2     1 10       = 0.707 ( X 1 − µ1 ) + 0.0707 ( X 2 − µ2 ) R:  Y = 0.707 Z − 0.707 Z = 0.707  X 1 − µ1  − 0.707  X 2 − µ2  1 2      2  1   10   = 0.707 ( X 1 − µ1 ) − 0.0707 ( X 2 − µ2 )

rY1 , Z1 = φ11 λ1 = 0.707 1.4 = 0.837 rY1 , Z 2 = φ12 λ1 = 0.707 1.4 = 0.837

λ1 p

=

1.4 = 0.7 2

93