Story Transcript
1. Elementos del problema de Muestreo 1.1 Definiciones básicas Elemento o unidad de muestreo: objeto en el que se toman las mediciones Población objetivo: conjunto de elementos que deseamos estudiar Muestra: subconjunto de la población
Población muestreada: colección de todos los elementos posibles que podrían seleccionarse para la muestra
Unidad de muestreo: son conjuntos (no solapados) de elementos de la población que cubren la población completa
Marco de muestreo: es la lista de las unidades de muestreo 1
1. Elementos del problema de Muestreo 1.1 Definiciones básicas Población Objetivo
Población del marco de muestreo
No localizable
No incluida en el marco de muestreo
Rehusa responder
POBLACIÓN MUESTREADA
No es elegible para la encuesta
Otras causas……
2
1. Elementos del problema de Muestreo 1.2 Selección de la muestra Muestreo aleatorio simple: Todas las muestras de un determinado tamaño tienen la misma probabilidad de ser seleccionadas. Muestreo aleatorio estratificado: Se divide a la población en grupos, denominados estratos, y se seleccionar una muestra aleatoria simple de cada estrato. Muestreo por conglomerados: Se divide a la población en grupos, denominados conglomerados, y seleccionar una muestra aleatoria simple de conglomerados. Muestreo sistemático: Consiste en seleccionar un elemento al comienzo de una lista de la población y luego se selecciona cada un número fijo de posiciones el resto de elementos.
3
1. Elementos del problema de Muestreo 1.3 Fuentes de error 1.3.1 Errores de muestreo θ = característica desconocida de la población
θˆ = estimador de la característica
θˆ − θ = Error de estimación
P θˆ − θ ≤ B = 1 − α ,
0 30)
p− p → N (0,1) pqɵ n −1
16
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.1. Media, varianza y proporción muestrales: Propiedades. Error de estimación.
σ σ σ µ P −2 ≤ y−µ ≤2 = 0,95 ⇒ P y − ≤ 2 = 0,95 n n n
y−µ P − Zα ≤ ≤ Zα = 1 − α σ 2 2 n
y−µ P −1,96 ≤ ≤ 1,96 = 0,95 σ n
1,96 ≈ 2
σ σ Py −2 ≤ µ ≤ y+2 = 0,95 n n
σ σ y − 2 , y + 2 n n 17
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.1. Media, varianza y proporción muestrales: Propiedades. Error de estimación.
σ P y−µ ≤ 2 = 0,95 n Desigualdad de Tchebychev
E(X ) = µ
( )
V (X ) =σ2
( )
E y =µ V y =
σ2 n
k=2
⇒
P X − µ ≤ kσ ≥ 1 −
1 k2
σ 1 ⇒ P y−µ ≤ 2 ≥ 1 − 4 = 0, 75 n 18
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.2 Estimación puntual. Intervalos de confianza. Contrastes de hipótesis.
ESTIMACIÓN PUNTUAL
INTERVALO DE CONFIANZA
1 n y = ∑ yi n i =1
2 V ( y) = 2
S n
S S , y+2 y−2 n n
S S se acepta H 0 : µ = µ0 si µ0 ∈ y − 2 ,y+2 n n CONTRASTE DE HIPÓTESIS
se rechaza H 0
S S si µ0 ∉ y − 2 ,y+2 n n 19
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas 2.2.3 Determinación del tamaño muestral.
2 V ( y) = 2
σ2 n
=B
4
σ2 n
=B ⇒n= 2
σ =S 2
pq 2 V ( p) = 2 =B n
σ2 2
B 4
2
pq pq n= 2 = B D 4 p= p
=
σ2 D
B2 , D= 4
R σ≅ 4
R2 ⇔ σ ≅ 16 2
B2 , D= 4 1 p=q= 2
20
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas MEDIA
VARIANZA DEL ESTIMADOR
1 n p = ∑ yi , n i =1
1 n y = ∑ yi n i =1
ESTIMADOR
CUASIVARIANZA MUESTRAL
PROPORCIÓN
(
1 n S = yi − y ∑ n − 1 i =1 2
V ( y) =
σ2 n
)
2
(
yi = 0, 1
1 n S = ∑ yi − y n − 1 i =1 2
S2 pq V ( p) = V ( y) = n n
)
2
n pqɵ = n −1
pqɵ V ( p) = n −1 21
2. Muestreo Aleatorio Simple 2.2 Muestreo aleatorio simple en poblaciones infinitas MEDIA
PROPORCIÓN
S 2 V ( y) = 2 n
pqɵ 2 V ( p) = 2 n −1
S S , y+2 y−2 n n
pqɵ pqɵ p−2 , p+2 n −1 n −1
LIMITE DEL ERROR DE ESTIMACIÓN=B
INTERVALO DE CONFIANZA
TAMAÑO MUESTRAL
n=
σ2 2
B 4
=
σ2 D
B2 , D= 4
pq pq n= 2 = B D 4
B2 , D= 4 22
2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.1 Estimación de la media, proporción y total poblacionales.
( )
n
E y =µ
1 µ = y = ∑ yi n i =1
( )
V y =
σ2 N −n
E (S2 ) =
n N −1
N σ2 N −1
N −1 2 E S =σ2 N
S2 N − n V y = n N
( )
N −n N
N τɵ = N y = n
n
∑y i =1
i
1 N −n ≥ 0,95 ⇔ n ≤ N = 5% N 20 N
2 2 S N − n S V (τɵ ) = V ( N y ) = N V ( y ) = N = N ( N − n) n N n 2
2
23
2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.1 Estimación de la media, proporción y total poblacionales.
1 n p = ∑ yi , n i =1
τɵ = N p
yi = 0, 1
n pqɵ S = n −1 2
S2 N − n pqɵ N − n V ( p) = = n N n −1 N
pqɵ 2 ɵ V (τ ) = V ( N p ) = N V ( p ) = N ( N − n) n −1
24
2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas 2.3.2. Determinación del tamaño muestral.
2
Nσ 2 =B ⇒ n= ( N − 1) D + σ 2 n N −1
σ2 N −n
σ =S 2
2
Npq n= ( N − 1) D + pq
p= p
B2 D= (media ) 4
R σ≅ 4
B2 D= 4
p=q=
( proporcion)
B2 D= 4N 2
(total )
R2 ⇔ σ ≅ 16 2
B2 D= 4N 2
(total )
1 2 25
2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas MEDIA TOTAL
ESTIMADOR
VARIANZA DEL ESTIMADOR
1 n y = ∑ yi τɵ = N y n i =1
S2 N − n V ( y) = n N
LIMITE DEL ERROR DE 2 V ( y) ESTIMACIÓN=B
PROPORCIÓN TOTAL
1 n p = ∑ yi n i =1
pqɵ N − n V (τɵ ) = N 2 V ( y ) V ( p) = n −1 N
2 V (τɵ ) = N 2 V ( y ) 2 V ( p)
τɵ = N p
V (τɵ ) = N 2 V ( p )
2 V (τɵ ) = N 2 V ( p ) 26
2. Muestreo Aleatorio Simple 2.3 Muestreo aleatorio simple en poblaciones finitas MEDIA TOTAL INTERVALO DE CONFIANZA
(y − 2
V ( y) , y + 2 V ( y)
) (p − 2
V ( p) , p + 2 V ( p)
)
(τɵ − 2
V (τɵ ) , τɵ + 2 V (τɵ )
) (τɵ − 2
V (τɵ ) , τɵ + 2 V (τɵ )
)
Nσ 2 n= ( N − 1) D + σ 2 TAMAÑO MUESTRAL
PROPORCIÓN TOTAL
B2 D= 4 B2 D= 4N 2
(media )
(total )
n=
Npq ( N − 1) D + pq
B2 D= 4
( proporcion)
B2 D= 4N 2
(total )
27
3. Muestreo Aleatorio Estratificado 3.1 Selección de una muestra aleatoria estratificada. Notación. L = número de estratos N = tamaño de la población
N i = tamaño del estrato
n = tamaño de la muestra
ni = tamaño de la muestra del estrato i L
N = ∑ Ni
n = ∑ ni
µi = media poblacional del estrato i
y i = media muestral del estrato i
L
i =1 i=
i =1 i=
τ i = total poblacional del estrato i σ i2 = varianza poblacional del estrato i pi = proporción poblacional del estrato i
Si2 = varianza muestral del estrato i p i = proporción muestral del estrato i
ci = coste de una observación del estrato i 28
3. Muestreo Aleatorio Estratificado 3.2 Estimación de la media, proporción y total poblacionales. L
N i y i = τɵ i
τ = ∑τ i i =1
L
τɵ st = ∑ N i y i i =1
2 S N −n V (τɵ st ) = ∑ N i2 V ( y i ) = ∑ N i2 i i i ni N i i =1 i =1 L
τɵ st
1 y st = = N N
L
∑N y i =1
i
i
1 V ( y st ) = 2 N
y st ≠ y
L
1 N V ( yi ) = 2 ∑ N i =1 2 i
L
Si2 N i − ni N ∑ ni N i i =1
τɵ st ≠ τɵ = N y
L
2 i
29
3. Muestreo Aleatorio Estratificado 3.2 Estimación de la media, proporción y total poblacionales. MEDIA TOTAL
1 y st = N
PROPORCIÓN TOTAL
L
∑N y i
i =1
i
L
1 p st = N
∑N i =1
i
pi
ESTIMADOR L
τɵ st = ∑ N i y i i =1
VARIANZA DEL ESTIMADOR
1 V ( y st ) = 2 N
L
τɵ st = ∑ N i p i i =1
Si2 N i − ni 1 L 2 p i qɵ i N i − ni V ( p st ) = 2 ∑ N i N ∑ N i =1 ni − 1 N i ni Ni i =1 L
2 i
2 S N −n V (τɵ st ) = ∑Ni2 i i i ni Ni i=1 L
V (τɵ st ) =
p i qɵ i N i − ni N ∑ ni − 1 N i i =1 L
2 i
30
3. Muestreo Aleatorio Estratificado 3.3 Determinación del tamaño muestral. 1 V ( y st ) = 2 N
2 V ( y st ) = B
L
∑ n=
i =1
N σ 2 i
ωi
N D + ∑ N iσ
L
σ = pi qi
i =1
∑ i =1
2 i
σ i2 N i − ni ni N i − 1
2 i
B2 D= 4
L
B2 D= 4N 2
N pi qi
ωi
N 2 D + ∑ N i pi qi
(media)
B2 D= 4N 2
2 i
i =1
ni = nωi
B2 D= 4
L
i =1
n=
∑N
2 i
2
2 i
L
(total )
( proporción)
(total ) 31
3. Muestreo Aleatorio Estratificado 3.4.1 Asignación óptima. N jσ j
ωj =
p jq j
Nj
cj
ωj =
Niσ i ∑ ci i =1 L
cj
L
∑ Ni i =1
pi qi ci
Minimiza el coste de obtención de la muestra para un límite del error de estimación fijado. L
L
∑ Ni σ i ci n=
∑
i =1
i =1
Ni σ i ci
L
∑ Ni n=
L
N D + ∑ N iσ 2
i =1
i =1
L
∑ Ni
pi qi ci
i =1
pi qi ci
L
N D + ∑ N i pi qi 2
2 i
i =1
Minimiza el límite del error de estimación para un coste de obtención de la muestra fijo. L
C∑ n=
i =1
N iσ i ci
L
∑Nσ i =1
i
i
ci
L
C ∑ Ni n=
i =1
pi qi ci
c1n1 + c2 n2 + c3 n3 = C c1ω1n + c2ω2 n + c3ω3n = C
L
∑N i =1
i
pi qi ci
n=
C c1ω1 + c2ω2 + c3ω3
32
3. Muestreo Aleatorio Estratificado 3.4.2 Asignación de Neyman. Si c1 = c2 = ... = ci = ... = cL
Caso numérico:
(∑ N σ )
2
L
ωj =
N jσ j L
∑ Niσ i
n=
i
i =1
i
L
N D + ∑ N iσ i2 2
i =1
i =1
Caso dicotómico:
(∑ N
2
L
ωj =
N j pjqj L
∑N i =1
i
pi qi
n=
i =1
i
pi qi
)
L
N D + ∑ N i pi qi 2
i =1
33
3. Muestreo Aleatorio Estratificado 3.4.3 Asignación proporcional. σ 12 = σ 22 = ... = σ i2 = ... = σ L2
Si c1 = c2 = ... = ci = ... = cL
L
Caso numérico:
ωj =
Nj N
n=
Caso dicotómico:
∑N σ i
i =1
2 i
L
1 ND + N
2 N σ ∑ i i i =1
L
ωj =
Nj N
n=
∑N pq i =1
1 ND + N
i
i i
L
∑N pq i =1
i
i i
Ventajas: y st = y
p st = p
τɵ st = τɵ
Resuelve complicaciones en la asignación para varias mediciones muestrales 34
3. Muestreo Aleatorio Estratificado 3.4 Asignación de la muestra. Determinación del tamaño muestral y asignación para varias estimaciones
Asignación óptima/Neyman 1ª estimación: n = 100
ω1 = 0,10 ⇒ n1 = 10
ω2 = 0,90 ⇒ n2 = 90
2ª estimación: n = 40
ω1 = 0,50 ⇒ n1 = 20
ω2 = 0,50 ⇒ n2 = 20
Asignación proporcional 1ª estimación: n = 100
ω1 = 0,30 ⇒ n1 = 30
ω2 = 0, 70 ⇒ n2 = 70
2ª estimación: n = 40
ω1 = 0,30 ⇒ n1 = 12
ω2 = 0, 70 ⇒ n2 = 28
35
3. Muestreo Aleatorio Estratificado 3.5 Estratificación después de seleccionar la muestra.
Ejemplo 3.6 (Ejercicio 17, relación tema 3) En una ciudad se sabe que el 30% de los hogares tienen calefacción eléctrica. Al realizar una encuesta sobre el consumo de energía (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados: Tipo Calefacción Nº casas Valor total de las facturas desviación típica muestral Eléctrica 60 5730 200 No electrica 40 2080 90 Obtenga una estimación del valor medio de la factura de electricidad en la ciudad. Dé un límite para el error de estimación.
36
3. Muestreo Aleatorio Estratificado 3.5 Estratificación después de seleccionar la muestra. Solución: y1 = 1 y st = N
5730 = 95,5€ 60
2
2
i =1
i =1
∑ Ni y i = ∑
1 V ( y st ) = 2 N 2
=∑ i =1
y2 =
2080 = 52€ 40
Ni y i = (0,30 × 95,5) + (0, 70 × 52) = 65, 05€ N
2 Si2 N i − ni N i2 Si2 N i − ni N =∑ 2 = ∑ n N N n N i =1 i =1 i i i i 2
2 i
2
2 2 N i Si2 N S 2 200 2 90 = ∑ = 0,30 + 0, 70 = 159, 225 N ni N n 60 40 i =1 i 2 i 2
2 i
2
2 V ( y st ) =25,24€
y=
5730 + 2080 7810 = = 78,10€ 60 + 40 100
37
4. Muestreo con información auxiliar 4.1 Introducción Y
Variable bajo estudio
X
Variable que proporciona la información auxiliar
Muestra constituida por n pares:
(x1 , y1 ),..., (xn , yn )
Bajo una fuerte relación lineal positiva
1 rxy > 2
y dependiendo de la relación entre ambas variables utilizaremos: •Estimadores de razón
( y = bx )
•Estimadores de regresión
( y = a + bx )
•Estimadores de diferencia
( y = a + x)
38
4. Muestreo con información auxiliar 4.2 Estimación de razón Se define la razón como el cociente:
τy R= τx
µY R= µX
τ y = Nµ y τ x = Nµ x
Entonces si se conocen los valores de la media y del total de X sólo hay que estimar el valor de R (r):
τˆ y = rτ x
µˆ y = r µ x n
y = • ESTIMADOR DE LA RAZÓN: r = x
∑
yi
∑
xi
i =1 n i =1
1 S r2 N − n ˆ • VARIANZA ESTIMADA DE r: V (r ) = 2 µ x n N
1 n 2 Sr = ( yi − rxi ) ∑ n − 1 i =1 2
39
4. Muestreo con información auxiliar 4.2 Estimación de razón 4.2.1 Estimación de la media y el total poblacionales Entre X e Y existe una alta correlación lineal positiva y que el modelo lineal pasa por el origen.
• ESTIMADOR DE LA MEDIA:
µˆ y = rµ x
•VARIANZA ESTIMADA DEL ESTIMADOR:
• ESTIMADOR DEL TOTAL:
2 S Vˆ (µˆ y ) = µ Vˆ (r ) = r n 2 x
N −n N
τˆ y = rτ x
•VARIANZA ESTIMADA DEL ESTIMADOR: 2 2 2 τ S N − n S 2 r N −n Vˆ (τˆy ) = τ x2Vˆ (r ) = x2 r = N µ x n N n N
40
4. Muestreo con información auxiliar 4.2 Estimación de razón 4.2.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la razón, la media y el total no supere una cota de error de magnitud B
Nσ r2 n= 2 σ r + ND
B 2 µ x2 4 para estimar la razón 2 B para estimar la media D= 4 2 B 4 N 2 para estimar el total
• N debe ser conocido o estimado •
σ r2 se estima utilizando una muestra previa (tamaño n’): σˆ r2 = S r2
•
µˆ x2 = x 2
41
4. Muestreo con información auxiliar 4.3 Estimación de regresión Entre X e Y existe una alta correlación lineal positiva y el modelo lineal no pasa por el origen.
aˆ = y − bˆx
Modelo lineal simple
y = a + bx
n
Método de mínimos cuadrados
bˆ =
s xy s x2
ˆ + bx ˆ = y + bˆ ( x − x ) y = y − bx
S x2
=
∑ (y i =1
i
− y )( xi − x )
n
2 ( ) x − x ∑ i i =1
1 n 2 S = x − x ( ) ∑ i n − 1 i =1
1 n 2 s = ∑ ( xi − x ) n i =1
1 n S xy = ( xi − x )( yi − y ) ∑ n − 1 i =1
1 n sxy = ∑ ( xi − x )( yi − y ) n i =1
2 x
donde
=
S xy
2 x
42
4. Muestreo con información auxiliar 4.3 Estimación de regresión 4.3.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA:
µˆ yL = aˆ + bˆµ x = y + bˆ(µ x − x )
2 S L • VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (µˆ yL ) = n
( (
1 n S = yi − y + bˆ ( xi − x ) ∑ n − 2 i =1 2 L
n − 1 2 S xy = S y − 2 n−2 Sx 2
))
2
N −n N
n 1 n 2 2 2 ˆ = y − y − b x − x ( i ) ∑( i ) ∑ n − 2 i =1 i =1
n −1 2 n 2 2 S y (1 − rxy ) = s y (1 − rxy2 ) = n−2 n−2
• ESTIMADOR DEL TOTAL:
τˆ yL = Nµˆ yL
• VARIANZA ESTIMADA DEL ESTIMADOR:
Vˆ (τˆ yL ) = N 2Vˆ (µˆ yL )
43
4. Muestreo con información auxiliar 4.3 Estimación de regresión 4.3.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la media y el total no supere una cota de error de magnitud B
Nσ L2 n= 2 σ L + ND
•
B2 4 para estimar la media D= B2 para estimar el total 4 N 2
σ L2 se estima utilizando una muestra previa (tamaño n’): σˆ L2 = S L2
44
4. Muestreo con información auxiliar 4.4 Estimación de diferencia Entre X e Y existe una alta correlación lineal positiva y la pendiente del modelo es uno.
4.4.1 Estimación de la media y el total poblacionales • ESTIMADOR DE LA MEDIA: µˆ yD = y + (µ x − x ) = µ x + d donde d = y − x •VARIANZA ESTIMADA DEL ESTIMADOR: donde S
2 D
S D2 N − n ˆ V (µˆ yD ) = n N
2 2 1 n 1 n ( ( ) ) ( ) = y − x + d = d − d y ∑ i i ∑ i n − 1 i =1 n − 1 i =1
d i = y i − xi
S D2 = cuasivarianza de los d i • ESTIMADOR DEL TOTAL:
τˆ yD = Nµˆ yD
•VARIANZA ESTIMADA DEL ESTIMADOR:
Vˆ (τˆ yD ) = N 2Vˆ (µˆ yD )
45
4. Muestreo con información auxiliar 4.4 Estimación de diferencia 4.4.2 Determinación del tamaño muestral Tamaño muestral mínimo para que la estimación de la media y el total no supere una cota de error de magnitud B
Nσ D2 n= 2 σ D + ND
B2 4 para estimar la media D= B2 para estimar el total 4 N 2
• σ D se estima utilizando una muestra previa (tamaño n’): 2
σˆ D2 = S D2
46
5. Muestreo sistemático 5.1 Selección de una muestra sistemática. Usos. Ventajas Muestra Sistemática de 1 en k: 1. Ordenar los elementos de la población 2. Seleccionar aleatoriamente un elemento i (llamado punto de inicio) de los primeros k elementos de la población. 3. Después seleccionar cada k-esimo elemento hasta conseguir una muestra de tamaño n . N k se toma como el número entero menor o igual que n
Ventajas del muestreo sistemático frente al muestreo aleatorio simple: • En la práctica, el muestreo sistemático es más fácil de llevar a cabo y está expuesto a menos errores del encuestador. • Frecuentemente, con igual tamaño de muestra el muestreo sistemático proporciona más información que el muestreo aleatorio simple. 47
5. Muestreo sistemático 5.2 Estimación de la media, proporción y el total poblacionales • ESTIMADOR DE LA MEDIA POBLACIONAL: µˆ = y sy =
1 n ∑ yi + ( j −1) k n j =1
2 S N −n •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ ( y sy ) = n N σ2 N −n σ2 V (y) = [ V y sy = 1 + (n − 1)ρ ] n N −1 n
( )
ρ
= coef. Correlación entre los elementos de la muestra sistemática
• ESTIMADOR DEL TOTAL POBLACIONAL:
τˆ = Ny sy
2 S •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (τˆ ) = N Vˆ ( y sy ) = N n 2
• ESTIMADOR DE LA PROPORCIÓN POBLACIONAL: pˆ sy = •VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ ( pˆ sy ) =
2
N −n N
1 n ∑ y i + ( j −1) k n j =1
pˆ sy qˆ sy N − n n −1 N
48
5. Muestreo sistemático 5.3 Comparación con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias y periódicas V (y) =
σ2 N −n n N −1
V ( y sy ) =
σ2 n
[1 + (n − 1)ρ ]
1. Población ordenada: cuando los elementos que la constituyen están ordenados de acuerdo con los valores, crecientes o decrecientes, de una determinada característica.
ρ ≤0
V ( y sy ) ≤ V ( y )
m.s. es preferible al m.a.s.
2. Población aleatoria: cuando los elementos están ordenados al azar.
ρ≅0
V ( y sy ) ≅ V ( y )
Es indiferente usar m.s. ó m.a.s.
3. Población periódica: cuando los elementos tienen una variación cíclica.
ρ ≥0
V ( y sy ) > V ( y )
m.a.s. es preferible al m.s.
49
5. Muestreo sistemático 5.4 Determinación del tamaño muestral Tamaño muestral necesario para estimar la media y el total poblacionales con un límite B para el error de estimación B2 4 para estimar la media Nσ 2 D= n= 2 ( N − 1) D + σ 2 B para estimar el total 4N 4N 2 Tamaño muestral necesario para estimar la proporción poblacional con un límite B para el error de estimación
n=
Npq ( N − 1) D + pq
B2 4 para estimar la proporción D= 2 B para estimar el total 4N 2 50
6. Muestreo por Conglomerados 6.1 Necesidad y ventajas del muestreo por conglomerados. 6.2 Formación de los conglomerados. Conglomerados y estratos. Notación N = conglomerados en la población.
n = conglomerados en la muestra. mi = elementos en el conglomerado i yi = suma de las observaciones en el conglomerado i N
M = ∑ mi = elementos en la población i =1
n
m = ∑ mi = elementos en la muestra M=
1 N
i =1
N
∑m i =1
i
= tamaño medio de los conglomerados de la población. 1 n m = ∑ mi = tamaño medio de los conglomerados de la muestra. n i =1 51
6. Muestreo por Conglomerados 6.3 Estimación de la media, proporción y total poblacionales. n
µ=y=
∑y i =1 n
i
∑m i =1
i
1 N − n Sc2 V ( y) = 2 N n M
τɵ = M y
V (τɵ ) = M 2 V ( y )
τɵ t = N y t
2 S V (τɵ t ) = N 2 V ( y t ) = N ( N − n) t n
1 n y t = ∑ yi n i =1
N − n St2 V ( yt ) = N n
Si m1 = m2 = ... = mN
(
1 n S = yi − ymi ∑ n − 1 i =1 2 c
(
1 n S = yi − y t ∑ n − 1 i =1 2 t
⇒ M y = N yt
)
2
52
)
2
6. Muestreo por Conglomerados 6.4 Determinación del tamaño muestral. n
τɵ = M y
µ=y=
∑y i =1 n
i
∑m i =1
i
2
Nσ c2 n= ND + σ c2
1 n σ =S = yi − ymi ∑ n − 1 i =1
τɵ t = N y t
1 n y t = ∑ yi n i =1
Nσ t2 n= ND + σ t2
2 c
(
2 c
)
2
B M D= 4 B2 D= 4N 2
(media) (total )
m.a.s. sobre los totales de los conglomerados
(
1 n σ =S = yi − y t ∑ n − 1 i =1 2 t
2
2 t
)
2
B2 D= . 2 4N
53
7. Estimación del tamaño de la población 7.1 Muestreo directo 1. Se selecciona una muestra aleatoria de tamaño t, se marcan y devuelven a la población. 2. Se selecciona una muestra de tamaño n (fijado de antemano) de la misma población y se observa cuántos de ellos están marcados. (s= nº elementos marcados en esta muestra) Proporción de elementos marcados en la 2ª muestra:
p = proporción de elementos marcados en la población
t = N
pˆ =
s n
t ⇒ N= p
t t nt ˆ = • ESTIMADOR DE N: N = = pˆ s / n s
( )
2 t n( n − s ) • VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ Nˆ = s3
54
7. Estimación del tamaño de la población 7.2 Muestreo inverso
1. Se selecciona una muestra aleatoria de tamaño t de la población, se marcan y se devuelven a la población. 2. Se selecciona una muestra de tamaño n hasta que se obtienen s elementos marcados.
• ESTIMADOR DE N:
t t nt Nˆ = = = pˆ s / n s
• VARIANZA ESTIMADA DEL ESTIMADOR:
( )
2 t n( n − s ) ˆ ˆ V N = 2 s (s + 1)
55
7. Estimación del tamaño de la población 7.3.1 Estimación de la densidad y del tamaño de la población A= área donde está contenida la población 1. Se divide a la población en N cuadros de igual área mi =nº elementos en el cuadro i-esimo
a
2. Se toma una muestra de n cuadros de los N existentes. Se observa el número de elementos que contiene la muestra: n
m = ∑ mi i =1
3. Se calcula la densidad de elementos en la muestra: nº elementos en la muestra m λˆ = = área de la muestra na 4. Dado que la densidad poblacional es
λ=
nº elementos en la población M = área de la población A
⇒ M = Aλ 56
7. Estimación del tamaño de la población 7.3.1 Estimación de la densidad y del tamaño de la población • ESTIMADOR DE LA DENSIDAD:
m ˆ λ= na
•VARIANZA ESTIMADA DEL ESTIMADOR: Vˆ (λˆ ) =
m ˆ 1 = λ na a 2n2
m ˆ ˆ • ESTIMADOR DEL TAMAÑO POBLACIONAL: M = Aλ = A na •VARIANZA ESTIMADA DEL ESTIMADOR:
2 A m ˆ Vˆ ( Mˆ ) = A Vˆ (λ ) = 2 2 a n 2
7.3.2 Muestreo por cuadros en el espacio temporal En determinadas ocasiones, podemos tomar los cuadros como intervalos temporales 57
7. Estimación del tamaño de la población 7.3.3 Cuadros cargados Cuadro cargado=cuadro que contiene al menos un elemento objeto de estudio 1. Se divide a la población en N cuadros de igual área a 2. Se toma una muestra de n cuadros de los N existentes. y = número de cuadros no cargados 3. La densidad poblacional se estima como y su varianza como
Dado que
1 n− y Vˆ (λˆ ) = 2 a ny
1 a
y n
λˆ = − ln
M = Aλ
ESTIMADOR DEL TAMAÑO DE LA POBLACIÓN
VARIANZA ESTIMADA DEL ESTIMADOR
A y Mˆ = Aλˆ = − ln a n
2 A n− y Vˆ ( Mˆ ) = 2 a ny
58
8. Análisis Cluster 8.1 Introducción Análisis cluster: serie de técnicas que tienen por objeto la búsqueda de grupos similares de individuos o variables. Es una técnica completamente numérica en la que no se realizan hipótesis previas. Pasos en un análisis cluster: •
Establecer un indicador (distancia o similaridad) que nos diga en qué medida cada par de observaciones se parece entre sí.
2. Crear los grupos de forma que cada uno de ellos contenga aquellas observaciones que más se parezcan. 3. Describir los grupos obtenidos y compararlos.
Tipos de técnicas para realizar este análisis: •Técnicas jerárquicas •Técnicas no jerárquicas
59
8. Análisis Cluster 8.2 Medidas de similaridad Ejemplo 8.1 30,00
Nombre Empresa
Inversión publicidad
Ventas
E8
E4
16
10
E2
12
14
E3
10
22
E4
12
25
E5
45
10
E6
50
15
E7
45
25
E8
50
27
E3
Ventas
E1
E7
25,00
20,00
E6
15,00 E2
E1
E5
10,00
10
20
30
Inversion
40
50
60
8. Análisis Cluster 8.2 Medidas de similaridad 8.2.1 Medidas de similaridad para variables métricas k
∑
(A) Distancia Euclídea: D ij = Ejemplo 8.2
p =1
( x ip − x jp )
2
D12 =
(16 − 12 ) + (10 − 14 ) 2
2
= 5, 66
Matriz de distancias euclideas distancia euclídea Caso
1:E1
2:E2
5:E5
6:E6
7:E7
8:E8
,00
5,66
13,42
15,52
29,00
34,37
32,65
38,01
2:E2
5,66
,00
8,25
11,00
33,24
38,01
34,79
40,16
3:E3
13,42
8,25
,00
3,61
37,00
40,61
35,13
40,31
4:E4
15,52
11,00
3,61
,00
36,25
39,29
33,00
38,05
5:E5
29,00
33,24
37,00
36,25
,00
7,07
15,00
17,72
6:E6
34,37
38,01
40,61
39,29
7,07
,00
11,18
12,00
7:E7
32,65
34,79
35,13
33,00
15,00
11,18
,00
5,39
8:E8
38,01
40,16
40,31
38,05
17,72
12,00
5,39
,00
∑ (x k
p =1
4:E4
1:E1
(B) Distancia Euclídea al cuadrado: D ij =
3:E3
ip
− x jp )
2
(C) Distancia de Minskowski: k n D ij = ∑ x ip − x jp p =1
1 n
61
8. Análisis Cluster 8.2 Medidas de similaridad 8.2.2 Medidas de similaridad para datos binarios Ejemplo 8.3 Observaciones E1
Variables X1
X2
X3
X4
1
1
0
0
E2
0
1
1
1
E3
1
1
0
1
E4
0
0
0
1
E5
1
1
1
0
(A) Distancia euclídea al cuadrado (B) Distancia euclídea Dij = (C) Diferencia de tamaño
E2
E1
1 0
1 0
1 1 2 0 1 0
E2
1 a b 0 c d
Dij = b + c
b+c
Dij =
E1
Ejemplo 8.4
(b − c )
2
(a + b + c + d )
2
D12 =
( 2 − 1)
2
(1 + 2 + 1 + 0 )
2
= 0, 063 62
8. Análisis Cluster 8.3 Estandarización de los datos Ejemplo 8.5 En el siguiente cuadro se recoge el tamaño de los activos y el número de trabajadores de 8 empresas: Empresa
Activos
Trabajadores
E1
10.000.000.000
100
E2
10.050.000.000
90
E3
10.000.000.000
200
E4
10.050.000.000
190
E5
20.000.000.000
200
E6
20.050.000.000
190
E7
20.000.000.000
100
E8
20.050.000.000
90
63
8. Análisis Cluster 8.3 Estandarización de los datos Matriz de distancias
Ejemplo 8.5 (Continuación) Caso 1:E1 2:E2 3:E3 4:E4 5:E5 6:E6 7:E7 8:E8
1:E1 ,000 5,0E+07 100,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10
2:E2 5,0E+07 ,000 5,0E+07 100,000 1,0E+10 1,0E+10 1,0E+10 1,0E+10
3:E3 100,000 5,0E+07 ,000 5,0E+07 1,0E+10 1,0E+10 1,0E+10 1,0E+10
distancia euclídea 4:E4 5:E5 5,0E+07 1,0E+10 100,000 1,0E+10 5,0E+07 1,0E+10 ,000 1,0E+10 1,0E+10 ,000 1,0E+10 5,0E+07 1,0E+10 100,000 1,0E+10 5,0E+07
6:E6 1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 ,000 5,0E+07 100,000
7:E7 1,0E+10 1,0E+10 1,0E+10 1,0E+10 100,000 5,0E+07 ,000 5,0E+07
8:E8 1,0E+10 1,0E+10 1,0E+10 1,0E+10 5,0E+07 100,000 5,0E+07 ,000
Esta es una matriz de disimilaridades
GRUPO 1: [E1,E2,E3,E4] Activos en torno de los 10.000 millones GRUPO 2: [E5,E6,E7,E8] Activos en torno de los 20.000 millones Procesos de estandarización: • Puntuaciones Z. • Rango 1. • Rango 0 a 1.
64
8. Análisis Cluster 8.3 Estandarización de los datos Ejemplo 8.6
Matriz de distancias Distancia euclídea
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
,186
1,862
1,675
2,639
2,518
1,871
1,889
2:E2
,186
,000
2,048
1,862
2,767
2,639
1,871
1,871
3:E3
1,862
2,048
,000
,186
1,871
1,889
2,639
2,780
4:E4
1,675
1,862
,186
,000
1,871
1,871
2,504
2,639
5:E5
2,639
2,767
1,871
1,871
,000
,186
1,862
2,048
6:E6
2,518
2,639
1,889
1,871
,186
,000
1,675
1,862
7:E7
1,871
1,871
2,639
2,504
1,862
1,675
,000
,186
8:E8
1,889
1,871
2,780
2,639
2,048
1,862
,186
,000
GRUPO 1: E1 y E2
GRUPO 2: E3 y E4
GRUPO 3: E5 y E6
GRUPO 4: E7 y E8 65
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (A) Método de agrupación de centroides distancia euclídea al cuadrado
Ejemplo 8.7 Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
0
32
180
241
841
1181
1066
1445
2:E2
32
0
68
121
1105
1445
1210
1613
3:E3
180
68
0
13
1369
1649
1234
1625
4:E4
241
121
13
0
1314
1544
1089
1448
5:E5
841
1105
1369
1314
0
50
225
314
6:E6
1181
1445
1649
1544
50
0
125
144
7:E7
1066
1210
1234
1089
225
125
0
29
8:E8
1445
1613
1625
1448
314
144
29
0
Observaciones más cercana: E3 y E4 (distancia=13)
Grupo E3-4
10 + 12 = 11 2 22+25 Ventas de E3-4= = 23,5 2
Calculo del centroide de E3-4: Publicidad de E3-4 =
66
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación)
Datos actualizados: Nombre Empresa
Inversión en publicidad
Ventas
E1
16
10
E2
12
14
E3-4
11
23,5
E5
45
10
E6
50
15
E7
45
25
E8
50
27
67
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación)
Matriz de distancias actualizadas distancia euclídea al cuadrado
Caso
1:E1
2:E2
3:E3-4
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,0
32,0
207,3
241,0
841,0
1181,0
1066,0
1445,0
2:E2
32,0
,0
91,3
121,0
1105,0
1445,0
1210,0
1613,0
3:E3-4
207,3
91,3
,0
3,3
1338,3
1593,3
1158,3
1533,3
4:E4
241,0
121,0
3,3
,0
1314,0
1544,0
1089,0
1448,0
5:E5
841,0
1105,0
1338,3
1314,0
,0
50,0
225,0
314,0
6:E6
1181,0
1445,0
1593,3
1544,0
50,0
,0
125,0
144,0
7:E7
1066,0
1210,0
1158,3
1089,0
225,0
125,0
,0
29,0
8:E8
1445,0
1613,0
1533,3
1448,0
314,0
144,0
29,0
,0
DE1, E 3− 4 = (16 − 11) + (10 − 23,5 ) = 207,3 2
2
Próxima unión E7-E8
68
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación) Historial de conglomeración
Etapa 1 2 3 4 5 6 7
Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5
Coeficientes 13,000 29,000 32,000 50,000 141,250 182,250 1227,250
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6
Próxima etapa 5 6 5 6 7 7 0
En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se fusionan dos grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre de uno solo de sus integrantes (E1-2 se representa por 1, E3-4 se representa por 3). La columna de coeficientes refleja las distancias a las que estaban los grupos que se 69 van fusionando en cada etapa.
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.7 (Continuación) * * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
E3
3
òûòòòø
E4
4
ò÷
E1
1
òûòòò÷
ó
E2
2
ò÷
ó
E7
7
òûòòòòòø
ó
E8
8
ò÷
E5
5
òûòòòòò÷
E6
6
ò÷
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø
ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 70
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (B) Método del vecino más cercano (vinculación simple)
Ejemplo 8.8 Historial de conglomeración
Etapa 1 2 3 4 5 6 7
Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5
Coeficientes 13,000 29,000 32,000 50,000 68,000 125,000 841,000
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6
Próxima etapa 5 6 5 6 7 7 0
71
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.8 (Continuación) 30,00
E8
2
1 E4
25,00
E7
Ventas
E3
20,00
6 5 E6
15,00
4
E2
7
3 E1
E5
10,00
10
20
30
Inversion
40
50
72
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (C) Método del vecino más lejano (vinculación completa)
Ejemplo 8.9 Historial de conglomeración
Etapa 1 2 3 4 5 6 7
Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5
Coeficientes 13,000 29,000 32,000 50,000 241,000 314,000 1649,000
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6
Próxima etapa 5 6 5 6 7 7 0
73
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Ejemplo 8.9 (Continuación) 30,00
E8
2
1 E4
25,00
E7
Ventas
E3
20,00
6 5 7 E6
15,00
4
E2
3 E1
E5
10,00
10
20
30
Inversion
40
50
74
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos (D) Método de la vinculación promedio (vinculación intergrupos)
Ejemplo 8.10 Historial de conglomeración
Etapa 1 2 3 4 5 6 7
Conglomerado que se combina Conglom Conglom erado 1 erado 2 3 4 7 8 1 2 5 6 1 3 5 7 1 5
Coeficientes 13,000 29,000 32,000 50,000 152,500 202,000 1323,625
Etapa en la que el conglomerado aparece por primera vez Conglom Conglom erado 1 erado 2 0 0 0 0 0 0 0 0 3 1 4 2 5 6
Etapa 5:
Próxima etapa 5 6 5 6 7 7 0
Observ.
Distancia
E1, E3
180
E1, E4
241
E2, E3
68
E2, E4
121
Media
152,5
75
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.1 Clusters jerárquicos Selección del número de conglomerados de la solución • Dendograma • Tasas de variación entre los coeficientes de conglomeración obtenidos en etapas sucesivas Etapa
Observaciones que se fusionan
Grupos Resultantes
Nº grupos
Coeficiente
Tasa de Variación
1
[E3,E4]
[E3,E4],E1,E2,E5,E6,E7,E8
7
6,5
2,23
2
[E7,E8]
[E3,E4][E7,E8],E1,E2,E5,E6
6
21
0,76
3
[E1,E2]
[E1,E2][E3,E4][E7,E8],E5,E6
5
37
0,67
4
[E5,E6]
[E1,E2][E3,E4][E5,E6][E7,E8]
4
62
2,27
5
[E1,E2][E3,E4]
[E1,E2,E3,E4][E5,E6][E7,E8]
3
203,3
0,89
6
[E5,E6][E7,E8]
[E1,E2,E3,E4][E5,E6,E7,E8]
2
385,5
6,32
7
[E1,E2,E3,E4][E5,E6,E7,E8]
[E1,E2,E3,E4,E5,E6,E7,E8]
1
2824
-
21 − 6,5 T1 = = 2, 23 6,5
76
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos A. Selección de los centroides iniciales Aspectos a tener en cuenta en la elección de los centroides iniciales: 1. El investigador propone los centroides iniciales. 2. Si éste no está seguro, un posible camino es realizar un análisis jerárquico y observar el dendograma. 3. Si no se tiene ninguna idea previa, el SPSS (u otros paquetes estadísticos) los selecciona. B. Asignación de observaciones a grupos (cluster)
C. Se recalculan los centroides
D. Se aplica criterio de convergencia 77
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 1. Calcular la distancia de cada observación a los centroides iniciales calculados en la fase anterior. Cada observación se asigna al conglomerado al que esté más cercano (utilizando distancias euclideas). Inversión
Ventas
Distancias Centroide 1
Distancias Conglomerado Centroide 2 asignado
E1
16
10
34,37
15,52
2
E2
12
14
38,01
11
2
E3
10
22
40,61
3,61
2
E4
12
25
39,29
0
2
E5
45
10
7,07
36,25
1
E6
50
15
0
39,29
1
E7
45
25
11,18
33
1
E8
50
27
12
38,05
1
78
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 2. Una vez efectuada la asignación de observaciones a conglomerados, se recalculan los centroides Centroides iniciales
Centroides finales
Conglomerado
Publicidad
1
50
15
47,5
19,25
2
12
25
12,5
17,75
45 + 50 + 45 + 50 = 47,5 4 16 + 12 + 10 + 12 = 12,5 4
Ventas Publicidad
Ventas
10 + 15 + 25 + 27 = 19, 25 4 10 + 14 + 22 + 25 = 17, 75 4 79
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) 3. Se repite el paso 1 clasificando cada observación en el conglomerado del que dista menos. El proceso se detiene cuando no se produce ninguna reasignación de observaciones a conglomerados o hasta que se alcance un determinado número de iteraciones que se puede establecer como opción al ejecutar el análisis. Inversión Ventas Distancias Distancias Conglomerado Centroide 1 Centroide 2 asignado E1
16
10
32,83
8,50
2
E2
12
14
35,89
3,78
2
E3
10
22
37,60
4,93
2
E4
12
25
35,96
7,27
2
E5
45
10
9,58
33,41
1
E6
50
15
4,93
37,60
1
E7
45
25
6,27
33,30
1
E8
50
27
8,14
38,62
1
80
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: Centros iniciales de los conglomerados
Historial de iteraciones(a) Cambio en los centros de los conglomerados
Conglomerado 1
2
Inversión
50
12
Iteración
Ventas
15
25
1
4,931
7,267
2
,000
,000
d = (47,5 − 50) 2 + (19, 25 − 15) 2 = 4,931
d = (50 − 12) 2 + (15 − 25) 2 = 39, 29
1
2
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño. El cambio máximo de coordenadas absolutas para cualquier centro es de ,000. La iteración actual es 2. La distancia mínima entre los centros iniciales es de 39,294.
81
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: Pertenencia a los conglomerados Nº de caso
Centros de los conglomerados finales Conglomerado
Conglomerado
Distancia
1
E1
2
8,504
2
E2
2
3,783
3
E3
2
4,931
4
E4
2
7,267
5
E5
1
9,582
6
E6
1
4,931
7
E7
1
6,270
8
E8
1
8,143
1
2
Inversión
47,50
12,50
Ventas
19,25
17,75
82
8. Análisis Cluster 8.4 Formación de los grupos: Clusters jerárquicos y no jerárquicos 8.4.2 Clusters no jerárquicos Formación de los grupos (MÉTODO DE LAS K-MEDIAS) SALIDAS DEL SPSS: ANOVA Conglomerado Media cuadrática Inversión Ventas
Error Media cuadrática
gl
F
gl
Sig.
2450,000
1
7,333
6
334,091
,000
4,500
1
56,917
6
,079
,788
Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales. 83
9. Componentes principales 9.1 Introducción La utilidad de la técnica de componentes principales es doble:
1. Por un lado, el análisis de componentes principales permite resumir de forma óptima la información proporcionada por las variables originales mediante las componentes.
2. Permite transformar las variables originales, en general correladas (solapamiento en la información), en nuevas variables incorreladas, facilitando la interpretación de los datos.
84
9. Componentes principales 9.2 Componentes principales
[
]
Sea S la matriz de covarianza asociada con el vector aleatorio X ' = X 1 , X 2 ,..., X p . Supongamos
que
S
( λ1 , φ1 ) , ( λ2 , φ2 ) ,..., ( λ p , φ p )
tiene
pares
de
valores
y
vectores
propios
donde
λ1 ≥ λ2 ≥ ⋯ ≥ λ p ≥ 0. La i-ésima componente
principal está dada por
Yi = φi' X = φi1 X 1 + φi 2 X 2 + ⋯ + φip X p , i = 1, 2,..., p con esta elección Var (Yi ) = φi' Sφi = λi , i = 1, 2,..., p Cov(Yi , Yk ) = φ Sφk = 0, i ≠ k ' i
•
85
9. Componentes principales 9.2 Componentes principales Sean Y1 = φ1' X , Y2 = φ2' X ,..., Yp = φ p' X las componentes principales. Entonces p
p
i =1
i =1
s11 + s22 + ⋯ + s pp = ∑ Var ( X i ) = λ1 + λ2 + ⋯ + λ p = ∑ Var (Yi ) .
La proporción de la varianza total explicada por la k -esima componente principal es
λk
λ1 + ⋯ + λ p
, k = 1,2,..., p
el coeficiente de correlación entre la componente Yi y la variable X k es: rYi , X k =
φik λi skk
, i, k = 1, 2,..., p
86
9. Componentes principales 9.2 Componentes principales Ejemplo9.1
3.50 1.9 1.1 x = ; S = 3.50 1.1 1.1
S − λI = 0
1.9 − λ 1.1 1.9 1.1 1 0 =0 −λ =0⇔ 1.1 1.1 − λ 1.1 1.1 0 1
λ 2 − 3λ + 0.88 = 0
( S − λ1I ) φ1 = 0. −0.77φ11 + 1.10φ12 = 0 1.10φ11 − 1.57φ12 = 0
λ1 = 2.67 y λ2 = 0.33
1.9 1.1 1 0 φ11 −0.77 1.1 φ11 − 2.67 φ = 0 ⇔ φ = 0 1.1 1.1 0 1 1.1 − 1.57 12 12
⇒ φ11 = 1.43φ12 .
φ112 + φ122 = 1
0.82 ⇒ φ1 = 0.57
87
9. Componentes principales 9.2 Componentes principales
X X Y1 = φ '1 1 = ( 0.82 0.57 ) 1 = 0.82 X 1 + 0.57 X 2 X2 X2 X Y2 = ( −0.57 0.82 ) 1 = −0.57 X 1 + 0.82 X 2 X2
88
9. Componentes principales 9.2 Componentes principales 0 1.9 1.1 2.67 S = ; S = Y 0.33 1.1 1.1 0
rx1x2 =
s12 ( X ) 1.1 = = 0.76 s11 ( X ) s22 ( X ) 1.9 1.1
2
∑Var ( X ) =tr ( S ) = 1.9 + 1.1 = 3 i
i =1 2
∑Var (Y ) =tr (S i
i =1
rY1 , X1 =
φ11 λ1 s11
=
λ1
x
λ1 + λ2
2
Y ) = ∑ λi = 2.67 + 0.33 = 3
=
2.67 = 0.89 3
i =1
0.82 2.67 = 0.97 1.9
rY1 , X 2 =
φ12 λ1 s22
=
0.57 2.67 = 0.89 1.1
89
9. Componentes principales 9.2 Componentes principales Estadísticos descriptivos
VAR00001
Media 3,5000
Desviación típica 1,37840
N del análisis 6
VAR00002
3,5000
1,04881
6
Varianza total explicada Componente
Bruta
Autovalores iniciales(a)
1
Total 2,670
% de la varianza 89,016
% acumulado 89,016
2
,330
10,984
100,000
Método de extracción: Análisis de Componentes principales. Matriz de componentes(a) Bruta
Reescalada
Componente
Componente
1
1
VAR00001
1,338
,971
VAR00002
,938
,894
φ11 =
1,338 = 0,82 2, 67
φ12 =
0,938 = 0,57 2, 67
90
9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas
Zi
X i − µi ) ( = sii
E [Z ] = 0
p
p
i =1
i =1
Cov( Z ) = R
∑ Var (Yi ) = ∑Var ( Z i ) = p
rYi , Zk = φik λi , i, k = 1,..., p λk p
91
9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas 1 4 S = 4 100
1 0.4 R= . 0.4 1
' λ1 = 100.16 φ1 = ( 0.040, 0.999 ) S : λ = 0.84 φ ' = ( 0.999, −0.040 ) 2 2
Y1 = 0.040 X 1 + 0.999 X 2 S : Y2 = 0.999 X 1 − 0.040 X 2
λ1
λ1 + λ2 rY1 , X1 = rY1 , X 2 =
φ11 λ1 s11
φ12 λ1 s22
=
100.16 = 0.992 101
= 0.4 =
0.999 100.16 = 0.999 100
92
9. Componentes principales 9.2.1 Componentes principales a partir de variables estandarizadas ' λ1 = 1.4 φ1 = ( 0.707, 0.707 ) R: λ = 0.6 φ ' = ( 0.707, −0.707 ) 2 2
X 1 − µ1 X 2 − µ2 = 0.707 + 0.707 = 0.707 + 0.707 Y Z Z 1 1 2 1 10 = 0.707 ( X 1 − µ1 ) + 0.0707 ( X 2 − µ2 ) R: Y = 0.707 Z − 0.707 Z = 0.707 X 1 − µ1 − 0.707 X 2 − µ2 1 2 2 1 10 = 0.707 ( X 1 − µ1 ) − 0.0707 ( X 2 − µ2 )
rY1 , Z1 = φ11 λ1 = 0.707 1.4 = 0.837 rY1 , Z 2 = φ12 λ1 = 0.707 1.4 = 0.837
λ1 p
=
1.4 = 0.7 2
93