Story Transcript
Cap´ıtulo 1
Muestreo estratificado El objetivo del dise˜ no de encuestas por muestreo es maximizar la cantidad de informaci´ on para un coste dado. El muestreo aleatorio simple suele suministrar buenas estimaciones de par´ ametros poblacionales a un coste bajo, pero existen otros procedimientos de muestreo, como el muestreo estratificado, que en muchas ocasiones incrementa la cantidad de informaci´on para un coste dado. El muestreo estratificado es un dise˜ no de muestreo probabil´ıstico en el que dividimos a la poblaci´ on en subgrupos o estratos. La estratificaci´on puede basarse en una amplia variedad de atributos o caracter´ısticas de la poblaci´on como edad, g´enero, nivel socioecon´omico, ocupaci´on, etc. As´ı, consideramos una poblaci´on heterog´enea con N unidades, y en la que la subdividimos en L subpoblaciones denominados estratos lo m´as homog´eneas posibles no solapadas, atendiendo a criterios que puedan ser importantes en el estudio, de tama˜ nos N1 , N2 , . . . , NL . Obviamente N1 + N2 + . . . + NL = N, donde N es el total de individuos de la poblaci´on. La muestra estratificada de tama˜ no n se obtiene seleccionando una muestra aleatoria simple de tama˜ no nh (h = 1, 2, . . . , L) de cada uno de los estratos en que se subdivide la poblaci´on de forma independiente. De igual modo, n1 + n2 + . . . + nL = n, donde n es el tama˜ no de la muestra que queremos seleccionar. Podemos expresar la formaci´on de estratos en la poblaci´on y la formaci´on de la muestra estratificada de la forma siguiente: Poblaci´ on = {u1 , u2 , . . . , uN } −→ se divide en L estratos u11 u12 . . . u1N1 L X u21 u22 . . . u2N2 Nh = N. ... ... ... ... h=1 uL1 uL2 . . . uLNL 1
2
Seleccionamos una muestra de tama˜ no n, {u1 , u2 , . . . , un } −→ se extrae en cada estrato u11 u12 . . . u1n1 L X u21 u22 . . . u2n2 nh = n. ... ... ... ... h=1 uL1 uL2 . . . uLnL Este muestreo se utiliza cuando la poblaci´on de estudio es muy heterog´enea ya que necesitar´ıamos un gran esfuerzo muestral para obtener cierta precision mientras que si la poblaci´ on esta dividida en grupos, bloques o estratos que sean internamente homog´eneos, el esfuerzo en cada grupo sera m´ınimo resultando globalmente un esfuerzo menor. Por ejemplo, si preguntamos en una facultad el n´ umero medio de horas de estudio los estratos en este estudio ser´an los cursos. Las razones para el uso del muestreo estratificado son las siguientes: El muestreo estratificado puede aportar informaci´on m´as precisa de algunas subpoblaciones que var´ıan bastante en tama˜ no y propiedades entre si, pero que son homog´eneas dentro de si. Los estratos deber´ıan en lo posible estar constituidos por unidades homog´eneas. El uso adecuado del muestro estratificado puede generar ganancia en precision, pues al dividir una poblaci´on heterog´enea en estratos homog´eneos, el muestreo en estos estratos tiene poco error debido precisamente a la homogeneidad. Motivaciones de tipo geogr´afico ya que se requieren estimaciones para ciertas areas o regiones geogr´aficas. Las cuestiones que plantea este tipo de muestreo son: ¿Qu´e caracter´ısticas utilizar para dividir la poblaci´on en estratos? ¿C´ omo se identificaran los estratos? ¿Cuantos estratos debe haber? ¿Cuantas unidades seleccionar de cada estrato?
1.1.
Estimadores lineales insesgados
Como comentamos en la introducci´on, las unidades de la muestra se seleccionan mediante muestreo aleatorio simple sin reposici´on y la selecci´on se realiza de forma independiente en cada estrato. Un estimador de un par´ametro poblacional puede expresarse como suma de las estimaciones para el par´ametro en los diferentes estratos mediante muestreo aleatorio simple. Consideremos el par´ ametro poblacional, Nh L X X θst = Yhi , (1.1) h=1 i=1
3
que es estimado mediante un estimador del tipo θc st =
nh L X X
Yhi ωhi .
(1.2)
h=1 i=1
Vamos a calcular el valor de ωhi en la expresi´on (??) para que θb sea un estimador insesgado de θ. Definimos la variable aleatoria 1 si uhi ∈ m con probabilidad nh /Nh ehi = 0 si uhi ∈ / m con probabilidad 1 − nh /Nh Utilizando la variable aleatoria podemos expresar el estimador θb dado en (??) mediante la variable ehi . θbst =
nh Nh L X L X X X Yhi ωhi = Yhi ωhi ehi . h=1 i=1
h=1 i=1
Calculamos la esperanza del estimador anterior, ! ! nh Nh L X L X X X E(θc Yhi ωhi = E Yhi ωhi ehi st ) = E h=1 i=1
=
Nh L X X
h=1 i=1
Yhi ωhi E[ehi ]
h=1 i=1
Nh L X X
Yhi ωhi
h=1 i=1
nh . Nh
Para que este estimador θc st sea insesgado, E(θc st ) = θst ⇒
Nh L X X h=1 i=1
L
Yhi ωhi
N
h XX nh Yhi = Nh i=1
h=1
y por lo tanto ωhi =
Nh 1 = , nh fh
donde fh es la fracci´ on de muestreo del estrato h = 1, 2, . . . , L. Vamos a aplicar este estimador θb a los estimadores del total, de la media, de la proporci´on y del total de clase. Estimaci´ on del total poblacional
θst = Xst =
Nh nh L X L X X X Nh bst = Xhi ⇒ Yhi = Xhi ⇒ X Xhi nh i=1 i=1
h=1
h=1
4
y por lo tanto bst = X
L X
Nh
h=1
nh 1 X Xhi . nh i=1
Notando que la expresi´ on nh 1 X Xhi , nh i=1
corresponde a la media muestral del estrato h, o lo que es lo mismo, el estimador de la media poblacional del estrato utilizando un muestreo aleatorio simple, entonces L L X X c b . b X (1.3) X = N X = st
h
h
h
h=1
h=1
El estimador del total poblacional en muestreo estratificado aleatorio es la suma de los estimadores del total en muestreo aleatorio simple en cada estrato. Estimaci´ on de la media poblacional L
θst = X st =
N
L
N
h h XX 1 XX Xhi = Xhi /N ⇒ Yhi = Xhi /N N i=1 i=1
h=1
h=1
Por lo tanto, nh nh L X L L X X X Xhi Nh Nh 1 X b b , X st = Wh X = Xhi = h N n N n h h i=1 i=1 h=1
h=1
h=1
c representa la media muestral del estrato h, o lo que es lo mismo, donde X h nh c = 1 XX . X h hi nh i=1
El estimador de la media poblacional en muestreo estratificado aleatorio es la media ponderada de los estimadores de la media en cada estrato, siendo los coeficientes de ponderaci´ on Wh = Nh /N que cumplen, L X h=1
PL L X Nh Nh N = h=1 = = 1. Wh = N N N h=1
Estimaci´ on del total de clase
θst = Ast =
Nh L X X h=1 i=1
bst = Ahi ⇒ Ahi = Yhi ⇒ A
nh L X X h=1 i=1
Ahi
Nh nh
5
y por lo tanto bst = A
L X
Nh
h=1
nh L X 1 X Ahi = Nh Pbh , nh i=1 h=1
donde Pbh representa la proporci´on muestral para el estrato h (h = 1, 2, . . . , L) El estimador del total de clase en muestreo estratificado aleatorio es la suma de los estimadores del total de clase en cada estrato. Estimaci´ on de la proporci´ on L
θst = Pst =
N
N
L
h h XX 1 XX Ahi = Ahi /N ⇒ Yhi = Ahi /N N i=1 i=1
h=1
h=1
Por lo tanto, Pb =
nh L X X Ahi Nh h=1 i=1
N nh
=
nh L L X X Nh 1 X Ahi = Wh Pbh N nh i=1
h=1
h=1
El estimador de la proporci´on poblacional en muestreo estratificado aleatorio es la media ponderada de los estimadores de la proporci´on en cada estrato, siendo los coeficientes de ponderaci´on Wh = Nh /N que cumplen, L X h=1
1.2.
PL L X Nh Nh N = h=1 = = 1. Wh = N N N h=1
Varianzas de los estimadores
bst , es igual a la suma de las varianzas de las La varianza del estimador X estimaciones de los totales en cada estrato, ya que el muestreo que supondremos sin reposici´ on se realiza de forma independiente en los distintos estratos. ! L L X X S2 b b V (Xst ) = V Xh = Nh2 (1 − fh ) h . (1.4) nh h=1
h=1
An´ alogamente se obtendr´ıan las varianzas para los estimadores de la media, el total de clase y la proporci´on, ! L L X X S2 b b ¯ st ) = V V (X Wh X h = Wh2 (1 − fh ) h . (1.5) nh h=1
h=1
bst ) = V V (A
L X
! bh A
h=1
=
L X h=1
Nh2 (1 − fh )
Nh Ph Qh . Nh − 1 nh
(1.6)
6
V (Pbst ) = V
L X
! Wh Pbh
=
h=1
L X
Wh2 (1 − fh )
h=1
Nh Ph Qh , Nh − 1 n h
(1.7)
donde Sh2 es la cuasivarianza poblacional del estrato h donde Sh2 =
Nh 1 X (Xhi − X h )2 , Nh − 1 i=1
y Ph es la proporci´ on de clase del estrato h Ph =
Nh 1 X Ahi , Nh i=1
Qh = 1 − Ph .
Como en el caso del muestreo aleatorio simple, las varianzas de los estimadores dadas en (??), (??), (??)y (??) dependen de par´ametros poblacionales como son la cuasivarianza poblacional del estrato Sh2 =
Nh 1 X (Xhi − X h )2 , Nh − 1 i=1
o la proporci´ on de clase del estrato Ph =
Nh 1 X Phi . Nh i=1
Como en la mayor´ıa de las ocasiones estos par´ametros se desconocen, se recurren a las estimaciones de los mismos resultando bst ) = Vb (X
L X
Nh2 (1 − fh )
h=1
b¯ ) = Vb (X st
L X
Wh2 (1 − fh )
h=1
bst ) = Vb (A
L X
L X
Sbh2 , nh
Nh2 (1 − fh )
bh Pbh Q , nh − 1
Wh2 (1 − fh )
bh Pbh Q , nh − 1
h=1
Vb (Pbst ) =
Sbh2 , nh
h=1
donde Sbh2 es la cuasivarianza muestral correspondiente al estrato h-´esimo Sbh2 =
nh 1 X b )2 , (Xhi − X h nh − 1 i=1
nh b = 1 XX , X h hi nh i=1
7
y Pbh es la proporci´ on muestral correspondiente al estrato h-´esimo nh 1 X b Ph = Ahi . nh i=1
Ejemplo 1 Las granjas de una cierta regi´ on se dividen en cuatro categor´ıas seg´ un su superficie. El n´ umero de granjas en cada categor´ıa es 72, 37, 50 y 11. Un estudio para estimar el total de vacas productoras de leche en la regi´ on produce una muestra estratificada de 28 granjas. El total de vacas productoras de leche en estas 28 granjas viene dado en la siguiente tabla Categor´ıa Categoria I Categoria II Categoria III Categoria IV
Total de vacas 61, 47, 44, 70, 28, 39, 51, 52, 101, 49, 54, 71 160, 148, 89, 139, 142, 93 26, 19, 21, 34, 28, 15, 20, 24 17, 11
Estimar el total de vacas productoras de leche as´ı como el error est´ andar del estimador. En este estudio se utiliza la estratificaci´on para clasificar la categor´ıa de las granjas, dividiendo las granjas en 4 categor´ıas o estratos con tama˜ nos N1 = 72, N2 = 37, N3 = 50 y N4 = 11. De cada uno de los estratos se selecciona una muestra de tama˜ nos n1 = 12, n2 = 6, n3 = 8, y n4 = 2 respectivamente. Las fracciones de muestreo para cada uno de los estratos vienen dadas por f1 =
n1 12 = = 0,166, N1 72
f3 =
n3 8 = 0,16, = N3 50
f2 =
n2 6 = = 0,16, N2 37
f4 =
n4 = 0,18. N4
Las medias muestrales correspondientes a las muestras seleccionadas de cada estrato vienen dadas por b X 1
=
n1 1 X X1i = 55,5833 n1 i=1
n2 b = 1 X X = 160 + 148 + 89 + 139 + 142 + 93 = 128,5 X 2 2i n2 i=1 6 n3 b = 1 X X = 26 + 19 + 21 + 34 + 28 + 15 + 20 + 24 = 23,3750 X 3 3i n3 i=1 8 n4 b = 1 X X = 17 + 11 = 28/2 = 14. X 4 4i n4 i=1 2
8
En este caso, el estimador del total de vacas productoras de leche viene dado por: bst = X
L X
c = 72 ∗ 55,5833 + 37 ∗ 128,5 + 50 ∗ 23,375 + 11 ∗ 14 = 10079 vacas Nh X h
h=1
Calculamos el error del estimador, para ello consideramos la varianza de dicho estimador L X S2 bst ) = V (X Nh2 (1 − fh ) h . nh h=1
Como no tenemos datos suficientes para calcular Sh2 , estimamos la varianza anterior como L X Sb2 bst ) = Vb (X Nh2 (1 − fh ) h , nh h=1
siendo Sbh2 , h = 1, 2, 3 la cuasivarianza muestral del estrato h-´esimo. Utilizando los resultados anteriores, se tiene que n
Sb12
= =
11
1 X 1 X 3860,91667 c ¯1) = 1 (X1i − X (X1i − 55,5833)2 = n1 − 1 i=1 11 i=1 11 ∼ 351 350,99 =
n
6
n
8
Sb22
=
2 X 1 X 4485,5 c ¯2) = 1 (X1i − X (X2i − 128,5)2 = = 8970,1 n2 − 1 i=1 5 i=1 5
Sb32
=
3 X 247,875 1 X c ¯3) = 1 (X3i − X (X3i − 23,375)2 = = 35,4107 n3 − 1 i=1 7 i=1 7
Sb42
=
4 1 X c ¯ 4 ) = (17 − 14)2 + (11 − 14)2 = 18. (X4i − X n4 − 1 i=1
n
Por lo tanto, la estimaci´ on de la varianza del estimador para el total de la poblaci´ on viene dado por bst ) Vb (X
=
L X
Nh2 (1 − fh )
h=1
=
Sbh2 nh
309500.
Por lo tanto, el error de muestreo estimado viene dado por bst )) = 566,3272vacas. σ((X
9
1.3.
Afijaci´ on de la muestra
Se llama afijaci´ on de la muestra al reparto o distribuci´on del tama˜ no muestral n entre los diferentes estratos. Esto es, a la determinaci´on de los valores nh , h = 1, 2, . . . , L que verifiquen n1 + n2 + . . . + nL = n. Pueden establecerse muchas afijaciones o “maneras” de repartir la muestra entre los estratos, pero las m´ as importantes son: la afijaci´on uniforme, la afijaci´on proporcional, la afijaci´ on de varianza minima y la afijaci´on optima.
1.3.1.
Afijaci´ on uniforme
Este tipo de reparto consiste en asignar el mismo numero de unidades muestrales a cada estrato con lo que se tomaran todos los nh iguales a k = n/L. Para este tipo de afijaci´ on, las varianzas de los estimadores vendr´an dadas por bst ) V (X
=
b ) V (X st
=
bst ) V (A
=
V (Pbst )
=
L X
2 Sh k 1− Nh k h=1 2 L X k Sh 2 Wh 1 − Nh k h=1 L X k Nh Ph Qh Nh2 1 − Nh Nh − 1 k h=1 L X k Nh Ph Qh Wh2 1 − Nh Nh − 1 k Nh2
h=1
Este tipo de afijaci´ on da la misma importancia a todos los estratos, en cuanto a tama˜ no de la muestra, con lo cual favorecer´a a los estratos de menor tama˜ no y perjudicara a los grandes en cuanto a precision. S´olo es conveniente en poblaciones con estratos de tama˜ no similar. Ejemplo 2 Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X sobre una poblaci´ on de 870 personas se obtiene la siguiente distribuci´ on de frecuencias. X ni
2 20
3 30
4 60
7 100
10 150
12 200
16 120
20 80
25 50
30 20
35 18
50 10
60 8
100 4
Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblaci´ on en 3 estratos seg´ un los criterios dados por 2 ≤ X ≤ 7, 10 ≤ X ≤ 25, 30 ≤ X ≤ 100. Para una muestra n = 100, realizar la afijaci´ on uniforme.
10
La afijaci´ on uniforme consiste en extraer de cada estrato el mismo n´ umero de unidades para realizar la muestra. En este caso, n 100 = = 33,33..., L 3 donde L es el total de estratos y n es el tama˜ no muestral. Por lo tanto, una afijaci´ on de este tipo consiste en extraer 33 individuos del un estrato, 33 individuos de otro estrato y 34 del estrato restante.
1.3.2.
Afijaci´ on proporcional
Consiste en asignar a cada estrato un n´ umero de unidades muestrales proporcional a su tama˜ no. Las n unidades de la muestra se distribuyen proporcionalmente a los tama˜ nos de los estratos expresados en n´ umero de unidades. Si el tama˜ no muestral es proporcional al tama˜ no del estrato, entonces existe una constante k positiva tal que nh = kNh ,
h = 1, 2, . . . , L,
y para conocer el tama˜ no muestral es necesario conocer esa constante k. Tenemos que: L L X X nh = Nh k =⇒ nh = Nh k = kN =⇒ n = kN, h=1
h=1
y por lo tanto k = n/N = f. Por lo tanto, la constante k es igual a la fracci´on de muestreo. La fracci´ on de muestreo en cada uno de los estratos viene dado por Nh k nh = = k = f, h = 1, 2, . . . , L, fh = Nh Nh es decir, las fracciones de muestreo son iguales y coinciden con la fracci´on global de muestreo, siendo su valor la constante de proporcionalidad. Las ponderaciones Wh son iguales a Wh =
Nh nh /k nh = = , N n/k n
h = 1, 2, . . . , L.
A la vista de los anterior, los coeficientes de ponderaci´on Wh se obtienen exclusivamente a partir de la muestra, pues para su c´alculo s´olo son necesarios valores muestrales nh y n. Utilizando las igualdades anteriores, los estimadores para la media poblacional y el total poblacional vienen dados por: bst = X
N X
c = Nh X h
N N X nh b 1X b Xh = nh X h . k k
h=1
h=1
h=1
N
N
N
h=1
h=1
h=1
X nh b 1 X b¯ b = XW X c X Xh = nh X h . st h h = n n
11
Para este tipo de afijaci´ on, las varianzas de los estimadores ser´an: bst ) = V (X
L X
Nh2 (1 − fh )
h=1
b¯ ) = V (X st
L X
L
L
h=1
h=1
X 1 − kX Sh2 S2 = Nh Sh2 . Nh2 (1 − k) h = nh kNh k L
L
Wh2 (1
h=1
X n2 S2 1 − kX S2 h (1 − k) h = Wh Sh2 . − fh ) h = 2 nh n nh n h=1
h=1
bst ) = 1 − k V (A k
L X
Nh
h=1
Nh 1−k Ph Qh = Nh − 1 k
L X h=1
L
L
h=1
h=1
Nh2 Nh − 1
Ph Qh
Nh Ph Qh 1 − k X Nh2 /N 1 − kX Wh = Ph Qh . V (Pbst ) = n Nh − 1 k k Nh − 1 Ejemplo 3 Considerando el ejemplo ??, realizar una afijaci´ on proporcional. 100 100 n1 = ∗ N1 = ∗ 210 = 24,13 ∼ = 24 870 870 100 100 100 =⇒ 100 = K ∗ 870 =⇒ K = n2 = ∗ N2 = ∗ 600 = 68,96 ∼ = 69 870 870 870 n3 = 100 ∗ N3 = 100 ∗ 60 = 6,896 ∼ =7 870 870
1.3.3.
Afijaci´ on de m´ınima varianza (o afijaci´ on de Neyman)
La afijaci´ on de m´ınima varianza o afijaci´on de Neyman consiste en determinar los valores de nh (n´ umero de unidades que se extraen del estrato h-´esimo para la muestra) de forma que para un tama˜ no de muestra fijo igual a n la varianza de los estimadores sea m´ınima. El desarrollo te´orico para obtener la expresi´ on de la afijaci´ on en cada estrato y los estimadores correspondientes se basa en la teor´ıa de los multiplicadores de Lagrange obteni´endose que el el n´ umero de unidades que se extraen del estrato h-´esimo es igual a nh = n
Nh Sh L X
,
h = 1, 2, . . . , L,
(1.8)
Nh Sh
h=1
donde Sh es la cuasivarianza poblacional correspondiente al estrato h-´esimo y Nh es el tama˜ no poblacional correspondiente al estrato h-´esimo. Otra expresi´on para (??) viene dada por Nh Sh Wh Sh nh = n PL = n PL , h=1 Nh Sh h=1 Wh Sh
h = 1, 2, . . . , L.
(1.9)
12
Vemos que los valores de nh son proporcionales a los productos Nh Sh y en el supuesto de que Sh = S, ∀h = 1, 2, . . . , L esta afijaci´on de m´ınima varianza coincidir´ıa con la proporcional como vemos a continuaci´on. nNh Nh Sh n = Sh = S ⇒ nh = n PL = kNh , con k = . N N h=1 Nh Sh La utilidad de esta afijaci´ on es mayor si hay grandes diferencias en la variabilidad de los estratos. En otros casos, la mayor sencillez y autoponderaci´on de la afijaci´ on proporcional hacen preferible el empleo de ´esta. El valor de la varianza del estimador del total y de la media vienen dados por: !2 L L X 1 X 1 d ¯ st ) = Wh Sh − Wh Sh2 V (X n N h=1 h=1 !2 r L L X 1 P Q N 1 X Ph Qh Nh h h h ¯st ) = V (Pc Wh − Wh n Nh − 1 N Nh − 1 h=1 h=1 !2 L L 1 X 1 X d Nh Sh − Nh Sh2 V (Xst ) = n N h=1 h=1 !2 r L L X 1 Ph Qh Nh P Q N 1 X h h h d Nh V (A¯st ) = Nh − n Nh − 1 N Nh − 1 h=1
h=1
Ejemplo 4 Considerando el Ejemplo ??, realizar una afijaci´ on de Neyman. Como hemos comentado anteriormente, la asignaci´ on para cada muestra viene dado por: Nh Sh nh = n PL . h=1 Nh Sh Primero vamos a calcular las cuasivarianzas poblacionales para cada uno de los estratos. Para el estrato poblacional 1, X 2 3 4 7
ni 20 30 60 100
ni xi 40 90 240 700
La media poblacional en el estrato 1 viene dada por ¯ 1 = 40 + 90 + 240 + 700 = 5,09, X 210 y por lo tanto la cuasi-varianza poblacional para dicho estrato viene dado por: S12
= =
1 (2 − 5,09)2 ∗ 20 + (3 − 5,09)2 ∗ 30 + (4 − 5,09)2 ∗ 60 + (7 − 5,09)2 ∗ 100 209 3,6273.
13
Para el segundo estrato, se tiene que X 10 12 16 20 25
ni 150 200 120 80 50
ni xi 1500 2400 1920 1600 1250
La media poblacional en el estrato 2 viene dada por ¯ 2 = 1500 + 2400 + 1920 + 1600 + 1250 = 14,45, X 600 y por lo tanto la cuasi-varianza poblacional para dicho estrato viene dado por: S22
=
20,8493.
Finalmente, para el tercer estrato, X 30 35 50 60 100
ni 20 18 10 8 4
ni xi 600 630 500 480 400
La media poblacional en el estrato 3 viene dada por ¯ 3 = 600 + 630 + 500 + 480 + 400 = 43,5, X 60 y por lo tanto la cuasi-varianza poblacional para dicho estrato viene dado por: S32
=
344,3220.
De este modo, se tiene que p p S1 = (S12 ) = 1,9045, S2 = (S22 ) = 4,5661,
S3 =
p 2 (S3 ) = 18,5559,
N1 S1 + N2 S2 + N2 S3 = 1,9045 ∗ 210 + 4,5661 ∗ 600 + 18,5559 ∗ 60 = 3576,8. Calculamos los tama˜ nos muestrales n1 = n n2 = n
399,9450 N1 S1 = 100 = 9,4038 ∼ = 9. N1 S1 + N2 S2 + N3 S3 4253
N2 S2 2739,66 = 100 = 64,4181 ∼ = 65. N1 S1 + N2 S2 + N3 S3 4253
n3 = n
N3 S3 1113,4 = 100 = 26,1218 ∼ = 26. N1 S1 + N2 S2 + N3 S3 4253
14
1.3.4.
Afijaci´ on o ´ptima
La afijaci´ on ´ optima consiste en determinar los valores de nh (n´ umero de unidades que se extraen del estrato h-´esimo para la muestra) de forma que para un coste fijo C la varianza de los estimadores sea m´ınima. El coste fijo C ser´a la suma de los costes derivados de la selecci´on de las unidades muestrales de los estratos, es decir, si Ch es el coste por unidad de muestreo en el estrato h, el coste de selecci´ on de las nh unidades muestrales en ese estrato ser´a Ch nh . Sumando los costes Ch nh para los L estratos tenemos el coste total de selecci´on de la muestra estratificada. Como en el apartado anterior, la expresi´on nh se obtiene utilizando los multiplicadores de Lagrange y vienen dados por: √ Nh Sh / ch , h = 1, 2, . . . , L. (1.10) nh = n L X √ Nh Sh / ch h=1
√ Vemos que los valores de nh son proporcionales a los productos Nh Sh / Ch y en el supuesto de que Ch = K, ∀h = 1, 2, . . . , L (coste constante en todos los estratos) la afijaci´ on ´ optima coincide con la de m´ınima varianza y si adem´as Sh = S, ∀h = 1, 2, . . . , L la afijaci´on ´optima coincidir´a con la de m´ınima varianza y con la proporcional. Bajo este tipo de afijaci´on, las varianzas de los estimadores de la media poblacional, total poblacional, proporci´on de clase y total de clase vienen dados por ! L ! L L X X p p 1 1 X d ¯ st ) = V (X Wh Sh / Ch Wh Sh Ch − Wh Sh2 n N h=1 h=1 h=1 ! L ! r r L X X p p P Q N P Q N 1 h h h h h h Wh / Ch Wh Ch V (Pc st ) = n Nh − 1 Nh − 1 h=1
−
d V (X st ) d V (A st )
=
=
−
1 N 1 n 1 n
L X
h=1
Wh
h=1 L X
Ph Qh Nh Nh − 1 !
p Nh Sh / Ch
h=1 L X h=1
L X
! Nh Sh
p
Ch
−
h=1
r Nh
Ph Qh Nh p / Ch Nh − 1
L 1 X Nh Sh2 N h=1
!
L X h=1
r Nh
Ph Qh Nh p Ch Nh − 1
!
L 1 X Ph Qh Nh Nh N Nh − 1 h=1
Ejemplo 5 Para el ejemplo , realizar la afijaci´ on ´ optima siendo los costes por unidad en cada estrato C1 = 1, C2 = 16 y C3 = 25.
15 √ √ √ En este caso, se tiene que C1 = 1, C2 = 4 y C3 = 5 y por lo tanto √ N1 S1 / C1 399,45 n1 = n 3 = 30,5615 ∼ = 100 = 31. 1307,0358 X √ Nh Sh / ch h=1
n2
= n
√ N2 S2 / C2 684,915 = 100 = 52,4022 ∼ = 52. 3 1307,0358 X √ Nh Sh / ch
h=1
n3
√ 222,6708 N3 S3 / C3 = 100 = n 3 = 17,0358 ∼ = 17. 1307,0358 X √ Nh Sh / ch h=1
1.4.
Comparaci´ on de eficiencias seg´ un los distintos tipos de afijaci´ on
El estudio comparativo de la conveniencia de los distintos tipos de afijaci´on en t´erminos de su eficiencia se mide a trav´es del error de muestreo o lo que es lo mismo, a trav´es de la varianza. Por lo tanto ser´a mas eficiente aquel tipo de afijaci´ on que presente menos varianza. Los siguientes puntos se exponen sin demostraci´on. El muestreo estratificado con afijaci´on proporcional es m´as preciso que el muestreo aleatorio simple, produci´endose la igualdad de precisiones cuando las medias de los estratos son todas iguales. Por lo tanto la ganancia en precisi´ on del muestreo estratificado respecto del aleatorio simple ser´a mayor cuanto m´ as distintas entre s´ı sean las medias de los estratos, es decir, para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterog´eneos entre s´ı en media, afirmaci´on que ya conoc´ıamos desde el comienzo del tema y que constituye una de las especificaciones cl´ asicas en el muestreo estratificado. El muestreo estratificado con afijaci´on de m´ınima varianza es m´as preciso que el muestreo estratificado con afijaci´on proporcional, produci´endose la igualdad de precisiones cuando las cuasidesviaciones t´ıpicas de los estratos son todas iguales. Por lo tanto, la ganancia en precisi´on del muestreo estratificado con afijaci´on de m´ınima varianza respecto del muestreo estratificado con afijaci´ on proporcional ser´a mayor cuanto m´as distintas entre s´ı sean las cuasidesviaciones t´ıpicas de los estratos, es decir, para que el muestreo estratificado sea m´as preciso es conveniente que los estratos sean heterog´eneos entre si en desviaci´on t´ıpica.
16
1.5.
Tama˜ no de la muestra necesario para cometer un error absoluto de muestreo
Vamos a analizar ahora el tama˜ no de muestra estratificada necesario para cometer determinado error absoluto de muestreo conocido de antemano. Supongamos que queremos calcular el tama˜ no de muestra estratificada para b sin coeficiente de confianza adicional. cometer un error de muestreo e = σ(θ)
1.5.1.
Afijaci´ on uniforme
Para fijaci´ on uniforme se tienen las siguientes varianzas bst ) V (X
=
b¯ ) V (X st
=
bst ) V (A
=
V (Pbst )
=
L X
K Sh2 Nh2 1 − Nh K h=1 L X K Sh2 Wh2 1 − Nh K h=1 L X K Nh Ph Qh Nh2 1 − Nh Nh − 1 K h=1 L X K Nh Ph Qh 2 , Wh 1 − Nh Nh − 1 K h=1
siendo K = n/L el tama˜ no fijo de la afijaci´on. De las expresiones anteriores, se tienen los siguientes resultados para el valor de n. Estimador del total L
Nh2 Sh2
h=1 L X
n= e2
L X
+
.
Nh Sh2 h=1
Estimador de la media L n=
L X
Wh2 Sh2
h=1 L X
e2 +
h=1
Wh2 Sh2 Nh
.
17
Estimador del total L
L X N 3 Ph Qh h
Nh − 1
h=1 L X
n=
Nh2 Ph Qh Nh − 1
e2 +
h=1
.
Estimador de la proporci´on L n=
L X W 2 Nh Ph Qh h
h=1
e2 +
Nh − 1
L X h=1
Wh2 Ph Qh Nh − 1
.
Ejemplo 6 Considerando el ejemplo ??, se quiere reducir el error en un 10 % al estimar la media poblacional, ¿qu´e tama˜ no de muestra ser´ıa necesario tomar considerando afijaci´ on uniforme? En este caso, el error al considerar afijaci´on uniforme viene dado por b¯ ) = V (X st
L X
Wh2 (1 − fh )
h=1
Sh2 . nh
Considerando que W1 =
210 , 870
W2 =
600 , 870
W3 =
60 , 870
nh =
100 . 3
b¯ ) = 0,1801 y por tanto el Tomando en cuenta estos √ datos, se tiene que V (X st error viene dado por e = 0,1801 = 0,4244. Si queremos reducir este error en un 10 % el error ser´ıa en este caso e0 = 0,4244 − 0,04244 = 0,3820. Aplicando las expresiones anteriores, se tiene que L n=
L X
Wh2 Sh2
h=1 L X
e2 +
h=1
Wh2 Sh2 Nh
=
3·7,4744 = 122,12 ∼ = 123. 0,38202 + 0,03767
Y considerando afijaci´ on uniforme tendr´ıamos que utilizar n1 = 41, n2 = 41 y n3 = 41.
18
1.5.2.
Afijaci´ on proporcional
Para este tipo de muestreo, notar quer nh = nWh , h = 1, 2, . . . , L y por lo tanto f = fh , h = 1, 2, . . . , L. Supongamos que queremos calcular el tama˜ no de b sin coeficiente muestra estratificada para cometer un error de muestreo e = σ(θ) de confianza adicional. L X
e2
=
d ¯st ) = V (X
L 1−fX
n
h=1
Wh Sh2 ⇒ n =
h=1
Wh Sh2
e2
+
1 N
L X
Wh Sh2
h=1
e2
=
d V (X st ) =
L 1−fX
f
N Nh Sh2 ⇒ n =
h=1
L X
Nh Sh2
h=1 L X
e2 +
Nh Sh2
h=1
e2
=
V (Pc st ) =
L 1−fX
n
L X
⇒ n=
Wh
h=1
e2 +
1 N
L X
h=1
=
Nh Ph Qh Nh − 1
Nh Ph Qh Nh − 1 Wh
h=1
e2
Wh
1−f d V (X st ) = f
Nh Ph Qh Nh − 1
L X
N Nh
h=1
Nh Ph Qh ⇒ n = Nh − 1
L X
Nh
h=1 L X
e2 +
Nh Ph Qh Nh − 1
Nh
h=1
Nh Ph Qh Nh − 1
Ejemplo 7 Una poblaci´ on de tama˜ no 1000 est´ a dividida en tres estratos para los que se conocen los siguientes datos σ1 = 4, σ2 = 12, σ3 = 80, W1 = 0,6, W2 = 0,3 y W3 = 0,1, donde σ1 , σ2 y σ3 representan la desviaci´ on t´ıpica poblacional de los estratos 1, 2, y 3. Determinar el tama˜ no de la muestra que con afijaci´ on proporcional da una varianza del estimador de la media igual a 5. W1
=
0,6 = N1 /N ⇒ N1 = 600,
σ12 = 16 = (N1 − 1)S12 /N1 ⇒ S12 = 16,02
W2
=
0,3 = N2 /N ⇒ N2 = 300,
σ22 = 144 = (N2 − 1)S22 /N2 ⇒ S22 = 144,5
W3
=
0,1 = N3 /N ⇒ N3 = 100,
σ32 = 6400 = (N3 − 1)S32 /N3 ⇒ S32 = 6464,6
19
Y por lo tanto, L X
Wh Sh2 = 699,422,
h=1
y utilizando la expresi´ on dada en teor´ıa L X
n=
Wh Sh2
h=1 1 N
e2 +
L X
= Wh Sh2
699,422 = 122,7181 ∼ = 123, 5 + 0,6994220
h=1
es decir, necesitar´ıamos 123 unidades para conseguir ese error. Para repartir 133 unidades considerando afijaci´ on proporcional se tiene que nh = nWh ,
h = 1, 2, . . . , L,
de manera que n1 = nW1 = 123 ∗ 0,6 = 73,8 ∼ = 74 ∼ 37 n2 = nW2 = 123 ∗ 0,3 = 36,9 = n3 = nW3 = 123 ∗ 0,1 = 12,3 ∼ = 12.
1.5.3.
Afijaci´ on de m´ınima varianza
En este caso, se tiene que
e2
=
d ¯st ) = 1 V (X n
e2
=
1 d V (X st ) = n
P 2 L L W S X h h h=1 1 Wh Sh − Wh Sh2 ⇒ n = PL 1 2 N e + N h=1 Wh Sh2 h=1 h=1 P 2 !2 L L L N S X X h=1 h h Nh Sh2 ⇒ n = Nh Sh2 − PL 1 2 e + N h=1 Nh Sh2 h=1 h=1 L X
!2
Los tama˜ nos de muestra en los casos de la estimaci´on de la proporci´on y el total h de clase se calculan sustituyendo Sh2 por NN Ph Qh en las f´ormulas del tama˜ no h −1 de la muestra para la estimaci´on de la media y el total respectivamente. Ejemplo 8 Considerando los datos del Ejemplo ??, determinar el tama˜ no de la muestra que con afijaci´ on de m´ınima varianza nos proporciona una varianza del estimador de la media igual a 5. En este caso, se tiene que la expresi´on para el tama˜ no muestral viene dado por: P 2 L h=1 Wh Sh 14,048012 n= = = 34,6258 ∼ = 35. P L 5 + 699,416/1000 e2 + N1 h=1 Wh Sh2
20
Para repartir estos 35 unidades utilizando afijaci´on de m´ınima varianza consideramos la expresi´ on Nh Sh nh = n P , Nh Sh obteni´endose los siguientes resultados 2,4015 = 5,98 ∼ =6 14,04801 3,60624 = 8,98 ∼ n2 = 35 =9 1,404801 8,04027 n3 = 35 = 20. 14,04801
n1 = 35
1.5.4.
Afijaci´ on o ´ptima
En este caso, se tiene que Para el estimador de la media √ √ PL PL ( h=1 Wh Sh / Ch )( h=1 Wh Sh Ch ) . n= PL e2 + N1 h=1 Wh Sh2 Para el estimador del total √ √ PL PL ( h=1 Nh Sh / Ch )( h=1 Nh Sh Ch ) n= . PL e2 + N1 h=1 Nh Sh2 Para el estimador de la proporci´on q q √ √ PL PL ( h=1 Wh PhNQ−h1Nh / Ch )( h=1 Wh PhNQ−h1Nh Ch ) n= . PL Nh e2 + N1 h=1 Wh PhNQh h−1 Para el estimador del total de clase q q √ √ PL PL ( h=1 Nh PhNQ−h1Nh / Ch )( h=1 Nh PhNQ−h1Nh Ch ) n= . PL Nh e2 + N1 h=1 Nh PhNQh h−1 Ejemplo 9 Considerando el Ejemplo ?? y suponiendo que el coste para cada estrato es igual a c1 = 1, c2 = 4 y c3 = 25, obtener el tama˜ no de la muestra que proporciona una varianza para el estimador de la media igual a 5. Utilizando la expresi´ on anterior, el tama˜ no de la muestra es igual a √ √ PL PL ( h=1 Wh Sh / Ch )( h=1 Wh Sh Ch ) n = PL e2 + N1 h=1 Wh Sh2 5,8126743·49,81533 = = 50,8052 ∼ = 51. 5 + 0,699422