Story Transcript
Capítulo V – Muestreo estratificado (borrador)- 175
V - MUESTREO ESTRATIFICADO V.1 - Estratificación y eficiencia de los diseños muestrales Ya vimos que la primera gran clasificación de los diferentes métodos de muestreo depende del conocimiento o desconocimiento de las probabilidades de selección de cada muestra posible. De allí que a un grupo de estos métodos se los denomine, según los autores, muestreo con probabilidad conocida, muestreo con probabilidad o muestreo probabilístico, mientras que al otro se lo conoce como muestreo sin probabilidad conocida, muestreo sin probabilidad o muestreo no probabilístico. El muestreo probabilístico, a partir del conocimiento de la probabilidad de selección, es la única técnica de muestreo que brinda una medida de la confianza de las estimaciones de parámetros(1). El muestreo al azar simple es el método probabilístico más sencillo. Se caracteriza porque todas las muestra posibles de un universo determinado cuentan con la misma oportunidad de ser seleccionadas. Pero la importancia del muestreo al azar simple radica más en su utilidad teórica y como elemento introductorio de los conceptos básicos de muestreo que en su aplicación práctica, ya que, pese a su sencillez, solo puede ser utilizado bajo determinadas condiciones, lo que lo hace poco recomendable en la mayoría de las investigaciones. El muestreo al azar simple solo es aplicable cuando se dispone de un listado satisfactoriamente completo de los elementos de la población. El muestreo al azar simple no es aconsejable cuando el costo de recolección del dato difiere en forma importante dependiendo de cuales sean los elementos seleccionados (a partir de la dispersión geográfica o dificultades para su ubicación). El muestreo al azar simple solo debería usarse cuando no se dispone de otra información sobre la población que la lista de sus componentes. Las dos primeras observaciones son de carácter administrativo y técnico. La última se deriva de considerar su menor eficiencia estadística con relación a otras alternativas de muestreo. ¿Qué es la eficiencia estadística de una muestra? Un diseño muestral es, estadísticamente, más eficiente que otro cuando, para el mismo tamaño de muestra, se obtiene un error estándar menor. Podríamos hablar de eficiencia estadística cuando el grado de precisión o la magnitud de la confianza de las conclusiones son mayores, considerando muestras con la misma cantiNotas: 1 No debe confundirse el concepto de representatividad con el de probabilidad. Una muestra probabilística tiene una determinada probabilidad de no ser representativa de una población o universo, mientras que una muestra no probabilística puede ser perfectamente representativa, al menos en lo que hace a una determinada cantidad de variables. El hecho que una muestra no sea probabilística (condición que se da en la gran mayoría de las investigaciones sociales) no desmerece su representatividad y la validez de sus resultados, contrariamente a un mito o prejuicio muy instalado.
176 - Introducción al muestreo para estudiantes de ciencias sociales
dad de casos. Pero lo que se conoce como eficiencia del diseño muestral depende de la técnica de selección empleada y su correspondiente error estándar. Supongamos que tenemos dos muestras (A y B) con igual cantidad de casos, obtenidas de una misma población, con idénticos estadísticos y que la diferencia entre ellas radica en la técnica de selección utilizada. Con la información de la muestra A podemos concluir que el porcentaje de varones de la población, para un nivel de confianza determinado, es un valor que está entre 46% y 50%, mientras que con la muestra B podemos concluir, con la misma confianza y similares resultados, que el porcentaje de varones de esa población se encuentra entre 47% y 49%. Ello es posible porque el error estándar que obtenemos a partir de la muestra B es menor y diremos que es, estadísticamente, más eficiente que la muestra A. O también podemos realizar estimaciones con un mismo error, pero con niveles de confianza distintos. La muestra que nos permite realizar estimaciones con el riesgo menor es a la que consideraremos estadísticamente más eficiente. Muestra
error de = estimación
confianza z(k/2)
•
error estándar
A B
2 1
= =
2 2
• •
1 0,5
A B
1 1
= =
1 2
• •
1 0,5
Vimos en el capítulo anterior que el MASsr es más eficiente que el MAScr. ¿Cómo se consigue una muestra estadísticamente todavía más eficiente? Trabajando con las unidades de muestreo para disminuir la probabilidad que aparezcan muestras cuyos estadísticos se alejen en demasía de los parámetros de la población. Supongamos que nos encontramos ante una pequeña reunión de tres amigos que se han conocido cursando en el mismo colegio secundario. Como tienen edades similares, ya que provienen de la misma promoción, y han concurrido con sus parejas y algunos de sus hijos y nietos, nos encontramos con una población claramente dividida en tres grupos muy diferentes en cuanto a sus edades: los "abuelos", los "hijos" y los "nietos". En total son 36 personas. Pasemos a describirlas, atendiendo solo a sus edades: Abuelos 60 58 65 60 57 60
Hijos 25 23 30 35 36 29
31 32 26 23 30 31
10 12 4 14 8 7
Nietos 6 6 9 8 11 5
8 13 7 6 6 13
Hay 6 personas que integran el grupo de los "abuelos", 12 el de los "hijos" y 18 el de los "nietos". La media aritmética de la edad de todos ellos es 24 años. Supongamos también que alguien desea conocer el promedio de edad de esta población a partir de una muestra al azar simple sin reposición de 6 casos. ¿Puede suceder que la muestra extraída se componga solo por "abuelos"? Evidentemente sí, aunque la probabilidad es baja. Si ello sucediera llegará a la conclusión (mediante una estimación puntual) que el promedio de edad de la población es de 60 años. Y también
Capítulo V – Muestreo estratificado (borrador)- 177
puede suceder que la muestra extraída al azar simple sin reposición contenga a los seis "nietos" de menor edad (4, 5, 6, 6, 6 y 6) arrojando un promedio de 5,5 años. La primera de las muestras tiene un error de 36 años y la segunda de –18,5 años. Para no olvidarnos que debemos pensar en términos de distribuciones muestrales, estamos hablando de un espacio muestral de NΩ= N! ÷ (N-n)! = 36! ÷ (36-6)! =1.402.410.240 muestras. Solo 720 de estas muestras sin reposición comprenden a los seis “abuelos”, y otras 720 muestras a los seis “nietos” menores. Aunque la probabilidad de seleccionar una muestra al azar simple sin reposición con las seis personas de mayor edad es muy baja (apenas el 0,00005 %), y una probabilidad similar encontramos para la selección de una muestra con las seis personas de menor edad, ambos sucesos son posibles.
Pero como la persona interesada en conocer el promedio de edad de esta pequeña población observa que hay 3 grupos claramente distintos e identificables a partir de su apariencia física, decide extraer su muestra de seis casos en forma proporcional al tamaño de los grupos, es decir, averiguar la edad de un "abuelo", de dos "hijos" y de tres "nietos" (seleccionados con MASsr dentro de cada grupo). La técnica utilizada, el dividir previamente a la población en grupos cuyos componentes son similares entre sí y luego realizar una seleccionar aleatoria dentro de cada uno de ellos se conoce como estratificación. Como, además, la cantidad de casos seleccionada en cada grupo depende del peso relativo de los grupos, hablamos de un "muestreo estratificado proporcional". Estos grupos son excluyentes (cada elemento puede pertenecer a un solo grupo) y exhaustivos (en su conjunto contienen a todos los componentes de la población). A diferencia del muestreo aleatorio simple, en el muestreo estratificado no todas las muestras (o combinaciones de elementos) tienen la misma probabilidad de ser seleccionadas. Es más, algunas combinaciones ni siquiera son posibles. Sin embargo, esto no es un inconveniente. Las probabilidades de selección de las muestras siguen siendo conocidas y ello es lo que permite realizar estimaciones de parámetros con errores y riesgos mensurables. Volviendo a nuestro “investigador”, ¿es posible que seleccione a los tres "nietos" más pequeños, a los dos "hijos" de menor edad y al "abuelo" más joven? Otra vez la respuesta es sí. Y, a la inversa, también puede suceder que seleccione en cada uno de los grupos a quienes tienen mayor edad. Veamos la primera posibilidad, la de seleccionar a los más jóvenes en cada grupo. La selección daría una muestra con casos de 4, 5, 6, 23, 23 y 57 años, y un promedio de 19,8 años de edad (error: - 4,2 años). Cualquier otra combinación de seis casos que arroje un promedio de edad menor al de la población, no podría estar más alejada de este que la muestra obtenida. Y para la segunda posibilidad, la de seleccionar a los de mayor edad en cada grupo, obtendría una muestra de 13, 13, 14, 36, 35 y 65 años, con un promedio de 29, 3 años (error: + 5,3 años). Cualquier otra combinación de seis casos con un promedio de edad mayor al de la población, no podría estar más alejada de este que la muestra obtenida. Aunque con poca probabilidad de aparición, ambas selecciones son las más extremas que pueden aparecer. Nótese la diferencia con las muestras de valores más extremos obtenibles mediante MASsr, donde los errores eran de –18,5 y 36 años respectivamente.
178 - Introducción al muestreo para estudiantes de ciencias sociales
Es evidente que, al utilizar este segundo procedimiento, sin modificar la cantidad de casos seleccionados ha disminuido la posibilidad de aparición de muestras con valores alejados de la media de la población y, consecuentemente, la posibilidad de llegar a conclusiones erróneas. Aunque la demostración no es la más ajustada, desde el punto de vista matemático, sirve para una comprensión intuitiva del concepto de eficiencia estadística del diseño muestral. ¿Qué es lo permite al muestreo estratificado conseguir una mayor precisión con un mismo tamaño de muestra (e incluso menor) que el muestreo al azar simple? Sin profundizar en los fundamentos, solamente diremos que la varianza total puede explicarse por la suma de las variabilidades intra-grupos e inter-grupos. Al formar grupos lo más disímiles entre sí (y por lo tanto con gran homogeneidad interna) se busca que este factor (la variabilidad intergrupos) asuma la mayor parte de la varianza total (ver apéndice al final del capítulo). La eficiencia estadística de un diseño muestral no depende del límite inferior o superior del rango de valores que se obtienen en una distribución muestral, sino de la variabilidad de esta distribución, aunque, como consecuencia, la extensión del rango pueda disminuir. La mayor eficiencia estadística se expresa, refiriéndonos a la población que usamos de ejemplo, en que la distribución muestral de medias de n=6 y MASsr tiene un error estándar de poco más de 7 años, mientras que la distribución muestral de medias de n=6 con muestreo estratificado proporcional arroja un error estándar de poco menos de 2 años. La eficiencia estadística del muestreo estratificado depende fundamentalmente de las características de los estratos construidos. Cuanto más se parezcan entre sí los componentes de un mismo estrato y más se diferencien de los elementos de los otros estratos mayor sentido tiene la estratificación. Aunque tengan como referencia común la variabilidad, no debe confundirse la eficiencia del diseño con la eficiencia del estimador que vimos en el capítulo anterior. Un estimador es más eficiente que otro cuando, para un mismo diseño e igualdad de casos, tiene un error estándar menor. La eficiencia de los diseños se establece a partir del mismo estimador, cuando, para una misma cantidad de casos, se consigue disminuir su error estándar. Eficiencia del estimador Estimador A Estimador B (2) Insesgados Mismo espacio muestral + error estándar - error estándar - eficiencia + eficiencia
Eficiencia del diseño Diseño A Diseño B Mismo estimador Diferentes espacios muestrales + error estándar - error estándar - eficiencia + eficiencia
Una de las razones para la utilización del muestreo estratificado es, entonces, la de aumentar la precisión o confiabilidad de los estimadores. Pero también puede optarse por esta técnica a partir de la necesidad de información específica sobre sub-poblaciones del universo, que pueden ser consideradas como estratos y de las que se sacarán muestras independientes, o por la intención de desarrollar técnicas de selección diferentes en cada sub-grupo. Notas: 2 Cuando al menos uno de los estimadores es sesgado, para determinar cuál es más eficiente se aplican cálculos sencillos que contemplan tanto la magnitud de la varianza como el sesgo.
Capítulo V – Muestreo estratificado (borrador)- 179
Como una derivación secundaria, también puede emplearse el muestreo estratificado cuando, sin modificar la confianza o precisión de la estimación, se desea trabajar con una menor cantidad de casos. Para una adecuada estratificación deben responderse varias preguntas: 1) ¿Qué variables deben ser consideradas para dividir a la población en estratos? 2) ¿Cómo combinamos y categorizamos estas variables, cuáles son los límites de cada estrato? 3) ¿Cuántos estratos deben considerarse? 4) ¿Cuántos casos se seleccionaran dentro de cada estrato? V.2 - Estimación de medias, proporciones y totales con muestras estratificadas Antes de responder a las cuatro preguntas que cierran el punto anterior, es conveniente introducirnos en la estimación de medias, proporciones y totales a través de intervalos de confianza con muestras estratificadas. Como ya vimos, el cálculo del error de estimación no es más que la multiplicación del error estándar por una magnitud que depende de la confianza elegida [ (z(k/2) ]. El problema radica en establecer, en cada caso y a partir de las características de la muestra, la magnitud del error estándar. Cuando trabajamos con muestras aleatorias simples utilizamos los siguientes procedimientos: fórmula general Poblaciones infinitas o MAScr Medias
IC(µ, k ) = x ± z (k 2 )
s2 n
IC(θ, k ) = θˆ ± z (k 2 ) σˆ θˆ
Poblaciones finitas y MASsr IC(µ, k ) = x ± z (k 2 )
Total
IC(T, k ) = xN ± z (k 2 )
N 2s 2 n
IC(T, k ) = xN ± z (k 2 )
Proporciones
IC(P, k) = p ± z (k 2 )
p.q n -1
IC(P, k ) = p ± z (k 2 )
y
s2 N − n × n N N 2s 2 N − n × n N p.q N − n × n -1 N
N−n puede reemplazarse por 1-f (siendo f = n/N) N
Donde el error de estimación está dado por la multiplicación de la estimación puntual del error estándar (utilizando para su cálculo los estadísticos p y s2 como estimadores de los parámetros P, σ2 y S2) por la confianza elegida (expresada en puntaje z equivalente al área bajo la curva normal para la mitad de la confianza). En el muestreo estratificado el concepto no varía, pero sí lo hace el procedimiento para calcular los estadísticos y estimar los parámetros y sus errores estándar, a los que llegamos mediante sumas ponderadas de las medidas de las muestras de cada estrato, ya que las distribuciones muestrales derivadas de una selección estratificada son distribuciones muestrales de estadísticos ponderados.
180 - Introducción al muestreo para estudiantes de ciencias sociales
Si tenemos una muestra de 200 hogares del norte de la provincia de Buenos Aires que arroja un promedio de 5 personas por hogar y otra muestra de 200 familias del sur con promedio de 4 personas por hogar (afijación igual, como veremos más adelante), y sabemos que los hogares del norte implican el 80% del total de hogares de la provincia, no podemos estimar el promedio provincial de personas por hogar simplemente calculando el promedio de ambas muestras. Debemos asignar a cada muestra el peso de la población que representa. x provincia = Wnorte x norte + Wsur x sur (donde W=proporción o peso del estrato en la población) x provincia = 0,8 × 5 + 0,2 × 4 = 4 + 0,8 = 4,8 personas por hogar
Los promedios de 5 y 4 personas por hogar variarán de una muestra a otra. Lo que se mantiene constante es el peso de dada estrato. Los espacios muestrales son el resultado de la combinación de todas y cada una de las muestras posibles de un estrato con todas las muestras posibles de los otros estratos y los valores de las distribuciones muestrales de medias son los promedios ponderados de las medias de las muestras de cada estrato. Supongamos una población de 800.000 trabajadores en relación de dependencia, divida en tres estratos. El estrato A tiene 350.000 personas, el B tiene 300.000 y el C tiene 150.000. En cada estrato se selecciona una muestra aleatoria simple, siendo el tamaño de las muestras proporcional al peso de cada estrato. Posteriormente se obtiene información sobre la aprobación de la instrucción primaria y el ingreso mensual de cada persona seleccionada, la que está volcada en el cuadro siguiente. En la primera columna se incluyen las medidas de la muestra global calculadas como si esta hubiera sido extraída al azar simple sin reposición. Azar simple N (población) 800.000 W (peso) n (muestra) 800 p (proporción) primaria completa aprobada 0,31 x (media) ingreso mensual $ 588 s2 (cuasivarianza) ingreso mensual 205.466
Estrato A
Estrato B
Estrato C
350.000 0,4375 350 0,15 $ 320 9.632
300.000 0,375 300 0,25 $ 460 10.852
150.000 0,1875 150 0,80 $ 1470 108.306
Comencemos estimando la media y la proporción de la población a partir del total de la muestra, como si toda en su conjunto hubiera sido seleccionada al azar simple, para una confianza del 95,5%. Utilizaremos las fórmulas del muestreo con reposición, en lugar de las que deberíamos utilizar (las del muestreo sin reposición) al solo efecto de simplificar los cálculos. Para la estimación mediante intervalos de la media:
IC(µ, k ) = x ± z ( k 2 )
s2 n
Capítulo V – Muestreo estratificado (borrador)- 181
Remplazando...
IC(µ,0.955) = $588 ± 2
205.466 = $588 ± 2 × 16,02599 = $588 ± 32,05199 800
Y llegamos a la conclusión que, para una confianza del 95,5%, la remuneración media mensual es un valor que está entre $554,94 y $620,06. Solo a modo ilustrativo (para quedarnos tranquilos y comprobar que con poblaciones grandes y fracciones de muestreo pequeñas la aplicación de una u otra fórmula no cambia demasiado la cosa), utilicemos también la fórmula para MASsr.
IC(µ, k ) = x ± z ( k 2 )
s2 N − n n N
Remplazando...
IC(µ,0.995) = $588 ± 2
205.466 800.000 − 800 × = $588 ± 32,03596 800 800.000
Donde, con la misma confianza, establecemos un intervalo con límites $555,96 y $620, , siendo despreciable la ganancia en la precisión (por lo pequeño de la fracción de muestreo). Continuemos con la estimación de P, para la misma confianza y con el procedimiento para MAScr: 04
IC(P, k ) = p ± z (k 2 )
p.q n -1
Y, reemplazando: IC(P, k ) = 0,31 ± 2
0,31× 0,69 = 0,31 ± 0,03272367 799
ó, expresado en puntos porcentuales: IC(P, k ) = 31 ± 2
31 × 69 = 31 ± 3,272367 799
De donde concluimos, para una confianza del 95,5%, que P está dentro de un intervalo con límites inferior y superior de 0,2772 y 0,3428 respectivamente (ó 27,72% y 34,28%, como más nos guste expresarlo). Veamos ahora los pasos para la estimación de P y µ considerando la estratificación.
182 - Introducción al muestreo para estudiantes de ciencias sociales
El cálculo de la media y la proporción globales de la muestra no presenta inconvenientes. Es simplemente un promedio ponderado y se expresa en las fórmulas... x ABC = WA x A + WB x B + WC x C p ABC = WA p A + WB p B + WC p C Ni (el peso N de un estrato es el cociente entre la cantidad de elementos del estrato sobre el total de elementos de la población) y Wi = 1 (la suma del peso de todos los estratos es igual a 1).
WA,WB y WC indican los pesos de cada uno de los estratos, donde Wi =
∑
Así, reemplazando por los correspondientes valores, tenemos, para la media de ingresos... xABC= 0,4375 × 320 + 0,375 × 460 + 0,1875 × 1470 = $588 ...y, para primario completo... pABC = 0,4375 × 0,15 + 0,375 × 0,25 + 0,1875 × 0,80 = 0,31 ó pABC = 0,4375 × 15% + 0,375 × 25% + 0,1875 × 80% = 31% En el caso particular del muestreo estratificado proporcional, si hubieramos podido efectual el cálculo de la media a partir de la matriz de datos (con la información desagregada caso por caso) podríamos habernos ahorrado la ponderación, ya que al representar los elementos de cada muestra el peso de su estrato, el valor final sería el mismo.
El cálculo del error estándar total a partir de datos estratificados no es tan directo. No podemos llegar a él a través de una suma ponderada de los errores estándar de cada estrato (como lo hicimos con la media y la proporción) sino a través de las varianzas de las distribuciones muestrales de cada estrato. La varianza de la distribución muestral total es la suma de las varianzas de las distribuciones muestrales de cada uno de los estratos, ponderadas por los pesos cuadrados de los estratos correspondientes:
σ 2x = Σ Wi2σ 2x
i
Si, con MAScr...
σ 2x = i
σ i2 ni
...podemos remplazar σ 2x = Σ Wi2 σ 2x i por σ 2x = Σ Wi2
σ i2 ni
Capítulo V – Muestreo estratificado (borrador)- 183
Y, si con MAScr, σˆ 2 = s 2 (insesgado), entonces podemos estimar puntualmente la varianza total de la distribución muestral a partir de la suma de las cuasivarianzas de las muestras de todos los estratos, divididas por la cantidad de elementos de la muestra de cada estrato y ponderadas por el peso cuadrado del estrato correspondiente.
σˆ 2x =∑ Wi2
s i2 ni
El paso siguiente para llegar a la estimación puntual del error estándar es obvio: extraer la raíz cuadrada de la estimación de la varianza total de la distribución muestral.
σˆ x =
∑
Wi2
s i2 ni
Entonces ya podemos realizar la estimación por intervalos de la media total.
IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑ Wi2
s i2 ni
Fórmula que, aplicada a nuestro ejemplo, nos lleva (siempre con el cálculo simplificado del MAScr), a...
IC(µ ABC , k ) = x ABC ± z ( k 2 )
WA2 s 2A WB2 s 2B WC2 s C2 + + nA nB nC
El cálculo del error estándar se desarrolla en el siguiente cuadro. Si ... entonces Estrato W s2 n W2 × s2 / n A 0.4375 9.632 350 0,43752 × 9.632 ÷ 350 B 0.375 10.852 300 0,3752 × 10.852 ÷300 C 0.1875 108.306 150 0,18752 × 108.306 ÷ 150 Sumamos todos los resultados (∑ W2s2/n), con lo que llegamos a la estimación de la varianza de la distribución muestral de medias total Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del error estándar total
... y el resultado es 5,27 5,09 25,38 35,74 5,98
Ahora tenemos la información necesaria para realizar la estimación global, utilizando...
IC(µ, k ) = x ABC ± z ( k 2 ) σˆ x
ABC
...que, al remplazar por los valores correspondientes, nos da
IC(µ,0.955) = $588 ± 2 × $5,98 = $588 ± $11,96
184 - Introducción al muestreo para estudiantes de ciencias sociales
Redondeando, concluimos que, con una confianza del 95,5%, el ingreso mensual promedio de nuestra población es un valor que está dentro de un intervalo con límites $576 y $600. Recordemos que el cálculo sin considerar la estratificación establecía un intervalo (para la misma confianza) con límites $555 y $621, por lo que hemos reducido el error de estimación de $33 a $12. Ello implica, en términos relativos sobre la estimación puntual de la media aritmética, una reducción del error de estimación de 5,6 puntos porcentuales a 2 puntos porcentuales, lo que no es poco, sobre todo si tenemos en cuenta que si deseamos una reducción equivalente del error de estimación usando MASsr el tamaño de la muestra debe elevarse de 800 a cerca de 5.700 casos para los valores que usamos de ejemplo. Avancemos ahora sobre las proporciones. La fórmula para estimar el error estándar de la distribución muestral de proporciones de la muestra total sigue la misma lógica que la de las medias aritméticas (raíz cuadrada de la sumatoria de las estimaciones puntuales de las varianzas de las distribuciones muestrales de las muestras de cada estrato multiplicadas por los pesos cuadrados de los estratos correspondientes), y es: σˆ p =
∑W
2 i
pi qi ni −1
Si ... entonces Estrato W p n W2 × p.q / (n-1) A 0.4375 15 350 0,43752 × 15 × 85 ÷ 349 B 0.375 25 300 0,3752 × 25 × 75 ÷299 C 0.1875 80 150 0,18752 × 80 × 20 ÷ 149 2 Sumamos todos los resultados (∑ W pq/(n-1), con lo que llegamos a estimación de la varianza de la distribución muestral de proporciones total Y luego extraemos la raíz cuadrada de la suma anterior para obtener la estimación del error estándar total
... y el resultado es 0,7 0,88 0,38 1,96 1,4
Ya podemos estimar, mediante intervalo, la proporción de personas de la población que cuentan con estudios primarios aprobados.
IC(P, k ) = p ABC ± z ( k 2 ) σˆ p ABC IC(P, k ) = p ABC ± z ( k 2 )
WA2 p A q A WB2 p B q B WC2 p C q C + + n A −1 n B −1 n C −1
IC(P,0.955 ) = 31 ± 2 × 1,4 = 31 ± 2,8
Atendiendo a la estratificación, el nuevo intervalo de estimación de P (para una confianza del 95,5 %) queda entre 28,2 y 33,8%, mientras que el anterior estaba dado por 27,7 y 34,3 %, o dicho de otra forma, el error de estimación se reduce de 3,3 a 2,8 puntos porcentuales. Si pretendemos obtener este error de estimación mediante MASsr la cantidad de casos necesarios en la muestra se eleva de 800 a cerca de 1.100, siempre y cuando podamos estimar previamente con cierta aproximación la heterogeneidad de la población.
Capítulo V – Muestreo estratificado (borrador)- 185
¿Qué es lo que ha permitido reducir los errores de estimación, mejorar la eficiencia estadística? Que el criterio de agrupamiento de los casos demostró ser útil al construir estratos con poca variabilidad, lo que llevó a una disminución del error estándar total. Recordemos que se dice que un diseño muestral es más eficiente en lo estadístico que otro cuando, para el mismo tamaño de muestra, se obtiene un error estándar (o típico) menor. V.2.A - Fórmulas para estimación de parámetros mediante intervalo de confianza (muestras estratificadas) Selección intra-estrato
parámetro µ
MAScr
T(X)
P
MASsr
Fórmula
IC(µ ABC , k ) = x ABC ± z ( k 2 )
Wi2 s i2 ∑ ni
IC(T(X) ABC , k ) = x ABC N ± z ( k 2 ) ∑ IC(PABC , k ) = p ABC ± z ( k 2 ) ∑ IC(µ ABC , k ) = x ABC ± z ( k 2 ) ∑
T(X)
IC(T(X) ABC , k ) = x ABC N ± z ( k 2 ) ∑
IC(PABC , k ) = p ABC ± z ( k 2 ) ∑
Wi2 p i q i
ni −1
Wi2s i2 (N i − n i ) ni Ni
µ
P
N i2 s i2 ni
N i s i2 (N i − n i ) ni
Wi2 p i q i (N i − n i )
(n i − 1)N i
V.3 - Variables que deben ser consideradas para dividir (estratificar) a la población. ¿Qué variables deben ser consideradas para dividir a la población en estratos? La respuesta intuitiva a la pregunta es obvia: la mejor estratificación surge de la distribución de la variable en estudio. Pero esta respuesta, además de obvia, puede llegar a ser absurda, ya que si tenemos suficiente información sobre esta variable como para confeccionar estratos a partir de ella, ¿qué sentido tiene realizar una investigación sobre la misma? Afortunadamente solemos contar, a partir de relevamientos censales o investigaciones previas, con información sobre variables estrechamente vinculadas con las de investigación. La distribución geográfica, el sexo, la edad, el nivel socioeconómico, los ingresos, la condición de ocupación, los resultados electorales, la mortalidad, la fecundidad, la educación, la densidad poblacional, el hacinamiento, la cantidad de empleados, la distribución y cobertura de servicios públicos, el grado de "bancarización", la exposición a medios de comunicación, la participación de una marca en el mercado, el régimen de tenencia de la tierra, la recaudación impositiva, la cobertura de salud, el grado de sindicalización o el monto de facturación
186 - Introducción al muestreo para estudiantes de ciencias sociales
anual, son algunas de las tantas variables sobre las que se cuenta con información (o sobre las que se pueden realizar estimaciones confiables) y que suelen estar íntimamente relacionadas con muchas de nuestras inquietudes. Es entonces a partir de ellas que se realiza la estratificación, buscando que los elementos de cada estrato sean lo más parecidos entre sí y maximizando las diferencias con los integrantes de los otros estratos. La calidad de la estratificación dependerá, entre otros factores, del grado de asociación de las variables consideradas a tal efecto con las variables en estudio. Como en muchos otros aspectos del diseño muestral, un buen juicio, experiencia y ajustado marco teórico suelen ser más útiles que fórmulas o recetas para su elección. V.4 - Establecimiento de los estratos (categorización). ¿Cómo combinamos y categorizamos las variables utilizadas para estratificar, cuáles son los límites de cada estrato? El problema radica en los límites a partir de los cuales definir los estratos. Y se complica a medida que aumenta en nivel de medición de las variables de estratificación. Si decidiéramos realizar una estratificación sencilla a partir del sexo, la región de residencia o la condición de ocupación no tendríamos mayores dudas para ubicar a cada caso en alguna de las categorías, cumpliendo los requisitos básicos de la estratificación: cada una de las unidades de muestreo está comprendida en algún estrato y solo en uno (estratos mutuamente excluyentes y en su conjunto comprensivos de la totalidad de la población) y los elementos de cada estrato serán similares entre sí y diferentes a los de cualquier otro estrato (un integrante de un estrato no debe parecerse más a un elemento de otro estrato que a uno del propio). Pero si la variable utilizada fuera la edad (establecida en años cumplidos) la definición del límite de cada estrato es más difícil (y muchas veces sin solución). Si definimos tres grupos: menores de 30 años, de 30 a 50 años y mayores de 50 años, cumpliríamos con la primera condición (que cada unidad de muestreo sea incorporable a un grupo y solo a uno) pero no con la segunda. Una persona de 29 años pertenece al primer grupo, pero sin embargo tiene más semejanza con una gran cantidad de integrantes del segundo grupo que con muchos de los miembros de su propio grupo. Se parece más a una persona de 30 años, que pertenece al segundo estrato, que a otra de 22 años con la que comparte el estrato. Este tipo de clasificación generará grupos no definibles como estratos, al menos muestralmente hablando. Incluso cuando se realiza una estratificación compleja de menor nivel de medición (utilizando distintas variables), la combinación de categorías puede generar inconvenientes similares. Esto no significa que las variables de nivel de medición intervalar o de razones no puedan ser utilizadas para estratificar a la población en estudio. Al margen que existen algunos procedimientos matemáticos para estratificar con estas variables, hay situaciones donde los cortes se establecen naturalmente por ausencia de unidades con determinados valores intermedios, y muchas veces el corte no necesariamente se vincula con los valores de la variable utilizada para estratificar sino con atributos asociados a estos (aunque, estrictamente, no estamos usando esta variable para estratificar). Cuando, por ejemplo, las variables en estudio están relacionadas con temas educativos, demográficos u ocupacionales, la edad puede arrojar segmentaciones significativas con independencia de la cercanía o no de sus valores. Consideraciones similares se pueden hacer, por ejemplo con el uso de los ingresos familiares o
Capítulo V – Muestreo estratificado (borrador)- 187
personales como variable de estratificación, donde establecemos cortes con mayor minuciosidad en los valores más bajos, ya que a medida que aumentan los ingresos las diferencias se vuelven menos significativas. La determinación de los límites de los estratos tiene fundamentos más teóricos que estadísticos y depende del conocimiento que los investigadores tengan sobre las características de la asociación de las variables utilizadas en la estratificación con las variables en estudio. Cuando el investigador se encuentra con dificultades para establecer los limites de un estrato, es conveniente evaluar la posibilidad de no subdividirlo y darle el tratamiento correspondiente a un estrato de alta variabilidad. V.5 - Cantidad de estratos. ¿Cuántos estratos deben considerarse? Una gran cantidad de estratos nos permite cumplir más acabadamente con la condición que los integrantes de un estrato sean similares entre sí y se diferencien de los integrantes de los otros estratos, por lo que podríamos responder que la cantidad de estratos será la mayor que podamos establecer con un sustento aceptable. Pero, por grande que sea la cantidad de estratos, nunca se conseguirá explicar completamente la "variabilidad" de las observaciones. A partir de cierto momento la variación "inexplicada" será dominante y es pequeña la ganancia que tendremos introduciendo una mayor cantidad de estratos. Si consideramos el tema de los costos (ya sea en la selección como en recolección del dato y en los análisis posteriores de la información) también encontraremos que la creación de una gran cantidad de estratos poco aporta con relación a la inversión total. Siguiendo a Cochran (3) y pensando en términos de "costo/beneficio", es aconsejable no utilizar mucho más de seis estratos cuando el objetivo es realizar estimaciones que incluyen a la totalidad de los casos. Sin embargo, esta no es una regla que necesariamente debe seguirse, dependiendo entre otras cosas del grado de asociación de la variable “estratificadora“ con la variable de estudio y de la cantidad de casos que podemos seleccionar por estrato. Si la asociación es alta, ganaremos con mayor cantidad de estratos. Si la cantidad de casos a seleccionar en cada estrato es baja, no estará de más dividir a la población en más estratos para asegurarnos la mayor homogeneidad posible dentro de cada uno de ellos, de forma de que unos pocos casos por estrato puedan ser representativos sin asumir demasiados riesgos. Una mayor cantidad de estratos será considerada también cuando el objetivo sea tener información de sub-grupos.
Notas: 3
Cochran, W.G., Técnicas de Muestro, pág. 176, Ed. Cecsa, México, 2000
188 - Introducción al muestreo para estudiantes de ciencias sociales
V.6 - Cantidad de casos en cada estrato. V.6.A - Asignación proporcional y no proporcional ¿Cuántos casos se seleccionaran dentro de cada estrato? Las observaciones de una muestra estratificada pueden distribuirse en forma proporcional al tamaño o peso de los estratos en la población o pueden distribuirse, por distintos motivos, en forma no proporcional (con igual o desigual cantidad de casos en cada estrato). En el caso que queramos comparar los resultados de sub-grupos o realizar estimaciones para cada sub-grupo con una precisión mínima, con una asignación proporcional podemos quedarnos sin bases de cálculo suficientes si alguno de ellos es relativamente pequeño. De acuerdo a los datos del censo 2001, la población que reside en la Patagonia representa menos del 5% de la población total de la república argentina, mientras que los residentes en el Gran Buenos Aires abarcan a casi el 32% y los de la Región Central el 35%. Si asignáramos proporcionalmente por región una muestra de n=2000, a la Patagonia le corresponderían 100 casos, al Gran Buenos Aires 640 y a la Región Central 700, repartiéndose los casos faltantes en las restantes regiones. Evidentemente, la precisión de las estimaciones para la Patagonia será muy pobre. Si nuestro interés es contar con estimaciones razonablemente precisas para cada región, sin aumentar el tamaño de la muestra total y sin considerar los costos de recolección del dato, tendremos que asignarle más casos a las regiones pequeñas en menoscabo de las mayores. Haciéndolo con criterio, la pérdida de precisión en las regiones de mayor peso será relativamente pequeña en comparación con la ganancia en las áreas de menor magnitud. En el cuadro que figura a continuación se observan los máximos errores de estimación por región para variables de nivel de medición ordinal o menor, con una confianza del 95,5%, con asignación proporcional y no proporcional (en este caso arbitraria), con MAScr intra-estrato. Proporcional
Región Patagonia Gran Buenos Aires Región Central
Asignación No proporcional
n
z ( k 2 ) σˆ p
n
z ( k 2 ) σˆ p
100 640 700
10 % 4% 3,8 %
300 560 580
5,8 % 4,2 % 4,2 %
El agregarle 200 casos a la Patagonia y restarle 80 al Gran Buenos Aires y 120 a la Región Central implica una importante ganancia en la estimación de parámetros para la primera región, sin que la pérdida sea significativa en las otras. También podremos optar por una asignación igual por estrato, de manera que la precisión de las estimaciones sea similar en todas las regiones. En este caso, en cada una de las 6 grandes áreas de la República Argentina seleccionaremos alrededor de 333 casos, siendo el máximo error de estimación de casi 5,5 puntos porcentuales en cada una (siempre para variables de nivel de medición ordinal o menor y con MAScr).
Capítulo V – Muestreo estratificado (borrador)- 189
Si lo que nos interesa son los resultados globales y solo conocemos de los estratos su tamaño, la distribución proporcional es recomendable. Pero, si además contamos con una estimación razonable de la variabilidad de los estratos, a los efectos de mejorar la eficiencia estadística, podemos realizar una distribución no proporcional. Para ilustrarlo, pensemos que hemos decido extraer una muestra de 200 casos de una población de 600 personas para conocer la remuneración mensual media de los operarios de una empresa manufacturera, y definido dos estratos de trabajadores: los no calificados y los calificados. De los primeros sabemos que comprenden al 60% de nuestra población, tienen condiciones y características de trabajo similares y remuneraciones que oscilan entre $500 y $560 mensuales. De los trabajadores calificados sabemos que tienen salarios que oscilan entre $700 y $1400 a partir de condiciones y calificaciones laborales disímiles.
N Rango salarios
Estratos No calificados Calificados 360 240 $ 500 / $ 600 $ 700 / $ 1400
Si el muestreo es proporcional deberíamos seleccionar, para la muestra, 120 trabajadores no calificados y 80 calificados. Sin embargo, e invocando al sentido común ¿no sería un desperdicio asignar una muestra de 120 casos al estrato de trabajadores no calificados, cuando con unos pocos casos obtendríamos una medida suficientemente confiable de la media de su remuneración mensual? ¿No sería entonces también razonable asignar más casos a los trabajadores calificados, ya que dada la variabilidad de su ingreso corremos mayor riesgo de obtener un valor de la media demasiado alejado del verdadero si trabajamos con poca información? La respuesta es, evidentemente, sí. Pero los trabajadores no calificados son más numerosos y un error en la estimación de sus parámetros tendrá más influencia en la estimación total que un error en la estimación de los parámetros de los trabajadores calificados. Surge entonces una pregunta: ¿cuál es la más ajustada distribución de casos por estratos? ¿Cuál es la distribución óptima que, contemplando el tamaño de los estratos pero también su variabilidad, brinda el menor error estándar posible? V.6.A.1 - Asignación (afijación) óptima. Asumiendo que la estratificación fue correctamente establecida, que los costos de la recolección de datos en cada estrato no son sensiblemente distintos y que el tamaño total de la muestra es fijo (para cualquier combinación de estratos) la pregunta es: ¿cuántos casos deben asignarse a cada estrato si decidimos realizar una muestra estratificada no proporcional, y esta decisión no está basada en la necesidad de conocer con determinada precisión las características de alguno o todos los estratos, sino en la pretensión de mejorar la eficiencia estadística global? Ya sea porque las poblaciones son pequeñas o, sobre todo, porque los datos tienen menos variabilidad (poblaciones más "homogéneas"), sabemos que la cantidad de casos necesarios en una muestra será menor sin afectar la eficiencia estadística. Entonces, si las muestras
190 - Introducción al muestreo para estudiantes de ciencias sociales
estratificadas no son más que la suma de muestras aleatorias simples independientes en cada estrato ¿por qué no aprovechar este conocimiento para optimizar la eficiencia estadística global de nuestra muestra y asignarle más casos a los estratos más "complejos", reduciendo los de los estratos menos "complejos", sin dejar de considerar simultáneamente el tamaño de cada estrato, disminuyendo los errores estándar parciales y llevando el error estándar total a su mínima expresión? Veamos distintas alternativas de muestreo utilizadas a los efectos de ir mejorando la eficiencia estadística. Dijimos que el tamaño de la muestra será 200 casos, con independencia de la técnica de selección utilizada. Supongamos que el investigador extrae una muestra aleatoria simple, y como tiene suerte, los resultados son absolutamente representativos de la población (cosa que nosotros conocemos, pero él no). Muestra de 200 trabajadores al azar simple sin reposición s2 = 81.465 x = $ 712,5 El investigador estima ahora mediante intervalo la media de la población para una confianza del 95,5%. Como la población es pequeña, la muestra fue obtenida sin reposición y la fracción de muestreo es grande, aplica la fórmula: IC (µ, 0.955) = x ± z (k/2) σˆ x = x ± z (k/2)
= 712,5 ± 2
s2 N − n × = n N
81.465 600 − 200 × = $712,5 ± 2 × 16,479 = 712,5 ± 33 200 600
Y llega a la conclusión que la remuneración mensual media, con una confianza del 95,5%, es un valor que está entre $ 679,5 y $ 745,5. Pero si hubiera sabido que el 60% de los trabajadores no tienen calificación, podría haber extraído una muestra estratificada proporcional, la que, con un poco de buena fortuna, arrojaría la siguiente información: Muestra de 200 trabajadores. Estratificado proporcional Estrato A (no ca- Estrato B (califilificados) cados) n 120 80 $ 520,8 $ 1000 x s2 375 65.272 A partir de estos datos calculamos primero la media global de la muestra mediante el promedio ponderado de las medias de las muestras de los estratos A y B. x AB = W A . x A + W B . x B = 0,6 × 520,8 + 0,4 × 1000 = 712,5
Luego estimamos puntualmente el error estándar de la distribución muestral de medias de la muestra. Repasando, para ello se estiman las varianzas de la distribuciones muestrales correspondientes a las muestras de cada estratos, se las multiplica por el peso al cuadrado del
Capítulo V – Muestreo estratificado (borrador)- 191
estrato, se suman los productos obtenidos para llegar a la estimación de la varianza total de la distribución muestral y luego se extrae su raíz cuadrada. La fórmula para la estimación del error estándar, si MASsr intra-estrato, es: σˆ x =
∑W
2 i
s i2 (N i − n i ) ni Ni
ó
σˆ x =
∑W
2 i
s i2 N i − n i × ni Ni
Aplicada a nuestro ejemplo: σˆ x AB =
WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B ) + nA NA nBNB
Y remplazando: σˆ x AB =
0,36 × 375 × (360 − 120) 0,16 × 65.272 × (240 − 80 ) + = 120 × 360 80 × 240 = 0,75 + 87,03 = 87,78 = 9,37
Teniendo ya las estimaciones puntuales de la media de la población y del error estándar podemos calcular el error de estimación y por lo tanto el intervalo de confianza: IC (µ, 0.955) = x AB ± z (k 2 )σˆ x AB = 712,5 ± 2 × 9,37 = 712,5 ± 18,74
Concluyendo que la remuneración mensual media (con una confianza del 95,5%) es un valor que está entre $693 y $732, intervalo notablemente más pequeño que el establecido por la estimación a partir de la muestra aleatoria simple ($679 / $746). Pero supongamos que el investigador no solo conoce la cantidad de personas incluidas en cada estrato poblacional sino que además tiene información confiable sobre la variabilidad de la remuneración en cada uno de ellos: sabe que la cuasivarianza del estrato A no puede ser superior a 3000 y la del estrato B a 80.000. Considera que no tiene sentido asignar tantos casos a un estrato con tan poca variabilidad como el primero y que podría aumentar la cantidad de casos en el segundo estrato, que tiene una dispersión mucho mayor, aumentando la eficiencia estadística total. Existen 199 combinaciones posibles de asignación de 200 casos en dos estratos: Combinación 1 2 3 ... 197 198 199
Casos por estrato A B 1 199 2 198 3 197 ... ... 197 3 198 2 199 1
Una solución, un tanto artesanal, es observar cuál es el resultado de cada una de las 199 combinaciones y elegir la que arroje menor error estándar, pero por suerte existe un me-
192 - Introducción al muestreo para estudiantes de ciencias sociales
canismo que nos permite conocer cuál es la mejor asignación (Fórmula de Neyman) sin tener que realizar una gran cantidad de cálculos y comparaciones: Si la selección intra-estrato es aleatoria con reposición, el tamaño del estrato se calcula mediante la fórmula...
ni =
n Wi σ i
∑ Wiσ i
El tamaño de la muestra para el estrato A está dada por el peso del estrato multiplicado por su desvío estándar y por el tamaño global de la muestra (WA.σ σA.n) y dividido por la suma de los pesos de todos los estratos multiplicados por sus desvíos estándar correspondientes (Σ ΣWi.σ σi). ...y, si la selección es sin reposición, la fórmula es...
ni =
σi
n Wi Si
∑ W i Si La fórmula de Neyman también es aplicable a las proporciones, remplazando por Pi Q i y S i por Pi Q i N i (N i - 1) , quedando... ni = ...y n i =
n W i Pi Qi
∑ Wi ⋅
, para la selección con reposición...
Pi Qi
n W i Pi Q i N i (N i - 1)
∑ Wi ⋅ Pi Q i N i (N i - 1)
para la selección sin reposición.
Como, para la mayoría de las situaciones, el uso de σ i en lugar de S i y de Pi Q i por Pi Q i N i (N i - 1) no implica diferencias significativas en los resultados, usamos la fórmula más sencilla para calcular el tamaño óptimo del estrato, en esta caso la que implica usar S (el cuasi desvío estándar), ya que contamos con la magnitud de la cuasivarianza.
Entonces, si S = S 2 ... S A = 3000 == 54,7723 S B = 80.000 = 282,8427
...y aplicando la fórmula de Neyman...
ni = nA =
n Wi Si
∑ W iS i
200 × 0,6 × 54,7723 6572,68 = = 45,02 0,6 × 54,7723 + 0,4 × 282,8427 146,0005
Capítulo V – Muestreo estratificado (borrador)- 193
...el investigador resuelve extraer una muestra estratificada con asignación óptima considerando el peso y la variabilidad de cada estrato, donde la cantidad de casos a seleccionar en el estrato A es 45 y en el estrato B se seleccionaran 155 (n-nA). Los resultados de esta muestra son los del siguiente cuadro: Muestra de 200 trabajadores. Estratificado con afijación óptima Estrato A (no ca- Estrato B (califilificados) cados) n 45 155 $ 520 $ 997,6 x s2 365 64.832 Y repitiendo los pasos ya conocidos para la estimación de la media aritmética mediante intervalo, para una confianza del 95,5%... Cálculo de la media global de la muestra: x AB = W A . x A + W B . x B = 0,6 × 520 + 0,4 × 9 97 , 6 = 711 Estimación puntual del error estándar de la distribución de medias muestrales: σˆ x AB = =
WA2 s 2A (N A − n A ) WB2 s 2B (N B − n B ) + = nANA nBNB
0.36 × 365 × (360 − 45) 0.16 × 64.832 ÷ (240 − 155) + = 45 × 360 155 × 240 = 2,555 + 23,702 = 26,257 = 5,1242
Estimación mediante intervalo de confianza de la media aritmética de la población IC (µ, 0.955) = x AB ± z (k 2 )σˆ x AB = 711 ± 2 × 5,1242 = 711 ± 10,25
Y esta vez concluye que la remuneración mensual media, con una confianza del 95,5%, es un valor que está entre $ 700 y $ 722. Resumiendo, vemos que las estimaciones mediante intervalos de confianza, sin modificar el riesgo (4,5%) ni la cantidad de casos (n=200), arrojaron los siguientes resultados dependiendo de la técnica de muestreo empleada y la asignación de casos por estrato. Estratificado proporEstratificado con asigMASsr cional nación óptima limite limite limite limite limite limite inferior superior inferior superior inferior superior intervalo 679 746 693 732 700 722 error estándar 16,48 9,37 5,13
194 - Introducción al muestreo para estudiantes de ciencias sociales
V.7 - El tamaño de la muestra estratificada. Nos queda ahora calcular el tamaño de la muestra y de sus estratos cuando se utiliza la estratificación. Al igual que con el azar simple, queda a criterio del investigador establecer la confianza y el error de estimación deseados. También deberá realizar una estimación razonable de la variabilidad de todos y cada uno de los estratos. Tomamos tres criterios de asignación de casos: asignación igual, asignación proporcional y asignación óptima (con igualdad de costos para todos los estratos). Obviamente, en el caso de la asignación igual bastará con un solo cálculo, ya que todos los estratos tendrán asignada igual cantidad de casos, y este resultado se multiplicará por la cantidad de estratos para llegar al tamaño total de muestra. En el caso de la asignación proporcional se debe calcular la cantidad de casos a seleccionar en cada estrato, y la suma de estos resultados arrojará la cantidad de casos totales de la muestra. Para la asignación óptima primero se debe calcular el tamaño de muestra, y posteriormente aplicar la fórmula de Neyman a cada uno de los estratos para realizar la distribución de casos por estrato. Se recomienda especial atención en la lectura y uso de las fórmulas que se exponen a continuación. Una mirada apresurada puede llevar a errores, ya que muchas de las medidas y notaciones son parecidas. Algunas de ellas hacen referencia a información de los estratos (las que tienen el subíndice i) y otras al total poblacional. En la misma fórmula W puede estar elevado al cuadrado o no. Hay fórmulas en donde se utiliza el desvío estándar (σ), en otras la varianza (σ2), la cuasivarianza (S2) o el cuasi desvío estándar (S). Y en algunas se combinan dos o más de estas medidas. V.7.A - Tamaño de los estratos para estimación de medias aritméticas. Selección intra-estrato MAScr asignación igual
ni =
MASsr
∑W σ 2 i
δ z (k 2 )
2 i 2
ni =
∑W S δ ∑ WS + 2 2 i i
z (k 2 )
2
2 i i
N
Selección intra-estrato MAScr
asignación proporcional
ni =
Wi ∑ Wiσ δ z (k 2 )
2
MASsr 2 i
ni =
Wi ∑ WiSi2 2
2 δ + ∑ WiSi z N (k 2 )
Capítulo V – Muestreo estratificado (borrador)- 195
Selección intra-estrato MAScr
MASsr
(∑ Wσ ) n=
(∑ W S )
2
2
i
asignación óptima
n=
i 2
δ z (k 2 ) nWiσ i ni = ∑ Wiσ i
i
i
2
2 δ + ∑ WiSi z N (k 2 )
ni =
nWi S i
∑WS i
i
V.7.B - Tamaño de los estratos para estimación de totales. El cálculo del tamaño de los estratos para la estimación de totales se realiza utilizando las mismas fórmulas del tamaño para la estimación de medias aritméticas, dividiendo el máximo error de estimación deseado por la cantidad total de casos, transformando la expresión... 2
δ δ N en z z k ) ( 2 (k 2 )
2
Así, por ejemplo, la fórmula para determinar el tamaño mínimo de la muestra de un estrato en particular para realizar una estimación del total con un error y una confianza determinadas, mediante estratificación proporcional con MASsr intra-estrato queda...
ni =
Wi ∑ WiSi2 2
2 δ/N + ∑ WiSi z N (k 2 )
V.7.C - Tamaño de los estratos para estimación de proporciones. Selección intra-estrato MAScr asignación igual
ni =
MASsr
∑ W PQ 2 i i
δ z (k 2 )
2
i
Wi2 PiQi Ni ∑ N −1 i ni = Pi Qi N i 2 ∑ Wi Ni − 1 δ + z N (k 2 )
196 - Introducción al muestreo para estudiantes de ciencias sociales
Selección intra-estrato MAScr asignación proporcional
ni =
MASsr
Wi Pi Qi N i N1 − 1 ni = Wi PiQi Ni 2 ∑ Ni − 1 δ + z N (k 2 ) Wi ∑
Wi ∑ Wi PiQi δ z (k 2 )
2
Selección intra-estrato MAScr
n=
(∑ W
asignación óptima
ni =
MASsr
Pi Qi
i
δ z (k 2 )
PiQi Ni N i − 1 n= Wi PiQi N i 2 ∑ Ni - 1 δ + z N (k 2 )
)
2
i
Pi Q i N i Ni -1
nWi
nWi Pi Q i
∑W
2
∑ Wi
2
ni =
Pi Q i
∑W
i
Pi Q i N i Ni -1
Regla práctica: Teniendo en cuenta que, para fracciones de muestreo pequeñas, el realizar operaciones con N-1 o N es prácticamente indistinto, en la mayoría de los casos y cuando la selección intra-estrato es al azar simple sin reposición se pueden utilizar fórmulas simplificadas. Ellas son: Fórmulas simplificadas para determinar el tamaño de los estratos (para estimación de proporciones) en el muestreo estratificado con selección intra-estrato MASsr asignación igual asignación proporcional asignación óptima (estrato) (estrato) (total muestra)
ni =
∑W PQ δ ∑W PQ + 2 i i
z (k 2 )
ni =
i
2
i i
N
i
Wi ∑ Wi Pi Q i 2
δ + ∑ Wi Pi Qi z N (k 2 )
n=
(∑ W
i
PiQi
)
2
2
δ + ∑ Wi Pi Qi z N (k 2 )
Veamos un ejemplo sobre el uso de las formulas exactas y las fórmulas simplificadas. Supongamos la siguiente población, de la que conocemos su tamaño y una estimación razonablemente del porcentaje de aparición de un determinado atributo (P).
Capítulo V – Muestreo estratificado (borrador)- 197
Total W N P
A 0,32 640 81%
1 2000 40%
Estratos B 0,43 860 21%
C 0,25 500 21%
Si queremos establecer el tamaño mínimo de los estratos para poder realizar estimaciones mediante intervalos con una confianza del 95% y un error de estimación no mayor a 4 pp., bajo el supuesto que la selección intra-estrato se realizará mediante MASsr, podemos usar la fórmula exacta...
Wi Pi Qi N i N1 − 1 ni = Wi PiQi N i 2 ∑ Ni − 1 δ + z N (k 2 ) Wi ∑
...la que, aplicada al estrato A: 0,32 × 81× 19 × 640 0,43 × 21× 79 × 860 0,25 × 21 × 79 × 500 0,32 × + + 639 859 499 = nA = 0,32 × 81 × 19 × 640 0,43 × 21 × 79 × 860 0,25 × 21× 79 × 500 2 + + 4 639 859 499 + 2000 1,96 0,32 × (493,2507042 + 714,2004657 + 415,5811623) 519,3703463 = = = 104,4 4,164931279 + 0,811516166 4,976447445
...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C, siendo el tamaño total de la muestra de 328 casos. Usemos ahora la fórmula simplificada:
ni =
nA =
Wi ∑ Wi Pi Qi 2
δ + ∑ Wi Pi Q z N (k 2 )
0,32 × (0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79 ) 2
4 0,32 × 81 × 19 + 0,43 × 21 × 79 + 0,25 × 21 × 79 + 2000 1,96 0,32 × 1620,6 518,592 = = = 104,2 4,164931279 + 0,8103 4,975231279
=
198 - Introducción al muestreo para estudiantes de ciencias sociales
...lo que nos da 105 casos para el estrato A. Si aplicamos la fórmula para los otros dos estratos, el resultado es 141 casos para el estrato B y 82 casos para el estrato C. El tamaño total de la muestra es, también, de 328 casos. Solamente podríamos observar la diferencia entre uno u otro resultado en las centésimas. Para poblaciones de mayor magnitud la diferencia en el uso de una u otra fórmula para calcular el tamaño de los estratos es todavía más irrelevante en lo que hace a la ulterior estimación. Tengamos en cuenta, además, que hemos usado a modo de ejemplo un tamaño, tanto para la población total como para los estratos, desacostumbradamente pequeño en la investigación social, mientras que la confianza y el margen de error son de uso habitual. También, a los efectos prácticos y con N grande, es indistinto el uso de σ i ó S i V.7.C.1 - Asignación óptima atendiendo al costo Una variante de la asignación óptima es la que considera al costo de cada caso dentro del estrato. No es un tema menor, ya que en lo cotidiano el tamaño de la muestra suele estar condicionado por los recursos disponibles. Pero debe prestarse cuidado al determinar el tamaño de los estratos atendiendo al costo, ya que presupuestos reducidos y diferencias importantes de costo para cada estrato pueden llevar a tamaños de muestras alejados de los objetivos estadísticos pretendidos. En parte de la bibliografía se considera al costo total (C)como resultado de las funciones: C = ∑ n i ci ó C = Cf + ∑ n i ci ...donde Cf, ni y ci representan, respectivamente, la totalidad de los costos fijos, la cantidad de casos por estrato y el costo por caso del estrato sin incluir los costos fijos. La riqueza de situaciones no puede ser contemplada acabadamente por las fórmulas expuestas, sobre todo cuando los gastos generados por traslados, viajes, alojamiento y viáticos son importantes. Hecha la salvedad, sin considerar a los costos fijos (o asumiento que fueron correctamente imputados a cada estrato) y bajo el supuesto que el costo por caso es razonablemente homogéneo dentro de cada estrato, el tamaño óptimo de la muestra global (n) se definirá dependiendo de si deseamos maximizar la precisión y la confianza para un costo determinado, o disminuir el costo para una precisión y confianza determinadas. Después de definir el tamaño óptimo de n, según el objetivo, se procede al cálculo de los n correspondientes a los estratos. Las fórmulas, para ambos objetivos y dependiendo del tipo de selección intra-estrato, son las siguientes:
Capítulo V – Muestreo estratificado (borrador)- 199
maximizar precisión a partir de un costo total dado
Selección intra-estrato MAScr
n=
calculo de n
C∑ Wi σ i
∑W σ i
∑Wσ i
Minimizar costos a partir de error de estimación y nivel de confianza dados. calculo de n
cálculo de ni (estrato)
i
ci
n=
ci
nWi σ i
ni =
cálculo de ni (estrato)
MASsr
C∑ WiSi
ni =
ci
i
∑WS
ci
nWi S i
ci
i i
ci
ci
∑WS i
i
ci
Selección intra-estrato MAScr n=
(∑ W σ i
i
ci
MASsr
)∑ W σ i
δ z (k 2 )
ni =
nWi σ i
∑Wσ i
ci
i
n=
2
ci i
(∑ W S
i i
)∑ W S
ci
ci
i i
δ ∑ Wi Si + N z (k 2 )
2
2
ni =
ci
nWi S i
∑WS i
ci i
ci
Las mismas fórmulas son aplicables para variables de nivel de medición nominal u ordinal... ...reemplazando σi Si S i2
por Pi Q i Pi Q i N i N i −1 Pi Q i N i N i −1
y recordando que, para tamaños de N y Ni grandes, el uso de σ i ó S i es indistinto a los efectos prácticos, así como también el uso de
Pi Q i ó
Pi Q i N i N i −1
V.8 - Algunas precauciones a tener en cuenta con la estratificación. Considerando las dificultades teóricas y prácticas para su implementación la estratificación no es la panacea universal (mucho menos en la investigación social). Por un lado, comparte con el muestreo aleatorio simple la necesidad de contar con un marco muestral razonablemente completo. A ello hay que agregarle un satisfactorio conocimiento de los prin-
200 - Introducción al muestreo para estudiantes de ciencias sociales
cipales aspectos de la población y del tipo y características de la asociación de las variables en estudio con otras cuya distribución nos sea conocida o calculable. La estratificación es una herramienta poderosa que permite mejorar sensiblemente la precisión de las estimaciones. Y, si no pretendemos disminuir la precisión, posibilita bajar los costos de la investigación (y aumentar el control del error no muestral) al reducir la cantidad de casos necesarios. Pero esta última ventaja es también, en ocasiones, una tentación peligrosa. Si la decisión de no proporcionar la muestra se basa en la necesidad de contar con estimaciones más precisas para algunos de los estratos, o atiende a consideraciones operativas o de costos, el resultado final dependerá de estos requisitos y no hay nada que objetar entonces. Pero si lo hacemos deseando una mayor eficiencia estadística global hay que tomar ciertas precauciones, ya que una incorrecta asignación de casos a cada estrato puede llevar a resultados contrarios a los buscados. Una estratificación puede ser buena o mala, útil o inútil, y solo lo sabremos con certeza cuando tengamos los datos finales tabulados. Si hemos realizado una estratificación previa es porque tenemos sólidas razones para pensar que las características de los elementos de un estrato son relativamente similares entre sí y se diferencian sensiblemente de las de los componentes de los otros estratos. Si ello no es así, la estratificación habrá sido, cuanto menos, innecesaria. Respetando la proporcionalidad, una mala estratificación llevará, en la mayoría de los casos, a que los valores de la estimación global sean similares a los que se hubieran conseguido a través del azar simple. Si el investigador no se comprometió a brindar estimaciones con menores errores o riesgos que los obtenibles mediante este último método, o no decidió restringir la cantidad total de casos basado en la mayor eficiencia estadística esperada, simplemente habrá perdido tiempo, esfuerzo y los costos derivados de obtener y procesar la información necesaria para la estratificación (los que, en su conjunto, suelen no ser despreciables). El problema es más serio con una muestra estratificada no proporcional. Ya sea por defectos de la estratificación o por una errónea asignación de casos en los estratos a partir de una mala información sobre la variabilidad, la eficiencia estadística puede llegar a ser sensiblemente menor que la de un muestreo aleatorio simple, con las consecuencias imaginables. Veamos el siguiente ejemplo, con una selección al azar simple con reposición para hacer los cálculos sencillos. Se trata de una muestra de 1.000 casos que se distribuyó proporcionalmente en dos estratos. La estratificación es incorrecta (o al menos inútil), ya que la cuasivarianza del estrato A es apenas un poco menor que la del total y la del estrato B es superior a la del total.
Capítulo V – Muestreo estratificado (borrador)- 201
Total W n s2
σˆ 2x = σˆ x = Wi2
σˆ 2x = σˆ x =
1 1000 920,497879
s2 n
A 0.8 800 907,152344
Estratos B 0.2 200 935,159722
0,72572188
0,18703194
A+B
0,92049788
s2 n
0,9594
s i2 ni
∑W
2 i
∑W
2 i
s i2 ni
0,91275382
s i2 ni
0,9554
Como resultado de ello, el error estándar calculado a partir de la estratificación (0,9554) es similar al de una selección al azar simple sobre el total de casos (0,9594). Supongamos ahora que la distribución de casos, a partir de supuestos erróneos sobre la variabilidad de los estratos o por razones de costo, no es proporcional. Mantenemos los mismos estadísticos para cada estrato, pero invertimos la asignación de casos.
W n s2 s2 Wi2 i ni σˆ 2x = σˆ x =
∑W
2 i
∑W
2 i
A 0.8 200 907,152344
Estratos B 0.2 800 935,159722
2,9028875
0,04675799
A+B
s i2 ni
2,94964549
s i2 ni
1,7175
El error estándar calculado a partir de la estratificación (1,7175) es ahora significativamente mayor al que se habría obtenido con una selección al azar simple sobre el total de casos. Y todavía podemos pensar ejemplos con consecuencias peores: construir un estrato pequeño de baja variabilidad y uno grande de alta variabilidad, asignando los casos en forma inversa o, más grave aún, disminuir la cantidad de casos bajo la convicción de que la estratificación es útil y la asignación correcta, y descubrir, luego de recolectar la información, que los dos supuestos eran falsos. En el último cuadro, de haber reducido la muestra a la mitad (cosa que una buena estratificación y asignación puede permitir), el error estándar global ascendería a 2,4.
202 - Introducción al muestreo para estudiantes de ciencias sociales
Debemos tener en cuenta que la mayoría de la veces las variables “estratificadoras”, aunque vinculadas con el fenómeno investigado, no lo explican en su totalidad ni mucho menos. Para decirlo de otra forma y aplicando estas ideas a un sondeo pre-electoral, sabemos que el nivel socioeconómico, la edad, el sexo, la región de residencia y otros atributos están vinculados con la intención de voto. Podemos decir, por ejemplo, que la probabilidad de adscripción a un determinado partido político de un varón joven, de nivel socioeconómico bajo y residente en una zona semi-rural del noreste es mayor que la de una mujer adulta, de nivel socioeconómico medio-alto y que reside en una gran ciudad de la región central. Pero, ¿conocemos con precisión estas asociaciones? ¿Estamos convencidos que las variables consideradas explican, al menos gran parte, lo que queremos averiguar? ¿Sabemos tanto de su magnitud y características como para arriesgarnos a disminuir significativamente el tamaño de la muestra a partir de una ajustada estratificación y asignación? Si la respuesta es sí, ¿para qué hacer entonces el estudio si estamos en condiciones de predecir los resultados a partir de las variables conocidas? Si la respuesta es no, realicemos entonces la estratificación bajo la convicción de que tenemos una alta probabilidad de mejorar los estimadores, pero no asumamos el riesgo de disminuir la cantidad de casos. Seguramente, si el MASsr nos exige realizar 1.000 casos para poder realizar estimaciones con un intervalo de confianza determinado, no nos equivocaremos si, a “ojo de buen cubero” y siguiendo con el ejemplo, decidimos que, con una buena estratificación que considere a todas las variables mencionadas, cumpliremos holgadamente los requisitos con solo 900 o menos casos. ¿Pero, cuán significativa es esta diferencia? ¿Se justifica la reducción del costo, sobre todo teniendo en cuenta que la recolección de los datos es solo un aspecto del costo total y que su disminución no afecta proporcionalmente al resto de los factores? (4). La decisión dependerá de cada investigación en particular. Además, habitualmente hay interés en conocer el comportamiento de más de una variable y una buena estratificación para la principal o más importante de las variables no necesariamente sirve para otras. Cuando se decide estratificar con el objetivo de mejorar la estimación de más de una variable se debe llegar a una situación de compromiso o equilibrio para las variables más relevantes. Todo ello nos lleva a la conclusión que, en líneas generales, no es conveniente utilizar la estratificación para disminuir la cantidad de casos de una muestra con la pretensión de no Notas: 4 Los recursos disponibles no son un aspecto menor de la investigación y la mayoría de las veces aparecen como el factor no estadístico más limitante del diseño muestral. Sin embargo, una reducción de la cantidad de casos no afecta sensiblemente a los otros factores. El diseño general de la investigación, del instrumento de recolección (por ejemplo, un cuestionario), las “pruebas piloto”, el diseño muestral, el análisis de los datos, la elaboración de conclusiones y la confección del informe y su presentación son algunos de los aspectos muchas veces no afectados, en términos de costo, por el tamaño de la muestra. En el procesamiento estadístico suele no haber diferencias sensibles a partir de cierta cantidad de casos (salvo en lo que hace al ingreso de datos). Incluso costos más directamente vinculados con la recolección, como la coordinación y supervisión del trabajo de campo, no necesariamente guardan una relación directa con la cantidad de casos a relevar, sin considerar la infinidad de costos fijos e indirectos que pueden existir y que tampoco se modifican.
Capítulo V – Muestreo estratificado (borrador)- 203
modificar la confianza o precisión de los estimadores, salvo que estemos absolutamente convencidos que la asociación entre las variables “estratificadoras” y las variables a investigar es suficientemente fuerte y teniendo un buen conocimiento teórico de la características de la relación como para calcular y justificar la reducción de casos.
204 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercitación Ejercicio 1 El siguiente cuadro contiene la distribución de hogares de la localidad F, por nivel socioeconómico, incluyendo una estimación razonable del máximo desvío estándar posible de ingresos mensuales por hogar para cada nivel. Nivel socioeconómico Bajo Medio Alto
N 5200 3200 1600
W 0,52 0,32 0,16
máximo σ estimado $ 400 $ 700 $ 900
Se desea realizar una investigación mediante muestreo estratificado por nivel socioeconómico para determinar el promedio de ingresos por hogar de la localidad F, con un error de estimación que no supere los $ 65 y un riesgo máximo del 5%. Con el mismo riesgo se desea, adicionalmente, conocer el grado de aceptación de los jefes de hogar del plan de obras públicas propuesto por el municipio para el año venidero, con un error de estimación global no superior a 5 puntos porcentuales y sabiendo que en los niveles socioeconómicos bajo y medio la aceptación de los jefes de hogar no es inferior al 70 %. Bajo el supuesto de una selección intra-estrato aleatoria con reposición, se debe determinar el tamaño del total de la muestra (y de cada estrato), para una afijación... (1.1.1) igual, para estimar la media de ingresos mensuales de los hogares. (1.1.2) igual, para estimar el grado de aceptación del plan de obras públicas (1.2.1) proporcional, para estimar la media de ingresos mensuales de los hogares. (1.2.2) proporcional, para estimar el grado de aceptación del plan de obras públicas (1.3.1) óptima sin considerar el costo, para estimar la media de ingresos mensuales de los hogares. (1.3.2) óptima sin considerar el costo, para estimar el grado de aceptación del plan de obras públicas.
Capítulo V – Muestreo estratificado (borrador)- 205
Resolución del ejercicio 1 (1.1.1) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato MAScr) para la media de ingresos...
∑W σ = 2 i
ni
δ z (k 2 )
2 i 2
Desarrollo del dividendo NSE Bajo Medio Alto
σi2 160000 490000 810000
Wi 0,52 0,32 0,16
Σ ni =
114176 65 1,96
2
=
Wi2σi2 43264 50176 20736 114176
114176 = 103,815035 1099,80217
En cada estrato se deberán seleccionar (MAScr) 104 hogares, por lo que el total de la muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 312 hogares. (1.1.2) Cálculo del tamaño de los estratos con afijación igual (selección intra-estrato MAScr) para el grado de aceptación...
ni =
∑W P Q 2 i i
δ z (k 2 )
i
2
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel. Desarrollo del dividendo NSE Bajo Medio Alto
Wi2 0,2704 0,1024 0,0256
PiQi 2100 2100 2500 Σ
Wi2PiQi 567,84 215,04 64 846,88
206 - Introducción al muestreo para estudiantes de ciencias sociales
ni =
846,88 5 1,96
2
=
846,88 = 130,1 6,5077
En cada estrato se deberán seleccionar (MAScr) 131 hogares, por lo que el total de la muestra para estimar el grado de aceptación en las condiciones solicitadas será de 393 hogares. (1.2.1)Cálculo del tamaño de los estratos con afijación proporcional (selección intraestrato MAScr) para la media de ingresos...
ni =
Wi ∑ Wiσ i2
δ z (k 2 )
2
Desarrollo NSE
Wi
σi2
Bajo Medio Alto
0,52 0,32 0,16
160000 490000 810000
Wiσi2 83200 156800 129600 Σ 369600
2
Wi ΣWiσi2
(δ z(k/2))
192192 118272 59136
1099,80217 1099,80217 1099,80217
Wi ∑ Wiσ i2 (δ z(k/2)) 2 174,8 107,5 53,8
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 175 hogares, en el nivel medio 108 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 337 hogares. (1.2.2) Cálculo del tamaño de los estratos con afijación proporcional (selección intraestrato MAScr) para el grado de aceptación...
ni =
Wi ∑ Wi PiQi
δ z (k 2 )
2
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel.
Capítulo V – Muestreo estratificado (borrador)- 207
Desarrollo NSE
Wi
PiQi
WiPiQi
Wi ΣWiPiQi
(δ z(k/2)) 2
Bajo Medio Alto
0,52 0,32 0,16
2100 2100 2500
1092 672 400 2164
1125,28 692,48 346,24
6,5077051 6,5077051 6,5077051
Σ
Wi ∑ Wi Pi Qi (δ z(k/2)) 2 172,9 106,4 53,2
En el nivel socioeconómico bajo se deberán seleccionar (MAScr) 173 hogares, en el nivel medio 107 hogares y en el nivel alto 54 hogares. Por lo tanto, el total de la muestra para estimar el promedio de ingresos en las condiciones solicitadas será de 334 hogares. (1.3.1) Cálculo del tamaño de los estratos con afijación óptima (selección intraestrato MAScr) para la media de ingresos... A diferencia de los puntos anteriores, primero se debe calcular el tamaño total de la muestra...
(∑ W σ ) n=
2
i
i 2
δ z (k 2 )
Desarrollo del dividendo NSE Bajo Medio Alto
Wi 0,52 0,32 0,16
σi Wiσi 400 208 700 224 900 144 Σ Wiσi 576 (Σ Wiσi)2 331776 331776 331776 n= = = 301,67 2 1099,8022 65 1,96
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos según la fórmula de Neyman.
ni =
nWiσ i ∑ Wiσ i
208 - Introducción al muestreo para estudiantes de ciencias sociales
Desarrollo NSE Bajo Medio Alto
Wi 0,52 0,32 0,16
σi 400 700 900
Wiσi 208 224 144 576
Σ
nWiσi 62747,1105 67573,8113 43440,3073
nWiσi/ΣWiσi 108,9 117,3 75,4
Los 303 hogares a seleccionar para estimar el promedio de ingresos en las condiciones solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 109 hogares, en el nivel medio 118 hogares y en el nivel alto 76 hogares. (1.3.2) Cálculo del tamaño de los estratos con afijación óptima (selección intraestrato MAScr) para el grado de aceptación... Cálculo del tamaño total de la muestra...
( W n= ∑
Pi Qi
i
δ z (k 2 )
)
2
2
Como no tenemos datos sobre la heterogeneidad del grado de aceptación en el nivel socioeconómico alto, optamos por asignar la máxima heterogeneidad (P=50) a este nivel. Desarrollo del dividendo NSE Bajo Medio Alto
Wi 0,52 0,32 0,16
Pi Q i
Wi Pi Q i
45,8257569 45,8257569 50 Wi Pi Q i
23,8293936 14,6642422 8 46,4936358
)
2161,65817
∑ (∑ W
i
n=
2161,65817 5 1,96
2
=
Pi Q i
2
2161,65817 = 332,169042 6,5077
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos según la fórmula de Neyman. ni =
nWi Pi Q i
∑W
i
Pi Q i
Capítulo V – Muestreo estratificado (borrador)- 209
Desarrollo NSE
Wi
Pi Q i
Wi Pi Q i
nWi Pi Q i
nWi Pi Q i
∑W
i
Bajo Medio Alto
0,52 0,32 0,16
45,8257569 45,8257569 50 Σ
23,8293936 14,6642422 8 46,4936358
7915,386838 4871,007285 2657,352332
Pi Q i
170,2 104,8 57,2
Los 334 hogares a seleccionar para estimar el promedio de ingresos en las condiciones solicitadas se distribuyen de la siguiente forma: en el nivel socioeconómico bajo 171 hogares, en el Nivel medio 105 hogares y en el nivel alto 58 hogares.
Ejercicio 2 Debiendo efectuarse una sola muestra para estudiar simultáneamente las dos variables contempladas en el ejercicio 1, se debe... (2.1) ...compatibilizar los resultados de los ejercicios (1.1.1) y (1.1.2) (2.2) ...compatibilizar los resultados de los ejercicios (1.2.1) y (1.2.2) (2.3) ...compatibilizar los resultados de los ejercicios (1.3.1) y (1.3.2) ...es decir, se debe obtener una sola muestra para cada tipo de asignación (igual, proporcional y óptima) que cumpla con los objetivos planteados para ambas variables. Una vez respondido el ejercicio y cotejados los resultados, se recomienda no pasar por alto los comentarios adicionales al final de la resolución del ejercicio 2. Resolución del ejercicio 2 (2.1) Asignación igual Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen total y por estrato, se adopta para cada estrato el mayor tamaño exigido. Los resultados de los ejercicios (1.1.1) y (1.1.2) son: NSE n para muestra estratificada con asignación igual (1.1.1) ingresos... (1.1.2) aceptación... ambas Bajo 104 131 131 Medio 104 131 131 Alto 104 131 131 Total 312 393 393
210 - Introducción al muestreo para estudiantes de ciencias sociales
(2.2) Proporcional Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen total y por estrato, se adopta para cada estrato el mayor tamaño exigido. NSE n para muestra estratificada con asignación proporcional (1.2.1) ingresos... (1.2.2) aceptación... ambas Bajo 175 173 175 Medio 108 107 108 Alto 54 54 54 Total 337 334 337 (2.3) Optima Teniendo en cuenta que ambas muestras no difieren significativamente en su volumen total y por estrato, se adopta para cada estrato el mayor tamaño exigido. NSE n para muestra estratificada con asignación óptima (1.3.1) ingresos... (1.3.2) aceptación... ambas Bajo 109 171 171 Medio 118 105 118 Alto 76 58 76 Total 303 334 365 Comentarios sobre el ejercicio 2 Obsérvese, a partir de los resultados del ejercicio, que una buena asignación para una variable no necesariamente es adecuada para otra. Obsérvese tambien que... ...para los ingresos del hogar... n asignación n asignación n asignación óp> > proporcional igual tima ...mientras que para la aceptación del plan de obras públicas... n asignación n asignación n asignación óp> = igual proporcional tima Habitualmente la asignación igual es menos eficiente que la asignación proporcional. El que la asignación proporcional arroje un tamaño de muestra mayor que el de la asignación igual para los ingresos del hogar se debe a que la variabilidad estimada es menor en el estrato de mayor peso y, a la inversa, mayor en el de menor peso, compensándose mutuamente y haciendo que la asignación igual sea más eficiente que la proporcional. Con el grado de aceptación del plan de obras públicas sucede algo similar (−V+W/+V−W) pero la diferencia de variabilidad no es tan relevante como para compensar las diferencias de peso, y por lo tanto la asignación igual no es más eficiente que la proporcional. Por lo general, cuando de variables nominales u ordinales se trata, las diferencias de variabilidad en los estratos deben ser grandes para tener infuencia en las asignaciones, no
Capítulo V – Muestreo estratificado (borrador)- 211
siendo demasiado notables los cambios entre la asignación proporcional y la óptima en lo que hace al total de casos. Que un estrato tenga, en una variable intervalar, una variabilidad 10 veces mayor que la de otro no es una situación demasiado atípica. Pero, para una variable nominal, es extraño que la variabilidad de un estrato sea 1,5 veces mayor que la de otro. Para los datos que usamos en el ejercicio, la varianza de los ingresos de los hogares del nivel socioeconómico alto es 810.000, cinco veces mayor que la varianza de los ingresos de los hogares de nivel socioeconómico bajo (160.000), mientras que la varianza del grado de aceptación del plan de obras públicas (P × Q) en el nivel socioeconómico alto es 2.500, solo 1,2 veces mayor que la varianza en los niveles medio y bajo (2.100). Para dar una respuesta al tamaño de la muestra y sus estratos cumpliendo con los objetivos planteados para dos variables distintas, se parte del supuesto que las muestras necesarias para cada variable no difieren significativamente en su volumen y distribución interestrato, adoptándose una salida un tanto simple y lineal que consiste en la asignar a cada estrato la mayor cantidad de casos exigida en una u otra variable. Sin embargo, la afirmación de estar trabajando con magnitudes similares es bastante discutible y relativa, ya que depende del costo de cada caso. Una diferencia pequeña puede ser importante si el costo de recolección de los datos es considerable. Cuando las diferencias para distintas variables son relevantes se trata de llegar a alguna solución de compromiso que, inevitablemene, afectará en mayor o menor medida a la precisión de la estimación de la mayoría de las variables (cuando no a todas). De cualquier forma, cambios pequeños en la afijación óptima no modifican seriamente la estimación final. Para una apreciación formal sobre este problema, se puede consultar, entre otros, a Cochran, William (Técnicas de Muestreo, Cecsa, México, 2000, Capítulo 5A, puntos 5A.3 y 5A.4). Ejercicio 3 Sabiendo que el costo de cada caso para el nivel socioeconómico bajo es $ 20, para el nivel socioeconómico medio $ 40 y para el alto $ 80, considerando la información y objetivos de estimación utilizados en el ejercicio 1 y bajo el el supuesto de una selección intraestrato aleatoria con reposición, se debe determinar el tamaño del total de la muestra (y de cada estrato), para una afijación... (3.1) óptima,minimizando el costo total, para estimar la media de ingresos mensuales de los hogares. (3.2) óptima, maximizando la precisión a partir de un costo total de $9.000, para estimar para estimar la media de ingresos mensuales de los hogares.
212 - Introducción al muestreo para estudiantes de ciencias sociales
Resolución del ejercicio 3 (3.1) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima (selección intra-estrato MAScr), minimizando el costo total, para la media de ingresos... Cálculo del tamaño total de la muestra minimizando costos a partir de error de estimación y nivel de confianza dados.... n=
(∑ W σ i
i
ci
)∑ W σ i
δ z (k 2 )
ci
i
2
Desarrollo NSE Bajo Medio Alto
Wi 0,52 0,32 0,16
σi 400 700 900
ci ($) 20 40 80
Wiσi 208 224 144
(∑ W σ i
(∑ W σ i
i
ci
i
ci 4,47213595 6,32455532 8,94427191 Σ Wi σ i c i
)∑
δ z ( k 2)
)
c i ∑ Wi σ i
Wi σ i c i
930,204279 1416,70039 1287,97516 3634,87983
Wi σ i
ci
46,5102139 35,4175098 16,0996894 98,0274132
356317,8664
2
1099,802166
ci (δ z (k 2 ) )
2
323,9836014
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.
ni =
nWi σ i
∑Wσ i
ci ci
i
Desarrollo NSE
Wi
σi
ci ($)
Bajo Medio Alto
0,52 0,32 0,16
400 700 900
20 40 80
Wi σ i
ci
n Wi σ i
ci
46,5102139 15068,54661 35,4175098 11474,69237 16,0996894 5216,035365 Σ 98,0274132 Σ
nWi σ i
ci
∑ Wi σ i c i 154 117 53 324
Capítulo V – Muestreo estratificado (borrador)- 213
(3.2) Cálculo del tamaño de la muestra total (y de cada estrato) con afijación óptima (selección intra-estrato MAScr), maximizando la precisión a partir de un costo total dado, para la media de ingresos... Cálculo del tamaño total de la muestra maximizando la precisión a partir de un costo total determinado....
n=
C∑ Wi σ i
∑W σ i
ci ci
i
Desarrollo NSE Bajo Medio Alto
Wi 0,52 0,32 0,16
σi 400 700 900
Wiσi
ci ($) 20 40 80 Σ
ci
46,5102139 35,4175098 16,0996894 98,0274132 C∑ Wi σ i
∑Wσ
i i
ci ci
Wi σ i c i
930,204279 1416,70039 1287,97516 3634,87983 242,7168877
Una vez calculado el tamaño total de la muestra se realiza la distribución por estratos.
ni =
nWi σ i
∑Wσ i
ci ci
i
Desarrollo NSE
Wi
σi
ci ($)
Bajo Medio Alto
0,52 0,32 0,16
400 700 900
20 40 80
Wi σ i
ci
n Wi σ i
ci
46,5102139 11288,81437 35,4175098 8596,427748 16,0996894 3907,666514 Σ 98,0274132 Σ
nWi σ i
ci
∑ Wi σ i c i 114 88 40 242
214 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercicio 4 A partir de los datos dados en la formulación y los obtenidos en el desarrollo de los ejercicios, estimar mediante intervalos y para una confianza del 95%, la media mensual de ingresos de los hogares (bajo el supuesto de MAScr intra-estrato) de la población en estudio... (4.1) Con la muestra obtenida en el ejercicio (1.1.1). (4.2) Con la muestra obtenida en el ejercicio (1.2.1). (4.2) Con la muestra obtenida en el ejercicio (1.3.1). (4.3) Con la muestra obtenida en el ejercicio (3.1). (4.4) Con la muestra obtenida en el ejercicio (3.2). ...si los datos obtenidos fueran... xi Nivel socioeconómico si2 Bajo $ 625 160.000 Medio $ 1450 490.000 Alto $ 3175 810.000 Resolución del ejercicio 4 El primer paso consiste en estimar puntualmente la media de ingresos de los hogares, lo que haremos una sola vez para todas las muestras, ya que lo único necesario es contar con las medias observadas en cada estrato y su respectivo peso, los que no varían de muestra a muestra. x BMA = WB x B + WM x M + WA x A Desarrollo Nivel socioeconómico Bajo Medio Alto
Wi 0,52 0,32 0,16
xi
Wi x i
$ 625 $ 1450 $ 3175
$ 325 $ 464 $ 508 $ 1297
µˆ = ∑ Wi x i =
A continuación debemos estimar el error estándar global de cada muestra. Como en su fórmula intervienen la cantidad de casos seleccionados en los estratos, su cálculo debe realizarse por separado para cada una de ellas.
σˆ x = ∑ Wi2
s i2 ni
Capítulo V – Muestreo estratificado (borrador)- 215
(4.1) Para afijación igual, n obtenido en el ejercicio (1.1.1). Nivel socioeni Wi Wi2 si2 si2/ni conómico Bajo 104 0,52 0,2704 160.000 1538,46154 Medio 104 0,32 0,1024 490.000 4711,53846 Alto 104 0,16 0,0256 810.000 7788,46154 W 2s 2 ∑ i i = ni ∑
Wi2 s i2 = ni
Wi2si2/ni 416 482,461538 199,384615 1097,84615 33,1337615
Una vez calculada la estimación puntual del error estándar, se establecen los límites del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9 límite inferior 1232,1
límite superior 1361,9
(4.2) Para afijación proporcional, n obtenido en el ejercicio (1.2.1). Nivel socioeni Wi Wi2 si2 si2/ni Wi2si2/ni conómico Bajo 175 0,52 0,2704 160.000 914,285714 247,222857 Medio 108 0,32 0,1024 490.000 4537,03704 464,592593 Alto 54 0,16 0,0256 810.000 15000 384 2 2 W s ∑ i i = 1095,81545 ni ∑
Wi2 s i2 = ni
33,1031033
Una vez calculada la estimación puntual del error estándar, se establecen los límites del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,10 = $ 1297 ± 64,9 límite inferior 1232,1
límite superior 1361,9
216 - Introducción al muestreo para estudiantes de ciencias sociales
(4.3) Para afijación óptima sin considerar el costo, Nivel socioeWi Wi2 si2 ni conómico Bajo 109 0,52 0,2704 160.000 Medio 118 0,32 0,1024 490.000 Alto 76 0,16 0,0256 810.000
n obtenido en el ejercicio (1.3.1). si2/ni
Wi2si2/ni
1467,88991 4152,54237 10657,8947 W 2s 2 ∑ i i = ni
396,917431 425,220339 272,842105
∑
Wi2 s i2 = ni
1094,97988 33,0904801
Una vez calculada la estimación puntual del error estándar, se establecen los límites del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,09 = $ 1297 ± 64,9 límite inferior 1232,1
límite superior 1361,9
(4.4) Para afijación óptima minimizando el costo, n obtenido en el ejercicio (3.1). Nivel socioeni Wi Wi2 si2 si2/ni Wi2si2/ni conómico Bajo 154 0,52 0,2704 160.000 1038,96104 280,935065 Medio 118 0,32 0,1024 490.000 4152,54237 425,220339 Alto 53 0,16 0,0256 810.000 15283,0189 391,245283 W 2s 2 ∑ i i = 1097,40069 ni ∑
Wi2 s i2 = ni
33,1270386
Una vez calculada la estimación puntual del error estándar, se establecen los límites del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 33,13 = $ 1297 ± 64,9 límite inferior 1232,1
límite superior 1361,9
Capítulo V – Muestreo estratificado (borrador)- 217
(4.5) Para afijación óptima minimizando la variabilidad con un costo total fijo, n obtenido en el ejercicio (3.2). Nivel socioeni Wi Wi2 si2 si2/ni Wi2si2/ni conómico Bajo 114 0,52 0,2704 160.000 1403,50877 379,508772 Medio 88 0,32 0,1024 490.000 5568,18182 570,181818 Alto 40 0,16 0,0256 810.000 20250 518,4 2 2 W s ∑ i i = 1468,09059 ni Wi2 s i2 = ∑ ni
38,3156703
Una vez calculada la estimación puntual del error estándar, se establecen los límites del intervalo de confianza.
IC(µ BMA /k ) = x BMA ± z( k 2 ) σˆ X IC(µ BMA / 95,5% ) = $ 1297 ± 1,96 ⋅ $ 38,32 = $ 1297 ± 75,1 límite inferior 1221,9
límite superior 1372,1
218 - Introducción al muestreo para estudiantes de ciencias sociales
Ejercicio 5 Resumir, en un cuadro, los tamaños de muestra y estratos obtenidos en los ejercicios (1.1.1), (1.2.1), (1.3.1), (3.1) y (3.2), los errores de estimación calculados para cada uno de ellos en el ejercicio 4 y el costo total de cada muestra. Resolución del ejercicio 5. Costo total: ∑ n i c i afijación igual proporcional óptima óptima minimizando costo óptima con costo fijo total
n Bajo 104 175 109 154 114
Medio 104 108 118 118 88
Alto 104 54 76 53 40
Total 312 337 303 325 242
z ⋅ σˆ X 64.9 64.9 64.9 64.9 75,1
Costo Total 14560 12140 12980 12040 9000
Comentarios sobre el ejercicio 5 Las s2 del ejercicio 4 son iguales a la esperanza matemática correspondiente si los máximos desvíos estándar estimados para el ejercicio 1 coinciden con los desvíos estándar “reales” de los estratos. Ello lleva a que los errores de estimación sean iguales al máximo pretendido (al margen de algún decimal fruto del redondeo hacia arriba de los diversos n). En los comentarios sobre el ejercicio 2 habíamos observado que, para la variable ingresos mensuales, la estratificación igual resultaba más eficiente que la proporcional. Sin embargo, al ser sensiblemente más barata la recolección del dato en los estratos más bajos, la distribución porporcional es la recomendable en función de los costos globales, aun cuando implique una mayor cantidad de casos. Para los ci dados, es recomendable incluso sobre la asignación óptima que no considera el costo. En cuanto a las afijaciones que atienden al costo la que mantiene la precisión y la confianza es la que implica un desembolso total más bajo sin modificar los valores deseados para la estimación, como era de esperarse. La última, la que fija y distribuye la muestra limitada por un costo total predefinido, lo hace en perjuicio de la precisión. Una posibilidad interesante es calcular esta afijación (la que minimiza la varianza a partir de un costo dado) a partir del importe final de la afijación óptima sin atender al coste. afijación óptima óptima con costo fijo total = proporcional
n Bajo 109 165
Medio 118 126
Alto 76 58
Total 303 349
z ⋅ σˆ X 64.9 62,5
Costo Total 12980 12980
Con las medidas que estamos tomando de ejemplo, para el mismo gasto obtendríamos una precisión mayor. Si bien la afijación óptima sin atender a los gastos siempre será la de mayor eficiencia estadística, desde una mirada que pondere la relación costo/beneficio la muestra a elegir es, sin lugar a dudas, la otra.
Capítulo V – Muestreo estratificado (borrador)- 219
Ejercicio 6 Se realizar una investigación cuyo objetivo principal es conocer el porcentaje de alumnos de una determinada facultad que desarrollan alguna actividad laboral que implique una dedicación superior a las 20 horas semanales y por la que reciben remuneración. Para ello se decide seleccionar una muestra de 500 casos, estratificada atendiendo al turno durante el que asisten habitualmente a clases los alumnos. Se conoce que... ...el 45 % asiste a clases durante el turno mañana ...el 40 % asiste a clases durante el turno tarde ...el 15 % asiste a clases durante el turno noche La dirección de la investigación resuelve realizar una asignación óptima de casos bajo el supuesto que el porcentaje de alumnos que trabajan durante más de 20 horas semanales y reciben remuneración no supera... ...el 5 % entre los que asisten al turno mañana ...el 15 % entre los que asisten al turno tarde ...el 50 % entre los que asisten al turno noche. Se debe... (6.1) Calcular el tamaño de muestra para cada estrato si la distribución se realiza proporcionalmente a su tamaño. (6.2) Calcular el tamaño óptimo de muestra para cada estrato considerando el tamaño del estrato y los supuestos de heterogeneidad expuestos. (6.3) Suponiendo los datos de la muestra evidencian que el porcentaje de alumnos que trabaja durante más de 20 horas semanales y recibe remuneración representa... ...el 50% de los alumnos del turno mañana ...el 50% de los alumnos del turno tarde ...el 90% de los alumnos del turno noche calcular el error de estimación global, para una confianza del 95,5% considerando... (6.3.1) una selección de casos al azar simple (6.3.2) una selección de casos estratificada proporcional (punto 6.1) (6.3.3) una selección de casos estratificada con asignación óptima (punto 6.2) (6.4) extraer conclusiones sobre la diferencia de los tres errores estándar calculados en el punto (6.3). (6.5) Considerando los resultados arrojados por la investigación, ¿cuál debería haber sido la correcta asignación óptima? Para simplificar los cálculos se trabajará bajo el supuesto de selección con reposición.
220 - Introducción al muestreo para estudiantes de ciencias sociales
Resolución Ejercicio 6 (6.1) a (6.3.3.) Wi (peso estrato) (6.1) niWi (casos por estrato) Pi (supuesto) Pi Q i (supuesto) Wi Pi Q i (supuesto)
(6.2)
∑W
W i ⋅ Pi Q i ⋅ n
∑ Wi ⋅
Pi Qi
p estrato ∑ Wi p i (p total) (6.3.1)
Tarde 0.4 200 15
Noche 0.15 75 50
21,79449472
35,70714214
50
9,807522623
14,28285686
7,5
Pi Q i (supuesto)
i
ni =
Mañana 0.45 225 5
31,59037948 155
226
119
50
50
90
56
p.q n -1
σˆ p =
2,222133153
2 × σˆ p W
σˆ 2pi = (6.3.2)
4,444266307
2
p i .q i n i -1
Wi2 σˆ 2pi
∑ W σˆ σˆ = ∑ W σˆ 2 i
0,2025
0,16
0,0225
11,16071429
12,56281407
12,16216216
2,260044643
2,010050251
0,273648649
2 pi
2 i
p
4,543743543 2 pi
2,13160586
2 × σˆ p
(6.3.3)
σˆ 2pi =
4,26321172
p i .q i n i -1
Wi2 σˆ 2pi
∑
Wi2 σˆ 2pi
σˆ p =
2 × σˆ p
16,23376623
11,11111111
7,627118644
3,287337662
1,777777778
0,171610169
5,23672561
∑ W σˆ 2 i
2 pi
2,288389305 4,576778609
Capítulo V – Muestreo estratificado (borrador)- 221
(6.4) error est. proporcional < error est. azar simple < error est. asignación óptima. La mayor magnitud del error de estimación generado por la asignación óptima se debe a la incorrecta estimación de P utilizada en el cálculo del tamaño de la muestra para cada estrato, afectando negativamente la eficiencia de la estimación (en especial en el estrato “turno mañana”). Si bien la precisión del muestreo estratificado proporcional es mayor que la del azar simple, la diferencia no adquiere relevancia ya que la variabilidad de los principales estratos (que incluyen al 85% de la población en estudio) es similar, lo que minimiza la potencial ganancia de la estratificación proporcional. (6.5) Wi Pi Pi Q i Wi Pi Q i
∑W
i
ni =
Mañana 0.45 50
Tarde 0.4 50
Noche 0.15 90
50
50
30
22,5
20
4,5
Pi Q i
47
W i ⋅ Pi Q i ⋅ n
∑ Wi ⋅
Pi Qi
239
213
48
222 - Introducción al muestreo para estudiantes de ciencias sociales
Apéndice (reducción de la varianza) Si dividimos a una población en grupos, la varianza total puede expresarse como la suma de las variabilidades intragrupos e intergrupos, es decir σ 2 = σ d2 + σ e2 donde σ d2 es la variabilidad intragrupos y σ e2 es la variabilidad intergrupos. Ni
h
∑∑ (x σ d2 =
ij
− µi
h
)
∑ N (x
2
i
i =1 j=1
σ e2
=
− µ)
2
i
i =1
N Estas expresiones nos indican que para obtener σ d2 debemos sumar los desvíos cuadrados de cada estrato (calculados sobre la media aritmética del estrato y no sobre la media total), luego sumar estas sumas de desvíos cuadrados y divir la doble sumatoria por la cantidad total de casos. N
Y que para obtener σ 2e debemos calcular el desvío cuadrado del promedio de cada estrato (sobre la media total), multiplicarlo por la cantidad de casos del estrato, sumar estos productos y dividirlos por la cantidad total de casos de la población. Desarrollemos estos cálculos con un ejemplo sencillo. El cuadro siguiente expresa una población de 15 elementos, dividida en tres grupos. 1 2 3 4 5 6 7 8 9 10
a
b Total
N µ σ2
15 4 2,53333333
Ni
∑ (x
11
− µi )
2
ij
c Grupo 1 2 2 3 6 6 6 6 4,16666667
d Grupo 2 2 3 4 5 5
e Grupo 3 2 3 5 6
5 3,8
4 4
20,8333333
6,8
10
0,02777778
0,04
0
0,16666667
0,2
0
j=1 Ni
h
12
∑∑ (x
− µi )
2
ij
37,6333333
i =1 j=1 Ni
h
13
∑∑ (x
ij
σ d2 =
14
N (x i − µ )2
15
N i (x i − µ ) h
∑ N (x
16
)
2
− µi
i =1 j=1
i
2
− µ)
2
i
2,50888889
0,36666667
i =1
h
17
∑ N (x i
σ 2e
=
i =1
− µ)
2
i
0,02444444
N 18 2,53333333 σ 2 = σ d2 + σ e2 Vemos en la celda B18 que la suma de las varianzas intra (B13) e inter grupos (B17) es igual a la varianza total (B10), pero que el peso recae en la varianza intra grupos.
Capítulo V – Muestreo estratificado (borrador)- 223 Si agrupamos a los elementos de la población en grupos homogeneos internamente y heterogéneos entre sí... 1 2 3 4 5 6 7 8 9 10 11
a
b Total
N µ σ2
15 4 2,53333333
Ni
∑ (x
12
ij
− µi
)
2
c Grupo 1 2 2 2 2 3 3 3 7 2,42857143
d Grupo 2 4 5 5 5
e Grupo 3 6 6 6 6
4 4,75
4 6
1,71428571
0,75
0
2,46938776
0,5625
4
17,2857143
2,25
16
j=1 Ni
h
13
∑∑ (x
ij
)
2
− µi
2,46428571
i =1 j=1 Ni
h
14
∑∑ (x
ij
)
2
− µi
i =1 j=1
σ d2 =
0,16428571
N
(x i − µ )2 2 N i (x i − µ )
15 16
h
∑ N (x
17
i
− µ)
2
i
35,5357143
i =1
h
18
∑ N (x i
σ 2e
=
i =1
− µ)
2
i
2,36904762
N 19 2,53333333 σ 2 = σ d2 + σ e2 La suma de las varianzas intra (B14) e inter grupos (B18), incluida en la celda B19, sigue siendo igual a la varianza total (B11), pero ahora el peso recae en la varianza inter-grupos, condición que le permite al muestreo conseguir una mayor precisión en la estimación para el conjunto de la población.