Story Transcript
Cap´ıtulo 1
Muestreo Aleatorio Simple Este m´etodo de muestreo proporciona un punto de partida para una exposici´ on de los m´etodos de muestreo probabil´ıstico no porque sea uno de los m´etodos de muestreo m´ as utilizados sino porque constituyen la base de m´etodos de muestreo m´ as complejos. Dependiendo si el muestreo es con reposici´on o sin reposici´ on, podemos hablar de muestreo aleatorio simple con reposici´on o sin reposici´ on respectivamente. De manera formal, este dise˜ no b´asico o t´ecnica de muestreo se define de la siguiente manera Definici´ on 1.1 Si se selecciona un tama˜ no de muestra n de una poblaci´ on de tama˜ no N de tal manera que cada muestra posible de tama˜ no n tenga la misma probabilidad de ser seleccionada, el procedimiento de muestreo se denomina muestreo aleatorio simple. A la muestra as´ı obtenida se le denomina muestra aleatoria simple. Considerando muestreo aleatorio sin reposici´on, se obtiene la muestra unidad a unidad de forma aleatoria sin reposici´on a la poblaci´on de las unidades previamente seleccionadas, teniendo presente adem´as que el orden de colocaci´on de los elementos en las muestras no interviene, es decir, muestras con los mismos elementos colocados en orden distinto se consideran iguales. De esta forma, las muestras con elementos repetidos son imposibles. Bajo muestreo aleatorio con reposici´ on, las unidades seleccionadas son devueltas de nuevo a la poblaci´on. Expondremos una manera de seleccionar una muestra aleatoria simple utilizando un ejemplo concreto. Se pretende realizar un estudio sobre los h´abitos de lectura en los estudiantes de Polit´ecnica. Las alumnos que actualmente estudian en Polit´ecnica son un total de 544 alumnos y se quiere extraer una muestra aleatoria simple de 65 alumnos. Una manera de extraer una muestra aleatoria simple consiste en asignar a cada alumnos un n´ umero del 1 al 544 asociando cada n´ umero a un u ´nico individuo. Una vez realizado esa asignaci´on, se introducen 544 bolas numeradas en una urna (cada una con un n´ umero del 1 al 544), se mezclan cuidadosamente y de manera adecuada y entonces se seleccionan 65
1
2
bolas al azar. Si todo el proceso se realiza de manera adecuada, las bolas seleccionadas constituir´ıan una muestra aleatoria simple de 65 estudiantes. Aunque es conceptualmente simple, este m´etodo es un poco trabajoso de ejecutar y depende de que las bolas se hayan mezclado de manera adecuada y que todas las bolas tengan el mismo peso y rozamiento. Otra manera de seleccionar esta muestra aleatoria simple consistir´ıa en utilizar una tabla de n´ umeros aleatorios. Una tabla de n´ umeros aleatorios es un conjunto de d´ıgitos generado de modo que, normalmente, la tabla contendr´a a cada uno de los diez d´ıgitos (0, 1, . . . , 9), en proporciones aproximadamente iguales, sin mostrar tendencias en el patr´on que se generan los d´ıgitos. Por lo tanto, si se selecciona un n´ umero en un lugar aleatorio de la tabla, es igualmente probable que sea cualquiera de los d´ıgitos entre el 0 y el 9. Estas tablas se construyen para asegurar que cada d´ıgito, cada par de d´ıgitos, cada tres d´ıgitos, ... aparecen con la misma frecuencia. En el caso de extraer una muestra aleatoria simple, se elige un lugar para empezar a leer dichos n´ umeros aleatorios. Despu´es se selecciona una direcci´ on (arriba, abajo, derecha e izquierda) y se van recogiendo d´ıgitos de dos en dos hasta que se consiga el tama˜ no muestral adecuado. Utilizando este m´etodo, un elemento puede aparecer m´as de una vez. Si queremos extraer una muestra aleatoria simple sin reposici´on, la soluci´on es ignorar los elementos repetidos. Las ventajas que tiene este procedimiento de muestreo son las siguientes: Sencillo y de f´ acil comprensi´on. C´ alculo r´ apido de medias y varianzas. Existen paquetes inform´aticos para analizar los datos Por otra parte, las desventajas de este procedimiento de muestreo son: Requiere que se posea de antemano un listado completo de toda la poblaci´ on. Si trabajamos con muestras peque˜ nas, es posible que no representen a la poblaci´ on adecuadamente. A continuaci´ on pasamos a describir este procedimiento de muestreo considerando muestreo sin reposici´on.
1.1.
Dise˜ no muestral
Vamos a analizar el dise˜ no de este procedimiento de muestreo. Supongamos en todo momento que el tama˜ no de la poblaci´on es N y el tama˜ no de la muestra es n.
3
1.1.1.
Probabilidad de una muestra cualquiera
Dada la forma de definirse el procedimiento de selecci´on de la muestra, el conjunto formado por todas las muestras S tiene un total de N CN,n = , n muestras posibles, ya que estamos considerando muestras no ordenadas. Luego si todas las muestras son equiprobables, la probabilidad de cada muestra viene dada por 1 P (s) = , ∀s ∈ S N n
1.1.2.
Probabilidad de primera inclusi´ on
Calculemos la probabilidad que tiene cualquier unidad de la poblaci´on de pertenecer a la muestra, o lo que es lo mismo, calcularemos πi for i = 1, 2, . . . , N . Por ello, consideramos el n´ umero de muestras posibles que se pueden formar con los elementos de la poblaci´ on y que contengan al elemento ui . En este caso, el total de muestras que contienen a dicho elemento viene dado por N −1 , CN −1,n−1 = n−1 ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas posibles de seleccionar de entre los N − 1 elementos de la poblaci´on restantes n−1 de ellos para la muestra (el elemento ui ya pertenece a la muestra). Para i = 1, 2, . . . , N , se tiene que πi
= P (ui ∈ s) = =
1.1.3.
Total de muestras que contienen a ui = Total de muestras
N −1 n n−1 = N N n
Probabilidad de segunda inclusi´ on
Vamos a calcular la probabilidad que tiene cualquier par de unidades de la poblaci´ on de pertenecer a una muestra determinada. Para ello, notemos que el n´ umero de muestras posibles que pueden formarse con los elementos de la poblaci´ on y que contengan al par (ui , uj ) con ui 6= uj es igual a N −2 CN −2,n−2 = , n−2 ya que en este caso se fija el par de elementos (ui , uj ) y las muestras posibles resultan de las formas posibles de seleccionar de entre los N -2 elementos de la
4
poblaci´ on restantes n−2 de ellos para la muestra (los elementos ui y uj ya est´an fijos en la muestra). Tenemos entonces que πij
=
1.2.
Casos favorables Casos posibles Total de muestras que contienen a (ui , uj ) n(n − 1) = Total de muestras N (N − 1)
= P ((ui , uj ) ∈ s) =
Estimadores lineales insesgados en muestreo aleatorio simple
Tal y como se˜ nal´ abamos en el cap´ıtulo anterior, si el par´ametro poblacional tiene una expresi´ on lineal del tipo θ=
N X
Yi ,
i=1
entonces el estimador de Horvitz-Thompson para dicho par´ametro poblacional viene dado por n X Yi , θbHT = π i=1 i de modo que E[θbHT ] = θ siendo πi la probabilidad de que la unidad ui pertenezca a una muestra determinada o probabilidad de primera inclusi´on. Partimos como es usual de una poblaci´on formada por N elementos Ω = {u1 , u2 , u3 , . . . , uN }, en los que se estudiar una variable de inter´es X que toma los valores X(Ω) = {X1 , X2 , X3 , . . . , XN }, sobre cada elemento de la poblaci´on. Para ello, se selecciona una muestra de tama˜ no n dada por s = {u1 , u2 , u3 , . . . , un }, en los que la variable X toma los valores X(s) = {X1 , X2 , X3 , . . . , Xn }, sobre cada uno de los elementos de la muestra. Como en muestreo aleatorio simple sin reposici´on la probabilidad de primera inclusi´ on πi viene dado por πi = n/N , ya podemos especificar los estimadores lineales insesgados para los par´ametros poblacionales m´as comunes a estimar. Tendremos que
5
Total θ=X=
N X
b= Xi =⇒ Yi = Xi =⇒ X
i=1
n X Xi i=1
πi
=
n n X NX Xi b¯ = Xi = N X n/N n i=1 i=1
Media ¯= θ=X
N X
b¯ = Xi /N =⇒ Yi = Xi /N =⇒ X
i=1
n X Xi N n/N i=1
Total de clase θ=A=
N X
b= Ai =⇒ Yi = Ai =⇒ A
i=1
n n X 1X Ai =N Ai n/N n i=1 i=1
Proporci´ on θ=P =
N X
Ai /N =⇒ Yi = Ai /N =⇒ Pb =
i=1
n X Ai /N i=1
n/N
n
=
1X Ai n i=1
Evidentemente cualquier de estos estimadores nos indican muy poco acerca del par´ ametro poblacional a estimar a menos que sea posible evaluar la bondad del estimador. Por lo tanto, adem´as de estimar los par´ametros poblacionales, se desear´ıa fijar un l´ımite sobre el error de estimaci´on. Mediante ciertos c´alculos, es posible calcular la varianza del estimador de Horvitz-Thompson para cada uno de los estimadores. Las varianzas de los estimadores anteriores nos van a proporcionar los errores est´ andar de estimaci´on y vienen dado por: b V ar(X)
= N 2 (1 − f )
b¯ V ar(X)
=
V ar(Pb)
=
b V ar(A)
=
S2 n
S2 n N 1 (1 − f )P Q N −1n N3 1 (1 − f )P Q N −1n
(1 − f )
Vamos a analizar las varianzas de los estimadores. En el caso del estimador del total y de la media poblacional dependen de S 2 que es la cuasi-varianza poblacional. Esta cuasi-varianza poblacional S 2 tiene la siguiente expresi´on N 1 X ¯ 2, (Xi − X) S = N − 1 i=1 2
6 ¯ representa la media poblacional. Esta cuasi-varianza poblacional puede donde X expresarse tambi´en de la siguiente manera. "N # X 1 ¯ 2 − 2Xi X ¯ S2 = (X 2 + (X)) N − 1 i=1 i "N # X 1 2 2 2 ¯ − 2(X) ¯ N = X + N (X) N − 1 i=1 i "N # X 1 2 2 ¯ = X − N (X) . N − 1 i=1 i En el caso de la proporci´ on y el total de clase, la varianza de dichos estimadores dependen de P y de Q. El par´ametro P corresponde a la proporci´on de clase dentro de la poblaci´ on, es decir, N
P =
1X Ai , N i=1
y Q = 1 − P . Al par´ ametro f se le denomina fracci´ on de muestreo y viene dado por f = n/N, y representa la fracci´ on de la poblaci´on N contenida en la muestra o la relaci´on existente entre el tama˜ no de la muestra y el tama˜ no de la poblaci´on. Siempre n ≤ N ; si n = N entonces f = 1 y 1 − f = 0. Por otra parte, si n