Story Transcript
Otros temas relacionados con el muestreo / / / Esquef1U1 del capitulo 20.1. Pasos basicos de un estudio realizado por muestreo 20.2. Errores de muestreo y errores ajenos al muestreo 20.3. Muestreo aleatorio simple Analisis de los resultados de un muestreo aleatorio simple 20.4. Muestreo estratificado Analisis de los resultados de un muestreo aleatorio estratificado Afijaci6n del esfuerzo muestral a los distintos estratos 20.5. Elecci6n del tamano de la muestra Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la media o total poblacional Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la proporci6n poblacional Tamano de la muestra para un muestreo aleatorio estratificado con un grado de precisi6n especificado 20.6. Otros metodos de muestreo Muestreo por conglomerados Muestreo bietapico Metodos de muestreo no probabilisticos
Introducci6n Una gran parte de la inferencia estadfstica se refiere a problemas en los que se hacen afirmaciones sobre una poblaci6n basandose en informaci6n procedente de una muestra. Hasta ahora hemos tratado de una manera bastante superficial dos importantes temas. En primer lugar, apenas nos hemos referido a la forma en que se seleccionan real mente los miembros de la muestra. En segundo lugar, hemos supuesto en general que el numero de miembros de la poblaci6n es muy grande en comparaci6n con el numero de miembros de la muestra. En este capitulo examinamos el problema del investigador que quiere descubrir algo sobre una poblaci6n que no es necesaria mente grande. EI investigador pretende reunir informaci6n unicamente sobre un subconjunto de la poblaci6n y necesita orientaci6n para saber c6mo debe reunirla.
812
Estadistica para administracion y economia
20.1. Pasos basicos de un estudio realizado por muestreo Los analistas de mercado a menudo estudian las poblaciones humanas para obtener informacion sobre sus preferencias por un producto. Los auditores normal mente seleccionan una muestra de facturas pendientes de cobro de una empresa. Se hacen inferencias sobre la poblacion correspondiente basandose en estas muestras. Los directores de personal requieren informacion sobre las actitudes de los empleados hacia los nuevos metodos de produccion propuestos y les resulta util tomar una muestra de la plantilla. Naturalmente, el uso de metodos de muestreo esta muy extendido y va mas alla del campo de la empresa. Tal vez los ejemplos mas conocidos sean las encuestas que se hacen periodicamente sobre las preferencias de los votantes antes de las elecciones. La informacion recogida tiene interes no solo para el publico en general sino tambien para los asesores de los candidatos que tratan de averiguar donde deb en concentrar mas los esfuerzos. Esas encuestas a los votantes han aumentado tanto que se recaba la opinion de los votantes sobre todos los aspectos de la polftica y los encuestadores profesionales se han convertido en una importante figura en el sequito del politico. Antes de preguntar como debe tomarse una muestra de una poblacion, tal vez se pregunte el lector por que hay que to mar una muestra. La alternativa es intentar obtener informacion de todos los miembros de la poblacion. En ese caso, hablarfamos de censa y no de muestra. Hay varias razones por las que a menudo se prefiere una muestra a un censo. En primer lugar, en muchas aplicaciones serfa enormemente caro tomar un censo completo, a menudo prohibitivo. En segundo lugar, muchas veces es necesario disponer de informacion bastante deprisa; un censo completo, incluso aunque sea economicamente viable, puede tardar tanto en realizarse que el valor de los resultados puede disminuir seriamente. Otra razon para tomar una muestra es que con los metodos estadisticos modernos generalmente es posible obtener resultados con el grado deseado de precision por medio del muestreo. El tiempo y el dinero necesarios para obtener numeros cuya precision aparente es mayor que la que necesita el investigador podrfan dedi carse mejor a otras cosas. Ademas, si se toma una muestra relativamente pequefia, los beneficios que se obtendrian haciendo un esfuerzo mayor para conseguir informacion precisa de los rniembros de la muestra podrfan muy bien ser mayores que los beneficios de obtener informacion de un grupo mayor que puede ser menos fiable debido a las limitaciones de tiempo y de costes. En cuarto lugar, algunos muestreos son destructivos y los sujetos contrastados se destruyen en el estudio. As! sucederfa si se tratara de contrastar la duracion de las bombillas, la duracion de una determinada marca de neumaticos 0 la resistencia de los tubos de vidrio a las roturas. Estos factores -coste, tiempo, precision y caracter destructivo- considerados en conjunto llevan a preferir en much as ocasiones las muestras a los censos. Supongamos ahora que se necesita informacion sobre una poblacion y que se ha decidido tomar una muestra. Es comodo considerar que un estudio realizado por muestreo consta de los seis pasos siguientes, cada uno destinado a dar una respuesta a una pregunta. La Figura 20.1 muestra estos pasos. 1.
2. 3. 4. 5. 6.
Primer paso: (,que informacion se necesita? Segundo paso: (,cual es la poblacion relevante y existe un listado de esa poblacion? Tercer paso: (,como deben seleccionarse los miembros de la muestra? Cuarto paso: (,como debe obtenerse informacion de los rniembros de la muestra? Quinto paso: (,como debe utilizarse la informacion muestral para hacer inferencias sobre la poblacion? Sexto paso: (,que conclusiones pueden extraerse sobre la poblacion?
Capitulo 20.
Figura 20.1. PasoS en un estudio realizado por rnuestreo.
Otros temas relacionados can el muestreo
813
Sexto paso: lconclusiones?
Quinto paso: linferencias de la muestra? Cuarto paso: lobtener informacion? Tercer paso: lseleccion de la muestra?
Segundo paso: lPoblacion relevante?
Primer paso: linformacion necesaria?
Se analiza cada uno de esos pasos en relacion con un problema de un estudio de mercado. Supongamos que un editor pretende publicar un nuevo libro de texto de estadistica y qui ere informacion sobre la situacion actual del mercado. La informacion valiosa podria ser el numero de estudiantes matriculados en los cursos de estadistica para los negocios, la penetracion de los textos existentes en el mercado y las opiniones de los profesores sobre los temas que son mas importantes para sus cursoS. Supongamos que el editor quiere recogel' datos de una muestra de campus universitarios.
1. l.Que informacion se necesita? La respuesta a esta pregunta es tanto el motivo como el punto de partida para realizar el estudio. Si la informacion necesaria ya existe 0 es imposible de obtener, no tiene sentido realizar el estudio. Por muy sencilla que parezca la pregunta, a menu do es necesario lograr un equilibrio bastante delicado en esta fase. El investigador puede estar pensando en un unico tema 0 puede haber varios temas de interes . Pero dado que va a realizarse el estudio, con todos sus costes, normalmente merece la pena preguntarse si puede obtenerse en el estudio mas informacion potencial mente util con un gasto adicional minimo. En el caso del editor del libro de estadfstica para los negocios, las preguntas mas Miles se refieren al tamafio del mercado, a la situacion de los competidores y a los temas que los profesores consideran mas importantes. Dado que hay que entrar en contacto con los miembros de la muestra para recabar esta informacion, puede merecer la pena hacer algunas preguntas mas. Estas pueden ser si el curso es de un cuatrimestre 0 de dos, si es optativo u obligatorio, el departamento del profesor, el metoda para adoptar el libro y el tiempo que !leva utilizandose el libro actual. Una vez elegido ese camino, se puede tener la tentacion de dejar que la lista de preguntas au mente espectaclllarmente, ya que eso generalmente no incrementa mucho el coste del estudio. Sin embargo, puede tener un problema. Es mas probable que los encuestados cooperen en un estudio en el que se hacen relativamente pocas preguntas, ya que se les qllita poco tiempo. Es importante, pues, para el investigador buscar el equilibrio, es decir, hacer preguntas sobre cuestiones centrales (pues, si se descubre una omision importante, puede ser demasiado caro repetir to do el ejercicio) y conseguir que el numero de preguntas sea tolerable para los enc uestados.
814
Estadfstica para administracion y economfa
2. l,Cual es la poblacion relevante y existe un listado de esa poblacion? Parece bastante trivial sefialar que para hacer inferencias sobre una poblacion, esa es la poblacion que debe muestrearse. No obstante, a menudo se han extraido dudosas conclusiones tras un amilisis, por 10 demas absolutamente respetable, de los datos de encuesta precisamente porque no se ha tenido en cuenta este punto elemental. Muchas publicaciones piden la opinion de sus lectores sobre determinadas cuestiones. Sin embargo, seria peligroso generalizar sus respuestas a la poblacion en general. La poblacion estudiada en este caso es simplemente la de lectores de la publicacion y es probable que estos lectores no sean representativos del publico en general. En muchos estudios practicos, la poblacion real de interes puede ser imposible de definir. Por ejemplo, una organizacion que intenta predecir el resultado de un as elecciones presidenciales solo esta interesada realmente en la poblacion que votara. Aunque esta es la poblacion relevante, sus miembros no son faciles de distinguir. Una posibilidad es, por supuesto, preguntar a un miembro de una muestra si tiene intencion de votar. Si embargo, es bien sabido que la proporcion que responde afirmativamente a una pregunta de ese tipo es mayor que la proporcion que acaba votando. Otra posibilidad es preguntar si el encuestado voto en las elecciones anteriores, pero esta pregunta tambien dista de ser totalmente satisfactoria. Es probable que el editor del libro de texto considere que la poblacion relevante son todos los profesores (0 quiza todas las universidades) que imparten cursos de estadistica para los negocios. La poblacion es bastante facil de identificar y, como consecuencia de actividades de marketing anteriores, el editor tendra casi con toda seguridad un listado bastante preciso de sus miembros.
3. l,Como deben seleccionarse los miembros de la muestra? Una gran parte del resto de este capitulo se dedica a responder a esta pregunta. En pocas palabras, no existe una unica forma de conseguir el «mejor» sistema de muestreo. La eleccion correcta depende generalmente del problema en cuestion y de los recursos del investigador. Ya hemos introducido anteriormente el concepto de muestreo aleatorio simple, en el que todos los miembros de una poblacion tienen la misma probabilidad de ser elegidos para la muestra. De hecho, todos los instrumentos para analizar los datos que hemos introducido hasta ahora se basaban en el supuesto de que la muestra se elegia de esta forma. Existen, sin embargo, muchas circunstancias en las que podria preferirse otro sistema de muestreo. Supongamos que a nuestro editor Ie interesan las diferencias entre el tratamiento que se da a la estadfstica empresarial en las escuelas universitarias de grado medio y el que se Ie da en las facultades de grado superior. Serfa importante que la muestra contuviera suficientes centros de cada tipo para po del' extraer conclusiones fiables sobre ambos. Sin embargo, el muestreo aleatorio simple no garantiza en modo alguno que se logre ese objetivo. POl' ejemplo, es absolutamente posible que la muestra elegida contenga una preponderancia de facultades. Para evitar esta posibilidad, pueden extraerse muestras aleatorias simples de las respectivas poblaciones de los dos tipos. Este es un ejemplo de muestreo estratificado, que se analiza mas detalladamente en el apartado 20.4. Otra cuestion que hay que decidir en esta fase es el numero de miembros de la muestra. En este caso, la eleccion depende esencialmente del grado de precision necesario y de los costes que implica. Esta cuestion se aborda en el apartado 20.5.
Capitulo 20.
Otros temas relacionados can el muestreo
815
4. l,Como debe obtenerse informacion de los miembros de la muestra? Esta pregunta es extraordinariamente importante y ha sido objeto de muchas investigaciones. En terminos generales, plantea dos importantes cuestiones. En primer lugar, el investigador quiere obtener respuestas de la mayor proporcion posible de los miembros de la muestra. Si el numero que no responde es alto, sera diffcil estar segura de que los que han respondido son representativos de la poblacion en general. Por ejemplo, los profesores que no facilitan informacion al editor del libro de texto pueden estar mas dedicadas a la investigacion, a la consultoria 0 a otras actividades y sus preferencias sabre los libros pueden muy bien ser diferentes de las de sus colegas. Recuerdese que el numero de preguntas formuladas en una encuesta puede afectar a la tasa de respuesta. Tambien influye la forma en que se conlacla can los miembros de la muestra. A menudo los cuestionarios sc envian por correo a las personas seleccionadas para la muestra y a menudo ocurre que la proporcion que responde es decepcionantemente baja. Muchos investigadores intentan mejorar la tasa de respuesta adjuntando una carta en la que explican los fines del estudio y solicitan ayuda educadamente. La garantia del anonimato tambien puede ser valiosa. La inclusion de un sobre con el franqueo pagado para devolver el cuestionario general mente merece la pena; tambien puede prometerse algun pequeno incentivo monetario 0 regalo. No obstante, habra casi inevitablemente una proporcion de personas que no respondan y es una buena practica instituir un estudio de seguimiento para tratar de obtener mas informacion sabre elias. Es probable que los metodos de contacto mas caros, como las lIamadas telefonicas 0 las visitas de los entrevistadores a las casas, logren un nivel de respuesta mas alto. Sin embargo, esos metodos pueden ser caros en tiempo y dinero y la decision de como recoger informacion debe depender de los recursos del investigador y del grado en que se piense que la falta de respuesta puede ser un problema serio. El editor del libro de texto puede decidir enviar cuestionarios por correo a los miembros de la muestra. Seria barato, por 10 que podrfa extraerse una muestra inicial relativamente grande. La esperanza es que la proporcion de personas que no rcsponden no sea demasiado alta y que las respuestas obtenidas sean razonablemente representativas. Si se teme que la falta de respuesta introduzca un sesgo considerable si se envfa un cuestionario pOl' correo, se podria tomar una muestra inicial mas pequena y hacer un esfuerzo mayor para contactar con sus miembros. Una estrategia viable es pedir a los representantes de la empresa, que visitan periodicamente los campus, que realicen entrevistas con miembros de la muestra en su siguiente visita. Ese metoda deberfa garantizar una tasa de respuesta bastante alta. Su principal dificultad estriba en el tiempo necesario para realizar todas las entrevistas mas que en el coste adicional, que serfa bastante bajo. El segundo punto es obtener respuestas que sean 10 mas exactas y sinceras posible. No sirve de nada hacer un sofisticado analisis estadistico de informacion que no es fiable. Formular las preguntas, ya sea para enviarlas pOl' correo 0 para que las realice un encuestador, de tal forma que se consigan respuestas sinceras y exactas es to do un arte. Es importante que las preguntas se formulen de la manera mas clara e inequivoca posible, de modo que los sujetos entiendan 10 que se les pregunta. Tambien se sabe perfectamente que la formulacion de las preguntas 0 el tono del entrevistador pueden inducir a los encuestados a dar determinadas respuestas. Los entrevistadores no deben dar en modo alguno la impresion de que tienen firmes ideas sobre el tema en cuestion 0 de que quieren una respuesta concreta. Tambien es importante no predisponer a los encuestados: las preguntas deben formularse de la forma mas neutral posible. Por poner un ejemplo extremo, consideremos los dos metodos siguientes para preguntar esencialmente 10 mismo:
816
Estadfstica para administraci6n y economfa
a) b)
i, Que tres temas considera mas importantes en su curso de estadfstica para los negocios? i,Esta de acuerdo en que los metodos modernos de gestion de la calidad, debido a su enorme importancia en el mundo de la empresa, ahora deben considerarse uno de los mas importantes en cualquier curso de estadistica para los negocios?
Naturalmente, nadie que tenga interes en tener una idea precisa de las opiniones de los profesores haria la segunda pregunta. Sin embargo, se ha observado que formulaciones que tienen un sesgo mucho menos claro que el de esta influyen significativamente en las respuestas de los sujetos.
5. {,Como debe utilizarse la informacion de la muestra para hacer inferencias sobre la poblacion? Hemos dedicado la mayor parte de este libro a dar respuesta justamente a esta pregunta. En los apartados posteriores de este capitulo, analizamos metodos de inferencia de disefios de muestreo especfficos. El objetivo principal del presente apartado es sefialar la importancia de otros aspectos de un estudio por muestreo.
6. {,Que conclusiones pueden extraerse sobre la poblacion? Por ultimo, cerramos el cfrculo y preguntamos que puede decirse sobre la poblacion estudiada como consecuencia de una investigacion estadfstica. i,Ha dado el estudio claras respuestas a las preguntas que 10 motivaron? i,Han surgido otras cuestiones importantes en el curso del estudio? En esta fase, el investigador tiene la tarea de resumir y presentar la informacion recogida. Para eso pueden ser necesarias estimaciones puntuales 0 por intervalos, asf como tablas 0 gr:ificos que resuman los principales resultados. i,Cu:il es la mejor estimacion del numero de estudiantes matriculados en los cursos de estadistica para los negocios y pueden estimarse intervalos de confianza en torno a esta estimacion? i,Cuales son los libros de texto mas populares en este momento? i,Que temas consideran mas importantes los profesores? i,Existen diferencias significativas entre los mercados de las escuelas universitarias y las facultades? En esta fase, la tarea es informar sobre los resultados del estudio y decidir como proceder. Puede que el analisis sugiera la conveniencia de recoger mas informacion. A menudo surgen importantes cuestiones imprevistas durante el curso del estudio que inducen al investigador a estudiar en mayor profundidad la poblacion. Esta es la razon por la que nuestro editor hace una pregunta abierta como la siguiente: «Nuestra empresa esta considerando la posibilidad de introducir en el mercado un nuevo libro de texto de economfa. i,Hay alguna caracterfstica que Ie gustarfa que tuviera ese libro?». Supongamos, ademas, que cuando se devuelven los cuestionarios, un numero considerable menciona la posibilidad de que se venda simultaneamente una gran base de datos que contenga datos sobre problemas reales del mundo de la empresa. Analizando estos datos, los estudiantes podrfan adquirir experiencia practica en temas del curso. Antes de incurrir en el coste de producir este program a informatico, al editor podrfa merecerle la pena tomar otra muestra para evaluar las probabilidades de exito de este proyecto.
Capitulo 20.
Otros temas relacionados con el muestreo
817
EJERCICIOS
Ejercicios basicos 20.1. Suponga que quiere realizar un estudio para conocer las opiniones de los estudiantes de administracion de empresas de su campus sobre la necesidad de que la asignatura de estadistica sea obligatoria. Analice los pasos que seguirfa para realizar este estudio, los problemas que esperarfa encontrar y las tecnicas que podrfa utilizar para resolver los problemas. 20.2. Las autoridades universitarias tienen interes en conocer las opiniones de los estudiantes sobre algunos servicios universitarios (como la matrfcula, los comedores 0 el servicio medico). Le han pedido que haga una encuesta. Sugiera como seguirfa los seis pasos de un estudio de muestreo. 20.3. El director de una tienda de ropa situ ada en el campus esta considerando la posibilidad de introducir algunos artfculos mas de marca y quiere evaluar la demanda de estos artfculos por parte de los estudiantes. Se Ie ha encargado que disene una encuesta para obtener esta informacion. Explique detalladamente 10 que haria. 20.4. Una empresa de servicios financieros esta considerando la posibilidad de introducir tres nue-
20.2. Errores de muestreo
vos tipos de fondos de inversion . Se cree que, al menos inicialmente, la mayor parte del apoyo probablemente provendria de sus clientes act uales. A la empresa Ie gustarfa evaluar el grado de interes que tienen estos clientes en los nuevos productos propuestos y preferiblemente conocer tambien las caracterfst icas re levantes de las personas mas interesadas. Le han encargado un estudio con un presupuesto limitado. ~Q ue haria? 20.5. A los ejecutivos de una companfa de seguros, conscientes de que han aumentado significativamente algunos tipos de prim as de seguro en los ultimos anos, les preocupa la imagen publica de su sector y la posibilidad de que tenga repercusiones poifticas. Se ha decidido lanzar una campana de relaciones publicas para informar al publico sobre las causas de los incrementos de los costes. Sin embargo, existe mucha incertidumbre sobre los temas que mas preocupan a la gente y sobre el grado en que se comprenden los factores que subyacen a las subidas de los precios. Explique como pod ria organizar un estudio para obtener informacion relevante. Siga los pasos basicos de un plan de muestreo.
errores ajenos al muestreo
Cuando se toma una muestra de una poblacion, no es posible saber cwil es exactamente el valor de cualquier parametro poblacional, como la media 0 la proporcion. Cualquier estimacion puntual tendni inevitablemente un error. Recuerdese que una de las fuentes de error, llamado error de muestreo, se debe a que s610 se dispone de informaci6n sobre un subconjunto de todos los miembros de la poblaci6n. Dados ciertos supuestos, la teorfa estadfstica nos permite caracterizar la naturaleza del error de muestreo y hacer afirmaciones probabilfsticas bien definidas sobre los pani metros poblacionales, como los intervalos de confianza analizados en los Capftulos 8 y 9. En apartados posteriores de este capitulo, analizamos metodos de inferencia estadfstica para varios sistemas importantes de muestreo. Sin embargo, es importante reconocer primero otra fuente posible de error, que no puede analizarse de una forma tan exacta 0 clara. En los amilisis pnicticos, puede haber errores que no tengan que ver con el tipo de sistema de muestreo utilizado. De hecho, esos errores podrfan cometerse tambien si se tomara un censo completo de la poblaci6n. Son errores ajenos al muestreo. En cualquier encuesta, existe la posibilidad de que haya en algunos lugares un error ajeno al muestreo. He aqui algunos ejemplos:
1.
La poblacion de la que se hace realmente el muestreo no es la relevante. En 1936, ocurri6 un conocido caso de este tipo, cuando la revista Literary Digest pre-
818
Estadistica para administraci6n y economia
2.
3.
dijo con seguridad que Alfred Landon ganarfa las elecciones frente a Franklin Roosevelt. Sin embargo, Roosevelt gano por un amplio margen. Este error de prediccion se debio a que los miembros de la muestra de Digest se habian tomado de las gufas de telefono y de otros li stados, como las listas de suscriptores a revistas y los registros de automoviles. En estas fuentes , estaban c1aramente subrepresentados los pobres, que eran predominantemente democratas. Para hacer una inferencia sobre una poblacion (en este caso, sobre el electorado estadounidense), es importante hacer una muestra de esa poblacion y no de algun subgrupo, por muy comodo que parezca esto ultimo. Los sujetos de la encuesta pueden dar una respuesta inexacta 0 falsa. Eso podria ocurrir pOl'que las preguntas se formulan de una manera diffcil de en tender 0 de una forma que parece que una respuesta es mas agradable 0 mas deseable. Ademas, muchas preguntas que uno querria hacer son tan delicadas que seria imprudente esperar que todas las respuestas fueran sinceras. Supongamos, por ejemplo, que un jefe de planta quiere evaluar las perdidas anuales de la empresa que se deben a robos de los empleados. En principio, se podrfa seleccionar una muestra aleatoria de empleados y preguntar a sus miembros «(,que ha robado en esta planta en los 12 ultimos meses?». jEsta no es, desde luego, la forma mas fiable de conseguir la informacion necesaria! Falta de respuesta a las preguntas de la encuesta. Los sujetos de una encuesta pueden no responder a ninguna pregunta 0 pueden no responder a algunas. Si ocurre en muchos casos, puede haber mas errores de muestreo 0 errores ajenos al muestreo. EI error de muestreo se debe a que el tamafio de la muestra logrado sera menor que el pretendido. El error ajeno al muestreo puede deberse a que la poblacion de la muestra no es la poblacion que interesa. Los resultados obtenidos pueden considerarse una muestra aleatoria de la poblaci6n que esta dispuesta a responder. Estas personas pueden ser diferentes en importantes aspectos de la poblacion en general. En ese caso, habra un sesgo en las estimaciones resultantes.
No existe ningun metodo general para idenlificar y analizar los errores ajenos al muestreo, pero estos pueden ser importantes. El investigador debe tener cuidado en cuestiones como la identificacion de Ia poblacion relevante, el disefio del cuestionario y la falta de respuesta para reducir 10 mas posible su importancia. En el resto de este capitulo, suponemos que se tiene ese cuidado, por 10 que en nuestro an:iIisis centramos la atencion en el tratamiento de los errores de muestreo.
EJERCICIOS
Ejercicios basicos 20.6. Vuelva al estudio del ejercicio 20.2. a) Dentro del sistema de muestreo que ha disenado, i, ve la posibilidad de que haya errores ajenos al muestreo? En caso afirmativo, i,que medidas tomarfa para reducir 10 mas posible su magnitud? b) i,Es probable que la falta de respuesta sea una cuestion grave en este estudio? En caso afirmativo, i,que podria hacerse para resolverla?
20.7. Vuelva al estudio del ejercicio 20.3. a) Analice las causas probables de los errores ajenos al muestreo e indique como podrfan reducirse 10 mas posiblc. b) i,Es de esperar que la falta de respuesta sea un problema grave para realizar este estudio? En caso afirmativo, i,como podrfa paliarse el problema? 20.8. En el caso del estudio del ejercicio 20.5, analice la posibilidad de que haya en'ores ajenos al
Capitulo 20.
Otros temas relacionados con el muestreo
819
llamar el jueves siguiente a los hogares en los que no hay nadie en casa. Este proceso puede continuar hasta que se logra hablar el jueves siguiente con los hogares con los que no se pudo hablar los dos jueves anteriores. (,Cuat podrfa ser el valor de la informacion obtenida de esta forma?
muestreo Y falta de respuesta. Indique que harfa para reducir 10 mas posible estos problemas. 20.9. Un metodo para hacer frente a un tipo de falta de resp uesta es el metoda del recuerdo. Se realiza una encuesta a los hogares en la que los entrevistadores Uaman el jueves por la tarde. Se vuelve a
20.3. Muestreo aleatorio simple _..
.
En el resto de este capitulo, analizamos problemas en los que se extrae una muestra de n individuos u objetos de una poblaci6n que conticne un total de N miembros. En las aplicaciones pnicticas, se han utilizado muchos sistemas para seleccionar esas muestras. Nuestros amllisis centranin en gran parte la atenci6n en los metodos de muestreo probabiUstico, que son metodos en los que se utiliza algun mecanismo en el que interviene el azar para decidir los miembros de la muestra y se sabe cmU es la probabilidad de obtener una determinada muestra. Hacemos de nuevo hincapie en el concepto de muestreo aleatorio simple y en la forma en que se toma una muestra aleatoria simple de una poblaci6n finita, debido a su importancia.
Muestreo aleatorio simple Supongamos que tenemos que seleccionar una muestra de n objetos de una poblaci6n de N objetos. Un metoda de muestreo aleatorio simple es aquel en el que todos los miembros de una poblaci6n tienen la misma probabilidad de ser elegidos para la muestra.
Supongamos que nuestra poblaci6n esta formada por 1.000 individuos, numerados del 1 al 1.000 y que se necesita una muestra aleatoria simple de 100 miembros de la poblaci6n. El programa Minitab puede generar facilmente una muestra aleatoria simple. Por ejemplo, una lista parcial de los 100 numeros aleatorios que generamos con Minitab incluye las personas que tienen los numeros
457
229
843
460 918
311
S610 consideraremos el muestreo sin repeticion, en el que se excluye cualquier numero que ya ha salido y el proceso continua hasta que se obtienen 100 numeros diferentes. No analizamos aqu! la alternativa, el muestreo con repeticion, que permite incluir un individuo en la muestra mas de una vez. El muestreo sistematico es un metodo de muestreo estadistico que se utiliza a menudo como alternativa al muestreo aleatorio.
Muestreo sistematico Supongamos que la lista de la poblaci6n se ordena de una forma que no tiene ninguna relaci6n con el tema de interes. EI muestreo sistematico implica la selecci6n de todo j-esimo sujeto de la poblaci6n, don de j es el cociente entre el tamaiio de la poblaci6n Ny el tamaiio que se desea que tenga la muestra, n; es decir, j = Nln. Se selecciona aleatoriamente un numero del 1 al j para obtener el primer sujeto que va a incluirse en la muestra sistematica.
820
Estadistica para administraci6n y economia
Supongamos que se desea que el tamano de la muestra sea de 100 y que la poblaci6n esta formada por 5.000 nombres en orden alfabetico. En ese caso, j = 50. Seleccionamos aleatoriamente un numero del 1 alSO. Si el numero es el 20, seleccionamos ese numero y los sucesivos numeros obtenidos sumando 50 al numero inicial; de esa manera, se obtiene una muestra sistematica formada por los elementos que Ilevan los numeros 20, 70, 120, 170, etc. hasta que se seleccionan los 100 sujetos. Una muestra sistematica se analiza de la misma forma que una muestra aleatoria simple, ya que, en relaci6n con el tema investigado, la lista de la poblacion ya esta en orden aleatorio. El peligro esta en que exista alguna relaci6n sutil e inesperada entre el orden de la poblaci6n y el tema estudiado. En ese caso, habrfa un sesgo si se empleara un muestreo sistematico. Las muestras sistematicas constituyen una buena representaci6n de la poblaci6n si la poblaci6n no experimenta ninguna variaci6n ciclica.
Analisis de los resultados de un muestreo aleatorio simple En este apartado se amplfan las estimaciones del intervalo de confianza desarrolladas en el Capitulo 8. Sin embargo, aqui se analizan los casos en los que el numero de miembros de la muestra no es una proporci6n insignificante del numero de miembros de la poblaci6n. Por 10 tanto, se utiliza el factor de correccion en el caso de una pohlacion finita, n)/N. Se supondra que la muestra es 10 suficientemente grande para poder recurrir al teorema del limite central.
eN -
Estimacion de la media poblacional, muestra aleatoria simple Sean x" x2 ' . . . , Xn los valores observados en una muestra aleatoria simple de tamaiio n, tomada de una poblacion de N miembros que tiene una media /.1. 1.
La media muestral es un estimador insesgado de la media poblacional, fl. La estimacion puntual es
1
.x = 2.
n
II
L Xi i=\
Un metoda de estimacion insesgada de la varianza de la media muestral genera la estimacion puntual il~ x
3.
-
S2
N - m
n
N
= - x ---
(20.1)
Siempre que el tamaiio de la muestra es grande, los intervalos de confianza al 100(1 - a)% de la media poblacional son (20.2)
EJEMPLO
20.1. Creditos hipotecarios (intervalo de confianza)
En una ciudad, se solicitaron 1.118 creditos hipotecarios el ano pasado. Una muestra aleatoria de 60 de estos creditos era de una cuantia media de 87.300 $ y tenia una desviaci6n tfpica de 19.200 $. Estime la cantidad media de todos los creditos hipotecarios solicitados en esta ciudad el ano pasado y halle el intervalo de confianza al 95 por ciento.
Capitulo 20. Otros temas relacionados con 81 muestreo
821
Solucion Sea II la media pobl ac ional. Se sabe que
N=1.118
x = 87.300 $
n = 60
s = 19.200
Para obtener estimaciones de intervalos, utilizamos la ecuaci6n 20.1:
r? x
=
i
x (N - 11) n N
(19.200)2
1.058
60
1.118
--- x -
- = 5.814.268
y tomamos la ralz cuadrada para hallar el error tlpico estimado,
6.>:
=
2.411
Por 1o tanto, el intervalo de confianza al 95 por ciento de la cantidad media de todas las hipotecas solicitadas en esta ciudad el ano pasado es
87.300 $ - (1,96)(2.411) < II < 87.300 $
+ (1,96)(2.411)
o sea
82.574 $ < II < 92.026 $ Es decir, el intervalo va de 82.574 $ a 92.026 $.
A menudo, 10 que interesa es el total poblacional en lugar de Ia media. Por ejemplo, el editor de un libro de texto de estadistica para los negocios querra una estimaci6n del numero total de estudiantes que asisten a los cursos de estadlstica para los negocios en to do el pals. Es facil hacer una inferencia sobre el total poblacional. Los resultados relevantes se deducen del hecho de que en nuestra notaci6n, el total poblacional = Nfl.
Estimacion del total poblacional, muestra aleatoria simple Supongamos que se selecciona una muestra aleatoria simple de tamafio n de una poblaci6n de tamafio Ny que la cantidad que se quiere estimar es el total poblacional N,l. Un metodo de estimaci6n insesgada del total poblacional Nil genera la estimaci6n puntual Nx. 2. Un metodo de estimaci6n insesgada de la varianza de nuestro estimador del total poblacional genera la estimaci6n puntual: 1.
(20.3) 3.
Siempre que el tamafio de la muestra es grande, se obtiene un intervalo de confianza al 100(1 - a)% del total poblacional de la forma siguiente: (20.4)
822
Estadfstica para adm inistraci6n y economfa
EJEMPLO 20.2. Numero de matriculados en los cursos de estadistica para los negocios (intervalo de confianza) Supongamos que hay 1.395 universidades en un pais. En una muestra aleatoria simple de 400 universidades, se observa que la media muestral del numero de matriculados el ano pasado en los cursos de estadfstica para los negocios era de 320,8 estudiantes y que la desviacion tfpica muestral era de 149,7 estudiantes. Estime el numero total de estudiantes matriculados en estos cursos durante el ano y halle el intervalo de confianza al 99 por ciento.
Soluci6n Si la media poblacional es J-L, para estimar NJ-L se utilizan los datos siguientes: N
=
1.395
x=
n = 400
s
320,8
=
149,7
Nuestra estimacion puntual del total es
Nx =
(1.395)(320,8) = 447.516
Se estima que hay un total de 447.516 alumnos matriculados en los cursos. Para obtener estimaciones de intervalos, se utiliza la ecuacion 20.3 para calcular la varianza del estimador: N 2 o- 2,c ,
S2
=-
n
N(N - n)
=
(1497i
'
400
(1.395)(995)
= 77.764,413
Tomando la rafz cuadrada, tenemos que
NCrx = 8.818,4 Por 10 tanto, el intervalo de confianza al 99 por ciento del total poblacional se obtiene aplicando la ecuacion 20.4, siendo Za/2 = 2,58:
o sea 447.516 - (2,58)(8.818,4) < Nfl < 447.516
+ (2,58)(8.818,4)
o sea 447.516
± 22.751
424.765 < Nfl < 470.267 Por 10 tanto, nuestro intervalo va de 424.765 a 470.267 estudiantes. Consideremos, por ultimo, el caso en el que hay que estimar la proporci6n p de individuos de la poblacion que poseen una caracterfstica especffica. La inferencia sobre esta propOl'cion debe basarse en la distribucion hipergeometrica cuando el numero de miembros de la muestra no es muy pequeno en comparacion con el numero de miembros de la poblacion. Supongamos, de nuevo, que el tamano de la muestra es 10 suficientemente grande para poder invocar el teorema del Ifrnite central.
Cap itulo 20. Otros temas relacionados con el muestreo
823
Estimacion de la proporcion poblacional, muestra aleatoria simple Sea p la proporcion que posee una determinada caracterfstica en una muestra aleatoria de n observaciones de una poblacion que tiene una proporcion, P, que posee esa caracterfstica . 1. 2.
p,
La proporcion muestral, es un estimador insesgado de la proporcion poblacional, P. Un metoda de estimacion insesgada de la varianza de nuestro estimador de la proporcion poblacional genera la estimacion puntual
~2 (J -
=
P
3.
pO -
F5)
n - 1
(N - n) (20.5)
X ---
N
Siempre que el tamano de la muestra es grande, los intervalos de confianza del 100(1 - a)% de la proporcion poblacional son (20.6)
EJEMPLO
20.3.
Cursos anuales de estadfstica para los negocios (intervalo de confianza)
Se ha observado en una muestra aleatoria simple de 400 universidades de las 1.395 que hay en nuestra poblaci6n que el curso de estadfstica para los negocios era un curso anual en 141 de las universidades de la muestra. Estime la proporci6n de todas las universidades en la que el curso es anual y halle el intervale de confianza al 90 por ciento.
Solucion Dados N = 1.395
~ 141 P = -400 = 03525 '
n = 400
nuestra estimaci6n puntual de la proporci6n poblacional, P, es simplemente p = 0,3525. Es decir, el curso es anual en alrededor del 35 ,25 por ciento de todas las universidades. Para calcular estimaciones de intervalos, la varianza de nuestra estimaci6n se halla mediante la ecuaci6n 20.5: _?
(J""
P
=
pO - p) n - 1
x
(N - n)
N
=
(0,3525)(0,6475) 399
995
x --
1.395
= 0,0004080
por 10 que
ai; = 0,0202 En el caso de un intervalo de confianza al 90 por ciento, Za/2 = Zo.os = 1,645. EI interva10 de confianza al 90 por ciento se halla por medio de la .ecuaci6n 20.6:
p-
Zrt/2a p
2 0,001706 N- j= I J J (1.395)
(Jp
S/
por 10 que, tomando Ia rafz cuadrada, tenemos que
6- = 00413 PoIt
'
Capitulo 20.
Otros temas relacionados con el muestreo
833
En el caso del intervale de confianza al 90 por ciento, Za/2 = Zo.OS =
1,645
y el intervale de confianza al 90 por ciento de la proporcion poblacional de una muestra aleatoria estratificada es (0,206) - (1,645)(0,0413) < P < (0,206)
+ (1,645)(0,0413)
0,138 < P < 0,274 Este intervale va del 13,8 al 27,4 por ciento de todas las universidades.
Afijacion del esfuerzo muestral a los distintos estratos Queda por analizar la cuestion del reparto del esfuerzo muestral entre los estratos. SUponiendo que se selecciona un total de n miembros, ~cU(intas de estas observaciones muestrales deben asignarse a cada estrato? En realidad, el estudio en cuestion puede tener muchos objetivos, 10 cual significa que no existe una clara respuesta. No obstante, es posible especificar unos criterios de eleccion que el investigador debe tener presentes. Si se sabe poco o nada de antemano sobre la poblacion y si no hay ninglin requisito para la produccion de informacion acerca de estratos poco poblados, es logico elegir una afiJaci6n proporcional.
Afijacion proporcional: tamano de la muestra La proporci6n de miembros de la muestra que hay en un estrato es igual que la proporci6n de miembros de la poblaci6n que hay en ese estrato. Por 10 tanto, considerando el j-esimo estrato,
N n· ...l.=-....!..
(20.18)
N
n
por 10 que el tamano de la muestra del j-esimo estrato utilizando la afijacion proporcional es
N
= -....!.. N
n· J
x n
(20.19)
Este mecanismo de afijacion intuitivamente razonable se emplea frecuentemente y permite, por 10 general, realizar un analisis satisfactorio. Observese que en el ejemplo 20.4 utilizamos la afijacion proporcional. Dividimos un total de N = 155 restaurantes en tres estratos (Illinois, Indiana y Ohio). Seleccionamos una muestra de n = 31, siendo n]
60
=-
155
x 31
= 12
n2
50
=-
155
x 31
= 10
45 n3 = x 31 = 9 155
A veces la utilizacion estricta de la afijacion proporcional produce relativamente pocas observaciones en los estratos que Ie interesan especialmente al investigador. En ese caso, la inferencia sobre los parametros poblacionales de estos estratos podrfa ser bastante imprecisa. En estas circunstancias, puede ser preferible afijar mas observaciones a esos estratos que las que dicta la afijacion proporcional. En los ejemplos 20.5 y 20.6, 364 de las
834
Estadfstica para administracion y economfa
1.395 universidades son escuelas universitarias y se toma una muestra de 100 observaciones. Si se hubiera utilizado la afijaci6n proporcional, el numero de escuelas incluidas en la muestra habria sido N, 364 n = - x n = - - x 100 = 26 'N l.395
Dado que al editor Ie interesaba especial mente obtener informaci6n sobre este mercado, se pens6 que no seria adecuada una muestra de 26 observaciones solamente. Por esta raz6n, 40 de las 100 observaciones muestrales se afijaron a este estrato. Si el unico objetivo de un estudio es estimar con la mayor precisi6n posible un panime. tro relativo al conjunto de la poblaci6n, como la media, el total 0 la proporci6n, y si se tiene bastante informaci6n sobre la poblaci6n, es posible establecer una afijacion optima.
Afijacion optima: tamano de la muestra del j-esimo estrato, media 0 total del conjunto de la poblacion Si 10 que se necesita es estimar una media 0 un total del conjunto de una poblacion y si las varianzas poblacionales de los estratos individuales se representan por medio de (J2, puede demostrarse que los estimadores mas precisos se obtienen con la afijacion optima. E{ tamaiio de la muestra del j-esimo estrato utilizando la afijacion optima es
n.J =
Na K
J J
X
n
(20.20)
Esta f6rmula es razonable intuitivamente. Comparada con la afijaci6n proporcional, asigna relativamente mas esfuerzo muestral a los estratos en los que la varianza poblacional es mayor. Es decir, se necesita una muestra de mayor tamafio donde la variabilidad poblacional es mayor. Asi, en el ejemplo 20.4, en el que hemos utilizado la afijaci6n prop orcional, si las diferencias observadas en las desviaciones tipicas muestrales reflejaran correctamente las diferencias que existen en las cantidades poblacionales, habria sido preferible tomar menos observaciones en el tercer estrato y mas en el primero. El uso de la ecuaci6n 20.20 plantea inmediatamente una objeci6n. Requiere conocer las desviaciones tfpicas poblacionales, aj , mientras que antes de que se tome la muestra, a menudo ni siquiera se dispone de estimaciones de estos valores que merezcan la pena. Esta cuesti6n se analiza en el ultimo apartado del capitulo. A continuaci6n, se examina el tamafio de la muestra necesario en la afijaci6n 6ptima correspondiente a una proporci6n poblacional.
Afijacion optima: tamano de la muestra del j-esimo estrato, proporcion poblacional Para estimar la proporcion de la poblacion total, se obtienen estimadores con la menor varianza posible por medio de una afijaci6n optima. EI tamaiio de la muestra del j-esimo estrato de la proporcion poblacional utilizando la afijacion optima es
nj =
Nj
K
L i='
J Pj(l -
Pj)
N i JP i (1 - Pi)
x n
(20.21)
Capitulo 20.
Otros temas relacionados con el muestreo
835
Esta formula, en comparacion con la afijacion proporcional, asigna mas observaciones muestrales a los estratos en los que las verdaderas proporciones poblacionales son mas cercanas a 0,5, pues si una proporcion es cercana a 0 0 a 1, puede saberse con bastante seguridad con una muestra relativamente pequefia. La dificultad que plantea el uso de la ecuacion 20.21 estriba en que implica las proporciones desconocidas Pj para (j = 1, 2, ... , K) , que son las propias cantidades que el estudio pretende estimar. No obstante, a veces la informacion anterior sobre la poblacion puede permitir hacerse al menos una idea aproximada de que estratos tienen proporciones mas cercanas a 0,5. En el ejemplo 20.6, las proporciones muestrales sugieren que el numero de escuelas universitarias que hay en la muestra deberfa haber sido menor que el numero resultante de la afijacion proporcional. Se lIega a la misma conclusion en este estudio cuando se comparan las desviaciones tfpicas muestrales del ejemplo 20.5 con la ecuacion 20.20. A pesar de eso, se decidio incluir en la nuestra mas escuelas universitarias en lugar de menos. La razon era que en este estudio el editor querfa tener informacion fiable tanto sobre el mercado de escuelas universitarias como sobre el de facultades. Esta ilustracion es un ejemplo de una importante cuestion. Aunque la division del esfuerzo muestral que sugieren las ecuaciones 20.20 y 20.21 a menudo se denomina afijacion optima, solo es optima con respecto al estricto criterio de la estimacion eficiente de los parametros con-espondientes al conjunto de la poblacion. A menudo, los estudios tienen objetivos mas amplios que ese, en cuyo caso puede muy bien ser razonable no utilizar la afijacion optima.
EJERCICIOS
Ejercicios aplicados 20.27. Una pequefia ciudad contiene un total de 1.800 hogares. La ciudad esta dividida en tres distritos, que contienen 820, 540 Y 440 hogares, respectivamente. Una muestra aleatoria estratificada de 300 hogares contiene 120, 90 Y 90 hogares, respectivamente, de estos tres distritos. Se pide a los miembros de la muestra que estimen su factura total de electricidad consumida en los meses de invierno. Las respectivas medias muestrales son 290 $, 352 $ Y 427 $ Y las respectivas desviaciones tfpicas muestrales son 47 $, 61 $ Y 93 $. a) Utilice un metodo de estimaci6n insesgada para estimar la factura media de electricidad consumida en los meses de invierno por todos los hogares de esta ciudad. b) Utilice un metodo de estimaci6n insesgada para estimar la varianza del estimador del apartado (a). c) Halle el intervalo de confianza al 95 por ciento de la media poblacional de las facturas de electricidad consumida en invierno por los hog ares de esta ciudad.
20.28. Una universidad tiene 152 profesores ayudantes, 127 titulares y 208 catedn'iticos. Las autoridades universitarias estan investigando la cantidad de tiempo que dedican estos profesores a reuniones en un cuatrimestre. Se pi de a muestras aleatorias de 40 profesores ayudantes, 40 titulares y 50 catedraticos que lleven la cuenta del tiempo que dedican a reuniones en un cuatrimestre. Las medias muestrales son 27,6 horas en el caso de los profesores ayudantes, 39,2 en el de los titulares y 43,3 en el de los catedraticos. Las desviaciones tfpicas muestrales son 7,1 horas en el caso de los profesores ayudantes, 9,9 en el de los titulares y 12,3 en el de los catedraticos. a) Halle un intervalo de confianza al 90 por ciento del tiempo medio dedicado a reuniones par los catedraticos de esta universidad en un cuatrimestre. b) Utilice un metodo de estimaci6n insesgads (j = 1, 2, ... , K) las medias muestrales de los estratos individuales. Dado que
(20.25) se deduce que la varianza de
Xst es
2 1 ~ N? V (X-) 1 ~ N2. (JJ x (Nj - n) V ar (X-) SI = (J x" = 2 1.... ; ar j = 2 1.... J n. -N-"---.--1"N j= t J J N j= t
(20.26)
donde las (Jf son las varianzas poblacionales de los K estratos.
Ahora puede utilizarse la ecuacion 20.26, dada cualquier eleccion de nt, n2' ... , n K, para hallar la varianza correspondiente del estimador de la media poblacional. Sin embargo, el
Capitulo 20.
Otros temas relacionados con el muestreo
841
tamafio total de la muestra, 17, necesario para obtener un determinado valor de esta varianza dependera de la manera en que se repartan las observaciones muestrales entre los estratos. En el apartado 20A hemos analizado dos metodos que se emplean frecuentemente, la afijacion proporcional y la afijacion optima. En cualquiera de los dos casos, sustituyendo los nj en la ecuacion 20.26, podemos resolver la ecuacion resultante y hallar el tamafio de la muestra, n. Los resultados se indican en las ecuaciones 20.27 y 20.28.
Tamano total de la muestra para estimar la media global (varianzas poblacionales de los estratos especificadas), muestreo aleatorio estratificado Supongamos que se subdivide una poblacion de N miembros en K estratos que contienen N 1 , N2 , ••• , NK miembros. Sea (J2 la varianza poblacional del j-esimo estrato y supongamos que se desea obtener una estimaclon de la media del conjunto de la poblacion. Si se especifica la varianza deseada, (J~ , del estimador muestral, el tamano total de la muestra necesario, n, se obtiene de la forma sfguiente:
1.
Afijacion proporcional: K
I NpJ j=! 17
1
= N(1x~ Sf
2.
(20.27)
K
+ NL. - ~
j=l
N(12 )}
Afijacion optima:
17
=
1
N(1} sl
+ -NL. ~
j=l
EJEMPLO
20.9.
(20.28)
K
N(12 }}
Cadena de restaurantes en tres estados (tamafio de la muestra)
Tomemos, al igual que en el ejemplo 20A, una muestra aleatoria estratificada para estimar el numero medio de pedidos por restaurante de un nuevo plato cuando el numero de restaurantes que hay en los tres estados es
Supongamos tambien que la experiencia de la cadena de restaurantes sugiere que las desviaciones tfpicas poblacionales de los tres estados es probable que sean aproximadamente (12
= 11
Si se necesita un intervalo de confianza al 95 por ciento de la media poblacional cuya amplitud sea de tres pedidos por restaurante a cada lado de la estimacion puntual muestral, l,cuantas observaciones muestrales se necesitan en total?
842
Estadfstica para administraci6n y economfa
Solucion Observese que
1,960"x-,' = 3,
por 10 que O"x" = 1,53
K
L:
NiO"J = (60(13)2 + (50)(11)2 + (45)(9)2 = 19.835
j=l
y
[(60)(13) + (50)(11) + (45)(9)f - -- - 15-5- - - - - = 19.421
-1 ( L:K NO"- )2 N J J
j=l
En el caso de la afijacion proporcional, el tamano de la muestra necesario es K
L:
- I
n=
NjO"J
NO"~ J~ ~ ~ x"
NL.
j=1
19.835 N0"2 = (l55)(1 ,53i + 19.835/155 = 40,4 JJ
Por 10 tanto, bastara una muestra de 41 observaciones para conseguir el nivel de precision necesario. Si se utiliza la afijacion optima, el tamano de la muestra necesario es
por 10 que puede conseguirse el mismo grado de fiabilidad con 40 observaciones si se utiliza este metodo de afijacion. En este caso concreto, como las desviaciones tfpicas poblacionales son bastante cercanas, la afijacion optima solo representa un ahOlTo muy pequeno en comparacion con la afijacion proporcional.
EJERCICIOS
Ejercicios aplicados 20.41. Debe estimarse la cantidad media de los 812 creditos hipotecarios solicitados en una ciudad el afio pasado. Basandose en la experiencia, una agencia inmobiliaria sabe que es probable que la desviaci6n tfpica poblacional sea de alrededor de 20.000 $. Si el intervalo de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 2.000 $ a cada lado de la media muestral, i,cuantas observaciones muestrales se necesitan si se toma una muestra aleatoria simple?
20.42. Un concesionario de autom6viles tiene unas existencias de 400 autom6viles usados. Para estimar el mimero medio de kil6metros de estos vehfculos, pretende tomar una muestra aleatoria simple de autom6viles usados. Los estudios anteriores sugieren que la desviaci6n tfpica poblacional es de 10.000 kil6metros . EI intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 ki16metros a cada lado de su estimaci6n muestraJ. i,De que tamafio debe ser la muestra para satisfacer este requisito?
Capftulo 20.
20.44. Un profesor de una c1ase de 417 alumnos esta considerando la posibilidad de hacer un examen fi nal que los alumnos puedan realizar en casa. Quiere tomar una muestra aleatoria de alumnos para estimar la proporcion que prefiere este tipo de examen. Si el intervale de confianza al 90 por ciento de la proporcion poblacional debe tener una amplitud maxima de 0,04 a cada lado de la proporcion muestral , i de que tamano debe ser la muestra?
843
rna que las desviaciones tfpicas de los valores de estos estratos seran 150 $, 200 $, 300 $ Y 400 $, respectivamente. Si el interv alo de confianza al 90 por ciento de la media del conjunto de la poblacion debe tener una amplitud de 25 $ a cada lado de la estimacion muestral, halle el tamano total de la muestra necesario utili zando tanto la afijacion proporcional como la optima.
4 "'. Un club de campo quiere encuestar a una mues2O.•
Ira aleatoria de 320 socios para estimar la propOl·cion que es probable que asista a una funcion a principio de temporada. EI nLimero de observaciones muestrales debe ser 10 suficientemente grande para garantizar que el intervalo de confianza al 99 por ciento de la poblacion tiene una amplitud maxima de 0,05 a cada lado de la proporcion muestral. iDe que tamano debe ser la muestra?
Otros temas relacionados can el muestreo
20.46. Debe estimarse la renta media de los hogares de una ciudad que puede dividirse en tres distritos. La tabla muestra la informacion relevante.
20.45. Un auditor quiere estimar el valor medio de las facturas pendientes de cobro de una empresa. La poblacion se divide en cuatro estratos, que contienen 500, 400, 300 Y 200 facturas, respectivamente. Basandose en la experiencia, se esti-
Distrito
Tamaiio de la poblacion
Dcsviacion tipica estimada ($)
1 2 3
1.150 2.120 930
4.000 6.000 8.000
Si el intervale de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 500 $ a cada lado de la estimacion muestral, halle el nLimero de observaciones muestrales que se necesitan en total utilizando la afijacion proporcional y la optima.
20.6. Otros metodos de muestreo Hemos analizado brevemente el muestreo aleatorio simple y el estratificado. Estos no son los unicos metodos que se utilizan para elegir una muestra. En este apartado se analizan algunos otros.
Muestreo por conglomerados Supongamos que un investigador quiere estudiar una poblaci6n que se encuentra repartida en una amp Ii a zona geografica, como una gran ciudad 0 una regi6n. Si se utiliza una muestra aleatoria simple 0 una muestra aleatoria estratificada, se plantean dos problemas inmediatos. En primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente precisa de los miembros de la poblaci6n. Puede no disponer de esa lista 0 es posible que pueda conseguirla con un elevado coste. En segundo lugar, aunque el investigador posea una lista de la poblaci6n, los miembros de la muestra resultante estaran repartidos casi inevitablemente por una gran zona. En ese caso, sera bastante caro que los entrevistadores contacten con cada uno de los miembros de la muestra. Naturalmente, este ultimo problema no se plantea si se envfa el cuestionario por correo. Sin embargo, con este medio de contacto tambien puede oCUITir que la tasa de falta de respuesta sea inaceptablemente alta y que el investigador prefiera por ese motivo las entrevistas personales.
844
Estadfstica para adm inistracion. y economfa
Ante el dilema de no tener una lista fiable de la poblacion 0 querer hacer entrevistas personales con miembros de la muestra cuando los recursos presupuestarios son limitados, el investigador puede recurrir a otro metodo de muestreo que se conoce con el nombre de muestreo por conglomerados. Este metoda es atractivo cuando una poblacion puede subdividirse en unidades relativamente pequefias y geognificamente compactas Ilamadas conglomerados. Por ejemplo, una ciudad podrfa subdividirse en distritos 0 en barrios, incluso aunque no se disponga de una lista completa de los residentes 0 de los hogares. En un muestreo por conglomerados, se selecciona una muestra aleatoria simple de la poblacion y se contacta con cada individuo de cada uno de los conglomerados de la muestra; es decir, se realiza un censo completo en cada uno de los conglomerados elegidos. En las siguientes ecuaciones, mostramos como pueden hacerse inferencias vaIidas sobre la media poblacional y la proporcion poblacional a partir de los resultados de una muestra de conglomerados .
Estimadores en el muestreo por conglomerados Se subdivide una poblacion en M conglomerados, se selecciona una muestra aleatoria simple de m de estos conglomerados y se obtiene informacion de cad a miembro de los conglomerados de la muestra. Sean n" n2 , . •. , nn el numero de miembros de la poblacion que hay en los m y las conglomerados de la muestra. Sean las medias de estos conglomerados ' •.• , 2 proporciones de miembros de los conglomerados que poseen un atributo de interes P" P2 , ... , Pm' EI objetivo es estimar la media J1 y la proporcion P de la poblacion total.
x" x
1.
xm
Utilizando metodos de estimacion insesgada, tenemos que k
x- C
L
=
-
njX;
;= 1
(20.29)
111
L 11;
;= 1
Y k
~
Pc
L nj P ;
;= !
(20.30)
HI
L
n;
;= 1
2.
Las estimaciones de la varianza de estos estimadores, basadas en metodos de estimacion insesgada, son ~2
(J -
Xc
=
M
_(I
nf(x; - XJ ;= 1
m ' - - - - - - - -Mmn2 m- 1
2 )
(20.31 )
y
(20.32) m
donde jj =
I ;= ,
de la muestra.
nj /
m es el numero medio de individuos que hay en los conglomerados
Capitulo 20. Otros temas relacionados con el muestreo
845
Basandose en estos estimadores, se obtienen los intervalos de confianza util izando el muestreo por conglomerados.
Estimacion de la media poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervale de confianza a1100(1 - ex )% de la media poblacional utilizando el muestreo por conglomerados es
(20.33)
Tambien se hallan intervalos de confianza de la proporci6n poblacional utili zan do el muestreo por conglomerados.
Estimacion de la proporcion poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervalo de confianza a1100(1 - IX)% de la proporcion poblacional utilizando el muestreo por conglomerados es
(20.34) Observese que pueden hacerse inferencias con una informaci6n previa relativamente pequefia sobre la poblaci6n. Lo unico que se necesita es una divisi6n en conglomerados identificables. No es necesario saber cual es el numero total de miembros de la poblaci6n. Basta con saber cual es el numero que hay en cada uno de los conglomerados de la muestra y este puede averiguarse durante el estudio, ya que se toma un censo completo en cada conglomerado de la muestra. Ademas, dado que los miembros de la muestra estan geograficamente cerca unos de otros dentro de los conglomerados, es relativamente barato para los entrevistadores contactar con ellos.
EJEMPLO 20.10. Muestreo por conglomerados en el caso de las rentas familiares (estimacion)
)
Income Clusters
Se toma una muestra aleatoria simple de 20 man zan as de una zona residencial que contiene un total de 1.100 manzanas. A continuaci6n, se entra en contacto con cada hogar de las manzanas de la muestra y se obtiene informaci6n sobre la renta familiar. El fichero de datos Income Clusters contiene la renta anual media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano y que viven en las manzanas de la muestra. Estime la renta familiar media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano en esta zona residencial. Solucion Se sabe que m
=
20
Y
M = 1.1 00
El numero total de hogares que hay en la muestra es 111
L i= l
ni = (23
+ 31 + .,. + 41)
= 607
846
Estadfstica para administracion y economfa
Para obtener estimaciones puntuales, III
L
+ (31)(19.197) + ... + (41)(16.493) =
n;x,; = (23)(26.283)
15.848.158
;=1
y III
L
nJ5; = (23)(0,1304) + (31)(0,4516) + ... + (41)(0,3659) = 153
;= I
Nuestras estimaciones puntuales son, pues,
- L nix; 15.848.158 = L ni = 607 = 26.109
Xc
~
Pc =
L nij; 153 L n; = 607 = 0,2521
Por 10 tanto, basandose en esta evidencia muestral, se estima que en esta zona residencial la renta anual media de los hogares es de 26.109 $ y el 25,21 por ciento de los hogares tiene una renta de menos de 15.000 $ al ano. Para obtener estimaciones de intervalos de la media poblacional, el tamano medio de los conglomerados debe ser
L ni = -607 = 30 35
it = -
20
m
'
Ademas,
por 10 que
(J'
2 Xc
=
M - m
Mmn
2
x
L (n7(x; m- 1
xc)2
=
(980)(69.270.551.000)
(1.000)(20)(30,35)2
= 3.684.914
y tomando la rafz cuadrada, (JX = 1.920
El intervalo de confianza al 95 por ciento de la media poblacional es 26.109 - (1,96)(1.920) < /1- < 26.109
+ (1,96)(1.920)
o sea 22.346 < /1- < 29.872 EI intervalo de confianza al 95 por ciento de la renta media de todas las familias de esta zona va, pues, de 22.346 $ a 29.872 $.
Capitulo 20. Olros temas relacionados con el muestreo
84 7
Para obtener estimaciones de intervalos de la proporcion poblacional , (23)2(0,1304 - 0,02521)2
+ ... + (41)2(0,3659
- 0,2521)2
19
m- l
=38,1547
De donde
(980)(38,1547) - - - - ---;:: = 00020297 (1.000)(20)(30,35)2 ' y tomando la rafz cuadrada,
El intervalo de confianza al 95 por ciento de la proporcion poblacional es 0,2521 - (1,96)(0,0451) < P < 0,2521
+ (1,96)(0,0451)
o sea 0,164 < P < 0,340 Nuestro intervalo de confianza al 95 por ciento del porcentaje de hogares cuya renta anual es de menos de 15.000 $ va de 16,4 a 34,0 por ciento. El muestreo por conglomerados se parece superficialmente al muestreo estratificado. En ambos casos, la poblacion se divide primero en subgrupos. Sin embargo, la similitud es bastante ilusoria. En el muestreo aleatorio estratificado, se toma una muestra de cada estrato de la poblacion en un intento de garantizar que se da el debido peso a importantes segmentos de la poblacion. En cambio, en el muestreo por conglomerados se toma una muestra aleatoria de conglomerados, por 10 que algunos conglomerados no tienen miembros en la muestra. Dado que dentro de los conglomerados los miembros de la poblacion probablemente son bastante homogeneos, se corre el riesgo de que importantes subgrupos de la poblacion no esten representados en absoluto 0 esten muy subrepresentados en la muestra final. En consecuencia, aunque la gran ventaja del muestreo por conglomerados se encuentra en su comodidad, esta comodidad puede muy bien conseguirse a costa de una imprecision mayor de las estimaciones muestrales. Otra distincion entre el muestreo por conglomerados y el muestreo estratificado es que en el primero se toma un censa campleta de miembros del conglomerado, mientras que en el segundo se toma una muestra aleatoria de miembros del estrato. Sin embargo, esta diferencia no es esencial. De hecho, a veces un investigador puede extraer una muestra aleatoria de miembros de un conglomerado en lugar de tomar un censo completo.
Muestreo bietapico En much as investigaciones, la poblacion no se encuesta en una sola etapa sino que a menudo es comodo realizar primero un estudio piloto en el que se contacta con una propor-
848
Estadfstica para administraci6n y economfa
cion relativamente pequena de los miembros de la muestra y se analizan los resultados obtenidos antes de realizar la mayor parte del estudio. El principal inconveniente de ese metodo es que puede IIevar mucho tiempo. Sin embargo, tiene varias ventajas que compensan este factor. Una de las ventajas importantes es que el investigador puede probar, con un pequeno coste, el cuestionario propuesto para asegurarse de que las distintas preguntas se entienden perfectamente. El estudio piloto tambien puede sugerir otras preguntas cuya importancia se habfa pasado por alto. Ademas, este estudio tambien debe dar una estimacion de la tasa probable de falta de respuesta. Si esta fuera inaceptablemente alta, podrfa ser deseable modificar algo el metodo para recabar las respuestas. La realizacion de un estudio bietapico, comenzando con un estudio piloto, se conoce con el nombre de muestreo bietapico. Este enfoque tiene otras dos ventajas . En primer lugar, si se emplea un muestreo aleatorio estratificado, el estudio piloto puede utilizarse para obtener estimaciones de las varianzas de los distintos estratos. Estas pueden utilizarse, a su vez, para estimar la afijacion optima de la muestra a los distintos estratos. En segundo lugar, los resultados del estudio piloto pueden utilizarse para estimar el numero de observaciones necesarias para obtener estimadores de los parametros poblacionales con un nivel especificado de precision. Los ejemplos siguientes sirven para iIustrar estas cuestiones. Consideremos una senciIIa situacion en la que se utiliza una muestra aleatoria simple para estimar una media poblacionai. AI principio, la informacion sobre esta poblacion es relativamente escasa, por 10 que se realiza una encuesta piloto para hacerse una idea del tamano que debe tener la muestra.
EJEMPLO 20.11. Valor medio de las facturas pendientes de cobro (tamano de la muestra) Un auditor desea estimar el valor medio de las facturas pendientes de cobro en una poblacion total de 1.120 facturas. Quiere hallar un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de aproximadamente 4 $ a cada lado de la media muestral. Para empezar, toma una muestra aleatoria simple de 100 facturas y observa una desviacion tfpica muestral de 30,27 $. l,Cuantas facturas mas debe tener la muestra?
Solucion En el apartado 20.5, hemos visto que el tamano de la muestra necesario es
donde N = 1.120 es el numero de miembros de la poblacion en este caso. Para que el intervalo de confianza al 95 por ciento tenga la amplitud exigida, 1,960"; = 4 por 10 que 0";, la desviacion tfpica de la media muestral, debe ser 4 0"- = = 204 x 1,96 '
Capitulo 20.
Otros temas relacionados can el muestreo
849
La desviaci6n tfpica poblacional, (J, se desconoce. Sin embargo, como consecuencia del estudio inicial de 100 facturas pendientes de cobro, se estima que es 30,27. El numero total de observaciones muestrales necesario es, pues, n =
N(J2 (N - 1)(J~
+ (J2
=
(l.120)(30,27i (l.119)(2,04)2
+ (30,27)2
= 1841 '
Dado que ya se han tornado 100 observaciones, senln suficientes 85 mas para satisfacer el objetivo del auditor.
EJEMPLO
20.12. Renta (tamano de la muestra)
Un investigador quiere tomar una muestra aleatoria estratificada para estimar la renta familiar media de una ciudad en la que el numero de familias que hay en cada uno de los tres distritos es N2 = 2.120 Para empezar, el investigador hace un estudio piloto, tomando una muestra de 30 hogares de cada distrito y obteniendo desviaciones tfpicas muestrales de 3.657 $, 6.481 $ y 8.403 $, respectivamente. Sup6ngase que el objetivo es obtener, con el tamafio mas pequefio posible, un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de 500 $ a cada lado de la estimaci6n muestral. (,Cuantas observaciones adicionales deben tomarse en cada distrito?
Solucion El requisito de que debe conseguirse un grado especificado de precisi6n con el menor numero de observaciones muestrales posible implica que debe utilizarse la afijaci6n 6ptima. Recuerdese que en la ecuaci6n 20.20 hemos visto que los numeros 12 1, n2 Y n3 que deben muestrearse en los tres estratos son los siguientes: nJ" =
N(J "
K J J
X
n
(J' - 1,~,-~ ') ")
don de las (Ji son las desviaciones tfpicas poblacionales de los estratos. Utilizando nuestras estimaciones muestrales en lugar de estas cantidades, n = I
n = 2
n = 3
( 1.150)(3.657) (1.150)(3.657)
+ (2.120)(6.481) + (930)(8.403) (2.120)(6.481)
(1.150)(3.657)
+ (2.l20)(6.481) + (930)(8.403) (930)(8.403)
0.150)(3.657)
+ (2.120)(6.481) + (930)(8.403)
x
12 =
0 163n ,
o,533n
x n
=
x n
= 0303n ,
Hemos especificado las propiedades de la muestra total que debe afijarse a cada estrato con el sistema 6ptimo. Queda por averiguar el numero total n de observaciones muestrales.
850
Estadfstica para administraci6n y economfa
Metodos de muestreo no probabillsticos Hemos analizado algunos sistemas de muestreo en los que es po sible especificar la probabilidad de que se extraiga una determinada muestra de la poblacion. Esta caracteristica de los metodos de muestreo permite hacer inferencias estadfsticas validas basadas en los resultados muestrales. De 10 contrario, no podrian obtenerse estimaciones puntuales insesgadas e intervalos de confianza con un contenido probabilistico especificado que tuvieran una estricta validez estadistica. No obstante, en much as aplicaciones practicas se utili zan metodos no probabilisticos para seleccionar rniembros de la muestra, principalmente por comodidad. Supongamos, por ejemplo, que queremos evaluar las reacciones de los estudiantes de nuestra universidad a algun tema de interes. Una posibilidad seria preguntar a nuestros amigos cual es su opinion. Este grupo no constituirfa una muestra aleatoria de la poblacion de todos los estudiantes. Por 10 tanto, si analizamos los datos como si procedieran de una muestra aleatoria, la inferencia resultante carecerfa de validez estadfstica. Las organizaciones que realizan encuestas utilizan a menudo una version mas sofisticada del enfoque que acabamos de describir, Hamada muestreo por cuotas. Se asignan encuestadores a un lugar y se les dice que contacten con un numero especificado de personas de una determinada edad, raza y sexo. Estas cuotas asignadas representan las proporciones del conjunto de la poblacion que se consideran adecuadas. Sin embargo, una vez decididas las cuotas, los entrevistadores tienen flexibilidad para elegir los miembros de la muestra. Su eleccion normalmente no es aleatoria. El muestreo por cuotas puede producir y a menudo produce estimaciones bastante precisas de los parametros poblacionales. Su inconveniente es que, como no se elige la muestra utilizando metodos probabilfsticos, no existe una forma valida de averiguar la fiabilidad de las estimaciones resultantes.
EJERCICIOS
Ejercicios aplicados 20.47. Una empresa de estudios de mercado quiere estimar la cantidad semanal media de tiempo que estan encendidos los televisores en los hogares de una ciudad que contiene 65 barrios. Se selecciona una muestra aleatoria simple de 10 barrios y se pregunta a cada hogar de cada barrio de la muestra. La tabla adjunta muestra los resultados. Barrio 1 2
3 4 5 6 7 8
9 10
Numero de hogares
Tiempo medio de uso del televisor (horas)
28
29,6 18,4 32,7 26,3 22,4 31,6 19,7
35 18 52 41
38 36 30
23 42
23,8 25,4 24,1
a) Halle una estimaci6n puntual de la media poblacional de la cantidad de tiempo que
estan encendidos los televisores en esta ciudad. b) Halle el intervalo de confianza al 90 por ciento de la media poblacional. 20.48. Un dirigente sindical quiere estimar el valor medio de las primas pagadas a los administrativos de una empresa en el primer mes de un nuevo plan. Esta empresa tiene 52 subdivisiones y se toma una muestra aleatoria simple de 8. A continuaci6n, se obtiene informaci6n de las n6minas de cada administrativo de cada subdivisi6n de la muestra. La tabla adjunta muestra los resultados. Subdivisi6n 1 2
3
Numero de administrativos
Prima media (d6Iares)
69 75 41 36 59
83 64
7
82 64
42 108 136 102 95
8
71
98
4
5 6
Capitulo 20.
a) Halle media b) Halle ciento
una estimaci6n puntual de la prima por administrativo de este meso el intervalo de confianza al 99 por de la media poblacional.
20.49. En el estudio del ejercicio 20.47 , se pregunta a los hogares si tienen televi si6n por cable. La tabla adjunta muestra el numero que tiene televisi6n por cable. Barrio Numero
2
3
4
5
6
7
8
9
10
12 11 10 29 15 13 20 14 9
26
a) Halle una estimaci6n puntual de la proporci6n de todos los hogares de la ciudad que tienen televisi6n por cable. b) Halle el intervalo de confianza al 90 por ciento de esta proporci6n poblacional. 20.50. En el estudio del ejercicio 20.48, se pregunt6 a los administrativos de las ocho subdivisiones de la muestra si estaban sati sfechos con el funcionamiento del plan de primas. La tabla adjunta muestra los resultados. Subdivision Numero satisfecho
2
3
4
5
678
24 25
11
21
35 44 30 34
a) Halle una estimaci6n puntual de la prop orci6n de todos los administrativos satisfechos con el plan de primas. b) Halle el intervalo de confianza al 95 por ciento de esta proporci6n poblacional. 20.51. Una ciudad esta dividida en 50 subdivisiones geogrMicas. Se necesita una estimaci6n de la proporci6n de los hogares de la ciudad interesados en un nuevo servicio de jardinerfa. Una muestra aleatoria de tres subdivisiones contiene 6 11, 521 Y 734 hogares, respectivamente. EI nLlmero que expresa interes por el servicio es 128, 131 Y 172, respectivamente. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todos los hogares de la ciudad interesada en el servicio de jardinerfa.
..
Otros temas relacionados con el muestreo
851
20.52. Un banco tiene 720 creditos hipolecarios para la adquisici6n de viviendas en situaci6n de morosidad. Necesita una estimaci6n del valor catastral medio de estas viviendas. Al principio, se considera una muestra aleatoria de 20 y se halla una desviaci6n tfpica muestral de 37.600 $. Si el banco requiere un intervalo de confianza al 90 por ciento de la media poblacional que tenga una amplitud de 5.000 $ a cada lado de la medi a muestral, i,cuantas viviendas mas deben considerarse? 20.53. Una universidad tiene 3.200 estudiantes de grado y 800 estudiantes de postgrado. Los investigadores tienen interes en saber cuanto dinero se gastan estos estudiantes en un ano en libros de texto. Al principio se toman muestras aleatorias simples de 30 estudiantes de grado y 30 de postgrado. Las desviaciones tfpicas muestrales de las cantidades gas tad as son 40 $ y 58 $, respectivamente. Se necesita un intervale de confianza al 90 por ciento de la media del conjunto de la poblaci6n que tenga una amplitud de 5 $ a cada lado de la estimaci6n puntual muestral. Estime el men or numero total de observaciones muestrales adicionales necesario para lograr este objetivo. 20.54. Una empresa tiene una flota de 480 autom6viles: 100 pequefios, 180 de tamano intermedio y 200 grandes. Para estimar los costes totales anuales medios de reparaci6n de estos autom6viles, se toma una muestra aleatoria preliminar de 10 autom6viles de cada tipo. Las desviaciones t[picas muestrales de los costes de reparaci6n son 105 $ en el caso de los autom6viles pequefios, 162 $ en el de los autom6viles de tamano intermedio y 183 $ en el de los autom6viles grandes. Se necesita un intervalo de confianza al 95 por ciento del coste total anual medio de reparaci6n por autom6vil que tenga una amplitud de 20 $ a cada lado de la estimaci6n puntual muestral. Estime el menor numero total de observaciones muestrales adicionales que deben tomarse.
RESUMEN
En este capitulo, hemos centrado la atenci6n en el problema de un investigador que quiere descubrir algo de una poblaci6n que no es necesariamente grande. EI investigador pretende recoger informaci6n solamente de un Subconjunto de miembros de la poblaci6n y pide asesoramiento para hacerlo. En primer lugar, deben
considerarse los pasos necesarios en un plan de muestreo. A continuaci6n, deb en distinguirse los errores de muestreo y los errores ajenos al muestreo; deben formularse ecuaciones para estimar una media poblacional, un total poblacional y una proporci6n poblacional para el muestreo aleatorio simple, asf como para el
852
Estadfstica para administracion y economfa
muestreo estratificado; debe decidirse el tamano de la muestra para esti mar una media poblacional, un total poblacional y una proporc ion poblacional utilizando el muestreo aleatorio simpl e 0 el muestreo estratificado si se especifica la varianza deseada de la media muestral; debe considerarse el muestreo por conglomerados y las ecuaciones establecidas para hallar los intervalos de confianza de la media poblacional y de la proporcion poblacional, si el tamano de la muestra
es grande. Hemos mencionado brevemente el metodo de muestreo bietapico y e l metodo de muestreo no probabilfstico. Dado que la estadistica se ocupa en gran parte de los problemas que plante an las afirmaciones sobre una poblacion a partir de la informacion muestral, nos interesa comprender este capitu lo. Para un analisis mas detallado de los disenos de muestreo, veanse las notas que se encuentran al final de este capitulo.
TERMINOS CLAVE estimacion: media poblacional, aleatorio, 820 media poblacional, conglomerado, 845 media poblacional, estratificado, 827 proporcion poblacional, aleatorio, 823 proporcion poblacional, conglomerado, 845 proporcion poblacional, estratificado, 831 total poblacional, aleatorio, 821 total poblacional, estratificado, 829
error ajeno al muestreo, 817 tamano de la muestra: error de muestreo, 817 afijacion optima, 834 afijacion proporcional, 833 factor de correccion en el caso de una poblacion finita, 820 media poblacional, aleatorio, 838 metodos no probabilfsticos, 850 muestreo aleatorio simple, 819 media poblacional, muestreo aleatorio estratificado, 826 estratificado, 840 muestreo por conglomerados, 844 proporcion poblacional, muestreo por cuotas, 850 aleatorio, 839 muestreo bietapico, 848 muestreo sistematico, 819
EJERCICIOS V APLICACIONES DEL CAPiTULO 20.55. Ha recibido el encargo de disenar y realizar una encuesta en su ciudad sobre la eficacia de una campana publicitaria por radio destinada a promocionar una nueva pelfcula. a) Explique que haria. b) Analice las posibilidades de que haya errores ajenos al muestreo y los medios para reducir 10 mas posible su importancia. c) (,Hasta que punto espera que la falta de respuesta sea un problema en esta encuesta? 20.56. Basandose en una muestra aleatoria de 10 miembros de su clase, estime la cantidad media de dinero que gastan los miembros de la clase en libros de texto cada cuatrimestre. 20.57. Explique minuciosamente la distincion entre muestreo aleatorio estratificado y muestreo por conglomerados. Ponga ejemp!os de problemas de muestreo en los que podria ser uti! cada una de estas tecnicas. 20.58. Se hace un examen a 90 estudiantes y se toma una muestra aleatoria de 10 calificaciones: 93
71
62
75
8 1 63
87
59
84
72
a) Halle el intervalo de confianza a! 90 par ciento de la media poblacional de las calificaciones. b) Sin hacer los calculos, indique si el intervalo de confianza al 95 por ciento de la media poblacional serfa mas amplio 0 mas estrecho que el obtenido en el apartado (a). 20.59. Una empresa tiene 272 facturas pendientes de cobro en una determinada categoria. Se toma una muestra aleatoria de 50 facturas. La media muestral es de 492,36 $ y la desviacion tipica muestral es de 149,92 $. a) Halle el intervalo de confianza al 99 por ciento de la media poblacional del valor de estas facturas pendientes de cobro. b) Halle el intervalo de confianza al 95 por ciento del valor total de estas facturas pendientes de cobro. c) Indique sin hacer los calculos si el intervalo de confianza al 90 por ciento del total poblacional serra mas amplio 0 mas estrecho que el intervalo obtenido en el apartado (b). 20.60. En el Senado de Estados Unidos hay 100 senadores. Se obtuvo informacion de los individuos
Capitulo 20.
responsables de gestionar la carrespondencia de 61 despachos de senadores. De estos, 38 indicaron que debian recibir un numero minimo de cartas sobre una cuesti6n antes de escribir una carta en respuesta. a) Suponga que estas observaciones constituyen una muestra aleatoria de la poblaci6n y halle el intervalo de confianza al 90 por ciento de la proporci6n de despachos de senadores que siguen esta polftica. b) En rea!idad, no se obtuvo informaci6n de una muestra aleatoria de despachos de senadores. Se enviaron cuestionarios a los 100 despachos, pero s610 respondieron 6l. (,C6mo influye esta informaci6n en su respuesta al apartado (a)? Vease la referencia bib!iognifica 2. 20.61. Una empresa tiene 148 representantes de ventas. Se toma una muestra aleatoria de 60 y se observa que en el caso de 36 de los miembros de la muestra, eJ volumen de pedidos de este mes es mayor que el del mismo mes del ano pasado. Halle el intervalo de confianza al 95 por ciento de la proporci6n poblacional de representantes de ventas que tienen un volumen de pedidos mayor. 20.62. Una empresa tiene tres subdivisiones, en las que hay un total de 970 directivos. Se toman muestras aleatarias independientes de directivos de cada subdivisi6n y se halla el numero de anos que lleva en la empresa cada miembro de las muestras. La tabla adjunta muestra los resultados. Subdivision 1 Subdivision 2 Subdivision 3 N; Hi Xi
Si
352 30 9,2 4,9
287 20 12,3 6,4
331 30 13,5 7,6
a) Halle el intervalo de confianza al 99 por ciento del numero medio de anos que lIevan en la empresa los directivos de la subdivisi6n 1. b) Halle el intervalo de confianza al 99 par ciento del numero medio de anos que llevan en la empresa todos los directivos. 20.63. De las 300 paginas de un libro, 180 son principalmente poco tecnicas, mientras que el resto es tecnico. Se toman muestras aleatorias independientes de paginas tecnicas y no tecnicas y se anota el numero de erratas par pagina. La tabla resume los resultados.
Otros temas relacionados con el muestreo
N;
"j x I· s·I
853
Ttknicas
No tecnicas
120 20 1,6 0,98
180 20 0,74 0,56
a) Halle el intervalo de confianza al 95 par ciento del numero medio de erratas por pagina de este !ibro. b) Halle el intervalo de confianza al 99 por ciento del numero total de erratas del libro. 20.64. En el analisis del ejercicio 20.63, se observa que 9 de las paginas tecnicas de la muestra y 15 de las paginas no tecnicas de la muestra no contienen ninguna errata. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todas las paginas de este Iibro que no contiene erratas. 20.65. Vuelva a los datos del ejercicio 20.62. Si se torna una muestra de un total de 80 directivos, averiglie cuantos miembros de la muestra pertenecerfan a la subdivisi6n 1 utilizando cada uno de los siguientes sistemas: a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las desviaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes. 20.66. Vuelva a los datos del ejercicio 20.63. Si se torna una muestra de un total de 40 paginas, averiglie cuantas paginas de la muestra sedan tecnicas utilizando cada uno de los siguientes sistemas: a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las desviaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes. 20.67. Se pretende tomar una muestra de los estudiantes de su universidad para conocer su opini6n sobre la cantidad de espacio que hay en la biblioteca. Se decide utilizar una mllestra estratificada por ano: estudiantes de primer ano, de segundo ano, etc. Analice los factores que se tendrfan en cuenta para decidir el numero de observaciones muestrales que deben tomarse ell cada estrato. 20.68. Un concesionario de automoviles tiene unas existencias de 328 autom6viles usados. Hay que estimar el numero medio de ki16metros de
854
Estadfstica para administraci6n y economfa
estos vehfculos. La experiencia dice que es probable que la desviacion tfpica poblacional sea de unos 12.000 kilometros. Si el intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 kilometros a cada lade de la media muestral, (,de que tamano debe ser la muestra si se emplea el muestreo aleatorio simple?
20.69. Debe tomarse una muestra aleatoria simple de 527 estudiantes de administracion de empresas de una universidad para estimar la proporcion que es partidaria de que se ponga mas enfasis en la etica empresarial en el programa de estudios. (,Cuantas observaciones son necesarias para garantizar que el intervalo de confianza al
95 par ciento de la proporcion poblacional tiene una amplitud maxima de 0,06 a cada lado de la proparcion muestral?
20.70. Suponga que la junta electoral debe ayudar a resolver un conflicto electoral entre dos candidatos (0 quiza una persona debe hacer de experto estadfstico en un juicio relacionado con el resultado de unas renidas elecciones). Son muchas las cuestiones que se plantean. (,Deben recontarse todos los votos de todas las circunscripciones? Si solo se recuentan los de algunas, (,c uales? Analice las ventajas y los inconvenientes de algunos disenos muestrales que podrfan utilizarse para seleccionar los votos que van a recontarse.
Bibl iografla l. 2.
3. 4. 5. 6. 7. 8.
Cochran, W. G., Sampling Techniques , Nueva York, Wiley, 1977, 3." ed. Cui nan, M. J., «Processing Unstructured Organizational Transactions: Mail Handling in the U.S. Senate», Organizational Science, 3, 1992, pags. 117-l37. Deming, W. E. , Sample Design in Business Research, Nueva York, Wiley, 1960. Hogg, Robert y Allen T. Craig, Introduction to Mathematical Statistics, Nueva York, Macmillan, 1977, 4.' ed. Kish, Leslie, Survey Sampling, Nueva York, Wiley, 1965. Levy, Paul S. y Stanley Lemeshow, Sampling of Populations: Methods and Applications, Nueva York, Wiley, 1991. Minitab for Windows Version 13, State College, PA, Minitab, Inc., 2000. Schaeffer, Richard L., William Mendenhall y Lyman Ott, Elementary Survey Sampling, Belmont, CA, Duxbury Press, 1996, 5." ed.