Story Transcript
1 TEMA 1 : NOCIONES GENERALES SOBRE MUESTREO ESTADÍSTICO * Objetivo del Muestreo Estadístico: estudio de los métodos para la obtención de subconjuntos representativos de la población. Necesidad e importancia. * Conceptos básicos: POBLACIÓN Muestreo Estadístico muestra Población: conjunto de individuos de la misma naturaleza sobre el que pretendemos realizar determinada investigación. Muestra: subconjunto convenientemente seleccionado (representativo) de la población. Variable o carácter estudio: la variable (caso cuantitativo) o carácter (caso cualitativo) que pretendemos estudiar en la población. Exhaustivo ( Aplicado a toda la población. Muy caro. A veces imposible ) Estudio Muestreo ( Se elige una muestra. Es lo que suele hacerse ) Intencional ( Nada riguroso, pero se usa mucho ) No probabilístico Sin Norma ( Cuando la composición es muy uniforme ) Con reemplazamiento (el individuo se devuelve a la población )
MUESTREO Probabilístico
Sin reemplazamiento ( no se devuelve ) El Muestreo Probabilístico es el que debemos utilizar, por ser el riguroso y científico. En él todos los individuos de la población tienen una probabilidad positiva de formar parte de la muestra y será posible aplicar los conocimientos de cálculo de probabilidades para la obtención de los errores cometidos. Existen varias posibilidades (diseños muestrales) de obtención de una muestra. Los principales Esquemas o Técnicas de Selección Muestral Probabilística son: - Muestreo Aleatorio Simple - Muestreo Estratificado Aleatorio (Pueden pedirte que elijas cuál de los dos conviene aplicar en un caso concreto, o que elijas la muestra ). - Muestreo Aleatorio Simple: Se hace numerando a los individuos y seleccionándolos después valiéndose de números aleatorios generados por ordenador. Todos los individuos de la población tienen la misma probabilidad de salir. - Muestreo Estratificado Aleatorio: Se usa cuando en la población hay subpoblaciones (estratos) que es preciso estén representadas en la muestra. El muestreo aleatorio simple no lo garantiza. Se llama Estratificación al proceso de definir los estratos atendiendo a los fines del estudio. Para determinar los estratos, el criterio a seguir es formarlos de manera que los individuos de un mismo estrato resulten lo más homogéneos posible (en relación a la variable o carácter estudio), y que los de distintos estratos resulten lo más heterogéneos posible. POBLACIÓN Ni = nº de miembros del estrato Ei. N1 +N2 +... + Nk = N ( total de miembros de la población ) N1 E1 N2
E2
n1 n 2
... Ek
muestra
Nk
...
nk
n1+ n2+ ... + nk = n
( total de elementos de la muestra )
Cuando conozcamos el número de elementos que hemos de seleccionar dentro de cada estrato, la selección se realiza por el diseño aleatorio simple ( de ahí el nombre de estratificado aleatorio). Concepto de Afijación : el reparto del tamaño muestral n entre los k estratos. Tipos de Afijación : a) Igual ( todos los ni iguales ): ni = n / k , i =1,2,...,k. b) Proporcional ( cada ni es proporcional al Ni ): ni = Ni · n / N , i = 1, ...,k.
2 OTROS tipos de Muestreo Probabilístico: - M. por Conglomerados: muchas veces será imposible disponer del listado de la población (si la población está constituída por árboles o animales). En tales casos se consideran conjuntos de elementos (conglomerados) en la población, y se procede a la selección de una muestra aleatoria de conglomerados. Se estudia la variable o carácter estudio en los elementos de los conglomerados seleccionados. A la hora de formar los conglomerados, la idea ha de ser la contraria que en la formación de estratos : los conglomerados deben ser muy homogéneos entre sí y debe existir la máxima heterogeneidad posible dentro de cada conglomerado. Ejemplos: granjas si son cabezas de ganado, parcelas si son encinas..). - M. Sistemático: si N/n = k, siendo k un número natural, entonces podríamos formar con los N elementos de la población n grupos con k elementos por grupo. El muestreo sistemático obtiene la muestra de n elementos eligiendo al azar el primer elemento entre 1 y k, y los restantes n-1 de forma sistemática sumando al elemento seleccionado k, 2k, 3k, ... , (n-1)k. (Sacar de forma aleatoria el primer individuo, y los demás en función de él. Ej: sorteo para servicio militar). TEMA 2 : INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA Planteamiento general del problema de la Inferencia Estadística: La Estadística Descriptiva obtiene conclusiones que valen sólo para el conjunto de individuos estudiado. La Inferencia Estadística es el conjunto de métodos que permiten formular en términos probabilísticos un juicio sobre una población, a partir de los resultados observados en una muestra tomada al azar. POBLACIÓN 1º paso
muestra Inferencia Estadística
2º paso Dentro de la metodología de la Inferencia Estadística existen dos tipos fundamentales de métodos o procedimientos, que es importantísimo saber distinguir: Puntual Procedimientos de Estimación (una estimación sobre un parámetro de interés) Intervalos de confianza Inferencia Estadística Procedimientos de Contraste ( o Test ) de Hipótesis (una pregunta sobre el valor de un parámetro) - Procedimientos de Estimación Puntual: su objetivo es proporcionar, a partir de la información recogida en la muestra, valores aproximados razonables de parámetros ( medias, varianzas, proporciones...) que nos interesa conocer en la población. - Procedimientos de Estimación por Intervalos de Confianza: proporcionan, a partir de la información recogida en la muestra, un intervalo que contenga, con una alta probabilidad (nivel de confianza), al parámetro objeto de nuestro interés. A partir de dicho intervalo obtendremos una medida del error máximo cometido cuando aproximamos puntualmente el parámetro. - Procedimientos de Contraste ( o Test ) de Hipótesis: proporcionan, a partir de la información recogida en la muestra o muestras, métodos para decidir cuál de dos posibles hipótesis aceptamos, en relación a cierta cuestión planteada sobre el parámetro o parámetros de interés en la población o poblaciones objeto de investigación. Ejemplos de Test de Hipótesis : Χ (variable cuantitativa) µ (media) “Sospecho” que µ toma un valor concreto µ° ¿ es realmente µ = µ° ó es µ ≠ µ° ?
C (var. cualitativa) p (proporción) “Sospecho” que p es mayor o igual que po ¿ es realmente p ≥ po ó es p < po ?
3 Población 1 X
Población 2 X
Población 1 C
µ2
µ1
¿ µ1 = µ2
ó
p1
µ1 ≠ µ2 ? (Test Hipót.)
Población 2 C p2
¿ p1 ≤ p2 ó p1>p2 ? (Test Hipót.)
¿ µ1 - µ2 ? (sería un problema de Estimac.)
¿ p1 - p2 ? (Probl. de Estimac.)
TEMA 3 : NOCIONES GENERALES SOBRE ESTIMACIÓN El objetivo fundamental de la Estimación Estadística será estudiar métodos para obtener buenos valores aproximados de los parámetros de interés en la población y acompañarlos con una medida de los errores máximos cometidos con objeto de saber hasta qué punto son fiables las aproximaciones obtenidas). Para ello sólo utiliza la información suministrada por las muestras. * Conceptos básicos : - Estimador: la función que utilizamos sobre la muestra para aproximar (estimar) el parámetro de interés. - Estimación: los valores que nos proporciona el estimador (cada muestra obtenida nos proporcionará una estimación). Ejempl : Deseo saber el tiempo medio que dedica diariamente al estudio de las Matemáticas un alunmo de este instituto. Saco una muestra de 30 alumnos y calculo para ellos la media ( media muestral ). Sale 17’3 minutos. A partir de aquí estimo que la media de la población es de 17’3 minutos. Para estimar la media poblacional he usado como estimador la media muestral, y ha salido una estimación de 17’3 minutos. - Error en la estimación: es la distancia entre el verdadero valor del parámetro objeto de estudio y la estimación proporcionada por el correspondiente estimador. Lo ideal sería que el error fuese nulo, pero eso no será posible dado que la estimación está calculada con una información parcial (la proporcionada por la muestra) y no con la información total. Uno de los objetivos de la Estimación Estadística será tratar de conseguir que dicho error sea lo menor posible. Cuando damos una estimación de un parámetro poblacional, interesa acotar el error máximo que podamos cometer. * Objetivos de la teoría de estimación: - Valores aproximados de parámetros poblacionales . - Cálculo de errores máximos cometidos con las estimaciones puntuales . X (variable cuantitativa)
C (var. cualitativa) n
µ (media poblacional)
n p (proporción poblac.)
σ2 (varianza)
* Estimación puntual de parámetros de interés en Ciencias Sociales : Esencialmente son tres los parámetros de interés en una investigación : la media poblacional (como medida informativa de la centralización) y la varianza poblacional (como medida informativa de la dispersión), en caso de estar investigando una variable en la población ; y la proporción de pertenecer a determinada categoría específica, cuando el interés se centra en estudiar cierto carácter cualitativo en la población. Para tales parámetros consideraremos los siguientes estimadores :
4 PARÁMETRO MEJOR ESTIMADOR (el que da menor error en cada caso ) ( Caso cuantitativo : supongamos la muestra de datos x1, x2, ... , xn ) n
∑x
i
media poblacional
µ
x=
Media Muestral
i =1
n
n
∑ (x
i
varianza poblacional σ2
2 s =
Cuasi-varianza Muestral
− x)
2
i =1
n −1
( Caso cualitativo ) proporción poblac. p
Proporción Muestral
p
Nota: estimador centrado es el que tiene la buena propiedad de que el valor medio de sus estimaciones coincide con el verdadero valor del parámetro que se quiere estimar. Los estimadores propuestos más arriba tienen esa buena propiedad, por eso son los más apropiados. * Estimación por intervalos de confianza: Obtiene los errores máximos. En vez de obtener un valor puntual, obtenemos un intervalo de forma que haya alta probabilidad de que el verdadero valor del parámetro se encuentre en dicho intervalo. Decimos alta probabilidad y no 100% de probabilidad, pues para garantizar una probabilidad del 100% tendría que coger un intervalo tan amplio que dejaría de ser operativo (no serviría). En las Ciencias Sociales lo corriente es pedir una probabilidad del 95%. Consideremos, por ejemplo, el parámetro µ (media poblacional). Diremos que un intervalo ( L1, L2 ) es un inervalo de confianza para µ al 95% si la probabilidad de que µ se encuentre realmente en ( L1, L2 ) es del 95%, es decir, si Pr [ L1 < µ < L2 ] = 0’95 Ejemplo: Si decimos que el intervalo ( 6’1 , 7’6 ) es un intervalo de confianza para la media al 95%, que remos decir con ello que hay un 95% de probabilidad de que la media poblacional µ se encuentre comprendida entre 6’1 y 7’6. Se llama nivel de confianza de un intervalo a la probabilidad de que el verdadero valor del parámetro (el de la población ) se encuentre en dicho intervalo. En el ejemplo anterior diríamos que el intervalo de confianza para la media ( 6’1 , 7’6 ) tiene un nivel de confianza del 95%. Intervalo: ( L1, L2 ) Nivel de confianza: 1–α, con α ∈ (0,1) , mide la probabilidad que se tiene de que la media poblacional pertenezca al intervalo de confianza ; expresado en porcentaje sería 100· ( 1 – α ) %. Si la confianza es 1 – α, el valor α da una medida del riesgo que asumimos (α se llama nivel de significación ). Pr ( L1 < µ < L2 ) = 1 – α
Los valores más usuales :
α = 0’1
1 – α = 0’90
(1 – α )·100 = 90%
t α = 1’645
α = 0’05
1 – α = 0’95
(1 – α )·100 = 95%
t α = 1’96
α = 0’01
1 – α = 0’99
(1 – α )·100 = 99%
t α = 2’576
Estos valores, y otros que se pudieran necesitar, están en la “tabla” final
5 INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL N = tamaño de la POBLACIÓN n = tamaño de la muestra X (var. cuantitativa) x (media muestral) s2 (varianza en la muestra) µ (media poblac.) Denotemos por µ la media de cierta variable X que deseamos investigar en la población. Apoyándonos en la muestra genérica x1, x2, ... , xn , se trata de obtener un intervalo que incluya a µ con un nivel de confianza 1 – α. Supondremos muestras de tamaño n superior a 30 y obtendremos el intervalo de confianza para la media poblacional bajo la hipótesis de que la variable X sigue un modelo N( µ , σ ) o bien, caso de que X no siga dicho modelo, que el tamaño muestral n es superior a 100 ( estas condiciones se darán en los problemas de selectividad ) : X
N(µ,σ)
X
N(
)
y
n > 30
pero
n > 100
, o bien
En las condiciones anteriores, el intervalo de confianza para µ es :
s s x - tα ⋅ , x + tα ⋅ n n x - tα ⋅
s
x + tα ⋅
x
n
s n
donde : x es la media muestral n es el tamaño de la muestra s es la desviación típica ( tomaremos la de la muestra si la de la población fuera desconocida ) ( α = 0’10 ) tα = 1’645 si el nivel de confianza es 90% tα = 1’96
si el nivel de confianza es
95%
( α = 0’05 )
tα = 2’576
si el nivel de confianza es
99%
( α = 0’01 )
Si la muestra fuera “grande”, habría que introducir el factor de corrección :
N−n N
Se entiende que una muestra es GRANDE si es de al menos un 7% de la población ( una muestra de un 10% sería grande ). Si en un problema no dan el tamaño de la población, ignoramos este asunto, pero si lo dan , habría que comparar con él el tamaño de la muestra, pues si se alcanza el 7% diríamos que la muestra es “grande”, y habría que introducir el “factor de corrección”. En tal caso, el intervalo de confianza para la media poblacional quedaría así :
x - tα ⋅ N - n ⋅ s N n
, x + tα ⋅
N - n s ⋅ N n
6 INTERVALO DE CONFIANZA PARA LA PROPORCIÓN POBLACIONAL N = tamaño POBLACIÓN n = tamaño muestra C (var. cualitativa) p (prop. muestral) p (prop. poblacional.) Condiciones que deben cumplirse ( garantizan que la aproximación a la Normal será válida ) : n·p > 5
o bien (se cumplirán en Selectividad)
n(1– p ) > 5 La expresión del intervalo de confianza depende del tamaño de la muestra : si
30 < n ≤ 100
pˆ ± tα ⋅ 1 4n
si
n > 100
pˆ (1- ˆp) pˆ ± tα ⋅ n
p – ...
p
p + ...
Para muestras “grandes”, habría que introducir (multiplicando y en el mismo lugar que dijimos antes) el siguiente factor de corrección:
N−n N −1 ERROR MÁXIMO COMETIDO CON LAS ESTIMACIONES PUNTUALES Es lo más interesante, pues es lo que íbamos persiguiendo. Para la media El caso más desfavorable que podríamos encontrarnos sería que la media (poblacional) estuviera fuera del intervalo que dimos antes. Pero si estuviera dentro, el caso más desfavorable sería que estuviera en un extremo del intervalo. Por tanto el ERROR MÁXIMO es la semilongitud del intervalo :
x - tα ⋅
s n
x
x + tα ⋅
s n
e max = tα ⋅
s n
Para la proporción Razonando de igual forma se tiene :
e max = tα ⋅
e max = tα
1 4n pˆ (1- ˆp) n
si
si
30 < n ≤ 100
n > 100
7 * Problema de la determinación del tamaño muestral n : Consiste en determinar el tamaño de muestra necesario para garantizar, con un nivel de confianza 1 – α, la estimación del parámetro objeto de estudio con un error máximo inferior o igual a cierto valor concreto ε. Media :
tα
s ≤ε n
2
⇒
2
tα ⋅ s ≤n ε2
( s se estima a través de una muestra piloto )
Proporción: el mismo planteamiento con la expresión correspondiente del error ( p se estima a través de una muestra piloto ). TEMA 4 : NOCIONES GENERALES SOBRE TEORÍA DE TESTS DE HIPÓTESIS * Objetivos: a partir de la información muestral, el test o contraste de hipótesis nos permite elegir entre dos hipótesis complementarias relativas a cierto parámetro poblacional, la que es más aceptable ( menos rechazable ) desde el punto de vista estadístico. * Conceptos básicos : - Hipótesis Nula ( H0 ) e Hipótesis Alternativa ( H1 ). En CCSS es corriente colocar en H1 aquello que se está interesado en probar ( lo que se “sospecha” cierto ). - El contraste de hipótesis es bilateral cuando en la hipótesis alternativa no marcamos un sentido ( es decir, aparece el signo ≠ ) y es unilateral cuando marcamos un sentido ( aparece < ó > ). - Tipos de Errores : Error Tipo I y Error Tipo II. Al aplicar un test de hipótesis, acabamos eligiendo una de las dos hipótesis. Podemos entonces cometer sólo uno de estos dos errores , y es importante distinguirlos bien : Error Tipo I : consiste en rechazar H0 cuando lo realmente cierto es H0 . Error Tipo II : consiste en aceptar H0 siendo falsa. - Nivel de significación α. Es la probabilidad de cometer un error Tipo I ( la probabilidad de estar equivocados si, tras efectuar el test, aceptamos la hipótesis alternativa ). La fijamos nosotros, poniendo valores pequeños ( 0’01 ó 0’05 ). Interesa “ controlar “ el Error Tipo I y el valor de n ( y dejar de “controlar” el Error Tipo II, ya que no pueden controlarse los tres valores). APLICACIÓN DEL TEST: En la práctica se reduce a obtener dos valores, uno llamado valor experimental ( Vexp ó t exp ) , que se obtiene de la información suministrada por la muestra o muestras y otro denominado valor teórico (Vteórico ó Vα ó tα ) , que buscaremos en la tabla de determinada distribución de probabilidad en función del nivel de significación α. Comparando ambos valores se concluye con la aceptación o la no aceptación de la hipótesis alternativa según indicamos a continuación : Partimos de : X Caso estudiado : µ (media poblacional)
n x (media muestral) s (desv. típica muestral)
X X
N[ N[
] ]
y n > 30 ó pero n > 100
Nos darán un “valor conocido” µo Planteamos dos Hipótesis : Hipótesis Nula ( H0 ) : Hipótesis Alternativa ( H1 ) :
µ = µ0 µ ≠ µ0
Nos hablarán de un nivel de significación α ( α = 0’01 ó α = 0’05 ). Nos preguntarán si para ese nivel de significación del 1% (α = 0’01 ) ó del 5% (α = 0’05 ) podríamos rechazar la hipótesis H0 .
8 Lo que tenemos que hacer: Tenemos que calcular un “ Valor Experimental “ y un “ Valor Teórico “:
Vexp = texp =
x − µo s n
Vteórico = tα ( 1’645 si α = 0’10 , 1’96 si α = 0’05 ; 2’576 si α = 0’01 u otro valor que obtendremos usando la tabla que nos dan en el examen, si α no es ninguno de estos tres) Por último hay que aplicar la siguiente Regla de decisión: Si
Vexp > Vteórico
Podemos rechazar H0 ( hemos podido “demostrar” H1 ) con un riesgo de Error Tipo I igual a α.
Si
Vexp ≤ Vteórico
Podemos aceptar H0
( no hemos podido “demostrar” H1 ).
Importante : aceptar H0 no quiere decir que realmente se cumpla µ = µo .Sólo significa que, desde un punto de vista estadístico, no hay motivos razonables para concluir que dicha igualdad sea falsa. PROBLEMAS 1) Una muestra aleatoria de 100 alumnos que se presentan a Selectividad revela que la media de edad es de 18’1 años. Halla un intervalo de confianza del 95% para la media de la edad de todos los estudiantes que se presentan a Selectividad sabiendo que la desviación típica de la población es 0’4. 2) Un fabricante de bombillas sabe que la desviación típica de la duración de las bombillas es de 100 horas. Calcula el tamaño de la muestra que se ha de someter a prueba para tener una confianza del 95% de que el error de la duración media que se calcule sea menor que 10 horas. 3) En una muestra de 145 personas mayores de 65 años se ha encontrado que el nivel medio de colesterol es de x = 240 mg / 100 ml, con desviación típica sx = 45 mg / 100 ml . Con un nivel de confianza del 95% , ¿ podemos admitir que la media de la población general es de 226 mg / 100 ml ?. 4) A 150 alumnos seleccionados aleatoriamente en determinada región se les preguntó si utilizaban la biblioteca de su instituto para la preparación de sus exámenes. El número de respuestas afirmativas fue de 60. A partir de dicha información : a) Estimar el porcentaje de alumnos de esa región que utilizan para la preparación de sus exámenes la biblioteca de su instituto. b) Obtener el error máximo cometido con dicha estimación para un nivel de confianza del 99%. 5) A una muestra de 169 deportistas seleccionados aleatoriamente en cierta población se les preguntó cuánto tiempo dedicaban diariamente a su entrenamiento. Como resumen de la información recogida, se obtuvo un tiempo medio de 4’3 horas y una desviación típica de 1’5 horas. Para un nivel de significación del 1% ( α = 0’01 ), ¿ podríamos rechazar la hipótesis de que el tiempo medio al día que dedica un deportista de dicha población a su entrenamiento es de 4 horas ?.