Story Transcript
Distribuciones de probabilidad 1. Variable aleatoria Una variable aleatoria X es una función que asocia a cada elemento del espacio muestral E un número real: X: E ÷ ú Ejemplo: Consideremos el experimento aleatorio consistente en lanzar 3 monedas al aire. Podemos definir la variable aleatoria X=”número de caras obtenido”. Esta variable toma los valores del conjunto{0,1,2,3}. Se trata de una variable aleatoria discreta porque su recorrido es un número finito de valores. Cuando el recorrido está formado por los infinitos números reales de un intervalo hablaremos de variable aleatoria continua.
2. Distribución de probabilidad discreta Una variable aleatoria adquiere todo su significado cuando se asigna a cada valor de la variable la probabilidad de que se verifique al realizar el experimento.
2.1 Función de probabilidad La función de probabilidad de una variable aleatoria discreta es aquella que hace corresponder a cada valor de la variable su probabilidad: X ÷ [0, 1] xi ÷ pi donde pi es la probabilidad de que la variable aleatoria tome el valor xi : p( X= xi ) = pi Ejercicio Halla la función de probabilidad de la variable aleatoria X=”Número de caras obtenido al lanzar 3 monedas al aire”. Solución: p(X=0)=1/8
p(X=1)=3/8
p(X=2)=3/8
p(X=3)=1/8
2.2 Distribución binomial Es la más importante de las distribuciones de probabilidad discretas. Corresponde a la realización de un experimento que cumpla las condiciones siguientes:
# Únicamente se observa si se cumple un suceso, A (éxito), o si, por el contrario, no se cumple A (fracaso). # La probabilidad del suceso A es constante, es decir, no varía al repetir el experimento. Si p(A) = p entonces p( A ) = 1- p = q La variable aleatoria que expresa el número de éxitos obtenidos en cada realización del experimento recibe el nombre de variable de la distribución binomial. Si se realizan n pruebas del experimento hablaremos de una binomial de parámetros n y p: B( n, p)
1
Función de probabilidad La función de probabilidad de una distribución binomial B( n, p) viene dada por la expresión:
p( k exitos) = p( X = k ) =
( ). p n k
k
. q n− k
Ejercicio Cuatro de cada diez trabajadores de una determinada empresa son mujeres. Si elegimos 8 personas de esa empresa al azar, calcula la probabilidad de que sean: a) 3 mujeres. b) más de 5 mujeres. c) al menos 2 mujeres. Solución: Sea A el suceso A=” Elegir una mujer”. Es claro que p(A) = 0,4 = p y que p( A ) = 0,6 = q La variable aleatorria X=”Número de mujeres elegidas” es una binomial B(8, 0,4). Por tanto: a) p(X=3)=
( ) . 0,4 8 3
3
.0,65
8 6 6 b) p(X>5)= p(X=6) + p(X=7) + p(X=8)= ( 6 ) .0,4 . 0,6 +
c) p(X$2)= 1- p(X30 se usa en su lugar la cuasivarianza s 2 = σ 2 .
)
n n− 1
7
Ejercicio Un psicólogo escolar ha estudiado que el tiempo de reacción de 1º de Primaria se distribuye normalmente. Con una muestra de 100 alumnos, la media de tiempo de reacción fue de 45 segundos y la desviación típica de 0,04 segundos. Halla un intervalo de confianza para la media de tiempos de reacción al nivel de confianza de: a) 90% b) 95% c) Interpretar los resultados
(
Solución: IC = x − zα / 2 .σ / n , x + zα / 2 .σ / n
)
Sabemos que se trata de una normal N( 45, 0,04). Por tanto x = 45 y σ = 0,04 a) Calculemos z"/2 para un nivel de confianza del 90%: Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las “colas” es 0,05. Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95 En las tablas encontramos: p(Z#1,64)=0,9495 p(Z#1,65)=0,9505 El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645
0,04 0,04 El intervalo de confianza será: 45 − 1,645. , 45 + 1,645. = (44,993,45,007) 100 100 El tiempo de reacción está entre 44,993 y 45,007 con una confianza del 90% o lo que es lo mismo, este intervalo cubre el valor de la media con una probabilidad de 0,9. b) Para calcular z"/2 para un nivel de confianza del 95% se procede de forma análoga obteniendo z"/2 =1,96
0,04 0,04 El intervalo de confianza será 45 − 1,96 . , 45 + 1,96. = (44,992, 45,008) 100 100 c) Cuanto mayor es el nivel de confianza, mayor es la amplitud del intervalo, con lo que aumenta el margen de error.
1.4 Tamaño de la muestra. Error de estimación. Hasta ahora, conocido el tamaño de la muestra se calculaba el intervalo de confianza correspondiente. Se podría plantear la pregunta a la inversa:¿cuál debe ser el tamaño de la muestra para tener una confianza determinada. El error máximo vendrá determinado por la amplitud del intervalo de confianza, es decir: σ E = ± zα / 2 • n Ejercicio 1 En un determinado barrio se seleccionó al azar una muestra de 100 personas cuya media de ingresos mensuales era de 600 i, con una desviación típica de 120 i. 8
a) Si se toma un nivel de confianza del 95 %, ¿cuál es el intervalo de confianza para la media de los ingresos mensuales de toda la población?. b) Si se toma un nivel de confianza del 99 %, ¿cuál es el tamaño muestral necesario para estimar la media de ingresos mensuales con un error menor a 18 i ?. Solución a) Se trata de una normal N(600, 120) Sabemos ya que a un nivel de confianza del 95% le corresponde z"/2 =1,96. 120 120 El intervalo de confianza será IC= 600 − 1,96 • , 600 + 1,96 • = (576,48 , 623,52 ) 100 100 b) A un nivel de confianza de 99 % le corresponde z"/2 =2,575 120 . 2,575 σ 120 ⇒ 18 = 2,575 • ⇒ n= = 17,17 ⇒ n = ± 294,69 El error es E = ± zα / 2 • 18 n n Por tanto se necesita una muestra de 295 personas. Ejercicio 2 Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que fabrica sigue una distribución normal de media desconocida y varianza 3600. Con una muestra de su proucción, elegida al azar, y un nivel de confianza del 95% ha obtenido para la media el intervalo de confianza (372,6 392,2). a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado. b) ¿Cuál será el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un nivel de confianza del 86,9%?. Solución a) Un intervalo de confianza para la media tiene la forma ( x − zα / 2 .σ / n , x + zα / 2 .σ / n ) A un nivel de confianza del 95% le corresponde un z"/2 =1,96. Igualando con el intervalo dado tenemos: 60 x − 1,96 • = 372,6 n Sumando las ecuaciones obtenemos 2 x =764,8 , x =382,4 60 x + 1,96 • = 392,2 n Sustituyendo el valor de x en, por ejemplo la primera ecuación: 382,4 − 1,96 •
60 = 372,6 ⇒ n = 144 n
El tamaño muestral utilizado es 144. σ b) E = ± zα / 2 • n Si el nivel de confianza es de un 86,9%, el intervalo abarca un área de 1- "=0,869; fuera de él deberá haber un área de 0,131 ; el área de cada una de las “colas” es 0,0655.Se trata de buscar el valor de k tal que p(Z$k)=0,0655 , esto es, p(Z#k)=0,9345En las tablas encontramos: p(Z#1,64)=0,9345 60 = ± 6,04 Por tanto z"/2 =1,51 y el error E = ± 1,51 • 15 9
Ejercicio 3 Las alturas, expresadas en cm, de los estudiantes de segundo de bachiller se distribuyen normalmente con una desviación típica de 20 cm. En un colectivo de 500 estudiante de segundo de bachiller se ha obtenido una media de 160 cm. a) Calcula, con una probabilidad del 98%, entre qué valores estará la media de la altura de la población total de estudiantes de segundo de bachiller, b) Interpreta el resultado del intervalo obtenido. Solución: a) Nos piden un intervalo de confianza para la media. Su forma es ( x − zα / 2 .σ / n , x + zα / 2 .σ / n ) A una probabilidad del 98% le corresponde un z"/2 =2,33. El intervalo de confianza será b) En el 98% de las posibles 160 − 2,33 • 20 ,160 + 2,33 • 20 = (157,16, 162,08 ) 500 500 muestral, la media de la altura de la población está entre 157,16 cm y 162,08 cm.
Inferencia estadística 1 Hipótesis estadística Cuando en un estudio estadístico queremos determinar si una población cumple una determinada característica, previamente debemos plantear un test estadístico que será el procedimiento que nos permitirá evaluar, a partir de una muestra, si una determinada hipótesis formulada sobre una característica de la población se verifica o no. Una vez concluido el test podemos considerar la hipótesis que, en principio, admitimos como válida, y que llamaremos hipótesis nula, H0 y una hipótesis contraria a ésta, que denominaremos hipótesis alternativa, H1, que es la que admitiremos como válida si nos vemos obligados a rechazar la hipótesis H0.
2 Contraste de hipótesis Es un procedimiento del que depende la decisión de aceptar o rechazar la hipótesis nula y esta aceptación o rechazo dependerá, a su vez, de cuál sea la discrepancia entre la hipótesis y la información muestral que tengamos. Si la discrepancia es menor que un determinado valor que consideramos aceptable, la hipótesis se dará por cierta; este valor se llama valor de significación y se representa por ". Es evidente que una hipótesis estadística no se puede aceptar o rechazar con una certeza del 100%, sino que se define un nivel crítico para ", que nos marcará los límites para aceptar o rechazar la hipótesis nula. Así, por ejemplo, si el nivel de significación es "= 0,05, rechazaremos como improbables el 5% de los casos extremos; por esta razón, en ocasiones, también se dice que estamos trabajando con un nivel de confianza del 95%. Nosotros trabajaremos con hipótesis nulas relativas a la media. Los valores de la media que nos lleven a aceptar la hipótesis nula H0, forman la región de aceptación, y los que nos conducen a rechazarla, constituyen la región de rechazo.
3 Fases del contraste de hipótesis Para efectuar un contraste de hipótesis debemos seguir los pasos siguientes: 10
• Se debe enunciar la hipótesis nula y la alternativa. • Se extrae una muestra de tamaño n y se calcula en ella el valor del parámetro estadístico que se desea encontrar. • Se elige el nivel de significación con el que se quieren tomar las decisiones; generalmente los niveles de significación son "= 0,10; "= 0,05 y "= 0,01. • A continuación se construye la zona de aceptación de la hipótesis, es decir, los intervalos característicos, fuera de los cuales se encuentra el porcentaje de "A100% de casos que queremos rechazar. • Si el valor del parámetro muestral se encuentra dentro de la zona de aceptación, se acepta la hipótesis con un nivel de significación ". En caso contrario, se rechaza.
4 Contraste de hipótesis para la media Se inicia el contraste definiendo la hipótesis nula y la alternativa. En el momento de definir la hipótesis nula, ésta se puede plantear en términos de igualdad o de desigualdad: H0: µ o bien H0: µ ≥ µ 0 o µ ≤ µ 0 En el primer caso es un contraste bilateral, o de dos colas, y los otros dos, contrastes unilaterales o de una cola.
Contraste bilateral
Contrate unilateral
Contraste unilateral
4.1 Contraste bilateral
Ya hemos visto que las medias muestrales se distribuyen de la forma N µ ,
aceptación para esta distribución será: µ 0 − zα / 2 •
σ . El intervalo de n
σ σ ≤ µ ≤ µ 0 + zα / 2 • n n
Si el valor de la media x , se encuentra en ese intervalo, se aceptará la hipótesis nula; en caso contrario, se rechazará.
Ejercicio 1 Se quiere estimar la media de la nómina mensual que reciben los directivos de las compañías multinacionales que operan en Europa. 11
a) Si la varianza de la nómina en la población es de 1000 i, ¿cuál es la varianza de la media muestral cuando el tamaño de la muestra es de 100?. b) Si en las condiciones del apartado anterior, la media muestral es de 4008 i, ¿se rechazaría, con un nivel de confianza del 95%, la hipótesis de que la nómina media es de 4000 i?. Solución: La varianza es F2= 1000. Por tanto la desviación típica de la población es σ = 1000 . La desviación típica de la media muestral es es
(
10
)
2
σ 1000 = = 10 . Por tanto, la varianza de la media muestral 100 n
= 10
b) Se trata de una hipótesis bilateral para la media: H0: := 4000 H1: : ≠ 4000 A un nivel de confianza del 95% corresponde un z"/2= 1,96 La zona de aceptación tiene la forma: σ σ , µ 0 + zα / 2 • µ 0 − zα / 2 • = 4000 − 1,96 • 10 , 4000 + 1,96 • 10 = (3993,8, 4006,2) n n
(
)
Se rechaza la hipótesis de que la nómina media es de 4000 i con un nivel de confianza de 0,95 ya que x = 4008ó (3996,8, 4006,2).
Ejercicio 2 El peso medio de una muestra aleatoria de 100 naranjas de una determinada variedad es de 272 g. Se sabe que la desviación típica poblacional es de 20 g. A un nivel de significación de 0,05, ¿hay suficiente evidencia para refutar la afirmación de que el peso medio poblacional es de 275 d?. Solución: Se trata de un test de hipótesis bilateral para la media: H0: := 275 H1: : ≠ 275 La zona de aceptación de la hipótesis nula, H0,es:
σ σ 20 20 , µ 0 + zα / 2 • = 275 − 1,96 • , 275 + 1,96 • = (271,08, 278,92) µ 0 − zα / 2 • 10 10 n n Como x = 272 0(271,08, 278,92), no hay suficiente evidencia para rechazar la hipótesis nula.
4.2 Contraste unilateral Se plantea cuando la hipótesis nula es de la forma: H0: µ ≥ µ 0 o µ ≤ µ 0 El contraste unilateral ha de verificar que el área correspondiente a la región de aceptación esté toda hacia un lado de la distribución, de modo que la región rechazable quede totalmente al otro lado. Si la región de aceptación ha de ser 1- ", la región de rechazo vendrá determinada por el valor de z"/2.
12
µ ≥ µ0
µ ≤ µ0 σ En el primer caso el intervalo de aceptación será − ∞ , µ 0 + zα • n
σ y en el segundo µ 0 − zα • ,+ ∞ n Ejercicio En los últimos años el consumo familiar diaria de cierta ciudad en electricidad (en Kw) seguía una Normal de media 6,3 y desviación típica 1,2. Sin embargo, desde hace unos meses las tarifas eléctricas han experimentado varias reducciones, y se piensa que esto ha podido repercutir en un aumento del consumo. Recientemente, para una muestra de 47 familias se ha obtenido un consumo medio diario de 6,8. Suponiendo que el consumo sigue siendo aproximadamente Normal y que la desviación típica se ha mantenido: a) Plantea en test para contrastar que el abaratamiento de las tarifas no ha influido en el consumo, frente a que ha tenido la repercusión que se piensa, como parecen indicar los datos. Si se concluyera que la media de consumo se ha mantenido y realmente subió, ¿cómo se llama al error cometido?. b) ¿A qué conclusión se llega en el test planteado en el apartado anterior con un nivel de significación del 1%?. Solución: a) Se trata de plantear un test de hipótesis unilateral para la media: H0: µ ≤ 6,3 H1: µ > 6,3 Si se concluye que la media del consumo se ha mantenido cuando realmente subió, se está aceptando que la hipótesis nula es verdadera cuando realmente es falsa. Se comete un error de tipo II según la tabla: H0 cierta
H0 falsa
Aceptamos H0
No hay error
Error de tipo II
Aceptamos H1
Error de tipo I
No hay error
b) A un nivel de significación "= 0,1 le corresponde un z"= 2,33
13
σ La zona de aceptación tiene la forma − ∞ , µ 0 + zα • n
En este caso la zona de aceptación es − ∞ , 6,3 + 2,33 •
1,2 = ( − ∞ , 6,7) 47
Como 6,8 ó (− ∞ , 6,7), se rechaza la hipótesis, es decir, el abaratamiento de las tarifas ha repercutido en un aumento del consumo, con un nivel de significación del 1%.
14