TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 6.1. Introducción 6.2. Conceptos básicos 6.3. Muestreo aleatorio simple 6.4. Distribuciones asociadas

Author: Alba Gil Casado

3 downloads 46 Views 545KB Size

Report

DOWNLOAD PDF

Recommend Stories

TEMA 5 Inferencia no paramétrica. Guía docente:

TEMA 5 Inferencia no paramétrica Guía docente: Pruebas estadísticas unidireccionales (una cola) y pruebas estadísticas bidireccionales (dos colas) An

Tema 2. Inferencia en poblaciones normales multivariantes

Inferencia

Tema 6: LA SORDOCEGUERA

Tema 6: LA SORDOCEGUERA “Una persona es sordociega cuando tiene un grado de deficiencia visual y auditiva grave que le ocasiona serios problemas en

TEMA 6.LA DESCRIPCIÓN

TEMA 6.LA DESCRIPCIÓN Adam (1997: 84) presenta el esquema prototípico de la secuencia descriptiva como “un repertorio de operaciones de construcción d

V. INFERENCIA ESTADÍSTICA

V. I NFERENCIA ESTADÍSTICA . V.1. Concepto de inferencia estadística. Es el procedimiento por medio del cual se llega a conclusiones acerca de una p

LA LÓGICA Y LA INFERENCIA

LA LÓGICA Y LA INFERENCIA Fernando Córdova Freyre Universidad de San Martín de Porres Ciclo Regular 2011-II Centro Preuniversitario Semana 09 fcordova

Tema 6.- La escalada deportiva

TEMA 6: LA SOCIEDAD LIMITADA

LA INFERENCIA SOCIAL EN EDUCACIÓN

ISSN 1988-6047 DEP. LEGAL: GR 2922/2007 Nº 40 – MARZO DE 2011 “LA INFERENCIA SOCIAL EN EDUCACIÓN” AUTORÍA ÁLVARO DÍAZ ORTIZ TEMÁTICA INFERENCIAS E

Story Transcript

TEMA 6. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 6.1. Introducción 6.2. Conceptos básicos 6.3. Muestreo aleatorio simple 6.4. Distribuciones asociadas al muestreo 6.4.1. Distribución Chi-Cuadrado 6.4.2. Distribución t de Student 6.4.3. Distribución F de Snedecor 6.5. Distribución de estadísticos muestrales 6.5.1. Concepto de estadístico y distribución muestral 6.5.2. Distribución de la media muestral de una población Normal 6.5.3. Distribución de la varianza muestral de una población Normal 6.5.4. Distribución de la diferencia de medias muestrales de dos poblaciones Normales independientes 6.5.5. Distribución del cociente de varianzas muestrales de dos poblaciones Normales independientes 6.5.6. Distribución de la proporción muestral 6.5.7. Distribución de la diferencia de proporciones muestrales 145

6.1. Introducción

Análisis Descriptivo Inferencia Estadística Cálculo de Probabilidades

Estimación

Describir

Población

Se extrae

Parámetros Poblacionales Características Estimación Contraste

Estadísticos

Muestra Genera

Contraste de Hipótesis

Datos numéricos

Utilizados para obtener

146

6.2 Conceptos básicos

¾ Población: “Conjunto de elementos en los que se

observa alguna característica común”

¾ Observaciones: “Valores que toma la característica

observada en cada elemento de la población”

¾ Parámetro: “Característica numérica que describe una

variable observada en la población”

¾ Muestra: “Conjunto de unidades representativas de

una población”

¾ Estadístico: “Función de los valores de la muestra”

147

La inferencia estadística esta basada en el

estudio de las muestras

La muestra debe ser representativa de la población para extraer conclusiones validas sobre esta población

La muestra debe ser aleatoria

148

6.3 Muestreo aleatorio simple

¾ “Cada elemento de la población tiene la misma

probabilidad de ser elegido para formar parte de la muestra y cada muestra del mismo tamaño tiene la misma probabilidad de ser seleccionada”

¾ Muestra aleatoria simple de tamaño n:

Sea una población donde observamos la variable aleatoria X. Una muestra aleatoria simple, m.a.s., de tamaño n, es un conjunto de n variables aleatorias X 1, X 2 ,..., X n , que verifican:

Independientes entre sí X1, X 2 ,K, X n  Cada Xi con idénticas características que X

149

Muestreo aleatorio simple

El muestreo aleatorio simple en poblaciones finitas se realiza “con reemplazamiento”, es decir: Se selecciona un elemento de la población al azar, se observa el valor de la variable aleatoria X, se devuelve a la población y se vuelve a seleccionar otro elemento. Así hasta obtener los n elementos. Este procedimiento garantiza la independencia de las observaciones

La selección aleatoria de los elementos se realiza con

una tabla de números aleatorios, procedimiento informático

o

con

algún

150

Pasos de un muestreo Población en la que se observa la variable X

Población

Se decide extraer una muestra aleatoria simple de tamaño n, compuesta por las variables aleatorias X1, X2,....,Xn Se seleccionan n elementos de la población

Muestra

Los elementos seleccionados generan n números

x1, x2,....,xn, valores observados de las variables aleatorias X1, X2,...,Xn

151

♦ Ejemplo en poblaciones finitas • En un instituto se quiere realizar un estudio sobre el nivel de colesterol de los alumnos. Para ello, se decide extraer una muestra aleatoria simple de tamaño 10 9 Población

Alumnos del instituto

9 Variable aleatoria, X

Nivel de colesterol

9 Muestra aleatoria simple, de tamaño 10

Variables aleatorias X1, X2,....,X10 X i , nivel de colesterol del i-ésimo alumno seleccionado

Se seleccionan 10 alumnos y sus niveles de colesterol son: 129, 170, 135, 140, 225, 163, 131, 203, 187, 149 9 Valores observados de las variables aleatorias

X1, X2,...., X10

x1 = 129 ;

x2 = 170 ; x3 = 135 ;

x6 = 163; x7 = 131;

x4 = 140 ; x5 = 225 ;

x8 = 203; x9 = 187 ; x10 = 149.

152

♦ Ejemplo en poblaciones infinitas • Se analizan muestras de agua de un río para estudiar el índice de diversidad de especies. Este índice se utiliza para medir el efecto de una perturbación, como la contaminación del agua, en seres vivos. Puede determinarse la diversidad de la población antes y después de la perturbación. Si el índice tras la perturbación es mucho mas pequeño indica que la perturbación ha tenido efectos negativos. Para esto, se decide extraer una muestra aleatoria simple de tamaño 8 9 Población

Posibles análisis del agua 9 Variable aleatoria, X Índice de diversidad 9 Muestra aleatoria simple

Variables aleatorias X1, X2,...., X8 Xi :”Índice de diversidad del i-ésimo análisis realizado”

Se realizan 8 análisis y sus índices de diversidad son: 1.92; 1.87; 1.35; 1.48; 2.13; 1.85; 2.07; 1.98 9 Valores observados de las variables aleatorias

X1, X2,...., X8 x1 = 1,92; x 2 = 1,87; x3 = 1,35; x 4 = 1, 48; x5 = 2,13; x 6 = 1,85, x 7 = 2,07; x8 = 1,98 153

6.4 Distribuciones asociadas al muestreo 6.4.1

Distribución Chi-Cuadrado

¾ Sean n variables aleatorias, X1, X2,....Xn, que verifican:

Independientes entre sí Xi N ( 0; 1 ) ¾ Definimos la variable aleatoria X como:

X = X 12 + X 22 + .... + X n2 La variable aleatoria X sigue una distribución Chi-

Cuadrado con n grados de libertad

χ n2

X

Distribución Chi-Cuadrado G. Libertad 10

0.12

0.08

f(x) 0.04

0 0

10

20

30

40

x 154

9 Esperanza matemática

2  E χn = n   9 Varianza

2  Var χ n = n   9 Para valores grandes de n, la distribución Chi-

Cuadrado se aproxima a la distribución Normal. La aproximación se considera aceptable para n > 30

Distribución Chi-Cuadrado G. Libertad 10 20 30

0.12

0.08

f(x) 0.04

0 0

20

40

60

80

155

6.4.2

Distribución t de Student

¾ Sean las variables aleatorias, Y y Z, que verifican:

Z

N ( 0; 1 )

Independientes

χ n2

Y

¾ Definimos la variable aleatoria X como:

Z

X=

Y

n

La variable aleatoria X sigue una distribución t de

Student con n grados de libertad

X → tn Contraste Distribuciones 0.4

Normal t-Student

f(x)

0.2

0 -6

-4

-2

0

2

4

6

156

9 Esperanza matemática

E  tn  = 0   9 Varianza

n   Var t n =   n−2 9 Para valores grandes de n, la distribución t de Student

se aproxima a la distribución Normal. La aproximación se considera aceptable para n > 30

Distribución t-Student G. Libertad 10 20 30

0.4 0.3

f(x) 0.2 0.1 0 -8

-4

0

4

8

157

6.4.3

Distribución F de Snedecor

¾ Sean las variables aleatorias, Y y W, que verifican:

χ n2

Y

Independientes

2 χm

W

¾ Definimos la variable aleatoria X como:

X=

Y W

n m

La variable aleatoria X sigue una distribución F de

Snedecor con n y m grados de libertad

Fn, m

X

Distribución F de Snedecor G. Libertad 10,10

0.8 0.6

f(x)

0.4 0.2 0 0

1

2

3

4

5

158

9 Para valores grandes de n y m, la distribución F de

Snedecor se aproxima a la distribución Normal.

Distribución F de Snedecor G. Libertad 5,10 10,20 30,30

1.2

0.8

f(x) 0.4

0 0

1

2

3

4

5

159

6.5 Distribución de estadísticos muestrales 6.5.1

Concepto de estadístico y distribución muestral

¾ Estadístico: “Una función de los valores de la

muestra”. Es una variable aleatoria, cuyos valores dependen de la muestra seleccionada. Su distribución de probabilidad, se conoce como “Distribución muestral del estadístico”

¾ Sea una población donde se observa la variable

aleatoria X. Esta variable X, tendrá una distribución de probabilidad, que puede ser conocida o desconocida, y ciertas características o parámetros poblacionales

Estadísticos muestrales

Inferencia

Parámetros poblacionales 160

¾ Sea una población donde se observa la variable aleatoria X

E [X ] = µ ;

Var [X ] = σ 2

¾ Consideramos una muestra aleatoria simple, m.a.s., de

tamaño n, formada por las v.a. X1, X2,....Xn

 Independie ntes entre sí  X 1 , X 2 ,K , X n  E [ X ] = µ  Var [X ] = σ 2  ¾ Definimos los siguientes estadísticos muestrales:

9 Media muestral:

X1 + X 2 + .... + X n X =

n

( i =1 n

9 Varianza muestral:

σˆ 2 =

∑ Xi − X 0

)

2

n

n

9 Cuasi-Varianza muestral:

∑ ( Xi − X

S 2 = i =1

)

2

n −1

161

¾ Consideramos todas las posibles muestras de tamaño n

Muestra 1

Muestra 2

Muestra j

X 11

X 12

X 1j

X.21

X 22

X.2j

X i1

X i2

X ij

X n1

X n2

X nj

. .

. . .

x1

. . .

. .

. . .

. . .

x2

xj K

K

La variable aleatoria X toma los valores:

x1 , x 2 ,.., x j ..

9 Su distribución de probabilidad

“Distribución de la media muestral”

µX

9 Esperanza matemática:

E  X  =

9 Varianza:

Var  X  = σ X2 162

¾ Los estadísticos muestrales, media, varianza y cuasi-

varianza verifican las siguientes propiedades: 9 Media muestral:

E  X  =

µX = µ

2 σ 2 Var  X  = σ X = n 9 Varianza muestral:

[ ]

E σˆ 2 =

n −1 2 σ n

9 Cuasivarianza muestral:

E S 2  = σ 2





Estas propiedades se verifican siempre, cualquiera

que sea la distribución de la variable X

163

♦ Ejemplo en poblaciones infinitas • Sea una v.a. X con valores: 1, 3, 5. Consideramos una m.a.s. de tamaño 2. Obtener: 1.- Media y varianza de la v.a. X 2.- Media y varianza de la v.a. X 1.-

X

P( X )

1

1/3

3

1/3

5

1/3

µ = E[X ]=3 8 σ = 3 2

1 1 1 9 µ = E [ X ] = 1× + 3 × + 5 × = = 3 3 3 3 3

σ 2 = E  X 2  − E [ X ] 2 =   1 1 1 8 = 12 × + 32 × + 52 × − 32 = 3 3 3 3

164

2.-

x1

x2

x

X

P( X )

1

1

1

1

1/9

1

3

2

2

1

5

3

2/9

3

1

2

3

3/9

3

3

3

4

2/9

3

5

4

5

1/9

5

1

3

5

3

4

5

5

5

E  X  = 3 = µ

4 8 3 σ2 Var  X  = = = 3 2 n

1 1 2   µ X = E  X  = 1 × + 2 × + ... + 5 × = 3 9 9 9 2

Var [ X ] = σ X

2 2   = E X − E  X  =  

1 1 2 4 2 2 = 1 × + ... + 5 × − 3 = 9

9

3 165

6.5.2.

Distribución de la media muestral de una población Normal

¾ Sea una población donde se observa la variable

aleatoria X . Supongamos que X

N ( µ, σ )

¾Consideramos una muestra aleatoria simple, m.a.s., de tamaño n, formada por las v.a., X 1 , X 2 ,..., X n X 1, X 2 ,..., X n

Independientes entre si Xi

N (µ, σ )

Distribución de la media muestral

♦ Caso A. Varianza poblacional, σ2 , conocida ♦ Caso B. Varianza poblacional, σ2 , desconocida ♦ Caso C. Varianza poblacional, σ2 , desconocida. Muestras grandes

166

Distribución de la media muestral

♦ Caso A. Varianza poblacional, σ2 , conocida La variable aleatoria media muestral:

1 n X = ∑ Xi n i =1

Tiene distribución Normal  σ  X → N  µ,  n  Por lo tanto

Z =

X −µ

σ

→

N ( 0; 1 )

n

167

♦ Caso B. Varianza poblacional, σ2 , desconocida X −µ T= S n

El estadístico T, definido como:

tiene una distribución t de Student con n – 1 g. l.

T=

X −µ → S n

tn − 1

♦ Caso C. Varianza poblacional, σ2 , desconocida. Muestras grandes, n > 30

El estadístico T, definido como:

tiene una distribución Normal, T

X −µ T= S n N(0; 1)

168

Teorema Central del Limite Sea X1, X 2 ,..., X n , una m.a.s., de tamaño n de una

población

con

distribución

de

probabilidad

no

especificada, con media µ y desviación típica σ La variable aleatoria Z, definida como:

Z=

X −µ

σ

n

tiene una distribución, aproximadamente, N ( 0, 1 ) 9 La aproximación es aceptable para n > 30

169

♦ Ejemplo: Distribución de la media muestral Varianza poblacional conocida • Se está estudiando el tiempo transcurrido entre la polinización y la fertilización, X, en una especie de coníferas. Supongamos que la variable X está normalmente distribuida con una media de 6 meses y una desviación típica de 2 meses. Consideramos una m.a.s. de tamaño 25. Obtener la probabilidad de que el tiempo medio transcurrido en la muestra entre la polinización y la fertilización sea como máximo de 6,3 meses

X :" Tiempo transcurrido" → N (µ ;σ ) = N (6 ;2 ) Z=

X −µ

σ

=

n

X −6 X −6 = → N ( 0; 1) 2 0.4 25

 X − 6 6.3 − 6   = P ( Z ≤ 0.75) = ≤ 0 . 4 0 . 4  

P ( X ≤ 6.3) = P 

= 1 − P ( Z ≥ 0.75) = 1 − 0.2266 = 0.7734

170

♦ Ejemplo: Distribución de la media muestral Varianza poblacional desconocida • Se está realizando un estudio sobre la calidad del aire en una zona. Uno de los indicadores de la calidad del aire es el número medio de microgramos de partículas en suspensión por metro cúbico. Supongamos que la variable X: ”Número de microgramos de partículas”, está normalmente distribuida. Se hacen 16 mediciones, en las que se obtiene una cuasidesviación típica de 10.8585 unidades. Obtener la probabilidad de que la media muestral no difiera de la media poblacional en más de 8 unidades.

X −µ X −µ X −µ T= = = → S 14 3.5 16 n

(

) (

tn − 1 = t15

)

P X − µ ≤ 8 = P −8 ≤ X − µ ≤ 8 =    −8 8   = P(− 2.947 ≤ t15 ≤ 2.947) = = P ≤ X −µ ≤ 10 . 8585 10 . 8585   16   16

= 1 − 2 P(t15 ≥ 2.947 ) = 1 − 2 × 0.005 = 1 − 0.01 = 0.99 171

2. Se hacen 36 mediciones en las que se obtiene una cuasidesviación típica de 12 unidades. Obtener la probabilidad de que la media muestral no difiera de la media poblacional en más de 5 unidades.

X −µ X −µ X −µ T= = = → t35 ≅ N (0; 1) 12 S 2 36 n

(

) (

)

P X − µ ≤ 5 = P −5 ≤ X − µ ≤ 5 = −5 X −5 5 = P ≤ ≤  = P(− 2.5 ≤ Z ≤ 2.5) = 2 2  2 = 1 − 2 × 0.00621 = 0.98758

172

♦ Ejemplo: Teorema central del límite • Supongamos que el nº de barriles de petróleo que produce un pozo al día es una v.a. con distribución no especificada. Si se observa la producción en 64 días y se sabe que la desviación típica del nº de barriles por día es 16, obtener la probabilidad de que la media muestral se encuentre a no más de 4 barriles del verdadero valor de la producción media diaria  X 2 : " Nº de barriles el día 2"    M  σ X = 16 i X i : " Nº de barriles el día i"   M  X 64 : " Nº de barriles el día 64" X1 : " Nº de barriles el día 1"

∑ Xi  σ  n = 64 > 30 ⇒ X = → N  µ;  n n 

16   X → N  µ;  = N (µ ; 2 ) 64  

173

σ  16    X → N µ;  = N µ;  = N ( µ ; 2) n 64   

Z=

X −µ

σ

n

X −µ = → N (0; 1) 2

P( X − µ ≤ 4 ) = P(− 4 ≤ X − µ ≤ 4) = − 4 X − µ 4 = P ≤ ≤  = P (− 2 ≤ Z ≤ 2 ) = 2 2  2 = 1 − 2 P(Z ≥ 2 ) = 1 − 2 × 0.0228 = 0.9544

174

6.5.3.

Distribución de la varianza muestral de una población Normal

¾ Sea una población donde se observa la variable

aleatoria X . Supongamos que X

N ( µ, σ )

¾Consideramos una muestra aleatoria simple, m.a.s., de tamaño n, formada por las v.a., X 1 , X 2 ,..., X n X 1, X 2 ,..., X n

Independientes entre si Xi

N (µ, σ )

Distribución de la varianza muestral

♦ Caso A. Media poblacional, µ , conocida (*)

♦ Caso B. Varianza poblacional, µ , desconocida

(*) Este caso no se incluye en los contenidos del curso 175

Distribución de la varianza muestral

♦ Media poblacional, µ, desconocida

El estadístico

χ 2, definido como:

χ2 =

nσˆ 2

σ2

( n − 1)S 2 = σ2

tiene una distribución Chi-Cuadrado con n – 1 grados de libertad

χ2 =

nσˆ 2

σ2

( n − 1)S 2 = → χ2 σ2

n −1

176

♦ Ejemplo: Distribución de la varianza muestral

• Se considera una medición física realizada con un instrumento de precisión, donde el interés se centra en la variabilidad de la lectura. Se sabe que la medición es una v.a. con distribución Normal y desviación típica 4 unidades. Se toma una m.a.s. de tamaño 25. Obtener la probabilidad de que el valor de la varianza muestral sea mayor de 12.16 unidades cuadradas.

X i : " Medición"→ N (µ ; 4) n = 25

χ2 =

(

nσˆ 2

σ2

( n − 1)S 2 = → χ2

n −1

σ2

)

2 n 12.16   n σ ˆ = P σˆ 2 ≥ 12.16 = P ≥ 2   σ2 σ  

(

)

25 × 12.16   2 2 = P χ n −1 ≥  = P χ n−1 ≥ 19 = 0.75 16   177

6.5.4. Distribución de la diferencia de medias muestrales de dos poblaciones Normales independientes

¾ Sean las variables aleatorias X e Y tales que

X

N ( µX , σ X )

Y

N ( µ Y , σY )

Independientes

Consideramos: m.a.s. de tamaño n X de X X1, X 2 ,..., X n

X , S X2

m.a.s. de tamaño n Y de Y

Y , S Y2

x

Y1, Y2 ,..., YnY

1 nX X= ∑ Xi n X i =1 1 nY Y= ∑ Yi nY i =1

S X2 =

1 nX 2 ∑ (X i − X ) n X − 1 i =1

SY2 =

1 nY 2 ∑ (Yi − Y ) nY − 1 i =1 178

Distribución de la diferencia de medias

♦ Caso A. Varianzas poblacionales conocidas ♦ Caso B. Varianzas poblacionales desconocidas, pero iguales

♦ Caso C. Varianzas poblacionales desconocidas, distintas o no, con n X, n Y > 30

179

Distribución de la diferencia de medias

♦ Caso A. Varianzas poblacionales conocidas La variable aleatoria, X − Y , tiene distribución Normal

 N  ( µ X − µ Y ),  

2  σY  + nX nY   2

σX

Por lo tanto

Z=

(X − Y ) − ( µX − µ Y ) σ X2 nX

+

→ N ( 0 ;1)

σ Y2 nY

180

♦ Caso B. Varianzas poblacionales desconocidas, pero iguales 2 2 σ X = σY El estadístico T, definido como:

X −Y ) − ( µX − µ Y ) ( T= 1 1 Sp + n X nY

donde:

S 2p =

( n X − 1 ) S X2 + ( n Y − 1) S 2Y nX + n Y − 2

tiene una distribución t de Student con n X + n Y − 2 grados de libertad

X − Y ) − ( µX − µ Y ) ( T= 1 1 Sp + n X nY

→ tn X + n Y − 2

181

♦ Caso C. Varianzas poblacionales desconocidas distintas o no, con n X, n Y > 30 El estadístico Z, definido como:

X −Y ) − ( µX − µ Y ) ( Z= S X2 S Y2 + n X nY

tiene distribución Normal

X −Y ) − ( µX − µ Y ) ( Z= S X2 S Y2 + n X nY

→ N ( 0;1 )

182

♦ Ejemplo: Distribución de la diferencia de medias Varianzas poblacionales conocidas • Los niveles de radiación latente en dos regiones A y B siguen distribuciones Normales independientes de medias 0.48 y 0.4663 y varianzas 0.2 y 0.01 rem por año, respectivamente. Se realizan 25 mediciones en la región A y 100 en la B. Obtener la probabilidad de que la media de la muestra A sea como máximo 0.2 rem superior a la media de la muestra B.

X : " Nivel radiación latente en A" Y : " Nivel radiación latente en B" X → N (0.48; 0.2 ); n X = 25 Y → N (0.4663; 0.01); nY = 100

X − Y − (µ X − µY ) Z= → N (0; 1) 2 σX

nX

+

σ Y2 nY

183

X − Y − (µ X − µY ) Z= → N (0; 1) 2 σX

nX

+

σ Y2 nY

P( X ≤ Y + 0.2 ) = P( X − Y ≤ 0.2 ) =      X − Y − (µ X − µY ) 0.2 − (µ X − µY )  = ≤ = P  2 2 2 2 σ σ σ σ  X + Y X + Y    n n n n X Y X Y   0.2 − 0.0137   = P Z ≤ = 0.008 + 0.0001   = P(Z ≤ 2.07 ) = 1 − P(Z ≥ 2.07 ) = = 1 − 0.0192 = 0.9808 184

♦ Ejemplo: Distribución de la diferencia de medias. Varianzas poblacionales desconocidas, pero iguales • Se está realizando un estudio sobre la calidad del aire en dos zonas A y B. Un indicador de la calidad es el número de microgr. de partículas en suspensión por m3 de aire, que suponemos siguen distribuciones Normales independientes de media 62.237 en A, 61.022 en B y varianzas iguales. En la zona A se realizan 12 mediciones, obteniéndose una cuasi-varianza de 8.44 microgr2 y en la B 15 mediciones, con una cuasi-varianza de 9.44 microgr2. Obtener la probabilidad de que la media muestral de A sea como mínimo tres unidades superior a la media muestral de B.

X : " Calidad del aire en A"; X → N (62.237; σ )

Y : " Calidad del aire en B"; Y → N (61.022; σ )

n X = 12; nY = 15;

s 2X = 8.44

sY2 = 9.44

185

X : " Calidad del aire en A"; X → N (62.237; σ )

Y : " Calidad del aire en B"; Y → N (61.022; σ )

n X = 12; nY = 15;

s 2X = 8.44

sY2 = 9.44

2 ( 2 ( ) ) − 1 + − 1 n S n S X Y Y =9 S 2p = X (n X + nY − 2)

P ( X − Y ≥ 3) =     X − Y − (µ X − µY ) 3 − (µ X − µY )   =P ≥ =  1 1 1 1  Sp + +  Sp  n n n n X Y X Y       3 1 . 015 −  = P(t25 ≥ 1.708) = 0.05 = P t25 ≥ 1 1   3 +   12 15  

186

♦ Ejemplo: Distribución de la diferencia de medias Varianzas poblacionales desconocidas. Muestras grandes • Se estudia el efecto de un vertido tóxico en un río, comparando el índice de biodiversidad I.B-D. antes y después del vertido. Supongamos que los I.B-D. siguen distribuciones Normales. Antes del vertido se habían realizado 35 pruebas y se obtuvo una media de 1.9 y una cuasidesviación típica de 0.4. Después del vertido se realizan 40 pruebas y se obtiene una media de 1.7 y una cuasidesviación típica de 0.7. Obtener la probabilidad de que la media poblacional antes del vertido sea como máximo 0.5 unidades inferior a la media poblacional después del vertido. X : " I.B - D antes del vertido"→ N (µ X ;σ X )

Y : " I.B - D después del vertido"→ N (µY ;σ Y )

n X = 35 ; X = 1.9 ; S X = 0.4 nY = 40 Y = 1.7 ; SY = 0.7 X − Y ) − ( µ X − µY ) ( Z= S 2X S Y2 + n X nY

→ N ( 0; 1)

187

X : " I.B - D antes del vertido"→ N (µ X ;σ X )

Y : " I.B - D después del vertido"→ N (µY ;σ Y )

n X = 35 ; X = 1.9 ; S X = 0.4 nY = 40 Y = 1.7 ; SY = 0.7

P( X − Y ≤ 0.2 ) =      X − Y − (µ X − µY ) 0.5 − (µ X − µY )  = = P ≤ 2 2 2 2  S X SY S X SY   + +  n X nY n X nY       0.5 − (1.9 − 1.7 )   = P Z ≤ = 2 2 0.4 0.7   +  35 40   = P(Z ≤ 2.313) = 1 − P(Z ≥ 2.313) = = 1 − 0.0104 = 0.9896 188

6.5.5. Distribución del cociente de varianzas

muestrales de dos poblaciones Normales independientes

¾ Sean las variables aleatorias X e Y tales que

X

N ( µX , σ X )

Y

N ( µ Y , σY )

Independientes

Consideramos: m.a.s. de tamaño n X de X X1, X 2 ,..., X n

X , S X2

m.a.s. de tamaño n Y de Y

Y , S Y2

x

Y1, Y2 ,..., YnY

n

1 X X = ∑ Xi nX i =1 n

1 Y Y= ∑ Yj nY j =1

S X2 =

nX

1 ∑ (X − X n X − 1 i =1 i

)2

n

Y 1 2 SY = (Y j − Y ) 2 ∑ n Y − 1 j =1

189

Distribución del cociente de

varianzas muestrales El estadístico F, definido como:

F=

S X2 σ X2 S Y2

σ Y2

=

S X2 × σ Y2 S Y2 × σ X2

tiene una distribución F de Snedecor con n X − 1, nY − 1 , grados de libertad

F=

S X2 × σ Y2 S Y2 × σ X2

→ Fn

X

, nY − 1

−1

190

♦ Ejemplo: Distribución del cociente de varianzas muestrales • Se está comparando la variabilidad de los I.B-D de dos ríos A y B, que suponemos siguen distribuciones Normales. Se realizan 16 mediciones en el río A y se obtiene una cuasi-varianza de 9.52, y 18 mediciones en el río B y se obtiene una cuasivarianza de 7. Obtener la probabilidad de que la varianza en el río B sea como mínimo el doble de la varianza en el río A. X : " I.B - D en el río A"→ N (µ X ;σ X )

Y : " I.B - D en el río B"→ N (µY ;σ Y )

F=

(

)

S X2 × σ Y2 S Y2 × σ X2

→ Fn

X

, nY − 1

−1

2  σ Y2   S X2 σ Y2 S 2 2 X P σ Y ≥ 2σ X = P ≥ 2  = P ≥2 σ 2   S 2σ 2 SY2  X   Y X

 =  

9.52   = P F15 ,17 ≥ 2 ×  = P (F15 ,17 ≥ 2.72 ) = 0.025 7  

191

6.5.6.

Distribución de la proporción muestral

¾ Consideramos una variable aleatoria X

B ( n ; p ), donde “p” es la proporción de “éxitos” en la población ¾ Para tamaños grandes de n, n > 30, la distribución Binomial se aproxima a una distribución Normal :

X → N (np ; npq )

Definimos el estadístico proporción muestral como:

X pˆ = n

192

Distribución de la proporción muestral

El estadístico proporción muestral :

X pˆ = n Verifica que:

 pq  pˆ → N p;  n  Por lo tanto:

Z=

pˆ − p → N (0; 1) pq n

193

♦ Ejemplo: Distribución de la proporción muestral • Se quiere probar una terapia de grupo para dejar de fumar. Para ello se toma una m.a.s. de 50 fumadores. Se sabe que las personas que llevan al menos 10 años fumando tienen más dificultades para dejar de fumar, y que el 38% de los fumadores llevan al menos 10 años fumando. Por ello, se decide separar unos de otros si entre los fumadores elegidos más de un 19% llevan más de 10 años fumando. Obtener la probabilidad de que se decida separarlos.

p : " Proporción de fumadores con ≥ 10 años, en la población pˆ : " Proporción de fumadores con ≥ 10 años, en la muestra  pˆ → N  p ; 

 0.38 × 0.62  pq   = N  0.38 ;  = N (0.38 ; 0.068) 50 n    Z=

pˆ − p pˆ − 0.38 = → N (0 ; 1) pq 0.068 n

 pˆ − 0.38 0.19 − 0.38  P ( pˆ ≥ 0.19 ) = P ≥  = P(Z ≥ −2.769 ) = 0.0686   0.0686

= 1 − P ( Z ≤ −2.769 ) = 1 − P ( Z ≥ 2.769 ) = 1 − 0.0028 = 0.9972 194

6.5.7.

Distribución de la diferencia de proporciones muestrales

¾ Sean las variables aleatorias X e Y tales que

X → B(n X ; p X )  Independientes Y → B(nY ; pY )  Para n X y n Y grandes, se verifica:

X Y

( N ( n Y pY ;

N n X pX ;

nX p X q X

nY p Y q Y

)

)

Definimos las proporciones muestrales como:

X pˆ X = nX pˆ Y =

Y nY 195

Distribución de la diferencia de proporciones muestrales

Definimos el estadístico diferencia de proporciones

muestrales:

ˆp X

−

ˆp Y ;

X   pˆ X = n X  pˆ X - pˆ Y ; donde :   Y  pˆ Y = nY 

Se verifica que:

Z=

( pˆ X

− pˆ Y ) − ( p X − pY ) → N (0; 1) p X q X pY qY + nX nY

196

♦ Ejemplo: Distribución de la diferencia de proporciones muestrales • Se sabe que en una población el 28% de las mujeres y el 25% de los hombres son fumadores. Se extraen muestras de 42 mujeres y 40 hombres. Determinar la probabilidad de que las mujeres fumadoras superen a los hombres fumadores en al menos el 4%. pX: “Proporción de mujeres fumadoras en la población pY: “Proporción de mujeres fumadoras en la población pˆ X :“Proporción de mujeres fumadoras en la muestra pˆ Y : “Proporción de mujeres fumadoras en la muestra

( pˆ X − pˆY ) − ( pX − pY ) ( pˆ X − pˆY ) −(0.28− 0.25) Z= = pX qX pY qY + nX nY

( pˆ X =

0.28×0.72 0.25×0.75 + 42 40

− pˆ Y ) − 0.03 → N (0 ; 1) 0.0974

P( pˆ X ≥ pˆ Y + 0.04 ) = P( pˆ X − pˆ Y ≥ 0.04 ) =  ( pˆ − pˆ Y ) − 0.03 0.04 − 0.03  = P X ≥ = 0.0974 0.0974   0.04 − 0.03   = P Z ≥  = P(Z ≥ 0.0103) = 0.4602 0.974   197