Story Transcript
Teoría de la decisión Estadística
Conceptos básicos
Unidad 7. Estimación de parámetros . Criterios para la estimación . Mínimos cuadrados. Regresión lineal simple . Ley de correlación . Intervalos de confianza . Distribuciones: t-student y chi cuadrado Unidad 8. Pruebas de hipótesis . Formulación general . Distribución de varianza conocida . Prueba para la bondad del ajuste . Validación de modelos GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
1
Teoría de la decisión Estadística
Estimación de parámetros
Objeto: inferir los valores de estadísticos descriptivos de una población a partir de una muestra. Parámetro: atributo descriptivo de una población. Comúnmente; la media, la varianza y la desviación típica. Estadístico: atributo medido sobre la distribución muestral
Puntuales: medidas discretas de los estadísticos por Intervalos: medidas continuas, se define un intervalo en el cual se estima con cierta probabilidad que el parámetro en estudio se encuentra. Comúnmente: intervalos de confianza 1-α = coeficiente de confianza y expresa la probabilidad que el valor del parámetro para la población esté dentro del intervalo especificado (L, U) GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
2
Teoría de la decisión Estadística
Estimación de parámetros
Ciertos criterios deben ser aplicados para considerar adecuado un estimador: Ausencia de sesgo: el estimador será insesgado si su esperanza matemática es igual al valor del parámetro. Consistencia: será consistente si la esperanza del estimador tiende al valor del parámetro y su varianza tiende a cero cuando el tamaño de la muestra tiende a infinito
Eficiencia: un estimador de un parámetro será más eficiente que otro si se cumple que su varianza con respecto al parámetro sea menor que la del segundo Suficiencia: un estimador será suficiente si resume toda la información relevante de la muestra para estimarlo y no hay otro estimador que ofrezca mejor o más información
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
3
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Caso I: conocida la desviación estándar poblacional
1. Distribución normal en la muestra. 2. Escala z ¿cuál es la puntuación correspondiente al nivel de confianza? 3. Trasladar a la escala x
95% 2,5%
3
2,5%
2
2
3
Escala z
Si N => 30 y no se conoce µ, trabajar con la desviación muestral S, en reemplazo de σ GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
4
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Tabla de valores zc para varios niveles de confianza Nivel de 99,73% 99,00% 98,00% 96,00% 95,45% 95,00% 90,00% 80,00% 68,27% 50,00% confianza
Zc
3,00
2,58
GB Alfredo A. Carneiro Campos
2,33
2,05
2,00
1,96
Teoría de la Decisión
1,65
1,28
1,00
UNEFA ZULIA
0,57
5
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Caso II: desconocida la desviación estándar poblacional
1. Técnica de estimación para muestras pequeñas (N < 30)
2. Usar la varianza muestral S 2 y la aproximación será con la distribución t de student con 1 grado de libertad: S
X tn 1
N
3. Análogamente al anterior a partir de
X obtenemos S N
S S P X tn 1 X tn 1 1 N N donde 1-α es el nivel de confianza
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
6
Teoría de la decisión Estadística
GB Alfredo A. Carneiro Campos
Estimación de parámetros Valores críticos de t
Teoría de la Decisión
UNEFA ZULIA
7
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Ejercicio 1.- De un total de 200 calificaciones de matemáticas se tomó una muestra aleatoria (sin reemplazo) de tamaño 50. En esta muestra se observó una media de 75 y una desviación típica de 10. (a)¿cuáles son los límites de confianza de 95% para la estimación de la media de las 200 calificaciones? (b)¿con qué grado de confianza se puede decir que la media de las 200 calificaciones es de 75 ± 1? 1.- Se observa que el tamaño de la población no es muy grande con respecto a la muestra, y además el muestreo es sin reposición, por tanto es necesario introducir la corrección poblacional
Np N N p 1
200 50 0,868 200 1
2.- El tamaño de la muestra es mayor a 30; por tanto podemos usar la desviación típica muestral (S) como un buen estimador de la desviación típica poblacional (σ) 3.- Establecido el contexto, podemos trabajar bajo el esquema del caso I:
X zc X
donde X
S N
Np N N p 1
y del nivel de confianza del 95% se infiere zc = 1,96.
así;
X 1,96 X 75 1,96
GB Alfredo A. Carneiro Campos
10 0,868 75 2,4 :intervalo de confianza para µ (a) 50 Teoría de la Decisión
UNEFA ZULIA
8
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
En la segunda cuestión se requiere establecer el grado de confianza dado unos límites; así:
X zc X X zc
S 0,868 75 zc 1,23 1,23zc 1 zc 0,81 N
Buscamos en la tabla de la distribución normal cual es el área que corresponde a zc = 0,81 y se obtiene 0,2910; el doble de esta área: 2*0,2910 será el nivel de confianza asociado a los límites 75±1, por tanto
58,2 % Una conclusión interesante y estadísticamente significativa, es la observación que mientras menor la desviación aspirada del parámetro con respecto a la estimación, menor será el intervalo de confianza; asunto que ya trabajamos en clase, o, dicho de otra manera; menor la probabilidad que la estimación represente al parámetro en un conjunto de muestras.
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
9
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Ejercicio 2.- El administrador de un cadena de tiendas desea determinar la cantidad promedio que gastan Las personas usando la tarjeta de crédito de la tienda. El registro de clientes tarjetahabientes muestra un Total de 10.000 clientes; de ellos selecciona una muestra aleatoria de 25 clientes; resultando en un promedio De gasto de Bs. 75,0 con una desviación típica de Bs. 20. ¿cuál será una estimación razonable para la media y la desviación típica de la población?
1.- Fijamos como aceptable un grado de confianza del 95%. Esto quiere decir que las colas de nuestra distribución serán de tamaño 0,025; es decir (5/2) %. Eso es porque la distribución t es simétrica. 2.- El valor crítico de t (el equivalente a z en la dist. normal) lo hallamos en la tabla de la distribución t; Intersectando en la columna de los α/2 correspondiente a 0,025 con la fila correspondiente a 24 24 grados de libertad (N-1); y el resultado es tN-1 = 2,064. 3.- Así:
S 20 75 2,064. 75 8,256 N 25 P Bs. 66,74 Bs. 83,26 0,95
X tn 1
Estadísticamente significa que si se seleccionaran todas las posibles muestras de tamaño 25; el 95% de Los intervalos desarrollados incluirían a la media poblacional en algún lugar dentro del intervalo.
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
10
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Ejercicio 4.- Una empresa tiene 5.000 árboles navideños maduros y listos para cortar. En forma aleatoria se seleccionan 100 de estos árboles y se miden sus alturas; los resultados se expresan en la tabla. Si cada árbol se vende a razón de Bs. 15 por cada 5 cmts. de altura; calcular el valor del inventario de árboles con un margen de confianza, (i) de 95%; (ii) de 99% y (iii) de 90%.
Tabla de alturas en la muestra 142,24
154,94
160,02
86,36
119,38
88,90
111,76
127,00
160,02
149,86
177,80
154,94
134,62
165,10
182,88
139,70
180,34
144,78
190,50
190,50
134,62
121,92
139,70
170,18
152,40
152,40
185,42
187,96
109,22
121,92
180,34
134,62
198,12
149,86
142,24
160,02
121,92
165,10
129,54
144,78
185,42
157,48
203,20
134,62
162,56
111,76
170,18
114,30
121,92
124,46
127,00
144,78
182,88
139,70
142,24
157,48
182,88
144,78
149,86
157,48
116,84
154,94
132,08
116,84
182,88
142,24
116,84
121,92
144,78
132,08
137,16
185,42
180,34
177,80
167,64
170,18
147,32
180,34
190,50
127,00
111,76
149,86
142,24
137,16
160,02
109,22
172,72
176,23
139,70
160,02
121,92
124,46
177,80
152,40
170,18
119,38
124,46
175,26
167,64
185,42
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
11
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
(1) Contexto del problema:
. ¿cómo será la distribución?. Siendo un fenómeno natural (al igual que las de las personas) podemos suponer que las alturas de los árboles se distribuyen normalmente, y en
consecuencia la distribución de la muestra también lo será. . Por otra parte el tamaño de la muestra la ubica dentro de la clasificación de
muestra grande, en consecuencia; (a) no hará falta la corrección poblacional; (b) podemos calcular la distribución utilizando las puntuaciones z (a pesar de la relación entre el tamaño de la muestra y el de la población); y (c) La media muestral (
) y la desviación típica muestral (S) pueden ser utilizadas para el
cálculo de la estimación sin que ello signifique un error apreciable en la estimación del valor del parámetro.
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
12
Teoría de la decisión Estadística Media muestral: Desviación típica (S):
(i)
Estimación de la media Intervalo de confianza
149,82 25,60
Como el nivel de confianza es del 95% se define zc = 1,96 y el valor se calcula como: S 25,6 149,82 1,96 149,82 5,02 95% de confianza 144,80 154,84 N 100 Bs. (1) 144,80 cmts. * 3,00 * 5.000,00 Bs. 2.172.000,00 cmts Bs. ( 2) 154,84 cmts. * 3,00 * 5.000,00 Bs. 2.322.600,00 cmts. X 1,96
(ii)
para el nivel de confianza del 99% se define zc = 2,58 y el valor se calcula como: S 25,6 149,82 2,58 149,82 6,61 99% de confianza 143,21 156,43 N 100 Bs. (1) 143,21 cmts. * 3,00 * 5.000,00 Bs. 2.148.150,00 cmts Bs. ( 2) 156,43 cmts. * 3,00 * 5.000,00 Bs. 2.346.450,00 cmts. X 2,58
(iii) para el nivel de confianza del 99% se define zc = 1,645 y el valor se calcula como: S 25,6 149,82 1,645 149,82 4,21 90% de confianza 145,61 154,03 N 100 Bs. (1) 145,61 cmts. * 3,00 * 5.000,00 Bs. 2.184.150,00 cmts Bs. ( 2) 154,03 cmts. * 3,00 * 5.000,00 Bs. 2.314.500,00 cmts. GB Alfredo A. Carneiro Campos UNEFA ZULIA Teoría de la Decisión X 1,645
13
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Ejercicio 5.- Para el ejercicio 4 ¿cuál sería el margen de confianza para un estimado de la media poblacional de µ ± 2,5?
149,82 zc
S S 149,82 2,5 zc 2,5 zc 2,95 2,5 zc 0,85 N N
En la tabla se obtiene el valor del área correspondiente: 0,3023
Como la distribución es simétrica P=2*0,3023 = 60,26
Así el margen de confianza es del 60,26 %
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
14
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
Ejercicio 6.- Para el ejercicio 4 suponga una muestra de tamaño 25, según la tabla. Calcule los mismos intervalos de confianza, 95, 99 y 90.
Contexto: (1) Cae dentro de supuesto de muestras muy pequeñas En relación a la población. (2) Se utilizará la distribución t de student para calcular El intervalo de confianza, utilizando distribución y media muestral.
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
Tabla de alturas en la muestra 185,42
170,18
124,46
170,18
198,12
177,80
144,78
167,64
127,00
121,92
144,78
177,80
139,70
138,70
185,42
187,96
86,36
160,02
154,94
134,62
116,84
185,42
137,16
190,50
160,02
Media muestral:
155,09
Desviación típica (S):
27,48
UNEFA ZULIA
15
Teoría de la decisión Estadística
Estimación de la media Intervalo de confianza
S 27,48 155,09 2,06 155,09 11,32 5 25 Bs. Bs. P143,77cmts. * 15.000 166,41cmts. * 15.000 0,95 cmts. cmts. P Bs.2.156.550,00 Bs.2.496.150,00 0,95
(1) Con 95% => área de la cola: 0,025 tn 1 2,06 X tn 1
S 27,48 155,09 2,80 155,09 15,39 5 25 Bs. Bs. P139,70cmts. * 15.000 170,48cmts. * 15.000 0,99 cmts. cmts. P Bs.2.095.500,00 Bs.2.557.200,00 0,99
(2) Con 99% => área de la cola: 0,005 tn 1 2,80 X tn 1
(3) Con 90% => área de la cola: 0,05
GB Alfredo A. Carneiro Campos
S 27,48 155,09 1,71 155,09 9,40 5 25 Bs. Bs. P145,69cmts. * 15.000 164,49cmts. * 15.000 0,9 cmts. cmts. P Bs.2.185.350,00 Bs.2.467.350,00 0,9
tn 1 1,71 X tn 1
Teoría de la Decisión
UNEFA ZULIA
16
Teoría de la decisión Estadística
Estimación de la desv. típ. Intervalo de confianza
Chi cuadrado para varios grados de libertad N
2
Ns 2
2
( X i 1
i
X)
2
Grados de libertad (v) se define como el tamaño (N) de la muestra menos la cantidad (k) de parámetros a estimar. En el caso de este estadístico, como se debe estimar σ; k=1
IC
Si consideramos:
2 pa
Ns 2
2
2 pb
s N
pb
s N
pa
v
Obsérvese que para ≥ 30 la distribución adquiere una conformación normal con la aproximación
p2
a valores críticos b GB Alfredo A. Carneiro Campos
Teoría de la Decisión
2 1 z p 2 1 2
UNEFA ZULIA
17
Teoría de la decisión Estadística V=5
Estimación de la desv. típ. Intervalo de confianza α1 = 0,025
α = 0,05 α2 = 0,025
a
02,95 11,1 α = 0,1
a
b
α = 0,05, asumimos igual tamaño
02,025 0,831 02,975 12,8 α1 = 0,1 α2 = 0,05
a
a
02,1 1,61 GB Alfredo A. Carneiro Campos
b
02,1 1,61 02,975 12,8 Teoría de la Decisión
UNEFA ZULIA
18
Teoría de la decisión Estadística
Estimación de la desv. típ. Intervalo de confianza
Ejercicio nº 1.- De una población de 1.000 alumnos se ha tomado aleatoriamente una muestra de diez y seis, en la cual se ha observado que la desviación típica de las alturas es de 6 cmts. Encontrar el intervalo de confianza del 95% para σ. 1. Grados de libertad = N-k = 16-1 = 15
2. Se determinan los valores críticos: α = 0,05 a partir de aquí se determinan: 02,025
02,975
en la tabla se obtiene: 6,26 en la tabla se obtiene: 27,5
3. Se aplica la función:
s N
0,975
RESULTADO:
GB Alfredo A. Carneiro Campos
s N
0,025
6cmts 16 6cmts 16 4,577 9,592 27,5 6,26
P( 4,6 9,6) 0,95 Teoría de la Decisión
UNEFA ZULIA
19
Teoría de la decisión Estadística
Estimación de la desv. típ. Intervalo de confianza
Ejercicio nº 2.- La desviación típica de una muestra de 200 bombillos es de 100 horas. Encontrar el intervalo de confianza del 95% para σ de la producción total..
v
se observa que es mayor que 30 grados de libertad, por tanto se puede aprovechar La aproximación a la distribución normal 1. Se determinan los valores críticos: α = 0,05 a partir de aquí se determinan: Z0,95 en la tabla de distribución normal se obtiene: +1,96 y -1,96 1 2
1 2
02,975 ( z0,975 2(199) 1)2 0,5(1,96 19,925)2 239,5 02,025 ( z0,025 2(199) 1)2 0,5( 1,96 19,925)2 161,37
2. Se aplica la función: s N
0,975
RESULTADO GB Alfredo A. Carneiro Campos
s N
0,025
100hs 200 100hs 200 91,4 hs 111,33 hs 239,5 161,37
P(91,4 hs 111,3 hs ) 0,95 Teoría de la Decisión
UNEFA ZULIA
20
Teoría de la decisión Estadística Problema:
Estimación del tamaño de la muestra para la media
¿Cuánto margen de error es razonable aceptar al estimar? ¿cuál su relación con el intervalo de confianza en la estimación de la media?
Si conocemos σ o tenemos una buena estimación de ella;
GB Alfredo A. Carneiro Campos
Teoría de la Decisión
UNEFA ZULIA
21