A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muestras B.TABLAS DE CONTINGENCIA
Marta Alperin Profesora Adjunta de Estadística 2014
[email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica
2 A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado
•Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en intervalos, se ajusta a una cierta distribución teórica.
•Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas. Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias esperadas. H0: fo=fe H1: fo≠fe 2 ( fo fe ) c2 fe i 1 k
•Estadístico de prueba
•Prueba de hipótesis La hipótesis nula se acepta
( , ) 2 c
Tabla Chi cuadrado
k n parámetros estimados 1
fo: frecuencia observada fe: frecuencia esperada k: número de categorías
•Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población cuya distribución es la del modelo contrastado con una confianza α.
Número de parámetros estimados Modelo Binomial, se estima “p” Modelo Poisson, se estima “λ” Modelo Normal, se estima “μ y σ” Modelo Uniforme no se estima ningún parámetro
Para evitar errores calcular las frecuencias esperadas con 4 decimales y 2 con 3 decimales.
Restricciones: •Los datos deben ser frecuencias •Las categorías deben ser mutuamente excluyentes •El test da resultados falsos si se aplica a datos que son porcentajes o proporciones de ocurrencias de estas categorías mutuamente excluyentes.
•Las categorías no deben ser muchas. •La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la frecuencia esperada se >5.
Ejemplo DISTRIBUCIÓN POISSON DISTRIBUCIÓN AL AZAR
s2 1 X
DISTRIBUCIÓN REGULAR
DISTRIBUCIÓN CONTAGIOSA
s2 1 X
s2 1 X
Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1 km2 y se contó el número de meteoritos presentes en cada cuadricula. N° meteoritos por cuadricula 0 1 2 3 4 5 6 7 8
Frecuencia observada
p (Poisson)
Frecuencia esperada (pxn)
10 14 9 23 65 74 5 0 0
0,0226 0,0847 0,1611 0,2044 0,1944 0,1479 0,0938 0,0509 0,0406
4,4 16,9 32,2 40,9 38,9 29,6 18,8 10,2 8,1
¿Los meteoritos se distribuyen al azar? H0: fo=fe H1: fo≠fe =0,05 =8-1-1=6 χ2(6; 0,05)=12,59 ( fo fe ) 2 fe i 1 k
2 c
c2 137,20
137,20>12,59; se rechaza H0 Los meteoritos no se distribuyen al azar
Chi cuadrado
0,1125 16,7155 7,8340 17,5118 66,6000 10,1298 10,2000 8,1000
e x P( x) x!
m n m=n° meteoritos=761 n=n° cuadriculas=200 X
X 3,805
s2=2,17
((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125
¿Los meteoritos están agrupados o se distribuyen unifomemente? s2 s2 =0,05; /2=0,025 H 0 : 1; H a : 1 s 2 2,17 0 , 57 X X =n-1=200-1=199 X 3,805 2 s t(199; 0,025)=-1,960 1 2 S est t n1 X n 1 2,17 S est 1 3 , 805 2 t 2001 4,297 S est 0,100 0,1 200 1 -1,960>-4,297; se rechaza H0 La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.
Ejemplo PRUEBA DE NORMALIDAD Para comercializar la merluza se necesita investigar si el largo del cuerpo se ajusta a un modelo normal. Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y se recuperan 300 peces. Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5
Marca de clase (x) 38 43 48 53 58 63
X 49,5
S=5
Frecuencia Observada
Intervalo
Z sup
7 54 120 84 31 4
Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5
-1,8 -0,8 0,2 1,2 2,2 infinito
Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139
Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17
Se desconocen y Se estiman con X yS
N=300
Recordemos El área del intervalo (40,5 - 45,5) viene dada por: p((z Zsup.) - p((z Zinf.) siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8 (Zinf.) = (40,5 – 49,5) / 5 = -1,8
Z
xi X S
p(z -0,8) – p(z -1,8) = 0,4641 – 0,2881 = 0,1760 El Zsup. de un intervalo será el Zinf. del siguiente intervalo. El primer intervalo tiene siempre como Zinf. menos infinito (-∞) El último como Zsup. más infinito (+∞).
Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).
H0: el largo de la merluza está normalmente distribuido. H1: el largo de la merluza no se distribuye normalmente
H0: fo=fe H1: fo≠fe =0,05
Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5
Marca de clase (x) 38 43 48 53 58 63
Frecuencia Observada
Intervalo
Z sup
7 54 120 84 31 4
Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5
-1,8 -0,8 0,2 1,2 2,2 infinito
Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139
Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17
Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta que todos los intervalos tengan fe 5. 2 ( fo fe ) c2 fe i 1 k
k
c2 i 1
fo 2 N fe
72 54 2 352 300 2,8645 ... 34,53 10,7 52,8 2 c
k n parámetros estimados 1 = 5 -2 -1 = 2 2(2;0,05)=5,99
2,86 < 5,99 Como el valor de 2c no supera el 2 crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H0 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.
A.
PRUEBAS
DE BONDAD DE AJUSTE:
2. Método “G” de Fisher
k
G 2 i 1
fo fo ln fe
El estadístico G sigue la misma distribución que 2 c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas
Ejemplo del largo de la merluza
G 2(7 ln
7 52 4 54 ln ... 4 ln 3,06 10,77 52,8 4,17
Grados de libertad 6 -3 =3 2 (3; 0,05) = 7,81 3,06