A.
PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords
B.TABLAS DE CONTINGENCIA
Marta Alperin Profesora Adjunta de Estadística
[email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica
2 A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado
•Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en intervalos, sigue una cierta distribución teórica.
•Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas. Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias esperadas. H0: fo=fe H1: fo≠fe 2 ( fo fe ) c2 fe i 1 k
•Estadístico de prueba
•Prueba de hipótesis La hipótesis nula se acepta
( , ) 2 c
Tabla Chi cuadrado
k n parámetros estimados 1
fo: frecuencia observada fe: frecuencia esperada k: número de categorías
•Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población cuya distribución es la del modelo contrastado con una confianza α.
Número de parámetros estimados Modelo Binomial, se estima “p” Modelo Poisson, se estima “λ” Modelo Normal, se estima “μ y σ” Modelo Uniforme no se estima ningún parámetro
Para evitar errores calcular las frecuencias esperadas con 4 decimales y 2 con 3 decimales.
Restricciones: •Los datos deben ser frecuencias •Las categorías deben ser mutuamente excluyentes •El test da resultados falsos si se aplica a datos que son porcentajes o proporciones de ocurrencias de estas categorías mutuamente excluyentes. •Las categorías no deben ser muchas. •La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto
no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la frecuencia esperada se >5.
Ejemplo DISTRIBUCIÓN UNIFORME: Un geólogo está estudiando los sedimentos del perfil de playa de un lago que está compuesto por gravas de composición pómez, granitos y rocas esquistosas. Aunque los tres componentes están presentes en cantidades similares, el investigador sospecha que la roca madre no contribuye en la misma proporción en la composición de la grava. Realiza un muestreo de 600 individuos y encuentra 180 pómez, 186 graníticos y 234 esquistosos. ¿Son estos resultados compatibles con su hipótesis?
H0: fo=fe H1: fo≠fe α: 0,05 = 3-1=2
Pumicesos fo 180 fe 200 (fo-fe)2/fe 2,0
Graníticos Esquistosos 186 234 200 200 0,98 5,78
2(2;0,05)=5,99
2 ( fo fe ) c2 fe i 1 k
c2 2,0 0,98 5,78 8,76
8,76 >5,99 El valor de 2c supera el 2 crítico de tabla para alfa de 0,5. Se puede afirmar, con un nivel de significación del 5%, que la muestra ha sido tomada de una población dónde la proporción de componentes pómez, graníticos y esquistosos no es la misma.
Ejemplo DISTRIBUCIÓN POISSON DISTRIBUCIÓN AL AZAR
s2 1 X
DISTRIBUCIÓN REGULAR
DISTRIBUCIÓN CONTAGIOSA
s2 1 X
s2 1 X
Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1 km2 y se contó el número de meteoritos presentes en cada cuadricula. N° meteoritos por cuadricula 0 1 2 3 4 5 6 7 8
Frecuencia observada
p (Poisson)
Frecuencia esperada (pxn)
10 14 9 23 65 74 5 0 0
0,0226 0,0847 0,1611 0,2044 0,1944 0,1479 0,0938 0,0509 0,0406
4,4 16,9 32,2 40,9 38,9 29,6 18,8 10,2 8,1
Los meteoritos se distribuyen al azar? H0: fo=fe H1: fo≠fe =0,05 =8-1-1=6 χ2(6; 0,05)=12,59 ( fo fe ) 2 fe i 1 k
2 c
c2 137,20
137,20>12,59; se rechaza H0 Los meteoritos no se distribuyen al azar
Chi cuadrado
0,1125 16,7155 7,8340 17,5118 66,6000 10,1298 10,2000 8,1000
e x P( x) x!
m n m=n° meteoritos=761 n=n° cuadriculas=200 X
X 3,805
s2=2,17
((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125
Los meteoritos están agrupados o se distribuyen unifomemente? s2 s2 =0,05; /2=0,025 H 0 : 1; H a : 1 s 2 2,17 0 , 57 X X =n-1=200-1=199 X 3,805 2 s t(199; 0,025)=-1,960 1 2 S est t n1 X n 1 2,17 S est 1 3 , 805 2 t 2001 4,297 S est 0,100 0,1 200 1 -1,960>-4,297; se rechaza H0 La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.
Ejemplo PRUEBA DE NORMALIDAD Para comercializar la merluza se necesita investigar si el largo del cuerpo se ajusta a un modelo normal. Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y se recuperan 300 peces. Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5
Marca de clase (x) 38 43 48 53 58 63
X 49,5
S=5
Frecuencia Observada
Intervalo
Z sup
7 54 120 84 31 4
Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5
-1,8 -0,8 0,2 1,2 2,2 infinito
Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139
Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17
Se desconocen y Se estiman con X yS
N=300
Recordemos El área del intervalo (40,5 - 45,5) viene dada por: p((z Zsup.) - p((z Zinf.) siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8 (Zinf.) = (40,5 – 49,5) / 5 = -1,8
Z
xi X S
p(z -0,8) – p(z -1,8) = 0,4641 – 0,2881 = 0,1760 El Zsup. de un intervalo será el Zinf. del siguiente intervalo. El primer intervalo tiene siempre como Zinf. menos infinito (-∞) El último como Zsup. más infinito (+∞).
Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).
H0: fo=fe H1: fo≠fe
=0,05
Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5
Marca de clase (x) 38 43 48 53 58 63
Frecuencia Observada
Intervalo
Z sup
7 54 120 84 31 4
Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5
-1,8 -0,8 0,2 1,2 2,2 infinito
Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139
Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17
Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta que todos los intervalos tengan fe 5. 2 ( fo fe ) c2 fe i 1 k
k
c2 i 1
fo 2 N fe
72 54 2 352 300 2,8645 ... 34,53 10,7 52,8 2 c
k n parámetros estimados 1 = 5 -2 -1 = 2 2(2;0,05)=5,99
2,86 < 5,99 Como el valor de 2c no supera el 2 crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H0 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.
A.
PRUEBAS
DE BONDAD DE AJUSTE:
2. Método “G” de Fisher
k
G 2 i 1
fo fo ln fe
El estadístico G sigue la misma distribución que 2 c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas
Ejemplo del largo de la merluza
G 2(7 ln
7 52 4 54 ln ... 4 ln 3,06 10,77 52,8 4,17
Grados de libertad 6 -3 =3 2 (3; 0,05) = 7,81 3,06