A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA. Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords B.TABLAS DE CONTINGENCIA Marta Alperin Profesora

Author: Encarnación Laura Méndez Espejo

2 downloads 168 Views 972KB Size

Report

DOWNLOAD PDF

Recommend Stories

A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

Pruebas de Bondad de Ajuste

Pruebas de bondad de ajuste

Contrastes de la bondad del ajuste y tablas de contingencia

Contrastes de la bondad del ajuste y t ablas de contingencia / / Esquema del capitulo 16.1. Contrastes de la bondad del ajuste: probabilidades especif

4 Contrastes del Chi 2 de bondad del ajuste

PRUEBAS DE BONDAD DE AJUSTE y DE INDEPENDENCIA

Una paradoja en el test de bondad de ajuste

ESTADISTtCA ESPAÑOLA Vol. 34, Núm. 130, 1992, págs. 247 a 260 Una paradoja en el test de bondad de ajuste ALDO J. VIOLLAZ y ELENA BRU DE LABANDA Inst

Cuadrado de un Binomio

Chi cuadrado de Pearson para dos variables nominales Vicente Manzano Arrondo 2014

Chi cuadrado de Pearson para dos variables nominales Vicente Manzano Arrondo – 2014 Situación de partida 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Test de Kolmogorov Smirnov Patricia Kisbye El test chi-cuadrado en el caso continuo

Story Transcript

A.

PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov Lilliefords

B.TABLAS DE CONTINGENCIA

Marta Alperin Profesora Adjunta de Estadística

[email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica

2  A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado

•Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en intervalos, sigue una cierta distribución teórica.

•Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas. Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias esperadas. H0: fo=fe H1: fo≠fe 2 ( fo  fe )  c2   fe i 1 k

•Estadístico de prueba

•Prueba de hipótesis La hipótesis nula se acepta

   ( , ) 2 c

Tabla Chi cuadrado

  k  n parámetros estimados  1

fo: frecuencia observada fe: frecuencia esperada k: número de categorías

•Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población cuya distribución es la del modelo contrastado con una confianza α.

Número de parámetros estimados Modelo Binomial, se estima “p” Modelo Poisson, se estima “λ” Modelo Normal, se estima “μ y σ” Modelo Uniforme no se estima ningún parámetro

Para evitar errores calcular las frecuencias esperadas con 4 decimales y  2 con 3 decimales.

Restricciones: •Los datos deben ser frecuencias •Las categorías deben ser mutuamente excluyentes •El test da resultados falsos si se aplica a datos que son porcentajes o proporciones de ocurrencias de estas categorías mutuamente excluyentes. •Las categorías no deben ser muchas. •La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto

no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la frecuencia esperada se >5.

Ejemplo DISTRIBUCIÓN UNIFORME: Un geólogo está estudiando los sedimentos del perfil de playa de un lago que está compuesto por gravas de composición pómez, granitos y rocas esquistosas. Aunque los tres componentes están presentes en cantidades similares, el investigador sospecha que la roca madre no contribuye en la misma proporción en la composición de la grava. Realiza un muestreo de 600 individuos y encuentra 180 pómez, 186 graníticos y 234 esquistosos. ¿Son estos resultados compatibles con su hipótesis?

H0: fo=fe H1: fo≠fe α: 0,05 = 3-1=2

Pumicesos fo 180 fe 200 (fo-fe)2/fe 2,0

Graníticos Esquistosos 186 234 200 200 0,98 5,78

2(2;0,05)=5,99

2 ( fo  fe )  c2   fe i 1 k

 c2  2,0  0,98  5,78  8,76

8,76 >5,99 El valor de 2c supera el 2 crítico de tabla para alfa de 0,5. Se puede afirmar, con un nivel de significación del 5%, que la muestra ha sido tomada de una población dónde la proporción de componentes pómez, graníticos y esquistosos no es la misma.

Ejemplo DISTRIBUCIÓN POISSON DISTRIBUCIÓN AL AZAR

s2 1 X

DISTRIBUCIÓN REGULAR

DISTRIBUCIÓN CONTAGIOSA

s2 1 X

s2 1 X

Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1 km2 y se contó el número de meteoritos presentes en cada cuadricula. N° meteoritos por cuadricula 0 1 2 3 4 5 6 7 8

Frecuencia observada

p (Poisson)

Frecuencia esperada (pxn)

10 14 9 23 65 74 5 0 0

0,0226 0,0847 0,1611 0,2044 0,1944 0,1479 0,0938 0,0509 0,0406

4,4 16,9 32,2 40,9 38,9 29,6 18,8 10,2 8,1

Los meteoritos se distribuyen al azar? H0: fo=fe H1: fo≠fe =0,05 =8-1-1=6 χ2(6; 0,05)=12,59 ( fo  fe ) 2   fe i 1 k

2 c

 c2  137,20

137,20>12,59; se rechaza H0 Los meteoritos no se distribuyen al azar

Chi cuadrado



0,1125 16,7155 7,8340 17,5118 66,6000 10,1298 10,2000 8,1000

e   x P( x)  x!

m n m=n° meteoritos=761 n=n° cuadriculas=200 X

X  3,805

s2=2,17

((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125

Los meteoritos están agrupados o se distribuyen unifomemente? s2 s2 =0,05; /2=0,025 H 0 :  1; H a :  1 s 2 2,17   0 , 57 X X =n-1=200-1=199 X 3,805 2 s t(199; 0,025)=-1,960 1 2 S est  t n1  X n 1 2,17 S est 1 3 , 805 2 t 2001   4,297 S est   0,100 0,1 200  1 -1,960>-4,297; se rechaza H0 La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.

Ejemplo PRUEBA DE NORMALIDAD Para comercializar la merluza se necesita investigar si el largo del cuerpo se ajusta a un modelo normal. Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y se recuperan 300 peces. Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5

Marca de clase (x) 38 43 48 53 58 63

X  49,5

S=5

Frecuencia Observada

Intervalo

Z sup

7 54 120 84 31 4

Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5

-1,8 -0,8 0,2 1,2 2,2 infinito

Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139

Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17

Se desconocen y Se estiman con X yS

N=300

Recordemos El área del intervalo (40,5 - 45,5) viene dada por: p((z  Zsup.) - p((z  Zinf.) siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8 (Zinf.) = (40,5 – 49,5) / 5 = -1,8

Z

xi  X S

p(z  -0,8) – p(z  -1,8) = 0,4641 – 0,2881 = 0,1760 El Zsup. de un intervalo será el Zinf. del siguiente intervalo. El primer intervalo tiene siempre como Zinf. menos infinito (-∞) El último como Zsup. más infinito (+∞).

Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).

H0: fo=fe H1: fo≠fe

=0,05

Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5

Marca de clase (x) 38 43 48 53 58 63

Frecuencia Observada

Intervalo

Z sup

7 54 120 84 31 4

Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5

-1,8 -0,8 0,2 1,2 2,2 infinito

Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139

Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17

Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta que todos los intervalos tengan fe  5. 2 ( fo  fe )  c2   fe i 1 k

k

 c2   i 1

fo 2 N fe

 72 54 2 352    300  2,8645      ...  34,53   10,7 52,8 2 c

  k  n parámetros estimados  1 = 5 -2 -1 = 2 2(2;0,05)=5,99

2,86 < 5,99 Como el valor de 2c no supera el 2 crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H0 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.

A.

PRUEBAS

DE BONDAD DE AJUSTE:

2. Método “G” de Fisher

k

G  2 i 1

 fo  fo ln   fe 

El estadístico G sigue la misma distribución que 2 c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas

Ejemplo del largo de la merluza

G  2(7 ln

7 52 4  54 ln  ...  4 ln  3,06 10,77 52,8 4,17

Grados de libertad 6 -3 =3 2 (3; 0,05) = 7,81 3,06