A. PRUEBAS DE BONDAD DE AJUSTE: B.TABLAS DE CONTINGENCIA

A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muest

9 downloads 119 Views 1MB Size

Story Transcript

A. PRUEBAS DE BONDAD DE AJUSTE: Chi cuadrado Metodo G de Fisher Kolmogorov-Smirnov para una muestra Lilliefords Kolmogorov-Smirnov para dos muestras B.TABLAS DE CONTINGENCIA

Marta Alperin Profesora Adjunta de Estadística 2014

[email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica

2  A. PRUEBAS DE BONDAD DE AJUSTE: 1. Chi cuadrado

•Objetivo Inferir si la población muestreada, cuyos datos se clasifican en una escala nominal o son agrupados en intervalos, se ajusta a una cierta distribución teórica.

•Hipótesis Hipótesis nula: frecuencias observadas son iguales a las frecuencias esperadas. Hipótesis alternativa: frecuencias observadas son diferentes a las frecuencias esperadas. H0: fo=fe H1: fo≠fe 2 ( fo  fe )  c2   fe i 1 k

•Estadístico de prueba

•Prueba de hipótesis La hipótesis nula se acepta

   ( , ) 2 c

Tabla Chi cuadrado

  k  n parámetros estimados  1

fo: frecuencia observada fe: frecuencia esperada k: número de categorías

•Decisión estadística Cuando se acepta la hipótesis nula, se puede afirmar que la muestra es extraída de una población cuya distribución es la del modelo contrastado con una confianza α.

Número de parámetros estimados Modelo Binomial, se estima “p” Modelo Poisson, se estima “λ” Modelo Normal, se estima “μ y σ” Modelo Uniforme no se estima ningún parámetro

Para evitar errores calcular las frecuencias esperadas con 4 decimales y  2 con 3 decimales.

Restricciones: •Los datos deben ser frecuencias •Las categorías deben ser mutuamente excluyentes •El test da resultados falsos si se aplica a datos que son porcentajes o proporciones de ocurrencias de estas categorías mutuamente excluyentes.

•Las categorías no deben ser muchas. •La frecuencia esperada en cada categoría debe ser al menos de 5 (cinco). Si esto no ocurre se deben combinar las frecuencias de dos o mas categorías hasta que la frecuencia esperada se >5.

Ejemplo DISTRIBUCIÓN POISSON DISTRIBUCIÓN AL AZAR

s2 1 X

DISTRIBUCIÓN REGULAR

DISTRIBUCIÓN CONTAGIOSA

s2 1 X

s2 1 X

Ejemplo: Desde el verano de 1976 se realizaron trabajos de investigacion tendientes a estudiar los meteoritos en la Antártida. Se analizaron los meteoritos caídos en un área de 200 km2. El área fue subdividida con una cuadricula de 1 km2 y se contó el número de meteoritos presentes en cada cuadricula. N° meteoritos por cuadricula 0 1 2 3 4 5 6 7 8

Frecuencia observada

p (Poisson)

Frecuencia esperada (pxn)

10 14 9 23 65 74 5 0 0

0,0226 0,0847 0,1611 0,2044 0,1944 0,1479 0,0938 0,0509 0,0406

4,4 16,9 32,2 40,9 38,9 29,6 18,8 10,2 8,1

¿Los meteoritos se distribuyen al azar? H0: fo=fe H1: fo≠fe =0,05 =8-1-1=6 χ2(6; 0,05)=12,59 ( fo  fe ) 2   fe i 1 k

2 c

 c2  137,20

137,20>12,59; se rechaza H0 Los meteoritos no se distribuyen al azar

Chi cuadrado



0,1125 16,7155 7,8340 17,5118 66,6000 10,1298 10,2000 8,1000

e   x P( x)  x!

m n m=n° meteoritos=761 n=n° cuadriculas=200 X

X  3,805

s2=2,17

((10+14)-(4,4+16,9))2/(4,4+16,9)=0,1125

¿Los meteoritos están agrupados o se distribuyen unifomemente? s2 s2 =0,05; /2=0,025 H 0 :  1; H a :  1 s 2 2,17   0 , 57 X X =n-1=200-1=199 X 3,805 2 s t(199; 0,025)=-1,960 1 2 S est  t n1  X n 1 2,17 S est 1 3 , 805 2 t 2001   4,297 S est   0,100 0,1 200  1 -1,960>-4,297; se rechaza H0 La distribución de los meteoritos no es al azar. El signo de t, y el valor de la relación varianza-media permite afirmar que la distribucion es relativamente uniforme.

Ejemplo PRUEBA DE NORMALIDAD Para comercializar la merluza se necesita investigar si el largo del cuerpo se ajusta a un modelo normal. Se realiza un lanzamiento de red en la plataforma a la latitud de Mar del Plata y se recuperan 300 peces. Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5

Marca de clase (x) 38 43 48 53 58 63

X  49,5

S=5

Frecuencia Observada

Intervalo

Z sup

7 54 120 84 31 4

Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5

-1,8 -0,8 0,2 1,2 2,2 infinito

Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139

Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17

Se desconocen y Se estiman con X yS

N=300

Recordemos El área del intervalo (40,5 - 45,5) viene dada por: p((z  Zsup.) - p((z  Zinf.) siendo (Zsup.) = (45,5 – 49,5) / 5 = -0,8 (Zinf.) = (40,5 – 49,5) / 5 = -1,8

Z

xi  X S

p(z  -0,8) – p(z  -1,8) = 0,4641 – 0,2881 = 0,1760 El Zsup. de un intervalo será el Zinf. del siguiente intervalo. El primer intervalo tiene siempre como Zinf. menos infinito (-∞) El último como Zsup. más infinito (+∞).

Para obtener las frecuencias esperadas, las áreas debajo de la curva normal se multiplican por el número total de observaciones (N).

H0: el largo de la merluza está normalmente distribuido. H1: el largo de la merluza no se distribuye normalmente

H0: fo=fe H1: fo≠fe =0,05

Intervalo 35,5-40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 60,5-65,5

Marca de clase (x) 38 43 48 53 58 63

Frecuencia Observada

Intervalo

Z sup

7 54 120 84 31 4

Menos de 40,5 40,5-45,5 45,5-50,5 50,5-55,5 55,5-60,5 Más de 60,5

-1,8 -0,8 0,2 1,2 2,2 infinito

Area normal p 0,0359 0,1760 0,3674 0,3056 0,1012 0,0139

Frecuencia esperada Pxn 10,77 52,8 110,22 91,68 30,36 4,17

Si las fe son menores que “5”; se deben sumar las fe de intervalos contiguos hasta que todos los intervalos tengan fe  5. 2 ( fo  fe )  c2   fe i 1 k

k

 c2   i 1

fo 2 N fe

 72 54 2 352    300  2,8645      ...  34,53   10,7 52,8 2 c

  k  n parámetros estimados  1 = 5 -2 -1 = 2 2(2;0,05)=5,99

2,86 < 5,99 Como el valor de 2c no supera el 2 crítico de tabla al 5%, no se encuentran evidencias suficientes para rechazar la H0 Se puede afirmar, con un nivel de significación del 5%, que el largo de la merluza sigue una distribución normal.

A.

PRUEBAS

DE BONDAD DE AJUSTE:

2. Método “G” de Fisher

k

G  2 i 1

 fo  fo ln   fe 

El estadístico G sigue la misma distribución que 2 c No es tan sensible como la prueba de Chi las frecuencias esperadas bajas

Ejemplo del largo de la merluza

G  2(7 ln

7 52 4  54 ln  ...  4 ln  3,06 10,77 52,8 4,17

Grados de libertad 6 -3 =3 2 (3; 0,05) = 7,81 3,06

Get in touch

Social

© Copyright 2013 - 2024 MYDOKUMENT.COM - All rights reserved.