Story Transcript
PROBABILIDAD Y ESTADÍSTICA
SESIÓN 10
8 PRUEBAS DE BONDAD DE AJUSTE 8.1 Prueba c2 8.2 Prueba de Kolmogorov – Smirnov 8.3 Prueba de Anderson - Darling
Objetivo: Comprender las ventajas que presentan las pruebas que en esta sesión se presentan y determinar las diferencias entre ellas.
8 PRUEBAS DE BONDAD DE AJUSTE
PRUEBAS DE BONDAD DE AJUSTE En este subtema se examinará otra importante aplicación de la prueba ji cuadrada, la de probar la bondad de ajuste d un grupo de datos en una distribución específica de probabilidad. Al probar la bondad de ajuste de un grupo de datos, se comparan las frecuencias reales en cada categoría (o intervalo de clase) con las frecuencias que, teóricamente, se esperarían si los datos siguieran una distribución específica de probabilidad. Al efectuar la prueba ji cuadrada para la bondad de ajuste, se requieren varios pasos.
Primero, hay que establecer la hipótesis de la distribución de probabilidad que se va a ajustar a los datos.
Segundo, una vez determinada la distribución de probabilidad hipotética, los valores de cada parámetro de la distribcuión (tal como la media), se deben poner como hipótesis o estimar con los datos reales. A continuación, se utiliza la distribución de probabilidad hipotética específica para determinar la probabilidad y,
luego,
la
frecuencia
teórica
para
cada
categoría
o
intervalo
de
clase.
Para terminar, se puede emplear el estadístico de la prueba ji cuadrada para probar si la distribución específica
tiene
o
no
"un
buen
ajuste"
con
los
datos.
La prueba ji cuadrada para determinar si los datos siguen una distribución de probabilidad específica, se calcula con
en donde Fo = frecuencia observada Fi = frecuencia teórica K = número de categorías o clases que quedan después de comprimir las clases
p = número de parámetros estimados con los datos
En este subtema se ha limitado el comentario a la prueba de ji cuadrada para la bondad de ajuste a la distribución de Poisson. Otras distribuciones de probabilidad bien conocidas, como la uniforme, binomial y normal, también se pueden "ajustar" a los grupos de datos para determinar la bondad del ajuste. En cada caso, los parámetros de las distribuciones en cuestión (como la media y la desviación estándar) se deben establecer por hipótesis o estimar con los datos, para poder determinar las frecuencias esperadas.
CONTRASTE DE HIPOTESIS
Tests PARAMETRICOS
Tests NO PARAMETRICOS
(Hipótesis sobre algún parámetro
(Se usan típicamente cuando la
que describe la distribución de
variable de estudio NO es normal)
la variable de estudio; típicos cuando la variable es normal; por ejemplo, hip. sobre media y desv. típica)
TESTS NO PARAMETRICOS
1. Tests sobre la mediana:
H0 : M M0 H1 : M M 0 ; M M 0 ; M M 0
El propósito es evaluar el “tamaño esperable” de una cierta variable. En presencia de normalidad ese “tamaño esperable” se evalúa a partir de la media. En ausencia de normalidad, es preferible la mediana.
-
Test t de Student (t-test): necesita que la variable objeto de estudio sea NORMAL. Es un test sobre la media (se recuerda que en el caso de normalidad, media y mediana coinciden).
-
Test de los signos: esencialmente, verificamos si el número de valores de la muestra por encima y por debajo de M o es similar. Requiere variable continua.
-
Test de los rangos signados o test de Wilcoxon: se calculan los rangos medios por encima y por debajo de M 0 , y se rechaza en caso de que alguno sea anormalmente alto/bajo. Es necesario que la variable sea SIMETRICA.
2. Tests de bondad de ajuste:
-
Generales: Comprueban el ajuste a cualquier distribución, no necesariamente normal (por ejemplo, a una exponencial, Poisson, etc.)
H 0 : la variable sigue una cierta distribución H 1 : la variable no sigue la distribución de arriba Test Chi-cuadrado: compara frecuencias teóricas esperadas con frecuencias obtenidas. Necesita un número suficiente de datos (al menos 30); también es necesario que las frecuencias esperadas sean mayores o iguales que 5. Válido tanto para variable discreta, como continua. Test de Kolmogorov-Smirnov: compara las funciones de distribución teórica y empírica (sólo válido para variables continuas).
-
Tests de normalidad:
H 0 : la variable es normal H 1 : la variable no es normal
Los anteriores; test de Shapiro-Wilks; contrastes de asimetría y curtosis
Tests de Comparación entre poblaciones: Pretenden comparar los “tamaños” de dos variables distintas. Es importante distinguir si los datos son pareados (distintas variables medidas sobre los mismos individuos), o no. En el primer caso, se forma la variable diferencia D=X-Y, y se analiza si la media (en caso de que D sea normal) o la mediana (si D no es normal) es 0 o no. Para ello, se utilizan los tests sobre la media o la mediana de D. En el segundo caso, se utiliza el test de Mann-Whitney, de comparación de medianas:
H 0 : M1 M 2 H1 : M 1 M 2 ; M 1 M 2 ; M 1 M 2 Además, más fuerte que comparar las medias o medianas de dos poblaciones, es comparar si su distribución es la misma: concretamente, si la distribución de dos poblaciones, eso significa que estadísticamente son iguales; es decir, que las variables estudiadas en ambas poblaciones se comportan igual. Para realizar una comparación de distribuciones se utiliza el test de Kolmogorov-Smirnov:
H 0 : las distribuciones de las dos variables son iguales H 1 : las distribuciones de las dos variables no son iguales 4. Tests de aleatoriedad:
H 0 : los datos son aleatorios H 1 : los datos no son aleatorios Decimos que un conjunto de datos (ordenados en una secuencia temporal) es aleatorio si los datos no presentan una tendencia clara, y en consecuencia, no podemos “predecir” nada sobre el comportamiento futuro de la variable. Si los datos son aleatorios, entendemos que las fluctuaciones en los datos son debidas al azar; si los datos no son aleatorios, hay una cierta regularidad en su comportamiento y tendrá sentido buscar la causa que la explique. 5. Test de independencia Chi-cuadrado.
Dadas dos variables categóricas X e Y, el test contrasta si dichas variables son independientes, o si por el contrario hay cierta relación entre ellas (en otras palabras: si una de ellas influye en la otra, si hay diferencias significativas en una de ella según los valores de la otra, etc.)
La hipótesis en este caso es:
H 0 : las variables son independientes H 1 : las variables no son independientes Fuente estadistec.blogspot.com/2011/11/equipo-5.html
A continuación se presenta un extracto tomado de http://hl.altervista.org/split.php?http://www.meanworld.altervista.org/Test_de_Kolmogorov.doc Luca Martino, Tratamiento de Datos 1. Introducción
En el 1933 Andrey Nikolaevich Kolmogorov (1903-1987) introdujo el estadístico
sup FN ( x) F ( x) xR
y
en el 1939 Vladimir Smirnov (1887-1974) la utilizó para lo que hoy es noto como Test de Kolmogorov-Smirnov. Se trata de un test no paramétrico, es decir, que no necesita ninguna información a priori sobre la población; más en general, un test no paramétrico utiliza hipótesis menos restrictivas de las que usualmente se utilizan en el campo de la estadística paramétrica. Una típica hipótesis a priori que por ejemplo se utiliza mucho en el campo la estadística parametrica, es la “gausianidad” de las variables. Por esta razón, a veces refiriéndose a un test no parametrico se habla de test de pocas muestras porque, sobre todo en estos casos, puede ser errónea la hipótesis de distribución gausiana dado que no se puede tampoco utilizar el Teorema del Limite Central. Pero esta definición puede crear equivocaciones porque los test no parametrico se utilizan también en presencia de muchas muestras. Existen muchas variantes y muchos tests cercanos a lo de Kolmogorov-Smirnov; lo mas importantes son el Test de Girone y el Test de Kuiper (ambos no parametrico). Una valida alternativa por datos ordinales es el Test de Wilcoxon-Mann-Whitney.
En las páginas siguientes nos referiremos hablando de densidad de probabilidad de una variable aleatoria, a una función cuyo integral
f ( x) dx R
sea unitario. Mientras con función de distribución x
nos referiremos a la función
F ( x) P( X x) f ( x) dx
.
2. Test de Kolmogorov-Smirnov
Supongamos de tener N variables aleatorias continuas i.i.d. (independientes y idénticamente distribuidas) X 1 , X 2 , X 3 ....., X N pero de no conocer la función de distribución F ( x) P( X i x) de dichas variables. Nos gustaría construir un test de hipótesis para verificar que F (x) sea igual a una dada función
F0 ( x) , es decir:
H 0 : F ( x) F0 ( x) H 1 : F ( x) F0 ( x)
x (1)
Parece lógico basar nuestros cálculos sobre la función de distribución empírica:
FN ( x) P( X i x)
donde con
1 N
I ( X i x)
1 I ( X i x) 0
N
I(X i 1
i
x)
(2)
llamamos la variable indicadora:
si X i x si X i x
(3)
Es decir: calculamos una simple proporción entre los k valores por debajo del nivel x y el numero total de muestras N (
FN ( x) k N
) . La función de distribución empírica
FN (x)
es un estimador
X muestral de la verdadera F (x) de las variables i . Además se trata de un estimador consistente porque, dado cualquier valor fijo x , por la ley débil de los grandes números se demuestra que:
FN ( x)
N EI ( X i x) 1 N I ( X i x) P( X i x) F ( x) N i 1 N
por N 0
(4)
Es decir, por N grande FN (x) tiende a F (x) . Se puede demostrar (lema Glivenko-Cantelli) que hay convergencia “casi segura” sobre todas las x :
DN sup FN ( x) F ( x) 0 xR
por N 0
(5)
La más grande diferencia entre FN (x) y F (x) tiende a 0. La observación clave en el Test de Kolmogorov-Smirnov es notar que la densidad de probabilidad de la cantidad D N no depende de la función de distribución F (x) de las muestras. Para demostrarlo necesitamos primero esta otra observación:
Observación 1: dada una función de distribución F (x) de una variable X, si consideramos la variable aleatoria Y F (X ) (es decir, una trasformación de X donde le Trasformación es la misma función de distribución de X).
P(Y t ) P( F ( X ) t ) P( X F 1 (t )) F ( F 1 (t )) t
(6)
Esta es la función de distribución de una variable uniforme en [0,1]. Así que la densidad de probabilidad de Y es uniforme en [0,1]: Y F ( X ) ~ U (0,1)
(7)
Ahora, podemos demostrar el siguiente teorema:
Teorema 1: la densidad de probabilidad de la variable
DN sup FN ( x) F ( x) xR
no depende de F (x) .
Demostración: por sencillez supongamos que F (x) sea continua. Con simples razonamientos, se puede ver que la inversa de F (x) se puede definir así:
F 1 ( y) min{ x : F ( x) y)
1 ( 0 F ( y) 1 por definición de F (x) )
(8)
1 Ahora puesto que y F (x) y x F ( y) , podemos escribir:
P(sup FN ( x) F ( x) t ) xR
P( sup FN ( F 1 ( y)) y t ) =
0 y 1
(9)
Por otro lado, utilizando la definición de función de distribución empírica (2):
FN ( F 1 ( y))
1 N 1 N 1 I ( X F ( y )) i I ( F ( X i ) y) N i 1 N i 1
(10)
Substituyendo la (10) en la (9):
1 0 y 1 N
P( sup FN ( F 1 ( y)) y t ) P( sup 0 y 1
N
I ( F ( X ) y) y t ) i
i 1
(11)
En la observación 1, hemos demostrado que F ( X i ) es una variable aleatoria uniforme en [0,1]. Así que podemos escribir:
U i F ( X i ) ~ U (0,1) por i 1,...., N
(12)
U Siendo las X i i.i.d., las i serán todas uniformes e independientes entre si. Juntados la (12) con la (11) llegamos a:
1 P(sup FN ( x) F ( x) t ) P( sup xR = 0 y 1 N
N
I (U ) y) y t ) i 1
i
(13)
Se ve perfectamente del segundo miembro de la ecuación que esta probabilidad no depende de F (x) . Queda entonces demostrado el teorema.
Observación 2: considerando la siguiente variable indicadora I ( X x) :
1 X x I ( X x) si 0 si X x
(14)
esta se distribuye como una Bernoulli(1,p) donde p P( X x) F ( x) donde con F (x) indicamos la función de distribución de X. Así que la varianza de I ( X x) será p(1 p) :
varI ( X x) F ( x) (1 F ( x))
(15)
Observación 3: probamos ahora a calcular la varianza de FN ( x) F ( x) con x fijo. Siendo x fijo, F (x) resulta ser una constante y recordando la propiedad de la varianza vara X varX ,
tenemos:
varFN ( x) F ( x) varFN ( x)
1 varFN ( x) var N
con x fijo
(16)
1 N I ( X x ) var i N2 I ( X i x ) i 1 i 1 N
(17)
2 Donde hemos utilizado otra propiedad de la varianza ( vara X a varX ). Además siendo las
X i independientes también lo serán las variables I ( X i x) . Así que la varianza total será igual a la suma de la varianza de cada una de ellas:
varFN ( x)
1 1 N var I ( X i x) 2 2 N i 1 N
N
varI ( X i 1
i
x)
N F ( x)(1 F ( x)) N2 (18)
por la observación 2. Finalmente hallamos:
varFN ( x) F ( x)
1 F ( x)(1 F ( x)) N con x fijo
Mas fácilmente el valor medio será:
(19)
EFN ( x) F ( x) EFN ( x) EF ( x)
N F ( x) 0 F ( x) N con x fijo
(20)
Teniendo en cuenta los resultados de las observación 3 y del Teorema del Limite Central podemos afirmar que por N :
n ( FN ( x) F ( x)) N (0, F ( x)(1 F ( x))) con x fijo
(21)
N DN N sup FN ( x) F ( x) xR
Dada la (21) no es difícil imaginarse que
converja a una
densidad de probabilidad. Además por el Teorema 1 sabemos que está densidad no dependerá de F (x) .
Teorema 2: Se puede demostrar que:
N
P( N DN t ) H (t ) 1 2 (1) i 1 e 2i t i 1
2
por N
(22)
donde con H (t ) indicamos la función de distribución limite de la densidad de KolmogorovSmirnov.
Volviendo entonces al test de hipótesis (1), para los teoremas 1-2 esto se podría expresar:
H 0 : N D N c H 1 : N D N c
(23)
Donde con c indicamos un valor umbral; la (23) es bastante intuitiva porque se acepta la hipótesis
H0
si la distancia L1 entre la función de distribución empírica y la verdadera F (x) es “pequeña”
(menor de un cierto valor c) mientras se rechaza
H0
si las dos funciones difieren “mucho”. El valor c
dependerá del nivel de confianza , que puede definirse como la siguiente probabilidad de error (rechazo
H0
siendo esta hipótesis verdadera):
P( N D N c | H 0 )
(24)
Hemos ya demostrado, por el Teorema 1, que la densidad de probabilidad de D N no depende de
F (x) y por eso se podrían hallar tablas con los valores de los percetiles. El problema, es que en general la densidad de probabilidad de D N dependerá del numero N de muestras que tenemos. Así que necesitaríamos una tabla por cada valor de N. Otra manera de hallar c, sobre todo por N grande, es utilizar el Teorema 2 y aproximar la función de distribución de la densidad de D N por la H (t ) :
P( N DN c | H 0 ) 1 H (c)
(25)
asì que podemos utilizar siempre la tabla de H (t ) para hallar c.
Simulación 1:
Consideremos estas 10 muestras sacadas de una distribución uniforme en [0,1]:
X 1 0.4966 X 0.8998 2 X 3 0.8216 X 4 0.6449 X 5 0.8180 X X 6 0.6602 X 7 0.3420 X 8 0.2897 X 0.3412 9 X 10 0.5341
Muestras (N=10)
X 8 0.2897 X 0.3412 9 X 7 0.3420 Muestras ordenadas X 0 . 4966 en manera creciente. 1 X 0.5341 10 Xo X 4 0.6449 X 6 0.6602 X 5 0.8180 X 0.8216 3 X 2 0.8998
Nosotros queremos comprobar a través del Test de Kolmogorov-Smirnov que estas muestras están efectivamente generada por una densidad uniforme en [0,1]. Nuestras hipótesis serán entonces:
H 0 : F ( x) F0 ( x) x H 1 : F ( x) x
(26)
El primer paso será construir la función de distribución empírica FN (x) , y para hacer esto
X ordenamos en modo creciente nuestras muestras. Considerando ahora el vector ordenado o , la FN (x) puede construirse rápidamente así: 0, k FN ( x) , N 1,
x X o (1) X o (k ) X o (k 1) x X o (N )
(27)
X Es decir entre dos valores consecutivos del vector o las función se queda constante, y en cada 1 X (k ) o punto tiene un salto de N . La Figura 1 abajo, muestra en rojo la función de distribución empírica para nuestros datos. Para calcular diferencia más grande entre
FN (x)
DN sup FN ( x) F ( x) xR
hay que observar que la
y F (x) seguramente se logrará exactamente antes o
exactamente después de un salto; en formula:
FN ( X o (i)) F ( X o (i )) antes DN sup FN ( x) F ( x) max 0 x 1 xR FN ( X o (i )) F ( X o (i)) despues del i-esimo salto
Fig. 1) En Rojo la FN (x) y en blue la F (x) .
Escribimos abajo como ejemplo unas diferencias antes y después de un salto:
Antes de un salto:
0 0.287 , 0.1 0.3412 , 0.2 0.3420 ......
Después de un salto:
0.1 0.287 , 0.2 0.3412 , 0.3 0.3420 ......
El valor más grande en nuestro caso se alcanza antes del primer salto es decir por
DN sup FN ( x) x 0.287 0 x 1
0 0.287
:
(28)
N DN N sup FN ( x) x 10 0.287 0.9162 0 x 1
(29)
Si queremos un nivel de confianza del 0.05 , por la tabla de H (t ) (que recordamos ser independiente del valor N), encontramos el umbral c: 1 H (c) 0.05 c 1.35
(30)
Así que nuestro test queda:
H 0 : N DN 1.35 H 1 : N D N 1.35
Como por la (29)
(31)
N DN 0.9162 c 1.35 nosotros correctamente aceptamos la H 0 .
3. Test de Kolmogorov-Smirnov para 2 poblaciones
Supongamos ahora de conocer N variables aleatorias
X 1 , X 2 , X 3 ....., X N
i.i.d. cuya función de
Y , Y , Y ....., YM distribución F (x) es desconocida, y M variables aleatorias 1 2 3 i.i.d. con función de
distribución G(x) también desconocida. Suponiendo que ambas sean funciones continuas, podemos construir un test de hipótesis para verificar que sean idénticas sin especificar la forma analítica de las dos:
H 0 : F ( x ) G ( x ) x H 1 : F ( x) G ( x)
Siguiendo los pasos anteriores e indicando con
(32)
FN (x)
y GM (x) la funciones de distribución
empíricas, vamos a considerar el estadístico DNM así definido:
DNM sup FN ( x) GM ( x) xR
(33)
Claramente si la hipótesis nula H 0 es verdadera, las funciones FN (x) y GM (x) tenderán a acercarse una a otra. Por el lema Glivenko-Cantelli sigue que:
DNM 0 cuando ambos N y M
(34)
Los pasos del párrafo anterior pueden ser razonablemente generalizados aceptando
NM DNM c NM
H0
si:
(35)
donde c es una constante adecuada. Para hallar este umbral podemos seguir utilizando la función de distribución H (t ) definida anteriormente, como demuestra el siguiente teorema:
Teorema 3: Se puede demostrar:
P(
NM DNM t ) H (t ) NM cuando ambos N y M
(36)
4. Conclusiones
Leyendo este pequeña síntesis el Lector pudo seguramente darse cuenta de la grande utilidad del Test de Kolmogorov-Smirnov. En ciertos sentidos, se puede ver como la alternativa no parametrica al Test del t de Student. De hecho muchas veces, aunque el Test del t de Student sea aplicable (hipótesis parametrica de distribución gausiana) si se aplica el Test de KolmogorovSmirnov la eficiencia-potencia sigue siendo alta (95% por pocas muestras, y poco menos por más muestras). Respecto a los tests no parametricos de la media o del Chi Cuadrado (hablando de datos ordinales) es preferible porque más potente. En casos de datos ordinales y en presencias de muestras provenientes de 2 distintas variables aleatorias, para comprobar que la distribución es la misma (como en el párrafo 3), se puede utilizar también el Test de Wilcoxon-Mann-Whitney. Con pocas muestras suele ser preferible el Test de Kolmogorov-Smirnov, mientras a medida que aumentan las muestras parece ser más potente el Test de Wilcoxon-Mann-Whitney. Cuando las poblaciones tienen misma longitud, otra valida alternativa es el Test de Girone. En el 2001 C. G. Borroni mostró que por variables asimétricas puede ser más potente del Test de Kolmogorov-Smirnov.