Story Transcript
STATGRAPHICS – Rev. 9/14/2006
Ajustando Distribución (Datos No Censurados) Resumen El procedimiento Ajustando Distribución (Datos No Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos. Los datos se asumen que no son censurados, i.e., los datos representan muestras aleatorias de la distribución seleccionada. Si los datos han sido censurados debido al límite de detección o alguna otra causa, use el procedimiento Ajuste de Distribución (Datos Censurados).
Ejemplo StatFolio: distfit uncensored.sgp Datos del Ejemplo: El archivo groundwater.sf3 contiene n = 47 medidas de concentración de uranio en agua subterranea, muestras tomadas de una lugar en el noroeste de Texas. La tabla siguiente muestra una lista parcial de los datos del archivo: ppm 8.25 2.82 4.16 18.66 12.72 8.75 2.29 7.22 9.76 7.72 27.38 5.14 Se desea encontrar una distribución de probabilidad que provea un modelo adecuado para la variación muestral que permita una referencia para comparar futuras muestras.
© 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 1
STATGRAPHICS – Rev. 9/14/2006
Entrada de Datos Los datos que son analizados consisten de una sola columna numérica que contiene n = 2 o mas observaciones.
•
Datos: Columna numérica que contiene los datos que serán analizados.
•
Selección: Selección de un subconjunto de los datos.
Resumen del Análisis El Resumen del Análisis muestra el número de observaciones, el rango de los datos, y los valores de los parámetros estimados para cada distribución que es ajustada a los datos. Datos No Censurados - ppm Datos/Variable: ppm 47 valores con rango desde 0.74 a 47.78 Distribuciones Ajustadas Gamma Lognormal forma = 1.56457 media = 13.7033 escala = 0.122023 desviación estándar = 15.6921 Escala log: media = 2.19873 Escala log: desv. est. = 0.915324
Normal media = 12.8219 desviación estándar = 10.445
Weibull forma = 1.28496 escala = 13.8975
Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación para el procedimiento de Distribuciones de Probabilidad). Los estimadores son obtenidos usando Estimación de Máxima Verosimilitud (EMV). Se puede ajustar entre 1 y 5 distribuciones al mismo tiempo usando Opciones del Análisis. En la tabla anterior, 4 distribuciones han sido ajustadas a los datos de agua subterránea. Las distribuciones gamma y Weibull están definidas por sus parámetros de forma y escala. Las distribuciones lognormal y normal están definidas por su media y desviación estándar. En el caso de la distribución lognormal, la media y la desviación estándar de los logaritmos naturales de ppm también son mostrados. © 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 2
STATGRAPHICS – Rev. 9/14/2006
Opciones del Análisis
•
Distribución: Selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución es descrita en detalle en la documentación Distribuciones de Probabilidad. Para ayudar a determinar que distribuciones ajustan, el panel Comparación de Distribuciones Alternas descrito enseguida puede ser de gran ayuda. Las siguientes tablas pueden ser de ayuda.
Distribuciones Discretas Distribución Rango de los Datos Bernoulli 0o1 Binomial Uniforme Discreta Geométrica
0, 1, 2, …, m a, a+1, a+2, …, b 0, 1, 2, …
Hypergeométrica
0, 1, 2, …, m
Binomial Negativa
0, 1, 2, …
Poisson
0, 1, 2, …
Distribuciones Continuas Distribución Rango de los Datos Beta 0≤X≤1 Beta (4-parámetros) a ≤ X ≤ b Birnbaum-Saunders X > 0 © 2006 por StatPoint, Inc.
Uso común Modelo para eventos con solo dos posibles resultados. Numero de éxitos en m ensayos Bernoulli. Modelo para enteros con limites fijos Numero de ensayos hasta el primer éxito Bernoulli. Conteo cuando se muestrea de una población finita. Numero de ensayos hasta el k-ésimo éxito Bernoulli. Numero de eventos en un intervalo fijo.
Uso común Distribución de una proporción aleatoria. Modelo para datos con umbrales superior e inferior. Tempo de Fallas. Ajustando Distribución (Datos No Censurados) - 3
Cauchy Chi-Cuadrada
todos los reales X X≥0
Erlang Exponencial Exponencial(2parms) Exponencial power F
X>0 X>0 X>a
Folded Normal
X≥0
Gamma Gamma (3parámetros) Gamma Generalizada Logística Generalizada Normal Truncada Gausiana Inversa
X≥0 X≥a
todos los reales X X≥0
X>0 Todos los reales x X≥μ X>0
Laplace todos los reales X Valores Extremos todos los reales X Máximos Logística todos los reales X Loglogistica Loglogistica parámetros) Lognormal Lognormal parámetros) Maxwell Chi-cuadrada central F No central t No central Normal Pareto
X>0 (3- X > a X>0 (3- X > a X>a No X ≥ 0
Pareto (2parámetros) Rayleigh Valores Extremos Mínimos t de Student Triangular © 2006 por StatPoint, Inc.
X≥0 todos los reales X todos los reales X X≥1
STATGRAPHICS – Rev. 9/14/2006 Medidas que exhiben colas pesadas. Distribución de referencia para la varianza muestral. Tiempo entre k arribos en un proceso Poisson. Tiempo entre consecutivos eventos Poisson. Tiempos de vida con umbral inferior fijo. Datos simétricos con curtosis variable. Razón de dos estimadores de varianzas independientes. Valores absolutos de datos de una distribución normal Modelo para medidas positivamente sesgada. Datos positivamente sesgados con umbral inferior. Incluye varias distribuciones con casos especiales. Usada para el análisis de valores extremos. Datos normales doblados alrededor de su media. Primer paso de tiempo en el movimiento Browniano. Datos con picos pronunciados y colas pesadas. Valores más grandes en una muestra. Modelo de crecimiento; alternativa común a la normal. Logs de datos de una distribución logística. Logs de datos con umbral inferior fijo. Datos positivamente sesgados. Datos positivamente sesgados con umbral inferior. Velocidad de una molécula en un gas ideal. Calculo de potencia de una prueba chi-cuadrada.
X>a todos los reales X
Calculo de potencia de una prueba F. Calculo de potencia de una prueba t Datos con muchas fuentes de variabilidad. Cantidades socio-económicas con colas pesadas en la derecha Cantidades socio-económicas con umbral inferior. Distancia entre objetos vecinos. Valore más pequeños en una muestra.
todos los reales X a≤X≤b
Distribución de referencia para la media. Modelo áspero en ausencia de datos.
X≥a
Ajustando Distribución (Datos No Censurados) - 4
a≤X≤b
Uniforme Weibull Weibull parámetros)
X≥0 (3- X ≥ a
STATGRAPHICS – Rev. 9/14/2006 Datos con la misma probabilidad sobre un intervalo. Tiempo de vida de productos. Tiempo de vida de productos con umbral inferior.
•
Ensayos Binomial – Cuando se ajusta la distribución binomial, debes especificar el tamaño de la muestra n.
•
Ensayos Hipergeométrica – Cuando se ajusta la distribución hipergeométrica, puedes especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la población N o estimarlo de los datos.
•
Ensayos Binomial Negativa – Cuando se ajusta la distribución binomial negativa, puedes especificar el parámetro k o estimarlo de los datos.
•
Parámetros del umbral extendidos – Cuando se ajusta distribuciones que tienen uno o mas parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las distribuciones relevantes son: Beta (4-parámetros) – inferior y superior Exponencial (2-parámetros) – inferior solamente normal truncada(2-parámetros) – inferior solamente gamma (3-parámetros) – inferior solamente loglogistica (3-parámetros) – inferior solamente lognormal (3-parámetros) – inferior solamente Maxwell (2-parámetros) – inferior solamente Pareto (2-parámetros) – inferior solamente Rayleigh (2-parámetros) – inferior solamente Weibull (2-parámetros) – inferior solamente
© 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 5
STATGRAPHICS – Rev. 9/14/2006
Trazas de Densidad Un buen lugar para empezar cuando se selecciona una distribución para un conjunto de datos es las Trazas de Densidad. Las Trazas de Densidad proveen un estimador no parametrito de la función de densidad de probabilidad de la población de la cual los datos fueron muestreados. Esta es formada contando el número de observaciones que caen dentro de una ventana de anchura fija movida a través del rango de los datos. Traza de Densidad para ppm 0.03
densidad
0.025 0.02 0.015 0.01 0.005 0 0
10
20
30
40
50
ppm
La función de densidad estimada es dada por: f ( x) =
1 n ⎛ x − xi ⎞ ⎟ ∑W ⎜ hn i =1 ⎝ h ⎠
(1)
Donde h es el ancho de la ventana en unidades de X y W(u) es una función de ponderación determinada por la selección en la caja de dialogo del Panel de Opciones. Dos formas de funciones de ponderación son disponibles: Función Boxcar ⎧1 if u ≤ 1 / 2 W (u ) = ⎨ ⎩0 otherwise
(2)
Función Coseno ⎧1 + cos(2πu ) if u < 1 / 2 W (u ) = ⎨ otherwise ⎩0
(3)
La última selección usualmente da resultados más suaves, con el valor deseado de h que depende del tamaño de la muestra. En el caso de datos de agua subterránea, las trazas de densidad empiezan relativamente altas en X = 0, incrementan a u pico, y después caen lentamente en dirección positiva. Una distribución positivamente sesgada claramente será necesaria para modelar estos datos. © 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 6
STATGRAPHICS – Rev. 9/14/2006 Opciones del Panel
•
Método: La función de ponderación deseada. La función boxcar pondera todos los valores dentro de la ventana igualmente. La función coseno de pesos decrecientes a las observaciones sobre el centro de la ventana. La selección de defecto es determinada por lo fijado en la pestaña EDA de la caja de dialogo de Preferencias accesible desde el menú Editar.
•
Ancho de Intervalo: El ancho de una ventana h dentro de la cual las observaciones afectan la densidad estimada, como un porcentaje del rango cubierto por el eje x. h = 60% no es irrazonable para una muestra pequeña pero puede no dar mucho detalle como un valor pequeño en una muestra mas grande.
•
Resolución del Eje X: el numero de puntos en el cual la densidad será estimada.
Gráfico de Simetría El Grafico de Simetría puede también ser usado para ayudar a saber si los datos provienen de una distribución simétrica, i.e., una distribución que tiene una función de densidad con la misma forma en ambos lados alrededor de la mediana.
distancia arriba de la mediana
Gráfica de Simetría para ppm 40
30
20
10
0 0
© 2006 por StatPoint, Inc.
10
20 30 distancia abajo de la mediana
40
Ajustando Distribución (Datos No Censurados) - 7
STATGRAPHICS – Rev. 9/14/2006 Para crear esta grafica, los valores de los datos son ordenados y pareados de acuerdo a su localización con respecto a la media. Por ejemplo, con 47 observaciones, los puntos ordenados son pareados como: (x(23),x(25)), (x(22),x(26)), (x(21),x(27)), …, (x(1),x(47)) La distancia de cada para abajo y arriba de la mediana es graficada. Si los datos vienen de una distribución simétrica, loa puntos deberían caer cerca de la línea de 45 grados. Si no, los puntos se desviaran de la línea en una direccio0n particular. Los puntos de la grafica anterior se desvían mucho sobre la diagonal, indicando una cola mas pesada a la derecha que a la izquierda.
Pruebas de Normalidad El panel de Pruebas de Normalidad realice 4 diferentes pruebas diseñadas para determinar si los datos podrían razonablemente venir de una distribución normal o no. Para cada prueba las hipótesis de interés son: •
Hipótesis Nula: los datos son muestras independientes de una distribución normal
•
Hipótesis Alt.: los datos no son muestras independientes de una distribución normal
Pruebas de Normalidad para ppm Prueba Estadístico Chi-Cuadrado 34.5745 Estadístico W de Shapiro-Wilk 0.871657 Puntuación Z para asimetría 2.34972 Puntuación Z para curtosis 1.93069
Valor-P 0.00282602 0.0000283121 0.0187876 0.0535207
Las pruebas que son corridas son seleccionadas usando las Opciones del Panel. Cada prueba es desplegada con su con su estadística de prueba asociada y su P-Valor. P-valores pequeños permiten rechazar la hipótesis nula y así rechazar la normalidad. En la tabla anterior, los Pvalores para las pruebas Shapiro-Wilks y Chi-Cuadrada están ambos por debajo de 0.01, permitiendo un rechazo de la normalidad para los datos en un nivel de 99% de confianza. Las 4 pruebas disponibles están definidas como sigue: Prueba Chi-Cuadrada – Esta prueba divide el rango de los datos en un conjunto de k clases equiprobables, donde
{
(
k = min 100, ceiling 3.7653(n − 1)
0. 4
)}
(4)
Esta calcula el número de observaciones Oi que caen en cada clase y las frecuencias esperadas Ei basadas en la distribución ajustada. Una estadística chi-cuadrada es calculada de acuerdo a (Oi − Ei ) X =∑ Ei i =1 2
k
2
(5)
y comparada a una distribución chi-cuadrada con (k-3) grados de libertad. © 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 8
STATGRAPHICS – Rev. 9/14/2006 Prueba Shapiro-Wilks - Esta prueba, es disponible cuando 2 ≤ n ≤ 2000, usa una estadística derivada de calcular que tan bien los datos caen a lo largo de la línea recta en una grafica de probabilidad normal. En el cálculo de la estadística y su P-valor, STATGRAPHICS usa el método de Roysten como en la Sección 1.2 de Madansky (1988). Valor-Z para Sesgo – Calcula el sesgo muestral y determina si es significativamente diferente de 0. El valor Z es calculado de acuerdo a la SU aproximación descrita en p.377 de D’Agostino y Stephens (1986) y es disponible solamente si n ≥ 8. Valor-Z para curtosis – Calcula la curtosis muestral y determina si es significativamente diferente de cero. El Z valor es calculado de acuerdo a la aproximación Anscombe y Glynn descrita en p.388 de D’Agostino y Stephens (1986) y es disponible solamente si n ≥ 20. Opciones del Panel
•
Incluir – Selecciona las pruebas que serán incluidas en la salida. Las pruebas defecto son definidas en la caja de dialogo de Ajuste de Dist. de la pestaña de Preferencias en el menú Edición.
Prueba de Bondad-de-Ajuste El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las hipótesis de interés son: •
Hipótesis Nula: los datos son muestras independientes de la distribución especificada
•
Hipótesis Alt: los datos no son muestras independientes de la distribución especificada
La prueba que será corrida es seleccionada usando las Opciones del Panel. Las primaras 2 pruebas en general pueden ser aplicadas a cualquier conjunto de datos:
© 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 9
STATGRAPHICS – Rev. 9/14/2006 Pruebas de Bondad-de-Ajuste para ppm Prueba Chi-Cuadrada Gamma Lognormal Chi-Cuadrada 8.53197 10.0639 G.l. 15 15 Valor-P 0.900692 0.815699 Prueba de Kolmogorov-Smirnov Gamma Lognormal DMAS 0.077951 0.0441855 DMENOS 0.0905791 0.0953022 DN 0.0905791 0.0953022 Valor-P 0.835346 0.786792
Normal 34.575 15 0.00282556
Normal 0.181741 0.123694 0.181741 0.0896715
Weibull 8.53191 15 0.900694
Weibull 0.0889679 0.0833416 0.0889679 0.850863
Prueba Chi-Cuadrada – Esta prueba divide el rango de X en k intervalos y compara los conteos observados Oj = numero de datos observados en el intervalo j a el numero esperado dada la distribución ajustada Ej = numero esperado de datos en el intervalo j. La prueba estadística es dada por k
χ =∑ 2
j =1
(O
− Ej )
2
j
(6)
Ej
la cual es comparada a una distribución chi-cuadrada con k-p-1 grados de libertad, donde p es el numero de parámetros estimados cuando ajustamos la distribución seleccionada. Para una distribución discreta, los intervalos son formados tomando cada valor único de X y agrupando valores juntos de cada extremo, formando intervalos con valores esperados Ej ≥ 2. Para una distribución continua, intervalos equiprobables son formados (intervalos con igual Ej) y k se selecciona para alcanzar el mas grande numero de intervalos con Ej ≥ 2. P-valores pequeños permiten rechazar la distribución supuesta. En la tabla anterior, la prueba rechaza la hipótesis de una distribución normal en un nivel de significancia del 1% ya que el P-valor is menos que 0.01. Aunque, las demás distribuciones son candidatos razonables. Prueba Kolmogorov-Smirnov – Esta prueba compara la distribución de acumulación de los datos a la distribución de acumulación ajustada (como se muestra en la grafica Cuantil enseguida). Este primero evalúa la distribución de acumulación ajustada en cada uno de los datos: z ( i ) = Fˆ (x( i ) )
(7)
y entonces calcula y muestra el máximo de las distancias de la c.d.f. empírica por encima de la c.d.f. ajustada
© 2006 por StatPoint, Inc.
Ajustando Distribución (Datos No Censurados) - 10
STATGRAPHICS – Rev. 9/14/2006 (8)
⎧i ⎫ D + = max ⎨ − z (i ) ⎬ i ⎩n ⎭
y el máximo de las distancias de la c.d.f. empírica por debajo de la c.d.f. ajustada. i − 1⎫ ⎧ D − = max ⎨ z (i ) − ⎬ i n ⎭ ⎩
(9)
La estadística Kolmogorov es la más grande de las dos distancias
(
D = max D + , D −
)
(10)
Un P-valor aproximado es entonces calculado. En la tabla anterior, ninguna de las distribuciones es rechazada por la prueba en un nivel de 5% significancia. Las otras 5 pruebas, 2 dos de las cuales son mostradas enseguida, tienen ambas una forma estándar y una forma modificada: D de Kolmogorov-Smirnov Modificada Gamma Lognormal D 0.0905791 0.0953022 Forma Modificada 0.633302 0.666324 Valor-P >=0.10* >=0.10*
Normal 0.181741 1.26667 =0.10*
Anderson-Darling A^2 Gamma Lognormal Normal Weibull A^2 0.331698 0.322124 1.87405 0.372536 Forma Modificada 0.322124 1.90586 0.383404 Valor-P * >=0.10* 0.0000734208* >=0.10* *Indica que el Valor-P se ha comparado con tablas de valores críticos especialmente construida para ajustar la distribución seleccionada. Otros valores-P están basados en tablas generales y pueden ser muy conservadores (excepto para la Prueba de chicuadrada).
La “forma modificada” de la estadística es especificada a la distribución que es ajustada. Para determinar si rechazamos una distribución especificada, una de las dos aproximaciones es tomada: 1. En muchos casos, la estadística modificada es comparada a la tabla de valores críticos que ha sido obtenida a través de estudios Monte Carlo. En tal caso, la salida desplegara una de las siguientes: “>=0.10” si la estadística es menor o igual al valor tabulado para α=0.10. “