2. MODELOS PROBABILISTICOS

2. MODELOS PROBABILISTICOS 2.1 2.1.1 Funciones de Probabilidad Variable Discreta Un modelo probabilístico de un experimento requiere asociar un valo

166 downloads 197 Views 183KB Size

Recommend Stories


MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: OLIGOPOLIO
01/01/2002 UNIDAD 2 MODELOS DE COMPETENCIA IMPERFECTA TEMA 2: OLIGOPOLIO Ideas preliminares acerca del oligopolio Juan Pablo Sucre Reyes 1 01/0

Modelos Científicos y Modelos Sociales:
Modelos Científicos y Modelos Sociales. Andrés Monares A Parte Rei 20 Modelos Científicos y Modelos Sociales: La influencia de Newton en el Neoliber

BASES DE DATOS TEMA 2 MODELOS DE DATOS
BASES DE DATOS TEMA 2 MODELOS DE DATOS Un modelo de datos es una serie de conceptos que puede utilizarse para describir un conjunto de datos y las ope

Story Transcript

2. MODELOS PROBABILISTICOS 2.1 2.1.1

Funciones de Probabilidad Variable Discreta

Un modelo probabilístico de un experimento requiere asociar un valor de probabilidad a cada punto del espacio muestral. En el caso de las variables aleatorias discretas, la función que asocia una probabilidad a la variable se denomina función de probabilidad de masa (fpm), y se designa por px(x0) . Esta función representa la probabilidad que la variable aleatoria X tome el valor x0 en la realización del experimento. Usualmente, la función de probabilidad de masa se representa por un gráfico de barras para cada valor de la variable aleatoria. Cualquier función matemática es una posible función probabilidad de masa siempre que cumpla las siguientes dos propiedades que se derivan directamente de los axiomas de probabilidad. En primer lugar, su valor debe estar comprendida entre 0 y 1 ya que representa una probabilidad, y en segundo término la sumatoria para todos los posibles valores de x debe ser unitaria, ya que representa la probabilidad del evento universal. El concepto de función probabilidad de masa puede extenderse al caso de varias variables. En especial, para dos variables, se define la función de probabilidad de masa compuesta, como la probabilidad que los valores experimentales de la variable aleatoria X e Y, al realizar un experimento sean iguales a x0 e y0 respectivamente y se designa por pXY (x0, y0). Análogamente al caso anterior, esta función tiene las siguientes propiedades :

∑∑ p ∀x ∀y

∑p ∀x

XY

XY

( x 0 , y0 ) = 1

( x0 , y0 ) = pY ( y0 )

∑p ∀y

XY

( x0 , y0 ) = p X ( x0 )

Las funciones pX(x0) y pY(y0) se denominan funciones de probabilidad de masa marginales. Dos conceptos adicionales de gran utilidad son la función de probabilidad acumulada o función distribución acumulada (FDA) y la noción del valor esperado. Se define función distribución acumulada (FDA) a la función que establece la probabilidad

que la variable aleatoria X tome valores menores o iguales a un valor dado en la realización del experimento. Prob( X ≤ x0 ) = PX ( x0 ) = ∑ p X ( x0 ) ∀x

Esta función es siempre positiva, está comprendida entre 0 y 1 y es creciente, debido a los axiomas de probabilidad y a las propiedades de la función probabilidad de masa. El valor esperado de una función bi-unívoca de una variable aleatoria X es la sumatoria para todos los posibles valores de X del producto de la función por la fpm evaluada en el mismo punto que la función. E {g( x )} = ∑ g( x0 ) ⋅ p X ( x0 ) ∀x

En particular, son importantes algunos casos especiales de la función g(x) como ser el valor esperado de potencias enteras de x, los cuales se denominan momentos de x. Se puede definir también, la potencia centrada con respecto al valor esperado o momento central n-ésimo de x. El primer momento de x se conoce también como valor esperado o promedio de x (E(x)) y el segundo momento central se conoce como varianza de x (sx2) : E ( x n ) = ∑ x n ⋅ p X ( x0 ) ∀x

E ( x ) = ∑ x0 ⋅ p X ( x0 ) ∀x

sx2 = {E ( x − E ( x )) 2 } = ∑ ( x0 − E ( x)) 2 ⋅ p X ( x0 ) ∀x

2.1.2

Variable Continua

La probabilidad asociada a una variable continua, está representada por la función densidad de probabilidades (fdp). Si X es una variable aleatoria continua en el rango -∞ a + ∞ se define : b

Prob(a ≤ x ≤ b) =

∫f a

X

( x )dx

Siendo fX(x) = la función densidad de probabilidades. La integral representa el área marcada (Figura 2.1), la cual es igual a la probabilidad que el valor de la variable aleatoria x esté comprendido en el intervalo a, b. Esta función tiene la propiedad de ser positiva y de encerrar un área unitaria bajo ella al ser integrada para todo el rango de la variable aleatoria. Es decir, se cumple que : +∞

0 < fX(x) < + ∞



y

f X (x) dx = 1

−∞

f x (x)

x a

b

Ilustración 2.1.2.1: Área que representa la Prob (a ≤ x ≤ b). Es importante recalcar que en este caso la probabilidad de un evento, está asociada al área bajo la curva de la función densidad de probabilidades y no al valor de la función, lo cual implica que siendo X una variable continua, la probabilidad asociada a un valor específico es nula y sólo se puede hablar de probabilidad asociada a un intervalo de la variable. Se define función de distribución acumulada (FDA) de la variable X a la probabilidad de que la variable aleatoria sea menor o igual a un valor dado: xo

Prob(x < x0) = FX (x0) =



−∞

f x (x) dx

La función distribución acumulada mide la probabilidad que en una realización cualquiera de un experimento el valor de la variable sea menor o igual al valor x0 y tiene las siguientes propiedades: Fx (+∞) = 1

Fx (-∞) = 0

Prob(a < x < b) = Fx (b) - Fx (a) Fx (b) > Fx (a) para b > a dFX ( x ) = f X ( x) dx Si un experimento queda definido por varias variables aleatorias, entonces las probabilidades se determinan mediante una función densidad de probabilidades compuesta. Los valores esperados y los momentos se calculan mediante la integración del producto de la función densidad de probabilidades por la función para todo el rango de la variable aleatoria. +∞

E(g(x)) =



-∞

g(x) fX(x) dx

o bien en el caso de dos variables : E(g (x,y)) =

+∞

+∞

-∞

-∞

∫ ∫

g (x, y) f(x,y) dx dy

En la Tabla 2.1 se resumen las expresiones para las funciones densidad de probabilidades y funciones de distribución acumulada para los modelos de uso habitual en los estudios hidrológicos.

Tabla 2.1.2.1: Funciones densidad y probabilidad acumulada Función densidad de probabilidades f (x ) o Función distribución acumulada F (x)

Distribución

 −  xα− β   F (x ) = exp− e     

Valores extremos tipo I (Gumbel o EV1)

Valores extremos generalizados (GEV)

1    x − u  F (x ) = exp− 1 − k    α   

Rangos de variable aleatoria y parámetros

−∞ ≤ x ≤ ∞ α >0

k

  

α >0 α u + ≤ x ≤ ∞ Si k < 0 k α −∞ < x ≤u+ Si k >0 k

β −1

 x −γ    a   x −γ   f (x ) = exp−  a Γ(β ) a  

Pcarson Tipo III

Si α > 0

x≤γ

Si α < 0

β −1 ( x / a)  x f (x ) = exp −  α Γ(β )  a

Gama: Pearson Tipo III con γ = 0 Exponencial: Pearson Tipo III con β = 1

Lognormal-2 (LN2)

x≥γ

f (x ) =

f (x ) =

1  x −γ  exp −  a a  

 1  log x − α  2  1   exp−  β 2πβx    2 

γ ≤x

0< x

Función densidad de probabilidades f (x ) o Función distribución acumulada F (x)

Distribución

Lognormal-3 (LN3) Valores extremos de dos componentes (TCEV) Wakeby (WAK)

2.2

f (x ) =

Rangos de variable aleatoria y parámetros

 1  log(x − γ ) − α  1  exp−  β 2πβ .(x − γ )  2   γ 0 θ1 > 0

)

θ2 > 0

x = m + a 1 − (1 − F (x )) − c 1 − (1 − F (x )) b

−d

]

Estimación de Parámetros

Los modelos probabilísticos constituyen herramientas matemáticas para manejar variables aleatorias y para asociar probabilidades a los distintos valores de ellas. El hidrólogo al trabajar con registros observados requiere elegir el modelo más adecuado para representar la muestra y además estimar los parámetros del modelo seleccionado. Una vez elegido el tipo de modelo a emplear, se debe estimar, utilizando los registros observados, los parámetros del modelo, para lo cual existen diversos procedimientos. Las metodologías usuales para ello son el método de máxima verosimilitud, el método de los momentos, y el método de momentos ponderados por probabilidad 2.2.1

Método de máxima verosimilitud

Se define como función de verosimilitud de n variables aleatorias x1, x2, x3,.........xn a la función densidad de probabilidad conjunta de las n variables, g(x1, x2, x3,........xn, Q). En particular, si x1, x2,......., xn es una muestra aleatoria de la función densidad f(x,Q) entonces, la función verosimilitud es: L(Q) = g(x1, x2,..., xn, Q) = f(x1,Q) f(x2, Q) ...... f(xn,Q)

La función de verosimilitud da entonces la probabilidad que las variables aleatorias tomen valores particulares x1, x2,....... xn. Si Θ es el valor de Q que maximiza L(Q) entonces, se dice que Θ es el estimador de máxima verosimilitud de Q. El estimador de máxima verosimilitud es la solución de la ecuación que anula la primera derivada de la función de verosimilitud con respecto al parámetro. Para facilitar la búsqueda del parámetro, se aprovecha la condición que las funciones L(Q) y su logaritmo tienen sus máximos para el mismo valor de Q, ya que en algunos casos es más simple encontrar el máximo del logaritmo de la función. El procedimiento de máxima verosimilitud tiene ventajas teóricas para la estimación de los parámetros de un modelo, cuando las muestras son de tamaño grande, pues entrega estimadores no sesgados, lineales y de mínima varianza. El cálculo de los parámetros de los distintos modelos por este procedimiento es más complejo que por otros métodos, pues generalmente se debe resolver la ecuación resultante por métodos iterativos, para encontrar el valor de los parámetros que maximizan la función logarítmica presentada. Este cálculo requiere resolver el sistema de ecuaciones que se forma al igualar a cero la primera derivada de la función de verosimilitud o del logaritmo de dicha función, con respecto a cada uno de los parámetros. En la Tabla 2.2 siguiente se muestran las expresiones para el logaritmo de la función de verosimilitud de varios modelos probabilísticos.

Tabla 2.2.1.1:Logaritmo de las funciones de verosimilituD

Modelo

Logaritmo natural de la función 1 n  ln xi − α   − n ln 2π − n ln β − ∑ ln xi − ∑  2 i =1  β i =1 

Log-normal-3

1  ln (xi − γ ) − α   − n ln 2π − n ln β − ∑ ln(xi − γ ) − ∑  2  β 

n

Valores Extremos I

Valores Extremos Generalizada

  k (xi − u )   n ln α − ∑ exp ln1 − α i =1   

1/ k

  k (xi − u )   − (1 − k )∑ exp − ln1 − α  i =1   n

Gama-2

1/ k

n

n

i =1

i =1

− n ln Γ(α ) − nα ln β + (α − 1)∑ ln xi − ∑ n

Pearson Tipo III

2

n (x − β ) 1 n xi − β −∑ − ∑e − i α i =1 α α i =1

n ln

n

xi β

− n ln Γ(α ) − nα ln β + (α − 1)∑ ln (xi − γ ) − ∑ i =1

2.2.2

2

Log-normal-2

xi − γ β

Método de los momentos

Este método se apoya en un teorema fundamental de la teoría de muestreo que expresa que los momentos de la muestra son buenos estimadores de los momentos de la población o universo. En consecuencia, este método establece que dado un conjunto de observaciones x1, x2, .... xn de la variable aleatoria x, un buen estimador del promedio del universo es el promedio de la muestra:

xbar =

1 n ∑x n i =1 i

mientras que el estimador de la varianza σ2 es la varianza de la muestra S2. S2 =

1 n ∑ ( x − xbar ) 2 n i =1 i

o bien, un estimador no sesgado es : 1 n S = ( xi − xbar ) 2 ∑ n − 1 i =1 2

Se pueden encontrar ecuaciones similares para los momentos de orden superior, siendo los dos primeros momentos suficientes para las distribuciones de dos parámetros. No siempre los parámetros de una distribución son exactamente iguales a los dos primeros momentos. Sin embargo, los parámetros son funciones de los momentos y puede resolverse el sistema de ecuaciones resultante para encontrar los parámetros. En general la estimación de los parámetros de una muestra utilizando el procedimiento de los momentos es el más sencillo, pues requiere obtener de la muestra los estimadores de tantos momentos como parámetros tenga el modelo de distribución. En seguida se forma un sistema de ecuaciones igualando los estimadores calculados de la muestra con los correspondientes momentos del universo o población. Así se forma un sistema de tantas ecuaciones como parámetros hay que estimar. En la Tabla 2.3 se muestran las expresiones para calcular los parámetros de varios modelos probabilísticos usando el método de los momentos. Las expresiones están en función del promedio de la muestra (xbar) , la desviación estándar (S), el coeficiente de variación (Cv) y el coeficiente de asimetría (g1). El promedio y la varianza de la muestra son a su vez, variables aleatorias, y como tal, puede estudiarse su valor medio, su varianza y su distribución. En especial, es importante la relación entre ellos y el valor esperado de la variable x. Se puede demostrar, utilizando el teorema del Límite Central, que el valor esperado del promedio de la muestra es igual al promedio de la variable aleatoria x y que la varianza del promedio o error medio cuadrático es σ2/n. Una estimación puntual de un parámetro es a veces poco conveniente, ya que rara vez coincide con el parámetro. Por esta razón, se prefiere a veces, realizar una estimación mediante un intervalo (I, S) en el cual I es el límite inferior y S es el límite superior del intervalo. Este intervalo se denomina intervalo de confianza o de significación del estimador.

Tabla 2.2.2.1:Parametros de los modelos de distribucion Modelos

Parámetro α

Parámetro β

xbar

S

Normal Log-normal-2

σ  1 ln  − ln 1 + C v2 z 2

(

)

Parámetro γ

ln(1 + C v2 ) xbar (1 − C v / z )

Lognor mal-3

Valores Extremos I Gama-2 Pearson III

2.2.3

σ ln z

(

 1 2  − ln 1 + C v  2

)

ln(1 + C v2 )

1,2825 / σ

xbar − 0,45005σ

xbar S 2

S 2 xbar

S

(2 g1 )2

β

2 1 z = 1 − w 3  / w 3   w = 1 * − g + g2 + 4 2

(

)

xbar − S β

Método de Momentos Ponderados por Probabilidad

Greenwood y otros autores (1979) recomendaron estimar los parámetros de diversas distribuciones mediante el método de momentos ponderados por probabilidad (MPP), ya que este procedimiento tiene características preferibles al de máxima verosimilitud o de momentos convencionales, cuando el tamaño de la muestra es limitado. Los momentos ponderados por probabilidad se definen como el valor esperado del producto de tres términos: la variable aleatoria (x), la función de distribución acumulada (F(x)) y el complemento de esta función. De esta forma el MPP de orden l, j, k se calcula mediante la siguiente expresión: l

M i , j ,k = E ( x i F j (1 − F ) k ) = ∫ x i F j (1 − F ) k dF 0

Los momentos convencionales son un caso especial de los MPP, ya que en ellos el exponente i es unitario y los otros dos exponentes son nulos.

Para facilitar el cálculo de los MPP se usan valores particulares para los exponentes. Por ejemplo, para la distribución Wakeby se recomienda usar un valor unitario para el exponente i y nulo para el exponente j. En este caso se denomina M1.0.k al MPP de orden k, y se designa simplemente por Mk (Greenwood et al., 1979). Para las distribuciones de valores extremos generalizados y tipo I se recomienda un exponente unitario para i y nulo para k, obteniéndose los momentos Mj. Landwehr y otros autores (1979a) recomiendan calcular estimadores de los MPP a partir de la muestra, utilizando la siguiente expresión, que entrega MPP sesgados para k positivo, en función del tamaño de la muestra (n), de los valores de caudales ordenados en forma creciente (xi) y del número de orden (i) de cada valor en la lista: Mk =

1 n ∑ x ((n − i + 0,35) / n) k n i =1 i

Los autores nombrados también exploraron el empleo de estimadores sin sesgo para los MPP, pero reportan que los estimadores moderadamente sesgados proporcionan mejores resultados, particularmente al estimar los valores de los cuantiles superiores, lo cual es especialmente relevante en el contexto del análisis de frecuencia de crecidas. Para encontrar estimadores con este método, se debe establecer una igualdad entre los momentos ponderados del modelo y los correspondientes de la muestra, formándose un sistema de ecuaciones con tantas ecuaciones como parámetros hay que estimar. Los momentos de la muestra se calculan ponderando cada valor por la probabilidad Fi : Fi =

i − 0,35 N

El índice i representa el número de orden de cada valor de la muestra ordenada en valores crecientes, es decir, i vale uno para el valor más pequeño. Los momentos se estiman por las expresiones siguientes (Hosking et al., 1985) : 1 M$ j = N

N

∑F i =1

i

j

xi

o bien 1 N $ M K = ∑ (1 − Fi ) k xi N i =1

Los momentos ponderados del universo o población dependen del modelo probabilístico que se emplee. A continuación se incluyen las expresiones para diferentes modelos.

Tabla 2.2.3.1 :Momentos ponderados por probabilidad Distribución EV1

Distribución inversa y fórmula de MPP x = β + α (− In − InF ), M1 j0 =

GEV

Wakeby

{

}

(

[

[

] )

] [

x = m + a 1 − (1 − F ) − c 1 − (1 − F ) M 10 k =

2.3

β α {1n(1 + j ) + 0,57721} + 1+ j 1+ j

α k 1 − (− ln F ) k 1 −k = u + α 1 − ( j + 1) Γ(1 + k ) / k 1+ j

x=u+ M 1 jo

F=Prob ( X ≤ x )

b

−d

],

m a−c a c + − + 1+ k 1+ k 1+ k + b 1+ k − d

Selección de Modelos

El único procedimiento para verificar el comportamiento de un modelo matemático, ya sea probabilístico o determinístico, es comparar las predicciones efectuadas por el modelo con observaciones de la realidad. Si el modelo es determinístico, y no existe error experimental, entonces la comparación con los valores observados es simple y concluyente.

Sin embargo, en el caso de modelos probabilísticos, debido a la naturaleza misma del modelo, las observaciones son sólo una muestra de la realidad, y en consecuencia una repetición del ensayo puede dar un resultado diferente. Resulta, pues, poco probable encontrar una correspondencia exacta entre modelo y realidad, aún cuando las hipótesis sean válidas. Por ello, es necesario definir la magnitud de la discrepancia que puede obtenerse sin que sea necesario desechar la hipótesis estudiada. Al ser la variable observada una variable aleatoria, pueden producirse grandes diferencias, aun cuando ello sea poco probable. Por otro lado, una correspondencia entre la predicción y la observación tampoco es suficiente para garantizar que la hipótesis sea cierta. En la elección de un modelo probabilístico, es conveniente considerar todo el conocimiento que se tenga sobre la variable. Por ejemplo, puede haber ciertas limitantes físicas que hagan imposible la existencia de valores negativos, valores límites, etc. Si el modelo no concuerda con estas limitantes, cabe entonces, preguntarse si esas discrepancias son o no importantes, al adoptar un determinado modelo. Otra medida cualitativa sobre la bondad del modelo, es su facilidad de tratamiento matemático u operativo, la cual también conviene considerar. Fuera de estas nociones cualitativas deben considerarse ciertos aspectos cuantitativos. A saber, pueden calcularse los momentos de orden superior de la distribución y compararlos con los valores calculados a partir de la muestra. Sin embargo, es preciso tener presente que el error medio cuadrático cometido en la estimación de dichos momentos, aumenta al incrementar el orden de momento y por ello disminuye la precisión en los estimadores. También se recomienda comparar las probabilidades observadas con las calculadas con el modelo, lo cual puede realizarse gráficamente o analíticamente. 2.3.1

Métodos gráficos

Para verificar el modelo propuesto, se recurre usualmente a comparaciones gráficas entre el modelo y los datos, ya sea utilizando la función densidad de probabilidad, o bien, la distribución acumulada. En ambos casos, la comparación gráfica permite una visualización rápida del ajuste del modelo e indica las zonas en las cuales el ajuste es deficiente. Ello permite decidir sobre la bondad del ajuste, estimar los distintos percentiles de la distribución y los parámetros del modelo. Una etapa útil en el análisis es dibujar los datos en forma de un gráfico de barras. Al graficar las frecuencias observadas para cada intervalo del variable se obtiene un histograma, en el cual la altura de cada barra es proporcional al número de observaciones en ese intervalo. Este gráfico entrega al ingeniero un cuadro inmediato de las frecuencias observadas en cada intervalo y su comparación con el modelo propuesto. Para estudiar el ajuste de los datos al modelo, se procede a graficar la curva de distribución acumulada. Para facilitar la decisión se acostumbra a usar un papel especial de

modo que el modelo probabilístico se representa en él por una recta. Para ello, se deforma la escala de las abscisas de modo de estirar los extremos de la distribución. Para preparar un gráfico de probabilidades para un conjunto de valores se sigue el siguiente procedimiento : i) Se obtiene un papel especial, llamado papel de probabilidades, diseñado para el modelo en estudio. Existen papeles para la distribución normal, log-normal y valores extremos tipo I. ii) Se ordenan las observaciones en orden creciente en magnitud. iii) Se grafican las observaciones en el papel de probabilidades, asignándoles a cada una, una probabilidad o posición de ploteo. Existen varias posiciones de ploteo y en la actualidad una de las preferidas es la propuesta por Weibull, que entrega un estimador no sesgado de probabilidad. En este caso la probabilidad se calcula con la siguiente expresión: Prob( x ≤ X ) =

m n +1

siendo

m = número de orden n = número de datos.

Se utiliza también el concepto de período de retorno que se define como el tiempo para el cual en promedio se produce un evento igual o superior al considerado. Es decir, Tr =

1 1 − Prob( x ≤ X )

o bien, Tr = iv)

n +1 n−m

Si los puntos graficados se ajustan a una recta, entonces el modelo elegido representa un buen ajuste y se traza la recta en forma visual. Si los puntos no representan una tendencia lineal, entonces el modelo elegido no es adecuado.

2.3.2

Métodos cuantitativos

Los métodos anteriores permiten juzgar en forma gráfica la bondad del ajuste de los datos a un determinado modelo probabilístico. Sin embargo, en ciertas ocasiones es preferible contar con procedimientos cuantitativos, que permitan una decisión objetiva sobre el ajuste. A continuación se describen dos procedimientos cuantitativos: el test chi-cuadrado y el test Kolmogosov-Smirnov. Los tests de hipótesis sobre modelos de distribución cuentan con las siguientes etapas generales: Primero, se calcula un estadígrafo a partir de los datos observados. Luego, se calcula la probabilidad de obtener el estadígrafo calculado, en el supuesto que el modelo sea correcto. Esto se realiza refiriéndose a una tabla probabilística que entregue los percentiles del modelo de distribución del estadígrafo. Finalmente, si la probabilidad de obtener el valor del estadígrafo calculado es baja, se concluye que el modelo supuesto no provee una adecuada representación de la muestra. Debe hacerse notar que este procedimiento permite rechazar un modelo por no ser adecuado, pero no permite probar que el modelo probabilístico elegido sea el correcto. (a) Test Chi-Cuadrado Es el test más usado para medir la bondad de ajuste de un modelo y es aplicable estrictamente a cualquier tipo de distribución siempre que los parámetros de ella, hayan sido estimados mediante el método de máxima verosimilitud. El test consiste en comparar, en intervalos previamente definidos de la variable aleatoria, el número de casos observados en ese intervalo con el teórico, el cual es función del modelo probabilístico en estudio. Si O1, O2,.........Ok son las frecuencias absolutas observadas y E1, E2,...... Ek son las frecuencias teóricas, en cada una de las clases, se define un estadígrafo. (Oi − Ei ) 2 Χ =∑ Ei i =1 k

2

La variable X2 tiende a tener una distribución chi-cuadrado con K-S-1 grados de libertad, siendo K el número de clases o intervalos definidos y S el número de parámetros estimados en el modelo. Para que el ajuste de la distribución a la muestra sea aceptable, se requiere que el valor chi-cuadrado sea menor o a lo sumo, igual al valor teórico que toma la distribución chicuadrado para un cierto nivel de significación (normalmente 5%). Las tablas de la distribución chi-cuadrado permiten conocer el valor teórico de chi en función de los grados de libertad y del nivel de probabilidad deseado.

Se recomienda elegir un número reducido de clases de modo que el valor teórico de casos observados en cada clase sea por lo menos igual a 5 y usar clases equiprobables. (b) Test de Kolmogorov-Smirnov El test se basa en calcular el estadígrafo D definido como el valor máximo de la diferencia absoluta entre la función distribución acumulada empírica (Gn(a)) y la función distribución del modelo calculada para cada punto de la muestra (Fn(a)). En general, el estadígrafo se calcula usando las distribuciones empíricas de las muestras, de la siguiente manera : D = max {Fn (a) − Gn (a) } −∞ < a < ∞

La dócima es rechazar la hipótesis nula si D es mayor o igual que un valor crítico que depende del tamaño de la muestra y del nivel de significancia. La Tabla 2.5 presenta los valores límites para esta dócima en función del tamaño de la muestra y del nivel de significancia..

Tabla 2.3.2.1: Valores críticos para el test de kolmogorov-smirnov

Tamaño muestra n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 n>50

2.3.3

Nivel de significancia 0,20 0,90 0,68 0,57 0,49 0,45 0,41 0,38 0,36 0,34 0,32 0,31 0,30 0,28 0,27 0,27 0,26 0,25 0,24 0,24 0,23 0,21 0,19 0,18 0,17 0,16 0,15 1,07/√n

0,15 0,93 0,73 0,60 0,53 0,47 0,44 0,41 0,38 0,36 0,34 0,33 0,31 0,30 0,29 0,28 0,27 0,27 0,26 0,25 0,25 0,22 0,20 0,19 0,18 0,17 0,16 1,14/√n

0,10 0,95 0,78 0,64 0,56 0,51 0,47 0,44 0,41 0,39 0,37 0,35 0,34 0,33 0,31 0,30 0,30 0,29 0,28 0,27 0,26 0,24 0,22 0,21 0,19 0,18 0,17 1,22/√n

0,05 0,98 0,84 0,71 0,62 0,56 0,52 0,49 0,46 0,43 0,41 0,39 0,38 0,36 0,35 0,34 0,33 0,32 0,31 0,30 0,29 0,26 0,24 0,23 0,21 0,20 0,19 1,36/√n

0,01 0,99 0,93 0,83 0,73 0,67 0,62 0,58 0,54 0,51 0,49 0,47 0,45 0,43 0,42 0,40 0,39 0,38 0,37 0,36 0,35 0,32 0,29 0,27 0,25 0,24 0,23 1,63/√n

Consideraciones adicionales

No existe ninguna justificación teórica absoluta que apoye la elección de un determinado modelo probabilístico o de un determinado método de estimación de parámetros. El hidrólogo deberá en cada caso seleccionar la mejor alternativa apoyado en argumentos de diversa índole. En relación con la estimación de parámetros de los modelos, el método de máxima verosimilitud, tiene ventajas teóricas que se alcanzan en forma asintótica al aumentar el tamaño de la muestra. Sin embargo, se ha demostrado en experimentos de simulación con muestras pequeñas que otros procedimientos tienen mejores propiedades en estos casos.

No obstante lo anterior, existen algunos elementos que ayudan a seleccionar los modelos más adecuados en un caso particular. Los argumentos se basan en la naturaleza de los datos, en los resultados de tests estadísticos, en representaciones gráficas de la distribución de frecuencia acumulada y en la comparación de los histogramas. Adicionalmente en ciertos casos existen situaciones especiales que hacen que determinados modelos no sean aplicables, por producirse contradicciones entre la muestra y los algoritmos de cálculo o la esencia del modelo de distribución. Algunos de estos casos son, por ejemplo, no usar transformaciones o modelos de tipo logarítmico cuando la muestra tiene valores nulos. En consecuencia, en estos casos se desaconseja el uso de los modelos log-normal, gama, gumbel, valores extremos generalizados y log-Pearson tipo III. Si el estimador del coeficiente de asimetría es superior a 2 en valor absoluto, no se pueden calcular los parámetros de la distribución log-normal-3 y Pearson tipo III por el método de máxima verosimilitud. Por otra parte, se aconseja usar: •

• •



la distribución normal cuando las razones entre el coeficiente de asimetría y su error estándar, y cuando la razón entre el coeficiente de kurtosis menos tres y su error estándar son inferiores a 2 en valor absoluto, ya que en el 98% de los casos se debe cumplir esta condición si las variables son normales. Sin embargo, esta situación puede no ser muy decisiva si las muestras son pequeñas los modelos log-normal, de dos y tres parámetros cuando se cumple la condición anterior aplicada a los logaritmos de los valores. distribuciones de valores extremos tipo I y/o valores extremos generalizados, cuando se estudian valores máximos anuales o valores superiores a un umbral o un cierto números de máximos en cada año, siempre que se trate de muestras con coeficiente de asimetría positivo. distribución gama o Pearson tipo III cuando el coeficiente de asimetría es positivo.

Get in touch

Social

© Copyright 2013 - 2025 MYDOKUMENT.COM - All rights reserved.