RESUMEN

La estimación de los periodos de retorno se desarrolla para duraciones máximas de precipitación de 1 día, 2 días y picos continuos sucesivamente mayores, hasta tamaños de duración de 1 año. Son indispensables para determinar las máximas profundidades de precipitación anual de acuerdo con el mejor ajuste de las distribuciones probabilísticas, son de gran utilidad para el desarrollo de los diferentes estudios hidrológicos que requieren una región. La presente investigación tiene como propósito determinar los periodos de retorno de la precipitación máxima anual en un periodo de 24 horas, de la estación meteorológica La Playa en Norte de Santander, para lo cual se realizó el análisis de frecuencia mediante la prueba de bondad y ajuste, Chi cuadrado, teniendo como hipótesis nula una distribución normal, la cual fue aceptada. Posteriormente, se analizó mediante el software Minitab el tipo de distribución que tenían los datos estableciendo que la normal, lognormal, Weibull, logística, Gamma y el valor extremo por máximos se ajustan a ellos.

Palabras clave: Precipitación, periodo de retorno, distribución, análisis de frecuencia.

ABSTRACT

The estimation of return periods is developed for maximum rainfall durations of 1 day, 2 days and successively larger continuous peaks, up to 1 year duration sizes. They are indispensable to determine the maximum annual precipitation depths according to the best adjustment of the probabilistic distributions and are very useful for the development of the different hydrological studies required by a region. The purpose of this research is to determine the return periods of the maximum annual precipitation in a 24-hour period, of the La Playa meteorological station in Norte de Santander, for which the frequency analysis was carried out by means of the goodness-of-fit test, Chi-square, having as null hypothesis a normal distribution, which was accepted. Subsequently, the Minitab software was used to analyze the type of distribution of the data, establishing that the normal, lognormal, Weibull, logistic, Gamma and extreme value by maximums fit them.

Keywords: Precipitation, return period, distribution, frequency analysis.

1. Introducción
La lluvia hace parte del ciclo hidrológico y se considera como la principal fuente de agua para la tierra. Su estudio en una región es de vital importancia, pues si esta es demasiado alta en comparación con la tasa de infiltración del suelo, provoca una mayor cantidad de escorrentía, lo que resulta en deslizamientos de tierra, inundaciones y desastres por escombros [1], sumado a esto, se deben tener en cuenta los efectos causados por el calentamiento global, la contaminación ambiental y las fallas geológicas que se pueden generar [2].

Es necesario conocer la distribución máxima de precipitación que se genera en una cuenca hidrográfica, ya que se requiere para el diseño, control y gestión de estructuras hidráulicas tales como: aliviaderos, lagunas de retención, presas, entre otras. Siendo así que, la estimación de precipitaciones para diferentes periodos de retorno es muy importante en el diseño de estas [3].

De acuerdo con lo anterior, la precipitación esperada en diferentes periodos de retorno se determina a través del análisis de probabilidad y frecuencia de datos de lluvia [4], es de resaltar que el uso de parámetros estadísticos es indispensable en este tipo de proyectos [5].

Los pluviómetros proporcionan los registros de precipitación de una región, y con estos datos se puede realizar el análisis de frecuencia, aunque es necesario probar una serie de modelos, como normal, log-normal de dos parámetros, log-normal de tres parámetros, Person III, Gumbel, log Gumbel, etc; para llegar al modelo adecuado en la estimación de la cantidad de lluvia en diferentes períodos de retorno en cualquier estación [3].

La elección de un modelo de distribución apropiado es uno de los principales problemas en la práctica de la ingeniería. Esta selección depende principalmente de los datos de lluvia disponibles en un sitio en particular. Es por ello, que para encontrar un modelo de distribución adecuado que proporcione estimaciones precisas de precipitaciones extremas, es necesario evaluar los modelos de distribución disponibles [6].

La presente investigación realizó un análisis de frecuencia de los datos de precipitación de la estación pluviométrica del Municipio de La Playa en Norte de Santander, donde se evaluó la probabilidad de la precipitación máxima anual basada en una muestra de veinticuatro horas, usando diferentes modelos de distribución con base en los puntajes de las pruebas de bondad de ajuste, que se pueden utilizar para investigaciones futuras.

2. Explicaciones argumentadas
Muchos de los trabajos que se han reportado a nivel mundial indican que es necesario realizar un análisis de frecuencia y una correcta elección de la distribución que mejor se ajuste a los datos ya que esto permite obtener resultados confiables. En la Tabla 1 se pueden observar algunas de las investigaciones que se han realizado.

Tabla 1. Investigaciones realizadas mediante análisis estadísticos.

3. Metodología

3.1 Sitio de estudio

Los datos de precipitación máxima anual en un día fueron tomados de la estación LA PLAYA (8°16’20.3”N 73°12’05.3”W), ubicada a 27 kilómetros del casco urbano de la ciudad de Ocaña, desde el año 1985 hasta 2019 (ver Figura 1). En la Tabla 2, se pueden observar los datos obtenidos del portal: Consulta y Descarga de Datos Hidrometeorológicos del Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM).

Tabla 2. Datos de Precipitación Anual Máxima.

En la Figura 2 se puede observar la variación de la precipitación anual máxima de la estación a través del tiempo.

3.2 Prueba de datos dudosos

Antes de realizar el análisis de frecuencias, se debe hacer una prueba de Outliers o Datos Dudosos para determinar si existen datos que se alejen de la tendencia de la información y que afecten los parámetros estadísticos, los cuales pueden deberse a errores en la toma del registro o aquellos que causan dificultad en las distribuciones. La Ecuación 1 y 2 permiten determinar el umbral alto y bajo de los datos de precipitación.

Descargar

Donde yH es el umbral de datos dudosos alto, yL es el umbral de datos dudosos bajo y kn depende del tamaño de la muestra, tal y como se indica en la Tabla 3.

Tabla 3. Valores de Kn para la prueba de datos dudosos.

3.3 Análisis de frecuencia

3.3.1 Número de intervalos de clase.El Número de intervalos de clase de una serie de datos menor a 200 se puede establecer mediante la Ecuación 3.

Descargar

3.3.2 Amplitud de los intervalos de clase. La amplitud o longitud de los intervalos de clase de los datos se obtiene mediante la Ecuación 4.

Descargar

3.3.3 Media. La media o promedio de los datos se puede calcular mediante la Ecuación 5.

Descargar

3.3.4 Desviación estándar. La desviación estándar de los datos se puede calcular mediante la Ecuación 6.

Descargar

3.3.5 Prueba de bondad y ajuste (Chi Cuadrado). Se basa en el cálculo de frecuencias tanto de valores observados, como esperados. El objetivo es determinar si los datos proceden de una distribución normal para un nivel de confianza del 95 %, para ello se plantea la hipótesis nula y alternativa de la siguiente manera:

H_o = Los datos se ajustan a una distribución normal

H_i = Los datos no se ajustan a una distribución normal

Para realizar la prueba de bondad y ajuste con este método, la expresión está dada por la Ecuación 7:

Descargar

x²_c : Valor calculado de Chi-Cuadrado a partir de los datos

θi: Número de valores observados en el intervalo de clase i

ei: Número de valores esperados en el intervalo de clase i

k: Número de intervalos de clase

El valor de x^c 2 se compara con x_T² cuyo valor se determina con el nivel de significancia y los grados de libertad.

Para el caso de la precipitación como el nivel de confianza es del 95 %, el nivel de significancia es α=0.05

Los grados de libertad = v = k-1-h, donde h = 1 para una distribución normal.

Dado que la media y la desviación estándar pueden tomar valores infinitos, se hace impracticable tabular las probabilidades para todas las distribuciones normales, por lo tanto, se utiliza la distribución normal reducida (Ecuación 8).

Descargar

4. Resultados

4.1 Análisis de datos dudosos

De acuerdo con la Ecuación 1 el umbral alto para los datos es:

Descargar

Para el caso del umbral bajo se tiene en cuenta la Ecuación 2:

Descargar

Con base en lo anterior, los datos de precipitación deben encontrarse entre 17.5751 mm y 138.2234 mm. En la Figura 3, se puede observar que todos los datos de la serie se encuentran dentro de dicho rango a excepción del año 1997 que presenta una precipitación de 14.4 mm.

Para determinar si el dato de 14.4 mm presentaba errores de acuerdo con el cálculo anterior que demostró que era dudoso, se realizó una investigación, la cual consistió en determinar que fenómeno hidrológico sucedió durante ese año y las precipitaciones en las estaciones cercanas tal y como se puede observar en la Tabla 4.

Tabla 4. Precipitación en estaciones cercanas.

Se evidencia de esta manera de que a pesar de que durante el año 1997 Colombia atravesó una sequía debido al fenómeno del niño, las estaciones cercanas no registraron un dato tan bajo y por tal motivo se considera dudoso y se elimina de la estación.

4.2 Análisis de frecuencia

Luego de realizarse el análisis de la información y su ajuste de acuerdo con los datos dudosos que presentaba la estación, se procede a realizar el análisis de frecuencia. 4.2.1 Cálculo del número de intervalos de clase. Se procede a calcular el número de intervalos de clase que presentan los datos de la estación ajustada, mediante la Ecuación (3), la cual arroja un valor de seis (6).

4.2.2 Cálculo de la amplitud de cada intervalo. Una vez calculado el número de intervalos de clase, se determina la amplitud que existe entre estos, mediante la Ecuación (4), arrojando un resultado de 13.24.

4.2.3 Cálculo de la frecuencia acumulada. En la Tabla 5, se puede observar el cálculo realizado para determinar la frecuencia acumulada de los datos de la estación ajustada.

Tabla 5. Frecuencia Acumulada.

Con base en la tabla anterior se calcula la media de los datos agrupados arrojando un valor de 54.369 y una desviación estándar de 18.861.

Luego se calcula la frecuencia esperada, utilizando la distribución teórica normal, tal y como se puede observar en la Tabla 6.

Tabla 6. Cálculo de Frecuencia Absoluta.

El estadístico observado de los datos se calcula mediante la Ecuación (5), arrojando un valor de x_c² = 6.89. Luego el estadístico teórico se obtiene mediante el uso de la tabla distribución Chi cuadrado para tres grados de libertad y una probabilidad de 0.05, obteniendo un x²_0.05;3 = 7.81.

La hipótesis nula Ho plantea que los datos se ajustan a una distribución normal y puesto que x_c² < x_T² se acepta dicha hipótesis.

4.3 Determinación del tipo de distribución empleando Minitab

Empleando el programa Minitab se realiza una prueba de normalidad para determinar si los datos siguen una distribución normal, con las siguientes hipótesis:

Ho= Los datos se ajustan a una distribución normal con una μ=53.93 y σ=18.12

Hi= Los datos no se ajustan a una distribución normal con una μ=53.93 y σ=18.12

Con un nivel de significancia de α=0.05, el programa arroja un p-value de 0.171 (Ver Figura 4), por lo tanto, se acepta la hipótesis nula de que la distribución es normal.

Por su parte, también se realiza la identificación de la distribución para diferentes tipos, tales como: normal, lognormal, lognormal de 3 parámetros, exponencial, exponencial de 3 parámetros, Weibull, Weibull de 3 parámetros, valor extremo más pequeño, valor extremo por máximos, Gamma, Gamma de 3 parámetros, logística y logística de 3 parámetros. Así como la representación gráfica de la transformación de Box-Cox con λ=0.5.

A continuación, en la Tabla 7 se presenta un resumen de todas las distribuciones y con su p-value correspondiente, el estadístico de bondad de ajuste de Anderson-Darling (AD) y un valor p para la prueba de relación de verosimilitud (LRT P).

Tabla 7. Prueba de Bondad y Ajuste.

Se puede observar que aquellos valores P (p-value) inferiores a un valor de significancia (α) de 0.05, indican un riesgo del 5 % indicando que los datos no siguen la distribución, por lo tanto, se puede afirmar que cuando el p-value es mayor a 0.05 hay evidencia de que los datos siguen la distribución. De acuerdo con esto, son varias las distribuciones que se pueden utilizar para el ajuste de los datos.

4.4 Determinación del periodo de retorno

Una vez aceptada la hipótesis de que los datos de precipitación corresponden a una distribución normal tanto por el método de Chi cuadrado y el software Minitab, se realiza el ajuste de los limites superior e inferior y se procede a calcular el periodo de retorno para una precipitación máxima anual en un periodo de 24 horas, como se puede observar en la Tabla 8.

Tabla 8. Periodos de Retorno.

Con base en la distribución elegida se realiza el ajuste de los datos y se obtienen los periodos de retorno, con el fin de predecir o pronosticar la probabilidad de ocurrencia de un evento.

5. Conclusiones
Siempre que se tengan datos de estaciones hidrológicas se debe analizar la información ya que se pueden presentar registros dudosos que distorsionen la distribución y para ello es recomendable realizar la prueba Outliers y compararlo con los eventos y fenómenos hidrológicos que sucedieron durante ese año, y de esta manera tomar de decisión de continuar o descartar el dato.

Así mismo, es fundamental saber identificar el tipo de distribución que mejor se ajuste a los datos con respecto al p-value y el nivel de significancia a estudiar, no solo analíticamente sino también con el empleo de herramientas computacionales como Minitab que presenta las distribuciones tanto grafica como estadísticamente.

Los datos presentados en el informe se ajustan a varias distribuciones con un p-value mayor al nivel de significancia de 0.05, de modo que son admisibles como distribuciones generadoras de los datos; entre las que se encuentran la normal, lognormal, Weibull, logística, Gamma, valor extremo por máximos; siendo estas dos últimas las que tienen un valor superior de p-value.

Es importante resaltar que antes de que se utilicen los datos de una de precipitación de una estación, es fundamental determinar la probabilidad del mejor ajuste de distribución de los datos, ya que solo después de haber hecho esto, es posible obtener resultados confiables.

6. Referencias

[1] R. Kumar y A. Bhardwaj. “Probability analysis of return period of daily maximum rainfall in annual data set of Ludhiana, Punjab.” Indian J Agric Res, vol. 49, no. 2, pp. 160–164, 2015. Doi: https://doi.org/10.5958/0976-058X.2015.00023.2

[2] D. M. Criado-Rodríguez, W. A. Pacheco-Vergel y N. Afanador-García. “Vulnerabilidad sísmica de centros poblados: estudio de caso.” Rev. Ingenio, vol. 17, no. 1, pp. 43–48, 2020. Doi: https://doi.org/10.22463/2011642X.2441

[3] N. M. Noh et al. “A Simple Approach To Estimate Rainfall At Different.” no. September, pp. 73–80, 2021.

[4] S. Bhakar, M. Iqbal, M. Devanda, N. Chhajed y A. Bansal. “Probablity analysis of rainfall at Kota.” Indian J Agric Res, vol. 42, no. 3, pp. 201–206, 2008.

[5] J. A. Vallejo-Borda. “Comparación de procesos de evacuación en edificaciones residenciales multifamiliares.” Rev. Ingenio, vol. 17, no. 1, pp. 49–55, 2020. Doi: https://doi.org/10.22463/2011642x.2379

[6] M. T. Amin, M. Izwan y A. A. Alazba. “A best-fit probability distribution for the estimation of rainfall in northern regions of Pakistan.” Open Life Sci, vol. 11, no. 1, pp. 432–440, 2016. Doi: https://doi.org/10.1515/biol-2016-0057

[7] N. Vivekanandan. “Effect of data length on estimation of rainfall using six probability distributions.” Water and Energy International, vol. 64r (11), no. 09744207, pp. 13–19, 2022.

[8] A. Aldrees. “Using peak discharge estimation methods in urban flood modeling for WADI AL-AQIQ.” Environ Dev Sustain, vol. 24, no. 3, pp. 3461–3484, 2022. Doi: https://doi.org/10.1007/s10668-021-01574-y

[9] J. V. José et al. “Probabilidade De Ocorrência Da Precipitação Pluvial Em Três Cidades Da Bacia Hidrográfica Do Alto JuruÁ.” Irriga, vol. 27, no. 3, pp. 124–140, 2022. Doi: https://doi.org/10.15809/irriga.2022v27n1p124-140

[10] M. Lee et al. “Development of an analytical probabilistic model to estimate runoff event volumes in South Korea.” J Hydrol (Amst), vol. 612, p. 128129, 2022. Doi: https://doi.org/10.1016/j.jhydrol.2022.128129

[11] P. H. Jou y S. H. Mirhashemi. “Frequency analysis of extreme daily rainfall over an arid zone of Iran using Fourier series method.” Appl Water Sci, vol. 13, no. 1, 2023. Doi: https://doi.org/10.1007/s13201-022-01823-z

[12] N. A. A. A. Ghani, A. Senawi y R. Subramaniam. “A Feasibility Study of Fitting the Normal Distribution and Gamma Distribution to Rainfall Data at Kuantan River Basin.” pp. 27–35, 2023.

[13] Y. M. Carpio-Díaz et al. “A new species and first record of Trichorhina Budde-Lund, 1908 (Isopoda, Oniscidea, Platyarthridae) from the Department of Norte de Santander, Colombia.” Nauplius, vol. 29, no. June, 2021. Doi: https://doi.org/10.1590/2358-2936e2021028

[14] Instituto de Hidrología, Meteorología y Estudios Ambientales. “Consulta y Descarga de Datos Hidrometeorológicos.” [Online]. Available: http://dhime.ideam.gov.co/atencionciudadano/

[15] V. T. Chow, D. R. Maiment y L. W. Mays. “Hidrología aplicada.” p. 415, McGraw-Hill, 1994.

[16] IDEAM (s.f.). “Precipitaciones.” [Online]. Available: http://www.ideam.gov.co/ (Accedido: oct-2022)

[17] Minitab Statistical Software (2022). Hoja de cálculo – Software estadístico. (Minitab). [Online]. Available: https://www.minitab.com

Determinación de los periodos de retorno utilizando el ajuste de distribución de pr obabilidad para la estación meteorológica de La Playa, Norte de Santander

Determination of return periods using probability distribution fitting for the La Playa Norte de Santander weather station.