La lluvia hace parte del ciclo hidrológico y se considera como la principal fuente de agua para la tierra. Su estudio en una región es de vital importancia, pues si esta es demasiado alta en comparación con la tasa de infiltración del suelo, provoca una mayor cantidad de escorrentía, lo que resulta en deslizamientos de tierra, inundaciones y desastres por escombros [1], sumado a esto, se deben tener en cuenta los efectos causados por el calentamiento global, la contaminación ambiental y las fallas geológicas que se pueden generar [2].
Es necesario conocer la distribución máxima de precipitación que se genera en una cuenca hidrográfica, ya que se requiere para el diseño, control y gestión de estructuras hidráulicas tales como: aliviaderos, lagunas de retención, presas, entre otras. Siendo así que, la estimación de precipitaciones para diferentes periodos de retorno es muy importante en el diseño de estas [3].
De acuerdo con lo anterior, la precipitación esperada en diferentes periodos de retorno se determina a través del análisis de probabilidad y frecuencia de datos de lluvia [4], es de resaltar que el uso de parámetros estadísticos es indispensable en este tipo de proyectos [5].
Los pluviómetros proporcionan los registros de precipitación de una región, y con estos datos se puede realizar el análisis de frecuencia, aunque es necesario probar una serie de modelos, como normal, log-normal de dos parámetros, log-normal de tres parámetros, Person III, Gumbel, log Gumbel, etc; para llegar al modelo adecuado en la estimación de la cantidad de lluvia en diferentes períodos de retorno en cualquier estación [3].
La elección de un modelo de distribución apropiado es uno de los principales problemas en la práctica de la ingeniería. Esta selección depende principalmente de los datos de lluvia disponibles en un sitio en particular. Es por ello, que para encontrar un modelo de distribución adecuado que proporcione estimaciones precisas de precipitaciones extremas, es necesario evaluar los modelos de distribución disponibles [6].
La presente investigación realizó un análisis de frecuencia de los datos de precipitación de la estación pluviométrica del Municipio de La Playa en Norte de Santander, donde se evaluó la probabilidad de la precipitación máxima anual basada en una muestra de veinticuatro horas, usando diferentes modelos de distribución con base en los puntajes de las pruebas de bondad de ajuste, que se pueden utilizar para investigaciones futuras.
2. Explicaciones argumentadasMuchos de los trabajos que se han reportado a nivel mundial indican que es necesario realizar un análisis de frecuencia y una correcta elección de la distribución que mejor se ajuste a los datos ya que esto permite obtener resultados confiables. En la Tabla 1 se pueden observar algunas de las investigaciones que se han realizado.
Tabla 1. Investigaciones realizadas mediante análisis estadísticos.
3. Metodología3.1 Sitio de estudio
Los datos de precipitación máxima anual en un día fueron tomados de la estación LA PLAYA (8°16’20.3”N 73°12’05.3”W), ubicada a 27 kilómetros del casco urbano de la ciudad de Ocaña, desde el año 1985 hasta 2019 (ver Figura 1). En la Tabla 2, se pueden observar los datos obtenidos del portal: Consulta y Descarga de Datos Hidrometeorológicos del Instituto de Hidrología, Meteorología y Estudios Ambientales (IDEAM).Tabla 2. Datos de Precipitación Anual Máxima.
En la Figura 2 se puede observar la variación de la precipitación anual máxima de la estación a través del tiempo.
3.2 Prueba de datos dudosos
Antes de realizar el análisis de frecuencias, se debe hacer una prueba de Outliers o Datos Dudosos para determinar si existen datos que se alejen de la tendencia de la información y que afecten los parámetros estadísticos, los cuales pueden deberse a errores en la toma del registro o aquellos que causan dificultad en las distribuciones. La Ecuación 1 y 2 permiten determinar el umbral alto y bajo de los datos de precipitación.Donde yH es el umbral de datos dudosos alto, yL es el umbral de datos dudosos bajo y kn depende del tamaño de la muestra, tal y como se indica en la Tabla 3.
Tabla 3. Valores de Kn para la prueba de datos dudosos.
3.3 Análisis de frecuencia
3.3.1 Número de intervalos de clase.El Número de intervalos de clase de una serie de datos menor a 200 se puede establecer mediante la Ecuación 3.Ho = Los datos se ajustan a una distribución normal
Hi = Los datos no se ajustan a una distribución normal
Para realizar la prueba de bondad y ajuste con este método, la expresión está dada por la Ecuación 7:
x2c : Valor calculado de Chi-Cuadrado a partir de los datos
θi: Número de valores observados en el intervalo de clase i
ei: Número de valores esperados en el intervalo de clase i
k: Número de intervalos de clase
El valor de xc 2 se compara con xT2 cuyo valor se determina con el nivel de significancia y los grados de libertad.
Para el caso de la precipitación como el nivel de confianza es del 95 %, el nivel de significancia es α=0.05
Los grados de libertad = v = k-1-h, donde h = 1 para una distribución normal.
Dado que la media y la desviación estándar pueden tomar valores infinitos, se hace impracticable tabular las probabilidades para todas las distribuciones normales, por lo tanto, se utiliza la distribución normal reducida (Ecuación 8).
4.1 Análisis de datos dudosos
De acuerdo con la Ecuación 1 el umbral alto para los datos es:Para el caso del umbral bajo se tiene en cuenta la Ecuación 2:
Con base en lo anterior, los datos de precipitación deben encontrarse entre 17.5751 mm y 138.2234 mm. En la Figura 3, se puede observar que todos los datos de la serie se encuentran dentro de dicho rango a excepción del año 1997 que presenta una precipitación de 14.4 mm.
Para determinar si el dato de 14.4 mm presentaba errores de acuerdo con el cálculo anterior que demostró que era dudoso, se realizó una investigación, la cual consistió en determinar que fenómeno hidrológico sucedió durante ese año y las precipitaciones en las estaciones cercanas tal y como se puede observar en la Tabla 4.
Tabla 4. Precipitación en estaciones cercanas.
Se evidencia de esta manera de que a pesar de que durante el año 1997 Colombia atravesó una sequía debido al fenómeno del niño, las estaciones cercanas no registraron un dato tan bajo y por tal motivo se considera dudoso y se elimina de la estación.
4.2 Análisis de frecuencia
Luego de realizarse el análisis de la información y su ajuste de acuerdo con los datos dudosos que presentaba la estación, se procede a realizar el análisis de frecuencia. 4.2.1 Cálculo del número de intervalos de clase. Se procede a calcular el número de intervalos de clase que presentan los datos de la estación ajustada, mediante la Ecuación (3), la cual arroja un valor de seis (6). 4.2.2 Cálculo de la amplitud de cada intervalo. Una vez calculado el número de intervalos de clase, se determina la amplitud que existe entre estos, mediante la Ecuación (4), arrojando un resultado de 13.24. 4.2.3 Cálculo de la frecuencia acumulada. En la Tabla 5, se puede observar el cálculo realizado para determinar la frecuencia acumulada de los datos de la estación ajustada.Tabla 5. Frecuencia Acumulada.
Nota: xi: marca de clase, FAb: frecuencia absoluta, FR: frecuencia relativa, FAc: frecuencia acumulada.
Con base en la tabla anterior se calcula la media de los datos agrupados arrojando un valor de 54.369 y una desviación estándar de 18.861.
Luego se calcula la frecuencia esperada, utilizando la distribución teórica normal, tal y como se puede observar en la Tabla 6.
Tabla 6. Cálculo de Frecuencia Absoluta.
Nota: LC: límite de clase, Z: distribución normal reducida, Tabla: área bajo la curva normal de 0 a Z, FR: frecuencia relativa, ei: frecuencia absoluta redondeada, Øi: frecuencia Observada.
El estadístico observado de los datos se calcula mediante la Ecuación (5), arrojando un valor de xc2 = 6.89. Luego el estadístico teórico se obtiene mediante el uso de la tabla distribución Chi cuadrado para tres grados de libertad y una probabilidad de 0.05, obteniendo un x20.05;3 = 7.81.
La hipótesis nula Ho plantea que los datos se ajustan a una distribución normal y puesto que xc2 < xT2 se acepta dicha hipótesis.
4.3 Determinación del tipo de distribución empleando Minitab
Empleando el programa Minitab se realiza una prueba de normalidad para determinar si los datos siguen una distribución normal, con las siguientes hipótesis:Ho= Los datos se ajustan a una distribución normal con una μ=53.93 y σ=18.12
Hi= Los datos no se ajustan a una distribución normal con una μ=53.93 y σ=18.12
Con un nivel de significancia de α=0.05, el programa arroja un p-value de 0.171 (Ver Figura 4), por lo tanto, se acepta la hipótesis nula de que la distribución es normal.
Figura 4. Grafica de Probalidad para una distribución normal con un nivel de confianza del 95%.
Por su parte, también se realiza la identificación de la distribución para diferentes tipos, tales como: normal, lognormal, lognormal de 3 parámetros, exponencial, exponencial de 3 parámetros, Weibull, Weibull de 3 parámetros, valor extremo más pequeño, valor extremo por máximos, Gamma, Gamma de 3 parámetros, logística y logística de 3 parámetros. Así como la representación gráfica de la transformación de Box-Cox con λ=0.5.
A continuación, en la Tabla 7 se presenta un resumen de todas las distribuciones y con su p-value correspondiente, el estadístico de bondad de ajuste de Anderson-Darling (AD) y un valor p para la prueba de relación de verosimilitud (LRT P).
Tabla 7. Prueba de Bondad y Ajuste.
Se puede observar que aquellos valores P (p-value) inferiores a un valor de significancia (α) de 0.05, indican un riesgo del 5 % indicando que los datos no siguen la distribución, por lo tanto, se puede afirmar que cuando el p-value es mayor a 0.05 hay evidencia de que los datos siguen la distribución. De acuerdo con esto, son varias las distribuciones que se pueden utilizar para el ajuste de los datos.
4.4 Determinación del periodo de retorno
Una vez aceptada la hipótesis de que los datos de precipitación corresponden a una distribución normal tanto por el método de Chi cuadrado y el software Minitab, se realiza el ajuste de los limites superior e inferior y se procede a calcular el periodo de retorno para una precipitación máxima anual en un periodo de 24 horas, como se puede observar en la Tabla 8.Tabla 8. Periodos de Retorno.
Con base en la distribución elegida se realiza el ajuste de los datos y se obtienen los periodos de retorno, con el fin de predecir o pronosticar la probabilidad de ocurrencia de un evento.
5. ConclusionesSiempre que se tengan datos de estaciones hidrológicas se debe analizar la información ya que se pueden presentar registros dudosos que distorsionen la distribución y para ello es recomendable realizar la prueba Outliers y compararlo con los eventos y fenómenos hidrológicos que sucedieron durante ese año, y de esta manera tomar de decisión de continuar o descartar el dato.
Así mismo, es fundamental saber identificar el tipo de distribución que mejor se ajuste a los datos con respecto al p-value y el nivel de significancia a estudiar, no solo analíticamente sino también con el empleo de herramientas computacionales como Minitab que presenta las distribuciones tanto grafica como estadísticamente.
Los datos presentados en el informe se ajustan a varias distribuciones con un p-value mayor al nivel de significancia de 0.05, de modo que son admisibles como distribuciones generadoras de los datos; entre las que se encuentran la normal, lognormal, Weibull, logística, Gamma, valor extremo por máximos; siendo estas dos últimas las que tienen un valor superior de p-value.
Es importante resaltar que antes de que se utilicen los datos de una de precipitación de una estación, es fundamental determinar la probabilidad del mejor ajuste de distribución de los datos, ya que solo después de haber hecho esto, es posible obtener resultados confiables.
[1] R. Kumar y A. Bhardwaj. “Probability analysis of return period of daily maximum rainfall in annual data set of Ludhiana, Punjab.” Indian J Agric Res, vol. 49, no. 2, pp. 160–164, 2015. Doi: https://doi.org/10.5958/0976-058X.2015.00023.2
[2] D. M. Criado-Rodríguez, W. A. Pacheco-Vergel y N. Afanador-García. “Vulnerabilidad sísmica de centros poblados: estudio de caso.” Rev. Ingenio, vol. 17, no. 1, pp. 43–48, 2020. Doi: https://doi.org/10.22463/2011642X.2441
[3] N. M. Noh et al. “A Simple Approach To Estimate Rainfall At Different.” no. September, pp. 73–80, 2021.
[4] S. Bhakar, M. Iqbal, M. Devanda, N. Chhajed y A. Bansal. “Probablity analysis of rainfall at Kota.” Indian J Agric Res, vol. 42, no. 3, pp. 201–206, 2008.
[5] J. A. Vallejo-Borda. “Comparación de procesos de evacuación en edificaciones residenciales multifamiliares.” Rev. Ingenio, vol. 17, no. 1, pp. 49–55, 2020. Doi: https://doi.org/10.22463/2011642x.2379
[6] M. T. Amin, M. Izwan y A. A. Alazba. “A best-fit probability distribution for the estimation of rainfall in northern regions of Pakistan.” Open Life Sci, vol. 11, no. 1, pp. 432–440, 2016. Doi: https://doi.org/10.1515/biol-2016-0057
[7] N. Vivekanandan. “Effect of data length on estimation of rainfall using six probability distributions.” Water and Energy International, vol. 64r (11), no. 09744207, pp. 13–19, 2022.
[8] A. Aldrees. “Using peak discharge estimation methods in urban flood modeling for WADI AL-AQIQ.” Environ Dev Sustain, vol. 24, no. 3, pp. 3461–3484, 2022. Doi: https://doi.org/10.1007/s10668-021-01574-y
[9] J. V. José et al. “Probabilidade De Ocorrência Da Precipitação Pluvial Em Três Cidades Da Bacia Hidrográfica Do Alto JuruÁ.” Irriga, vol. 27, no. 3, pp. 124–140, 2022. Doi: https://doi.org/10.15809/irriga.2022v27n1p124-140
[10] M. Lee et al. “Development of an analytical probabilistic model to estimate runoff event volumes in South Korea.” J Hydrol (Amst), vol. 612, p. 128129, 2022. Doi: https://doi.org/10.1016/j.jhydrol.2022.128129
[11] P. H. Jou y S. H. Mirhashemi. “Frequency analysis of extreme daily rainfall over an arid zone of Iran using Fourier series method.” Appl Water Sci, vol. 13, no. 1, 2023. Doi: https://doi.org/10.1007/s13201-022-01823-z
[12] N. A. A. A. Ghani, A. Senawi y R. Subramaniam. “A Feasibility Study of Fitting the Normal Distribution and Gamma Distribution to Rainfall Data at Kuantan River Basin.” pp. 27–35, 2023.
[13] Y. M. Carpio-Díaz et al. “A new species and first record of Trichorhina Budde-Lund, 1908 (Isopoda, Oniscidea, Platyarthridae) from the Department of Norte de Santander, Colombia.” Nauplius, vol. 29, no. June, 2021. Doi: https://doi.org/10.1590/2358-2936e2021028
[14] Instituto de Hidrología, Meteorología y Estudios Ambientales. “Consulta y Descarga de Datos Hidrometeorológicos.” [Online]. Available: http://dhime.ideam.gov.co/atencionciudadano/
[15] V. T. Chow, D. R. Maiment y L. W. Mays. “Hidrología aplicada.” p. 415, McGraw-Hill, 1994.
[16] IDEAM (s.f.). “Precipitaciones.” [Online]. Available: http://www.ideam.gov.co/ (Accedido: oct-2022)
[17] Minitab Statistical Software (2022). Hoja de cálculo – Software estadístico. (Minitab). [Online]. Available: https://www.minitab.com