Le Trung Can and Tran Phuoc Loc *

* Corresponding author (tploc@ctu.edu.vn)

Abstract

This study presents the analyses and forecasts of time series data using different machine learning models. Methods used include Holt-Winters, ARIMA, random forest (RF), gradient boosting machine (GBM), and automatic machine learning (AutoML). Advanced grid search methods are also applied to ARIMA, RF, and GBM for model optimization. Monthly water flow data at the Tien River measuring station in Tan Chau, Vietnam, from 1992 to 2021 are used to train and test the models. The results show that the GBM model with advanced grid search has superior accuracy compared to other models.

Keywords: Time series, forecast, machine learning, river discharge

Tóm tắt

Nghiên cứu này trình bày việc phân tích và dự báo dữ liệu chuỗi thời gian bằng cách sử dụng các mô hình học máy khác nhau. Các phương pháp được sử dụng bao gồm Holt-Winters, ARIMA, hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy tăng cường độ dốc (GBM) và học máy tự động (AutoML). Các phương pháp tìm kiếm lưới nâng cao cũng được áp dụng cho ARIMA, RF và GBM để tối ưu hóa mô hình. Dữ liệu lưu lượng nước hàng tháng tại trạm đo trên Sông Tiền ở Tân Châu từ năm 1992 đến 2021 được sử dụng để huấn luyện và kiểm tra các mô hình. Kết quả cho thấy mô hình GBM với tìm kiếm lưới nâng cao cho độ chính xác vượt trội so với các mô hình khác.

Từ khóa: Chuỗi thời gian, dự báo, học máy, lưu lượng nước

Article Details

References

Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32. https://doi.org/10.1023/A:1010933404324

Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of Statistics, 29(5), 1189-1232. https://www.jstor.org/stable/2699986

Hải, Đ. V., Huệ, L. T., & Trí, Đ. Q. (2020). Nghiên cứu ứng dụng mô hình hóa xây dựng phần mềm dự báo lũ, xâm nhập mặn sông Cửu Long hiển thị kết quả dự báo mặn lên Google Earth. Tạp chí Khí tượng Thủy văn, 710, 33-42.
DOI: 10.36335/VNJHM.2020(710).33-42

Hoài, N. P., Huyền, T. T. P., Nguyễn, L., Hiền, T. N., Thái, T. T., & Lâm, L. L. (2022). Đánh giá khả năng dự báo mặn trên sông Hàm Luông của thuật toán k-nearest neighbors. Tạp chí Khoa học và Công nghệ Thủy lợi, 74, 1-9.

Holt, C. C. (2004). Forecasting seasonals and trends by exponentially weighted moving averages. International journal of forecasting, 20(1), 5-10. https://doi.org/10.1016/j.ijforecast.2003.09.015

Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: principles and practice. OTexts.

Krispin, R. (2019). Hands-On Time Series Analysis with R: Perform time series analysis and forecasting using R. Packt Publishing Ltd.

Lam, Đ. H., Phương, N. H., Đạt, N. Đ., & Giang, N. T. (2022). Xây dựng mô hình MIKE 11 phục vụ công tác dự báo thủy văn và xâm nhập mặn tỉnh Bến Tre. Tạp chí Khí tượng Thủy văn, 740(1), 38-49. DOI:10.36335/VNJHM.2022 (740(1)).38-49

LeDell, E., & Poirier, S. (2020). H2o automl: Scalable automatic machine learning. In Proceedings of the AutoML Workshop at ICML (Vol. 2020). San Diego, CA, USA: ICML.

Pham, N. H., Pham, B. Q., & Tran, T. T. (2022). Apply Machine Learning to Predict Saltwater Intrusion in the Ham Luong River, Ben Tre Province. VNU Journal of Science: Earth and Environmental Sciences, 38(3), 79-92. https://doi.org/10.25073/2588-1094/vnuees.4852

Toàn, C. H., Đông, P. N., Hoàng, T. H., Hải, T. C., & Hồng, V. N. (2020). Nghiên cứu dự báo xâm nhập mặn cho khu vực đồng bằng sông Cửu Long. Hội nghị Khoa học Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM lần 12.

Tran, T. T., Nguyen, L. D., Hoai, P. N., Pham, Q. B., Huyen, P. T. T., Dong, N. P., ... & Hien, N. T. (2022). Long short-term memory (LSTM) neural networks for short-term water level prediction in Mekong river estuaries. Songklanakarin Journal of Science & Technology, 44(4), 1057-1066. DOI: 10.14456/sjst-psu.2022.138

Winters, P. R. (1960). Forecasting sales by exponentially weighted moving averages. Management Science, 6(3), 324-342. https://www.jstor.org/stable/2627346