ДОСЛІДЖЕННЯ ТА ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ ІЗ ЗАСТОСУВАННЯМ ТЕХНОЛОГІЙ ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ
DOI:
https://doi.org/10.20998/2413-4295.2024.04.04Ключові слова:
часовий ряд, паралельні обчислення, ARIMA, Apache Spark, AWS EMR, хмарні технології, кластерАнотація
Розглядається проблема ефективної обробки часових рядів з метою прогнозування, використовуючи технології розподілених обчислень у хмарному середовищі. Акцентовано увагу на адаптації сучасних підходів до аналізу часових рядів для роботи з великими обсягами даних та їх інтеграції з інфраструктурою хмарних обчислень. Особливий акцент зроблено на обробці ультра-довгих часових рядів, які відзначаються низьким сигнал-шум співвідношенням, складною структурою та довготривалими трендами. Проаналізовано широкий спектр методів прогнозування, включаючи класичні статистичні моделі, такі як авторегресійні інтегровані моделі з рухомим середнім, та сучасні підходи машинного навчання, зокрема нейронні мережі з довгою короткотривалою пам’яттю. Продемонстровано переваги використання паралельних обчислень у забезпеченні значного прискорення обробки великих обсягів даних. Зокрема, у роботі підтверджено ефективність запропонованого підходу з використанням хмарної інфраструктури Amazon Web Services, що дозволяє оптимізувати ресурси та підвищити точність прогнозування. Розроблено програмний пакет на основі технологій Apache Spark для аналізу часових рядів у розподілених середовищах. Проведено тестування продуктивності програмного забезпечення, результати якого свідчать про доцільність його використання у реальних умовах для вирішення задач прогнозування та виявлення аномалій у великих часових рядах. Зокрема, обґрунтовано застосування адаптованої авторегресійної інтегрованої моделі з рухомим середнім у поєднанні з паралельними обчисленнями для забезпечення ефективності прогнозування часових рядів. Розглянуто виклики, пов’язані із впровадженням паралельних обчислень у задачі прогнозування часових рядів, включаючи необхідність оптимізації алгоритмів та забезпечення масштабованості рішень у хмарному середовищі. Окреслено перспективи подальшого вдосконалення програмного забезпечення, зокрема шляхом впровадження адаптивних алгоритмів і розширення їх застосування у сферах кібербезпеки, фінансової аналітики, моніторингу інфраструктурних систем, а також прогнозування в економіці та промисловості. Проаналізовано результати численних обчислювальних експериментів, які довели ефективність розроблених алгоритмів у підвищенні точності прогнозів та зниженні часу обробки даних. Отримані результати формують основу для майбутніх досліджень у напрямі створення комплексних систем аналізу часових рядів, що враховують специфіку різних галузей.
Посилання
Hou Y. et al. Interpretable CAA Classification Based on Incorporating Feature Channel Attention into LSTM. Computers & Security, 2024, p. 104252, doi: 10.1016/j.cose.2024.104252.
König T. et al. A LSTM-GAN Algorithm for Synthetic Data Generation of Time Series Data for Condition Monitoring. Procedia Computer Science, 2024, vol. 246, pp. 1508–1517, doi: 10.1016/j.procs.2024.09.602.
Wang Z. et al. An Empirical Study on the Challenges That Developers Encounter When Developing Apache Spark Applications. Journal of Systems and Software, 2022, vol. 194, p. 111488, doi: 10.1016/j.jss.2022.111488.
Reyes-Ortiz J. L., Oneto L., Anguita D. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf. Procedia Computer Science, 2015, vol. 53, pp. 121–130, doi: 10.1016/j.procs.2015.07.286.
Klopries H., Schwung A. ITF-GAN: Synthetic Time Series Dataset Generation and Manipulation by Interpretable Features. Knowledge-Based Systems, 2024, vol. 283, p. 111131, doi: 10.1016/j.knosys.2023.111131.
Dixit A., Jain S. Intuitionistic Fuzzy Time Series Forecasting Method for Non-Stationary Time Series Data with Suitable Number of Clusters and Different Window Size for Fuzzy Rule Generation. Information Sciences, 2023, vol. 623, pp. 132–145, doi: 10.1016/j.ins.2022.12.015.
Holakouie-Naieni K. et al. Comparative Performance of Hybrid Model Based on Discrete Wavelet Transform and ARIMA Models in Prediction Incidence of COVID-19. Heliyon, 2024, vol. 10, no. 13, p. e33848, doi: 10.1016/j.heliyon.2024.e33848.
Singh S., Parmar K. S., Kumar J. Development of Multi-Forecasting Model Using Monte Carlo Simulation Coupled with Wavelet Denoising-ARIMA Model. Mathematics and Computers in Simulation, 2024, p. S0378475424004385, doi: 10.1016/j.matcom.2024.10.040.
Tosepu R., Ningsi N. Y. Forecasting of Diarrhea Disease Using ARIMA Model in Kendari City, Southeast Sulawesi Province, Indonesia. Heliyon, 2024, vol. 10, no. 22, p. e40247, doi: 10.1016/j.heliyon.2024.e40247.
Wang G. et al. Forecasting of Soil Respiration Time Series via Clustered ARIMA. Computers and Electronics in Agriculture, 2024, vol. 225, p. 109315, doi: 10.1016/j.compag.2024.109315.
Hyndman R. J., Athanasopoulos G. Forecasting: Principles and Practice. Third Print Edition, Melbourne, Australia. Otexts, Online Open-Access Textbooks, 2021.
Wang Y., Politis D. N. Model-Free Bootstrap Prediction Regions for Multivariate Time Series. arXiv, 2021, doi: 10.48550/ARXIV.2112.08671.
Fernández A. M. et al. Automated Deployment of a Spark Cluster with Machine Learning Algorithm Integration. Big Data Research, 2020, vol. 19–20, p. 100135, doi: 10.1016/j.bdr.2020.100135.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Антон Бойко, Олексій Марусенко, Володимир Мєтєльов, Владислав Овсяніков
![Creative Commons License](http://i.creativecommons.org/l/by/4.0/88x31.png)
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Журнал публікує статті згідно з ліцензією Creative Commons Attribution International CC-BY.