ДОСЛІДЖЕННЯ ТА ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ ІЗ ЗАСТОСУВАННЯМ ТЕХНОЛОГІЙ ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ
DOI:
https://doi.org/10.20998/2413-4295.2024.04.04Ключові слова:
часовий ряд, паралельні обчислення, ARIMA, Apache Spark, AWS EMR, хмарні технології, кластерАнотація
Розглядається проблема ефективної обробки часових рядів з метою прогнозування, використовуючи технології розподілених обчислень у хмарному середовищі. Акцентовано увагу на адаптації сучасних підходів до аналізу часових рядів для роботи з великими обсягами даних та їх інтеграції з інфраструктурою хмарних обчислень. Особливий акцент зроблено на обробці ультра-довгих часових рядів, які відзначаються низьким сигнал-шум співвідношенням, складною структурою та довготривалими трендами. Проаналізовано широкий спектр методів прогнозування, включаючи класичні статистичні моделі, такі як авторегресійні інтегровані моделі з рухомим середнім, та сучасні підходи машинного навчання, зокрема нейронні мережі з довгою короткотривалою пам’яттю. Продемонстровано переваги використання паралельних обчислень у забезпеченні значного прискорення обробки великих обсягів даних. Зокрема, у роботі підтверджено ефективність запропонованого підходу з використанням хмарної інфраструктури Amazon Web Services, що дозволяє оптимізувати ресурси та підвищити точність прогнозування. Розроблено програмний пакет на основі технологій Apache Spark для аналізу часових рядів у розподілених середовищах. Проведено тестування продуктивності програмного забезпечення, результати якого свідчать про доцільність його використання у реальних умовах для вирішення задач прогнозування та виявлення аномалій у великих часових рядах. Зокрема, обґрунтовано застосування адаптованої авторегресійної інтегрованої моделі з рухомим середнім у поєднанні з паралельними обчисленнями для забезпечення ефективності прогнозування часових рядів. Розглянуто виклики, пов’язані із впровадженням паралельних обчислень у задачі прогнозування часових рядів, включаючи необхідність оптимізації алгоритмів та забезпечення масштабованості рішень у хмарному середовищі. Окреслено перспективи подальшого вдосконалення програмного забезпечення, зокрема шляхом впровадження адаптивних алгоритмів і розширення їх застосування у сферах кібербезпеки, фінансової аналітики, моніторингу інфраструктурних систем, а також прогнозування в економіці та промисловості. Проаналізовано результати численних обчислювальних експериментів, які довели ефективність розроблених алгоритмів у підвищенні точності прогнозів та зниженні часу обробки даних. Отримані результати формують основу для майбутніх досліджень у напрямі створення комплексних систем аналізу часових рядів, що враховують специфіку різних галузей.
Посилання
Hou Y. et al. Interpretable CAA Classification Based on Incorporating Feature Channel Attention into LSTM. Computers & Security, 2024, p. 104252, doi: 10.1016/j.cose.2024.104252.
König T. et al. A LSTM-GAN Algorithm for Synthetic Data Generation of Time Series Data for Condition Monitoring. Procedia Computer Science, 2024, vol. 246, pp. 1508–1517, doi: 10.1016/j.procs.2024.09.602.
Wang Z. et al. An Empirical Study on the Challenges That Developers Encounter When Developing Apache Spark Applications. Journal of Systems and Software, 2022, vol. 194, p. 111488, doi: 10.1016/j.jss.2022.111488.
Reyes-Ortiz J. L., Oneto L., Anguita D. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf. Procedia Computer Science, 2015, vol. 53, pp. 121–130, doi: 10.1016/j.procs.2015.07.286.
Klopries H., Schwung A. ITF-GAN: Synthetic Time Series Dataset Generation and Manipulation by Interpretable Features. Knowledge-Based Systems, 2024, vol. 283, p. 111131, doi: 10.1016/j.knosys.2023.111131.
Dixit A., Jain S. Intuitionistic Fuzzy Time Series Forecasting Method for Non-Stationary Time Series Data with Suitable Number of Clusters and Different Window Size for Fuzzy Rule Generation. Information Sciences, 2023, vol. 623, pp. 132–145, doi: 10.1016/j.ins.2022.12.015.
Holakouie-Naieni K. et al. Comparative Performance of Hybrid Model Based on Discrete Wavelet Transform and ARIMA Models in Prediction Incidence of COVID-19. Heliyon, 2024, vol. 10, no. 13, p. e33848, doi: 10.1016/j.heliyon.2024.e33848.
Singh S., Parmar K. S., Kumar J. Development of Multi-Forecasting Model Using Monte Carlo Simulation Coupled with Wavelet Denoising-ARIMA Model. Mathematics and Computers in Simulation, 2024, p. S0378475424004385, doi: 10.1016/j.matcom.2024.10.040.
Tosepu R., Ningsi N. Y. Forecasting of Diarrhea Disease Using ARIMA Model in Kendari City, Southeast Sulawesi Province, Indonesia. Heliyon, 2024, vol. 10, no. 22, p. e40247, doi: 10.1016/j.heliyon.2024.e40247.
Wang G. et al. Forecasting of Soil Respiration Time Series via Clustered ARIMA. Computers and Electronics in Agriculture, 2024, vol. 225, p. 109315, doi: 10.1016/j.compag.2024.109315.
Hyndman R. J., Athanasopoulos G. Forecasting: Principles and Practice. Third Print Edition, Melbourne, Australia. Otexts, Online Open-Access Textbooks, 2021.
Wang Y., Politis D. N. Model-Free Bootstrap Prediction Regions for Multivariate Time Series. arXiv, 2021, doi: 10.48550/ARXIV.2112.08671.
Fernández A. M. et al. Automated Deployment of a Spark Cluster with Machine Learning Algorithm Integration. Big Data Research, 2020, vol. 19–20, p. 100135, doi: 10.1016/j.bdr.2020.100135.
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Антон Бойко, Олексій Марусенко, Володимир Мєтєльов, Владислав Овсяніков
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Журнал публікує статті згідно з ліцензією Creative Commons Attribution International CC-BY.