ДОСЛІДЖЕННЯ ТА ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ ІЗ ЗАСТОСУВАННЯМ ТЕХНОЛОГІЙ ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ

Автор(и)

  • Антон Бойко Національний технічний університет «Харківський політехнічний інститут», м. Харків, Україна, Україна
  • Олексій Марусенко Національний технічний університет «Харківський політехнічний інститут», м. Харків, Україна, Україна https://orcid.org/0000-0001-6911-2500
  • Володимир Мєтєльов Національний технічний університет «Харківський політехнічний інститут», м. Харків, Україна, Україна https://orcid.org/0000-0002-2633-6296
  • Владислав Овсяніков Національний технічний університет «Харківський політехнічний інститут», м. Харків, Україна, Україна

DOI:

https://doi.org/10.20998/2413-4295.2024.04.04

Ключові слова:

часовий ряд, паралельні обчислення, ARIMA, Apache Spark, AWS EMR, хмарні технології, кластер

Анотація

Розглядається проблема ефективної обробки часових рядів з метою прогнозування, використовуючи технології розподілених обчислень у хмарному середовищі. Акцентовано увагу на адаптації сучасних підходів до аналізу часових рядів для роботи з великими обсягами даних та їх інтеграції з інфраструктурою хмарних обчислень. Особливий акцент зроблено на обробці ультра-довгих часових рядів, які відзначаються низьким сигнал-шум співвідношенням, складною структурою та довготривалими трендами. Проаналізовано широкий спектр методів прогнозування, включаючи класичні статистичні моделі, такі як авторегресійні інтегровані моделі з рухомим середнім, та сучасні підходи машинного навчання, зокрема нейронні мережі з довгою короткотривалою пам’яттю. Продемонстровано переваги використання паралельних обчислень у забезпеченні значного прискорення обробки великих обсягів даних. Зокрема, у роботі підтверджено ефективність запропонованого підходу з використанням хмарної інфраструктури Amazon Web Services, що дозволяє оптимізувати ресурси та підвищити точність прогнозування. Розроблено програмний пакет на основі технологій Apache Spark для аналізу часових рядів у розподілених середовищах. Проведено тестування продуктивності програмного забезпечення, результати якого свідчать про доцільність його використання у реальних умовах для вирішення задач прогнозування та виявлення аномалій у великих часових рядах. Зокрема, обґрунтовано застосування адаптованої авторегресійної інтегрованої моделі з рухомим середнім у поєднанні з паралельними обчисленнями для забезпечення ефективності прогнозування часових рядів. Розглянуто виклики, пов’язані із впровадженням паралельних обчислень у задачі прогнозування часових рядів, включаючи необхідність оптимізації алгоритмів та забезпечення масштабованості рішень у хмарному середовищі. Окреслено перспективи подальшого вдосконалення програмного забезпечення, зокрема шляхом впровадження адаптивних алгоритмів і розширення їх застосування у сферах кібербезпеки, фінансової аналітики, моніторингу інфраструктурних систем, а також прогнозування в економіці та промисловості. Проаналізовано результати численних обчислювальних експериментів, які довели ефективність розроблених алгоритмів у підвищенні точності прогнозів та зниженні часу обробки даних. Отримані результати формують основу для майбутніх досліджень у напрямі створення комплексних систем аналізу часових рядів, що враховують специфіку різних галузей.

Посилання

Hou Y. et al. Interpretable CAA Classification Based on Incorporating Feature Channel Attention into LSTM. Computers & Security, 2024, p. 104252, doi: 10.1016/j.cose.2024.104252.

König T. et al. A LSTM-GAN Algorithm for Synthetic Data Generation of Time Series Data for Condition Monitoring. Procedia Computer Science, 2024, vol. 246, pp. 1508–1517, doi: 10.1016/j.procs.2024.09.602.

Wang Z. et al. An Empirical Study on the Challenges That Developers Encounter When Developing Apache Spark Applications. Journal of Systems and Software, 2022, vol. 194, p. 111488, doi: 10.1016/j.jss.2022.111488.

Reyes-Ortiz J. L., Oneto L., Anguita D. Big Data Analytics in the Cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf. Procedia Computer Science, 2015, vol. 53, pp. 121–130, doi: 10.1016/j.procs.2015.07.286.

Klopries H., Schwung A. ITF-GAN: Synthetic Time Series Dataset Generation and Manipulation by Interpretable Features. Knowledge-Based Systems, 2024, vol. 283, p. 111131, doi: 10.1016/j.knosys.2023.111131.

Dixit A., Jain S. Intuitionistic Fuzzy Time Series Forecasting Method for Non-Stationary Time Series Data with Suitable Number of Clusters and Different Window Size for Fuzzy Rule Generation. Information Sciences, 2023, vol. 623, pp. 132–145, doi: 10.1016/j.ins.2022.12.015.

Holakouie-Naieni K. et al. Comparative Performance of Hybrid Model Based on Discrete Wavelet Transform and ARIMA Models in Prediction Incidence of COVID-19. Heliyon, 2024, vol. 10, no. 13, p. e33848, doi: 10.1016/j.heliyon.2024.e33848.

Singh S., Parmar K. S., Kumar J. Development of Multi-Forecasting Model Using Monte Carlo Simulation Coupled with Wavelet Denoising-ARIMA Model. Mathematics and Computers in Simulation, 2024, p. S0378475424004385, doi: 10.1016/j.matcom.2024.10.040.

Tosepu R., Ningsi N. Y. Forecasting of Diarrhea Disease Using ARIMA Model in Kendari City, Southeast Sulawesi Province, Indonesia. Heliyon, 2024, vol. 10, no. 22, p. e40247, doi: 10.1016/j.heliyon.2024.e40247.

Wang G. et al. Forecasting of Soil Respiration Time Series via Clustered ARIMA. Computers and Electronics in Agriculture, 2024, vol. 225, p. 109315, doi: 10.1016/j.compag.2024.109315.

Hyndman R. J., Athanasopoulos G. Forecasting: Principles and Practice. Third Print Edition, Melbourne, Australia. Otexts, Online Open-Access Textbooks, 2021.

Wang Y., Politis D. N. Model-Free Bootstrap Prediction Regions for Multivariate Time Series. arXiv, 2021, doi: 10.48550/ARXIV.2112.08671.

Fernández A. M. et al. Automated Deployment of a Spark Cluster with Machine Learning Algorithm Integration. Big Data Research, 2020, vol. 19–20, p. 100135, doi: 10.1016/j.bdr.2020.100135.

##submission.downloads##

Опубліковано

2024-12-29

Як цитувати

Бойко, А. ., Марусенко, О. ., Мєтєльов, В. ., & Овсяніков, В. . (2024). ДОСЛІДЖЕННЯ ТА ПРОГНОЗУВАННЯ ЧАСОВИХ РЯДІВ ІЗ ЗАСТОСУВАННЯМ ТЕХНОЛОГІЙ ПАРАЛЕЛЬНИХ ОБЧИСЛЕНЬ. Вісник Національного технічного університету «ХПІ». Серія: Нові рішення у сучасних технологіях, (4(22), 29–37. https://doi.org/10.20998/2413-4295.2024.04.04

Номер

Розділ

Інформаційні технології та системи управління