DOI: https://doi.org/10.20998/2413-4295.2020.02.07

Аналіз даних та машинне навчання на основі даних лабораторії ЦЕРН

Viktor Hyhyniak, Andrii Khlevnyi

Анотація


У даній роботі проведено аналіз даних, застосовано та порівняно між собою ряд методів машинного навчання до одного із найбільш важливих за своїм впливом та значенням відкритих датасетів організації ЦЕРН, розміщених на CERN Open Data Portal, який пов’язаний із відкриттям бозону Хіггса. Завдання полягало у вирішенні проблеми бінарної класифікації та розподіленні спостережень на ті, що свідчать про сигнал розпаду частинки та фонові. На першому етапі було проаналізовано вхідні дані, проведено аналіз відсутніх значень. Було відзначено залежність факту відсутності більшості змінних від однієї характеристичної, а також перевірено чи впливає наявність/відсутність на приналежність спостережень до сигналу. Для оцінки та отримання початкових результатів про вплив змінних на результат було розраховано матриці кореляцій. Далі застосовано більш точний та надійний метод розрахунку Predictive Power Score, який є новим та перспективним підходом до визначення залежностей, а саме передбачувальних властивостей змінних. Для подальшого застосування підходів машинного навчання датасет було оброблено та очищено, виявлено та закодовано категоріальні змінні за підходом «one-hot encoding», а також проведено заміну відсутніх значень на розраховані середні по датасету. Після підготовки вхідних даних їх було використано для навчання та валідації ряду моделей. Оскільки проблема полягала в вирішенні питання бінарної класифікації, то до розглянутих моделей ввійшли найбільш поширені методи класифікації, такі як: Decision Tree, Logistic Regression, Bagging, Random Forest, K-Nearest Neighbours, Gradient Bossting,  XGB, SVM. До кожного з методів було застосовано пошук гіперпараметрів із використанням 2-фолдної крос-валідації. Серед метрик для оцінки якості та продуктивності моделей було обрано метрики акуратності, точності, чутливості, F-значення та AUC, остання з них була вирішальною, оскільки найбільше підходила до вимог та особливостей класифікації. Найкращими себе показали K-Nearest Neighbours та методи, що базуються на побудові ансамблів із простих класифікаторів, а саме дерев рішень. Також було проведено навчання та валідація моделей на базі нейронних мереж, які хоч і показали досить високі результати, однак через проблематику з перенавчанням виявилися дещо гіршими за методи на основі побудови ансамблів. Найвищі значення спостерігались для Gradient Boosting та XGB, а так як останній є схожим за принципом до першого, але має ряд переваг по швидкості, надійності та продуктивності, то було обрано зупинитися саме на ньому. Після наступного етапу вдосконалення вхідних параметрів моделі, було досягнуто збільшення значень метрик та отримано високі показники передбачувальної здатності. Оскільки XGB базується на побудові ансамблів із простіших предикторів (а в даному випадку дерев рішень), то це дозволило отримати наочне уявлення про алгоритм передбачення. Таким чином наступним кроком було проведено візуалізацію роботи отриманої моделі у вигляді побудови зведеного дерева рішень, а також розраховано F-значення важливості змінних. Отримані результати дозволили провести аналіз впливу кожної із змінних на передбачення сигналу, а також порівняти їх із теоретичними відомостями. Було відмічено більший вплив змінних, отриманих вченими методами розрахунку із теоретичних формул в порівнянні із вхідними змінним, які відповідали неопрацьованим значенням детекторів. Таким чином в результаті роботи було проаналізовано різні підходи та методи машинного навчання, встановлено, що найбільш продуктивними та при цьому легкими в інтерпретації результатів є моделі на базі ансамблю дерев рішень, а також отриманий алгоритм для роботи з експериментальними даними, їх аналізом та використанням у методах машинного навчання.


Ключові слова


аналіз даних; обробка даних; експериментальні дані; машинне навчання; бінарна класифікація; градієнтний бустинг

Повний текст:

PDF

Посилання


Annual Report 2016. CERN. Retrieved 22 September2017. Available at: https://cds.cern.ch/record/2270805/files/486-1611-1-SM.pdf (accessed 18.01.2020).

CERN Open Data Portal. Available at: http://opendata.cern.ch/ (accessed: 05.05.2020).

ATLAS collaboration. Dataset from the ATLAS Higgs Boson Machine Learning Challenge 2014. CERN Open Data Portal, 2014, doi:10.7483/opendata.atlas.zbp2.m5t8.

Alpaydin Ethem. Introduction to Machine Learning. MIT Press, 2010, p. 9.

Fortune Nathanael Alexander. A Short Guide to Using Python For Data Analysis In Experimental Physics. 2018. Physics: Faculty Publications, Smith College, Northampton, MA. Available at: https://scholarworks.smith.edu/phy_facpubs/30 (accessed 18.01.2020).

Salgado C.M., Azevedo C., Proença H., Vieira S.M. Missing Data. In: Secondary Analysis of Electronic Health Records. Springer, 2016, Cham, pp.143–162.

RIP correlation. Introducing the Predictive Power Score. Available at: https://8080labs.com/blog/posts/rip-correlation-introducing-the-predictive-power-score-pps/ (accessed: 03.05.2020).

Gérard Biau, Benoît Cadre. Optimization by gradient boosting. 2017. Available at: ffhal-01562618 (accessed 18.01.2020).

Changming Zhao, Dongrui Wu, Jian Huang, Ye Yuan, Hai-Tao Zhang BoostTree and BoostForest for Ensemble Learning. Available at: arXiv:2003.09737 (accessed 18.01.2020).

Feature Importance and Feature Selection With XGBoost in Python. Available at: https://machinelearningmastery.com/feature-importance-and-feature-selection-with-xgboost-in-python/ (accessed: 03.05.2020).


Пристатейна бібліографія ГОСТ


  1. Annual Report 2016. CERN. Retrieved 22 September 2017. URL: https://cds.cern.ch/record/2270805/files/486-1611-1-SM.pdf (дата звернення 18.01.2020).
  2. CERN Open Data Portal. URL: http://opendata.cern.ch/ (дата звернення: 05.05.2020).
  3. ATLAS collaboration. Dataset from the ATLAS Higgs Boson Machine Learning Challenge 2014. CERN Open Data Portal. 2014. doi:10.7483/opendata.atlas.zbp2.m5t8.
  4. Alpaydin Ethem. Introduction to Machine Learning. 2010. MIT Press. p. 9.
  5. Fortune Nathanael Alexander. A Short Guide to Using Python For Data Analysis In Experimental Physics. 2018. Physics: Faculty Publications, Smith College, Northampton, MA. URL: https://scholarworks.smith.edu/phy_facpubs/30 (дата звернення 18.01.2020).
  6. Salgado C. M., Azevedo C., Proença H., Vieira S. M. Missing Data. In: Secondary Analysis of Electronic Health Records. 2016. Springer, Cham. P. 143–162.
  7. RIP correlation. Introducing the Predictive Power Score : веб-сайт. URL: https://8080labs.com/blog/posts/rip-correlation-introducing-the-predictive-power-score-pps/ (дата звернення: 03.05.2020).
  8. Gérard Biau, Benoît Cadre. Optimization by gradient boosting. 2017. URL: ffhal-01562618 (дата звернення 18.01.2020).
  9. Changming Zhao, Dongrui Wu, Jian Huang, Ye Yuan, Hai-Tao Zhang. BoostTree and BoostForest for Ensemble Learning. URL: arXiv:2003.09737 (дата звернення 18.01.2020).
  10. Feature Importance and Feature Selection With XGBoost in Python. URL: https://machinelearningmastery.com/feature-importance-and-feature-selection-with-xgboost-in-python/ (дата звернення: 03.05.2020).