Сигнатура точкової множини та алгоритм класифікації на її основі

Автор(и)

  • Andrey Dashkevich Национальный технический университет "Харьковский политехнический институт", Ukraine https://orcid.org/0000-0002-9963-0998

DOI:

https://doi.org/10.20998/2413-4295.2018.45.12

Ключові слова:

просторове хешування, класифікація, точкова множина, метричний простір, сигнатура точкової множини, Евклідова відстань, відстань міських кварталів, метрика Геммінга

Анотація

На даний момент існує велика кількість задач з автоматизованої обробки багатовимірних даних, наприклад, класифікація, кластеризація, прогнозування, задачі з керування складними об’єктами. Відповідно, виникає необхідність в розвитку математичного та алгоритмічного забезпечення для розв’язання таких задач. Метою дослідження є розвиток алгоритмів класифікації точкових множин на основі їх просторового розподілу. В дослідженні пропонується розглядати дані як точки в багатовимірному метричному просторі. В роботі розглянуто підходи до опису характеристик точкових множин в просторах високої розмірності та пропонується підхід до опису точкової множини на основі сигнатур, які представляють характеристику заповненості точкової множини на основі розширення поняття просторового хешування. Узагальнений підхід до обчислення сигнатур точкових множин полягає в розбитті простору, що займає множина на регулярну сітку з використанням методу просторового хешування, обчислення геометричних характеристик множини в отриманих клітинах сітки та визначення найбільш заповнених клітин за кожним з просторових вимірів. Пропонується новий підхід до розв’язання задачі класифікації на основі сигнатур множин, який полягає в визначенні сигнатур для точок з відомою належністю до заданих класів, а для невідомих точок обчислюється відстань від хешу цієї точки до сигнатур усіх заданих класів, на основі відстані визначається найбільш вірогідний клас точки. В якості метрик пропонується використання Евклідової відстані та метрики міських кварталів. У роботі проведений порівняльний аналіз використаних метрик з точки зору точності класифікації. До переваг розробленого підходу можна віднести простоту обчислень та високий ступінь точності класифікації для рівномірно розподілених точок. Представлений алгоритм реалізовано у вигляді програмного додатку на мові програмування Python з використанням бібліотеки NumPy. Також розглянуто варіанти використання запропонованого підходу для задач з нечисловими даними, такими як текстові та булеві значення. Для таких типів даних запропоновано використання метрики Геммінга, проведені експерименті показали доцільність використання алгоритму для таких типів даних

Біографія автора

Andrey Dashkevich, Национальный технический университет "Харьковский политехнический институт"

Кафедра геометрического моделирования и компьютерной графики, докторант

Посилання

Ougiaroglou, S., Nanopoulos, A., Papadopoulos, A.N., Manolopoulos, Y., Welzer-Druzovec, T. Adaptive k-Nearest-Neighbor Classification Using a Dynamic Number of Nearest Neighbors. In: Ioannidis Y., Novikov B., Rachev B. (eds) Advances in Databases and Information Systems. ADBIS, Lecture Notes in Computer Science, Springer, Berlin, Heidelberg, 2007, 4690, 66-82.

Law, Y.-N. Zaniolo, C. An Adaptive Nearest Neighbor Classification Algorithm for Data Streams. In: Jorge, A.M., Torgo, L., Brazdil, P., Camacho, R., Gama, J. (Eds.), Knowledge Discovery in Databases: PKDD, Springer Berlin Heidelberg, Berlin, Heidelberg, 2005, 108-120, doi: 10.1007/11564126_15.

Wang, L., Khan, L., Thuraisingham, B. An Effective Evidence Theory Based K-Nearest Neighbor (KNN) Classification. In: 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Presented at the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, IEEE, Sydney, Australia, 2008, 797-801, doi: 10.1109/WIIAT.2008.411.

Song, Y., Huang, J., Zhou, D., Zha, H., Giles, C. L. IKNN: Informative K-Nearest Neighbor Pattern Classification. In: Kok, J.N., Koronacki, J., Lopez de Mantaras, R., Matwin, S., Mladenič, D., Skowron, A. (Eds.), Knowledge Discovery in Databases: PKDD 2007. Springer Berlin Heidelberg, Berlin, Heidelberg, 2007, 248-264, doi: 10.1007/978-3-540-74976-9_25.

Wenzel, F., Galy-Fajou, T., Deutsch, M., Kloft, M. Bayesian Nonlinear Support Vector Machines for Big Data. In: Ceci M., Hollmén J., Todorovski L., Vens C., Džeroski S. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2017. Lecture Notes in Computer Science, 10534. Springer, Cham, 2017, 307-322, doi: 10.1007/978-3-319-71249-9_19.

Painsky, A., Rosset, S. Cross-Validated Variable Selection in Tree-Based Methods Improves Predictive Performance. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39 (11), 2142-2153, doi: 10.1109/TPAMI.2016.2636831.

Najibi, M., Rastegari, M., Davis, L. S. G-CNN: An Iterative Grid Based Object Detector. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA, 2016, 2369-2377, doi: 10.1109/CVPR.2016.260.

Ali, S., Smith, K. A. On learning algorithm selection for classification. Applied Soft Computing 6, 2006, 119-138, doi: 10.1016/j.asoc.2004.12.002.

Garcke, J., Griebel, M. Classification with sparse grids using simplicial basis functions. Intelligent Data Analysis, 2002, 6, 6, 483-502.

Pflüger, D., Muntean, I.L., Bungartz, H.-J. Adaptive Sparse Grid Classification Using Grid Environments. In: Shi, Y., van Albada, G.D., Dongarra, J., Sloot, P.M.A. (Eds.), Computational Science – ICCS 2007. Springer Berlin Heidelberg, Berlin, Heidelberg, 708-715, doi: 10.1007/978-3-540-72584-8_94.

Gupta, P., McKeown, N. Algorithms for packet classification. IEEE Network, 2001, 15, 24-32, doi: 10.1109/65.912717.

Rieken, J., Matthaei, R., Maurer, M. Benefits of Using Explicit Ground-Plane Information for Grid-based Urban Environment Modeling. 18th International Conference on Information Fusion (Fusion), Washington, DC, 2015, 2049-2056.

Lin, Y.-L., Yen, M.-F., Yu, L.-C. Grid-Based Crime Prediction Using Geographical Features. ISPRS International Journal of Geo-Information, 2018, 7, 298, doi: 10.3390/ijgi7080298.

Deville, R., Fromont, E., Jeudy, B., Solnon, C. GriMa: A Grid Mining Algorithm for Bag-of-Grid-Based Classification. In: Robles-Kelly, A., Loog, M., Biggio, B., Escolano, F., Wilson, R. (Eds.), Structural, Syntactic, and Statistical Pattern Recognition. Springer International Publishing, Cham, 2016, 132-142, doi: 10.1007/978-3-319-49055-7_12.

Dashkevich, A. Algoritm prostranstvennogo heshirovaniya dlya resheniya zadach priblizitelnogo poiska blizhayshih sosedey [Spatial hashing algorithm for solving approximate search problems for nearest neighbors]. Scientific bulletin of the Tavria agrotechnological state university, TASU, 2018, 8, 1, 79-86.

##submission.downloads##

Опубліковано

2018-12-28

Як цитувати

Dashkevich, A. (2018). Сигнатура точкової множини та алгоритм класифікації на її основі. Вісник Національного технічного університету «ХПІ». Серія: Нові рішення у сучасних технологіях, (45(1321), 93–97. https://doi.org/10.20998/2413-4295.2018.45.12

Номер

Розділ

Інформаційні технології та системи управління