Порівняння ефективності двох методів формалізації голосової взаємодії

Автор(и)

  • Ivan Naydonov Київський національний університет імені Тараса Шевченка, Україна https://orcid.org/0000-0002-2498-6375

DOI:

https://doi.org/10.20998/2413-4295.2018.45.14

Ключові слова:

інтелектуальні рефлекторні системи, згорткові нейронні мережі, класифікація голосових команд, класифікація мовлення, розпізнавання мовлення, обробка природної мови

Анотація

Стаття присвячена дослідженню ефективності формалізації голосової взаємодії без перетворення голосової інформації в текст, на основі застосування рефлекторної системи голосового управління, що складаються з фонемного стенографа, який перетворює звуковий запис на фонемну репрезентацію, і ядра класифікації, яке визначає зміст та керуючий вплив з отриманого набору фонем. Мета статті полягає у порівнянні ефективності методів машинного навчання для формалізації голосової взаємодії на прикладі системи підтримки диспетчеризації автотранспорту з використанням рефлекторної системи голосового управління. З метою перевірки ефективності побудованих моделей було проведено ітеративний процес збору даних (у відповідності до моделі голосової взаємодії у вигляді дерева сценаріїв) та моделювання формалізації, який передбачав аналіз отриманих результатів та розширення метрик  точності оцінювання для незбалансованих вибірок (прецизійність, повнота, F-міра). На первинному етапі зібрано голосові дані 23 дикторів, у середньому по 45 зразків на реакцію. Результати моделювання на мінімальному наборі даних обома методами показали точність не вищу за 50%, що є недостатньою для практичного застосування. На основі цього було висунуто гіпотезу про малу кількість голосових даних для машинного навчання, тому на другому етапі зібрано в середньому 310 голосових зразків для кожної з 3-х реакцій простого контексту, загалом 925 реакцій. Моделювання методом інтелектуальних рефлекторних систем показало точність біля 60%, що також є недостатнім, а методом згорткових нейронних мереж — трохи більше за 90%, що є прийнятним. Для підтвердження ефективності методу інтелектуальних рефлекторних систем двох ітерацій виявилося недостатньо, висунуто гіпотезу про недостатню якість звукового запису та високий рівень шумів як перешкоди ефективності моделі формалізації, окреслено перспективи проведення наступного етапу дослідження. Зроблено висновок про ефективність рефлекторної системи голосового управління та її здатність на практиці визначати зміст та керуючий вплив отриманого набору фонем без перетворення голосової інформації в текстову форму.

Біографія автора

Ivan Naydonov, Київський національний університет імені Тараса Шевченка

аспірант кафедри технологій управління

Посилання

Ishiguro, H. Adaptation to teleoperated robots. International Journal of Psychology, 2016, 51(S1), 10, doi:10.1002/ijop.12361.

Kravchenko, A. P., Kramar, N. M., & Morozov, I. V. Avtomatizirovannaja komp juternaja sistema golosovogo upravlenija avtomobilem [Automated computerized voice control system]. Avtomobilnyj transport [Automobile transport], 2009, 25, 44–47.

Heisterkamp, P. Linguatronic Product-level Speech System for Mercedes-Benz Cars. Proceedings of the First International Conference on Human Language Technology Research. San Diego: Association for Computational Linguistics, 2001, 1-2, doi:10.3115/1072133.1072199.

Naydonov, I. M. Problema holosovoi vzaiemodii v zadachakh upravlinnia dystrybutsiieiu [The problem of voice interaction in the distribution management tasks]. Visnyk Cherkas koho derzhavnoho tekhnolohichnoho universytetu. Seriia: Tekhnichni nauky [Cherkasy state technological university journal. Series: Engineering], 2016, 3, 63–71.

Naydonov, I. Geoinformation system of vehicle routing and parameters of voice interaction of subjects of logistics. 16th eage international conference on geoinformatics - theoretical and applied aspects, 2017, doi:10.3997/2214-4609.201701807.

Egorchenkov, A. V.. Prikladnoe primenenie reflektornoj sistemy golosovogo upravlenija [Applied application of the reflex voice control system]. Upravlіnnja rozvitkom skladnih sistem [Managing the development of complex systems], 2016, 25, 103–107.

Teslia, I., Popovych, N., Pylypenko, V., & Chornyi, O. The non-force interaction theory for reflex system creation with application to tv voice control. Proceedings of the 6th international conference on agents and artificial intelligence, 2014, 288–296, doi: 10.5220/0004754702880296.

Teslja, Ju. M., Chornij, O. Reflektornaja sistema golosovogo upravlenija tehnicheskimi ustrojstvami (RSGU) [Reflex voice control system for technical devices (RVCS)]. Upravlіnnja rozvitkom skladnih sistem [Managing the development of complex systems], 2013, 15, 105-110.

Teslia, Yu. M. Vvedennia v informatyku pryrody [Introduction to the informatics of nature]. K.: Maklaut, 2010, 255.

Pilipenko, V. V., Robejko, V. V. Avtomatizirovannyj stenograf ukrainskoj rechi [Automated stenographer of Ukrainian speech]. Shtuchnij іntelekt [Artificial Intelligence], 2008, 4, 768–775.

Naydonov, I. M. Model holosovoi vzaiemodii vodiia v systemakh dyspetchers koho kontroliu za rukhom avtotransportu [Model of voice interaction of the driver in systems of dispatch control of motor transport]. Komp iuterno-intehrovani tekhnolohii: osvita, nauka, vyrobnytstvo [Computer-integrated technologies: education, science, production], 2018, 33, 121-127.

Korsun, O. N., Jacko, A. A., Finaev, I. M., Chuchupal, V. Ja. Eksperimental noe issledovanie vlijanija akusticheskih pomeh raznyh vidov na rezul taty avtomaticheskogo raspoznavanija rechevyh komand [Experimental study of the influence of acoustic noise of different types on the results of automatic recognition of voice commands]. Nauka i obrazovanie: nauchnoe izdanie MGTU im. N.Je. Baumana [Science and education: a scientific publication MSTU. N.E. Bauman], 2013, 1, 12.

Naydonov, I. M. Formalizatsiia holosovoi informatsii v systemakh dyspetcherskoho kontroliu za rukhom avtotransportu [Formalization of voice information in systems of dispatch control over motor transport]. Naukovi notatky [Scientific notes], 2018, 64 (in press).

Kim, Y. Convolutional neural networks for sentence classification. Proceedings of the 2014 conference on empirical methods in natural language processing, 2014, 1746–1751.

Zhang, X., Zhao, J. J., LeCun, Y. Character-level convolutional networks for text classification. Advances in Neural Information Processing Systems 28, 2015, arXiv: 1509.01626.

Ting, K. M. Encyclopedia of machine learning. Boston, MA: Springer, 2011, 892.

Stehman, S. V. Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment, 1997, 62(1), 77–89, doi:10.1016/S0034-4257(97)00083-7.

Powers, D. M. W. Evaluation: from precision, recall and f-measure to roc, informedness, markedness & correlation. Journal of Machine Learning Technologies, 2011, 2(1), 37-63.

Sasaki, Y. The truth of the f-measure. Manchester: University of Manchester, 2007, 5, doi:10.1007/978-0-387-30164-8.

Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection. Proceedings of the fourteenth international joint conference on artificial intelligence. San Mateo, CA: Morgan Kaufmann, 1995, 1137–1143, doi:10.1.1.48.529.

##submission.downloads##

Опубліковано

2018-12-28

Як цитувати

Naydonov, I. (2018). Порівняння ефективності двох методів формалізації голосової взаємодії. Вісник Національного технічного університету «ХПІ». Серія: Нові рішення у сучасних технологіях, (45(1321), 104–112. https://doi.org/10.20998/2413-4295.2018.45.14

Номер

Розділ

Інформаційні технології та системи управління