РАСПОЗНАВАНИЕ ЖЕСТОВ НА ОСНОВЕ ТЕХНОЛОГИЙ ГЛУБОКОГО ОБУЧЕНИЯ

В.А. Жуковская; А.В. Пятаева

Секция «Программные средства и информационные технологии»

УДК 004.932.2

РАСПОЗНАВАНИЕ ЖЕСТОВ НА ОСНОВЕ ТЕХНОЛОГИЙ ГЛУБОКОГО ОБУЧЕНИЯ

В. А. Жуковская Научный руководитель - А.В. Пятаева

Сибирский федеральный университет Российская Федерация, 660074, г. Красноярск, Академика Киренского, 26Б E-mail:zhukovskaya.viada00@mail.ru

Распознавание жестов является важной задачей, в частности для общения глухого и слабослышащего населения с людьми, не владеющими жестовым языком. Современным подходом к решению этой задачи являются технологии глубокого обучения.

Ключевые слова: язык жестов, нейронные сети, машинное обучение, распознавание. GESTURE RECOGNITION BASED ON DEEP LEARNING TECHNOLOGIES

V.A. Zhukovskaya Scientific supervisor - A.V. Pyataeva

Siberian Federal University 26B, Academician Kirensky, Krasnoyarsk, 660074, Russian Federation E-mail:zhukovskaya.vlada00@mail.ru

Gesture recognition is an important task, in particular for the communication of the deaf and hard of hearing population with people who do not know sign language. Deep learning technologies are a modern approach to solving this problem.

Keywords: sign language, neural networks, machine learning, recognition.

По данным Всемирной организации здравоохранения по состоянию на 2020 год более 5% всех людей в мире (360 млн человек) страдают от серьёзных нарушений слуха, ожидается, что к 2050 году их число вырастет до 900 миллионов. Обеспечение коммуникативного взаимодействия таких людей в обществе является важнейшей социальной задачей, обеспечивающей устранение мотивационных, психологических, идеологических или межкультурных барьеров. Жестовые языки даже в рамках одной лингвистической группы обладают существенной вариативностью, поэтому разработка системы преобразования жестового языка в речь для улучшения взаимодействия людей с нарушениями слуха и без таких нарушений с учетом лингвистических особенностей жестов является актуальной задачей.

В работе под жестами понимаются различные телодвижения, являющиеся невербальным способом передачи информации. Жесты могут быть разделены на статические и динамические. Движение пальцев, рук, головы, плеч, мимика лица - все перечисленные действия являются динамическими жестами, то есть наблюдаемые по видеопоследовательностям в некоторый период времени жесты. Динамическое распознавание жестов является сложной задачей, потому что каждый человек выполняет один и тот же жест по-разному.

В настоящее время существует ряд технологий, которые применяются для решения данной задачи [1,2,3]. На рис. 1 показаны примеры существующих технологий:

Актуальные проблемы авиации и космонавтики - 2022. Том 2

бесконтактные сенсоры, которые используют структурированный свет, инфракрасные камеры и специализированный процессор для измерения расстояния от камеры до сцены (Microsoft Kinect [4], специальные перчатки [5], где Обрабатываемыми данными, в таком случае являются скорость движения и углы поворота рук и приложения, которые позволяют управлять компьютером, используя простые жесты, выделяемые из видеопотока Flutter.

а б в

Рис. 1. Примеры технологий, которые применяются для распознавания жестов: (а) - бесконтактные сенсоры, (б) - перчатки, (в) - приложение

Несмотря на достигнутые успехи в данной области, существует и ряд недостатков, ограничивающих использование этих технологий, например, необходимость использования дополнительных источников данных. Методы компьютерного зрения, благодаря новым достижениям в области компьютерного зрения, повышению производительности компьютеров, и также популярности и высокому качеству недорогих видеокамер позволяют решить данную проблему.

Популярной технологией компьютерного зрения в настоящее время является использование нейронных сетей глубокого обучения [6,7]. Среди нейронных сетей глубокого обучения высокое качество работы алгоритмов распознавания жестов обеспечивает архитектура ЬБТМ (рис.2) - разновидность особой архитектуры рекуррентных нейронных сетей, способная к обучению на долговременную зависимость [8,9]. Она была специально разработана для задач, где необходимо распознавание продолжающихся во времени действий. Именно к таким действиям относятся динамические жесты.

Таким образом, решение задачи распознавания жестов является сложной и актуальной задачей. Для распознавания жестов по видеоданным требуется считывать и классифицировать движения руки, как динамического компонента жестов. Трудности распознавания связаны с особенностью интерпретации и воспроизведения жестов, свойственных разным людям. Кроме того, в настоящее время существует нехватка датасетов

Секция «Про граммные средства и информацио иные техно ло гии»

с жестами русского языка. Популярным и эффективным подходом к визуальному распознаванию жестов является использование технологий глубокого обучения.

Библиографические ссылки

1. Abadi M., Agarwal A. et al. Tensorflow: large-scale machine learning on heterogeneous distributed systems // arXiv:1603.04467. - 2016.

2. Suharjito, Anderson R., Wiryana F., Ariesta M. C., Kusuma G. P. Sign language recognition application systems for deaf-mute people: A review based on input-process-output. // Proce dia Computer Science. 2017. vol. 116. P. 441-448.

3. OpenCV [Электронный ресурс]. URL: https://opencv.org/ (дата обращения: 23.03.2022).

4. Kinect для Windows [Электронный ресурс]. URL: http://support.xbox.com/ru-RU/browse/xbox-on-other-devices/kinect-for-windows (дата обращения: 23.03.2022).

5. S. Mitra, T. Acharya, Gesture recognition: A survey, Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 37 (2007)311-324.

6. Li H., Greenspan M. Segmentation and recognition of continuous gestures // 2007 IEEE International Conference on Image Processing. - 2007. - vol. 1. - P. I-365-I-368.

7. Grif M. G., Kugaevskikh A. V. Recognition of deaf gestures based on a bio-inspired neural network // Journal of Physics: Conference Series, 2020, vol. 1661, ID 012038.

8. Haque A., Peng B., Luo Z., Alahi A., Yeung S., FeiFei L. Towards Viewpoint Invariant 3D Human Pose Estimation. // Computer Vision — ECCV 2016. Leibe B., Matas J., Sebe N., Welling M. (Eds). Lecture Notes in Computer Science. Springer, 2016. vol. 9905. P. 160-177.

9. Marin-Jimenez M., Romero-Ramirez F., Munoz-Salinas R., Medina-Carnicer R. 3D human pose estimation from depth maps using a deep combination of poses // Journal of Visual Communication and Image Representation, 2018, vol. 55, P. 627-639.

РАСПОЗНАВАНИЕ ЖЕСТОВ НА ОСНОВЕ ТЕХНОЛОГИЙ ГЛУБОКОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В.А. Жуковская, А.В. Пятаева

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В.А. Жуковская, А.В. Пятаева

GESTURE RECOGNITION BASED ON DEEP LEARNING TECHNOLOGIES

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЖЕСТОВ НА ОСНОВЕ ТЕХНОЛОГИЙ ГЛУБОКОГО ОБУЧЕНИЯ»