Научная статья на тему 'РАСПОЗНАВАНИЕ ЖЕСТОВОГО ЯЗЫКА НА ОСНОВЕ КИРЕМНОГО ДЕЛЕНИЯ ЖЕСТОВ'

РАСПОЗНАВАНИЕ ЖЕСТОВОГО ЯЗЫКА НА ОСНОВЕ КИРЕМНОГО ДЕЛЕНИЯ ЖЕСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
166
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РУССКИЙ ЖЕСТОВЫЙ ЯЗЫК / MEDIAPIPE / ВИДЕО ДАТАСЕТ / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / СИСТЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ / КИРЕМА / РАСПОЗНАВАНИЕ ЖЕСТОВОГО ЯЗЫКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Харламенков Алексей Евгеньевич, Ашрафи Арифа, Мохначёв Виктор Сергеевич, Филиппович Юрий Николаевич, Черненко Сергей Евгеньевич

Существующие методы распознавания жестов жестовых языков основаны на восприятии жеста как единого целого, что приводит к очень большому разбросу значений для одного и того же жеста и требует значительных вычислительных ресурсов и больших данных в качестве обучающего материала. В статье демонстрируется подход о необходимости распознавать жест покиремно, т.е. распознавать отдельные его элементы. Данный подход является наиболее энергоэффективным. Жестовые языки не имеют письменной фиксации, поэтому для пополнения лингвистических баз жестовых языков требуются технологии захвата движения. Использование MediaPipe в качестве такой технологии позволяет работать на бытовых видеокамерах без использования специального оборудования. Из жеста должны отдельно выделяться киремы: движение, конфигурация, местоположение, направление и т.д., что и позволяет делать MediaPipe. Значение каждой киремы может иметь определённые отклонения, в пределах которых её можно считать не изменённой. Задачей является построение системы для горячего пополнения значений каждой киремы и сбор материала для вычисления дельты отклонения для каждого значения каждой киремы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Харламенков Алексей Евгеньевич, Ашрафи Арифа, Мохначёв Виктор Сергеевич, Филиппович Юрий Николаевич, Черненко Сергей Евгеньевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SIGN LANGUAGE RECOGNITION BASED ON THE KIREME DIVISION OF GESTURES

Existing methods for Sign Language Recognition are based on the perception of a gesture as a whole, which leads to a very large scatter of values for the same gesture, and requires significant computing resources and big data as training material. The article shows an approach about the need to recognize a gesture by kiremes, i.e. recognize individual elements. This approach is the most efficient. Sign languages do not have a written fixation, so motion capture technologies are required to fill up the linguistic bases of sign languages. Using MediaPipe as a technology allows anyone to work on consumer video cameras without the use of special equipment. From the gesture, kiremes should be distinguished separately: movement, configuration, location, direction, etc., which MediaPipe allows you to do. The value of each kireme may have certain deviations within which it will remain unchanged. The task is to build a system for the return of the values of each kireme and collect material to calculate the deviation delta for each value of each kireme.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЖЕСТОВОГО ЯЗЫКА НА ОСНОВЕ КИРЕМНОГО ДЕЛЕНИЯ ЖЕСТОВ»

Распознавание жестового языка на основе киремного деления жестов

Харламенков Алексей Евгеньевич,

Почётный доктор наук; старший преподаватель Московского политехнического университета. ЦНИИ русского жестового языка

E-mail: alex@harlamenkov.ru Ашрафи Арифа,

аспирант Московского политехнического университета E-mail: arifaa13@gmail.com

Мохначёв Виктор Сергеевич,

аспирант Московского политехнического университета E-mail: gagashaggy@inbox.ru

Филиппович Юрий Николаевич,

кандидат технических наук. профессор, Московский политехнический университет E-mail: y_philippovich@mail.ru

Черненко Сергей Евгеньевич,

аспирант Московского политехнического университета E-mail: sergeychrnk@gmail.com

Существующие методы распознавания жестов жестовых языков основаны на восприятии жеста как единого целого, что приводит к очень большому разбросу значений для одного и того же жеста и требует значительных вычислительных ресурсов и больших данных в качестве обучающего материала. В статье демонстрируется подход о необходимости распознавать жест покиремно, т.е. распознавать отдельные его элементы. Данный подход является наиболее энергоэффективным. Жестовые языки не имеют письменной фиксации, поэтому для пополнения лингвистических баз жестовых языков требуются технологии захвата движения. Использование MediaPipe в качестве такой технологии позволяет работать на бытовых видеокамерах без использования специального оборудования. Из жеста должны отдельно выделяться киремы: движение, конфигурация, местоположение, направление и т.д., что и позволяет делать MediaPipe. Значение каждой киремы может иметь определённые отклонения, в пределах которых её можно считать не изменённой. Задачей является построение системы для горячего пополнения значений каждой киремы и сбор материала для вычисления дельты отклонения для каждого значения каждой киремы.

Ключевые слова: русский жестовый язык, MediaPipe, видео датасет, компьютерное зрение, система распознавания жестов, кирема, распознавание жестового языка.

о с

U

см см о см со

Введение

По статистике Всемирной организации здравоохранения 5% населения в мире имеют инвалиди-зирующую потерю слуха [1], вследствие чего для коммуникации используют жестовый язык (ЖЯ). Соответственно, в России таких лиц насчитывается более 10 млн человек. Наш проект заключается в разработке многоязычного автоматического словарного переводчика жестового языка на основе русского, бенгальского и американского ЖЯ. Для разработки нашего крупного проекта предлагаемый метод, описанный в этой статье, фокусируется на распознавании жестового языка с использованием киремного разделения жестов, наряду с распознаванием русского жестового языка (РЖЯ) в режиме реального времени с использованием MediaPipe, Python и алгоритма динамического преобразования временной шкалы (DTW); он менее ресурсоемкий, чем другие методы распознавания ЖЯ.

Распознавание жестового языка

Каждый жест состоит из шести отдельных частей, называемых "кирема": конфигурации кисти, ориентация кистей в пространстве, места выполнения жеста, количества рук, движения, мимики (опционально) [2, с. 87]. Исследования, проведенные с помощью электронной справочно-аналитической системы (ЭСАС) «Толкового лексикографического словаря русского жестового языка» (https://slovar.surdo-centr.ru), позволили выделить к четырем ранее классифицированным видам жестов («простой жест», «составной жест», «дактилема и жест», «склейка») классифицировать ещё 7 классов жестов: «дак-тильная склейка», «дактильный жест», «дактиль-ножестовая склейка», «дополненный жест», «мимический жест», «мимически-дополненный жест» и «жест-модификатор» [2]. Технология распознавания жестов требует разработки датасета. На начальном этапе разработки технологии анализироваться будут «простые жесты». Достижение положительного результата данного этапа позволит приступить к обработке остальных классов жестов.

Методология исследования

В этом исследовании система распознавания жестов выполняет следующие шаги (рис. 1):

• Извлечение ориентиров рук с помощью MediaPipe Hands.

• На общей фигуре выделяется кирема (например, конфигурация руки; кол-во рук).

• Выделенная кирема (конфигурация) распознаётся и сравнивается с базой.

Рис. 1. Этапы распознавания РЖЯ в реальном времени с дальнейшим продвижением

сз о со "О

1=1 А

—I

о

сз т; о т О от

З

и о со

Рис. 2. Блок-схема предлагаемого алгоритма распознавания жестов в режиме реального времени для РЖЯ.

• Если конфигурация обнаружена в базе эталонов или отклонений, то берётся значение эталона.

• Если конфигурация не обнаружена, то ищется наиболее близкое и предлагается к опознаванию.

• Если опознана дельта, то применяется значение эталона для этой дельты и задаётся второй уточняющий вопрос, предлагая к опознанию эталон, определённый по дельте.

• Если получен утвердительный ответ, то в качестве распознанной киремы фиксируется эталон, а фактически распознанное значение записывается как ещё одна дельта эталона.

• Если все предложенные к опознанию варианты отвергнуты, то фиксируется новое значение конфигурации (киремы).

Предлагаемый способ реализуется в разрабатываемом приложении. Далее будет реализован план повышения точности, и будут предложены дальнейшие предложения по развитию с учетом приоритетов развития основного проекта. Предлагаемый алгоритм выполнения задачи определен на рисунке 2. Для разработки детектора ЖЯ в реальном времени мы будем использовать более 2000 высокопрофессиональных видеофрагментов в качестве датасетов. Для оценки правильности распознавания жестов будет использоваться интуитивно понятная формула, которая представляет собой просто отношение правильно предсказанных наблюдений к общему количеству наблюдений [3].

В дальнейшем предложенный метод будет применен к бенгальскому и американскому ЖЯ с це-

Электронная справочно-аналитическая система

Толковый лексикографический словарь русского жестового языка

лью разработки многоязычного словарного переводчика ЖЯ на основе американского, бенгальского и русского ЖЯ.

Постановка проблемы

РЖЯ принадлежит к семейству французских ЖЯ. Лексика РЖЯ была сильно сформирована австрийским ЖЯ. РЖЯ до сих пор недостаточно описан и относится к языкам с низким уровнем ресурсов. Исследования ЖЯ, требуют надежной базы данных, необходимой для обучения, тестирования и сравнения различных систем распознавания, основанных на глубоком обучении. Киремы жестов, в своей массе идентичны в разных национальных ЖЯ. Детальный состав кирем проработан для русского жестового языка и зафиксирован в ЭСАС. При обработке ЖЯ, отличных от РЖЯ, состав кирем будет дополняться в горячем режиме при распознавании жестов соответствующих ЖЯ. Поэтому датасет РЖЯ может быть взят за основу многоязычного переводчика ЖЯ.

Видео датасет для русского жестового языка

В ЭСАС представлены более 2000 оригинальных видео жестов.

Каждый жест на сайте имеет свой адрес. Например, жест [АБАЖУР]: https://slovar.surdocentr. ru/1. Цифровая оконечность этого адреса (1) является ID (идентификатором) жеста. Для каждого жеста дана словарная статья с подбором синонимов русского языка (обратный перевод жеста на русский язык) и толкованием понятия, передаваемого жестом (рис. 3).

та^^^^^ш ш

| | Войти

ШИМ - з ■ ш 1 § 0 щ щ

г ч

Вид речи: Нормированная Диалект: Общеприянтый

Актуальность: Современный

Слова: абажур, источник освещения, н

я лампа, осветительный прибор, освещение, плафон, светильник.

Рис. 3. Видео датасет русского жестового языка на сайте «СурдоЦентра»

Обоснование выбора MediaPipe

с= Кроссплатформенный фреймворк машинного об-^ учения с открытым исходным кодом MediaPipe об-= ладает низкой энергоёмкостью, предоставляет возможность свободно использовать настраиваемые

решения для машинного обучения [4]. В нашем проекте мы используем MediaPipe Holistic для захвата движения, лица, рук и разных поз, необходимых для распознавания ЖЯ и извлечение ключевых точек для передачи в модель CV (компьютерное зрение) [5] (рис. 4).

Рис. 4. Ориентиры руки MediaPipe [4]

Реализация метода

Веб-приложение написано на Python. На первом этапе необходимо провести распознавание всех имеющихся в видео датасете жестов для получения их скелетных моделей. Затем полученные скелеты будут анализироваться на предмет выделения отдельных кирем в скелете. Например, кирема "конфигурация" имеет 78 значений для РЖЯ.

После определения наборов костей скелета, отвечающего за соответствующую кирему, будет разработан алгоритм пополнения справочника соответствующей киремы в горячем режиме.

Совокупный набор значений кирем является однозначным идентификатором жеста.

После завершения этапа разбиения на кире-мы распознанных жестов датасета система будет готова к распознаванию новых жестов и пополнению жестового словаря в режиме, приближённому к реальному времени.

Нечеткое распознавание жеста

В разрабатываемом приложении используется алгоритм деформации временной шкалы (DTW). Это один из наиболее распространенных методов динамического программирования, используемых для распознавания жестов [6, 7]. Алгоритм динамической трансформации временной шкалы (DTW) - это известный метод поиска оптимального выравнива-

ния между двумя заданными (зависящими от времени) последовательностями при определенных ограничениях. Очевидно, что последовательности искажаются нелинейным образом, чтобы соответствовать друг другу [8]. Идея сравнения массивов разной длины состоит в построении совпадений «один ко многим» и «многие к одному», чтобы можно было минимизировать все расстояние между ними. Предположим, что есть два разных массива, следующих одному и тому же шаблону, но один из них длиннее другого. Если применяется соответствие «один к одному», сопоставление не будет полностью синхронизировано, но с помощью DTW можно легко решить эту проблему [9]. С его помощью определяются реальные киремы и их соотношения с эталонными. Таким образом, нивелируются особенности жестового почерка и можно прийти как к эталонному восприятию жеста, так и к эталонной фиксации и демонстрации жеста. Следовательно, после создания жеста, эмбеддингов, содержащих временную и пространственную информацию жеста, проводится классификация жеста. В нашем методе мы можем обойтись одним видеороликом на один жест, в отличие от иных методов глубокого обучения, требующих от ста роликов на жест. На рис. 5 представлены неизвестные системе значения киремы "конфигурация", которые не будут опознаны, и потому будут автоматически добавлены в соответствующий справочник БД.

Рис. 5. Кирема "конфигурация" для некоторых жестов бенгальского ЖЯ ^агЬата ^мям-я1^), отсутствующих в РЖЯ.

сз о со "О

1=1 А

—I

о

сз т; о m О от

З

ы о со

Примером неэффективности иных методов можно привести работу с моделью сверточной нейронной сети VGG16. В некоторых результатах была достигнута точность до 98% для фо-

тографий жестов, но классификация видео для бенгальского жестового языка с помощью CNN-LSTM показала значительно более низкую точность (рис. 6).

о с

CJ

см со

Рис. 6. Средняя потеря и точность обучающей и тестовой выборки за 45 эпох. [10]

С MediaPipe и Dynamic Time Warping можно использовать меньше обучающих данных. С помощью этого метода были вычислены расстояния между зафиксированными киремами и всеми эталонными значениями.

Результаты и анализ

Посредством фреймворка MediaPipe с DTW программа находит сходство между эмбеддингами совпадающих жестов. вычислить сходство между двумя жестам, будут сравниваться их эмбед-динги [11].

При очень ограниченном количестве признаков результаты показывают почти идеальную точность. По мнению некоторых экспертов, при ложном срабатывании детектора модель ориентира запускается один раз и прекращает отслеживание по флагу руки. В следующем кадре он повторно активирует обнаружение. Таким образом, правильный способ отфильтровать то, что не является рукой, - это использовать подсчет флага руки. Точность в среднем составляет почти 95%. [10]

Заключение. Перспективы проекта

РЖЯ признан в России на законодательном уровне. Поэтому требуется внедрение новейших научных приложений и уделение большего внимания области исследований жестового общения. Распознавание ЖЯ требуется для ликвидации информационных барьеров между инвалидами по слуху и слышащими, а также станет коммуникационным мостом для слышащих, лишившихся речи по разным причинам.

По сравнению с другими методами для распознавания жестов, использование фреймворка MediaPipe с использованием DTW для разработки системы распознавания ЖЯ в реальном времени является наиболее перспективным методом и де-

монстрирует простоту реализации систем распознавания ЖЯ с низкими требованиями к машинным ресурсам и в тех случаях, когда недостаточно доступных данных для изучаемого ЖЯ.

Литература

1. Глухота и потеря слуха / ВОЗ, 02 марта 2021 г. [Электронный ресурс]. - URL: https://www.who. int/ru/news-room/fact-sheets/detail/deafness-and-hearing-loss (дата обращения: 08.05.2021).

2. Харламенков, А.Е. Теория русского жестового языка: Учебник / А.Е. Харламенков. - 1-е изд.. - Москва: Издательство Юрайт, 2022. -171 с. - (Высшее образование). - ISBN 978-5534-14700-1.

3. Accuracy, Precision, Recall & F1 Score: Interpretation of Performance Measures, https://blog.ex-silio.com/all/accuracy-precision-recall-f1 -score-interpretation-of-performance-measures, last accessed 2022/04/08.

4. MediaPipe [Электронный ресурс]. - URL: https:// mediapipe.dev/ (дата обращения: 28.08.2022).

5. Python - Facial and hand recognition using Me-diaPipe Holistic, https://www.geeksforgeeks. org/python-facial-and-hand-recognition-using-mediapipe-holistic/, last accessed 2022/06/28.

6. Sakoe, H., Chiba, S.: Dynamic programming algorithm optimization for spoken word recognition. IEEE Transactions on Acoustics, Speech and Signal Processing 26 (1), p. 43-49. IEEE.

7. Reyes, M., Dominguez, G., Escalera, S.: Feature weighting in dynamic time warping for gesture recognition in depth data. IEEE International Conference on Computer VisionWorkshops (ICCV Workshops), pp. 1182-1188. IEEE, Barcelona, Spain (2011).

8. Müller, M.: Dynamic time warping. Information Retrieval for Music and Motion, pp. 69-84. Springer Berlin, Heidelberg (2007).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Dynamic Time Warping, https://towardsdatasci-ence.com/dynamic-time-warping-3933f25fcdd, last accessed 2022/07/08.

10. Ashrafi, A., Mokhnachev, V. S., Philippovich, Y. N., Harlamenkov, A.E., Chernenko, S.E.: Russian Sign Language Recognition Using Media-Pipe, First International Conference Artificial Intelligence in Engineering and Science (AIES2022), EquinOCS conference system, Springer Berlin, Heidelberg (2022).

11. Sign Language Recognition - using MediaPipe & DTW, https://www.sicara.fr/blog-technique/sign-language-recognition-using-mediapipe, last accessed 2022/05/06.

SIGN LANGUAGE RECOGNITION BASED ON THE KIREME DIVISION OF GESTURES

Harlamenkov A.E., Ashrafi A., Mochnachev V.S., Filippovich Yu.N., Chernenko S.E.

Moscow Polytechnic University

Existing methods for Sign Language Recognition are based on the perception of a gesture as a whole, which leads to a very large scatter of values for the same gesture, and requires significant computing resources and big data as training material. The article shows an approach about the need to recognize a gesture by kiremes, i.e. recognize individual elements. This approach is the most efficient. Sign languages do not have a written fixation, so motion capture technologies are required to fill up the linguistic bases of sign languages. Using MediaPipe as a technology allows anyone to work on consumer video cameras without the use of special equipment. From the gesture, kiremes should be distinguished separately: movement, configuration, location, direction, etc., which MediaPipe allows you to do. The value of each kireme may have certain deviations within which it will remain unchanged. The task is to build a system for the return of the values of each kireme and collect material to calculate the deviation delta for each value of each kireme.

Keywords: Russian sign language, MediaPipe, video dataset, computer vision, gesture recognition system, kireme, sign language recognition.

References

1. Deafness and hearing loss / WHO, March 02, 2021 [Electronic resource]. - URL: https://www.who.int/ru/news-room/ fact-sheets/detail/deafness-and-hearing-loss (date of access: 05/08/2021).

2. Kharlamenkov, A.E. Theory of Russian Sign Language: Textbook / A.E. Kharlamenkov. - 1st ed. - Moscow: Yurayt Publishing House, 2022. - 171 p. - (Higher education). - ISBN 978-5534-14700-1.

3. Accuracy, Precision, Recall & F1 Score: Interpretation of Performance Measures, https://blog.exsilio.com/all/accuracy-precision-recall-f1 -score-interpretation-of-performance-measures, last accessed 2022/ 04/08.

4. MediaPipe [Electronic resource]. - URL: https://mediapipe.dev/ (date of access: 08/28/2022).

5. Python - Facial and hand recognition using MediaPipe Holistic, https://www.geeksforgeeks.org/python-facial-and-hand-recog-nition-using-mediapipe-holistic/, last accessed 2022/06/28.

6. Sakoe, H., Chiba, S.: Dynamic programming algorithm optimization for spoken word recognition. IEEE Transactions on Acoustics, Speech and Signal Processing 26(1), p. 43-49. IEEE.

7. Reyes, M., Dominguez, G., Escalera, S.: Feature weighting in dynamic time warping for gesture recognition in depth data. IEEE International Conference on Computer VisionWorkshops (ICCV Workshops), pp. 1182-1188. IEEE, Barcelona, Spain (2011).

8. Muller, M.: Dynamic time warping. Information Retrieval for Music and Motion, pp. 69-84. Springer Berlin, Heidelberg (2007).

9. Dynamic Time Warping, https://towardsdatascience.com/dy-namic-time-warping-3933f25fcdd, last accessed 2022/07/08.

10. Ashrafi, A., Mokhnachev, V. S., Philippovich, Y. N., Harlamenkov, A. E., Chernenko, S. E.: Russian Sign Language Recognition Using MediaPipe, First International Conference Artificial Intelligence in Engineering and Science (AIES2022), EquinOCS conference system, Springer Berlin, Heidelberg (2022).

12. Sign Language Recognition - using MediaPipe & DTW, https:// www.sicara.fr/blog-technique/sign-language-recognition-using-mediapipe, last accessed 2022/05/06.

i Надоели баннеры? Вы всегда можете отключить рекламу.