АПВПМ-2019
ИСПОЛЬЗОВАНИЕ КОНТРОЛЛЕРА LEAP MOTION ДЛЯ ПРИКЛАДНЫХ СИСТЕМ РАСПОЗНАВАНИЯ
ЯЗЫКА ЖЕСТОВ
Д, Г, Еникеев1, С, А. Муетафина 1
1 Стерлитамакский филиал Башкирского государственного университета, 453103, Стерлитамак
УДК 004.934
DOI: 10.24411/9999-016А-2019-10023
Слабослышащие люди и люди с полной потерей слуха для передачи информации используют язык жестов, основанный на самостоятельной форме изложения, не связанной со словесной. Здоровые люди находят такой способ общения затруднительным и неизбежно возникает потребность в переводчике. Современное развитие технологий распознавания и обучения видеообразов позволили создавать системы распознавания жестов. Они призваны обеспечить общество глухих и слабослышащих людей более удобным способом общения. Задачей устройства является перевод языка жестов в письменную либо аудио-речь. В представленной работе нами приведены основные свойства языка жестов, его параметры и отличия от других способов коммуникации. Также проведен обзор наиболее популярных аппаратных способов сбора данных о жестах и их обработке. В работе предлагается использование контроллера Leap motion [1] от одноименной компании в системе распознавания жестов, так как такой контроллер позволяет избавиться от проблем с процессом распознавания рук пользователя и выделением основных характеристик.
Ключевые слова: язык жестов, система распознавания, классификация, методы сбора данных, компьютерное зрение.
Введение
Люди общаются друг с другом, чтобы обмениваться своими идеями, мыслями и опытом. Но, к сожалению, это не касается глухонемых. Они не могут создать разговор со здоровыми людьми и изолируются от общества. Язык жестов помогает людям с ограниченными возможностями беседовать между собой. Данный способ общения состоит из различных жестов, образованных позами рук, движениями и ориентацией рук, тела, или выражениями лица. Использовать язык возможно только для тех, кто прошел специальную подготовку. Поэтому разработанная система распознавания должна играть роль переводчика языка жестов для разрушения барьеров общения с глухими людьми.
Существует много мифов о языках жестов, например, что язык жестов универсален, имеет одинаковую грамматическую структуру, и люди разных стран понимают с помощью языка жестов друг друга. Но реальные факты таковы: язык жестов для большинства стран является уникальным; диалекты жестового языка каждой страны отличаются от региона к региону; языки жестов не будут полностью поняты иностранцами, пересечения в словах минимальны; в жестовом языке также много слов, как и в любом другом речевом.
1 Этапы распознавания жестов
Разработка технической системы распознавания языка жестов состоит из следующих этапов:
Первый этап. Создание блока сбора информации. Это устройство, которое отвечает за захват жеста. В случае подходов, основанных на видео, это камера, а в случае устройств на основе датчиков — это перчатка данных или трекер движения.
ISBN 978-5-901548-42-4
Второй этап. Создание блока предварительной обработки жестов. Это блок, отвечающий за то, чтобы сделать информацию о жестах полезной с точки зрения извлечения признаков. Такой блок расширит полезные данные и избавит от ненужных шумов.
Третий этап. Создание блока извлечения характеристик. Это блок, который собирает все компоненты жеста и сохраняет их в кодовом векторе.
Четвертый этап. Сопоставление с шаблоном. В этом блоке кодовый вектор сравнивается с существующими векторами в базе данных.
Пятый этап. Классификация жестов. На основе результатов сопоставления с шаблоном будет проведена классификация жестов. Этот блок классифицирует жест в соответствии с ближайшим совпадением, найденным в сопоставлении с шаблоном.
Шестой этап. Блок распознавания жестов. Этот конечный блок полностью распознает жест и выдаст соответствующий вывод.
2 Способы сбора информации в системе распознавания жестов
Подходы и методы распознавания языка жестов появились за десять лет после распознавания аудио-речи. Связано это с историческим зазором между передачей, обработкой аудио- и видеоинформации. Первые научные публикации в области распознавания языка жестов появились в начале 90-х годов. Большинство приложений, представленных в работах, не работали в режиме реального времени и требовали до 20 секунд задержки для завершения обработки и классификации жеста. Существует небольшое количество опубликованных работ, в которых приводятся подробности об оборудовании и разрешении камеры. Как правило, большинство предлагаемых подходов предполагают использование профессионального оборудования, оптимальное размещение камеры, низкий уровень шума и высокое разрешение. Магнитные или оптические маркеры на руках и лице облегчают определение ручной конфигурации и выражения лица.
Исторически первым аппаратным способом сбора данных являются «умные перчатки». Устройства содержали в себе датчики в перчатке, регистрирующие угол наклона фаланг относительно ладони, поворот руки к горизонту. В дальнейшем, развитие технологий микроэлектроники позволило добавить акселерометры для измерения картины ускорений во время выполнения жеста. Так, например, в работе [2] используют сенсоры изгиба и акселерометры на каждой руке, которые используются для определения их наклона в пространстве. В работе [3] использует 5DTDatagloves — перчатки с 5 магнитными датчиками, отслеживающими одиннадцати свойств для одной руки: позиции в трехмерном пространстве, поворот ладони, изгиб пальцев. Преимуществами этого метода сбора данных является большой объем регистрируемой информации и его точность. Такой способ сбора имеет большую точность, однако ношение дополнительного оборудования является неприемлемым в использовании в повседневной жизни.
Постепенно с развитием видеоаппаратуры сформировались стандартные системы распознавания, основанные на использовании камер видимого диапазона. Варианты типов камер и их расположения могут быть различны. В [4] исследователи используют веб-камеру ноутбука и MultiSim для записи и обработки данных. В работе [5] использует камеру с частотой 60 кадров в секунду и программный фильтр кожи. Благодаря использованию камер значительный опыт в области распознавания объектов может быть перенесен в область языка жестов. Второй положительной стороной является обширная база данных жестов. Однако решение имеет существенные недостатки, связанные со способом сбора информации о жесте. На качество съемки влияет свойства камеры, такие как разрешение и светочувствительность, формат выходного файла. Прямое влияние точности распознавания от камеры увеличивает стоимость и комплексность системы. Кроме того, влияние оказывают внешние условия съемки: освещение, угол и расстояние между объектом и камерой, что непосредственно отражается на сценариях использования. С точки зрения процесса распознавания алгоритмы ограничены двухмерным пространством.
В качестве методов сбора данных также используются специализированное оборудование, разработанное для определения жестов. Компания Microsoft в 2010 году выпустила устройство Kinect. Оно оснащено RGB-камерой, датчиком глубины и стерео микрофоном и способно отслеживать движения тела пользователя. Использование Microsoft Kinect дает лучшие результаты [6], чем традиционные одиночные камеры, имеющие недостатки в условиях окружающей среды. Тем не менее, оно не поддерживает распознавание формы руки, и поскольку язык жестов обычно включает различные формы руки, схожие движения нельзя различить.
142
Д. Г. Еникеев, С. А. Мустафина
3 Моделирование жестов
Моделирование относится к использованию моделей - физического, математического или иного логического представления системы, объекта, явления или процесса в качестве основы для моделирования. Относительно систем распознавания жестов, существует два типа моделирования.
2D моделирование. В случае 2D моделирования данные двухмерного изображения захватываются с одной камеры. Алгоритмы сегментации и манипулирования изображениями используются для извлечения информации. Она является единственным источником для классификации жеста. Это привело к разработке цветных маркеров или цветных перчаток на руках, которые непосредственно записывают жест и игнорируют фон. Методы 20-моделирования основаны на алгоритмах компьютерного зрения для извлечения информации о жесте, а не на специальном оборудовании.
3D моделирование влечет за собой захват жеста или знака в трехмерном пространстве. Такой тип нивелирует неоднозначность в жестах при помощи дополнительной координаты и показывает повышенную точность в распознавании. Однако повышение количества получаемой информации влечет за собой повышенную нагрузку на процессоры обработки и выделения информации.
4 Предлагаемое решение
В данной работе нами предлагается использовать контроллер Leap Motion [1]. Устройство использует три инфракрасных светодиода для подсветки зоны распознавания и две камеры. Рабочая зона представляет собой перевернутую пирамиду объемом около 8 кубических футови дальностью распознавания около 60 см. Устройство интерпретирует пространство как трехмерную прямоугольную систему координат с центром между двух инфракрасных камер. Leap Motion отслеживает руки, пальцы, фаланги и объекты-указатели, такие как карандаш или письменная ручка. Встроенное в драйвер устройства программное обеспечение отвечает за задачи распознавания и последующего препроцессинга. В результате распознавания API выделяет характеристики для руки, пальцев, костей и жестов. В работе [7] были проведены эксперименты по измерению точности определения координат руки в пространстве. В статике устройство может обеспечивать среднюю точность в 0,7 мм, повторяемость результатов крайне велика — девиация между сериями экспериментов составила 0,17 мм. При динамическом перемещении, возможно, достичь точности менее чем 2,5 мм (среднее значение - 1,2 мм).
Заключение
В работе было рассмотрены основные свойства жестового языка, был проведен обзор способов сбора данных для систем распознавания жестов. Предложенное решение Leap Motion является перспективной аппаратной платформой для создания системы распознавания языка жестов. Наличие в устройстве инфракрасных камер для сбора видеосигнала нивелирует влияние освещенности и позволяет анализировать трехмерную картину жеста. Процедура препроцессинга и выделения характеристик, выполняемые встроенным программным обеспечением, упрощает создание приложений.
Список литературы
fl] The Leap motion company // URL: www.leapmotion.com
[2] Lokhande P. Data Gloves for Sign Language Recognition System // International Journal of Computer Applications. 2015. P. 11-14.
[3] Thang P.Q., Dung N.D., Thuy N.T. A comparison of SimpSVM and RVM for Sign Language Recognition. // the International Conference on Machine Learning and Soft Computing - ICMLSC '17. 2017. P. 98-104.
[4] Raheja J.L., Mishra A., Chaudary A. Indian Sign Language Recognition Using SVM //Pattern Recognition and Image Analysis archive. 2016. V. 26, iss. 2. 2016. P. 434-441.
[5] SubhaRajam P., Balakrishnan G. Sign Language Recognition System For Deaf And Dumb People // International Journal of Engineering Research and Technology (IJERT). 2013. P. 382-387.
[6] Huang J., Zhou W., Li H., Li W. Sign language recognition using 3D convolutional neural networks // IEEE International Conference; 2015. P. 1-6.
[7] Weichert F., Bachmann D., Bartholom?us R., Fisseler D. Analysis of the Accuracy and Robustness of the Leap Motion Controller //Sensors (Basel). 2013. P. 6380-6393.
Еникеев Данияр Гадиевич — аспирант Стерлитамакского филиала Башкирского государственного университета;;
e-mail: cooldeepband@gmail.com. Мустафина Светлана Анатольевна — д.ф.-м.н., декан факультета математики и информационных технологий зав. кафедрой математического моделирования, профессор; Стерлитамакский филиал Башкирского государственного университета;
e-mail: mustafina_sa@mail.ru. Дата поступления — 1 сентября 2018 г.