Комбинированный метод распознавания жестов руки в реальном времени

Кисленко М.Г.

Кисленко М.Г., МГТУ им. Н.Э. Баумана m.kislenko@corp. mail. ru

Анотация

В работе рассматривается

комбинированный метод распознавания жестов руки в условиях реального времени. Выполнен обзор существующих алгоритмов и методов. Применён гибридный подход, при котором выполняется параллельная обработка двух сигналов и классификация на основе нечётких множеств, что позволяет повысить скорость и качество обработки. Также благодаря накоплению информации о последовательности кадров, метод позволяет с высокой точностью распознавать протяженные во времени жесты, к примеру, элементы сурдо-языка.

1 Введение

Существующие методы распознавания жестов по двумерному изображению (или кадру видеоряда) способны распознавать очень небольшое количество жестов. В большинстве работ рассматривают ладонь с вытянутыми вверх пальцами, от одного до пяти. Для распознавания более сложных пространственных конфигураций, у таких методов не хватает информации. Также они чувствительны к условиям освещения, цвету поверхности анализируемой структуры (кожи), поворотам руки относительно камеры и камеры относительно руки, качеству изображения [Нагапетян, 2015].

В то же время методы пространственного распознавания жестов обладают более высокими требованиями к аппаратному обеспечению. А именно сенсорам и вычислительным ресурсам. Последнее необходимо для построения

пространственной модели жеста и дальнейшей классификации [Носов, 2014]. В условиях работы в реальном времени с высокими требованиями к точности, такие методы становятся неприменимыми.

Целью данной работы является построение комбинированного метода, который обладает как высокой точностью так и высокой скоростью при распознавании жеста руки.

Под жестом здесь и далее будем понимать протяженные во времени перемещения всей руки или её частей относительно друг друга.

Подобный метод может быть в дальнейшем использован для построения

интеллектуальных интерфейсов (к примеру, система управления для «умного дома»), прикладных решений в виртуальной реальности (к примеру, создание пространственных моделей жестами рук), а также для создания первых систем автоматического сурдо-перевода. Последнее поможет распространению жестовых языков среди широкого круга пользователей и вовлечению людей с ограниченными возможностями в информационное сообщество.

2 Получение и обработка сигнала

Для получения сигнала о выполняемых жестах и движениях в режиме реального времени используются различные аппаратные средства. Во-первых, это видеокамеры нескольких видов. Цветные камеры упрощают задачу трекинга объектов, благодаря дополнительной информации об их цвете. Инфракрасные камеры не зависят от условий освещенности. Стереоскопические камеры позволяют восстанавливать трехмерную структуру объекта и представляют собой две и более камеры в одном корпусе.

На практике обычным подходом стало объединение разных камер для получения максимального количества полезной информации. Как примеры можно привести технологии Intel RealSense и Leap Motion. Первую нельзя использовать для реализации собственных решений из-за проприетарности ПО и ориентированность на ОС Windows и конкретные модели персональных

компьютеров. В то же время Leap Motion предоставляет отдельный сенсор с инфракрасными детекторами, подключаемый по USB, и программное обеспечение к нему для получения, фильтрации и преобразования

сигнала.

[https://www.leapmotion.com/product/vr].

Альтернативные источники сигнала - это датчики, одеваемые на тело. Они могут быть выполнены в виде перчаток (к примеру, SignAloud), браслетов (к примеру, uSeeBand) или манипуляторов (как у Nintendo Wii и других). На данный момент эти технологии используют редко, так как сами датчики требуют автономного питания и могут мешать выполнению жестов - делают их неуклюжими и медленными.

Исследовательские работы также ведутся в области электромагнитных полей. К примеру, реализуется подход с генерацией поля с помощью Wi-Fi точки доступа и регистрацией возникающего при движениях человека эффекта Допплера. Сама технология довольна проста в реализации, однако она не способна точно позиционировать руки и пальцы пользователя, а значит не может получать достоверные сигналы о жестах [Qifan, 2014].

В рамках данной работы предлагается получать сигнал одновременно с двух устройств: цветной видео-камеры и инфракрасного пространственного сенсора Leap Motion. Методы, использующие только один источник сигнала не могут обеспечить либо полноту информации о жесте в случае с камерой, либо скорость обработки в режиме реального времени в случае с пространственным сенсором. Однако их комбинация может как увеличить количество информации для распознавания жеста, так и увеличить скорость её обработки. Соответственно тогда нужно использовать не один, а два метода обработки сигнала, для видеоряда и изменяющейся во времени карты глубин.

3 Выделение характеристик жеста

Поиск руки на изображении может становиться довольно сложной задачей из-за многообразия конфигураций (положение пальцев относительно друг друга, повороты кисти), разных условий освещенности и неполного захвата видеокамерой

отслеживаемого объекта. Разработано несколько методов для решения этой задачи. Некоторые из них, как метод Виолы-Джонса, являются комплексными и включают этап распознавания.

3.1 CAM Shift

Алгоритм Cam Shift (модификация Mean Shift) позволяет эффективно находить и отслеживать объект на видеоряде. Среди его достоинств можно назвать итеративную, однопроходовую обработку кадра (поиск на основе информации о распределении интенсивности цветов), поддержку распараллеливания алгоритма на графических сопроцессорах [Димашова, 2010], способность работать в условиях частичного перекрытия. В исследованиях выявлено, что алгоритм обрабатывает более 20 кадров в секунду [Чанг, 2014].

3.2 Метод Виолы-Джонса

Метод Виолы-Джонса позволяет определить факт присутствия и класс объекта. Очень часто применяется исследователями в алгоритмах распознавания лиц. Его отдельные этапы дорабатываются для улучшения характеристик всего метода [Viola, 2001]:

• используются изображения в интегральном представлении, что ускоряет обработку;

• используются признаки Хаара для поиска искомого объекта;

• используется бустинг для выбора наиболее подходящих признаков для опознавания искомого объекта на найденной части изображения;

• используются каскады признаков для быстрого отбрасывания окон, где не найден искомый объект.

Обучение классификаторов идет очень медленно, но сам поиск объекта на кадре выполняется очень быстро (около 12 кадров в секунду). Виола-Джонс является одним из лучших по соотношению показателей эффективность к точности распознавания / скорости работы [Viola, 2001]. Также этот детектор обладает крайне высокой вероятностью верного обнаружения - около 94%. Алгоритм даже хорошо работает и распознает объекты, повернутые под небольшим углом, примерно до 30 градусов. При угле наклона больше 30 градусов процент обнаружений резко падает [Чанг, 2014]. Все это означает, что данный метод можно применять для вполне определенных статических жестов, которые однозначно детектируются по двумерному изображению,

но почти неприменим для широкого класса жестов из сурдо-языка.

3.3 Вейвлет-преобразования

В работе [Чанг, 2014] рассматриваются модификации метода Виолы-Джонса, основанные на вейвлет-преобразованиях Хаара и Добеши. Это позволяет отказаться от использования метода сканирующего окна и использования признаков Хаара, при этом повысив точность и увеличив скорость работы. Также вейвлет-преобразования улучшают корректность последующей классификации до 96%, благодаря выделению контуров из изображения и нейтрализации условий освещения.

3.4 Дополнительные обработки

В работе [Мурлин, 14] предложено использовать предварительную обработку изображения перед применением метода Виолы-Джонса. А именно: 1) уменьшение размера, 2) обесцвечивание, 3) бинаризация, 4) пороговое преобразование, 5) морфологические преобразования (для учёта поворотов руки и камеры). В результате уменьшается вероятность ложных

обнаружений (повышается достоверность детектирования) при уменьшении

быстродействия системы распознавания.

3.5 Перед классификацией

Отдельно от поиска руки ставится задача выделения вектора характеристик для дальнейшей классификации жеста. Для этого применяются скелетная модель или метод главных компонент. Первый позволяет проводить анализ формы жеста, направление руки в пространстве, определить состояние пальцев. При этом довольно низкие требования к качеству изображения и условиям освещенности. Основным недостатком построения скелетных моделей является то, что они чувствительны к поворотам как руки так и камеры и требовательны к вычислительным ресурсам (1-3 кадра в секунду) [Носов, 2014].

Указанные недостатки могут быть нивелированы с помощью метода главных компонент [Чанг, 2014]. Сегмент изображения с целевым жестом после предварительной обработки принимает вид числовой матрицы, где в ячейке нормированное число от 0 до 1. Далее метод заключается в поиске сингулярного

разложения этой матрицы. Таким образом понижается размерность с минимальными потерями полезной информации.

Для того чтобы увеличить количество полезной информации и не заниматься построением скелетной модели по изображению в комбинированном методе предлагается получать карту глубин с инфракрасного сенсора. Выполнение сегментации для него упрощается и сводится к применению фильтрации пороговым значением. После этого можно также с успехом применить метод главных компонент. Использование двух сигналов также позволит увеличить быстродействие системы, так как обработку можно выполнять в двух независимых процессах.

4 Подходы к классификации

После обработки входных сигналов с видеокамеры и инфракрасного сенсора необходимо выполнить этап классификации жеста. В результате система должна определить какой именно из известных жестов исполняется в данный момент либо выдать предупреждение пользователю.

Для целей классификации в методе Виолы-Джонса применяют AdaBoost. Это алгоритм усиления классификаторов, который можно комбинировать с другими методами распознавания. Особенностью можно считать требование неограниченного количества входных данных, что не всегда можно обеспечить на практике [Shapire, 1996]. При необходимости добавить новые классы объектов приходится вводить новые классификаторы и переобучать заново всю систему. Алгоритм Online Ada-Boost позволяет дополнительно отслеживать объект с ограничением в углах поворота (до 20 градусов), но не решает недостаток с переобучением.

Точно такой же недостаток у искусственных нейронных сетей (ИНС). Они могут быстрее переобучаться и быть очень точными в задаче распознавания объекта на изображении, что достигается за счет сложных топологий (к примеру, рекуррентные сети до 80%) и алгоритмов обучения (модификаций метода обратного распространения ошибок). Для нейронных сетей требуется отдельный период обучения перед стартом работы. [Нагапетян, 2015]

При разработке комбинированного метода распознавания жестов необходимо учесть такие требования к классификации как (в порядке приоритета) 1) работа в режиме реального времени, 2) легкость расширения базы данных жестов, 3) адаптивность метода в процессе работы. Исходя из этого было принято решение разработать собственный метод классификации, в основе которого поиск с применением нечетких множеств.

После обработки сигнала имеется два вектора характеристических точек, полученных от метода главных компонент. Первый от изображения руки в кадре, а второй - от карты глубин. Графически их можно представить как множество точек в векторном пространстве координат. В базе данных системы хранятся именно такие вектора, записанные для конкретных состояний конкретных известных жестов, плюс к ним функции принадлежности вида

М = 1?=о[¥'Х}(Угхд ■ Щ

Такое задание равносильно тому, что в системе хранится нечеткое множество для каждого известного жеста. При этом параметры Y (главные компоненты состояния) и А (веса состояний) задаются при добавлении нового жеста в систему. При отнесении текущего сигнала к конкретному классу необходимо вычислить функции принадлежности для всех известных жестов в активированных состояниях (но не для всех состояний всех жестов - в этом оптимизация). Там, где функция принадлежности минимальна, состоянию приписывают принадлежность к некоторому жесту.

При этом также необходимо учитывать предысторию состояния. Это можно выполнять с помощью метода Марковских цепей. Каждая цепь соответствует определенному жесту, а её состояния некоторым ключевым состояниям

выполняемого жеста - так называемым «контрольным точкам». При достижении контрольной точки текущий сеанс распознавания переходит в новое состояние в Марковской цепи. При достижении конечного состояния - жест считается выполненным.

В данной модели параметры Y соответствуют индивидуальным качествам пользователя и должны адаптироваться в процессе работы системы по обратной связи

классификатора с базой данных. Параметры А в свою очередь введены для гибкой настройки чувствительности к тому или иному жесту и зависят от частоты его использования или предпочтений

пользователя.

Такая схема классификации удовлетворяет всем трём поставленным критериям. Она адаптивна благодаря обратной связи, она быстро работает благодаря сложности 0(2п) при вычислении принадлежности к состоянию и сложности О(1) при активации соответствующей Марковской цепи. Новые жесты могут добавляться в базу данных независимо от уже имеющихся жестов. Такие качества не смогут удовлетворить ни алгоритмы бустинга ни нейронные сети (классических топологий). Для определения границ применимости такого метода необходимо провести дополнительное исследование.

5 Алгоритм метода

На рисунке 1 представлена укрупнённая алгоритмическая структура

комбинированного метода.

Рис. 1. Алгоритмическая структура метода

6 Заключение

Проведенный анализ существующих методов и алгоритмов показал необходимость построения комбинированного метода распознавания жеста руки в условиях реального времени. Комбинирование

заключается в использовании двух источников сигнала - цветной видеокамеры (ей может быть любая камера, в том числе встроенная в персональные компьютеры) и инфракрасного сенсора Leap Motion для определения карты глубин в рабочей области. Метод обеспечивает высокие скорость работы и точность распознавания; адаптацию к конкретному пользователю, за счет обратной связи на этапе классификации; и возможность легкого добавления к базе данных новых жестов.

Благодарности

Статья была создана в рамках магистерской работы студента кафедры ИУ-7 по направлению подготовки «Программная инженерия» под руководством профессора, доктора технических наук, Константина Анатольевича Майкова.

Выражаю признательность моим коллегам, за их участие в обсуждениях темы и методов, а также моему научному руководителю за предоставленные материалы,

конструктивную критику и помощь в выработке направления работ.

Список литературы

Нагапетян В.Э. 2015. Методы распознавания жестов руки на основе дальностных изображений.

Носов А.В. 2014. Алгоритм распознавания жестов рук на основе скелетной модели кисти руки.

Буй Тхи Тху Чанг. 2014. Алгоритмы распознавания лиц и жестов на основе вейвлет-преобразований и метода главных компонент.

Qifan Pu, Sidhant Gupta, Shyamnath Gollakota, Shwetak Patel. 2012. Whole-home gesture recognition using wireless signals.

Димашова М.П. 2010. Реализация алгоритма сегментации изображений Mean Shift на GPU.

Paul Viola, Michael Jones. 2001. Rapid Object Detection using a Boosted Cascade of Simple Features.

Мурлин А.Г. 2014. Алгоритм и методы обнаружения и распознавания жестов руки на видео в режиме реального времени

Yoav Freund, Robert E. Shapire. 1996. A decision-theoretic generalization of on-line learning and an application to boosting.

Комбинированный метод распознавания жестов руки в реальном времени Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кисленко М. Г.

Текст научной работы на тему «Комбинированный метод распознавания жестов руки в реальном времени»