Научная статья на тему 'Система распознавания жестов'

Система распознавания жестов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
382
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нюнькин К. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система распознавания жестов»

вспомогательное программное обеспечение, позволяющее задавать величину нагрузки на канал связи от нулевой до максимально возможной для конкретного типа сетевого оборудования. Сбои во время сеансов передачи данных моделировались разрывом физического канала связи между передающей и приемной сторонами.

На основании результатов проведенных экспериментальных исследований можно сделать вывод о работоспособности и эффективности разработанной программной системы аудиовидеоконференц-связи по 1Р-сетям. По всем критериям оценки мультимедиа-систем разработанный программный продукт соответствует требованиям категории 2 (бизнес-качество), а по некоторым (частота кадров, разрешение) - категории 3 (экстра-качество) [2]. Особенностью системы, базирующейся на алгоритмической простоте методов сжатия аудио- и видеоинформации, является возможность одновременного программного (без аппаратной поддержки) декодирования и воспроизведения до 8 принимаемых аудиови-деопотоков с высоким качеством звукового и видеосигналов (аудиопоток - до 44 КГц, видеопоток - до 25 кадров/сек) и программное (без аппаратной поддержки) кодирование при этом собственного видеопотока при общей загруженности сетевого канала около 10 Мбит/сек.

Следует отметить "устойчивость" системы, то есть быстрое восстановление после потери связи между передающим и приемным модулями (например, при "перезапуске" передающего модуля, физическом разрыве соединения), адекватную реакцию на потери или искажения пакетов и эффективную реализацию механизма буферизации и выравнивания скорости генерируемого и принимаемого системой информационного трафика.

Пример, иллюстрирующий одновременный прием, декодирование и воспроизведение видеопотоков от нескольких источников одним клиентом конфе-ренц-связи, приведен на рисунке 2.

На данный момент разработка существует в виде опытного образца программной системы конференц-связи ВКС "Дельта-конференция" с поддержкой двусторонних и многосторонних конференций в локальных 1Р-сетях. Реализованы возможности обмена аудио- и видеопотоками между участниками конференции, адаптивного автоматического управления

качеством (объемом) передаваемых аудио/видеоданных, ограничения несанкционированного доступа к передаваемым медиа-данным, контроля подключения новых участников к сеансу связи.

Полученные результаты позволяют говорить о перспективности разработанных методик кодирования и передачи данных по сети, возможности их использования при разработке систем видеоконференц-связи, видеонаблюдения, систем с передачей и хранением аудиовизуальной информации общего и специального назначения (в том числе с защитой от несанкционированного доступа), разработки аппаратных средств аудиовидеокомпрессии на основе отечественной и зарубежной элементной базы. Отдельные программные модули (в частности аудио- и видеокомпрессии/декомпрессии) могут рассматриваться как готовые функциональные блоки компрессии при проектировании технических систем различного назначения.

Список литературы

1. Кравченко П.П. Основы теории оптимизированных дельта-преобразований второго порядка. Цифровое управление, сжатие и параллельная обработка информации. - Таганрог: Изд-во ТРТУ, 1997.

2. Синепол В.С., Цикин И.А. Системы компьютерной ви-деоконференц-связи. - М.: ООО "Мобильные коммуникации", 1999.

СИСТЕМА РАСПОЗНАВАНИЯ ЖЕСТОВ

К.М. Нюнькин

В работе рассматриваются вопросы, связанные с построением системы распознавания жестов для управления мобильными роботами.

При распознавании жестов необходимо обнаруживать на изображении руки человека и прослеживать изменение их положения или формы с течением времени. Для этого обычно используют

либо детектирование движения [1], либо обнаружение областей, имеющих цвет кожи, [2] либо оба этих подхода совместно [3]. Как правило, обнаруживаемые жесты имеют достаточно большой масштаб. В таких ситуациях обычно наряду с цветом используется детектирование областей движения. При распознавании мелкомасштабных

жестов, в которых задействованы отдельные пальцы, кисть руки занимает существенную часть кадра [1]. Фон в этих случаях однородный и контрастирует по цвету с кожей человека.

Обнаружение на изображении участков, имеющих цвет кожи

Рассмотрим критерии выделения на изображении областей, имеющих цвет человеческой кожи. Эта задача решается не только при распознавании жестов, но и при обнаружении лица человека. В то же время исследования по обнаружению на цветных изображениях лица ведутся более интенсивно.

При обнаружении на изображении областей, имеющих цвет кожи, наряду с обычным RGB представлением цвета, то есть интенсивностями красной, зеленой и синей составляющей цвета, используется представление, основанное на цветности - HSL представление (hue - цвет или оттенок, saturation - насыщенность, luminosity - яркость):

R + G + B (1)

H = arctan(y/x) §

2n

=VXw, l=-

3

где x = R-0.5 • (G + B), y =

= 43/

'2

(G-B).

Цветовое пространство RGB имеет то преимущество, что его компоненты для компьютера первичны, и их использование обеспечивает наибольшую скорость обработки. Компоненты обычно нормируются на их сумму [4,5]. Из компонент этого пространства наиболее популярны красная и зеленая. Иногда вместо самих компонент используются цветоразности [5].

Цветовое пространство HSL больше подходит для анализа цвета, поскольку его компоненты прямо связаны с цветом. Однако его использование ограничивается необходимостью выполнения вычислений арктангенса и квадратного корня (1), что требует определенных временных затрат. Но в последнее время в связи с ростом быстродействия компьютеров оно применяется все чаще [6].

Наиболее часто цвет используется при локализации головы человека в последовательности кадров [4-6], поскольку определение цвета точки можно выполнить быстро. С другой стороны, при обработке видеопоследовательности известно положение, форма и размер головы на предыдущем кадре, и за промежуток времени между кадрами эти параметры не могут сильно измениться, что существенно облегчает задачу.

В ряде случаев лицо занимает существенную часть изображения [4,6], а фон полагается контрастным [6]. Только в работах [4,5] явно указывается, что фон может быть произвольным.

Многие исследователи полагают, что лицо имеет эллиптическую форму [5,7], и ищут на изображении область, имеющую цвет кожи, соответствующей формы. Параметры эллипса при этом

могут быть как жестко заданными, так и полагаться произвольными [5]. Для лучшего соответствия цвета внутренних точек заданному допускается искажение формы эллипса [7].

Цветовой канал при определении положения головы на изображении считается самым ненадежным. Поэтому результаты, полученные с его помощью, подтверждаются другими данными. Используются детектирование движения [4], априорно известная форма головы [4,5,7]. Иногда для подтверждения того, что найдено именно лицо, производится поиск губ, который также может выполняться с использованием цвета [7].

Ненадежность цветового канала требует выполнения начальной калибровки цветового пространства [4] и периодической ее корректировки [4,5].

Анализируя работы по обнаружению лица человека на основе информации о цвете, нельзя не заметить следующие моменты.

1. Цвет кожи у разных людей (даже одной расы) варьируется в довольно широких пределах.

2. Цвет кожи зависит от условий освещения.

3. Перед выполнением обнаружения лица этим методом необходимо выполнять калибровку цветового пространства.

4. Чаще всего при обнаружении лица канал цвета используется совместно с другими: движением, градиентом яркости, анализом окружения.

Обнаружение на изображении рук человека

Для исследования цветовых характеристик областей лица и рук человека была разработана специальная компьютерная программа, позволяющая вводить цветные изображения, получаемые подключенной к компьютеру веб-камерой, а также из уже существующих файлов. Программа рассчитывала компоненты различных представлений цвета (RGB, HSL, YIQ) и позволяла выделять на изображении участки, соответствующие различным критериям, составленным из этих компонентов.

Эксперименты, проведенные с использованием указанной программы, показали, что

- значения цвета (H) кожи человека могут лежать в диапазоне от 4 до 40;

- значения насыщенности (S) кожи человека могут лежать в диапазоне от 30 до 90;

- цвет кожи у разных людей варьируется в довольно широких пределах;

- цвет кожи даже одного человека зависит от условий освещения;

- получаемый на изображении цвет кожи человека зависит от настроек камеры, которые зачастую выполняются автоматически и не контролируются;

- цвет, близкий к цвету кожи человека, могут иметь детали одежды, окружающие предметы и стены помещения.

Таким образом, использование цвета кожи человека при создании системы распознавания жестов для работы в реальных условиях (неконтролируемые условия освещения, различные люди операторы, произвольный окружающий фон) выглядит весьма проблематичным. Учет движения как дополнительного критерия при обнаружении рук человека мало что меняет, поскольку в реальных условиях в кадре могут двигаться не только руки оператора, но и окружающие объекты.

В то же время в проводимых экспериментах, в том числе и вне помещения, было отмечено крайне мало объектов, имеющих насыщенные цвета. На рисунке 1 приведены гистограммы распределения насыщенности на изображениях, снятых вне помещения в ясный солнечный день. Можно заметить, что количество точек, имеющих данную насыщенность, уменьшается с ее ростом по показательному закону. Из этого следует, что при обнаружении рук оператора можно использовать насыщенные цвета, для чего следует применять надетые на руки перчатки определенного насыщенного цвета.

Параметры для классификации криволинейных фигур

Фигуры большинства жестов, обозначающих подаваемые роботам команды, могут быть представлены в виде определенных последовательностей прямолинейных участков, однако фигуры некоторых из них существенно криволинейны. Так, жесты, соответствующие командам "манипулятор направо" и "манипулятор налево", представляют собой дуги, близкие к полуокружностям, и не всегда могут быть обнаружены при анализе прямолинейных участков. А основные варианты жестов, соответствующих командам сжатия и разжатия манипулятора (захвата), представляют собой спирали, для обнаружения и анализа которых разбиения на прямолинейные участки явно недостаточно. Отсюда следует необходимость анализа кри-

Рис. 1. Гистограммы распределения насыщенности: а) все изображения, б) изображения, не содержащие насыщенных цветов, в) изображения с объектами, имеющими насыщенные цвета

волинейных движений.

Поскольку предполагается распознавать криволинейные фигуры, имеющие более или менее выраженный центр (окружности, эллипсы, спирали), то для их анализа полезно перейти в полярную систему координат, связанную с этим центром:

г ^^ -xc)2 + (У1 - у,)2

Ф1 = arctg

Уi - Уc

(2)

где (хь уО - координаты точек кривой; (xc, ус) -положение центра полярной системы координат.

В качестве центра можно использовать положение центра тяжести точек, образующих данную фигуру:

1 N

= Ы 2 XI ,

N1=1

У,

1 N

= ^ 2 У1,

N1=1

где (х1? у1) - координаты точек кривой; N - их количество. Однако возможны ситуации, когда центр тяжести не соответствует геометрическому центру фигуры. В частности, это относится к спиралям с малым числом оборотов. Так, в примере, приведенном на рисунке 2, центр тяжести фигуры (показанный звездочкой) лежит вне внутренней части спирали.

Неправильное определение центра полярных

координат приведет к тому, что зависимость г(ф), которая у спирали имеет довольно характерный вид, сильно исказится. Положение можно исправить, вычислив центр тяжести не всей спирали, а только внутренней ее половины. На рисунке 2 положение такого центра

Рис. 2. Несоответствие центра тяжести геометрическому центру фигуры: Ж - центр тяжести всей фигуры, О - только внутренней половины

тяжести показано кружком. Оно действительно близко к геометрическому центру спирали.

После того как найдено положение геометрического центра фигуры, можно перейти в полярные координаты и анализировать, является ли данная фигура спиралью, окружностью, эллипсом или не относится ни к одному из этих типов кривых. Для такого анализа можно использовать зависимость радиуса точек кривой, представленной в полярных координатах, от угла г(ф). Вид этой зависимости позволяет эффективно распознавать спирали и определять, скручивающаяся это спираль или раскручивающаяся.

, х1-хс)

X

с

Выполним линейную аппроксимацию зависимости г(ф) методом наименьших квадратов:

г(ф) = а*ф + Ь. (3)

Абсолютная величина наклона (а) позволит судить о том, спираль это или окружность, а направление наклона - скручивается спираль или раскручивается. Абсолютная величина наклона зависимости г(ф) зависит от размеров фигуры, поэтому ее следует нормировать на характерный размер фигуры, например, на среднее значение радиуса.

Следующий параметр - полное изменение угла вдоль кривой, Бф. Следует подробнее рассмотреть определение этого параметра. Углы всех точек кривой, рассчитанные по формуле (2), лежат в диапазоне ф е [- п,+п). В то же время для спирали величина этого параметра заведомо должна превышать один оборот, то есть 2п. Таким образом, его нельзя получить простым вычитанием угла первой точки из угла последней. Предполагая, что изменение угла между последовательными точками меньше П, то есть половины оборота, следует суммировать эти изменения вдоль кривой. Естественно, при этом необходимо следить за переходами текущего значения угла через границу ±П.

В соответствии с изложенными выше соображениями был сформирован набор параметров, которые могут оказаться полезными при классификации криволинейных фигур, соответствующих жестам. Этот набор представлен в таблице 1. Там же приведены ожидаемые закономерности для этих параметров у фигур типа окружности и спирали. О произвольных фигурах, естественно, ничего определенного априори сказать нельзя.

Таблица 1

Параметры для классификации криволинейных фигур

Параметр Описание У окружности У спирали

NumStrL Количество прямолинейных участков Не очень мало Велико

Sm Отношение средних радиусов в дальней и ближней половинах кривой Близко к единице Значительно

Бф Полное изменение угла вдоль кривой Порядка 2п. Знак определяет направление обхода Заметно больше 2п. Знак определяет направление обхода

a/Rcp. Относительный наклон линейной зависимости г(ф) (2) Близок к 0 Существенен. Его знак определяет характер спирали

Таким образом, для определения спиралей необходимо анализировать: количество прямолинейных участков, отношение средних радиусов в

дальней и ближней половинах кривой, полное изменение угла вдоль кривой и относительный коэффициент наклона г(ф).

Распознавание спиралей

Для оценки того, каким образом можно использовать указанные в таблице 1 параметры для определения, является ли данная фигура спиралью, были проведены эксперименты, в ходе которых в компьютер вводились фигуры различных жестов и рассчитывались указанные параметры. Затем оценивались распределения каждого из параметров отдельно для различных фигур. Всего было обработано 140 жестов, имеющих форму спиралей и 117 произвольных жестов. Результаты этих экспериментов, приведенные на рисунках 3-6, в целом подтверждают ожидаемые закономерности (табл. 1).

Распределения всех рассмотренных параметров в случае жестов, имеющих форму спирали и прочих жестов, отличаются. Однако эти различия не настолько существенны, чтобы можно было делать соответствующие выводы, основываясь на значениях только одного параметра. Поэтому для повышения надежности распознавания жестов следует использовать несколько параметров одновременно путем простого порогового разделения по каждому из них.

Как показано на рисунке 3, количество прямо -линейных участков у спиралей выше, чем у остальных жестов. Это дает возможность отделять спирали, устанавливая порог по этому параметру равным 5-7 участкам.

о 5 10 1:

К-ва участков

| ♦ Spirals ■ Unknown |

Рис. 3. Распределения числа прямолинейных участков

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рисунок 4 представляет распределения отношения средних радиусов в дальней и ближней половинах кривой. Отрицательные значения отношения соответствуют случаям, когда средний радиус меньше у первой половины фигуры. В частности, это имеет место у раскручивающихся спиралей. Хотя отношение радиусов у спиралей не сильно отклоняется от единицы, можно установить порог по этому параметру равным ±1.2 с соответствующим знаком для положительных и отрицательных отношений. Если у анализируемой фигуры отношения средних радиусов в дальней и

ближней половинах кривой по модулю меньше этого порога, не следует считать такую фигуру спиралью.

Рис. 4. Распределения отношения средних радиусов

На рисунке 5 приведены распределения полного изменения угла вдоль кривой. Поскольку для спиралей, закрученных по часовой стрелке, изменение угла положительно, а у закрученных против часовой стрелки отрицательно, при анализе использовался модуль полного изменения угла вдоль кривой. Заметно, что практически у всех спиралей это изменение по модулю превосходит 2п , то есть один полный оборот, а у фигур большинства произвольных жестов, напротив, менее 2п. Таким образом, есть смысл устанавливать порог, разделяющий эти два типа фигур, близким к 2п.

Й 0.10

> * -4 —*

5 10

Полное изменение угла вдоль кривой

- Spirals

- Unknown

Рис. 5. Распределения полного изменения угла

Распределения относительного коэффициента наклона г(ф) приведены на рисунке 6. У произвольных жестов частота встречаемости относительного коэффициента наклона г(ф) максимальна вблизи нуля и уменьшается с ростом а/Кср. У спиралей же имеется явно выраженный диапазон от 0.1-0.14 до 0.22-0.26, в котором лежат все значения относительного коэффициента наклона г(ф). Таким образом, если величина а/Кср. лежит вне этого диапазона, следует считать, что данная кривая не является спиралью.

Рис. 6. Распределения относительного коэффициента наклона г(ф)

Использование цвета кожи человека при обнаружении на изображении лица и рук оператора имеет определенные существенные недостатки, главными из которых можно считать различия цвета этих объектов у разных людей, зависимость цвета от условий освещения, наличие большого количества других объектов, имеющих схожие цвета. И если первые два могут быть устранены калибровкой цветового пространства, проводимой перед каждым сеансом работы, то последний в случае невозможности устранения из кадра посторонних объектов, близких по цвету к коже человека, превращается в серьезную проблему. Да и постоянное выполнение калибровки тоже не всегда возможно. В результате использование цвета при обнаружении на изображении лица и рук оператора имеет ограниченную область применения и чаще всего используется совместно с другими критериями: движением, градиентом яркости, формой, анализом окружения.

С другой стороны, проведенные эксперименты по исследованию цветовых характеристик различных объектов показали, что крайне мало объектов имеют насыщенные цвета. При обнаружении рук оператора можно использовать этот факт, для чего следует применять надетые на руки перчатки определенного насыщенного цвета.

Проведенный анализ позволил определить критерии, которые в большинстве случаев позволяют эффективно распознавать спирали и отличать их от прочих фигур. Эти критерии сводятся к пороговому разделению по некоторым параметрам, которые вместе с соответствующими значениями порогов сведены в таблицу 2.

Таблица 2

Параметры для определения спиралей

Параметр Описание Пороги

NumStrL Количество прямолинейных участков > 5-7

Sm Отношение средних радиусов в дальней и ближней половинах кривой <-1.2 >+1.2

Бф Полное изменение угла вдоль кривой >2п

аЖср. Отношение коэффициента наклона г(ф) к среднему радиусу 0.1-0.14 < a/R,^ 0.22-0.26

Список литературы

1. Gupta D. Computer Gesture Recognition: Using the Constellation Method. // Caltech Undergraduate Research Journal, 2001, vol.1, N1. - pp.26-31.

2. Bretzner L., LaptevI., Lindeberg T. Hand Gesture Recognition using Multi-Scale Colour Features, Hierarchical Models and Particle Filtering. // Proc. of the 5th Int. Conf. on Automatic Face and Gesture Recognition, 2002.

3. McKenna S., Gong S. Gesture Recognition for Visually Mediated Interaction using Probabilistic Event Trajectories. // Proc. of BMVC'98, 14-17 September 1998, Southampton, England.

4. Graf H.P., Cosatto E., Gibbon D., Kocheisen M., Petajan E. Multi-Modal System for Locating Heads and Faces. - AT&T Lab Technical Report 95.5.1, 1996.

5. Vezhnevets V. Face and facial feature tracking for natural Human-Computer Interface. // GraphiCon-2002.

6. Визильтер Ю.В., Желтов С.Ю., Ососков М.В. Система распознавания и визуализации характерных черт человеческого лица в реальном времени на персональной ЭВМ с использованием web-камеры. // GraphiCon-2002.

7. Rao R.R., Mersereau R.M. On Merging Hidden Markov Models with Deformable Templates. // Proc. of IEEE Int. Conf. on Image Processing. - Washington D.C., 1995, v3. -p.556-559.

ОБ ЭФФЕКТИВНОМ СОЗДАНИИ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ

Ю.М. Вишняков, В.В. Хашковский, А.Н. Толкачев

Современное положение дел в сфере образования, активное использование компьютерной техники в образовательном процессе и процессе управления, возрастание роли компьютерного способа доступа к информационным источникам однозначно определяют вопрос о формировании электронных библиотек (ЭБ) в образовательных учреждениях для повышения интенсивности обучения и, в конечном итоге, повышения качества образования.

Деятельность ЭБ должна быть регламентирована соответствующими нормативно-правовыми документами. Для организации управления информационными ресурсами необходимо определить состав и правомочия владельцев информационных ресурсов, а также сформировать необходимые финансово-экономические и организационные ресурсы и механизмы.

С точки зрения обеспечения необходимой функциональности должно быть обеспечено следующее:

1) реализован оперативный авторизованный доступ к информации через Интернет;

2) разработаны поисковые механизмы, результат работы которых обладает высокой степенью релевантности с учетом определенной степени неточности информации в полнотекстовой базе данных;

3) созданы механизмы взаимодействия и информационного обмена с другими библиотечными системами посредством протокола Z39.50;

4) предоставлена возможность пользователям гибко настраивать параметры системы с учетом индивидуальных требований;

5) реализована система защиты конфиденциальной регистрационной информации;

6) построены подсистемы интерактивного вспомогательного контекстно-зависимого взаимо-

действия с пользователем в процессе эксплуатации системы;

7) реализована подсистема каталогизации в MARC-подобном формате;

8) разработаны средства администрирования системы (для установки и настройки, регистрация пользователей, управление доступом к ресурсам ЭБ, обеспечение информационной безопасности, учет и сбор статистики о пользователях и их потребностях в зависимости от различных параметров).

Кроме того, разработка и внедрение ЭБ не должны нарушать, а только дополнять и расширять функционирование и возможности уже используемых в традиционной библиотеке средств автоматизации. Более того, существующие автоматизированные информационные библиотечные системы (АИБС) обладают, как правило, развитыми средствами управления библиотечными ресурсами как таковыми и обеспечивают вполне удовлетворительное функционирование библиотеки для обслуживания читателей. Таким образом, в качестве отправной точки разработки следует принять интеграцию с АИБС.

ЭБ можно определить как информационную систему, позволяющую надежно сохранять и эффективно использовать разнообразные коллекции электронных документов (текстовых, изобразительных, звуковых, видео и др.), локализованных в самой системе, а также доступных ей через телекоммуникационные сети.

ЭБ должна сохранить привычные формы представления информации пользователю, в противном случае это привело бы к явному отходу от сложившихся традиций и потере спроса на такую информацию. Отсюда решение проблемы электронного документа требует разрешения следующего противоречия. Электронный документ дол-

i Надоели баннеры? Вы всегда можете отключить рекламу.