Научная статья на тему 'Устойчивое детектирование ладони на изображениях на основе комбинирования информации о цвете и форме'

Устойчивое детектирование ладони на изображениях на основе комбинирования информации о цвете и форме Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
869
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕТЕКТИРОВАНИЕ РУКИ / ОДНОКЛАССОВЫЙ КЛАССИФИКАТОР / ПОПИКСЕЛЬНАЯ КЛАССИФИКАЦИЯ / МЕТОД ОПИСАНИЯ ДАННЫХ ОПОРНЫМИ ВЕКТОРАМИ (SUPPORT VECTOR DATA DESCRIPTION / SVDD) / ФИЛЬТР ПЕРЕДАЮЩИЙ СТРУКТУРУ / СКЕЛЕТ / HAND DETECTION / ONE-CLASS CLASSIFICATION / PIXEL CLASSIFIER / SUPPORT VECTOR DATA DESCRIPTION (SVDD) / STRUCTURE TRANSFERRING FILTER / SKELETON COMPARISON

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копылов Андрей Валериевич, Середин Олег Сергеевич, Кушнир Олеся Александровна, Грачева Инесса Александровна, Ларин Александр Олегович

Предлагается метод детектирования кисти руки в видеопотоке на основе одноклассового пиксельного классификатора, вероятностной гамма-нормальной модели и скелетного описания. Первоначальная сегментация участков кожи выполняется с помощью модифицированной версии одноклассового классификатора, обученного фрагментом изображения части лица и не требующего формирования обучающей выборки для построения модели фона. Результатом классификации является степень принадлежности к классу интереса. Улучшение первоначальной сегментации осуществляется за счет согласования локальных решений и привлечения информации о структуре изображения. Для этого применяется специальный фильтр со свойствами переноса структуры на основе вероятностной гамма-нормальной модели. Для принятия окончательного решения о том, что найденный фрагмент является изображением кисти человека, используется метод сравнения бинарных изображений на основе их скелетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Копылов Андрей Валериевич, Середин Олег Сергеевич, Кушнир Олеся Александровна, Грачева Инесса Александровна, Ларин Александр Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ROBUST PALM DETECTION BASED ON COMBINING OF COLOR AND SHAPE INFORMATION

In this paper, we describe a background-invariant hand detection method in video stream, which is trained without any background training sample. Method uses the modified version of one-class pixel classifier for initial rough segmentation. The special filter with structure-transferring properties built on probabilistic gamma-normal model applied for improving initial segmentation. To make a final decision whether a segmented image fragment is the image of human hand or not the method of binary images comparison based on skeletonization is employed.

Текст научной работы на тему «Устойчивое детектирование ладони на изображениях на основе комбинирования информации о цвете и форме»

Simultaneous estimation of states and parameters using Extended Kalman filter need an approximate linearized equation for prediction of the error statistics, which lead to poor error covariance updates and in some cases unstable growth. In this work, we introduce a simultaneous on-line estimation of states and parameters using linear Kalman filter (KF) and fast genetic algorithm (GA), where the states are estimated by the KF and the parameters are estimated by the fast GA. The simulation results showed satisfactory results in both states and parameters estimation accuracy.

Key words: Simultaneous states and parameters estimation; Kalman filter; fast genetic algorithm.

Al-Sabool Ali Hussein Hasan, candidate of technical sciences, ali hussen hassana,yahoo. com, Iraq, ThiQar, Al-Rifai, ThiQar University,

Grachev Aleksandr Nikolaevich, candidate of technical sciences, docent, gal50l6la mail.ru, Russia, Tula, Tula State University,

Lukashenkov Anatoly Viktorovich, doctor of technical sciences, professor, luav50@mail. ru, Russia, Tula, Tula State University,

Fomichev Aleksandr Aleksandrovich, doctor of technical sciences, professor, alek-sandr.fomichev. 42a mail. ru, Russia, Tula, Tula State University

УДК 004.932

УСТОЙЧИВОЕ ДЕТЕКТИРОВАНИЕ ЛАДОНИ НА ИЗОБРАЖЕНИЯХ НА ОСНОВЕ КОМБИНИРОВАНИЯ ИНФОРМАЦИИ О ЦВЕТЕ И ФОРМЕ

А.В. Копылов, О.С. Середин, О. А. Кушнир, И. А. Грачева, А.О. Ларин

Предлагается метод детектирования кисти руки в видеопотоке на основе одноклассового пиксельного классификатора, вероятностной гамма-нормальной модели и скелетного описания. Первоначальная сегментация участков кожи выполняется с помощью модифицированной версии одноклассового классификатора, обученного фрагментом изображения части лица и не требующего формирования обучающей выборки для построения модели фона. Результатом классификации является степень принадлежности к классу интереса. Улучшение первоначальной сегментации осуществляется за счет согласования локальных решений и привлечения информации о структуре изображения. Для этого применяется специальный фильтр со свойствами переноса структуры на основе вероятностной гамма-нормальной модели. Для принятия окончательного решения о том, что найденный фрагмент является изображением кисти человека, используется метод сравнения бинарных изображений на основе их скелетов.

Ключевые слова: детектирование руки, одноклассовый классификатор, попиксельная классификация, метод описания данных опорными векторами (Support Vector Data Description, SVDD), фильтр передающий структуру, скелет.

Введение. Точное и надежное детектирование изображения кисти руки человека в видеопотоке является необходимым и критически важным этапом при построении простых в использовании систем бесконтактного

24

взаимодействия человека и технических устройств, например, в задачах распознавания жестов или биометрической идентификации. Несмотря на заметный прогресс в этой области, остается еще целый ряд нерешенных проблем, например, наличие изменений фона и освещенности сцены, изменение формы кисти руки в процессе движения.

Можно выделить три основных подхода к решению данной задачи: подход, основанный на использовании алгоритмов вычитания фона [1 - 3], подход, основанный на цветовой сегментации участков кожи [4 - 8] с последующим детектированием ладони, часто с привлечением дополнительной информации о форме ладони [9, 10], а также подход на основе данных о глубине сцены [11]. При решении задачи с использованием алгоритмов вычитания фона необходимо, чтобы фон оставался неизменным в рамках выбранной модели. Это является серьезным недостатком при обработке видео потока и сильно сужает круг применимости алгоритма до задач, в которых данное ограничение допустимо. Методы сегментации, используемые во втором подходе, основаны на параметрическом представлении области цветового пространства (RGB, HSV, YCbCr), соответствующей цвету кожи. В частности, используются простые пороговые правила [5, 6, 12], либо анализ главных компонент [7, 13], либо модели смеси нормальных распределений [4, 14]. Однако, при съемке в реальных условиях, в результате изменения экспозиции, конфигурация области, соответствующей цвету кожи, внутри цветового пространства может существенно меняться. Кроме того, индивидуальные особенности цвета кожи также приводят к необходимости адаптивной перестройки цветовой модели. Для повышения качества сегментации часто используются геометрические особенности кисти руки. Контур ладони может быть получен путем применения операторов обнаружения границ. Предполагается, что объединение знаний о форме, текстуре и цветовых особенностях изображения кисти может существенно повысить качество детектирования [9]. Существуют методы, использующие информацию об особенностях строения кисти руки, например, кончики пальцев [15]. Распространенным признаком кончиков пальцев является кривизна соответствующего контура [16]. Метод сравнения с эталоном является еще одним методом, который часто применяется для обнаружения пальцев. Эталонами могут служить изображения как кончиков пальцев [17], так и пальцев целиком [18]. Тем не менее, метод сравнения с эталоном имеет ряд недостатков: 1) очень большой объем вычислений; 2) он не инвариантен к масштабированию или повороту; 3) внешний вид кисти руки может значительно меняться в соответствии с 22-мя степенями свободы, что делает выбор эталона очень трудной задачей [19]. Использование дополнительной информации о глубине сцены отчасти позволяет преодолеть эти недостатки [11]. Однако такой подход предполагает, что между ладонью и камерой нет других объектов, а также требует наличия дополнительного оборудования.

Для адаптивной коррекции цветовой модели кожи на кадре видеопотока с целью компенсации изменения освещенности мы предлагаем использовать фрагмент лица человека, находящегося перед видеокамерой, поскольку лицо легко детектируется методом Виолы-Джонса [20]. Похожая идея сегментации описывается в статье [12], однако в ней используются упрощенная модель описания цвета кожи при помощи нормального распределения.

Мы используем модифицированную версию одноклассового пиксельного классификатора [21], не требующего формирования обучающей выборки для построения модели фона. Преимущество использования од-ноклассового классификатора вместо статического порога заключается в том, что интересующая нас цветовая область в цветовом пространстве описывается не кубоидами, цилиндрами или эллипсоидами, а более сложной геометрической формой за счет использования метода описания данных опорными векторами (Support Vector Data Description, SVDD) [22]. Это позволяет минимизировать ошибочную классификацию пикселей, соответствующих цвету кожи. Обучение классификатора происходит в реальном времени, т.е. практически на каждом кадре видеопотока.

Для согласования локальных решений, принятых одноклассовым классификатором, мы применили байесовский подход на основе специальной гамма-нормальной вероятностной модели [23, 24], позволяющей задавать и корректировать вероятностные отношения между первичными результатами классификации каждого пикселя в отдельности с учетом структуры исходного изображения.

Стоить отметить, что одним из популярных подходов к детектированию кисти на изображении на сегодняшний день является метод Виолы-Джонса [20, 25, 26]. Учитывая, что кисть имеет множество степеней свободы, задача формирования подходящей обучающей выборки становится крайне нетривиальной. Например, в работе [26] обучающая выборка составила 5013 изображений рук, 2504 из которых использовались для обучения классификатора и 2509 для тестирования.

Предлагаемый нами подход к детектированию формы ладони основан на сравнении скелетов бинарных растровых изображений [27]. Достоинством метода является его инвариантность к масштабированию и повороту бинарного образа детектируемого объекта. Общая схема построения детектора кисти руки на изображении представлена на рис. 1.

Результатом работы перечисленных выше методов будет являться бинарная маска, соответствующая области ладони в текущем кадре видеопотока вместе со скелетным описанием ее формы, что позволит в дальнейшем решать задачи по распознаванию жестов или биометрической идентификации.

Обучение одноклассового классификатора

Рис. 1. Общая схема построения детектора кисти руки

Параметрическое представление кожи в цветовом пространстве с помощью одноклассового классификатора. Подход на основе цветовой сегментации кожи требует построения модели распределения пикселей, соответствующих фрагментам изображения кожи ладони, в цветовом пространстве. Необходимо принять во внимание то факт, что при съемке в реальных условиях в результате изменения освещенности конфигурация области, соответствующей цвету кожи, внутри цветового пространства может существенно меняться. Кроме того, индивидуальные особенности цвета кожи требуют адаптивной перестройки цветовой модели для изображений разных людей. Чтобы учесть данные изменения, мы используем модифицированную версию одноклассового пиксельного классификатора [21], не требующего формирования обучающей выборки для построения модели фона. Преимущество использования одноклассового классификатора вместо статического порога заключается в том, что интересующая нас область в цветовом пространстве описывается не кубоидами, цилиндрами или эллипсоидами, а более сложной геометрической формой [28-31] за счет использования метода SVDD [22]. Это позволяет минимизировать ошибочную классификацию пикселей, соответствующих цвету кожи. Второе преимущество заключается в том, что вычислительная сложность метода позволяет проводить обучение классификатора в реальном времени.

В качестве обучающей выборки пикселей для одноклассового цветового классификатора предлагается использовать прямоугольную область лица человека. Каждому пикселю прямоугольной области будет соответствовать точка в цветовом пространстве RGB (рис. 2).

Исходное Обнаружение лица на изображении Формирование обучающей выборки

изображение

Рис. 2. Фрагмент изображения для обучения одноклассового классификатора и его отображение в цветовое пространство RGB

Поиск лиц на изображениях в целом является решенной задачей, и этот этап не вызывает затруднений. В данном случае авторы опираются на реализацию метода Виолы-Джонса из библиотеки алгоритмов компьютерного зрения OpenCV, демонстрирующую эффективные результаты [32]. Параметры положения обучающего фрагмента внутри области, найденной алгоритмом Виолы-Джонса лица, определяются на основе исследования [32]. В частности, расстояние от верхнего края фрагмента лица определено как 0.49 от размера области лица, а высота и ширина обучающей области как 0.11 и 0.6 соответственно. Именно эта область, расположенная между глазами и кончиком носа, наименее подвижна и не подвержена изменениям из-за присутствия усов, бороды, очков, прически, макияжа.

Такой подход позволяет оперативно оценивать изменение цвета кожи на каждом кадре, но при этом необходимо, чтобы на сцене присутствовало лицо (или оно было определено алгоритмом поиска лиц). В противном случае можно воспользоваться заранее обученной общей моделью. После обучения классификатора становится возможным очень быстро принять решение о похожести каждого пикселя изображения на пиксели, присутствующие в обучающей выборке. Это достигается путем проверки принадлежности каждого пикселя изображения области, в большей или меньшей степени охватывающей обучающую выборку. Размер области охвата зависит от параметра Гауссова ядра, использующегося в методе SVDD [22].

Сегментация на основе параметрического представления цвета кожи. Сегментация изображения непосредственно на основе параметрического представления цвета кожи методом SVDD не обладает достаточной точностью и надежностью (рис. 3), поскольку использует лишь индивидуальные свойства пикселей в цветовом пространстве и не принимает во внимание пространственные отношения между соседними пикселями, а также структуру однородных областей изображения.

Хорошо известные методы сегментации, как например [33], требуют построения модели фона и, кроме того, обладают слишком высокой вычислительной сложностью, чтобы применяться для обработки в реаль-

ном времени. Вместо них используется новый класс фильтров со свойствами передачи структуры, которые появились в литературе сравнительно недавно [34, 35]. Основная идея фильтров со свойствами передачи структуры заключается в извлечении структуры из так называемого управляющего изображения и дальнейшей фильтрации исходного изображения в соответствии с этой структурой. Билатеральный фильтр (Bilateral Filter) [36] и наведенный фильтр (Guided Filter) [34] в настоящее время занимают лидирующие позиции среди фильтров данного класса. Основным недостатком билатерального фильтра и наведенной фильтрации является наличие артефактов, которые визуально проявляются в виде ореолов по краям объектов. Наличие таких артефактов характерно для всех фильтров с конечной импульсной характеристикой в соответствии с эффектом Гиббса. Попытки преодолеть этот недостаток [35] с использованием взвешенных усредненных глобальных параметров соответствующей модели приводят к выходу времени обработки за пределы реального времени. В данной работе используется альтернативный Байесовский подход, описанный в работах [23, 24] и опирающийся на специальную модель марковского случайного поля, называемую гамма-нормальной моделью [37]. Такая модель позволяет принимать во внимание структуру, которая извлекается из так называемого «управляющего» изображения с помощью установки соответствующих вероятностных отношений между элементами исходного изображения и результата фильтрации.

Рис. 3. Результат цветовой сегментации с использованием одноклассового классификатора

Пусть У = (у, 1 е Т) - исходный массив данных, определенный на подмножестве элементов двумерного дискретного пространства Т = {1 = 12)\ ^ = 1,...,¿2 = 1,...,N2}, и пусть массив X = (х1,1 е Т), определенный на том же множестве аргументов, играет роль искомого результата обработки. Будем рассматривать У и X как наблюдаемую и скрытую компоненты двухкомпонентного случайного поля (У, X). Вероятностные

свойства двухкомпонентного случайного поля (X,У) полностью опреде-

29

ляются условной плотностью распределения Ф(У1 X) исходного массива данных У = (у.,1 е Т) относительно массива X = (х1,1 е Т) и априорной плотностью распределения ¥(X) скрытой компоненты X = (х1,1 е Т). Пусть совместная условная плотность Ф(У | X) является нормальной:

F(Y | X, 5) =

Ni-N2)/2 exp( 25 ZteT

(y - X )2),

(1)

где 8 - дисперсия шума наблюдения, являющаяся неизвестной. Априорная плотность ¥(X) скрытой компоненты X = (х1,1 е Т) также

принята нормальной. Но дисперсия г скрытых переменных может быть различной в разных точках 1 е Т скрытого поля X. Удобно выбрать г1, 1 е Т пропорционально дисперсии шума наблюдения г1 = 115. Коэффициенты пропорциональности Л = (1,1 е Т) могут служить для гибкого задания структуры вероятностных связей между элементами скрытого поля X. В соответствии с принятыми предположениями получим несобственную плотность:

Y( X | Л, 5)'

1

, 1/2

-х exp

^511 (2p)

V teT

\( NrN2)/2

-— Z (xt,

2 t,t"eV 511'

(2)

где V представляет собой граф смежности элементов изображения, имеющий вид простой решетки. Наконец, примем, что величины, обратные коэффициентам 1 /11, априорно независимы и имеют одинаковое гамма-распределение на положительной полуоси 11 > 0:

G(L | 5,h,m) = exp

h Z

11 h—+ -ln 1t 1 h

(3)

25m teT

где h и m - параметры, определяющие степень гибкости модели. Если m ® 0, то 1 /11 практически полностью сконцентрированы вокруг математического ожидания 1/ h, а при m ® ¥, 1 /11 стремятся к практически равномерному распределению.

Совместная апостериорная плотность распределения скрытого поля X и коэффициентов Л полностью определяется (1), (2) и (3):

Р(X,Л|y,5,h,m) =ff Y(Х|Л'5)G(L|h,m)F(Y 1X,5) .

J J Y(X | Л, 5)G(Л | h, m)F(Y | X, 5)dXdЛ

Легко убедиться, что оценки максимума апостериорного распределения (maximum a posteriori probability, MAP) приводят к задаче минимизации следующей целевой функции:

J(X,Л | y,h,m) = Z(y - x)2 + Z |т-[(- x02+h / m] + (1+1/ m)in 1

teT t,t''eV I 1'

При фиксированных коэффициентах Л оптимальная оценка X может быть получена путем решения простой квадратичной задачи оптимизации

1 = а^тт ¡Е(У - X )2 + Е х1' - хг)

X

[ 1еТ

г"еУ 11'

при помощи быстрой процедуры на основе древовидного динамического программирования [38].

Если значения скрытых переменных X фиксированы, X = Xg, критерий (4) приводит к следующим оценкам Л с заданными параметрами Л и т:

$ , (1/ л)(- х*)2+1/ т тл

11-(X*,л,т) = л———--,(1 ,1 )е у.

1+1/т

Информация о структуре дополнительного «управляющего» изображения X* может быть выражена при помощи коэффициентов Л = (111,1 е Т). Как было сказано выше, поле Л служит мерой локальной изменчивости скрытого поля X. Как видно из критерия (4), 1 г, 1' е Т играет роль штрафа на различие значений смежных переменных х* и х*, (1', 1')е У. Таким образом, поле Л, оцененное с помощью дополнительного «управляющего» изображения, может быть использовано для переноса структуры локальных связей между элементами «управляющего» изображения на результат обработки. Обобщенная схема сегментации показана на рис. 4.

Рис. 4. Обобщенная схема цветового классификатора

31

Предложенная процедура имеет линейную вычислительную сложность относительно количества элементов изображения и время обработки, сравнимое с быстрым наведенным фильтром (Fast Guided Filter) [39].

В задаче сегментации исходное изображение играет роль «управляющего» Xs, а грубая сегментация на основе вероятностного одноклас-сового классификатора играет роль наблюдаемого изображения Y. Метод описания данных опорными векторами дает возможность получить «размытую» классификацию вместо бинарной. Мы используем расстояние от объекта до центра гиперсферы в расширенном гильбертовом пространстве как степень принадлежности к классу интереса.

Размытая классификация в сочетании с фильтром, переносящим структуру, позволяет получить более точное и устойчивое решение.

Детектирование кисти руки на основе сравнения скелетов бинарных изображений. Сегментированные прямоугольные области бинарного изображения частично отбраковываются по ряду эмпирических признаков: размеру (предполагается, что размер сопоставим с размерами найденного лица человека), геометрическим характеристикам и степени заполненности информацией (вычисляется как отношение числа черных пикселей, принадлежащих области, к размеру области). Прошедшие отбор области-кандидаты предъявляются для анализа процедуре сравнения бинарных изображений на основе скелетизации [27]. Каждый кандидат сравнивается с эталонными (типичными) изображениями левой и правой ладони (рис. 5).

Процедура сравнения начинается с построения скелетов изображений: один скелет строится для изображения эталонной ладони, второй -для изображения-кандидата (рис. 6).

Рис. 6. Примеры двух классов бинарных изображений, их скелетов и вычисленные для них меры различия

32

Рис. 5. Эталонные изображения левой и правой ладони

Алгоритм сравнения двух скелетов изображений состоит из следующих шагов.

1. Кодирование скелета и его радиальной функции последовательностью (цепочкой) примитивов. Каждый примитив содержит информацию о топологических характеристиках соответствующего скелетного ребра: его длине, значении угла, образованного с соседним ребром, радиальной функции.

2. Парное выравнивание цепочек примитивов, осуществляемое посредством динамического программирования.

3. Вычисление меры несходства на основе оптимального парного выравнивания цепочек примитивов, а, следовательно, и закодированных ими скелетов.

Полученная таким образом двухместная функция расстояния для бинарных растровых изображений возвращает неотрицательное число, определяющее меру их несходства. Предполагается, что для принятия решения, содержит ли область-кандидат изображение ладони (левой или правой), достаточно простого порогового правила, относящего к классу ладоней все изображения, расстояние от которых до эталона меньше некоторого значения. Поэтому необходимо выбрать адекватные задаче эталонные изображения правой и левой ладони.

Согласно нашим предварительным исследованиям, процедура сравнения изображений демонстрирует хорошую производительность: время вычисления меры различия двух объектов составляет 3-5 мс на обычном ноутбуке.

Экспериментальные результаты. Для проведения экспериментального исследования нами была собрана база изображений, сделанных в разных интерьерах при различных условиях освещенности. На каждом изображении зафиксирован один человек, предъявляющий кисть руки. Сцена каждого изображения построена таким образом, чтобы обеспечить наблюдателю однозначное выделение объектов интереса (в данном случае лицо и кисть без пересечений) (рис. 7). Всего в базе содержится 302 изображения. Для каждого изображения экспертом была определена прямоугольная область, содержащая кисть руки. Эта информация использовалась в дальнейшем как истинная оценка. Доступ к размеченной базе можно получить по адресу http://lda.tsu.tula.ru/papers/TulaSU HandsDetDB.zip.

На первом этапе проведения экспериментальных исследований оценивали качество сегментации предложенными в работе алгоритмами. В частности, необходимо проверить, насколько уверенно предложенная процедура выделяет претендентов для последующего сравнения с эталоном. Как видно из таблицы, после сегментации на большинстве изображений, на которых было обнаружено лицо (используется параметр NeighborFaces = 9 в OpenCV-реализации метода Виолы-Джонса), удалось также выделить и фрагмент, соответствующий реальной кисти руки, причем в 52 случаях этот претендент был единственным.

Рис. 7. Примеры фотографий из созданной базы данных для проведения экспериментов

Качество сегментации

Критерий Предложенный в работе метод Алгоритм GrabCut

Количество изображений в базе 302

Корректно найдено лиц алгоритмом Виолы-Джонса 289

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Среднее число претендентов на изображении 3,02 2,39

Один из найденных претендентов соответствовал истинному положению руки 233 172

Единственный претендент, соответствующий истинному положению руки 52 36

Не найдено ни одного претендента 2 37

Сравнили предложенный подход к сегментации с хорошо известным алгоритмом GrabCut [40] на основе метода разреза графов. Среднее время расчетов для алгоритмов сегментации (реализация в среде MATLAB) составило 1,3 с для метода GrabCut и 0,3 с для предложенного метода на основе гамма-нормальной вероятностной модели. Примеры фрагментов-кандидатов показаны на рис. 8. Все они были разделены экспертом на три типа: «левая рука» (109 экземпляров), «правая рука» (71), и «не рука» (541). Кроме того, два наиболее типичных объекта были назначены в качестве эталона левой руки и эталона правой руки (см. рис. 5).

а б

Рис. 8. Объекты, похожие на ладонь человека (а), объекты, не схожие по форме с ладонью человека (б)

Качество алгоритма сравнения бинарных изображений оценивалось посредством анализа расстояний между объектами-кандидатами, полученными с помощью сегментации, и эталонными изображениями левой и правой руки. На рис. 9 представлено отображение матрицы парных расстояний для всех полученных образцов-претендентов (размер матрицы -721^721) на двумерную плоскость, где в качестве первого признака (вертикальная ось) выбираются расстояния до эталона правой руки, а в качестве второго (горизонтальная ось) - расстояния до эталона левой руки. Наглядно показано, что выполняется гипотеза компактности для изображений руки, что позволяет построить систему выделения кисти руки, используя простое пороговое правило по расстоянию от заданного эталона. Качество отделения изображений ладони от других претендентов («не рук») в виде ЯОС-кривой показано на рис. 9. Значение показателя качества классификации «площадь под кривой» для левой руки равна 0,9535, а для правой руки - 0.9531.

Заключение. Обнаружение кисти руки является достаточно сложной задачей и требует сочетания различных методов и алгоритмов для получения надежного решения. Предлагаемый подход состоит из трех основных этапов: обнаружения лица для обучения одноклассового классификатора, цветовой сегментации кожи и формирования кандидатов для сравнения с эталоном.

Основными преимуществами подхода являются инвариантность к условиям освещения, особенностям цвета кожи человека, повороту руки и масштабированию. Кроме того, не используется модель фона изображения, что делает подход надежным в сложных или меняющихся сценах. Разработанный метод позволяет быстро переобучить цветовой классификатор, используя для этого только небольшой фрагмент изображения лица.

Новый метод сегментации на основе одноклассового цветового классификатора и фильтра, передающего структуру, был построен с использованием вероятностной гамма-нормальной модели. Это позволяет значительно сократить количество объектов-кандидатов для сравнения с эталоном. Инвариантный к повороту и масштабированию алгоритм, основанный на выравнивании цепочек скелетных примитивов, обеспечивает качественное сравнение кандидатов с эталонными объектами.

Благодаря высокой скорости работы представленных алгоритмов становится возможной обработка изображений в режиме реального времени и детектирование кисти руки в видеопотоке. Экспериментальные исследования демонстрируют надежность и точность предложенного метода.

■ Правые руки 4 Левые dvkh

-Left Hand Eta) on -Right Hand Etal on

0.1 0.2 0.3 0.4 0.5 0.6 False positive rate

Рис. 9. Расстояние претендентов от эталонного изображения левой руки (горизонтальная ось) и правой руки (вертикальная ось) и ROC-кривые для функции сравнения претендентов

Работа выполнена при поддержке грантов РФФИ 14-07-00527, 16-57-52042, 16-07-01039.

Список литературы

1. Review and evaluation of commonly-implemented background subtraction algorithms / Y. Benezeth [et al.] // 2008 19th Int. Conf. Pat. Recogn. 2008. P. 1-4.

2. Piccardi M. Background subtraction techniques: a review // 2004 IEEE Int. Conf. Syst. Man Cybern. (IEEE Cat. No.04CH37583). 2004. Vol. 4. P. 3099-3104.

3. Shiravandi S., Rahmati M., Mahmoudi F. Hand gestures recognition using dynamic Bayesian networks //2013 3rd Joint Conference of AI & Robotics and 5th RoboCup Iran Open International Symposium. IEEE, 2013. P. 1 - 6.

4. Jones M., Rehg J. Statistical Color Models with Application to Skin Detection // Int. J. Comput. Vis. 2002. Vol. 46, № 1. P. 81 - 96.

5. Kakumanu P., Makrogiannis S., Bourbakis N. A survey of skin-color modeling and detection methods//Pat. Recogn. 2007. Vol. 40, № 3. P. 1106 -1122.

6. Vezhnevets V. A Survey on Pixel-Based Skin Color Detection Techniques // Cybernetics. 2003. Vol. 85, № 0896-6273 SB-IM. P. 85 - 92.

36

7. Adaptive Skin Color Classificator / M. Wimmer [et al.] // Proc. first ICGST Int. Conf. Graph. Vis. Image Process. GVIP-05. 2005. № December. P. 324-327.

8. Phung S.L., Bouzerdoum A., Chai D. Skin segmentation using color pixel classification: analysis and comparison. // IEEE Trans. Pattern Anal. Mach. Intell. 2005. Vol. 27. № 1. P. 148 - 154.

9. Junqiu W., Yagi Y. Integrating Color and Shape-Texture Features for Adaptive Real-Time Object Tracking // Image Process. IEEE Trans. 2008. Vol. 17, № 2. P. 235-240.

10. Малашин Р.О., Луцив В.Р. Восстановление силуэта руки в задаче распознавания жестов с помощью адаптивной морфологической фильтрации бинарного изображения // Оптический журнал. 2013. Vol. 80. № 11. P. 54 - 61.

11. Suarez J., Murphy R.R. Hand gesture recognition with depth images: A review // Proc. IEEE Int. Work. Robot Hum. Interact. Commun. 2012. № August 2016. P. 411 - 417.

12. Francke H., Ruiz-del-Solar J., Verschae R. Real-time hand gesture detection and recognition using boosted classifiers and active learning // 2nd Pacific Rim Symp. Image Video Techn. PSIVT 2007. Vol. 4872 LNCS. P. 533 -547.

13. Hikal N.A., Kountchev R. Skin Color Segmentation Using Adaptive PCA and Modified Elliptic Boundary Model. 2011. P. 978 - 979.

14. Hassanpour R., Shahbahrami A., Wong S. Adaptive Gaussian Mixture Model for Skin Color Segmentation // World Acad. Sci. Eng. Technol. 2008. Vol. 31, № July. P. 1 - 6.

15. Oka K., Sato Y., Koike H. Real-time fingertip tracking and gesture recognition // IEEE Comput. Graph. Appl. 2002. Vol. 22. № 6. P. 64 - 71.

16. Argyros A.A., Lourakis M.I.A. Vision-based interpretation of hand gestures for remote control of a computer mouse // Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). 2006. Vol. 3979 LNCS. P. 40 - 51.

17. Crowley J., Berard F., Coutaz J. Finger tracking as an input device for augmented reality // Int. Work..... 1995. № June. P. 1 - 8.

18. Rehg J.M., Kanade T. Model-based tracking of self-occluding articulated objects // Proc. IEEE Int. Conf. Comput. Vis. 1995. P. 612 - 617.

19. Zhu Y. et al. Vision Based Hand Gesture Recognition // 2013 Int. Conf. Serv. Sci. IEEE, 2013. Vol. 3. № 1. P. 260 - 265.

20. Jones M., Viola P. Fast Multi-view Face Detection // Mitsubishi Electr. Res. Lab TR2000396. 2003. № July.

21. Parametric Representation of Objects in Color Space Using One-Class Classifiers: inbook / A. Larin [et al.] // Machine Learning and Data Mining in Pattern Recognition: 10th International Conference, MLDM 2014, St. Petersburg, Russia, July 21 - 24, 2014. Proceedings / ed. Perner P. Cham: Springer International Publishing, 2014. P. 300 - 314.

22. Tax D.M.J., Duin R.P.W. Support Vector Data Description // Mach. Learn. Kluwer Academic Publishers, 2004. Vol. 54, № 1. P. 45-66.

23. Gracheva I., Kopylov A., Krasotkina O. Fast Global Image Denois-ing Algorithm on the Basis of Nonstationary Gamma-Normal Statistical Model: inbook // Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9-11, 2015, Revised Selected Papers / ed. Y.M. Khachay [et al.]. Cham: Springer International Publishing,

2015. P. 71-82.

24. Gracheva I., Kopylov A. Image Processing Algorithms with Structure Transferring Properties on the Basis of Gamma-normal Model // Analysis of Images, Social Networks, and Texts April, 7-9th, Yekaterinburg. In Printing,

2016. P. In printing.

25. A Real-Time Hand Gesture Recognition Method / Y. Fang [et al.] // Multimed. Expo, 2007 IEEE Int. Conf. IEEE, 2007. P. 995 - 998.

26. Bowden R. A boosted classifier tree for hand shape detection // Sixth IEEE Int. Conf. Autom. Face Gesture Recognition, 2004. Proceedings. IEEE, 2004. P.889 - 894.

27. Kushnir O., Seredin O. Shape Matching Based on Skeletonization and Alignment of Primitive Chains: inbook // Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9--11, 2015, Revised Selected Papers / ed. Y.M. Khachay [et al.] Cham: Springer International Publishing, 2015. P. 123 - 136.

28. Sabeti L., Wu Q.M.J. High-speed skin color segmentation for realtime human tracking // 2007 IEEE International Conference on Systems, Man and Cybernetics. IEEE, 2007. P. 2378 - 2382.

29. Improving adaptive skin color segmentation by incorporating results from face detection / J. Fritsch [et al.] // Proceedings. 11th IEEE International Workshop on Robot and Human Interactive Communication. IEEE, 2002. P. 337-343.

30. Hsieh C.C., Liou D.H., Lai W.R. Enhanced face-based adaptive skin color model // J. Appl. Sci. Eng. 2012. Vol. 15. № 2. P. 167 - 176.

31. Real-time foreground-background segmentation using codebook model / K. Kim [et al.] // Real-Time Imaging. 2005. Vol. 11, № 3. P. 172 - 185.

32. Degtyarev N., Seredin O. Comparative testing of face detection algorithms // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Springer Berlin Heidelberg, 2010. Vol. 6134 LNCS. P. 200 - 209.

33. Bali A., Singh S.N. A Review on the Strategies and Techniques of Image Segmentation // 2015 Fifth International Conference on Advanced Computing & Communication Technologies. IEEE, 2015. P. 113 - 120.

34. He K., Sun J., Tang X. Guided image filtering // IEEE Trans. Pattern Anal. Mach. Intell. 2013. Vol. 35, № 6. P. 1397 - 1409.

35. Zhang J., Cao Y., Wang Z. A New Image Filtering Method: Nonlocal Image Guided Averaging // 2014 IEEE Int. Conf. Acoust. Speech Signal Process. 2014. № 2012. P. 2479 - 2483.

36. Digital photography with flash and no-flash image pairs / G. Pet-schnigg [et al.] // ACM Trans. Graph. 2004. Vol. 23. № 3. P. 664.

37. Bayesian Estimation of Time-Varying Regression with Changing Time-Volatility for Detection of Hidden Events in Non-Stationary Signals / O.V. Krasotkina [et al.] // Proc. 7th IASTED Int. Conf. Signal Process. Pattern Recognit. Appl. (SPPRA 2010). 2010. P. 8 - 15.

38. Optimization techniques on pixel neighborhood graphs for image processing / V.V. Mottl [et al.] // Graph-Based Represent. Pattern Recognit. Computing, / ed. Jolion J.-M., Kropatsch W.G. Wien: Springer-Verlag/Wien, 1998. Vol. 12, № Computing. Supplement, 0344-8029. P. 135 - 145.

39. He K., Sun J. Fast Guided Filter // CoRR. 2015. Vol. abs/1505.0.

P. 2.

40. Boykov Y., Kolmogorov V. An experimental comparison of mincut/max- flow algorithms for energy minimization in vision // IEEE Trans. Pattern Anal. Mach. Intell. 2004. Vol. 26, № 9. P. 1124 - 1137.

Копылов Андрей Валериевич, канд. техн. наук, доц., and.kopylov@gmail.com, Россия, Тула, Тульский государственный университет,

Середин Олег Сергеевич, канд. физ.-мат. наук, доц., oseredin@yandex.ru, Россия, Тула, Тульский государственный университет,

Кушнир Олеся Александровна, ассист., kushnir-oles\>a a ramhler. ru, Россия, Тула, Тульский государственный университет,

Грачева Инесса Александровна, асп., gia1509@mail.ru, Россия, Тула, Тульский государственный университет,

Ларин Александр Олегович, ekzehoxagmail. com, Россия, Тула, Тульский государственный университет

ROBUST PALM DETECTION BASED ON COMBINING OF COLOR AND SHAPE

INFORMATION

А.У. Kopylov, O.S. Seredin, O.A. Kushnir, I.A. Gracheva, A.O. Larin

In this paper, we describe a background-invariant hand detection method in video stream, which is trained without any background training sample. Method uses the modified version of one-class pixel classifier for initial rough segmentation. The special filter with structure-transferring properties huilt on probabilistic gamma-normal model applied for improving initial segmentation. To make a final decision whether a segmented image fragment is the image of human hand or not the method of binary images comparison based on skeletonization is employed.

Key words: Hand detection, One-class classification, Pixel classifier, Support Vector Data Description (SVDD), Structure transferring filter, Skeleton comparison.

Kopylov Andrej Valerievich, candidate of technical sciences, docent, and. kopylov@gmail. com, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of mathematical sciences, docent, osere-dinayandex. ru, Russia, Tula, Tula State University,

Kushnir Olesja Aleksandrovna, assistant, kushnir-olesya@,rambler. ru, Russia, Tula, Tula State University,

Gracheva Inessa Aleksandrovna, postgraduate, gial509a mail. ru, Russia, Tula, Tula State University,

Larin Aleksandr Olegovich, ekzeboxagmail. com, Russia, Tula, Tula State University

УДК 004.93

ГРУППИРОВКА ПРИЗНАКОВ БЕЗ ПОСТРОЕНИЯ ФАКТОРОВ ГРУПП

С.Д. Двоенко, Д.О. Пшеничный, Ф.А. Хандельянц

В задачах группировки существует проблема интерпретации факторов групп, так как они являются синтетическими признаками. Обычно определяется представитель группы как признак, наиболее коррелирующий с ее фактором. Тогда разбиение на группы интерпретируется прямо в терминах исходных признаков. Предложен новый подход для выбора признаков, адекватно представляющих факторы групп без их непосредственного вычисления. Данный подход основан на построении оптимальной последовательности главных миноров корреляционной матрицы признаков. Показано, что предложенный подход позволяет формировать как начальное решение для других алгоритмов группировки, так и может применяться самостоятельно для оценки числа групп и построения содержательных группировок.

Ключевые слова: группировка, кластер, метрика, корреляция, собственное число, собственный вектор, минор.

Введение. В интеллектуальном анализе данных предполагается, что экспериментальные сведения об изучаемом явлении представлены как результаты измерений в виде матрицы данных X(N, n), где N - число измерений, n - число измеряемых характеристик. Каждое измерение характеристик изучаемого явления рассматривается как объект w е W, который процессом измерения помещен в n - мерное признаковое пространство и представлен в нем вектором-строкой Xi = (xzl,... Xin), i = 1,... N . Матрица

T

данных представляет собой множество из N строк X(N, n) = (xi,... xn) , расположенных друг под другом.

i Надоели баннеры? Вы всегда можете отключить рекламу.