УДК 004.93'12
В. И. Петр у к, А. В. С а м о р о д о в, И. Н. Спиридонов
ПРИМЕНЕНИЕ ЛОКАЛЬНЫХ БИНАРНЫХ ШАБЛОНОВ К РЕШЕНИЮ ЗАДАЧИ РАСПОЗНАВАНИЯ ЛИЦ
Рассмотрено применение локальных бинарных шаблонов к решению задачи распознавания личности. Приведено описание метода сопоставления изображений, основанного на построении гистограмм локальных бинарных шаблонов. Проанализированы три разных подхода к принятию решения об идентичности изображений по соответствующим им гистограммам. Предложено использовать линейный дискриминант Фишера для снижения размерности вектора признаков и построения соответствующего решающего правила.
E-mail: [email protected]
Ключевые слова: распознавание лиц, локальные бинарные шаблоны.
Система распознавания лиц представляет собой программно-аппаратный комплекс для автоматической верификации или идентификации личности по цифровому изображению. Задача распознавания лиц решается при создании систем управления контролем доступа, автоматизированных систем паспортного контроля, при проведении оперативно-розыскных мероприятий и т.д. [1].
В процессе распознавания лиц возникает ряд сложностей, связанных с влиянием условий освещения, вращения головы, возрастных изменений на результаты распознавания.
Выделяют следующие основные этапы процесса верификации и идентификации [2]: регистрация и нормализация изображения; выделение признаков; вычисление меры близости/различия; построение решающего правила.
В настоящей статье изложены результаты разработки и исследования алгоритмов распознавания лиц на основе локальных бинарных шаблонов (ЛБШ).
Локальные бинарные шаблоны представляют собой бинарные коды определенной разрядности, используемые для классификации в компьютерном зрении. Локальные бинарные шаблоны впервые были предложены в 1996 г. для анализа текстуры полутоновых изображений [3]. При этом дальнейшие исследования показали, что ЛБШ инвариантны к изменениям в условиях освещения и поворотам изображения [3, 4].
Локальный бинарный шаблон (ЛБШ) представляет собой описание окрестности пикселя изображения в двоичном представлении. Для вычисления базового ЛБШ в некоторой точке изображения используется
22 30 22 0 0 0
29 63
Поре]" г 33
36 48 51 1 1 1
ОООlL L Ш
Десличкый код: 30
Рис. 2. Расширенный ЛБШ
Рис. 1. Базовый ЛБШ
восемь пикселей ее окрестности, а значение интенсивности центрального пикселя принимается в качестве порога. Пиксели со значением интенсивности, большим или равным пороговому значению принимают значения, равные единице, остальные принимают значения, равные нулю (рис. 1). Таким образом, результатом операции является восьмиразрядный бинарный код, который описывает окрестность этого пикселя [3].
Для более гибкого анализа текстурных особенностей изображения используются круговая окрестность и билинейная интерполяция значений интенсивностей пикселей, которые позволяют построить расширенный ЛБШ (рис. 2) с произвольным числом точек Р и радиусом Я [3-6].
Бинарные коды определенного вида несут в себе больше информации, чем остальные. Так, ЛБШ называется равномерным (РЛБШ), если он содержит не более трех серий "0" и "1" (например, 00000000, 001110000 и 11100001). Равномерные локальные бинарные шаблоны определяют только важные локальные особенности изображения, такие как концы линий, грани, углы и пятна (рис. 3). Кроме того, они обеспечивают существенную экономию памяти (число РЛБШ равно Р(Р — 1) + 2, число ЛБШ произвольного вида — 2Р).
Рис. 3. Примеры локальных особенностей, детектируемых РЛБШ
Гистограмма ЛБШ. Локальный бинарный шаблон вычисляется для каждого пикселя изображения, а затем строится гистограмма, в которой каждому равномерному коду ЛБШ соответствует отдельный столбец. Также формируется еще один дополнительный столбец, который содержит информацию обо всех неравномерных шаблонах.
Изображения лиц могут быть представлены как набор всевозможных локальных особенностей, которые хорошо описываются с помощью ЛБШ. Однако гистограмма, построенная для всего изображения в целом, кодирует лишь наличие тех или иных локальных особенностей, но при этом не содержит никакой информации об их расположении на изображении. Для учета пространственного расположения изображение разбивается на подобласти, в каждой из которых вычисляется своя гистограмма ЛБШ (рис. 4). Путем конкатенации этих гистограмм строится общая гистограмма, учитывающая как локальные, так и глобальные особенности изображения [4, 5].
При таком подходе для лучшего извлечения признаков выполняется варьирование параметров оператора ЛБШ и числа разбиений изображения на подобласти.
Построение решающего правила. В ходе работы были исследованы три подхода к вычислению меры различия гистограмм ЛБШ двух сопоставляемых изображений и построению соответствующего решающего правила.
Взвешенное расстояние Кульбака-Лейблера. Некоторые области изображения могут содержать более важную информацию, чем остальные, и в соответствии с этим каждой из них можно назначить свой весовой коэффициент. Так, веса могут быть получены с помощью ¿-критерия Стьюдента при проверке гипотезы о различиях между двумя выборками по обучающим данным, представляющими собой два класса: "свои" и "чужие", в задачах верификации или идентификации.
В этом случае в качестве меры различия двух гистограмм используется взвешенное расстояние Кульбака-Лейблера в симметричной форме [7]
где i, j — индексы подобласти изображения; wij — весовой коэффициент подобласти; S 1,S2 — гистограммы ЛБШ первого и второго изображений; k — номер столбца гистограммы ЛБШ; P — число точек окрестности в шаблоне ЛБШ.
При этом задача идентификации решается с использованием классификатора по методу ближайшего соседа, а задача верификации — путем пороговой классификации.
Расстояние Махаланобиса. Данный подход заключается в использовании расстояния Махаланобиса [8]
d(x,y) = ^(х - y)TS-1(x - y),
где x,y — случайные векторы с одинаковым распределением и корреляционной матрицей S.
Корреляционная матрица S вычисляется с использованием обучающей выборки изображений. Для каждой из подобластей изображений определяется расстояние Кульбака-Лейблера. Объединение этих результатов задает вектор различий двух изображений. Такие векторы вычисляются для каждой пары изображений обучающей выборки и образуют два набора векторов различий изображений, соответствующих двум классам — классу "своих" и классу "чужих". Далее определяются средние значения векторов, представляющих каждый из классов.
На практике для любых двух изображений вычисляется их вектор различий, а затем определяются расстояния Махаланобиса d1 и d2 между этим вектором и средними векторами классов "свой" и "чужой" соответственно. Идентификация и верификация проводится с использованием дискриминирующей функции f (d1,d2) = d2/(d1 + d2) и некоторого порогового значения.
Применение линейного дискриминанта Фишера. Следующий подход основан на использовании линейного дискриминанта Фишера (ЛДФ) [2]:
т/ \ УТ SB У
J(у) = -->max;
yT Sw у
1 2
sb = - - v)T;
i= 1
1 2 Ni
SW = N^ - v/')(x'jj - ;
i=1 j=1
Sw SBek =
где Vi — среднее для i-го класса; v — общее среднее; Ni — число представителей в i-м классе; N — общее число представителей в обучающей выборке; xij — j-й представитель i-го класса.
X 0.55*
1120} (ее)
Г7 ft 1 \ (40) 1 1 1 С f
U vi и / \ 1,5* [130)
2, IX
(252J
Рис. 5. Параметры нормализации изображения
Пусть имеется два набора векторов, соответствующих двум классам. Собственный вектор ek, соответствующий наибольшему собственному значению Л матрицы SW-1SB , задает преобразование в пространство размерности 1.
Задача идентификации и верификации решается способом, аналогичным предыдущему (путем построения векторов различий изображений с использованием расстояния Кульбака-Лейблера). При этом вместо расстояния Махаланобиса используется отображение вектора в одномерное пространство.
Описание и результаты эксперимента. Для обучения и тестирования использовалась база данных ColorFERET; обучающая выборка: 100 человек, 5 фотографий на каждого; тестовая выборка — 329 человек, 2 фотографии на каждого.
В целях снижения уровня шума использовались медианный и гаус-совый фильтры. Кроме того, изображения кадрировались, масштабировались и доворачивались до горизонтального положения линии, соединяющей центры глаз (рис. 5).
Рассмотренные алгоритмы были обучены так, чтобы обеспечить значение вероятности ложного допуска (FAR) равным 0,1 %. Наилучшие результаты были получены при использовании следующих параметров. Параметры оператора ЛБШ: P = 8, R = 2; число разбиений изображения: 6 х 6 (вдоль осей x и y соответственно).
В таблице приведены результаты тестирования разработанных алгоритмов.
В случае использования в качестве меры различия гистограмм ЛБШ взвешенного расстояния Кульбака-Лейблера вероятность идентификации 1-го ранга на закрытом множестве составила 89,5 %, а ве-
Результаты тестирования алгоритмов
Мера различия Вероятность идентификации 1-го ранга на закрытом множестве, % Вероятность истинно положительной верификации, %
Взвешенное расстояние Кульбака-Лейблера 89,5 84,2
Расстояние Махаланобиса 89,8 80,8
Преобразование в одномерное пространство с помощью ЛДФ 92,0 86,0
роятность истинно положительной верификации — 84,2%. Для расстояния Махаланобиса эти значения равны 89,8 % и 80,8 % соответственно. Наилучшие вероятностные характеристики получены с использованием линейного дискриминанта Фишера: 92,0% и 86,0% соответственно.
Заключение. Рассмотрен алгоритм построения вектора признаков на основе локальных бинарных шаблонов.
Показано, что использование разных решающих правил для одних и тех же векторов признаков может повысить качество распознавания лиц. Наилучшие вероятностные характеристики получены с использованием линейного дискриминанта Фишера.
СПИСОК ЛИТЕРАТУРЫ
1. Спиридонов И. Н. Биометрические технологии идентификации личности и безопасность государства. - Инфофорум. - 2011. - T. 57. - C. 25-30.
2. Handbook of face recognition / Eds. S.Z. Li, A.K. Jain. - Springer Science+Business Media, Inc., 2005. - 395 p.
3. Maenpaa T. The local binary pattern approach to texture analysis — Extensions and Applications. - Oulu University Press, 2003.
4. Shan C, Gong S., M c O w a n P. W. Facial expression based on local binary patterns: A comprehensive study // Image and Vision Computing. - 2009. (27).
5. Maturana D., Mery D., Soto A. Face recognition with local binary patterns, spatial pyramid histograms and naive bayes nearest neighbor classification // Proc. of the XXVIII International Conf. of the Chilean Computer Science Society, IEEE CS Society, 2009.
6. Ahonen T., Hadid A., Pietikainen M. Face recognition with local binary patterns. Lecture Notes in Computer Science, 2004.
7. Боровков Л. Л. Математическая статистика. Оценка параметров. Проверка гипотез. - М.: Наука, 1984. - 472 с.
8. Ярославский Л. П. Цифровая обработка сигналов в оптике и голографии: Введение в цифровую оптику. - М.: Радио и связь, 1987. - 296 с.
Статья поступила в редакцию 9.08.2011