Научная статья на тему 'Проблема автоматического распознавания лиц с одним эталонным изображением'

Проблема автоматического распознавания лиц с одним эталонным изображением Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
195
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ / РАСПОЗНАВАНИЕ ЛИЦ / 2D-РАСПОЗНАВАНИЕ / ПРОБЛЕМА ОДНОГО ЭТАЛОНА / ПРИНЦИП "БЛИЖАЙШЕГО ЭЛЕМЕНТА"

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Прокошев Валерий Григорьевич, Рожков Максим Михайлович, Шамин Павел Юрьевич

Рассмотрена оригинальная методика распознавания людей по изображению лица в ситуации с одним эталонным изображением. Проведено её сравнение с рядом известных методик других авторовI

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Прокошев Валерий Григорьевич, Рожков Максим Михайлович, Шамин Павел Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

n this clause a methodof human recognition by face image in a "single sample per person" case are considered. The comparison with other similar methods are performed

Текст научной работы на тему «Проблема автоматического распознавания лиц с одним эталонным изображением»

actions on communication.-1986.-Vol. com-34. № 9. P. 927-936.

3. Шомников, М.А. Оценка эффективности функционирования метеорной радиолинии [Текст]/ М.А. Шомников, М.Ю. Литовкин//Радиотехни-

Ka.-1994.-№ 8. C. 45-53.

4. Davidovici, S. Performance of meteor-burst communication system using packet messages with variable data rates [TeKcr]/S. Davidovici, E. Kanterakis//IEEE Transactions on communication.-1989.-Vol. 37. № 1. P. 6-17.

УДК 351.759.6

В.Г. Прокошев, М.М. Рожков, П.Ю. Шамин

ПРОБЛЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЛИЦ С ОДНИМ ЭТАЛОННЫМ ИЗОБРАЖЕНИЕМ

В последние годы происходит всё более широкое внедрение технологий биометрической идентификации людей. Рост интереса к этим технологиям объясняется, с одной стороны, возрастающей потребностью в таких технологиях, в основном, связанной с необходимостью парирования террористических и криминальных угроз, а с другой стороны, - расширяющимися возможностями в этой сфере. Повышение эффективности технологий биометрической идентификации обеспечивается ростом производительности вычислительной техники, что делает возможным быстрый поиск в больших базах данных биометрических признаков и позволяет в реальном времени реализовывать всё более сложные и эффективные алгоритмы и наборы биометрических признаков.

Несмотря на то, что методы идентификации, основанные на определении отпечатков пальцев или сканировании радужной оболочки, возможно, более точны, распознавание лиц всегда было в центре внимания ученых в силу своей «неагрессивности» по отношению к пользователям.

Обзор проблемы SSPP

Степень точности существующих методов автоматического распознавания лиц зависит от количества фотографий-ракурсов распознаваемых людей, используемых для тренировки системы -так называемых тренировочных или эталонных изображений (sample). Чем меньше тренировочных (эталонных) изображений для каждого человека использует система, тем ниже ее точность.

Ситуация, когда система использует только одно эталонное изображение, приводит к значительному снижению точности распознавания. Данная проблема в научном сообществе называется проблемой одного эталонного изображения. В англоязычных источниках эта проблема фигурирует под аббревиатурами SSPP («Single Sample per Person») [5] или OSS («One Sample Size») [6]. Среди задач автоматического распознавания лиц проблема SSPP занимает особое место.

В связи с важным практическим значением проблемы SSPP, в этом направлении в настоящее время ведутся многочисленные исследования. Эффективность решения задачи SSPP алгоритмами, рассчитанными на обучение с использованием многих ракурсов, представлена в табл. 1. Алгоритмы тестировались на разных базах изображений (AR и FERET) с различным количеством персон в базах. Для распознавания использовались фотографии персон, которые заведомо есть в базе. Корректность распознавания показывает насколько хорошо алгоритм находит в базе изображений лиц фотографию того же человека.

Как видим из таблицы, корректность работы алгоритмов для решения проблемы SSPP невысока. Поэтому ведутся исследования, направленные на повышение корректности распознавания. Основное направление исследований в рамках проблемы SSPP заключается в следующем.

Информация, отсутствие которой обусловлено наличием в базе только одного ракурса, восполняется различными, иногда искусственными, методами. После чего применяются хорошо зарекомендовавшие себя стандартные статистиче-

Таблица 1

Сравнение некоторых алгоритмов [4]

Алгоритм База изображений Кол-во персон Корректность распознавания, %

Метод вероятностного подпространства AR 100 82,3

Двумерный метод главных компонент AR 100 74,8

Дискриминантный метод главных компонент FERET 256 72,0

Компонентный линейный дискриминантный анализ FERET 70 78,6

ские методы. Остановимся подробнее на схемах подобного типа.

В [7] предлагается модифицировать метод линейного дискриминанта Фишера. Этот метод неприменим в чистом виде для решения проблемы ББРР, т. к. ему требуется более одного обучающего изображения для каждого человека. Авторы предлагают создать некоторый обобщенный тренировочный набор, состоящий из нескольких изображений для каждого человека, и обучить на нем модель. А затем, используя прогнозирование, применить результаты обучения для распознавания людей из базы уже с единственным изображением для одного человека.

В работе [6] предлагается использовать механизмы регрессии (т. е. вероятностные механизмы) в стандартных алгоритмах распознавания: в методе главных компонент и методе наименьших частных квадратов.

В [8] предлагается восстанавливать дополнительные ракурсы для лица, представленного одной тренировочной фотографией. А затем использовать имеющиеся алгоритмы для распознавания.

В данной статье мы рассмотрим варианты распознавания, не использующие синтез дополнительной информации, во многом основанный на эвристических принципах. Предлагается модель распознавания, которая в максимальной степени использует только имеющуюся информацию. Мы будем применять нахождение ближайшего эталона, используя различные техники (методики). Подбор и компоновка взаимодействующих (конкурирующих) методик и составляет предмет нашего исследования.

Модель распознавания

В дальнейшем используются следующие понятия: ракурс - это фотография лица некоторого

человека; класс - набор ракурсов одного и того же человека. Рассматривается проблема распознавания в постановке SSPP в следующем конкретном формате. База содержит набор классов, каждый из которых представлен одним ракурсом (эталоном). Тестовое множество устроено точно так же, как и база. То есть содержит тот же самый набор классов, представленных одним тестовым ракурсом; тесовые ракурсы, естественно, не тождественны соответствующим эталонам.

Каждый тестовый ракурс проходит два испытания: во-первых, эталонный ракурс, представляющий его класс в базе, в ней содержится; во-вторых, соответствующий эталон из базы изымается.

Ошибка первого рода (False Reject Rate) возникает, когда эталон для тестового ракурса присутствует в базе, но система считает, что его нет в базе. Ошибка второго рода (False Accept Rate) возникает при ложном срабатывании системы на тестовый ракурс, для которого нет эталона.

Предлагается трехуровневая структура системы распознавания - методика, блок, система.

Методика. Алгоритм, который присваивает ракурсам некоторые веса w, назовем методикой. Другими словами, методика - это отображение mett :E ^ {1 = w1, w2, ..., wK, wK+1 = 0}, где E - множество эталонных ракурсов; следует обратить внимание, что методика «параметризуется» тестовым ракурсом. Предположим, что веса удовлетворяют следующим условиям 1 = w, > w„> ...> w„> w^, = 0. Для каждого i вес w.

12 K K+1 ' ' i

присваивается ровно s. > 0 элементам из множества эталонов; остальным присваивается вес wK+1 = 0. Следует отметить, что смысл этого отображения (алгоритма) состоит в последовательном присвоении весов эталонам, начиная со старшего веса. То есть существует некоторое правило, по которому выбирается каждый следующий эталон. Веса

присваиваются до тех пор, пока не исчерпаются s = s + s + ...+s^ эталонов. После чего оставшимся

12 K

эталонам присваивается нулевой вес; описанная процедура может работать и на любом подмножестве множества эталонов.

Критерий принятия решения таков. Пусть w^ -некоторое критическое значение (в дальнейшем всегда 0 < w^ < 1), - некоторый ракурс.

Если множество L(t) = {em :mett(em) > wKp} не пусто, то принимается решение - «t принадлежит базе», в противном случае считается, что ракурс не содержит в базе соответствующего ему эталона.

Блок. Пусть заданы, например, две методики met, mett2 . Тогда metf = a^et + a2metn называется блоком; весовые коэффициенты ap a2 неотрицательны и ai + a2 = 1. В итоге блок формирует свой список по тому же принципу, что и отдельная методика, т. е. предлагает те эталоны, суммарный вес которых не меньше некоторого критического уровня. Естественно, что блок может содержать произвольное число методик.

Система распознавания. Несколько блоков образуют систему. Пусть для некоторого тестового ракурса i-й блок формирует свой список L.(t). Система будет считать, что тестовый ракурс t имеет соответствующий ему класс в базе, если

= У Li (t) ф 0 .

Множество ^сиитемы(() является списком эталонов, которые система считает соответствующими тестовому ракурсу /. Другими словами, «список подозреваемых» в похожести на тестовый ракурс. На рисунке приведена графическая схема системы распознавания.

Замечания. 1. В чистом виде методика обязательно присваивает некоторому эталону вес. Следовательно, список, который предъявит методика, всегда будет не пуст, т. е. утверждается -эталон в базе есть, независимо от того, присутствует в базе эталон для тестового ракурса на самом деле или нет. Такой ответ может быть удовлетворительным, если заведомо известно, что для тестового ракурса в базе имеется эталон, требуется лишь определить конкретный класс этого ракурса. В противном случае, когда для тестового ракурса нет эталона в базе, такой ответ будет заведомо ошибочным (т. е. ошибка второго рода будет равна 100 %). Тем не менее, отдельная методика также подвергается исследованиям на «надежность». Выясняется процент попадания эталона, соответствующего тестовому ракурсу, в главную часть списка (т. е. в множество тех эталонов, которым присваивается вес 1).

2. Итак, чтобы иметь возможность оценивать ошибки первого и второго рода, отдельные методики следует формировать в блоки. При этом бу-

1МЯ Тестовый ракурс .

i Блок 2

Методики

Блок 1

Решение

о наличии эталона

Графическая схема системы распознавания

дем руководствоваться следующими принципами. Методики в блоке должны формироваться так, чтобы при определении весов эталонов использовались разные свойства ракурсов; одна методика опирается на один набор свойств ракурсов, другая - на другой. Как это обеспечить практически -заранее не ясно. Это можно определить, лишь опираясь на интуицию и экспериментально.

3. Блок может давать правильный ответ - «соответствующий тестовому ракурсу класс принадлежит базе». Однако возможны следующие нежелательные варианты такого ответа: во-первых, нужного эталона может не оказаться в предлагаемом списке; во-вторых, этот список может быть чрезмерно велик. Из этого следует еще один принцип: при создании блоков следует комбинировать, по возможности, большее количество чистых методик.

4. Объединенные в систему блоки между собой не конкурируют, а сотрудничают. Это обстоятельство улучшает процент распознавания системы в целом (уменьшается ошибка первого рода), однако вполне может повысить вероятность ложного срабатывания системы (ошибка второго рода). Исходя из этого, определим следующие требования к блокам: для уменьшения ошибки первого рода желательно, чтобы блоки дополняли друг друга; если какой-либо ракурс не распознается одним блоком, то желательно, чтобы он распознавался другим. Если количество ложных срабатываний блоков не удается уменьшить, то желательно, чтобы ложное срабатывание блоки давали на одних и тех же ракурсах (чтобы не росла ошибка второго рода).

Отобранные методики и результаты работы модели

Понятие методики, сформулированное выше, носит слишком общий характер. Для конкретных экспериментов, результаты которых приводятся в статье, будем использовать методики, основанные на «принципе ближайшего элемента». Весам, которые присваиваются эталонам, также придадим вполне конкретный характер. Пусть эталоны расположены в порядке увеличения расстояния от тестового ракурса; этому расположению соответствует нумерация п = 0, 1, ..., N. Присвоим эталону, имеющему номер п вес м> = отп; в качестве основания экспоненты предлагается выбирать число, близкое к двум.

Испытания проводились на изображениях, полученных из набора fafb базы изображений лиц Color FERET. Тестовые и эталонные изображения были получены из оригинальных изображений базы Color FERET путем вырезания области, ограниченной прямоугольником: от 50 пикселов левее левого глаза до 50 пикселов правее правого глаза; от 50 пикселов выше «верхнего» глаза до 50 пикселов ниже рта. Координаты глаз и рта были взяты из xml-файлов описания, находящихся в подкаталогах каталога colorferet\data\ground_ truths\xml базы изображений лиц Color FERET. При обрезке изображений лиц типа fa и изображений лиц типа fb использовались координаты для изображений типа лиц fa. Поскольку не для всех изображений в файлах описаний данные координаты имеются, то в испытаниях использовались изображения 847 людей (всего 2 х 847 = 1694 изображения) из 993 людей, чьи изображения типа fa и fb имеются в базе Color FERET.

По результатам экспериментов были отобраны следующие методики.

1. Текстурные гистограммы с сегментацией по прямоугольным блокам.

Методика производит разложение изображения по базису Фрея-Чена [1] с последующим подсчетом пикселов, в окрестности которых наблюдается преобладание одного из типов текстуры: градиента (А), пульсации (B), линии (C) и лапласиана (D). Затем строится порядковая гистограмма, имеющая 24 колонки по количеству возможных перестановок данных четырех типов текстуры в порядке преобладания (от А > B > C > D до > B >А).

Метрика определяется следующим образом:

К U °.45

N М v _ -у

i=1j=1 м

где N - число гистограмм в наборе, M- число значений в гистограмме.

2. Атрибуты на базе инвариантов Цернике.

Методика строит для ракурса размерами

M х N его Фурье-образ:

1 M-1N-1

F(u, v) =-У УI[х, у] х

' ' ; м • N х=0 у=0

х • u у • v

х exp(-i2n(-+ -—)).

M N

Величины F(u, v) = a + ib - комплексные. Далее строим для образа спектр мощности -¡F(u,v) = 4a2 + b2; он инвариантен по отношению

к небольшим перемещениям объектов на исходном изображении [1]. Затем производится разложение полученного спектра мощности по ортогональному базису Цернике. Коэффициенты cmn такого разложения называются коэффициентами Цернике. По этим коэффициентам строятся инварианты следующего вида: c2mn + c^. Полученные инварианты устойчивы также и к повороту исходного изображения. Метрика сравнивает инварианты для двух изображений. Экспериментально выбрана метрика, дающая лучшие результаты:

- У + У

N '

где N - число инвариантов Цернике.

3. Частотная гистограмма с сегментацией по прямоугольным блокам.

Для ракурса строится его Фурье-образ. Затем осуществляется подсчет суммы интенсивностей, попадающих в различные интервалы частот, деленной на суммарную интенсивность Фурье-образа. Границы диапазонов частот выбраны экспериментально и составляют: 0, 5, 10, 15, 20, 25, 30, 40, 50, 70, 80, 90, 100, 110, 120. Используется следующая метрика для гистограмм:

N

R(x, у) = £ log10 о,) - log10 (yt) | .

1=1

Изображения предварительно подвергаются прямоугольно-блочной сегментации.

4. Частотная гистограмма с сегментацией по яркости.

Рассчитывается так же, как и методика № 3. Однако производится предварительная яркостная

сегментация изображений.

5. Полиномы Лежандра

Для изображения ЫхК моменты Лежандра вычисляются следующим образом [2]:

щ,1) = ±-^-¿¿рк(х)р«у) ■ 7(*> у) •

Для полиномов Лежандра используется метрика ЬТ Количество коэффициентов Лежандра определяется экспериментально для улучшения результатов распознавания.

6. Текстурные энергетические карты Лавса.

Механизм построения энергетических карт

Лавса подробно описан в [1]. Энергетические карты являются текстурными характеристиками изображений. С их помощью можно анализировать наличие различных текстурных примитивов на изображении (края, пятна, рябь). Всего энергетических карт девять. В качестве метрики между картами используется Ьг Эксперименты показали, что лучшие результаты распознавания дает карта Е5Е5.

Оптимизированные параметры и результаты отобранных методик показаны в табл. 2.

Результаты эксперимента

Точность распознавания. Эксперимент проводился в условиях наличия в базе эталона для тестовых ракурсов. Система выделяла эталон с консолидированным наибольшим весом. В 90 % случаев система поставила на первое место правильный эталон.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для оценки работы системы в целом использовался показатель «процент корректного распознавания», который определялся следующим образом. За счет подбора уровня критического

Таблица 2

Методика Надежность, % Вес (X; Основание экспоненты ОС,

Текстурные гистограммы с использованием базиса Фрея-Чена и сегментацией по прямоугольным блокам 75,56 0,229 1,8

Атрибуты на базе инвариантов Цернике 58,09 0,103 2

Частотная гистограмма с сегментацией по прямоугольным блокам 65,53 0,103 1,5

Частотная гистограмма с сегментацией по яркости 58,80 0,166 1,4

Полиномы Лежандра 74,50 0,166 1,3

Текстурные энергетические карты Лавса 87,13 0,233 1,8

i=1

Перечень методик и параметры их комбинирования

значения достигалось выравнивание ошибок первого и второго рода, т. е. находилась ошибка EER (equal error rate); вычитанием ее из значения 100 % находился процент корректного распознавания. В поставленном эксперименте процент корректного распознавания составил 85,5 %.

Предложена модульная конструкция системы распознавания, основанная на архитектуре, состоящей из «блоков конкурирующих методик».

Система апробирована на базе Color FERET. Полученные результаты, соотнесенные с аналогичными показателями, содержащимися в [4], говорят о достаточно высокой эффективности

модели, показанной в эксперименте. Предложенная архитектура позволяет достаточно полно использовать информацию, содержащуюся в двух сравниваемых фотографиях. Блоковый характер дает возможность гармонично объединять методики разных типов: текстурные и использующие другие принципы (свертки, 2-Б инварианты).

Представленная модель не противоречит принципу «распознаем как человек» [3]. Следует отметить, что методики, из которых компонуются блоки, универсальны; алгоритмы могут применяться не только для сравнения и идентификации лиц, но и для сравнения и поиска в базе любых образов.

СПИСОК ЛИТЕРАТУРЫ

1. Стокман, Д. Компьютерное зрение [Текст]/Д. Стокман, Л Шапиро.-М.: БИНОМ. Лаборатория знаний, 2006.-752 с.

2. Брилюк, Д. Распознавание человека по изображению лица и нейросетевые методы [Электронный ресурс]/Д. Брилюк, В. Старовойтов. http://neuroface. narod.ru/files/preprint_neuroface.rar

3. Пентланд, А.С. Распознавание лиц для интеллектуальных сред [Электронный ресурс]/А.С. Пентланд, Т. Чаудхари//Открытые Системы.-2000.-№ 03. http://www.osp.ru/os/2000/03/

4. Tan, X Face recognition from a single image per person: А survey [Текст]/Х. Tan, S. Chen, Z. Zhou [et al. ]//Pattern Recognition-Sept. 2006.-Vol. 39 (9). -P. 1725-1745.

5. Tan, X Recognition from a Single Sample per

Person with Multiple SOM Fusion [TeKCT]/X. Tan, J. Liu, S. Chen//Lecture Notes in Computer Science.-2006.-Vol. 3972/2006.-P. 128-133.

6. Struc, V. Using Regression Techniques for Coping with the One-Sample-Size Problem of Face Recognition [TeKCT]/V. Struc, R. Gajsek, F. Mihelic, N. Pavesic// Electrotechnical review. 2009.-Vol. 76.-№ 1-2. -P. 7-12.

7. Su, Y Adaptive Generic Learning for Face Recognition from a Single Sample per Person [TeKCT]/Y. Su, S. Shan, X. Chen [et al.]//CVPR 2010: 23rd IEEE Conf. on Computer Vision and Pattern Recognition.-San Francisco, USA. June 13-18, 2010.-P. 2699-2706.

8. Beymer, D. Face Recognition From One Example View [TeKCT]/D. Beymer, T. Poggio//Computer Vision, IEEE International Conf. 23 June 1995.-P. 500-507

УДК 025.4.03

И.С. Блеканов, Д.С. Бондаренко

ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДОВ ПОИСКА ТЕМАТИЧЕСКИХ СООБЩЕСТВ В ВЕБ-ПРОСТРАНСТВЕ

В течение последнего десятилетия наблюдается экспоненциальный рост числа Веб-документов в информационном Веб-пространстве. Только в открытой (индексированной) части Веб на сегодняшний день насчитывается более 20 млрд документов и более 200 млн Веб-сайтов, не говоря уже о скрытой (неиндексированной) части, в которой эти показатели больше в несколько раз [12].

Сложность задачи поиска в Веб-пространстве привела к появлению целого класса подходов к поиску, учитывающих различные особенности Веб-пространства, что расширило спектр возможностей поисковых систем. Большинство таких систем имеют систему Веб-краулеров [4], необходимых для построения индекса существенной части Веб и отслеживающих появление новых и обнов-

i Надоели баннеры? Вы всегда можете отключить рекламу.