№ 6 (36) 2011
И. И. Зиновьев, аспирант Владимирского государственного университета
им. А. Г. и Н. Г. Столетовых
Пакетный способ сравнения изображений
Необходимость проведения идентификации личности на основе фотографии возникает часто и повсеместно, однако решение задачи может осложняться действием ряда негативных факторов.
Введение
Одна из ключевых проблем распознавания людей по изображениям их лиц — сильное искажение последних при изменении условий освещения. По этой тематике существуют многочисленные публикации [7, 11], в которых выявляются причины трудностей и предлагаются различные подходы к их преодолению. Способы решения определяются типами алгоритмов, которые предполагается использовать для распознавания. Можно выделить два больших класса алгоритмов: основанные на вычислении структурных характеристик (инвариантов человеческого лица) и анализирующие изображение лица в целом.
Алгоритмы первого класса в основном опираются на такие методы, как сравнение эластичных графов, гибкие контурные модели лица, в основе которых лежат поиск характерных точек на изображении лица и анализ вычисленных на их основе инвариантов, и др. [1]. Если отрешиться от процесса построения инвариантов, эти методы, в целом, решают проблему сохранения устойчивости по отношению к изменениям освещения.
В качестве примеров методов, используемых алгоритмами второго класса, можно привести метод главных компонент, линейный дискриминантный анализ и нейросете-вые методы. Особенностью этих методов является то, что вариация освещения учитывается через множественность ракурсов, полученных при разных условиях эксперимента [5, 6, 10].
Проблема OSPP
Часто встречающаяся на практике задача — задача распознавания изображения на основе использования только одного хранимого эталона и только одной предъявляемой фотографии, которая получила название проблемы одного эталонного изображения (OSPP или SSPP) [3]. Применение для ее решения алгоритмов указанных выше типов удовлетворительного решения не дает. Поскольку точное построение элементов структуры лица по одной фотографии невозможно, практически исключается использование алгоритмов, относящихся к первому классу. С применением алгоритмов второго класса также возникают затруднения. Так, в случае применения нейро-сетевых методов исключается возможность обучения, а метод главных компонент хоть формально и может применяться, но дает слишком низкие результаты [8]. Таким образом, следует или искать новые подходы, или совершенствовать уже известные методы, например метрические. Проблемой, которая снижает эффективность применения метрического подхода, является слишком большой внутриклассовый разброс по отношению к межклассовому разбросу [4]. Разработке методов, позволяющих улучшить ситуацию, в указанном выше смысле, и посвящена данная статья.
Предлагаемый метод
Предлагаемый подход в определенном смысле основан на результатах ряда работ
№ 6 (36) 2011
по исследованию текстур. Так, еще в 90-х гг. прошлого века Перрона и Малик при изучении текстуры изображения применяли метод, основанный на анализе семейства изображений, полученного комбинацией искажений анализируемого изображения разными фильтрами [9]. Комбинации фильтров они подбирали интуитивно, зрительно анализируя получаемые образы (полосы, пятна и т. д.). Задачи, которые решались в этих работах, не связаны с распознаванием лиц. Однако можно сделать следующие практически значимые для нас выводы: во-первых, не следует усложнять используемые фильтры, достаточно применять линейные комбинации Гауссовых фильтров; во-вторых, по возможности нужно использовать такие методы фильтрации, которые генерируют зрительно понятные образы, т. е. опираться на интуицию. Этот опыт мы и намерены учитывать при распознавании лиц.
Карта — результат установления соответствия каждому пикселю некоторого числа. Если рассматривать ее как вектор, то это вектор очень большой размерности, например 256х256. Таким образом, любому изображению может быть сопоставлена его карта. Карты бывают исходными или производными. Исходная карта — карта яркостей. Производная карта — это любая трансформация исходной карты, например экваризация (выравнивание гистограммы, см. ниже), или экваризация с последующим гауссовым размытием и т. д. Существенно то, что при подобных трансформациях раз-
4 мерность карты, рассматриваемой как век-| тор, не меняется, т. е. остается неприемле-^ мо большой для решения задач распознала вания. Для уменьшения размерности будем | применять инструменты сканирования-сжа-;Б тия. Их много, но в статье используем: 1) § коэффициенты ДКП1 разложения; 2) коэф-^ фициенты разложения по полиномам Ле-| жандра. При этом применим только часть
5 всех возможных коэффициентов. Резуль-
£к 1 ДКП — дискретное косинусное преобразова-С ние.
тат сканирования назовем атрибутом. Атрибут представляет собой вектор существенно меньшей размерности; мы выбрали его размерность порядка 200. Сравнение изображений проведем через сравнение их атрибутов.
Перейдем к более формальному стилю изложения. Итак, пусть M — карта; это может быть как карта яркостей, так и некоторая производная от нее карта. Тогда описанные выше ее преобразования представим в следующем виде:
M^GjM^ЩМ)^a¡ = а(ЩМ));/ = 1....,m. (1)
Здесь через GiM обозначены размытия. Они получены из карты М при помощи набора Гауссовых фильтров, при этом будем считать, что G1M = М. Через ^¡М) обозначены любые преобразования карты, не изменяющие ее размерности, например свертка фильтрами Собеля или преобразование с использованием текстурных карт Лавса. Заметим также, что промежуточное преобразование М ^ Г(М) может быть и тождественным. Векторы а, полученные в результате сканирования, образуют в пространстве атрибутов линейное подпространство L = L(a1,..., ат).
Обозначим через е1,...,ет ортонормиро-ванный базис этого подпространства. Его можно получить, например, из а1,...,ат методом ортогонализации Грама — Шмидта [2]. Особо выделим одномерный случай М ^ г{М) ^ а = а(Г(М)); вектор а выделяет в пространстве атрибутов направление.
Для сравнения линейных подпространств атрибутов введем метрику dm п. Рассмотрим определитель Грама Г (а1,...,ак) = det((a(, а1» — определитель матрицы, составленной из скалярных произведений. Он равен квадрату К-мерного объема параллелотопа, построенного на векторах а1,...,ак. Естественно Г > 0; Г = 0 тогда и только тогда, когда векторы а1,...,ак линейно зависимы. Пусть мы имеем два пространства, построенных на наборах векторов а1,...,ат и ат+1,..., ат+п. Справедливо неравенство
Г(а1,...,ат+п ) - Г(а1,...,ат ) ' Г(ат+1,..., ат+п ).
№ 6 (36) 2011
Равенство возможно, когда:
1) пространства Г (а1,..., ат) и Г (ат+1,..., ат+п) ортогональны;
2) один из определителей равен нулю [2].
В приложениях описанный случай маловероятен, поэтому в качестве расстояния между пространствами Г (а1,..., ат), Г (агп+1,...,агп+п) можно взять
Гат+п )
dm„ =
(2)
Г (а1,..., ат ) ' Г (ат+1,...,ат+п )
В статье будут использованы только метрики d11 и d33, остановимся на них подробнее.
Метрика d11: пусть а,а' два направления, тогда расстояние между ними в вышеуказанной метрике задается формулой
d„(a, a') = sin(a, a') = * 11-
<a,a' )2
I a I2 • I a' I2
(3)
d3 3 (L,L) = (hooh11h22 + 2h01h02h12 ) -
- (h00hf2 + h11h02 + h22h021).
(4)
Метрика d33: пусть два трехмерных подпространства L и L' пространства атрибутов представлены своими ортонормированными базисами е1, е2,ез и е', е2',е3' соответственно (см. выше). Введем обозначения:
(еХ) = а^е') = а2;(е1,е3) = аз
^е') = Р^е е2) = Р2; (е2,е3) = рз
е е> = ?1; (ез,е2) = т2;(ез,е3) = Уз.
Определители матриц зхз, стоящие в знаменателе базовой формулы (2), равны 1, поскольку это просто единичные матрицы. Чтобы иметь возможность эффективно вычислять определитель матрицы 6х6, стоящий в числителе, введем обозначения:
^ =-(а-аI +р, рI + у-уI);i ф I
^ = 1-(а2 +Р2 + У2) i, I = 1,2, з.
Непосредственно из формул следует hj| = h|j. С учетом этого получаем выражение для вычисления определителя, стоящего в числителе базовой формулы, а, следовательно, и расстояния между соответствующими подпространствами в метрике d33:
со о
л
Поясним смысл метрики dm n. Пусть a, a' ^ два направления, взятые соответственно из подпространств L и L'. Вычислим расстояние между ними в метрике d11 (1). Минимум подобных расстояний по всем возможным парам подобных направлений и есть расстояние между подпространствами атрибутов в метрике dm,n. Из этого вытекает, что добавление искажений в принципе не приводит к увеличению расстояния. Таким образом, необходимо оценить относительную динамику уменьшения внутриклассового и межклассового расстояния при различных конкретных вариантах применяемых трансформаций. С этой целью был проведен эксперимент, описанный далее.
Апробирование метода
Используя базу изображений человеческих лиц The Yale Face Database B [7], был составлен набор из 100 изображений по следующему принципу. Для каждого из 10 представленных в базе людей (классов) отобрали 10 фронтальных изображений (экземпляров) таким образом, чтобы вариация положения источника освещения достигала 20 градусов.
Основа всех дальнейших построений — исходная карта. Сформулируем требования, которые к ней предъявляются. Сначала производится автоматизированный поиск центров глаз и рта. Затем, используя найденные характерные точки, выполняется поворот, масштабирование и кадрирование изображения. В результате получаем строго вертикальные изображения лиц фиксированной ширины в 240 пикселей (140 пикселей между центрами глаз с отступами по 50 пикселей в каждую сторону) и различной для разных классов высоты (отступы по 50 пикселей вверх от центров глаз и вниз от центра рта). Разница в высоте получаемых изображений является средством, усиливающим различия между классами. Полученные
97
№ 6 (36) 2011
в результате исходные карты приведены на рис. 1 и 2.
Рис. 1. Исходные карты разных классов с одинаковым освещением
Алгоритм преобразований (1) в зависимости от используемого промежуточного преобразования М ^ Г(М) и инструментов сканирования подразумевает существование разных техник своей реализации. В таблице 1 приведены сформированные для исследования техники.
Опишем суть эксперимента. Для каждой исследуемой техники предпринимается следующая последовательность шагов:
1. Берется карта яркости изображения. Далее применяется выбранная техника. Расстояние между полученными после применения техники векторами атрибутов рассчиты-
вается по формуле (3). Назовем такой алгоритм работы технологией 1х1.
2. Вводятся исследуемые трансформации (табл. 2). Объединение трех трансформаций назовем пакетом трансформаций. Правил составления пакетов трансформаций нет. Этот процесс выполняется интуитивно на основе простого перебора. Строятся искажения путем применения пакета трансформаций к карте яркости изображения. Далее применяется техника такая же, как в технологии 1х1. Расстояние между пространствами векторов атрибутов рассчитывается по формуле (4). Назовем этот алгоритм технологией 3х3.
3. Для каждого пакета трансформаций оценивается относительное уменьшение внутриклассового и межклассового расстояний, полученных по технологиям 1х1 и 3х3.
Такой эксперимент позволит оценить относительную эффективность техники 3х3 по сравнению с техникой 1х1, а заодно определить рекомендации по комбинации исследуемых техник и пакетов трансформаций.
1
I £
0
1 £
со
8-мз о
и §
и
и £
£
Рис. 2. Исходные карты одного класса с разным освещением Исследуемые техники
Таблица 1
Идентификатор техники Название техники Преобразование М®t (М) Инструмент сканирования
1 ДКП Тождественно Коэффициенты ДКП
2 Полиномы Лежандра Тождественно Коэффициенты полиномов Лежандра
3 Карты Лавса Преобразование с использованием текстурных карт Лавса Коэффициенты ДКП
4 Маски Собеля Свертка фильтрами Собеля Коэффициенты ДКП
98
№ 6 (36) 2011
Таблица 2 Исследуемые трансформации
Идентификатор трансформации Используемая карта Фильтр Гаусса
1 Карта яркости Нет
2 Экваризация 642 Нет
3 Экваризация 128 Нет
4 Карта яркости С радиусом 1
5 Карта яркости С радиусом 2
6 Карта яркости С радиусом 3
7 Экваризация 64 С радиусом 3
8 Карта яркости С радиусом 4
9 Экваризация 64 С радиусом 4
10 Карта яркости С радиусом 5
11 Экваризация 64 С радиусом 5
12 Карта яркости С радиусом 6
2 Экваризация N — это вариант стандартного алгоритма выравнивания гистограммы. Гистограмма изображения разбивается на N равных участков. Значения интенсивностей пикселей изображения модифицируются таким образом, чтобы число пикселей, принадлежащих полученным участкам гистограммы, было приблизительно одинаковым.
Рис. 3. Контуры изображения, полученные с использованием фильтров Гаусса
Поясним выбор преобразований, которые используются в исследуемых трансформациях. Как упоминалось выше, в работе мы ориентируемся на зрительное восприятие. Так, если взять разность двух изображений, полученных размытием фильтрами Гаусса с соседними радиусами, то результат будет содержать контуры исходного изображения (рис. 3). А именно в контурах изображения содержится значительная часть характеризующей его информации, которая к тому же относительно устойчива к изменениям условий освещения. При вычислении метрики dm п по формуле (4) возможна похожая ситуация, т. е. учет контуров изображений при расчете расстояния между пространствами векторов их атрибутов.
Благодаря своим свойствам экваризация приводит к тому, что большие однородные области, например лицо человека, будут содержать больше различных значений интенсивности (рис. 4). Следовательно, они будут иметь более выраженную текстуру, что
Рис. 4. Результат экваризации изображения
немаловажно для процесса анализа изображения. Кроме того, применение данного фильтра обеспечит нормализацию (стандартизацию) представления анализируемых изображений.
Рассмотрим процесс оценки относительного уменьшения внутриклассового и межклассового расстояний для разных пакетов трансформаций. После применения технологии 1х1 ко всему набору изображений получим линейный набор их векторов атрибутов Ц1,а1,...,аП}, где п — число классов, п = 1, 2, ... N, I — число экземпляров класса, I = 1, 2, ..., М. Среднее расстояние между векторами атрибутов изображений
Xd1x1(an1, ап2 )
одного класса равно пс/;~ = ■
Р
где Р — число возможных комбинаций двух векторов атрибутов внутри класса, п1 = п2. Усредним полученные значения для всех
—-. Среднее расстоя-
классов с/1™ =
N
ние между векторами атрибутов изображений разных классов получим по формуле
X С1х1(ап1, аП2_)
, где Q — число воз-
/оит = 1x1
Q
можных комбинаций двух векторов атрибутов между классами, п1 ф п2. Отношение
К1Х1 =
с/0
показывает, во сколько раз из-
меренное по технологии 1х1 межклассовое расстояние больше внутриклассового. Ана-
0
1
=5
99
№ 6 (36) 2011
логично для каждого пакета трансформаций
Соит
т по технологии 3х3 получим К"пх3 = ■ 3 х 3
Таким образом, отношение Кт =
К"
I \0
К
и3 х 3
3 по-
1
I £
0
1 £
со
8-мз о
и §
и
и £
£
зволит оценить технологии 1х1 и 3х3 по параметру относительного межклассового расстояния.
Полученные результаты
По итогам проведенного эксперимента удалось достичь увеличения относительного межклассового расстояния, измеренного по технологии 3х3, по сравнению с технологией 1х1 более чем в 7 раз (рис. 5). Полученный результат подтверждает практическую применимость предложенного метода. Например, в задаче распознавания полученные результаты означали бы уменьшение вероятности пересечения векторов атрибутов разных классов, т. е. неправильного распознавания.
В таблице 3 приведены пакеты трансформаций, показавшие лучшие результаты по параметру Кт для каждой исследуемой техники. Отметим, что наибольшего увеличения данного показателя удалось достичь путем использования техники «Полиномы Лежандра» со следующим пакетом трансформаций:
1. Экваризация 64.
2. Экваризация 64 с последующим размытием фильтром Гаусса с радиусом 3.
3. Размытие фильтром Гаусса с радиусом 6.
Анализируя табл. 3, можно заметить, что для разных техник перечень наиболее применимых трансформаций не совпадает.
Рис. 5. Наибольшее увеличение межклассового расстояния относительно внутриклассового для каждой исследуемой техники
Для анализа этого факта была построена гистограмма процентного распределения трансформаций в 10 наиболее эффективных по параметру Кт пакетах (рис. 6). Из него видно, что техники «ДКП» и «Полиномы Лежандра» используют практически одинаковые трансформации, например эквариза-ция 64 или экваризация 64 и последующее размытие фильтром Гаусса с радиусом 3. Техника «Карты Лавса» оказалась единственной, которая эффективно использует исходную карту яркостей без модификаций в совокупности с экваризацией 128. Следует отметить, что только техника «Маски Собеля» из всех исследованных техник может эффективно применяться без использования экваризации исходной карты яркостей.
Таким образом, с целью достижения наилучших результатов в процессе сравнения изображений перед применением любой новой техники, сформированной на основе предложенного алгоритма преобразований (1), следует тщательно подобрать используемый пакет трансформаций.
Таблица 3
Результаты эксперимента
Идентификатор техники Идентификатор трансформации 1 Идентификатор трансформации 2 Идентификатор трансформации 3
1 2 7 12 6,121
2 2 7 12 7,38833
3 2 5 8 6,02564
4 1 3 10 4,07163
100
№ 6 (36) 2011
г
_1
— Ед □ Л ii IT Tb
J in Infill Im I .11 L 1 L
□ дкп
□ Полиномы Лежандра
■ Карты Лавса
■ Маски Собеля
1 2 3 4 5 6739 10 11 12
Идентификатор трансформации
Рис. 6. Процент применения исследуемых трансформаций в пакетах, показавших лучшие
результаты по параметру Кт
Заключение
В работе предложен метод сравнения двух изображений, основанный на анализе расстояний между пространствами векторов атрибутов сравниваемых изображений. Пространства строятся по предложенному в работе алгоритму, использующему размытие анализируемых изображений фильтрами Гаусса.
Задача нахождения расстояния между пространствами векторов не тривиальна, поэтому для ее решения был разработан алгоритм на основе вычисления определителя Грама.
Результаты проверки алгоритма подтвердили его работоспособность и эффективность применения для практического решения задач распознавания в условиях, когда число хранимых в базе эталонных изображений ограничено одним.
Список литературы
1. Брилюк Д., Старовойтов В. Распознавание человека по изображению лица и нейросе-тевые методы [Электронный ресурс] URL: http://neurofacw.narod.ru/preprint_neuroface.rar.
2. Виноградов И. М. Математическая энциклопедия. Т. 1. М.: Советская энциклопедия, 1977. C. 1085 - 1086.
3. Прокошев В. Г., Рожков М. М, Шамин П. Ю. Проблема автоматического распознавания лиц с одним эталонным изображением // Научно-технические ведомости СПбГПУ. Серия «Информатика. Телекоммуникации. Управление». 2010. № 5. С. 13 - 18.
4
6
7.
Adini Y, Moses Y, Ullman S. Face Recognition: The problem of Compensating for Changes in Illumination Direction // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. 19 (7). P. 721- 732. Basri R, Jacobs D. Lambertian reflectance and linear subspaces // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2003. 25 (2). P. 218 - 233. Belhumeur P., Hespanha J., Kriegman D. Eigenfaces vs. fisherfaces: recognition using class specific linear projection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. 19 (7). P. 711- 720. Georghiades A. S., Belhumeur P. N., Kriegman D. J. From Few to Many: Illumination Cone Models for Face Recognition under Variable Lighting and Pose // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. 23 (6). P. 643 - 660.
8. Pechenizkiy M., Puuronen S., Tsymbal A. The impact of sample reduction on PCA-based feature extraction for supervised learning // Proceedings of the 2006 ACM Symposium on Applied Computing (SAC), Dijon, France, 2006. P. 553 - 558.
9. Perona P., Malik J. Scale space and edge detection using anisotropic diffusion // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1990. 12 (7). P. 629 - 639.
10. Shashua A., Riklin-Raviv T. The Quotient image: class-based re-rendering and recognition with varying illumination conditions // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. 23 (2). P. 129 - 139.
11. Zou X., Kittler J., MesserK. Illumination invariant face recognition: a survey // Proceedings of IEEE Conference on Biometrics: Theory, Applications and Systems (BTAS). Crystal City, VA, 2007. P. 113 - 120.
1
SS SS
101