№1(31)2011
М. М. Рожков
Использование текстурных карт Лавса и дискретного косинусного преобразования в задаче распознавания лиц
Актуальность публикации обусловлена растущей востребованностью технологий биометрической идентификации. Их эффективность в значительной степени определяется алгоритмами, на базе которых функционируют соответствующие аппаратно-программные комплексы. Один из оригинальныхподходов кданномувопросупредлагаетавтор статьи.
Введение
В настоящее время все более широкое распространение получают технологии биометрической идентификации людей, что вызвано, с одной стороны, возрастающей потребностью в таких технологиях, с другой — расширяющимися технологическими возможностями в этой сфере. Рост эффективности технологий биометрической идентификации обеспечивается увеличением производительности вычислительной техники. Это обстоятельство дает возможности осуществлять быстрый поиск в больших базах данных биометрических признаков и позволяет в реальном времени реализовывать все более сложные и эффективные алгоритмы.
Методы идентификации, основанные на распознавании лиц, всегда были в центре внимания ученых в силу своей «неагрессивности» по отношению к объектам. Степень точности существующих алгоритмов автоматического распознавания лиц зависит от количества фотографий-ракурсов распознаваемых людей, используемых в системе — так называемых эталонных изображений {sample). Чем меньше в системе эталонных изображений для каждого человека, тем ниже точность ее работы.
Ситуация, когда система использует только одно эталонное изображение, приводит к значительному снижению точности
распознавания. Данная проблема в научном сообществе называется проблемой одного эталонного изображения. В англоязычных источниках она, как правило, обозначается аббревиатурой OSPP {«One Sample per Person») [3]. Среди задач автоматического распознавания лиц проблема OSPP занимает особое место.
И в этом направлении в настоящее время ведутся многочисленные исследования. Эффективность решения задачи OSPP алгоритмами, рассчитанными на обучение с использованием многих ракурсов, представлена в табл. 1. Алгоритмы тестировались на разных базах изображений (AR и FERET) с различным количеством лиц людей. Для распознавания использовались фотографии персон, которые заведомо есть в базе. Корректность распознавания показывает, насколько эффективен алгоритм для поиска в базе фотографии того же человека.
Как видно из табл. 1, корректность работы алгоритмов для решения проблемы OSPP невысока. Поэтому в настоящее время активно ведутся исследования, направленные на повышение корректности распознавания. Производятся попытки создания новых или модификации имеющихся алгоритмов для разрешения проблемы. Как правило, разрабатываемые методы очень сложны и требуют большого количества вычислений.
Цель проведенного автором исследования заключается в попытке применить стан-
№1(31)2011
Таблица 1
Сравнение алгоритмов решения задачи OSPP
Алгоритм База изображений Количество персон Корректность распознавания, %
Метод вероятностного подпространства AR 100 82,3
Двумерный метод главных компонент AR 100 74,8
Дискриминантный метод главных компонент FERET 256 72,0
Компонентный линейный дискриминантный анализ FERET 70 78,6
Источник: Tan X., Chen S., Zhou Z., Zhang F. Face Recognition from a Single Image per Person: A Survey // Pattern Recognition. The Journal of the Pattern Recognition Society. 39 (2006). P. 1725-1745.
дартные инструменты обработки изображений (дискретное косинусное преобразование и текстурные карты Лавса) для решения задачи распознания лиц.
Постановка задачи
Для распознавания имеются два набора фотографий лиц людей. В них содержатся фотографии разных людей [2]. Однако для каждого лица в одном наборе есть соответствующее лицо этого же человека в другом наборе. Первый набор назовем эталонной базой, а второй — тестовой базой. Далее будем называть фотографию человека ракурсом. Множество ракурсов разбивается на непересекающиеся классы. Если некоторые из них являются фотографиями одного и того же человека, то считаем, что эти ракурсы принадлежат одному классу. Таким образом, для каждого класса имеется ракурс как в эталонной базе, так и в тестовой.
Задача состоит в том, чтобы для каждого ракурса из тестовой базы найти ракурс того же класса из эталонной базы.
Чтобы сравнивать ракурсы, предварительно их определенным образом преобразуют. Из изображения выделяют некоторые величины, по которым в дальнейшем происходит оценка степени похожести ракурсов. Набор таких величин для ракурса будем на-
зывать образом ракурса. Зададим на множестве образов метрику. Метрика — некоторая функция, которая ставит в соответствие двум образам число. Назовем это число «расстоянием» между ракурсами.
Технология распознавания основана на методике выбора ближайшего элемента. Суть ее в следующем. Будем последовательно рассматривать ракурсы из тестовой базы, для которых вычислим «расстояние» до каждого ракурса из эталонной базы. Ракурс с минимальным «расстоянием» назовем ближайшим ракурсом. Таким образом, для каждого тестового найдем ближайший эталонный ракурс.
В рамках технологии распознавания ближайший ракурс будет считаться «самым похожим». Если тестовый и ближайший эталонный ракурсы принадлежат одному классу, то распознавание прошло успешно. Если же они из разных классов, то имеет место ошибка распознавания.
Описание процедуры построения образа
Для построения образа ракурса будем использовать текстурные энергетические карты Лавса [1].
Вводятся следующие типы векторов:
L5 (level - уровень) = [14 6 4 1]; (1) Е 5 (edge - край)= [-1 - 2021]; (2)
№1(31)2011
S 5 (spot - пятно) = [-1020 -1]; (3) Я5 (ripple - рябь)=[1 - 4 6 - 41]. (4)
Если мы рассматриваем ракурс как набор векторов по оси х или по оси у, то векторы L5, Е5, S5, Я5 при использовании их в качестве маски позволяют выделить такие характерные особенности изображения вдоль выбранной оси, как рябь, небольшое пятно, некоторая граница, общий уровень яркости. Все векторы, за исключением L5, нормированы, сумма их элементов равна 0.
При помощи комбинации этих векторов мы получаем маски, называемые масками Лавса. К примеру, маска E5L5 получается умножением векторов (Е5)7 • Lb, где индекс Г означает транспонированный вектор:
-1" -1 - 4 - -6 - 4 -1
-2 -2 - 8- -12 - 8 - 2
0 х [14641] = 0 0 ООО
2 2 8 12 8 2
1 1 4 6 4 1
значение элементов которой близко к нулю (возможны и отрицательные элементы).
К полученной после такой обработки матрице применяем все 16 масок Лавса размерности 5x5. Обозначим через Р^ [/',/] результат фильтрации пикселя [/',/] с использованием ^-ой маски. Тогда энергетическая карта пикселя [г, с] определяется выражением:
W,
А—-
2
Ек [г,с ] = £ £ \Fk [i, j J,
(5)
W, . . N, I=г—L у =A—L 2 2
Таким же образом получаем остальные 15 масок(всего их 16).
Вводим параметр и определяем «окно интереса» размерами М,- х М,- с центром в пикселе [г, с]. Далее последовательно передвигаем «окно интереса» по изображению. Каждый раз мы вычисляем среднее значение яркости по окну и вычитаем это среднее от значения яркости в каждом пикселе всего окна, т.е. получаем матрицу той же размерности, что и изображение,
Проводим такую процедуру для всех пикселей исходного ракурса. В результате получаем некоторое новое изображение того же размера, что и ракурс. Это новое изображение и есть энергетическая карта Лавса.
Применяя все 16 масок Лавса, получаем 16 карт Лавса. Некоторые карты получены за счет применения симметричных масок (например, 1_ЪЕЪ и ЕЫ5). Из таких карт строится средняя карта. Яркость каждого ее пикселя есть среднее арифметическое яркостей соответствующих пикселей исходных карт.
В результате получаем 9 текстурных энергетических карт Лавса:
L5E5 L5S5 L5R5
Е5L5'S5L5'R5L5
Е 5 Е 5,
Е555 Е5ñ5,S5S5,^,fí5fí5.
(6)
S5E5 R5E5
R5S5
Изображение некоторых текстурных энергетических карт Лавса представлено на рис. 1.
а) исходное изображение
б) карта Лавса
Е 5S5 S5E 5
в) карта Е5Е5
Рис. 1. Текстурные энергетические карты Лавса
100
№1(31)2011
Две однотипные карты Лавса, построенные для различных ракурсов, будем использовать для нахождения расстояния между ракурсами. Карты попиксельно сравним, применяя метрику
Однако карты Лавса — довольно громоздкие конструкции для осуществления по ним быстрого сравнения. Кроме того, они занимают много места в оперативной памяти компьютера. Для решения этого вопроса предлагается использовать дискретное косинусное преобразование (ДКП), примененное к картам Лавса.
С помощью дискретного косинусного преобразования осуществляется переход от представления картинки в виде совокупности пространственных волн к ее спектральной интерпретации. Каждая пространственная волна раскладывается на множество гармоник. ДКП преобразует исходное изображение, рассматриваемое как матрица, в матрицу частотных коэффициентов соответствующего размера.
Для изображения МхЫ дискретное косинусное преобразование имеет следующий вид:
С(и,у)=а(и)а(у)-
М- 1М-1
•XX/(х,у)с08
х=0 у=0
(2 х+1)иИ ((2 у+1уя
у ' соэ
2 М
2Ы
(7)
где / (х, у) — яркость пикселя (х, у).
Величины С{и, V) образуют матрицу ДКП-коэффициентов. В ней низкочастотные элементы концентрируются вблизи начала координат, а высокочастотные — в противоположном углу.
Дискретное косинусное преобразование используется в алгоритмах сжатия изображений. По его низкочастотным коэффициентам можно восстановить общие черты исходного изображения, по высокочастотным — мелкие детали. Поэтому для сравнения ракурсов целесообразно применять низкочастотные ДКП-коэффициенты. Оптимальное количество коэффициентов
определим опытным путем. Для вычисления «расстояния» между ракурсами будем использовать метрику Ц.
Значимых ДКП-коэффициентов будет гораздо меньше, чем пикселей в картах Лавса, что сделает алгоритм более быстрым и менее требовательным к вычислительным ресурсам.
Таким образом, для вычисления расстояния между ракурсами автор пользуется двумя способами:
1) построение для ракурсов карт Лавса и попиксельное вычисление разницы в картах при помощи метрики
2) построение для ракурсов карт Лавса с последующим применением к картам дискретного косинусного преобразования и расчетом разницы между низкочастотными ДКП-коэффициентами при помощи метрики Ц. (Оптимальное количество коэффициентов в данном случае определяется экспериментально).
Постановка эксперимента
Испытания проводились на элементах из набора fafb базы изображений лиц СОШЯЕЕЯЕТ. Тестовые и эталонные варианты были получены из оригинальных изображений путем вырезания области, ограниченной прямоугольником: от 50 пикселей левее левого глаза до 50 пикселей правее правого глаза; от 50 пикселей выше верхнего глаза до 50 пикселей ниже рта. Координаты глаз и рта взяты из хт1-файлов описания, находящихся в подкаталогах базы СОШЯЕЕЯЕТ. При обрезке изображений лиц типа fa и типа ^ использовались координаты для типа fa.
Поскольку не для всех элементов базы в файлах описаний имеются данные координаты, то из 993 людей, чьи изображения типа /а и /Ь представлены в базе СОШЯЕЕЯЕТ, в испытаниях использовались 847 (всего 2 х 847 = 1694 изображения).
В процессе исследования ставились два эксперимента:
• Для тестовых и эталонных ракурсов строились все девять карт Лавса. Далее,
л 101
-N ПРИКЛАДНАЯ ИНФОРМАТИКА
№1(31)2011 ' -
последовательно сравнивая карты для каждой пары ракурсов, находили «ближайший» эталонный ракурс для тестового. Если тестовый ракурс и ближайший эталонный принадлежали одному классу, то фиксировалось успешное распознавание. Количество успешных распознаваний подсчитывалось, на основании чего была определена карта, по которой достигалось наилучшее распознавание.
• Для каждого ракурса по результатам предыдущего эксперимента строилась карта Лавса, дающая лучший результат распознавания. К картам применялось дискретное косинусное преобразование. Затем производилось сравнение ракурсов при помощи метрики Ц, использующей низкочастотные ДКП-коэффициенты. Количество коэффициентов менялось для определения их оптимального количества. Каждый тестовый ракурс сравнивался с эталонным. В результате для каждого тестового находился «ближайший» эталонный ракурс. Если оказывалось, что они принадлежат к одному классу, то фиксировалось успешное распознавание.
В обоих экспериментах корректность распознавания рассчитывалась как отношение числа успешных распознаваний к общему количеству попыток распознавания.
Полученные результаты
Итак, на рассматриваемой базе в первом эксперименте для ракурсов строились текстурные карты Лавса. Сравнение производилось попиксельно. Для каждой карты подсчитывалось количество корректных распознаваний. Как показал эксперимент, результаты которого представлены на рис. 2, наилучшие показатели (корректность распознавания 86,78%) дала карта Е5Е5. В целом распознавание с использованием любой
Е 5S5
из трех следующих карт (Е5Е5,-, S5S5)
S5E 5
показывает успешные результаты. На карте Е5Е5 результат весьма высок в рамках проблемы OSPP [3].
Для второго эксперимента была выбрана карта Е5Е5. К этой карте применялось преобразование ДКП. Число используемых для сравнения коэффициентов изменялось
Рис. 2. Результаты распознавания при помощи карт Лавса
№1(31)2011
^
в S i га ш о
х
и о с
U
га
От
.я
5
о
X Ii
tu ES-О.
О ^
84,13%
-—'
f
¡
/
J
171 253 325 406 496 S95 70Í 820 946 1081
Количество ДКП-коэффициентов
Рис. 3. Зависимость корректности распознавания по карте Е5Е5 от количества ДКП-коэффициентов
для определения их оптимального количества. Результаты распознавания в зависимости от количества коэффициентов представлены на рис. 3.
Заключение
Как видно из приведенного выше графика, применение ДКП к лучшей карте Лавса немного снизило корректность распознавания. Для оптимального количества коэффициентов (1081) корректность распознавания составила 84,18%, что на 2,5% ниже, чем в случае попиксельного сравнения самих карт. Однако для карт Лавса размером 256x256 пикселей количество сравниваемых величин составляет 65536, что в 60 раз больше, чем для ДКП-коэффициентов. Следовательно, ДКП, примененное к лучшей карте Лавса, хотя немного и проигрывает в точности, однако, значительно выигрывает в скорости и может более успешно использоваться в алгоритмах реального времени.
Итак, в задаче распознавания лиц с одним эталонным изображением (OSPP — One Sample per Person) текстурные карты Лавса показали достаточно высокие результаты.
Корректность распознавания на базе лучшей карты (Е5Е5) превышает показатели ряда существующих алгоритмов, используемых в рамках данной задачи [3]. Недостатком метода являются слишком объемные атрибуты (собственно карты), что затрудняет осуществление быстрого поиска в больших базах. Но этот недостаток успешно решается путем применения дискретного косинусного преобразования и выбора наиболее значимых низкочастотных коэффициентов преобразования.
Описок литературы
1. Стокман Д., Шапиро Л. Компьютерное зрение. М.: «БИНОМ. Лаборатория знаний», 2006.
2. Гэлубев А. С., Звягин М. Ю., Квасов Д. С., Коко-рин И. Г., Зиновьев И. И., Шамин П. Ю. Аппаратно-программный комплекс автоматической регистрации и биометрической идентификации людей // Материалы XVII Всероссийской научно-методической конференции «Телематика 2010». http:// tm.lfmo.ru/tm2010/db/doc/get_thes.php?ld=210.
3. Tan X., Chen S., Zhou Z, Zhang F. Face Recognition from a Single Image per Person: A Survey // Pattern Recognition. The Journal of the Pattern Recognition Society. 39 (2006). P. 1725-1745.
i 103