Применение оценки One-Shot Similarity к задаче распознавания пола человека по изображению

Минин Петр Евгеньевич

МИНИН1 Петр Евгеньевич

ПРИМЕНЕНИЕ ОЦЕНКИ ONE-SHOT SIMILARITY К ЗАДАЧЕ РАСПОЗНАВАНИЯ ПОЛА ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ

В данной работе рассматривается, применение оценки One-Shot Similarity на основе линейно-дискриминантного анализа к задаче распознавания пола человека по фотографии лица. Разработан алгоритм, выделения лица из изображения, позволяющий получить более стабильное расположение черт, лица в рамках кадра, чем. результат, алгоритма Виолы-Джонса. Ключевые слова: One-Shot Similarity, черты, лица, алгоритм,, распознавание, изображение, алгоритм. Виолы-Джонса.

This paper deals with, the use of the One-Shot Similarity measure based on linear-discriminant analysis to solve the problem, of gender recognition by face image. An. algorithm of face extraction from, the image is developed. It provides a more stable arrangement of facial features within the frame of the picture than the result provided by the Viola-Jones algorithm. Keywords: One-Shot Similarity, facial features, algorithm, recognition, image, Viola-Jones algorithm.

Распознавание изображений, в частности распознавание лиц, является актуальной научной задачей. Алгоритмы идентификации и классификации лиц находят свое применение в таких сферах, как безопасность, человеко-машинные интерфейсы, а также маркетинг. В настоящий момент задача распознавания пола человека по изображению его лица является открытой научной проблемой. Результаты обзора недавних работ по этой тематике [1] приведены в табл.1. В рамках проекта таргетированной рекламы также уже предпринималась попытка создания системы классификации, но выбранный подход себя не оправдал, и в ходе предварительного исследования было выбрано новое направление — применение оценки One-Shot Similarity (OSS) [2], в последние годы показывавшей хорошие результаты, включая применение в коммерческом продукте Face.com [3]. Данная статья посвящена описанию разработки методики применения подхода One-Shot Similarity к задаче классификации лиц по полу.

Рис. 1. Примеры изображений из базы LFW

Исходные данные

Изображения для анализа предполагается снимать в реальном времени с веб-камеры, установленной на рекламном носителе. В связи с тем, что цвет практически не несет информации о поле, а обрабатывать цветные изображения сложнее с точки зрения алгоритмов, для обработки использовались черно-белые изображения.

В качестве данных для обучения и проверки алгоритма использовались изображения из общедоступной базы изображений ЬБШ [4]. Эта база содержит изображения, снятые без ограничений, поэтому имеют место значительные различия в позе, эмоциях и освещении, а также наличие различных помех (рис. 1).

В связи с предназначением разрабатываемой системы для обучения и про-

1 - НИЯУ «МИФИ», студент

Таблица 1. Обзор недавних работ по теме распознавания пола по изображениям лиц

Работа Набор данных Подход Результат (%)

Кол-во Ограниченный Открытый Дескрипторы Классификация

Moghaddam and Yang, 2002 1755 да да «сырые» пиксели SVM 96,62

Shakhnarovich et al., 2002 3500 нет нет Хаар-подобные признаки Adaboost 79,0

Lapedriza et al., 2006 5326 да да банки фильтров на основе фрагментов Boosting 91,72

Makinen and Raisamo, 2008 500 да да «сырые» пиксели SVM 86,54

Hadid and Pietikainen, 2009 4000 видео да да дескрипторы ЬБР SVM 91,0

Gao and Ai, 2009 10100 нет нет Хаар-подобные признаки вероятн. деревья бустинга 95,51

Caifeng Shan, 2012 7443 частично частично улучшенные дескрипторы ЬБР SVM 94,81

/

Г

верки алгоритма использовалась упрощенная выборка из базы, содержащая лица с поворотом в пределах 45°, без экстремальных выражений лица (например, при сильном напряжении). На рис. 2 приведены примеры изображений, которые не были включены в выборку. Всего было выбрано 800 изображений: 400 женщин и 400 мужчин. Информации о поле в базе нет, поэтому понадобилось ручное разделение мужчин и женщин.

Предварительная обработка

Исходные изображения, как полученные с веб-камеры, так и взятые из баз снимков, содержат помимо лиц много посторонней информации, поэтому для классификации человека требуется выделять область, содержащую

только лицо. Кроме того, одна из задач предварительной обработки данных — это компенсация поворота лица в плоскости изображения, устойчивая также к поворотам в других плоскостях. Разрабатываемая система является автономной, поэтому выделение лица и ключевых точек должно происходить в автоматическом режиме. Поиск лица

Первым этапом выделения требуемой для анализа области является поиск лица алгоритмом Виолы-Джонса [5]. Алгоритм работает достаточно быстро, чтобы обрабатывать им каждый кадр видеопотока с веб-камеры в разрешении ИБ, при стандартных данных обучения (каскадах Хаара) обнаруживает большинство лиц, достаточно прямо смотрящих в камеру, а также дает мало ложных срабатываний при условии оп-

ределения диапазона размеров искомых лиц. Однако области, обнаруживаемые этим алгоритмом, не лучшим образом подходят для классификации, поскольку они могут содержать часть фонового изображения или же, наоборот, не вмещать лицо целиком. Кроме того, лица могут быть повернуты в плоскости изображения, как показано на рис. 3. Эти факторы вносят неопределенность в расположение черт лица внутри выделенной области. Более точное выделение области лица

В связи с проблемами, описанными выше, появилась задача выделения более точной области лица. Основными требованиями являются:

♦ исправление поворота лица в плоскости изображения;

♦ вырезание прямоугольника, включающего все лицо и не больше.

Наиболее распространенный подход к задаче исправления поворота лица основан на приведении линии, соединяющей глаза, к горизонтали. Однако, как показано на рис. 4, такой подход работает неверно в случае, если кроме поворота в плоскости изображения имеют место повороты в других плоскостях. Чтобы добиться верного результата, был разработан алгоритм, основанный на пропорциях среднестатистического лица. Пропорции оценивались в отношении положения глаз и рта, поскольку эти черты лица относительно хорошо обнаруживаются автоматиче-

ш 7Ш £ >

в ^

1« и - 1 ш

^Г* Л

т '♦»■».

Рис. 3. Примеры результатов поиска лиц алгоритмом Виолы-Джонса

Рис. 4. Ошибочная работа выравнивания лица, основанного на информации о положении глаз, с отмеченным углом ошибки (слева) и желаемый результат

в данном случае (справа)

ски и лежат близко к плоскости лица, в отличие от носа (то есть пропорции, связанные с ними, более устойчивы к поворотам головы). Поиск глаз и рта производится с помощью алгоритма Виолы-Джонса с каскадами, обученными соответственно на левый глаз, правый глаз и рот. Для сокращения времени поиска и для предотвращения ложных срабатываний каждая часть ищется только в определенной области лица, как показано на рис. 5. На рис. 5 черная рамка — это результат поиска лица, белые рамки — области поиска черт лица, синие рамки — результаты поиска.

Иногда в области поиска несколько прямоугольников распознаются как глаз или рот, в этом случае выбор осуществляется по принципу лучшего соответствия образцовым пропорциям.

На рис. 6 представлена модель лица, по которой проводились измерения образцовых пропорций. Синими точками отмечены центры глаз и рта, в среднем получаемые алгоритмом Виолы-Джонса. Светлая область — желаемый результат выделения. В итоге используются следующие соотношения:

♦ расстояния от правого и левого глаза до рта равны;

♦ отношение расстояния между глазами к расстоянию от глаза до рта равно 0,8;

♦ ширина искомой области равна двум расстояниям между глазами;

♦ высота искомой области равна 1,7 расстояния от точки между глазами до рта;

♦ ожидаемое (в среднем) соотношение сторон искомой области 1:1.

Рис. 6. Модель лица, по которой проводились измерения образцовых пропорций

Угол, на который нужно повернуть изображение, вычисляется как угол между прямой, проходящей через рот и точку между глазами, и вертикалью. В случаях, когда одна или несколько требуемых точек не обнаруживаются алгоритмом Виолы-Джонса, предполагается, что неизвестные точки находятся в правильной пропорции с известными. Алгоритм имеет следующие ветви:

♦ когда находятся только глаза, выравнивание происходит по общепринятому алгоритму выравнивания линии между глазами с горизонталью; ширина лица берется равной двум расстояниям от глаза до глаза, высота приравнивается к ширине;

♦ когда находится глаз и рот, угол между линией, проходящей через них, и вертикалью приводится к 24°; ширина лица берется равной 1,6 расстояния от глаза до рта, высота приравнивается к ширине;

♦ когда находится только одна точка или ни одной, размер области берется равным 0,8 по ширине и по высоте от квадрата, полученного алгоритмом Виолы-Джонса при поиске лица. По вертикали область располагается в нижней части квадрата Виолы-Джонса, по горизонтали либо происходит выравнивание по единственной найденной точке, либо берется середина, если таковой нет.

В случае, когда одна черта лица не найдена совсем, а для другой есть несколько вариантов, проверку на соответствие пропорциям произвести невозможно, поэтому выбор делается случайно. Результаты работы алгоритма выделения лица представлены на рис. 7, где в каждой паре слева — результат поиска алгоритмом Виолы-Джонса, справа — результат предложенного алгоритма. Как показали результаты экспериментов, применение предложенного алгоритма в дополнение к алгоритму Виолы-Джонса улучшает результаты распознавания на несколько процентов.

Дескрипторы

Даже после предобработки изображений они сами по себе плохо пригодны для классификации известными алгоритмами. Чтобы привести данные к подходящему виду, из изображений извлекаются различные признаки, то есть для них создаются дескрипторы — векторы чисел. Одной из самых распространенных на сегодняшний день является техника локальных бинарных шаблонов (Local Binary Patterns, LBP, ЛБШ) [6]. Метод OSS был впервые применен в сочетании именно с ЛБШ [7]. Локальный бинарный шаблон для отдельного пикселя представляет собой один байт, биты которого указывают на соотношение данного пикселя с соседними восемью: если значение яркости соседнего пикселя больше или равно яркости данного, соответствующий бит равен 1, иначе 0. На рис. 8 приведен результат применения ЛБШ к изображению.

После получения кодового изображе-

n = 256g2

Рис. 7. Результаты работы алгоритма выделения лица

менения PCA объемы памяти и время вычисления OSS упали до незначительных величин, и появилась возможность далее увеличивать размер сетки. После размера 9x9 увеличение размера больше не приводило к заметному росту точности, поэтому этот размер был принят в качестве оптимального. Помимо увеличения размера сетки существуют другие методы повышения информативности дескрипторов. Один из таких методов — применение нескольких разных признаков сразу и конкатенация получающихся векторов. Для ЛБШ в качестве дополнительных признаков хорошо себя зарекомендовали его модификации 3-зональный ЛБШ и 4-зональный ЛБШ (Three-Patch LBP, TP LBP, и Four-Patch LBP, FPLBP) [7]. Как самостоятельные дескрипторы они дают худший результат, но информация, которую они кодируют, не содержится в коде традиционного ЛБШ, поэтому их совместное применение повышает точность классификации.

В связи с ощутимым варьированием размеров лиц в базе изображений хорошим способом повышения информативности дескрипторов стало приведение всех изображений к размеру 128x128 пикселей перед применением ЛБШ. Такое соотношение сторон было выбрано в связи с особенностью предлагаемого алгоритма выделения лиц выдавать в среднем квадратные изображения.

Рис. 8. Результат применения ЛБШ к изображению

ния оно преобразуется в вектор посредством следующей операции: изображение разбивается на сетку определенного размера, в каждой ячейке сетки строится гистограмма значений, и эти гистограммы конкатенируются в результирующий вектор. Длина такого вектора определяется размером сетки и вычисляется по формуле

(1)

где n — длина вектора, g — размер сетки (берется сетка одинакового размера (в клетках) по столбцам и по строкам). Как показывают эксперименты, с увеличением размера сетки точность классификации растет, но уже при размере сетки 7x7 объем оперативной памяти, требуемый для вычисления меры OSS по таким дескрипторам, превышает возможности многих домашних компьютеров, а время работы достигает десятков минут. Для решения проблемы размерности был применен метод главных компонент (Principal Component Analysis, PCA), позволяющий извлечь большую часть информации из больших объемов данных и записать ее в значительно более краткой форме. После при-

Классификация

Мера One-Shot Similarity для двух векторов — это оценка вероятности того, насколько один из них принадлежит к тому же классу, что и второй, а не к

_МЕ10ДЫ

классу, определяемому фиксированным набором отрицательных образцов. One-Shot, то есть «по одному снимку», означает, что положительный образец требуется только один, а отрицательные образцы могут принадлежать к любым классам, кроме того, к которому относится положительный. Подход OSS может быть применен на основе различных классификаторов. Наиболее исследовано применение OSS на основе линейно-дискрими-нантного анализа (Linear Discriminant Analysis, LDA) [8, 9]. Общая процедура использования OSS на основе LDA для оценки сходства с классом X представлена ниже. Все векторы с классами не X собираются в одну матрицу, по которой производятся предварительные вычисления (в том числе вычисление внутриклассовой матрицы ковариации и обращение матрицы). Затем берется один вектор с классом X и вектор с неизвестным классом, производится обучение модели LDA на одном векторе и применение ее ко второму. Та же процедура повторяется с обратными ролями векторов, после чего результаты двух применений LDA усредняются. В случае бинарной классификации OSS предлагается применять следующим образом. Для каждого класса производятся предварительные вычисления с использованием противоположного класса в качества отрицательного набора. При появлении вектора неизвестного класса, как показано на рис. 9, производится вычисление его сходства с одним классом и с другим (в качестве положительного примера берется среднее значение векторов проверяемого класса) и сравнение получившихся оценок. Неизвестный вектор относится к тому классу, с которым сходство больше.

Такой подход основан на наблюдении распределения оценок сходства с классами мужчин и женщин. На рис. 10 видно, что у мужчин (синие точки) преимущественно больше сходство с мужчинами (точки расположены правее), чем у женщин, и наоборот, но разделение классов по значению только по одной даст больше ошибок, чем разделение по линии равенства координат. Рис. 11 показывает распределение точек относительно линии равенства координат на предыдущем графике,

о

Сходство с женщинами""

О

Сходство с мужчинами

Рис. 9. Схема применения техники OSS к классификации по полу

-1.5

-2

3

I "2.5

м О

-3,5

♦ V»»4'

• Ж«

* **

45

► ♦ X

V* к

V . * „ »

-3 -2,5 -2 -1,5 Сходство с мужчинами

-0,5

Рис. 10. Распределение оценок сходства с мужчинами и с женщинами

s &

s

Рис. 11. Распределение разницы между сходством с мужчинами и сходством с женщинами

Рис. 12. Лица, на которых ошиблись оба классификатора. Синим и черным цветом отмечены оценки, данные классификаторами: верхняя - OSS, нижняя - SVM

то есть распределение значений разницы между сходством с мужчинами и с женщинами. По нему можно визуально оценить количество ложных классификаций в отношении к общему числу проверок. Синим цветом на графике обозначено наложение голубой и серой гистограммы.

Результаты

Показатель, по которому производилась оценки качества классификации, — это процент, состоящий из верно классифицированных лиц от общего количества классифицированных изображений. Оценка производилась методом 10-кратной перекрестной про-

верки (10-fold cross-validation). В табл. 2, 3 приведены численные результаты работы классификатора. Табл. 2 показывает выбор лучшего дескриптора.

После настройки метода было произведено сравнение с другими классификаторами. Сравнение производилось с двумя методами: метод k ближайших соседей, как один из самых простых, и SVM (Support Vector Machine), как самый популярный в настоящее время метод классификации, показывающий лучшие результаты во многих работах: [10 - 12].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве ядра SVM было использовано ядро RBF с параметрами C = 12,5 и у = 0,00015, значения которых были

подобраны методом поиска по сетке. Из 800 лиц SVM правильно определил пол у 746 лиц, а классификатор на основе OSS — у 747 лиц. Из них 735 были верно классифицированы обоими методами, а на рис. 12 — 14 приведены их ошибки. И OSS, и SVM дают численную оценку результата (разница сходств у OSS и расстояние до разделяющей гиперплоскости у SVM), что дает возможность наглядно представить их работу. Как видно, методы работают достаточно схоже. В ошибочно классифицированных изображениях не прослеживаются очевидные причины ошибок, но видно, что в большинстве случаев классификаторы ошибаются, когда «не уверены» в своем ответе. Это позволяет улучшить ситуацию, введя порог неопределенности, если постановка задачи допускает неопределенный ответ. Эксперимент показал, что есть такие значения порога, при которых количество отсеченных ошибок превышает количество отброшенных правильных ответов. В табл. 3 дана сводка результатов в процентах правильной классификации (без порогов неопределенности). Таким образом, разработан алгоритм классификации лиц по полу с применением техники OSS. Полученный результат на выборке данных из базы LFW: 93,4% верного распознавания. Сравнение с другими классификаторами показало примерно равную производительность у разработанного метода и одного из ведущих методов — SVM, из чего можно заключить, что применение меры сходства OSS к задаче распознавания пола по изображению оправдано. Также разработан алгоритм выделения лица из изображения, позволяющий стабилизировать расположение черт лица в рамках кадра после поиска алгоритмом Виолы-Джонса

Таблица 2. Результат классификации в зависимости от использованных дескрипторов и их параметра — размера сетки

Использованные дескрипторы Размер сетки

7 8 9 10 11 12 13

TPLBP 80,1% 81,4% 85,8% — — — —

FPLBP 86,5% 87,2% 87,9% — — — —

LBP 85,0% 88,1% 89,8% — — — —

LBP + TPLBP 86,8% 89,2% 91,6% — — — —

LBP + FPLBP 88,4% 89,6% 91,9% — — — —

LBP + TPLBP + FPLBP 88,0% 90,4% 93,4% 91,2% 92,1% 91,8% 91,5%

Рис. 13. Лица, на которых ошибся классификатор OSS и правильно сработал SVM

Рис. 14. Лица, на которых ошибся классификатор SVM и правильно сработал OSS

Таблица 3. Результаты работы разных классификаторов при использовании дескриптора ЬБР+ТРЬБР+РРЬБР с размером сетки 9x9

Классификатор Результат

k ближайших соседей 81,2%

SVM 93,2%

OSS 93,4%

Литература

1. Cafeing S. Learning local binary patterns for gender classification on real-world face images./ Pattern Recognition Letters 33 (2012) 431-437, 2012. — 7 с.

2. Lior Wolf, Tal Hassner, and. Yaniv Taigman. The One-Shot Similarity Kernel./ IEEE International Conference on Computer Vision (ICCV), Sept. 2009.

3. Face.com, список научных публикаций, URL: http://face.com/research/ index.php?page=publications.html.

4. Gary B. Huang, Manu. Ramesh, Tamara Berg, and. Erik Learned-Miller. Labeled Faces in the Wild: A Database for Studying Face Recognition in Unconstrained Environments./ University of Massachusetts, Amherst, Technical Report 07-49, October, 2007. -URL: http://vis-www.cs.umass.edu/lfw/.

5. Paul Viola and Michael J. Jones. Rapid. Object Detection using a Boosted. Cascade of Simple Features, 2001.

6. Ojala T., Pietikainen M., Maenpaa T. A generalized, local binary pattern operator for multiresolution gray scale and. rotation invariant texture classification. In: ICAPR '01: Proceedings of the Second. International Conference on Advances in Pattern Recognition. — London, UK, Springer-Verlag (2001). — PP. 397 — 406.

7. L. Wolf, T. Hassner and. Y. Taigman. Descriptor based methods in the wild. In Faces in Real-Life Images Workshop in ECCV, 2008.

8. Abdi H. Discriminant correspondence analysis. In: N.J. Salkind (Ed.): Encyclopedia of Measurement and Statistic. Thousand Oaks (CA): Sage, 2007. — PP. 270 — 275.

9. Perriere G.; & Thiou.lou.se J. Use of Correspondence Discriminant Analysis to predict the subcellular location of bacterial proteins. /Computer Methods and. Programs in Biomedicine, 70, 2003. — РР. 99 — 105.

10. B. Moghaddam and Y. Ming-Hsuan. Gender classification with support vector machines in Automatic Face and Gesture Recognition, 2000. — Proceedings. Fourth IEEE International Conference on, 2000. — PP. 306 — 311.

11. Z. Sun, G. Bebis, X. Yuan and S. Louis. Genetic Feature Subset Selection for Gender Classification: A Comparison Study./ IEEE Workshop on Applications of Computer Vision. — Orlando, December 2002. — PP. 165 — 170.

12. Z. Yang, M. Li, H. Ai. An Experimental Study on Automatic Face Gender Classification./ ICPR (3), 2006. — РР. 1099 — 1102.

Применение оценки One-Shot Similarity к задаче распознавания пола человека по изображению Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Минин Петр Евгеньевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Минин Петр Евгеньевич

Текст научной работы на тему «Применение оценки One-Shot Similarity к задаче распознавания пола человека по изображению»