Научная статья на тему 'ПОНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА ПРИЗНАКОВ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ПОЛА ЧЕЛОВЕКА'

ПОНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА ПРИЗНАКОВ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ПОЛА ЧЕЛОВЕКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
186
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ЛИЦ / РАСПОЗНАВАНИЕ ПОЛА / БИОЛОГИЧЕСКИ ОБУСЛОВЛЕННЫЕ ПРИЗНАКИ / ГЕОМЕТРИЧЕСКАЯ НОРМАЛИЗАЦИЯ / ФОТОМЕТРИЧЕСКАЯ НОРМАЛИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Спижевой Алексей Сергеевич, Баландин Дмитрий Владимирович

Рассматривается задача автоматического определения пола человека по изображению лица. В качестве его описателей предлагается использовать биологически обусловленные признаки, приближенно моделирующие схему работы зрительной коры головного мозга и представляющие собой иерархический подход с двумя уровнями. На первом уровне изображение фильтруется с помощью фильтров Габора, на втором уровне вычисляются статистические признаки. Полученные таким образом результаты могут варьироваться в зависимости от влияния несущественных для решения поставленной задачи факторов (например, поворота головы и освещения). Также с целью обеспечения устойчивости оценивания пола человека были рассмотрены два метода нормализации признаков: геометрическая нормализация лица и адаптивная нормализации яркости лица с ограничением контраста. Представлены два подхода для повышения скорости работы метода за счет понижения размерности пространства признаков: метод главных компонент и метод деревьев решений, ранжирующий признаки по значимости. Предложенный подход определения пола человека достигает средней точности классификации в 96,18 % и превосходит другие рассмотренные методы на стандартной базе Labeled Faces in the Wild.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Спижевой Алексей Сергеевич, Баландин Дмитрий Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПОНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА ПРИЗНАКОВ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ПОЛА ЧЕЛОВЕКА»

УДК 004.932.2

А.С. Спижевой, Д.В. Баландин

ПОНИЖЕНИЕ РАЗМЕРНОСТИ ПРОСТРАНСТВА ПРИЗНАКОВ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ПОЛА ЧЕЛОВЕКА

Национальный исследовательский Нижегородский государственный университет им. Н.И. Лобачевского

Рассматривается задача автоматического определения пола человека по изображению лица. В качестве его описателей предлагается использовать биологически обусловленные признаки, приближенно моделирующие схему работы зрительной коры головного мозга и представляющие собой иерархический подход с двумя уровнями. На первом уровне изображение фильтруется с помощью фильтров Габора, на втором уровне вычисляются статистические признаки. Полученные таким образом результаты могут варьироваться в зависимости от влияния несущественных для решения поставленной задачи факторов (например, поворота головы и освещения). Также с целью обеспечения устойчивости оценивания пола человека были рассмотрены два метода нормализации признаков: геометрическая нормализация лица и адаптивная нормализации яркости лица с ограничением контраста. Представлены два подхода для повышения скорости работы метода за счет понижения размерности пространства признаков: метод главных компонент и метод деревьев решений, ранжирующий признаки по значимости. Предложенный подход определения пола человека достигает средней точности классификации в 96,18 % и превосходит другие рассмотренные методы на стандартной базе Labeled Faces in the Wild.

Ключевые слова: распознавание лиц, распознавание пола, биологически обусловленные признаки, геометрическая нормализация, фотометрическая нормализация.

Введение

В последнее время наблюдается непрерывный рост интереса к задаче автоматического определения пола человека. Примером области, в которой автоматическое определение пола находит непосредственное применение, являются маркетинговые исследования, целью которых является сбор информации о составе аудитории.

Задача автоматической классификация пола человека по изображению лица на фотографии представляет определенную сложность для компьютера ввиду большого разнообразия возможных изображений, соответствующих одному и тому же полу. Такие факторы, как неравномерная освещенность, вращения головы, а также изменение возраста и выражения лица, также оказывают влияние на точность и представляют собой проблемы при разработке практических решений. Некоторые из этих проблем решаются на этапе нормализации лица, другие - с помощью повышения разнообразия обучающей выборки.

В работе [1] авторы предлагают использовать локальные бинарные шаблоны в качестве описателей лица и машину опорных векторов для решения задачи классификации пола. Также в работе проводится исследование подхода ранжирования признаков по значимости с помощью метода машинного обучения AdaBoost. Исходная размерность пространства описателей 342 200 была понижена за счет выбора наиболее значимых компонент до 500 (т.е., менее 1 %). На стандартной базе LFW предложенный подход достиг точности в 94,81 %. В работе [2] авторы, рассматривая задачу автоматической оценки возраста, предлагают подход, основанный на биологически обусловленных признаках в качестве описателей лица.

В качестве методов машинного обучения, используемых для решения задачи классификации пола, широко распространены машины опорных векторов; также популярны нейронные сети, сверточные нейронные сети и подходы, основанные на бустинге. В работе [3] было предложено использование единой сверточной нейронной сети для решения задачи

© Спижевой А.С., Баландин Д.В.

классификации пола совместно с задачей детектирования усов и бороды на лице. На стандартной базе LFW данный подход достиг точности в 95,13 %.

В работе [4] предложен подход решения задачи автоматического определения возраста человека на основе биологически обусловленных признаков. В данной работе мы расширяем предложенный подход и рассматриваем два подхода к понижению размерности пространства признаков уже в задаче определения пола.

Постановка задачи

Задача автоматической классификации пола по фотографии лица формулируется следующим образом: дана тренировочная выборка Nk, с m изображениями лиц, где I -изображение, X(I) - функция, которая осуществляет вычисление описателя лица по изображению, I - пол человека. Задача состоит в том, чтобы построить модель j>(X(/}) и классифицировать пол человека для новых фотографий, не представленных в тренировочной выборке (в том числе, для новых людей).

Описатели лица

В задаче автоматического определения пола предлагается использование BIF признаков (biologically inspired features) [2, 5, 6] и метода опорных векторов [7].

Алгоритм определения пола человека включает в себя следующие шаги:

1) геометрическая нормализация и нормализация яркости лица;

2) вычисление биологически обусловленных признаков;

3) снижение размерности вектора-признаков с помощью метода главных компонент или метода, основанного на использовании деревьев решений;

4) классификация пола с помощью метода опорных векторов с rbf ядром, реализованный в библиотеке opencv [8].

В рамках данной задачи дополнительно проведено исследование метода снижения размерности пространства признаков, отличного от метода главных компонент. Мотивация этого исследования заключается в том, что понижение размерности пространства признаков и, соответственно, перевод вектора-описателя в пространство меньшей размерности, занимает большое время, относительно всего времени работы алгоритма (табл. 1). Как альтернатива методу главных компонент был рассмотрен метод, использующий ансамбль деревьев решений для получения оценок значимости отдельных признаков. Данный подход обладает преимуществом в плане временной трудоемкости по сравнению с методом главных компонент, поскольку после предварительной оценки значимости всех признаков понижение размерности пространства впоследствии происходит просто за счет выбора наиболее информативных компонент.

Геометрическая нормализация

Данная процедура выполняется с целью нормализации геометрии лица, т.е., его положения, масштаба и ориентации в изображении. Данные преобразования несущественны для решения поставленной задачи определения пола. Следовательно, желательно, чтобы признаки, вычисляемые по изображениям, были инвариантны относительно этих преобразований. В результате геометрической нормализации получается изображение фиксированного размера, с фиксированным положением, масштабом и ориентацией лица (в плоскости изображения).

Для достижения данной цели был предложен подход, основывающийся на переводе центров глаз на исходном изображении в две фиксированные точки на выходном изображении. Перевод осуществляется с помощью преобразования подобия (комбинации

изотропного масштабирования).

Пусть точки pie = (xie,yie)T и pre = (xre, yre)T есть координаты центров левого и правого глаз человека соответственно на исходном изображении. Цель геометрической нормализации заключается в том, чтобы с помощью преобразования подобия р' = sR(p + Т), где ^ - это коэффициент изменения масштаба, - двумерный поворот в плоскости изображения, а T - вектор сдвига, перевести исходные точки в фиксированные точки p\e,p're в выходном (нормализованном) изображении заданного размера. Зафиксировав выходные точки равными для всех изображений, за счет применяемого преобразования осуществляется корректировка и фиксирование положения, масштаба лица и его ориентации в плоскости изображения. Размер выходного изображения, а также координаты глаз в нем, являются параметрами метода и выбираются исходя их потребностей конкретной задачи.

Нормализация яркости

На шаге нормализации яркости изображения (или фотометрической нормализации) происходит выравнивание яркости пикселей изображения с целью устранения влияния несущественных факторов, например, освещенности лица источниками света, на вычисляемые по изображению признаки. Так же, как и в случае геометрической нормализации, на данном шаге желательно устранить влияние несущественных факторов на последующие шаги алгоритма. По окончании фотометрической нормализации получается черно-белое изображение такого же размера, как и исходное, но с уже выровненной яркостью.

Одним из широко распространенных алгоритмов нормализации яркости изображения является алгоритм глобального выравнивания гистограммы. Адаптивное выравнивание гистограммы (алгоритм CLAHE, [10]) является модификацией алгоритма глобального выравнивания яркости. Цель данного алгоритма - это исключение не только глобальных вариация яркости пикселей в изображении, но также и локальных. В данном подходе не строится гистограмма для всего исходного изображения. Вместо это строятся несколько гистограмм для различных блоков изображения. При таком подходе в однородных областях изображения появляется шум. В таких областях интегральная кривая F(l), вычисляемая на первом шаге работы алгоритма выравнивания гистограммы, будет иметь резкий наклон из-за того, что большое число пикселей имеют схожую яркость. Это приведёт к тому, что близкие значения яркости на изображении I отображаются в далекие по яркости на изображении I'. Уменьшение размера окрестности повышает интенсивность эффекта зашумления. Для избежания этого применяются дополнительный методы ограничения контрастности выходного изображения. Такой алгоритм носит название контрастно-ограниченного адаптивного выравнивания гистограммы. Детали алгоритма можно найти в работах [4, 10].

Биологически обусловленные признаки

После всех шагов нормализации исходного изображения вычисляются биологически обусловленные признаки (англ. Bio-Inspired Features, BIF) [2, 5]. BIF признаки были разработаны с учетом знаний о функционировании зрительной коры головного мозга млекопитающих [6]. Результаты экспериментов свидетельствуют в пользу наличия клеток различного типа в зрительной коре и наличии иерархии между ними. В моделях, описывающих восприятие визуальной информации, выделяют клетки простого типа, которые воспринимают информацию локально и чувствительны к положению визуальных стимулов. Также выделяют клетки сложного типа, которые, в отличие от простого, обладают некой инвариантностью к изменению положения локальных визуальных стимулов и зависят от выходных сигналов клеток простого типа.

Для моделирования клеток простого типа зрительной коры используют фильтры Габора, показавшие высокий уровень точности аппроксимации эмпирических данных. Модели клеток сложного типа так или иначе строят на основе выходных сигналов клеток простого типа. Например, в работе [6] для этого используется операция взятия максимума, т.е., выходной сигнал клетки сложного типа представляет собой максимальный среди выходных сигналов группы клеток простого типа. В работе [2] вместо операции взятия максимума предложено использование среднеквадратического отклонения, вычисляемого по выходным сигналам клеток простого типа.

Процедура вычисления признаков включает в себя применение нескольких линейных фильтров с последующей нелинейной обработкой. Всю процедуру можно разбить на шаги следующим образом:

• применение набора линейных фильтров Габора к исходному изображению;

• попарное слияние выходов от фильтров;

• вычисление среднеквадратических отклонений в различных положениях «скользящего окна».

Фильтр Габора представляет собой линейный фильтр, ядро которого представляет собой Гауссиан с дисперсией промодулированный косинусоидальной волной С(х,у) =

ехр (— С05 х'+ф), где х'=хсо8б+у8тб, у' = — хзтб+усозб, в - ориентация, 5

^ £1 2 '

отклонение функции Гаусса, Я - длина волны, ^ - сдвиг фазы волны. В работе [2] в качестве модели клеток простого типа используются фильтры Габора с параметрами, оцененными на основе экспериментальных данных.

Соответственно, при поступлении на вход входного изображения I на выходе получается 2п отфильтрованных изображений, где 2п - это общее число применяемых фильтров. Для повышения устойчивости признаков к незначительным вариациям масштаба исходного изображения отфильтрованные результаты разбиваются на пары по близким значениям дисперсии Гауссиана и объединяются в одно изображение с помощью операции взятия попиксельного максимума: ^ = тах(/ * * С2&), где к - номер пары отфильтрованных изображений, знак - означает операцию применения линейного фильтра (корреляция).

Последний шаг предполагает применение техники «скользящего окна» по изображениям ^, полученным на предыдущем шаге слияния отфильтрованных изображений. В каждом окне с координатами верхнего левого угла (х0,у) и размером ^ X ^ мы вычисляем стандартное отклонение для значений элементов из окна. Конкретные значения размеров окон ^ для каждого к=1..8 приводятся в [2]. Вычисленные значения стандартных отклонений формируют биологически обусловленные признаки.

Понижение размерности вектора признаков с помощью метода главных компонент

размер фильтра, x,y G {- f-f}, Y - коэффициент сжатия, а - среднеквадратическое

Метод главных компонент (Principal Component Analysis, PCA) [11] - широко распространенный в машинном обучении подход, предназначенный для понижения размерности пространства признаков, сохраняющий при этом как можно больше информации.

Задача ставится следующим образом. Пусть имеется и-мерный случайный вектор f = (f1,f2,...,fn) и соответствующая ему выборка, представленная в виде матрицы XG , где m - это число наблюдений, а вектор - наблюдения переменной Не уменьшая общности, будем предполагать, что все векторы отцентрированы.

Метод главных компонент - статистический метод, применяемый для выявления линейных комбинаций переменных, обладающих высокой дисперсией. Пусть матрица

1

С=—^Х'Х представляет собой эмпирическую ковариационную матрицу случайного

ш— 1

вектора ^. Собственные векторы щ, / = 1..п матрицы С, отранжированные в порядке убывания собственных чисел, т.е., Я > Я^+1, задают набор ортогональных направлений -главных компонент. Линейные комбинации случайных переменных вдоль полученных направлений обладают тем свойством, что дисперсия первой компоненты максимальна среди всех возможных направлений, дисперсия второй компоненты максимальна среди всех направлений ортогональных первому, дисперсия третьей максимальна среди всех ортогональных первым двум и т.д.

В машинном обучении метод главных компонент часто используется, как способ понижения размерности вектора-признаков. Это делается для снижения влияния несущественных факторов при построении и использовании моделей, а также для борьбы с переобучением. На практике отцентрированная тренировочная выборка из п векторов-признаков размерности т трактуется как набор п наблюдений случайного вектора размерности т, по которой впоследствии находятся главные компоненты. Из полученного набора главных компонент выбирается требуемое количество направлений ё<т, соответствующих наибольшим собственным числам. Исходные векторы-признаки размерности т проектируются на выбранные направления, в результате чего получаются новые векторы-признаки меньшей размерности ё. Количество используемых направлений, т.е., выходная размерность пространства признаков, является параметром алгоритма. Она может определяться экспериментально или же с помощью эвристик. Один из популярных подходов для выбора числа главных компонент заключается в выборе такого числа направлений, чтобы сумма соответствующих им собственных чисел составляла не менее р^^, где р - это

параметр метода (обычно близкий к 1, например 0,95).

Понижение размерности пространства признаков с помощью деревьев решений

С помощью метода главных компонент можно добиться снижения размерности исходного пространства признаков за счет перевода признаков в пространство меньшей размерности с помощью линейного преобразования. На практике данный метод может оказаться слишком трудоемким. Поэтому имеет смысл рассмотреть методы, которые вычисляют оценку информативности признаков, например, подходы, основанные на построении деревьев решений. Снижения размерности исходных векторов-признаков в таком случае можно добиться за счет исключения наименее значимых компонент.

Метод ERT (Extremely Randomized Trees) [12] представляет собой метод машинного обучения, использующий ансамбль деревьев решений. Метод применим для решения задач классификации и регрессии. В нашем случае рассматривается задача классификации. На стадии тренировки строится требуемое число случайных деревьев решений, каждое из которых конструируется рекурсивно. На каждом шаге выбирается наилучший слабый классификатор Wj = (/¿, 0j), где i -- номер вершины в дереве, Zj -- это индекс выбираемого опорного признака, а -- это порог, с которым осуществляется сравнение значения признака хг.. После выбора слабого классификатора для вершины с номером i, все векторы-признаков со значением признака Хц < вj используются далее для построения вершины с номером 2i+1, все остальные для построений вершины с номером 2i + 2.

Выбор номера признака Zj осуществляется с помощью частичного перебора среди всего множества возможных признаков. После выбора опорного признака порог выбирается случайно и равномерно в диапазоне от минимального до максимального наблюдаемых значений признака с номером среди всех экземпляров тренировочной выборки, достигнувших текущей вершины X(i\ Среди рассматриваемого множества слабых классификаторов выбирается тот, в котором результат сравнения несет больше информации:

W;

аг£тахг,0я(х®-^Я(Х(2*+1})-^Я(Х(2*+2})|, где щ - это количество

векторов-признаков в множестве, используемых для построения вершины с номером /, а - это энтропия информационной системы, соответствующей распределению значений выходной переменной для экземпляров тренировочной выборки X®.

Суммарные значения приращений энтропии для каждого признака, усредненные по деревьям, используются в качестве меры информативности данного признака [12]. Получившиеся таким образом оценки значимости всех использованных при построении деревьев решений компонент исходных векторов-признаков X, далее используются для ранжирования признаков по значимости и выбора требуемой размерности финального пространства признаков ё. После построения деревьев решений и ранжирования признаков по значимости, число операций для получения преобразованного вектора-признаков есть О(ё), поскольку достаточно просто выбрать нужные признаки для последующей обработки.

Стандартный тестовый набор данных

База Labeled Faces in the Wild (LFW) [13] содержит 13233 фотографии людей. Из 5749 людей, включенных в базу, 1680 человек представлены более чем одной фотографией. Изображения базы получены в неконтролируемых условиях освещения, есть в наличии фотографии с различными ориентациями головы, люди могут проявлять эмоции, отличные от нейтральной, и т.п. Таким образом, база содержит фотографии, отражающие до некоторой степени свойства изображения, ожидаемых в реальных, неконтролируемых условиях эксплуатации. Люди не всегда специально позируют для камеры и могут вообще не иметь представления о месте ее расположения в пространстве.

Рис. 1. Примеры изображений из базы LFW

В связи с тем, что в большинстве работ используется не вся база, а только некоторая ее часть, мы также использовали только ту, в которой лица детектируются со степенью уверенности выше заданной. Пороги на степень уверенности обнаружения лица задавались таким образом, чтобы число получившихся изображений и сбалансированность полов в выборке были схожи с набором данных, описанным в работе в [1] (т.е., 7 443 изображения, 4 500 мужчин, 2 943 женщины). В итоге была получена выборка размером 7 484 фотографий (5 012 фотографий мужчин и 2 472 фотографий женщин). Для детектирования лиц была использована каскадная схема, реализованная в библиотеке OpenCV, с поддержкой выдачи оценки уверенности системы для каждого обнаруженного ей лица, в том, что это действительно лицо.

Результаты экспериментов

Авторами было проведено исследование двух методов понижения размерности пространства признаков в задаче автоматического определения пола человека. Был изучен подход определения пола человека, использующий для понижения размерности пространства признаков метод главных компонент и метод, основанный на ранжировании признаков по значимости. Сравнение скорости работы двух рассмотренных подходов приведено в табл. 1. Из приведенных результатов видно, что ранжирование признаков по значимости с последующим использованием лишь наиболее значимых, превосходит по скорости метод главных компонент.

Таблица 1

Среднее время обработки одного изображения (640x480) на компьютере с центральным процессором Intel Core i5 (3.2 GHz) в однопоточном режиме

Шаг Среднее время работы, мс

Детектирование и нормализация 17.4

Вычисление признаков 5.7

Снижение размерности (РСА) 11.1

Снижение размерности (БЯТ) <1

Классификация 1

На рис. 2 приведена иллюстрация наиболее информативных частей изображения при решении задачи определения пола, полученная после выбора 1600 самых значимых признаков с помощью метода ERT. На левой части рисунка изображено, для примера, нормализованное лицо из базы LFW. Те пиксели в правой части изображения, которые отображены ярче, используются в выбранных признаках чаще (т.е. , более информативны), чем те, которые изображены темнее.

Рис. 2. Иллюстрация наиболее информативных частей изображения

98 96 94

_ 92

£

90

I-

и

1 88 ^86 84 82 80

ERT л^к РСА

'0 200 400 600 800 1000 1200 1400 1600 Размерность выходного вектора признаков

Рис. 3. Сравнение точности определения пола в зависимости от числа используемых признаков для метода главных компонент и метода, основанного на ранжировании признаков с помощью деревьев решений

На рис. 3 показано сравнение точности распознавания пола с использованием двух использованных методов понижения размерности пространства признаков. В табл. 2 приведено сравнение точности работы предложенного метода с несколькими известными подходами. В качестве протокола валидации использовался метод перекрестной проверки.

Таблица 2

Сравнение методов автоматического определения пола по фотографии на базе LFW

Метод Точность, % Число разбиений Размер выборки

Shan, 2012 [1] 94.81 5 7443 (4500 м, 2943 ж)

Konushin, 2013 [3] 95.13 6 Не указан

BIF+PCA+SVM 96.18 5 7484 (5012 м, 2472 ж)

BIF+ERT+SVM 94.86 5 7484 (5012 м, 2472 ж)

На рис. 4 приведены результаты правильной работы предложенного алгоритма для автоматического определения пола человека по фотографиям из базы LFW. Зеленым цветом выделен правильный, ожидаемый результат, желтым - результат, выданный системой.

Заключение

Предложенный подход определения пола человека по изображению лица, использующий BIF признаки и метод опорных векторов, достигает средней точности классификации в 96,18 % и превосходит другие рассмотренные методы на базе Labeled Faces in the Wild (табл. 2). Также приведены результаты сравнения двух методов понижения размерности пространства признаков: метода главных компонент (который используется и во всех других предложенных подходах) и метода, основанного на выборе наиболее информативных признаков.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Примеры результатов правильного определения пола субъекта на базе LFW с помощью предложенного алгоритма

Согласно полученным результатам, использование деревьев решений для оценки информативности компонент вектора признаков и последующего выбора наиболее значимых признаков, приводит к значительной экономии во времени обработки кадра (табл. 1 ). В то же время, это приводит к снижению средней точности классификации с 96,18 % до 94,86 % (рис. 3), что, однако, по-прежнему превосходит по качеству другие рассмотренные подходы.

Библиографический список

1. Shan, Caifeng Learning local binary patterns for gender classification on real-world face images / Caifeng Shan // Pattern Recognition Letters. 33.4. 2012. - P. 431-437.

2. Guo, Guodong Human age estimation using bio-inspired features / Guodong Guo, Mu Guowang, Fu Yun, S. Thomas // Computer Vision and Pattern Recognition. 2009.

3. Kuharenko, A. Simultaneous facial attribute classification with convolutional neural networks / Artem Kuharenko, Anton Konushin // Pattern rcognition and image analysis (PRIA-11-2013). 2013. - P. 623626.

4. Спижевой, А.С. Автоматическое оценивание возраста человека с использованием адаптивного выравнивания яркости и биологически обусловленных признаков / А.С. Спижевой, А.И. Оголихина, А.В. Бовырин // Вестник Нижегородского университета им. Н.И. Лобачевского. 1-1 (1). 2014.

5. Guo, Guodong Image-based human age estimation by manifold learning and locally adjusted robust regression / Guodong Guo, Fu Yun, R. Charles Dyer, S. Thomas Huang // Image Processing, IEEE Transactions on 17, - №. 7. - 2008. - P. 1178-1188.

6. Riesenhuber, Maximilian Hierarchical models of object recognition in cortex / Maximilian Riesenhuber, Poggio Tomaso // Nature neuroscience 2, - №. 11. - 1999. - P. 1019-1025.

7. Cortes, Corinna Support-vector networks / Corinna Cortes, Vapnik Vladimir. // Machine learning 20.3. 1995. - P. 273-297.

8. Open Source Computer Vision Library, URL: http://opencv.org/

9. Pizer, Stephen M. Adaptive histogram equalization and its variations / Stephen M. Pizer // Computer vision, graphics, and image processing 39.3. 1987. - P. 355-368.

10. Benitez-Garcia, G. Face Identification Based on Contrast Limited Adaptive Histogram Equalization (CLAHE) / G. Benitez-Garcia, J. Olivares-Mercado, G. Aguilar-Torres, G. Sanchez-Perez, H. Perez-Meana // Image processing, computer vision, & pattern recognition. IPCV. 2011.

11. Abdi, H. Principal component analysis / H. Abdi, L.J. Williams // Wiley Interdisciplinary Reviews: Computational Statistics, 2(4). 2010. - P. 433-459.

12. Geurts, Pierre Extremely randomized trees / Pierre Geurts, Ernst Damien, Wehenkel Louis // Machine learning, 63.1. 2006. - P. 3-42.

13. Huang, Gary B. Labeled faces in the wild: A database for studying face recognition in unconstrained environments / Gary B. Huang, Manu Ramesh, Tamara Berg, Erik Learned-Miller // Technical Report 07-49, University of Massachusetts, Amherst. 2007.

Дата поступления в редакцию: 02.02.2020

A.S. Spizhevoy, D.V. Balandin

FEATURE SPACE DIMENSIONALITY REDUCTION FOR AUTOMATIC GENDER RECOGNITION

Lobachevsky State University of Nizhni Novgorod

Purpose: In this paper we address the problem of automatic human gender estimation by face image. Design/methodology/approach: We propose to use biologically inspired features as face descriptors. Such features approximately model how visual cortex works and compute features in a hierarchical fashion. First a number of Gabor filters are applied to source image. Then statistical features are computed. However, descriptors computed in such a way are sensitive to irrelevant (for gender estimation) factors: e.g. head orientation and illumination. That is why we propose using geometric face normalization and contrast limited adaptive histogram equalization to make descriptors invariant to those irrelevant effects. Geometric normalization makes face descriptors invariant to head orientation changes within image plane. And adaptive histogram equalization addresses non-uniform face illumination. Also we study using two dimensionality reduction methods for improving gender estimation speed: principal component analysis and ranking features using decision trees.

Findings: The proposed approach achieves average classification accuracy of 96.18% and outperforms the other considered approaches on the standard Labeled Faces in the Wild dataset. Research limitations/implications: Only in-plane face geometry normalization addressed. It is interesting to study other methods as well.

Originality/value: Developed a novel approach for automatic gender estimation. The proposed approaches can be used in practice in digital signage applications and for market analysis.

Key words: face recognition, gender recognition, biologically inspired features, geometrical normalization, photometric normalization.

i Надоели баннеры? Вы всегда можете отключить рекламу.