Комбинированный метод обнаружения и распознавания лиц в реальном режиме
Волынец М.Ю., Майков К.А.
Московский государственный технический университет им. Н.Э. Баумана volynetsmu @ gmail. сот. maikov @ тх. bmstu. ru
Аннотация. Представлен комбинированный метод распознавания и обнаружения лиц на цифровых изображениях и видеопоследовательностях в режиме реального времени. Предложенный метод обладает повышенной производительностью и достоверностью решения при различных пространственных характеристиках расположении объекта анализа и условиях освещенности.
Ключевые слова: распознавание лиц, метод Виолы-Джонса, нейронные сети, обнаружение лиц, метод главных компонент, вейвлет преобразование Габора.
1. Введение
Для успешного решения задачи по распознаванию лиц обеспечение высокой скорости работы должно также сочетаться с малым (не более 5%) количеством ложных распознаваний. В системах, реализующих существующие методы распознавания, при увеличении уровня распознаваний свыше 90% наблюдается существенный рост числа ложных решений, что затрудняет их практическое использование [Кудряшов, 2007]. Прежде чем распознавать лицо, необходимо убедиться в его присутствии на изображении, для чего применяются известные методы обнаружения лиц на изображениях (метод главных компонент [Zhao et all, 1998], нейронные сети [Henry, 2009], метод опорных векторов [Maydt, Lienhart, 2002]). Результативность применения метода определяется спецификой решаемой задачи, в частности, особенностями пространственного расположения объекта анализа и его освещенности. Поэтому построение метода распознавания лиц, обеспечивающего высокий уровень достоверности решения при отсутствии ограничений на исходные изображения, является весьма актуальной задачей.
Целью данной работы является разработка методов распознавания и обнаружения лиц, обеспечивающих повышение достоверности распознавания объектов анализа, снижение уровня ложных распознаваний, уменьшение времени обучения классификатора и времени предварительной обработки изображения.
2. Методы обнаружения лиц
Большинство известных методов обнаружения лиц (метод адаптивного усиления [Viola, Jones, 2001], нейронные сети [Henry, 2009],
машины опорных векторов [Maydt, Lienhart, 2002], линейный дискриминантный анализ [Etemand, Chellapa, 2005]) на изображении могут быть представлены двумя следующими категориями [Zhao et all, 1998]:
■ методы, основанные на построении некоторого набора правил для обнаружения лица на изображении [Kotropoulos, Pitas, 1997], одним из представителей которых является метод Виолы-Джонса [Viola, Jones, 2001];
■ методы, в которых изображению (или его фрагменту) ставится в соответствие вычисленный вектор признаков, используемый в последствие для классификации изображений на два класса - лицо/не лицо. К таким методам относятся методы опорных векторов [Maydt, Lienhart, 2002] и линейный дискриминантный анализ [Etemand, Chellapa, 2005].
Для решения задачи обнаружений лиц построим метод, представляющий собой комбинацию базовых компонентов метода адаптивного усиления (AdaptiveBoosting) [Viola, Jones, 2001] и метода нейронных сетей [Henry, 2009].
2.1. Комбинированный метод
Преимуществом метода AdaBoost по сравнению с другими методами обнаружения лиц [Viola, Jones, 2001] является высокая скорость обнаружения лиц на входном изображении, что обуславливает возможность его использования в режиме реального времени. Основным недостатком данного метода является большое количество ложных обнаружений.
Нейронные сети показывают лучший результат для изображений, на которых лица расположены под значительным углом, более 20 градусов относительно вертикальной оси, и для изображений, сформированных при искусственном освещении.
Предлагаемый метод обнаружения лиц представляет комбинацию двух методов: адаптивного усиления и нейронных сетей. Комбинация строится следующим образом: компонент метода адаптивного усиления обеспечивает принятие решения, есть ли на изображении лицо или нет, и отклоняет изображения без лиц. Метод нейронных сетей, получив на вход изображение, обработанное методом адаптивного усиления, формирует окончательное решение о наличии лица на входном изображении. На рис. 1 представлена функциональная схема комбинированного метода. Применение на первом этапе комбинированного метода адаптивного усиления позволяет использовать предложенный метод в режиме реального времени.
На втором этапе нейронные сети повторно выполняют проверку на присутствии лица на участке изображения, тем самым позволяя исправить ошибку ложного обнаружения метода адаптивного усиления.
Следующим этапом является решение задачи распознавания лиц.
Фармн^ч«" ричл!**»*1 о области
Канеч
Рис. 1. Функциональная схема комбинированного метода обнаружения лиц
3. Методы распознавания лиц
Выделим три базовых группы методов распознавания лиц [11]:
■ группа методов, в основе которой лежит целостный поход - обработка всей поверхности лица как последовательности строк без учета индивидуальных анатомических признаков. Метод главных компонент (РСА) [Zhao et all, 1998] и линейный дискриминантный анализ (LDA) [Etemand, Chellapa, 2005] являются примерами целостного похода по распознаванию лиц;
■ группа методов, в основе которой лежит подход, основанный на анатомических признаках; примерами таких методов являются метод распознавания, основанный на вейвлет преобразованиях Габора [Kepenekci, 2001], метод эластичных связанных графов (EBGM) [Wiskott, 1997];
■ группа методов, в основе которой лежит гибридный подход, представляющий объединение целостного подхода и подхода, основанного на признаках [Etemand, Chellapa, 2005].
Для решения задачи распознавания лиц построим метод, представляющий собой комбинацию базовых компонентов метода подпространства линейного дискриминантного анализа [Etemand, Chellapa, 2005] и метода, основанного на вейвлет преобразованиях Габора [Kepenekci, 2001].
3.1. Сравнительный анализ выбранных методов
Как показано в [Etemand, Chellapa, 2005], достоверность распознавания метода «Подпространство LDA не зависит от разрешения тестового изображения. Метод способен распознать лица до тех пор, пока на изображении содержится общая структура лица, что позволяет использовать его для распознавания лиц в видеопотоках в режиме реального времени с практически приемлемым уровнем погрешности. Однако производительность метода уменьшается при значительном различии в освещении на обучающем и пробном изображениях и при повороте распознаваемого лица.
Процесс переобучения для метода «Подпространство LDA» довольно сложен и требует временных затрат, т.к. в этом случае необходимо повторное вычисление подпространства LDA при добавлении новых изображений [Etemand, Chellapa, 2005].
Производительность распознавания метода Кепенекси, в основе которого лежит подход, основанный на признаках, зависит от разрешения обучающих (пробных) изображений с лицами [Kepenekci, 2001]: высокое разрешение изображений позволяет обнаруживать биологические признаки лица (борода, шрам, родинка) и использовать их во время процесса сравнения. Большое количество выявленных признаков гарантирует высокую точность в процессе распознавания. Однако зависимость от
качества изображения и сравнение большого количества признаков пробного изображения с признаками всех обучающих изображений делает его неприменимым для использования в режиме реального времени.
Рис. 2. Функциональная схема комбинированного метода распознавания лиц.
Предложен метод распознавания лиц, представляющий комбинацию двух методов - «Подпространство 1Л)А» и метода, основанного на вейвлет преобразованиях Габора (алгоритм Кепенекси). Комбинация строится следующим образом: алгоритм Кепенекси обрабатывает лишь те пробные изображения, расстояние которых, подсчитанное методом «Подпространства 1Л)А», для каждого класса лиц приблизительно равно. В этом случае разрешение входных изображений должно быть среднего качества - не менее 64*64 пикселей. Структура алгоритма представлена на рис. 2. Применение на первом этапе комбинационного метода подпространства Ы)А позволяет использовать предложенный метод в режиме реального времени. На втором этапе метод Кепенекси выполняет сравнение обнаруженного лица с лицами из обучающего набора на наличие сходства.
4. Требования к реализуемому программному продукту
Система идентификации человека на основе распознавания лиц должна получать на вход изображение, периодически выделяемое из видеопотока, получаемого с камеры. На выходе система выдает список кандидатов, похожих на предлагаемого человека. Для каждого кандидата система выводит показатель уверенности, показывающую степень схожести предлагаемой фотографии и известных системе людей. Исходя из вышеперечисленного, сформированы следующие требования к системе. Функциональные требования:
■ формирование входных данных - потока видео или последовательности изображений;
■ извлечение лица из кадра изображения;
■ распознавание полученного на предыдущем этапе лица;
■ вывод результатов распознавания;
■ обеспечение приемлемого (не менее 90%) уровня обнаружения и распознавания лиц из потока видео 30 кадров в секунду);
■ формирование интуитивно понятного пользовательского интерфейса, обеспечивающего режимы специфических индивидуальных настроек режимов распознавания.
При выборе языка программирования учитывались следующие факторы:
■ возможность написания кода программы, который в дальнейшем позволял бы добиться максимальной производительности при его аппаратной реализации;
■ наличие развитых библиотек эффективной обработки графических структур.
■ обеспечение кроссплатформенносги.
Исходя из вышеперечисленного, для реализации программного продукта был выбран язык С++ с использованием следующих библиотек:
■ OpenCV (Open Source Computer Vision) - библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом.
■ Vigra (Vision with Generic Algorithm) - библиотека, поддерживающая обработку сверхбольших графических структур с использованием обширного класса цветовых моделей и поддержкой широкого диапазона спектральных характеристик через С++ шаблоны.
■ Octave С++ - библиотека для численной реализации процедур обработки и моделирования.
5. Заключение
С использованием преимущественных особенностей методов адаптивного усиления и нейронных сетей предложен комбинированный метод обнаружения лиц, позволяющий решить задачу обнаружения с
повышенной скоростью обработки изображений и достоверностью обнаружения.
Для ускорения обучения каскадной модели в методе адаптивного усиления предложено:
■ задавать количество классификаторов, с которых необходимо начинать отсчет при обучении, и количество классификаторов, которые необходимо добавлять для выполнения условия останова.
■ в случае добавления нового классификатора, начинать обучение с добавленного классификаторов посредством сохранения весов последнего уровня каскадной модели.
■ в случае возникновения ошибки при обучении, дальнейшее обучение начинать с этапа, на котором возникла ошибка.
Предложенный комбинированный метод распознавания лиц, включающий в себя базовые процедуры известных методов - метод, основанный на вейвлет преобразованиях Габора, и подпространство LDA, позволяет повысить качество распознавания лиц, сохранив скорость распознавания, которой будет достаточно для работы метода в режиме реального времени.
6. Список литературы
[Кудряшов, 2007] Куцряшов П.П. Алгоритм обнаружения лица человека для решения прикладных задач анализа и обработки изображений // Издательство физико-математической литературы. — М., 2007. — Т.2. — С.132-134.
[Etemand, Chellapa, 2005] Etemand К., Chellapa R. Discriminant analysis for recognition of human faces image // Journal of optical society of America A. — 2005. — P. 1724-1733.
[Henry, 2009] Henry R. Neural Network-Based Face Detection // School of Computer Science. — 2009.
[Kepenekci, 2001] Kepenekci B. Face recognition using gabour wavelet transform // Thesis, the Middle East Technical University. — September 2001.
[Kotropoulos, Pitas, 1997] Kotropoulos C., Pitas I. Rule-Based Face Detection in Frontal Views // Proc. Int'l Conf. Acoustics, Speech and Signal Processing (ICASSP). — 1997. — Vol. 4. —P. 2537-2540.
[Maydt, Lienhart, 2002] Maydt J., Lienhart R. Face Detection with Support Vector Machines and a Very Large Set of Linear Features // IEEE ICME. — 2002.
[Viola, Jones, 2001] Viola P., Jones M.J. Rapid object detection using a boosted cascade of simple features // In conference on computer vision and pattern. — 2001.
[Wiskott, 1997] Wiskott L., Fellous J.M., Kruger N.. Malsburg C. Face Recognition by Elastic Bunch Graph Matching // 19 Transactions on Pattern Analysis and Machine Intelligence. — 1997. — Vol. 19. — P. 775-779.
[Zhao et all, 1998] Zhao W., Chellapa R.„ Krishnaswamy A., Swets D., Weng J. Discriminant analysis of principle components for face recognition // 2nd International Conference on Automatic Face and Gesture Recognition. —April 1998. — P. 336-341.