Научная статья на тему 'Использование информации о динамике изменений человеческого лица для решения задач распознавания и классификации'

Использование информации о динамике изменений человеческого лица для решения задач распознавания и классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / КЛАССИФИКАЦИЯ ЛЮДЕЙ / ЛОКАЛЬНЫЕ БИНАРНЫЕ ШАБЛОНЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горин Сергей Викторович, Сулимов Александр Сергеевич

Рассмотрены подходы к решению задач распознавания и классификации людей в видеопотоке, описаны результаты антропологических исследований и возможность применения полученных результатов в рамках сферы компьютерного зрения. Произведен эксперимент, в котором сравниваются результаты распознавания и классификации двух подходов, основанных на анализе статической и динамической информации соответственно.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горин Сергей Викторович, Сулимов Александр Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Use of information on the dynamics of human face changes problems of recognition and classification

The approaches to solving the problems of pattern recognition and classification of people in the video are considered. The results of anthropological research and the ability to apply the results obtained within the scope of computer vision are covered. An experiment is carried out in which the results of recognition and classification of the two approaches, based on the analysis of static and dynamic information, respectively are compared.

Текст научной работы на тему «Использование информации о динамике изменений человеческого лица для решения задач распознавания и классификации»

УДК 004.93

Использование информации о динамике изменений человеческого лица для решения задач распознавания и классификации

© С.В. Горин, А.С. Сулимов МГТУ им. Н.Э. Баумана, Москва 105005, Россия

Рассмотрены подходы к решению задач распознавания и классификации людей в видеопотоке, описаны результаты антропологических исследований и возможность применения полученных результатов в рамках сферы компьютерного зрения. Произведен эксперимент, в котором сравниваются результаты распознавания и классификации двух подходов, основанных на анализе статической и динамической информации соответственно.

Ключевые слова: компьютерное зрение, распознавание образов, классификация людей, локальные бинарные шаблоны.

Подходы к анализу человеческого лица в видеопотоке могут быть разделены на две группы в зависимости от обрабатываемой временной информации. Первый подход основывается на обработке определенной последовательности кадров видеопотока как отдельных статических изображений. Второй подход основывается на обработке динамических изменений структуры лица.

Антропологические исследования в работах [1, 3, 4, 11] показали, что динамические изменения человеческого лица при ведении разговора, а также движения головы представляют ключевую информацию для решения задач классификации (гендерной, возрастной). О'Тоул в исследовании [18], основываясь на физиологических особенностях человеческого лица и его изменении, выдвигает следующие принципы:

• и статическая, и динамическая информация может быть использована для решения задач распознавания;

• статическую информацию предпочтительно использовать для решения задач идентификации;

• динамическая информация позволяет получить качественный результат в условиях меняющегося окружения (освещение, разрешение изображений);

• модель, основанная на динамике изменений, требует больше времени на обучение;

• модель, основанная на динамике изменений, предпочтительна для решения задач гендерной классификации;

• для решения задач классификации эмоций динамическая информация является фундаментальной.

Ключевым моментом является понимание физиологии человеческой мимики. Выражение эмоций, например, счастья, грусти, страха, удивления, с точки зрения мимики заключается в определенном движении мышц лица, т. е. изменении формы губ, век, кожи лица.

В рамках текущего исследования интерес представляет сравнение результатов распознавания, базирующегося на статической и динамической информации человеческого лица.

Для анализа статической информации человеческого лица и динамики его изменения в [14] предлагается использовать оператор локальных бинарных шаблонов, который результативно справляется с задачами распознавания объектов по шаблонам и применим к распознаванию динамических текстур.

Сравнительный анализ методов выделения особенностей человеческого лица в задачах распознавания. Среди множества существующих подходов для выделения особенностей при решении задачи распознавания и классификации человеческого лица наиболее популярными и применимыми в реальных системах являются:

1) метод главных компонент ГОЛ;

2) дискриминантный анализ ЬБЛ;

3) эластичные графовые модели ББОМ;

4) локальные бинарные шаблоны ЬБР [9, 10].

Основной идеей РСЛ является представление изображений лиц в виде набора главных компонент, которые и являются особенностями объекта распознавания. Главные компоненты принято называть «собственные лица». Вычисление собственных лиц заключается в определении собственных векторов и собственных значений ковариационной матрицы изображения. Стоит отметить, что существует возможность реконструировать исходное изображения, используя умножение главных компонент на вычисленные собственные векторы.

Процесс распознавания либо классификации заключается в построении для входного изображения определенного количества главных компонент. В зависимости от их числа увеличивается либо уменьшается чувствительность метода к шумам и мелким различиям в лицах. После этого вычисленные «собственные лица» сравниваются с компонентами изображений обучающей выборки. По определенному алгоритму ищется расстояние от входного изображения до изображения выборки и берется наилучший результат.

Линейный дискриминантный анализ позволяет редуцировать количество признаков распознаваемого объекта на изображении, которыми в простейшем случае являются значения интенсивностей пикселей. Каждая новая размерность характеристического вектора особенностей получается с помощью линейной комбинации значений пикселей многочисленных шаблонов. Основной целью таких преобразований является построение векторов особенностей таким образом, чтобы связь признаков внутри одного класса была как можно

более сильной, а связь признаков между классами, наоборот, наиболее слабой.

Особенный подход используется при построении эластичных графовых моделей человеческого лица. Целью метода является представление человеческого лица в виде деформируемого графа. В качестве вершин графа выделяются особые точки человеческого лица, которые могут вычисляться различными способами. Наиболее часто особые точки — это глаза, границы губ, брови. С каждой вершиной связывается определенный коэффициент, таким образом, геометрия лица кодируется с помощью ребер графа. Процедура идентификации нового лица или классификации заключается в вычислении функции сходства графов человеческих лиц.

Помимо математических и геометрических методов вычисления особенностей по изображению человеческого лица, стоит выделить группу методов, основанных исключительно на анализе текстур. К данной группе относится метод, основанный на использовании локальных бинарных шаблонов (ЛБШ). Исходное изображение разбивается на блоки фиксированного размера, и к каждому блоку применяется оператор ЛБШ. После этого вычисляются гистограммы каждого блока и конкатенируются в общую гистограмму особенностей изображения человеческого лица. Текстурные особенности имеют ряд преимуществ относительно ранее рассмотренных методов: они позволяют определить лицо в целом (PCA, ЬБЛ), а также описать особые регионы, представляющие особые точки (EBGM).

В связи с этим в последнее время наибольший интерес у исследователей представляют методы текстурного анализа для решения задач распознавания и классификации. В [10] авторы приводят результаты сравнения, в том числе рассмотренных ранее методов на различных наборах данных. Для проведения экспериментов была выбрана тестовая свободно распространяемая база изображений FERET [20], которая состоит из следующих наборов данных:

1) фронтальные изображения 1196 человек;

2) фронтальные изображения 1195 человек с выражениями эмоций;

3) 194 фронтальных изображения людей в различных условиях освещения.

Результаты исследования [10] приведены в табл. 1.

Таблица 1

Результаты сравнения методов распознавания

Метод Результат распознавания, %

Набор 1 Набор 2 Набор 3

ЬБР 97 76 92

РСА 85 71 81

ЬБА 82 67 75

ЕВ ОМ 90 66 85

Из результатов следует, что использование текстурной информации для вычисления характеристических векторов особенностей при решении задач распознавания является перспективным. Процент верно распознанных статических человеческих лиц даже в условиях изменения освещения и мимики достаточно высокий. Далее будет рассмотрена возможность применения локальных бинарных шаблонов для видеоизображений.

Особенности обработки динамики изменения человеческого лица. Существуют различные подходы к обработке динамики изменения человеческого лица. Рассмотрены некоторые из них, наиболее подходящие для решения задач распознавания и классификации в видеопотоке.

В данной работе рассматриваются методы, которые основываются на анализе текстур изображений. Тукеран и Джейн провели классификацию методов данной группы, согласно которой выделили четыре группы: статистические, геометрические, основанные на моделях и обработке сигналов [12].

Раньше всех были предложены статистические методы [4]. С появлением различных трудов в сфере обработки сигналов исследователи нашли их применение для обработки изображений. Так, для распознавания человеческих лиц в видеопотоках Ли и Чен [16] предлагают использовать траектории отслеживаемых особенностей лица. Извлеченные с помощью фильтра Габора черты лица используются для составления модели распознавания. По результатам эксперимента авторы показали увеличение качества распознавания, основанного на описанной модели, в сравнении с обычным покадровым моделированием.

Из группы методов, основанных на построении модели обрабатываемого изображения, можно выделить работы, в которых описывается применение скрытых марковских моделей для решения задач распознавания человеческих лиц в видеопотоке. Ли и Чен в своей работе [7] приводят классификацию методов, основанных на данном подходе.

Большинство описанных подходов и методов не позволяют производить обработку и анализ текстур изображений в реальном времени из-за своей вычислительной сложности. Основным альтернативным подходом является использование локальных бинарных шаблонов (ЛБШ), впервые предложенных в 1996 г. Оджалой и Пьеткаине-ном [9, 10]. Основным преимуществом является относительно малая сложность вычисления оператора ЛБШ. В связи с этим в последние годы были предложены новые методы решения многих задач компьютерного зрения. Многие ученые разработали модификации оператора ЛБШ для конкретных задач, например, для работы с трехмерными [5] и динамическими текстурами [12, 13].

Оператор локальных бинарных шаблонов для анализа статических свойств человеческого лица. Авторы ЛБШ руководствовались идеей ассоциации каждого пикселя изображения с группой пикселей его окрестности [9, 10]. Применение оператора ЛБШ позволяет каждому пикселю полутонового изображения поставить в соответствие бинарный код, который описывает его текстурные характеристики.

Оператор работает с группой пикселей и вычисляет бинарный код для центрального пикселя группы. На рис. 1 показаны фрагменты изображения размером 5*5 пикселей. Видно, что применение оператора ЛБШ зависит от количества пикселей окрестности, которыми описывается центральный пиксель области. На рис. 1, а код центрального пикселя зависит от 8 соседних пикселей, на рис. 1, б - от 16. Следует отметить, что соседние пиксели могут быть выбраны различными способами: на рис. 1, в показано, как задать другие 8 соседних пикселей. Т. е. выбор «соседей» зависит также от их расстояния до целевого пикселя. В зависимости от конкретной задачи, качества изображения эмпирическим путем выбирается количество значимых пикселей.

а б в

Рис. 1. Группы пикселей для применения оператора ЛБШ

Каждый пиксель изображения имеет определенное значение интенсивности. Применение оператора ЛБШ позволяет вычислить бинарный код определенного пикселя, используя значения интенсивно-стей пикселей-соседей. Графическая иллюстрация применения оператора ЛБШ приведена на рис. 2. Каждый квадрат условно описывает пиксель изображения. Так как оператор ЛБШ применим к полутоновым изображениям, то значения интенсивностей определяются градациями серого в интервале [0, 1], граничным значениям которого соответствуют 0 — белый цвет, 1 — черный цвет. Однако обычно принято для удобства вычислений нормализовать значения интенсивности таким образом, чтобы они изменялись в интервале [0, 100]. На рис. 2 значение интенсивности пикселя указано в центре квадрата. Координаты точек окрестности не всегда попадают точно в центры

пикселей, поэтому для вычисления значений этих точек используется билинейная интерполяция.

Пиксели, которые имеют значения интенсивности больше, чем центральный пиксель (или равное ему), принимают значения «1»; те, которые меньше центрального, — значения «0». Таким образом, получается бинарный код, представляющий окрестность пикселя.

Вычисление ЛБШ ЬБРр^к с радиусом Я (на рис. 1, а Я = 1, на рис. 1, б, в Я = 2) и количеством пикселей окрестности Р производится следующим образом:

ЬВРРЛ (хс, Ус) = X р-0 ^ (^ - + а у*, (1)

где gc - значение интенсивности центрального пикселя (хс, ус) текущей области; gp -^-й точки окрестности.

Для того чтобы можно было регулировать работу оператора в зависимости от качества входного изображения, вводится параметр а - специальное пороговое значение и пороговая функция л(х) имеет вид (2):

/ \ С1' х ^ 0'

*(х) = 1 О, иначе' (2)

Из примера на рис. 2 следует, что центральный пиксель описывается восьмиразрядным бинарным кодом 111010012. Стоит заметить, что выбор направления и начального пикселя для отсчета может быть произвольным. Так, в примере на рис. 2 был выбран левый верхний

Рис. 2. Обработка с использованием ЛБШ

пиксель и направление обхода «соседей» по часовой стрелке. Согласно формуле (1), чтобы получить значение ЛБШ оператора необходимо привести полученный бинарный код к десятичной системе счисления, т. е. получим:

111010012 = 1 + 8 + 32 + 64 +128 = 13310. (3)

Вычисление гистограммы ЛБШ определяется следующим образом: Я; = XI (ВР(X, у) = г), г = 0,..., п -1,

X, у

где Н - вычисляемая гистограмма, состоящая из п столбцов, п - максимальное значение бинарного кода, преобразованного в десятичную систему счисления. Величина п зависит от количества Р учитываемых соседних пикселей п = 2Р. Функция I описывается:

Г1, Х=ИСТИНА, 1 <= { 0, х=ЛОЖЬ. (4)

Применение описанной методики позволяет отслеживать изменения не только каждого пикселя, но и его окрестности. Таким образом, представление заднего плана адаптируется к таким проблемам при обнаружении движения в видеопотоке, как наличие шума, а также природных явлений (снег, дождь, качающаяся листва деревьев).

Оператор локальных бинарных шаблонов для анализа динамических свойств человеческого лица. Дзао в своей работе [16] предложил модификацию оператора ЛБШ для анализа динамических текстур. Им предложен анализ трех идущих подряд кадров видеопоследовательности: текущего, предыдущего и последующего.

Произвольный пиксель кадра видеопотока описывается как go,c = 1(х, у, ¿) и определяется, соответственно, своими координатами (х, у) и моментом времени t. Таким образом, целевые (центральные) пиксели описываются:

gi,c = I (х, у, г + Ш), I = -1,0,1, (5)

где х, у — координаты пикселя; t — момент времени появления кадра в видеопоследовательности; А t — промежуток времени между последовательными кадрами.

Соседние Р пикселей выбираются аналогично статическому ЛБШ:

g¡гр = I(х + хр, у + ур, г + Ш), р = 0,...,Р-1; г = -1, 0,1, (6)

где Р - количество соседних пикселей.

Динамический оператор ЛБШ, зависящий от промежутка времени между последовательными кадрами А^ количеством соседних пикселей Р и расстоянием между целевым и соседними пикселями Я, вычисляется по формуле

УЬВР^, р к = X ^+10 ? 2 *, (7)

где определяет значение функции (2), аргументами которой являются разности вида - g0JC), количество которых составляет (3Р + 2).

На рис. 3 показана вычислительная процедура динамического ЛБШ для А? = 1, Р = 4, Я = 1. Первым шагом является получение последовательных кадров видеоизображения (см. рис. 3, а). После того как получены кадры видеопотока, происходит вычисление интенсивности целевых и соседних пикселей (см. рис. 3, б). Следующим этапом является пороговая обработка, в результате которой значения интенсивностей соседних пикселей становятся равными «0» или «1». Заключительным шагом является вычисление бинарного кода динамического ЛБШ и его преобразование в десятичную систему счисления.

-О-

о

17

31 30 99

11

25

35 27 88

13

38

31 33 77

13

0

1 1 1

0

0

1 1

0

1

1 1 1

0

Рис. 3: а - иллюстрация последовательности кадров видеоизображения; б -значения интенсивностей пикселей кадров; в - значения интенсивностей пикселей каждого кадра после пороговой обработки

а

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

б

в

Результатом применения оператора ко всему изображению аналогично по формуле (4) является гистограмма, которая впоследствии может быть подана на вход классификатору для дальнейшей обработки.

Описание эксперимента.

Размеченная база данных с тестовыми видеоизображениями.

При составлении тестовой базы данных были установлены следующие признаки, которые необходимо учитывать при разработке метода:

• количество людей в сцене;

• ракурс, в котором человек движется в сцене;

• динамичный или статичный фон;

• проблемы, связанные с качеством изображений, разрешением, наличием шума.

Основными же признаками, по которым составляется база данных, являются:

• пол человека;

• возраст человека.

Требования, которыми руководствовались авторы для составления базы данных:

• разные сцены;

• разные положения людей (разные признаки).

При составлении базы каждой записи ставится в соответствие вектор признаков, который описывает экспертную оценку видеопотока по описанным признакам.

Оценка результатов. В качестве меры оценки точности работы методов используется так называемая частота распознавания, которая рассчитывается по формуле:

Е = ^, (8)

N

где Ыр — количество верно распознанных фрагментов, N — количество распознаваемых фрагментов.

Исходные данные и постановка задач. Для сравнения описанных подходов используются тестовые данные, которые предоставляются организациями, ведущими научные исследования в сфере компьютерного зрения. В зависимости от решаемых задач используются наборы данных:

• СЫМ состоит из 591 видеофрагмента, размер кадров 130 х 150 пикселей [18];

• У1ёТ1М1Т включает в себя 720 видеоизображений, размер кадров 320 х 240 пикселей [19].

В качестве параметров алгоритма ЛБШ выбираются следующие:

• количество соседних пикселей P = 8;

• расстояние от центральных пикселей до соседних R = 1 пикс.

Для применения динамического ЛБШ также учитывается значение промежутка времени между последовательными кадрами A t = 0,5 с.

Значения параметров были подобраны эмпирическим путем при обработке одного случайным образом выбранного видеофрагмента из тестовых баз данных.

Используемые средства. В качестве среды для проведения экспериментов был выбран пакет прикладных программ MATLAB. Для выделения особых характеристических точек при анализе человеческих лиц в видеопотоке использовалась свободно распространяемая библиотека The Machine Perception Toolbox [14].

Для классификации используются средства библиотеки LIBSVM [8].

Описание эксперимента. В листинге (1) представлен код для получения гистограммы LBP. В листинге (2) представлен код для вычисления VLBP, основанного на информации целого фрагмента видеопотока. Исходные видеофрагменты помещаются в отдельные папки в зависимости от проводимого эксперимента. К каждому фрагменту применяется вычисление гистограммы LBP/VLBP, генерируются файлы для обучения классификатора.

После этого к исходным видеофрагментам применяется оператор LBP, и полученная гистограмма подается на вход классификатору. В зависимости от результата классификации исходный видеофрагмент помещается в соответствующую папку. Зная имена исходных видеофрагментов, определяется количество корректно классифицированных данных.

Распознавание человеческих лиц. Исследовалась работа метода с видеоизображениями, имеющими различные размеры кадров 130 х 150 пикселей, содержащихся в CRIM [18], 320 х 240 пикселей из базы VidTIMIT [19]. Также производилось масштабирование видеофрагментов до размера кадра 40 х 30 пикселей.

В табл. 2 представлены результаты распознавания, полученные на описанной базе видеофрагментов. Из результатов видно, что метод, основанный на динамике изменений человеческого лица, значительно превосходит в частоте распознавания метод, использующий исключительно статические кадры для составления модели.

Стоит отметить, что при более высоком разрешении точность распознавания обоих методов выше. Однако при значительном размере кадра результаты изменяются незначительно.

Полученные результаты подтверждают выдвинутые в [11] принципы.

Таблица 2

Результаты распознавания

Метод Результат, %

40x30 пикс. 130x150 пикс. 320x240 пикс.

Основанный на статике изоб- 89,1 93,3 94,0

ражений

Основанный на динамике из- 94,7 98,1 98,2

менений изображений

Определение пола. В данном эксперименте в качестве используемых видеофрагментов для обучения и тестирования берутся изображения из свободно распространяемых баз данных СЫМ [18], У1ШМ1Т [19].

В процессе предобработки в каждом входном видеофрагменте осуществляется выделение особых точек — глаз и по их положению вычисляется область лица. Так как в данном и последующем экспериментах входные данные берутся из разных баз и не унифицированы, необходимым является масштабирование полученных видеофрагментов.

Результаты классификации приведены в табл. 3.

Таблица 3

Результаты гендерной классификации

Метод Результат, %

40x30 пикс. 130x150 пикс. 320x240 пикс.

Основанный на статике изоб- 90,6 93,4 92,1

ражений

Основанный на динамике из- 80,1 89,2 94,7

менений изображений

Из полученных результатов следует, что использование динамической информации при данном подходе не позволяет улучшить производительность метода при обработке изображений низкого разрешения. При увеличении размера кадра точность метода, основанного на применении УЬБР, превосходит показатели статического метода.

Определение возраста. Как и в предыдущем примере, в настоящем эксперименте используются свободно распространяемые базы видеофрагментов СИМ [18], У1ёТ1М1Т [19].

Процесс предобработки схож с описанным ранее и заключается в установлении особых точек, по которым определяется область лица, и масштабировании видеофрагментов до унифицированных размеров.

Для классификации были выбраны следующие возрастные группы:

• до 9 лет,

• от 10 до 19 лет,

• от 20 до 39 лет,

• от 40 до 59 лет,

• от 60 лет.

Результаты классификации приведены в табл. 4.

Таблица 4

Результаты возрастной классификации

Метод Результат, %

40x30 пикс. 130x150 пикс. 320x240 пикс.

Основанный на статике изоб- 77,6 83,2 83,9

ражений

Основанный на динамике из- 69,1 68,7 69,0

менений изображений

Полученные результаты показывают, что использование динамической информации не позволяет улучшить качество классификации человеческих лиц по возрасту.

Выводы. В настоящей работе были рассмотрены антропологические исследования в области физиологии человеческого лица и его применимости для решения задач распознавания. Также были выделены работы, в которых особое значение уделяется динамике изменения человеческого лица - мимике.

Для того чтобы проследить достоинства и недостатки использования данного подхода, были проведены следующие эксперименты:

• распознавание человеческого лица в видеопотоке;

• гендерная классификация;

• возрастная классификация.

В каждом эксперименте проверялись два метода, использующих модели, основанные на:

• статических характеристиках человеческого лица;

• динамике изменений человеческого лица.

Также прослеживалась зависимость влияния размера кадров видеоизображения на точность распознавания.

В качестве алгоритма выделения характеристических особенностей к кадрам видеопотока применялся оператор ЬБР, для классификации использовался $УМ.

Экспериментально было показано, что для решения задачи распознавания использовать информацию о динамике изменений человеческого лица целесообразно, что соответствует антропологическим исследованиям.

Также было установлено, что для решения задач классификации в рамках проводимых экспериментов целесообразно применять подход, основанный на динамической информации для видеоизображений размером от 320 х 240 пикселей. При меньшем разрешении применение данного метода не дает выигрыш в точности классификации.

В качестве дальнейших исследований необходимо рассмотреть и проанализировать методы определения характеристических точек, подходящих для решения широкого круга задач, от задач распознавания до классификации.

Листинги

Листинг 1. Получение гистограммы ЬБР для одного кадра видеопотока

01 I = imread('test.png');

02 mapping = getmapping(8, 'u2');

03 H = LBP(I, 1, 8, mapping, 'h');

Листинг 2. Получение гистограммы VLBP для последовательности кадров видеопотока

01 cd ('..\test\');

02 a = dir('*.jpg');

03 for i = 1 : length(a)

04 img_name = getfield(a, {i}, 'name');

05 img_dat = imread(img_name);

06 % Конвертирование в оттенки серого

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

07 if size(img_dat, 3) == 3

08 img_dat = rgb2gray(img_dat);

09 end

10 [height width] = size(img_dat);

11 if i == 1

12 vol_data = zeros(height, width, length(a))

13 end

14 vol_data(:, :, i) = img_dat;

14 end

15 cd ..

16

17 rotate_index = 1;

18 radius = 1;

19 time_int = 0.5;

20 neighbors = 8;

21 time_len = 1;

22 border_len = 1;

23 bil_interpolation = 1;

24 H = RIVLBP(vol_data, time_int, radius,

25 neighbors, border_len,

26 time len, rotate index, bil interpolation)

ЛИТЕРАТУРА

[1] Bassili J. Emotion recognition: The role of facial movement and the relative importance of upper and lower areas of the face. Journal of Personality and Social Psychology, 1979, vol. 37, N 27(2), pp. 2049-2059.

[2] Haralick R.M., Dinstein I., Shanmugaman K. Textural features for image classification. IEEE Trans. Syst. Man Cybern. SMC-3, 1993, pp. 610-621.

[3] Hill H., Johnson A. Categorizing sex and identity from the biological motion of faces. Current Biology, 2001, N 11(11), pp. 880-885.

[4] Knight B., Johnston A. The role of movement in face recognition. Visual Cognition, 1997, N 4, pp. 265-274.

[5] Leung T., Malik J. Representing and recognizing the visual appearance of materials using thee-dimensional texons. Int. J. Comput. 2001, vis. 43(1), pp. 29-44.

[6] LIBSVM URL: http://www.csie.ntu.edu.tw/ cjlin/libsvm/

[7] Liu X., Chen T. Video-based face recognition using adaptive Hidden Markov models. IEEE, 2003, pp. 340-345.

[8] Maenpaa T. The Local Binary Pattern Approach To Texture Analysis — Extensions And Applications: Ph.D. thesis. Infotech Oulu and Department of Electrical and Information Engineering. University of Oulu, 2003.

[9] Ojala T., Pietikainen M., Harwood D. Performance evaluation of texture measures with classification based on Kullback discrimination of distributions. Proceedings of the 12th IAPR International Conference on Pattern Recognition, 1994, vol. 1, pp. 582-585.

[10] Ojala T., Pietikainen M., Harwood D. A Comparative Study of Texture Measures with Classification Based on Feature Distributions. Pattern Recognition, 1996, vol. 29, pp. 51-59.

[11] O'Toole A.J., Roark D.A. Abdi H. Recognizing moving faces: A psychological and neural synthesis. Trends in Cognitive Science, 2002, N 6, pp. 261-266.

[12] Saisan P., Doretto G., Wu Y.N., Soatto S. Dynamic texture recognition. Proc. IEEE Conference of Computer Vision and Pattern Recognition, 2001, vol. 2, pp. 58-63.

[13] Szummer M., Jain, A.K. Temporal texture modeling. In: Proc. IEEE International Conference of Image Processing, vol. 3, pp. 823826, 1996.

[14] The Machine Perception Toolbox. URL: http://mplab.ucsd.edu/grants/project1/free-software/MPTWebSite/introduction.html.

[15] Tuceryan M., Jain A.K. Texture Analysis. The Handbook of Pattern Recognition and Computer Vision, 2ndedn. World Scientific, Singapore, 1998, pp. 207-248.

[16] Zhao G., Pietikainen M. Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE TP AMI, 2007, vol. 29(6), pp. 915-928.

[17] Маслий Р.В. Использование локальных бинарных шаблонов для распознавания лиц на полутоновых изображениях. Информационные технологии и компьютерная техника, 2008, т. 4, с. 6.

[18] Наборы данных для алгоритмов распознавания речи и мимики лица. URL: http://www.crim.ca/en (дата обращения: 18.12.2012).

[19] Наборы данных для алгоритмов распознавания речи и мимики лица. URL: http://itee.uq.edu.au/ conrad/vidtimit/ (дата обращения: 18.12.2012).

[20] Наборы данных FERET. URL: http://www.itl.nist.gov/iad/feret/ (дата обращения: 17.04.2013).

Статья поступила в редакцию 10.06.2013

Ссылку на эту статью просим оформлять следующим образом:

Горин С.В., Сулимов А.С. Использование информации о динамике изменений человеческого лица для решения задач распознавания и классификации. Инженерный журнал: наука и инновации, 2013, вып. 6. URL: http://engjournal.ru/catalog/it/hidden/774.html

Горин Сергей Викторович — доцент кафедры «Программное обеспечение ЭВМ и информационные технологии» МГТУ им. Н.Э. Баумана. Область научных интересов: информационные технологии, операционные системы, компьютерное зрение е-mail: gorin@bmstu.ru

Сулимов Александр Сергеевич — студент кафедры «Программное обеспечение ЭВМ и информационные технологии» МГТУ им. Н.Э. Баумана. Область научных интересов: компьютерное зрение. е-mail: alexander.soulimov@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.