УДК 004.891.3
М. Н. Пилипенко, Е. Ю. Латышева, А. А. Бойко,
И. Н. Спиридонов
Исследование алгоритмов автоматического обнаружения двигательных единиц по изображению лица
Ключевые слова: обнаружение двигательных единиц лица, локальные бинарные шаблоны, закон Вебера, метод kближайших соседей, дискриминантный анализ, ансамбль методов классификации.
Keywords: action unit detection, local binary patterns, Weber's law descriptor, k-nearest neighbor, discriminant analysis, ensemble methods.
Выполнен обзор подходов к обнаружению двигательных единиц на изображении лица. Рассмотрены основные методы вычисления текстурных признаков изображения и классификации на основе вычисленных признаков. Представлен пример обнаружения двигательных единиц на изображениях базы данных ММ1 с помощью текстурных признаков, вычисленных на основе локальных бинарных шаблонов и закона Вебера. Показано, что использование признаков на основе закона Вебера позволяет повысить вероятность правильного обнаружения двигательных единиц по сравнению с локальными бинарными шаблонами.
Введение
Методы бесконтактного определения состояния человека на основе невербального поведения применяются при определении стресса, напряженного состояния человека-оператора [1] в сфере безопас-
ности труда, предрасположенности людей к деви-антному поведению [2] в сфере общественной безопасности, при портретной экспертизе в криминалистике, описании болевых симптомов и заболеваний в медицине.
Для описания мимических движений лица часто используется система кодирования лицевых движений (СКЛиД, англ. Facial Action Coding System, FACS). В ней выделен ограниченный набор двигательных единиц (ДЕ, англ. Action Units, AUs): 9 ДЕ в верхней части лица, 18 ДЕ в нижней части лица, а также 20 двигательных дескрипторов глаз и головы. Двигательные единицы представляют собой основные движения, совершаемые отдельными мышцами лица, а двигательные дескрипторы — движения, совершаемые группами мышц лица.
Предикторами напряженного состояния человека являются отрицательные базовые эмоции. К отрицательным эмоциям относят страх, печаль, отвращение и гнев. В СКЛиД отрицательные эмоции описываются комбинациями четырех двигательных единиц: ДЕ 4 — брови опущены; ДЕ 17 — подбородок поднят; ДЕ 25 — губы разведены; ДЕ 26 — че-
ДЕ 4
ДЕ 17
ДЕ 25
ДЕ 26
Рис. 1 \ Двигательные единицы, наиболее часто встречающиеся при отрицательных эмоциях
люсть опущена (рис. 1). В работе для исследования взяты указанные двигательные единицы.
Анализ ДЕ лица на изображении осуществляется в три этапа: 1) обнаружение и сопровождение области лица на изображении; 2) формирование вектора признаков изображения лица, описывающих ДЕ; 3) определение наличия или отсутствия ДЕ на изображении лица, т. е. обнаружение ДЕ, на основе классификации вектора признаков.
Для формирования вектора признаков при анализе ДЕ лица выделяют два основных типа признаков изображений: геометрические (англ. Geometric features) и текстурные (англ. Appearance features).
Геометрические признаки могут быть представлены контрольными точками лица [3] и активной моделью формы (англ. Active shape model, ASM). Однако такой подход не позволяет обнаружить некоторые ДЕ, например ДЕ 11 и ДЕ 14, а также различать ДЕ 6 и ДЕ 7. Существенным недостатком геометрических признаков является нестабильность расстановки контрольных точек лица.
Текстура изображения позволяет выявить движения мышц лица, приводящие к появлению мимических борозд, морщинок и углублений, ямочек и других особенностей. При анализе текстур применяют фильтры Габора (англ. Gabor feature) [4, 5], признаки, инвариантные к преобразованию масштаба (англ. Scale invariant feature transform, SIFT), гистограммы ориентированных градиентов (англ. Histograms of oriented gradients, HOG), метод главных компонент, признаки на основе локальных бинарных шаблонов (ЛБШ; англ. Local binary patterns, LBP) [4, 6, 7], локального фазового квантования (ЛФК; англ. Local phase quantization, LPQ) [6] и закона Вебера (англ. Weber's law descriptor, WLD), локальные признаки направлений (англ. Local directional pattern, LDP) и их модификации.
Признаки текстуры также анализируются во времени (динамические текстуры, англ. Motionfeatures). К этим методам можно отнести метод оптического потока (англ. Optical flow), изображения с историей движения (ИИД; англ. Motion history images, MHI) [8], локальные бинарные шаблоны и локальное фазовое квантование для динамических текстур (англ. Volume local binary patterns, VLBP), локальные бинарные шаблоны в трех ортогональных плоскостях (ЛБШ-ТОП; англ. LBP-TOP), локальное фазовое квантование в трех ортогональных плоскостях (ЛФК-ТОП; англ. LPQ-TOP) [4, 6], свободная деформация объекта (СДО; англ. Free-form deformations) [8], сверточное разреженное представление (англ. Convolutional sparse coding).
В ряде работ показано, что результаты обнаружения можно улучшить, если одновременно применять геометрические и текстурные признаки [6]. Другой подход заключается в отборе наиболее информативных признаков с помощью алгоритмов бу-стинга (англ. AdaBoost, GentleBoost, RobustBoost, LogitBoost).
Обнаружение ДЕ осуществляется на основе бинарной классификации с помощью метода опорных векторов (МОВ; англ. Support vector machine, SVM), скрытых марковских моделей (англ. Hidden markov model, HMM), нейронных сетей, динамических байесовских сетей и других методов классификации.
К настоящему моменту опубликовано значительное количество работ, посвященных обнаружению ДЕ. Сопоставлению результатов, полученных различными исследователями, препятствует ряд факторов, к которым могут быть отнесены: 1) проведение исследований с использованием различных баз данных; 2) применение различных методов классификации и программных средств для обнаружения ДЕ; 3) использование различных характеристик качества обнаружения ДЕ.
В табл. 1 приведены опубликованные результаты разработки и исследования методов обнаружения ДЕ лица. В качестве критерия сравнения алгоритмов указана вероятность правильного обнаружения ДЕ (отношение числа правильно классифицированных изображений ДЕ к общему количеству изображений). Для анализа выбраны работы, в которых рассмотрена хотя бы одна из ранее перечисленных ДЕ (4, 17, 25, 26) и вероятность правильного обнаружения составляет не менее 70 %.
Анализ данных, представленных в табл. 1, позволяет сделать следующий вывод: наибольшая вероятность правильного обнаружения рассматриваемых двигательных единиц достигается при применении СДО [8] (ДЕ 17 и 26) и фильтров Габора (ДЕ 4 и 26). Вместе с тем ряд текстурных признаков, например ЛБШ, недостаточно изучен (имеются достоверные данные об использовании ЛБШ только для одной ДЕ), а достоверные результаты обнаружения ДЕ для части перечисленных выше текстурных признаков отсутствуют. В настоящей работе осуществлена попытка устранения этого пробела.
Описание хода исследования
Текстурные признаки. В качестве текстурных признаков в настоящей работе выбраны ЛБШ и дескриптор на основе закона Вебера (ДЗВ), ранее не применявшийся в задачах распознавания ДЕ лица.
ЛБШ описывают текстуры полутоновых изображений, являются инвариантными к небольшим изменениям условий освещения и небольшим поворотам изображения [7]. Алгоритм на основе ЛБШ до появления алгоритмов на основе сверточных нейронных сетей давал лучшие результаты в задаче распознавания лиц. В настоящее время этот признак часто применяется и способен обеспечить высокие результаты обнаружения ДЕ (см. табл. 1).
Вторым выбранным для исследования текстурным признаком является ДЗВ, базирующийся на законе Вебера, согласно которому восприятие че-
биотехносфера
| № Б(48)/201Б
Таблица 1 Результаты исследований по обнаружению двигательных единиц лица на изображении с применением различных текстурных признаков
Публикация База Признаки Метод классификации ДЕ Вероятность правильного обнаружения ДЕ, %
4 91,3
СДО 17 83,7
25 90,5
MMI 26 95,5
2010 [8] GentleBoost 4 76,1
ИИД 17 74,2
25 71,6
26 82,2
SAL СДО 25 92,9
26 76,2
MMI ЛБШ 91,9
ЛФК 92,0
2011 [6] SEMAINE ЛБШ МОВ 4 94,3
ЛФК 84,3
MMI ЛБШ-ТОП 89,2
ЛФК-ТОП 88,3
4 96,1
MMI 25 90,9
2012 [3] Фильтры Габора МОВ 26 87,5
4 87,0
CK-db 25 85,1
26 90,2
2014 [4] SAL Data ЛФК-ТОП МОВ, GentleBoost 25 82,4
26 75,8
ловеком воздействия пропорционально приращению силы раздражителя. Поскольку вычисление дескриптора основано на установленных психофизиологических закономерностях, исследование возможности его применения для анализа изображений лица представляет интерес.
Классификаторы. Для обнаружения ДЕ применены следующие методы классификации, реализованные в пакете Statistics Toolbox среды Matlab R2016a:
• ансамбли методов классификации (англ. Ensemble Methods) — RobustBoost, GentleBoost, LogitBoost, AdaBoost M1;
• дискриминантный анализ (англ. Fit discriminant analysis classifier) со свойствами pseudo quadratic, pseudo linear, diag quadratic, diag linear, linear;
• квадратичный дискриминантный анализ (англ. Quadratic Discriminant Analysis);
• наивный байесовский классификатор (англ. Naïve Bayes Classifier);
• деревья решений (англ. Tree dassifier);
• МОВ;
• метод k ближайших соседей (англ. KNN classifier).
База изображений. Изображения для исследований взяты из аннотированной базы видеоизображений MMI, содержащей выражения спонтанных эмоций. На основе данных табл. 1 можно отметить, что эта база применяется часто, ее достоинства заключаются в наличии покадровой разметки изображений и доступности для исследователей.
Для обучения и тестирования алгоритмов были отобраны изображения, на которых присутствовали указанные выше четыре ДЕ, отражающие отрицательные эмоции. Общее количество изображений, соответствующих каждой из рассматриваемых ДЕ, приведено на рис. 2.
реализации алгоритмов. Для выделения области лица к изображению применялся детектор П. Виолы и M. Джонса, далее изображение лица масштабировалось до размеров 200*200 пикселей.
ДЕ 25; 4622
Таблица 3 1 Результаты исследований для ДЕ 17
ДЕ 26; 4057 Классификатор Текстурный признак Вероятность правильного обнаружения ДЕ, %
Метод k ближайших 84,4
соседей
Дискриминантный анализ (Pseudo linear) ДЗВ 80,1
Дискриминантный анализ (Pseudo quadratic) 79,5
Рис. 2
Количество изображений для обучения и тестирования алгоритмов обнаружения ДЕ
Рис. 3 \ Области рта и бровей
Для вычисления текстурных признаков ЛБШ использована готовая реализация соответствующего алгоритма (ресурс Matlab Central). Для исследования рассчитывались признаки ЛБШ как для лица полностью, так и для областей рта и бровей (рис. 3).
Для вычисления текстурных признаков на основе закона Вебера была также использована готовая реализация алгоритма (ресурс University of Oulu). Значения признаков вычислялись для областей рта и бровей.
Результаты экспериментальных исследований
Результаты исследований для каждой из рассматриваемых ДЕ представлены в табл. 2—5. В каждой из таблиц приведены три наиболее удачные комбинации классификаторов и текстурных признаков, обеспечивающие наибольшую вероятность правильного обнаружения ДЕ. Комбинации классификаторов и текстурных признаков приведены
Таблица 2 | Результаты исследований для ДЕ 4
Классификатор Текстурный признак Вероятность правильного обнаружения ДЕ, %
Метод k ближайших соседей ДЗВ 86,1
ЛБШ области лица 84,5
МОВ 81,6
Таблица 4 | Результаты исследований для ДЕ 25
Классификатор Текстурный признак Вероятность правильного обнаружения ДЕ, %
Метод k ближайших соседей ДЗВ 84,1
Logit boost 83,2
Robust boost 82,3
Таблица 5 | Результаты исследований для ДЕ 26
Классификатор Текстурный признак Вероятность правильного обнаружения ДЕ, %
Метод k ближайших соседей ДЗВ 85,8
Logit boost 83,1
Gentle boost 79,8
в порядке убывания вероятности правильного обнаружения ДЕ.
В табл. 6 представлены лучшие результаты обнаружения ДЕ при использовании ДЗВ и ЛБШ. Результаты исследований по изображениям базы данных ММ1 показали, что вероятность правильного обнаружения ДЕ является наибольшей при
Таблица 6 Результаты исследований для ДЕ 4, ДЕ 17, ДЕ 25, ДЕ 26 с использованием ДЗВиЛБШ
Признак Метод классификации ДЕ Вероятность правильного обнаружения ДЕ, %
ДЗВ области глаз для ДЕ 4 и области рта для ДЕ 17, ДЕ 25, ДЕ 26 Метод & ближайших соседей 4 86,1
17 84,4
25 84,1
26 85,8
ЛБШ области лица Метод & ближайших соседей 4 84,5
17 71,2
25 72,7
26 73,2
МОВ 4 81,6 [данная работа], 91,9 [6]
биотехносфера
| № Б(48)/201Б
применении текстурного признака ДЗВ и метода к ближайших соседей. При этом результаты, полученные с применением текстурных признаков ЛБШ, оказались не такими высокими, как в работе [6].
Выводы
В статье проанализированы результаты опубликованных работ по обнаружению четырех ДЕ на изображении лица (4, 17, 25, 26) с применением различных текстурных признаков и приведены результаты собственных исследований качества обнаружения указанных ДЕ с применением текстурных признаков ЛБШ, рассчитываемых как по всей области лица, так и для двух областей (глаз и рта), и ДЗВ, рассчитываемого для двух указанных областей лица. Независимо от вида использованных признаков наилучшие результаты обнаружения ДЕ демонстрирует метод к ближайших соседей.
Показано, что результаты, получаемые с помощью ЛБШ, хуже, чем представленные в работе [6] для той же базы изображений и того же метода классификации. Впервые использованный для обнаружения ДЕ лица текстурный признак, вычисляемый на основе закона Вебера, обеспечивает большую вероятность правильного обнаружения ДЕ по сравнению с ЛБШ. Полученные результаты свидетельствуют о перспективности использования ДЗВ в системах, осуществляющих распознавание ДЕ лица.
Литература
1. Латышева Е. Ю., Кураева Л. Х., Спиридонов И. Н. Методика контроля психофизиологического состояния обучаемого // Инженер. журн.: наука и инновации. 2015. № 8 (34).
2. Бойко А. А. Подходы к автоматизированному определению склонности человека к противоправным действиям по мимическим проявлениям // Физика и радиоэлектроника в медицине и экологии: докл. XI МНТК с элементами научной молодежной школы, Владимир, 1—3 июля 2014 г. Владимир, 2014. Кн. 2. С. 36-39.
3. Valstar M. F., Pantic M. Fully Automatic Recognition of the Temporal Phases of Facial Actions // IEEE Transactions on Systems, Man, and Cybernetics. P. B: Cybernetics. 2012. Vol. 42, N 1. P. 28-43.
4. Jiang B.,Valstar M. F., Martinez B., Pantic M. A Dynamic Appearance Descriptor Approach to Facial Actions Temporal Modelling // IEEE Transactions on Cybernetics. 2014. Vol. 44. N 2. P. 161-174.
5. Kashapova L. Kh., Latysheva E. Yu., Spiridonov I. N. Discriminant Analysis of Two-Dimensional Gabor Features for Facial Expression Recognition // Biomedical Engineering. 2012. Vol. 46, N 3. P. 89-92.
6. Jiang B., Valstar M. F., Pantic M. Action Unit detection using sparse appearance descriptors in space-time video volumes // Proceedings of IEEE International Conference on Automatic Face and Gesture Recognition (FG'11). Santa Barbara, CA, USA, March 2011. P. 314-321.
7. Петрук В. И., Самородов А. В., Спиридонов И. Н. Применение локальных бинарных шаблонов к решению задачи распознавания лиц // Вестн. Московского государственного технического университета им. Н. Э. Баумана. Сер. Приборостроение. 2011. № S. С. 58-63.
8. Koelstra S., Pantic M., Patras I. Y. A Dynamic Texture-Based Approach to Recognition of Facial Actions and Their Temporal Models //IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010. Vol. 32, N 11. P. 1940-1954.
f x
Как оформить подписку?
• В любом отделении связи по каталогам «Роспечать» (по России) — индекс № 45886, через агентства «Урал-Пресс», «Информнаука», «Прессинформ».
• Через редакцию (с любого номера текущего года), отправив по факсу (812) 312-53-90 или электронной почтой [email protected] заполненный запрос счета на подписку.
Запрос счета для редакционной подписки на журнал «Биотехносфера»
Полное название организации_
Юридический адрес_
Банковские реквизиты_
Адрес доставки_
Срок подписки Количество экземпляров
Телефон Факс e-mail
Ф.И.О. исполнителя
Стоимость одного номера журнала при подписке через редакцию — 700 руб. с добавлением стоимости доставки (простой бандеролью). К каждому номеру журнала будут приложены накладная и счет-фактура. Журнал выходит 6 раз в год. Отдельные номера можно заказать с получением наложенным платежом. Информация о журнале — www.polytechnics.ru
Журнал «Биотехносфера» распространяется только по подписке в России и странах СНГ.