Научная статья на тему 'КАТЕГОРИЗАЦИЯ ЭМОЦИЙ НА ОСНОВЕ ИНФОРМАЦИИ ИЗ ОБЛАСТЕЙ ЛИЦА С НАИБОЛЬШИМ НЕЛОКАЛЬНЫМ КОНТРАСТОМ'

КАТЕГОРИЗАЦИЯ ЭМОЦИЙ НА ОСНОВЕ ИНФОРМАЦИИ ИЗ ОБЛАСТЕЙ ЛИЦА С НАИБОЛЬШИМ НЕЛОКАЛЬНЫМ КОНТРАСТОМ Текст научной статьи по специальности «Нанотехнологии»

CC BY
29
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
лицо / эмоция / категоризация / нелокальный контраст / face / emotion / categorization / non-local contrast

Аннотация научной статьи по нанотехнологиям, автор научной работы — Бабенко В.В., Алексеева Д.С., Явна Д.В.

Обнаружено, что чем выше контраст областей лица, из которых сформирован стимул, тем точнее определяется экспрессия. Распознавание эмоций в лицах, сформированных из областей с наибольшим контрастом, приближается к показателям категоризации эмоциональных выражений в изображениях реальных лиц.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CATEGORIZATION OF EMOTIONS BY INFORMATION FROM THE FACE AREAS WITH THE HIGHEST NON-LOCAL CONTRAST

It was found that the higher the contrast of the face areas from which stimuli are formed, the more accurately the expression is determined. Recognition of emotions in faces formed from areas with the highest contrast is close to the performance of expression categorization in real face images.

Текст научной работы на тему «КАТЕГОРИЗАЦИЯ ЭМОЦИЙ НА ОСНОВЕ ИНФОРМАЦИИ ИЗ ОБЛАСТЕЙ ЛИЦА С НАИБОЛЬШИМ НЕЛОКАЛЬНЫМ КОНТРАСТОМ»

УДК 612.821.8

КАТЕГОРИЗАЦИЯ ЭМОЦИЙ НА ОСНОВЕ ИНФОРМАЦИИ ИЗ ОБЛАСТЕЙ ЛИЦА С НАИБОЛЬШИМ НЕЛОКАЛЬНЫМ КОНТРАСТОМ

DOI

Бабенко В. В., Алексеева Д. С., Явна Д. В.

Южный федеральный университет, Ростов-на-Дону, Россия e-mail: babenko@sfedu.ru

Аннотация: Обнаружено, что чем выше контраст областей лица, из которых сформирован стимул, тем точнее определяется экспрессия. Распознавание эмоций в лицах, сформированных из областей с наибольшим контрастом, приближается к показателям категоризации эмоциональных выражений в изображениях реальных лиц.

Ключевые слова: лицо, эмоция, категоризация, нелокальный контраст.

Введение.

Оптимизация процесса зрительного восприятия предполагает нахождение и обработку наиболее информативных областей входного изображения. Считается, что именно те его участки, которые сильнее всего отличаются по физическим параметрам от окружения, представляют для зрительной системы наибольший интерес и притягивают внимание наблюдателя [1—4].

Целью нашей работы было определить роль областей изображения с наибольшим приростом суммарного нелокального контраста по сравнению с окружением при решении задачи категоризации на примере лиц с разной экспрессией. Проверялась гипотеза, согласно которой информация из этих областей изображения наиболее полезна при категоризации.

Суммарный контраст определяется двумя переменными: контрастом отдельных градиентов яркости и количеством градиентов в данной области изображения. Поскольку вторая переменная вносит больший вклад в суммарную энергию сигнала, области изображения с наибольшим суммарным контрастом — это фактически участки с наибольшим скоплением градиентов яркости. Это дало нам основание предположить, что именно эти области изображения отличаются наибольшей информативностью.

Для решения поставленной задачи мы использовали разработанную нами компьютерную программу, вычисляющую карту мгновенных значений функции модуляции нелокального контраста по всему изображению. Благодаря такой карте появляется возможность создавать стимулы, используя области исходного изображения, которым соответствуют те или иные значения модуляции контраста. Методика.

В экспериментах в общей сложности приняли участие 87 испытуемых обоего поля, европейцев, в возрасте от 18 до 30 лет. Все участники имели нормальное или скорректированное до нормы зрение и не имели в анамнезе неврологических и психических заболеваний. Исследование было одобрено местной комиссией по этике и выполнялось с соблюдением этических норм.

Подбор лиц с разным эмоциональным выражением был произведен из свободно распространяемых баз данных. Отобрано 70 исходных фотографий мужских и женских лиц европейской расы анфас с выражением 6 базовых эмоций по П. Экману, а также с нейтральным выражением. Для разных экспрессий использовались разные лица.

Каждое исходное изображение подверглось обработке с помощью градиентного оператора суммарного нелокального контраста, представляющего собой концентрическую область с профилем разности двух Гауссиан, диаметр центра которой («окно») равняется ширине окружающего кольца. Величина прироста нелокального контраста в каждой позиции рассчитывалось как разница между суммарной энергией в центре оператора и на его периферии. Оператор сканирует все изображение и строит двумерную карту распределения амплитуды модуляции суммарного контраста. Изменение размера оператора позволяло строить карты для разных пространственных частот (в циклах на градус). При этом частота фильтрации в окнах разного диаметра была постоянной и составляла 4 цикла на окно. Полоса всех фильтров была одинаковой и равнялась 1 октаве.

Для каждого исходного изображения было построено 5 карт амплитуды модуляции (для 5 пространственных частот: 0,5, 1, 2, 4 и 8 цикл./град.). На каждой карте локальные максимумы прироста контраста ранжировались в порядке убывания значения амплитуды. Сначала определялось положение локальных максимумов, имеющих наибольшие и наименьшие значения амплиту-

ды модуляции контраста. При двукратном уменьшении диаметра оператора (и, соответственно, двукратном увеличении пропускаемой пространственной частоты), число выделяемых локальных максимумов увеличивалось вдвое. Затем между ближайшими минимумами и максимумами определялся локальный максимум, имеющий промежуточное значение амплитуды. В отобранные позиции помещалась круглая апертура с гауссовой передаточной функцией. Через нее пропускалось изображение, отфильтрованные на данной пространственной частоте. Диаметр апертуры равнялся диаметру центральной области градиентного оператора. Лицевые стимулы формировались путем объединения изображений, пропущенных апертурой из разных диапазонов пространственных частот. В результате формировалось 3 набора стимулов: изображения лиц, состоящие из областей с максимальным (Max), минимальным (Min) и промежуточным (Med) приростом нелокального контраста.

Перед началом эксперимента каждый испытуемый знакомился с примерами реальных лиц, выражающих базовые эмоции. В эксперименте стимулы предъявлялись в случайной последовательности, а их длительность не ограничивалась. Размер изображений составлял 8,5 угл.град. Наблюдатели решали задачу распознавания выражений лица, выбирая 1 из 7 возможных вариантов ответа, характеризующих эмоциональную экспрессию. Ответы давались устно. Определялся процент правильных ответов для каждого типа стимула. Результаты.

В эксперименте 1, в котором приняло участие 38 испытуемых, ставилась задача сравнить точность распознавания экспрессий для стимулов, сформированных из областей с разным приростом нелокального контраста (был возможен ответ «не знаю»).

Обнаружено, что в задаче категоризации лицевой экспрессии результат существенно улучшается при увеличении амплитуды модуляции суммарного контраста фрагментов, из которых синтезирован стимул (рис. 1).

Рис. 1. Зависимость точности категоризации эмоционального выражения лица от амплитуды модуляции нелокального контраста областей, из которых сформирован стимул.

Использование ЛЫОУЛ доказало статистическую значимость полученной зависимости ((Б (2,35) = 30.332, р < 0.001). Последующий анализ с использованием теста Тьюки с поправками Бонфе-рони и Холма также показал, что точность, с которой испытуемые различают эмоции в лицах, сформированных из областей с разной амплитудой модуляции контраста, значимо возрастает при увеличении амплитуды. Полученные результаты указывают на то, что информативность областей изображения для зрительной системы человека тем выше, чем больше суммарный контраст этих областей отличается от окружения.

В эксперименте 2, в котором приняли участие 49 испытуемых, использовались стимулы, сформированные только из областей с наибольшим приростом контраста, а также изображения реальных лиц. Данные наборы стимулов не пересекались. Всего было использовано по 70 синтезированных и нефильтрованных лицевых изображений (10 лиц х 7 экспрессий х 2 набора). Стимулы предъявлялись в случайной последовательности и не ограничивались по времени. От испытуемых требовался вынужденный выбор из 7 возможных вариантов ответа.

Результаты, полученные в эксперименте 2, отражены на рисунке 2.

Рис. 2. Точность распознавания экспрессий в реальных (темно-серые столбики) и синтезированных (светло-серые столбики) лицах.

В среднем результат категоризации экспрессий был ожидаемо несколько выше (примерно на 10 %) при восприятии естественных изображений лиц по сравнению с синтезированными стимулами. При этом, если для эмоций отвращения, удивления, радости, а также нейтрального выражения точность распознавания была выше для изображений реальных лиц, то страх, гнев и печаль распознаются в реальных изображениях фактически с той же точностью, что и в синтезированных.

Важно отметить, что в ряду постепенного увеличения точности решения задачи экспрессии сформировали одинаковую последовательность как в случае реальных, так и в случае синтезированных лиц. Статистическая обработка с использованием ранговых коэффициентов корреляции показала, что речь идет о схожих зависимостях (Kendall's тЬ (47) = 1, p = 0.000). Это может означать, что естественный ход процесса обработки информации не нарушается при замене реального лица изображением, созданным из фрагментов с наибольшим приростом контраста.

Обсуждение результатов. Считается, что для восходящего управления зрительным вниманием используются преаттентивные механизмы, обнаруживающие во входном изображении области неоднородностей его физических характеристик. Действительно, в зрительной системе человека имеются так называемые зрительные фильтры второго порядка [5], которые способны находить про-

странственные модуляции контраста. В конструкции созданного нами оператора отражены свойства этих фильтров. Фактически они находят во входном изображении области с наибольшим скоплением градиентов яркости.

Многочисленные исследования продемонстрировали, что разные экспрессии распознаются людьми с разной эффективностью, формируя определенную последовательность. В нашем эксперименте такая последовательность также имела место. Причем она сохранялась и при восприятии изображений, сформированных только из областей с наибольшим приростом контраста. Это может говорить о том, что при некотором общем снижении точности решения задачи, замена реального изображения на фрагментарное не нарушает общую логику процесса обработки.

Потенциально точность распознавания экспрессий в изображениях, сформированных из областей с наибольшим приростом контраста, может быть повышена внесением некоторых усовершенствований в параметры градиентного оператора. Заключение.

Полученные результаты свидетельствуют о том, что информативность областей изображения может определяться отличием этих областей от окружения по такому физическому параметру, как суммарный нелокальный контраст. При этом зрительные фильтры второго порядка, выделяющие области изображения с наибольшим скоплением градиентов яркости, являются подходящими кандидатами на роль механизма поиска «областей интереса» и могут играть роль окон, через которые информация из этих участков изображения передается на последующие уровни обработки.

Исследование выполнено при финансовой поддержке Российского научного фонда (проект 20—64—47057).

Список литературы:

1. Bruce N. D. B., Tsotsos J. K. Saliency, attention, and visual search: An information theoretic approach//Journal of Vision.- 2009.- 9 (3):5, P. 1—24.

2. Marat S., Rahman A., Pellerin D., Guyader N., Houzet D. Improving Visual Saliency by Adding 'Face Feature Map' and 'Center Bias'// Cognitive Computation.- 2013.- Vol. 5, No 1.- P. 63—75.

3. Perazzi F., Krahenbuhl P., Pritch Y., Hornung A. Saliency Filters: Contrast Based Filtering for Salient Region Detection//IEEE

Conference on Computer Vision and Pattern Recognition.- 2012.-P. 733—740.

4. Xia C., Qi F., Shi G., Wang P. Nonlocal center-surround reconstruction-based bottom-up saliency estimation//Pattern Recognition.-2015.- Vol. 48, No 4.- P. 1337—1348.

5. Graham N. V. Beyond Multiple Pattern Analyzers Modeled as Linear Filters (as Classical V1 Simple Cells): Useful Additions of the Last 25 Years//Vision Research.- 2011.- 51 (13):1397—1430.

CATEGORIZATION OF EMOTIONS BY INFORMATION FROM THE FACE AREAS WITH THE HIGHEST NON-LOCAL CONTRAST

Babenko V. V., Alekseeva D. S., Yavna D. V.

Southern Federal University, Rostov-on-Don, Russia

Abstract: It was found that the higher the contrast of the face areas from which stimuli are formed, the more accurately the expression is determined. Recognition of emotions in faces formed from areas with the highest contrast is close to the performance of expression categorization in real face images.

Key words: face, emotion, categorization, non-local contrast

i Надоели баннеры? Вы всегда можете отключить рекламу.