Научная статья на тему 'Снижение ошибки распознавания подобных эмоций посредством формирования обучающей выборки с учетом их альтернативного выражения'

Снижение ошибки распознавания подобных эмоций посредством формирования обучающей выборки с учетом их альтернативного выражения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
166
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ЭМОЦИЙ / ПОДОБНЫЕ ЭМОЦИИ / СИСТЕМА КОДИРОВАНИЯ ЛИЦЕВЫХ ДВИЖЕНИЙ / НЕЙРОННЫЕ СЕТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тюрин Артем Игоревич, Безыкорнов Денис Сергеевич

В данной работе рассматривается проблема распознавания подобных эмоций. Выявляются пары эмоций, с наибольшей ошибкой взаимного распознавания: Гнев-Отвращение, Печаль-Нейтральная. Для снижения ошибки в обучающий набор добавляются альтернативные варианты выражения эмоций с учетом возможностей алгоритмов поиска ключевых лицевых точек. Общая ошибка распознавания пар Гнев-Отвращение, Печаль-Нейтральная уменьшается на 19,6% и 15,3% соответственно

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Снижение ошибки распознавания подобных эмоций посредством формирования обучающей выборки с учетом их альтернативного выражения»

Снижение ошибки распознавания подобных эмоций посредством формирования

обучающей выборки с учетом их альтернативного выражения Тюрин А.И.1, Безыкорнов Д.С.2

Дюрин Артем Игоревич / Tyurin Artem Igorevich - магистр;

2Безыкорнов Денис Сергеевич /Bezykornov Denis Sergeevich - магистр, кафедра Информатики и систем управления,

ФГБОУ ВПО «Нижегородский государственный технический университет имени Р.Е. Алексеева», г. Н.Новгород

Аннотация: в данной работе рассматривается проблема распознавания подобных эмоций. Выявляются пары эмоций, с наибольшей ошибкой взаимного распознавания: Гнев-Отвращение, Печаль-Нейтральная. Для снижения ошибки в обучающий набор добавляются альтернативные варианты выражения эмоций с учетом возможностей алгоритмов поиска ключевых лицевых точек. Общая ошибка распознавания пар Гнев-Отвращение, Печаль-Нейтральная уменьшается на 19,6% и 15,3% соответственно.

Ключевые слова: распознавание эмоций, подобные эмоции, система кодирования лицевых движений, нейронные сети.

Введение

Решение задачи построения автоматизированной системы распознавания эмоций является одним из наиболее интересных и перспективных направлений компьютерного зрения. Трансляция «языка тела» в формат, возможный для регистрации существующими алгоритмами встречается с определенными трудностями. Для изменения своего внешнего вида человеческое лицо использует 44 мышцы, с помощью которых количество различных психологических проявлений эмоций достигает 3 тысяч. Технические возможности в настоящий момент не позволяют запрограммировать распознавания всех вариантов выражения лиц. В построенной системе ведется распознавание шести базовых эмоций:

• радость; • отвращение;

• удивление; • печаль;

• гнев; • страх.

Классификация эмоций происходит с использованием нейронной сети на основе системы кодирования лицевых движений (СКЛиД) предложенной Полом Экманом и Уоллесом Фризеном в 1979 году [1]. Основные наборы двигательных единиц (ДЕ), наиболее часто встречающиеся в проявлении конкретных эмоций, составляют «прототипы» эмоций [2].

Человеку, не прошедшему специальную подготовку зачастую трудно достоверно определять эмоции в связи со схожим проявлением некоторых их групп. На уровне автоматизированной системы распознавание движений определенных групп лицевых мышц сводится к подсчету одного и того же расстояния между ключевыми точками. При этом информационное представление части эмоций является одинаковым, с минимальными отличиями, что снижает общее качество распознавания.

Данное исследование представляет определение групп подобных эмоций, поиск их различий в информационном представлении, и создание обучающей выборки изображений с учетом альтернативных выражений подобных эмоций.

Теоретическая часть

Задача построения автоматизированной системы распознавания эмоций встречается с определенными проблемами. Одной из них является распознавание пар подобных эмоций. Примеры распознавания обученной системы приведены в таблице 1:

Таблица 1. Процент распознавания пар эмоций

Гнев Нейтраль Отвращение Печаль Радость Страх Удивление

Гнев 67,1 8,6 22,9 8,6 5,7 0,0 0,0

Нейтраль 0,0 72,8 5,7 17,1 0,0 0,0 0,0

Отвращение 14,3 2,9 71,4 8,6 0,0 0,0 0,0

Печаль 2,9 20,0 0,0 72,8 2,9 0,0 0,0

Радость 0,0 0,0 0,0 0,0 91,4 2,9 0,0

Страх 2,9 0,0 2,9 0,0 5,7 88,6 2,9

Удивление 0,0 0,0 0,0 0,0 0,0 5,7 95,7

На главной диагонали таблицы 1 располагается общий процент верного распознавания соответствующей эмоции. Пересечения строк и столбцов соответствуют ошибкам первого и второго рода. Как видно, лучшие результаты дают эмоции с наибольшим изменением мышц лица - удивление, радость и страх. Полученные значения соответствуют психологическому восприятию. Разница между ошибками первого и второго рода объясняется большой вариативностью лиц.

Наиболее трудными парами эмоций для различения являются: Г нев -Отвращение и Печаль - Нейтральная с суммарными ошибками распознавания в 37,2% и 37,1% соответственно. Данные пары были выбраны для дальнейшего анализа и повышения качества их распознавания.

В существующих открытых источниках подробное исследование проблемы распознавания подобных эмоций не проводилось, возможные решения приведены из общего анализа построения систем распознавания эмоций.

Обучающая выборка строится на основе главных вариантов выражений лиц при той или другой эмоции, называющихся «прототипами».

Основными прототипами для рассматриваемых эмоций являются:

• 1 + 4 + 11 + 15В - эмоция печали;

• 9 + 16 + 15 + 26 - эмоция отвращения;

• 4 + 5 + 7 + 17 + 24 - эмоция гнева.

Изображения лиц с данными прототипами составляют обучающую выборку. Пример изображений представлен на рисунке 1:

Рисунок 1. Двигательные единицы на фотографиях обучающей выборки. Верхняя пара эмоций - Гнев и Отвращение.

Нижняя пара - Печаль и Нейтральная

Рисунок 1 показывает, что выражение некоторых двигательных единиц (далее ДЕ) на лице происходит с минимальным отличием. Таким образом, ДЕ 17 (подниматель подбородка) и ДЕ 26 (челюсть опущена) выражаются почти одинаково для пары Гнев-Отвращение, а ДЕ 15 (опускатель уголка губы) почти незаметно выражается для эмоции печали по сравнению с нейтральной эмоцией.

Для классификации эмоций в построенной системе используется нейронная сеть. Для представления данных на ее вход производится расчет определенных расстояний между ключевыми точками, которые соответствуют различным ДЕ. В настоящее время возможности алгоритмов поиска ключевых лицевых

точек не позволяют однозначно определять каждую ДЕ, в результате чего часть движений лицевых мышц кодируются одними и теми же расстояниями. Добавление дополнительных расстояний для регистрации ДЕ на этом этапе показывает низкую эффективность из-за достаточности существующей системы расчета.

В результате общего рассмотрения возможных вариантов решения и психофизиологического проявления эмоций было принято решение о добавлении дополнительных наборов изображений в обучающую выборку, таких что:

1. Прототипы добавляемых эмоций должны содержать уникальные ДЕ;

2. Частота проявления эмоций в данной форме должна быть меньше частоты основного прототипа, чтобы не изменять общую картину положительно распознанных эмоций.

Добавленные прототипы и результаты приведены в экспериментальной части.

Экспериментальная часть

Обучающий набор формировался из изображений открытой базы Cohn-Kanade [3]. Ключевые лицевые точки рассчитывались на основе алгоритма активных моделей внешнего вида [4]. На каждую эмоцию выбирались 35 изображений с одним из наиболее часто встречающихся прототипов. Для увеличения различий подобных эмоций, в выборку были добавлены 15 дополнительных изображений по трем эмоциям гнева, отвращения и печали, со следующими прототипами:

• 15 + 17 - эмоция печали;

• 5 + 6В + 7С + 17D + 23D - эмоция гнева;

• 4С + 10В + 17В + 38D - эмоция отвращения;

Примеры дополнительных изображений приведены на рисунке 2:

Рисунок 2. Добавленные изображения. Слева направо: печаль, гнев, отвращение

При выборе прототипа эмоции печали основное внимание уделялось резко выраженному изменению формы рта в виде опускания уголков губ (ДЕ 15) и поднятию подбородка (ДЕ 17). Основными уникальными ДЕ на дополнительных изображениях эмоции гнева являются ДЕ 5 (подниматель века) и ДЕ 23 (натягиватель губ), которые не участвуют ни в одном из прототипов эмоции отвращения. Подбор изображений для эмоции отвращения основывался на поиске явно выраженного углубления носогубной складки (ДЕ 10) что выражается в поднятии верхней губы и сморщивании крыльев носа. Нейтральный набор изображений оставался неизменным.

Результаты распознавания подобных эмоций после обучения нейронной сети на дополненном наборе изображений представлены в таблице 2:

Таблица 2. Распознавание подобных эмоций при обучении на дополненном наборе

Гнев Нейтраль Отвращение Печаль

Гнев 77,6 8,6 11,2 8,6

Нейтраль 0,0 80,4 5,7 9,8

Отвращение 6,4 2,9 81,2 8,6

Печаль 2,9 12 0,0 80,5

Как видно из данной таблицы, расширение обучающего набора изображений, позволило снизить общую ошибку распознавания эмоций на 19,6% для пары Гнев - Отвращение и на 15,3% для пары Печаль -Нейтральная.

Результаты распознавания других эмоций не изменились, так как добавленные прототипы были выбраны с учетом различий пар похожих эмоций, и являются не самыми частыми вариантами выражений.

Трудностью применения данного подхода является подбор большого количества конкретных фотографий под тот или иной прототип. Однако, при достаточном знании кодов двигательных единиц, процесс отбора изображений и пополнения обучающего набора можно продолжать и во время

использования данной системы, собирая необходимую графическую информацию в полуавтоматическом режиме.

Заключение

В данной работе была рассмотрена проблема распознавания пар похожих эмоций. Общий анализ позволил выявить максимальную ошибку распознавания для пар Гнев - Отвращение и Печаль -Нейтральная. Для каждой из трех эмоций были подобраны дополнительные прототипы, с исключающими ДЕ для повышения качества распознавания. Обучение на дополненном наборе изображений позволило снизить ошибку распознавания на 19,6% и 15,3% для пар эмоций Гнев - Отвращение и Печаль -Нейтральная соответственно.

Литература

1. Ekman P., Friesen W. Facial Action Coding System: A Technique for the Measurement of Facial Movement // Consulting Psychologists Press, Palo Alto, 1978.

2. Friesen W., Ekman P. EMFACS-7: Emotional Facial Action Coding System // Unpublished manual, University of California, California, 1983.

3. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression // Lucey, P., Cohn, J.F., Kanade, T., Saragih, Ambadar Z., Matthews I.J. //Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference, P. 94-101, San Francisco, CA, 2010

4. Cootes T.F., Edwards G.J., Taylor C.J.: Active appearance models, Proc. European Conferense on Computer Vision 1998, Vol. 2, pp. 484-498, Springer, 1998.

i Надоели баннеры? Вы всегда можете отключить рекламу.