ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
УДК 004.932
Р. И. Ахметшин, А. П. Кирпичников, М. П. Шлеймович
РАСПОЗНАВАНИЕ ЭМОЦИЙ ЧЕЛОВЕКА НА ИЗОБРАЖЕНИЯХ
Ключевые слова: эмоция, человеко-машинное взаимодействие, автоматическое распознавание эмоций, метод Виолы-Джонса, выделение лица на изображении, выделение элементов лица.
В работе рассмотрены базовые понятия теории распознавания эмоций, области применения методов автоматического распознавания эмоций, алгоритм автоматического распознавания эмоций на изображении лица человека на основе метода Виолы-Джонса.
Keywords: emotion, human-computer interaction, automatic recognition of emotions, the method of Viola-Jones, the allocation of the
face in the image, the allocation of elements of a person.
In this paper discusses the basic concepts of the theory of emotion recognition, the field of application of methods for automatic emotion recognition, an algorithm for automatic emotion recognition in facial image of a person on the basis of the method of Viola-Jones.
Полноценное общение между людьми невозможно без проявления и анализа эмоций. Поэтому при создании современных человеко-машинных систем актуально применение методов автоматического распознавания эмоций.
Одним из основных способов распознавания эмоций человека другим человеком является анализ визуальной информации. Поэтому автоматизация этого процесса очевидно должна быть основана на использовании методов и средств компьютерного зрения.
Компьютерное зрение является научной областью, в рамках которой ведутся исследования по изучению теории и фундаментальных алгоритмов анализа изображений объектов и сцен [1]. Часто также вместо понятия «Компьютерное зрение» используют «Машинное зрение» или «Техническое зрение». Однако последние понятия относятся к более общей научно-практической области, охватывающей все этапы разработки систем, базирующихся на обработке и анализе видеоинформации. Здесь рассматриваются:
- схемы освещения объектов и сцен;
- характеристики датчиков, их количество, расположение, калибровка и ориентирование;
- средства обработки и изображений;
- алгоритмы обработки и их реализация.
Задача распознавания эмоций может решаться в системах, применяемых в различных сферах человеческой деятельности. Рассмотрим некоторые из них.
В настоящее время активно развивается робототехника. При этом следует отметить, что основное направление научных и практических работ связано с созданием интеллектуальных роботов. Ранее основной сферой применения робототехнических систем являлась промышленность. С развитием новых технологий появились бытовые роботы, примером которых может служить робот-пылесос, оснащенный средствами машинного зрения. Машинное зрение в робототехнических системах предназначено в первую очередь для определения текущего по-
ложения, анализа окружающей обстановки, объезда препятствий, обнаружения заданных предметов и т.д. Распознавание эмоций человека бытовым роботом естественным образом позволяет повысить степень интеллектуализации их взаимодействия, например, для обеспечения правильного реагирования на состояние человека.
Особенно актуально правильно определить состояние человека в случаях, сопряженных с опасностью для его жизни. В качестве одного из примеров можно привести системы распознавания усталости человека, которыми оснащаются некоторые современные автомобили. Подобные системы позволяют в ряде случаев избежать аварий, вызванных невнимательностью, сонливостью или плохим самочувствием водителя. Анализ осуществляется на основе результатов обработки изображений лица человека, полученных с видеокамеры.
Еще одной областью применения методов автоматического распознавания эмоций является обеспечение безопасности людей с помощью автоматизированных охранных систем. Современные охранные системы часто имеют в своем составе средства регистрации и анализа видеоданных. Однако, как правило, в таких системах решение принимается человеком-оператором. Это может привести к снижению точности и оперативности реагирования на различные ситуации, связанные с поведением людей на охраняемых территориях. Повысить эффективность охранных систем можно за счет повышения степени автоматизации процедур, обеспечивающих анализ изображений. Это позволяет сделать вывод относительно актуальности создания интеллектуальных детекторов для анализа внештатных ситуаций. Среди других важных задач, решение которых необходимо обеспечить в конкретных охранных системах, можно выделить обнаружение и сопровождение людей, проявляющих эмоции, характерные для нарушителей правопорядка, психически больных, террористов и т.д. [2].
Методы обработки и анализа изображений в интеллектуальных детекторах внештатных ситуаций
развиваются в рамках видеоаналитики. К данному направлению относятся также методы, используемые в маркетинговых системах.
В маркетинговой сфере соответствующие системы могут быть использованы в целях оперативного отслеживания и реагирования на различные проблемы в торговых центрах, супермаркетах и других местах продаж товаров и услуг, например:
- определение очередей и их оптимизация;
- подсчет посетителей с классификацией по возрасту, полу, расе;
- оценка качества обслуживания;
- анализ поведения персонала;
- анализ эффективности промоакций;
- анализ эффективности методики продажи товара в магазине (мерчендайзинга);
- определение времени суток и дней недели с наиболее плотным потоком посетителей;
- определение «горячих» зон в магазинах;
- показ рекламы в зависимости от пола и возраста;
- определение оптимального положения рекламных мест.
Эффективность решения ряда указанных маркетинговых задач может быть значительно повышена за счет автоматического распознавания эмоций клиентов.
Распознавание эмоций применяется также в целом ряде других областей, таких как телекоммуникации, видеоигры, анимация, психиатрия, автоматизированное обучение и т. д.
Первый шаг на пути к автоматическому распознаванию эмоций сделал в 1978 году М.Сува. Сува и его коллеги представили систему анализа мимики из последовательности изображений с помощью двадцати точек слежения. Уже тогда исследователи понимали, что без автоматического распознавания эмоций, компьютеры останутся холодными и невосприимчивыми к эмоциональному состоянию пользователей. Растущая мощь компьютерного зрения является важным первым шагом для следующего поколения компьютеров, роботов и систем искусственного интеллекта. Из существующих в настоящее время коммерческих решений можно отметить программу FaceReader, разработанную голландской компанией Noldus Information Technology. Она может правильно распознавать счастливое, грустное, сердитое, удивленное, испуганное, недовольное и нейтральное выражение лица на изображениях, также по изображениям лиц людей определять их возраст, пол и этническую принадлежность [3].
Рассмотрим базовые понятия, лежащие в основе методов автоматического распознавания эмоций. Эмоции отражают отношение человека к различным явлениям. Они характеризуются субъективными переживаниями человека, не связаны напрямую с возбуждением определенных рецепторов, могут возникать спонтанно. При одинаковом воздействии одних и тех же факторов на разных людей эмоции могут вызывать у них различные переживания [4].
Согласно теории эмоций Роберта Плутчика, основными эмоциями являются радость, грусть, страх, доверие, ожидание, удивление, злость, неудовольствие. Эмоции проявляются по-разному и в комбинации друг с другом могут получиться совершенно новые эмоциональные состояния.
Специфическим ответом человека на ситуации, затрагивающие его интересы, является эмоциональная реакция, сдержать или подавить которую при определенных обстоятельствах можно только с большим трудом. Также существуют такие эмоциональные проявления, которые почти не поддаются контролю. Ученые пришли к выводу, что люди достаточно последовательны в выражении своих эмоций: они одинаково морщат носы в замешательстве или хмурят брови, рассердившись.
Распознавание эмоций по выражению лица является сложным психическим процессом. Человек без труда может узнать другого человека по лицу или даже по походке, для человека распознавание эмоций другого человека является уже навыком, приобретаемый естественным образом, однако для системы эта задача является далеко не простой. Но даже человек не всегда может правильно распознать эмоции человека, а это значит, что для системы автоматического распознавания данная задача является куда сложнее.
Основной алгоритм автоматического распознавания эмоций состоит из следующих этапов [5]:
1. Регистрация изображения;
2. Первичная обработка изображения;
2. Выделение лица на изображении;
3. Выделение элементов лица;
4. Выделение ключевых точек на лице;
5. Классификация эмоций.
Первичная или предварительная обработка изображения включает в себя удаление шумов, геометрические и цветовые преобразования. Источниками шума могут быть конструктивные недостатки средств регистрации изображений, плохое освещение сцены, механические воздействия на оборудование, положение объектов интереса, помехи в каналах передачи информации и др. Для удаления шумов можно применить усредняющие фильтры или фильтры, основанные на порядковых статистиках. К усредняющим фильтрам относятся, например, фильтры, основанные на вычислении среднего арифметического, среднего геометрического, среднего гармонического, среднего контргармонического. К фильтрам, основанным на порядковых статистиках, относятся, например, медианный фильтр, фильтр максимума, фильтр минимума.
Для выделения лица на изображении наиболее эффективным является метод Виолы-Джонса, который обеспечивает достаточно хорошую скорость и высокую точность обнаружения заданных объектов на изображениях. Метод был предложен Полом Виолой и Майклом Джонсом в 2001 году и в настоящее время является основополагающим для поиска объектов на изображениях. В нем используется принцип сканирующего окна. На вход поступает исходное изображение размерностью ЫхМ пикселей, в которой каждый пиксель имеет значение от 0
до 255 для каждого цветового канала (одного цветового канала для монохромного изображения и трех цветовых каналов для цветного изображения). Исходное изображение предварительно обрабатывается (масштабирование, удаление шумов, применение различных фильтров и т.п.) и сканируется с помощью скользящего окна. Скользящее окно проходит по каждому пикселю изображения и к его каждому положению применяется классификатор на основе метода бустинга - усиления слабых классификаторов [6].
Процесс обнаружения лица методом Виолы-Джонса имеет следующие особенности:
1. Для быстрого выполнения необходимых расчетов изображения представляются в интегральном виде;
2. Поиск нужных объектов на изображениях осуществляется по результатам анализа признаков Хаара;
3. Для выбора наиболее подходящих признаков при поиске искомого объекта на определенной части изображения применяется метод усиления слабых классификаторов (метод бустинга);
4. Для принятия решений используются простые бинарные классификаторы, которые вырабатывают два значения - «Истинна» и «Ложь»;
5. Для быстрого отбрасывания окон, где не найдено лицо, используются каскады признаков.
При обнаружении объектов методом Виолы-Джонса обрабатываются изображения в интегральной форме. Интегральное представление позволяет выполнить быстрое вычисление суммарной яркости произвольного прямоугольника на исходном изображении с постоянным временем, независимо от размеров этого прямоугольника. Данное представление изображения - это матрица, совпадающая по размерам с исходным изображением, в каждом элементе которой хранится сумма интен-сивностей всех пикселей, находящихся левее и выше данного элемента. Элементы матрицы рассчитываются по следующей формуле:
Н^,у)= £/(,/)
0</'<;г ,0</<у
где 1(1, ]) - яркость пикселя исходного изображения. Каждый элемент матрицы 11(х, у) представляет собой сумму пикселей в прямоугольнике от (0, 0) до
(х, у).
Еще одна особенность, которую использовали Виола и Джонс в своем методе - это вейвлеты Хаара. Вейвлеты Хаара представляют собой прямоугольные волны одинаковой длины (один высокий интервал и один низкий интервал) [7].
Прямоугольные комбинации, используемые для обнаружения объекта на изображении, не являются подлинными вейвлетами Хаара. Вместо этого, они содержат прямоугольные комбинации, которые лучше подходят для задач распознавания. Из-за этой разницы, эти функции называют не вейвлетами, а функциями или примитивами Хаара. Наличие функции Хаара определяется посредством вычитания среднего значения области темных пикселей из среднего значения области светлых пикселей. Если
разница превышает порог, который определяется в процессе обучения, то говорят, что функция является существующей. На рис. 1 представлены примитивы Хаара [7].
Рис. 1 - Примитивы Хаара
После того как лицо было выделено, необходимо выделить его элементы. Человек проявляет эмоции с помощью бровей, глаз и рта. Для выделения этих элементов на изображении лица используется все тот же метод Виолы-Джонса. В качестве входного изображения подается изображение лица, выделенное на предыдущем этапе. Чтобы ускорить распознавание и уменьшить ложные обнаружения, на лице задаются определенные зоны (рот всегда находится в нижней половине лица, а брови и глаза - в верхней).
Следующим шагом является нахождение ключевых точек выделенных элементов лица. Определить эмоции можно на основе анализа нескольких ключевых точек. Например, на рис. 2 показаны комбинации точек бровей и рта (рис. 2, а - изображения бровей и рта; рис. 2, б - комбинация ключевых точек бровей и рта, соответствующая их изображениям; рис. 2, в - комбинация ключевых точек, соответствующая другим положениям рассматриваемых элементов на изображениях)[5].
в)
Рис. 2 - Ключевые точки элементов лица
Выделение ключевых точек осуществляется следующим образом:
1. Преобразование цветного изображения к полутоновому виду;
2. Преобразование из полутоновой формы к бинарному виду;
3. Применение к бинарному изображению градиентной маски;
4. Локализация ключевых точек.
Переход от цветного изображения к полутоновому выполняется на этапе выделения лица. Для получения бинарного изображения используется адаптивный порог. Применение градиентной маски к бинарному изображению позволяет получить контурное представление анализируемого элемента. Локализация ключевых точек заключается в определении заданного количества точек, лежащих
на контуре элемента. Процесс выделения ключевых точек проиллюстрирован на рис. 3 [5].
а) б)
в) г)
Рис. 3 - Выделение ключевых точек:
а) полутоновое изображение,
б) бинарное изображение,
в) применение градиентной маски,
г) локализация ключевых точек
После выделения ключевых точек можно выполнить классификацию эмоции. Например, в таблице 1 представлены характеристики эмоций по сочетанию брови и рта [5].
Таблица 1 - Характеристики эмоций по сочетанию брови и рта
Эмоция Бровь Рот
Удивление Поднимается Открывается
Страх Поднимается и Открывается и
сморщится растягивается
Отвращение Снижается Поднимается и концы снижаются
Гнев Снижается и Открывается
сморщится или концы снижаются
Счастье Поднимается Концы поднимаются
Грусть Концы снижа- Концы снижа-
ются ются
В заключение отметим, что приведенный
подход к автоматическому распознаванию эмоций
может быть эффективно применен в различных интеллектуальных человеко-машинных системах.
Литература
1. Визильтер, Ю.В. Обработка и анализ изображений в задачах машинного зрения: Курс лекций и практических занятий. / Ю.В. Визильтер, С.Ю. Желтов, А.В. Бонда-ренко, М.В. Ососков, А.В. Моржин. - М.: Физматкнига, 2010. - 672 с.
2. Кирпичников А.П., Ляшева С.А., Шлеймович М.П. Обнаружение и сопровождение людей в интеллектуальных детекторах внештатных ситуаций //Вестник Казанского технологического университета. - Казань: КНИТУ, 2014. - Т. 17. №21. - С. 351-356.
3. Исследование рынка систем распознавания эмоций [Электронный ресурс] // http://habrahabr.ru/post/133686.
4. Гранская Ю.В. Распознавание эмоций по выражению лица. Автореферат диссертации кандидата психологических наук по специальности 09.00.01. - СПб, 1998.
5. Си Я. Автоматическое распознавание эмоций пользователя для организации интеллектуального интерфейса // Электронный журнал «Молодежный научно-технический вестник», 2013, № 9, http:// sntbul.bmstu.ru/ doc/ 616498.html.
6. Кирпичников А.П., Ляшева С.А., Шлеймович М.П. Контекстный поиск изображений //Вестник Казанского технологического университета. - Казань: КНИТУ, 2014. - Т. 17. №18. - С. 244-251.
7. Метод Виолы-Джонса (Viola-Jones) как основа для распознавания лиц [Электронный ресурс] //http://habrahabr.ru/post/133826/.
© Р. И. Ахметшин - аспирант кафедры автоматизированных систем обработки информации и управления КНИТУ-КАИ, email: [email protected]; А. П. Кирпичников - д. ф.-м. н., зав. каф. интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected]; М. П. Шлеймович - к.т.н., доцент кафедры автоматизированных систем обработки информации и управления КНИТУ-КАИ, e-mail: [email protected].
© R. 1 Akhmetshin - graduate of the Department of Automated Information Processing Systems & Control, KNRTU-KAI, e-mail: [email protected]; A. P Kirpichnikov - Dr. Sci, Head of the Department of Intelligent Systems & Information Systems Control, KNRTU, e-mail: [email protected]; M. P. Shleymovich - PhD, Associate Professor of the Department of Automated Information Processing Systems & Control, KNRTU-KAI, e-mail: [email protected].