УДК 004.89
М. С. Тронин, Р. А. Чечулин, Д. В. Катасёва, А. С. Катасёв, А. П. Кирпичников
ИНТЕЛЛЕКТУАЛЬНЫЕ МОДЕЛИ РАСПОЗНАВАНИЯ ЧЕЛОВЕЧЕСКИХ ЭМОЦИЙ
НА ФОТОГРАФИИ
Ключевые слова: интеллектуальная модель, нейронная сеть, распознавание эмоций, дерево решений, логистическая регрессия, принятие решений.
В данной статье описывается задача построения интеллектуальных моделей для распознавания эмоций человека по фотографии. Для построения моделей была выбрана аналитическая платформа Deductor. Для решения задачи были выбраны и построены три модели: нейросетевая модель, дерево решений и логистическая регрессия. Приводятся результаты исследований по оценке эффективности моделей.
Keywords: intelligent model, neural network, emotion recognition, decision tree, logistic regression, decision making.
In this paper describes the task of constructing intelligent models for recognizing a person's emotions from a photograph. To build the models, the analytic platform Deductor was chosen. To solve the problem, three models were chosen and built: the neural network model, decision tree and logistic regression. The results of studies on the evaluation of model effectiveness are presented.
Введение
Известно, что многие факторы способствуют человеку в передаче своих эмоций. Поза, речь, мимика, поведение, движения - лишь некоторые из них. Факторы, связанные с выражением лица, имеют более весомое значение, так как они легко заметны и ощутимы. Эмоциональный барьер является очередным препятствием в понимании людей. Автоматическое распознавание эмоций является очередным шагом в развитии систем искусственного интеллекта и взаимодействия человека с компьютером. Последние достижения в этом направлении позволили исследователям и разработчикам расширить сферу применения технологии автоматизированного распознавания эмоций и использовать их для создания своих аватаров в видеоконференциях и чатах.
Постановка задачи
Главной целью решения задач интеллектуального анализа данных является обнаружение скрытых закономерностей, которые позволяют понять сущность изучаемого процесса и предсказывать новые факты. В настоящее время разработан широкий круг различных методов и алгоритмов, с помощью которых из данных могут быть извлечены новые знания. К базовым методам Data Mining относится теория статистики [2, 3], математический аппарат нейронных сетей [6-8] и нечеткой логики [4], генетические алгоритмы [1, 5, 12], а также гибридные подходы, сочетающие достоинства различных технологий [10, 11].
В данной работе для определения эмоционального состояния человека на фотографии разработаны интеллектуальные модели, способные эффективно распознавать семь универсальных эмоций, согласно классификации П. Экмана [14]:
- гнев (anger);
- отвращение (disgust);
- страх (fear);
- счастье (happiness);
- спокойствие (neutral);
- печаль (sadness);
- удивление (surprise).
Для построения интеллектуальных моделей необходимо подготовить соответствующие данные.
Подготовка данных для построения моделей распознавания эмоций
Для построения моделей необходимо создать файл с обучающей выборкой, в которой должны быть представлены примеры решения поставленной задачи (входы-выход). После сбора исходных данных, содержащих сведения о моделируемом объекте, проводится их обработка. Этот шаг необходим, так как качество исходных данных сильно повлияет на результат решения задачи.
Существуют большое количество разнообразных алгоритмов для распознавания эмоций на фотографии [15-18]. Можно выделить общую структуру данного процесса:
1) детектирование и локализация лица на изображении;
2) выравнивание изображения лица;
3) сравнение вычислительных признаков с заложенными в базу данных эталонами.
В данной работе для создания обучающей выборки использовалась свободно распространяемая база данных JAFFE. Данный выбор позволил исключить 1 и 2 этапы указанного процесса, что позволило заметно упростить решение задачи.
Исходная выборка содержала небольшое количество изображений, поэтому для увеличения их количества была использована искусственная генерация (аугментация). Для этого в исходные изображения вносились различные искажения (дополнительные линии), за счет чего обучающая выборка была увеличена в три раза. На рисунке 1 представлен фрагмент исходных изображений человеческого лица с различными эмоциями.
В качестве инструмента для построения интеллектуальных моделей распознавания эмоций на изображениях выбрана аналитическая платформа Deductor Studio Academic [13].
дм аи2 агмз 011 012
на1 на2 наз n0. ые2
5и2 5Ш
Рис. 1 - Исходные изображения для построения моделей распознавания эмоций
Построение моделей распознавания лиц
Построение интеллектуальных моделей распознавания человеческих эмоций на фотографиях производилось на основе метода бутстрэпирования [13]. В основе данной идеи лежит выборка с замещением набора данных для обучающего множества. Метод заключается в многократной случайной выборке значений из начального множества п. Вероятность выбора наблюдения равна 1/п. Полученные выборки имеют повторяющиеся элементы. К каждой полученной выборке применяется средство анализа, после анализа результаты усредняются. Так как данный метод подразумевает качественную дисперсию выборки, то усредненные результаты являются более точными по сравнению с результатами обычного наполнения выборки.
На основе исходных данных построены нейросе-тевая модель, модель дерева решений и регрессионная модель. Для оценки их точности построены таблицы сопряженности [9]. Результаты оценки точности нейросетевой модели представлены в таблице 1.
Таблица 1 - Оценка точности нейросетевой модели
Классифицировано
Фактически 0 1 Итого
0 59 0 59
1 0 9 9
Итого 59 9 68
Как видно из таблицы, все представленные изображения были классифицированы верно нейронной сетью. Аналогичные результаты получены для других интеллектуальных моделей. Однако по точности обучения трудно судить об эффективности построенных моделей. Необходимо произвести оценку их обобщающей способности, а именно оценку точности классификации изображений, не участвующих при обучении.
Оценка обобщающей способности моделей распознавания эмоций на фотографиях
Для формирования тестовых данных было принято решение по увеличению размера исходной выборки путем добавления небольших искажений к
имеющимся изображениям. В результате было получено 528 изображений с учетом оригинальных (см. рис. 2).
НА11 НА12
Рис. 2 - Примеры добавления искажений в исходные изображения
Для оценки обобщающей способности построенных моделей использован частный случай бутстрэп-оценок, называемый 0,632-бутстрэпом [13]. Множество данных из п наблюдений выбирается с замещением, чтобы сформировать новое множество данных, состоящее также из п наблюдений. Некоторые элементы из второго множества будут повторяться, а так как размерности множеств одинаковы, то некоторые данные из первого множества не будут выбраны. Они и будут использоваться в качестве тестовой выборки. Таким образом, производится разделение выборки на обучающую и тестовую.
Вероятность выбора одного наблюдения будет равна 1/п. Вероятность того, что наблюдение не будет выбрано: 1-1/п. Умножим вероятности друг на друга п раз и получим (1-1/п)п = 0,368. Это число отображает вероятность того, что значение исходной выборки вообще не будет выбрано. Таким образом, можно сделать вывод, что при больших размерах исходных данных тестовая выборка будет содержать около 63,2% исходного множества, а обучающая - оставшиеся 36,8%.
Использование описанного метода позволило оценить обобщающую способность интеллектуальных моделей распознавания эмоций. В таблице 2 представлены результаты оценки точности.
Таблица 2 - Оценка обобщающей способности интеллектуальных моделей распознавания
Классифицировано
0 1 Итого
Фактически НС ДР РМ НС ДР РМ НС ДР РМ
0 428 389 365 24 63 87 452 452 452
1 15 20 28 61 56 48 76 76 76
Итого 443 443 443 85 119 119 528 528 528
В данной таблице НС - нейронная сеть, ДР - дерево решений, РМ - регрессионная модель. Как видно из таблицы, суммарная ошибка классификации нейросетевой модели составляет 7,3% (39 неверно классифицированных примера из 528), дерева решений - 15,7% (83 примера), регрессионной модели - 21,7% (115 примеров).
Заключение
Результаты проведенных исследований показали, что рассмотренные в работе интеллектуальные модели показывают хороший результат при решении задачи распознавания эмоций на фотографии. Однако наилучший результат показала нейросетевая мо-
дель, что позволяет использовать ее в качестве эффективного инструмента распознавания образов и
анализа изображений.
Литература
1. Абдулхаков А.Р., Катасёв А.С. Кластерно-генетический метод редукции баз знаний интеллектуальных систем // Фундаментальные исследования. - 2015. - № 5-3. - С. 471-475.
2. Брезе О.Э., Салий В.В. Прогнозирование продовольственного спроса региона, основанное на методах математической статистики // Техника и технология пищевых производств. - 2014. - № 3 (34). - С. 145-151.
3. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во Ин-та математики, 1999. -270 с.
4. Катасёв А.С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
5. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма // Вестник технологического университета. - 2015. - Т. 18. -№ 7. - С. 255-259.
6. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Гумеро-ва Р.И. Нейросетевая модель распознавания рукописных символов в системах биометрической идентификации и аутентификации // Вестник технологического университета. - 2016. - Т. 19. - № 4. - С. 122-126.
7. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Евсеева А.О. Нейросетевая модель идентификации ботов в социальных сетях // Вестник технологического университета. - 2015. - Т. 18. - № 16. - С. 253-256.
8. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Ко-стюжов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник
технологического университета. - 2015. - Т. 18. - № 13. -С. 160-163.
9. Катасёва Д.В., Катасёв А.С. Спам-классификация в ин-фокоммуникационных системах // Информация и безопасность. - 2015. - Т. 18. - № 3. - С. 380-383.
10. Катасёва Д.В., Катасёв А.С. Фильтрация нежелательных почтовых сообщений на основе нейросетевой и нейроне-четкой моделей // Информация и безопасность. - 2016. -Т. 19. - № 4 (4). - С. 551-554.
11. Катасёва Д.В., Катасёв А.С., Кирпичников А.П., Абянов Б.Э. Нейронечеткая модель анализа и прогнозирования временных рядов // Вестник технологического университета. - 2016. - Т. 19. - № 13. - С. 127-131.
12. Катасёва Д.В., Катасёв А.С., Кирпичников А.П., Каби-ров А.Д. Оценка стойкости симметричных шифров моноалфавитной замены на основе частотного анализа и генетического алгоритма // Вестник технологического университета. - 2016. - Т. 19. - № 16. - С. 62-66.
13. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. - СПб.: Питер, 2009. - 624 с.: ил.
14. Ekman P. Universals and cultural differences in facial expressions of emotion. Nebraska, USA: Lincoln University of Nebraska Press, 1971.
15. Kahou S., Michalski V., Konda K., Memisevic R., Pal C. Recurrent neural networks for emotion recognition in video // ICMI. - 2015. - pp. 467-474.
16. Levi G., Hassner T. Emotion recognition in the wild via convolutional neural networks and mapped binary patterns // Proc. ACM International Conference on Multimodal Interaction (ICMI), November 2015.
17. Shan C., Gong S., McOwan P.W. Facial expression recognition based on local binary patterns: A comprehensive study // Image and Vision Computing. - 2009. - Vol. 27, no. 6. -pp. 803-816.
18. Yu Z., Zhang C. Image based static facial expression recognition with multiple deep network learning // Proceedings of the 2015 ACM on International Conference on Multimodal Interaction, ICMI '15, (New York, NY, USA), pp. 435-442, 2015.
© М. С. Тронин - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; Р. А. Чечулин - магистрант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; Д. В. Катасёва - ст. преп. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. С. Катасёв - к-т техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: [email protected]; А. П. Кирпичников - д-р физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: [email protected].
©M. S Tronin - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; R. A. Chechulin - Master Student of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; D. V. Kataseva - Senior Lecturer of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; A. S. Katasev - PhD, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: [email protected]; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: [email protected].