Проектирование нейросетевого классификатора для решения задачи распознавания эмоций

Иванов И.А.

Решетнеескцие чтения. 2015

спективы : тр. III Междунар. летней школы-семинара по искусственному интеллекту для студентов, аспирантов и молодых ученых (1-5 июля 2015, г. Тверь), ТГТУ, 2015. 10 с.

References

1. Zvonkov V. B. Complexities and mechanisms of euro forecasting about // Proceedings of the six International conference "System analysis and information technologies". Kaliningrad, 2015. 13 p. (in Russ.).

2. Zvonkov V. B. Forecasting of Euro and Dollar USA courses with self-organizing algorithms and various hardware-software complexes // Intelligent systems and technology: current status and prospects. Proceedings of the International summer school-seminar on artificial intelligence for students, post-graduate students and young scientists (1-5 July 2015). Tver : Tver state technical university, 2015. 10 p. (in Russ.).

УДК 004.93

ПРОЕКТИРОВАНИЕ НЕЙРОСЕТЕВОГО КЛАССИФИКАТОРА ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ*

И. А. Иванов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

При использовании алгоритмов машинного обучения для решения практических задач возникает проблема настройки параметров алгоритма. Использовался алгоритм многокритериальной оптимизации для поиска коллектива Парето оптимальных нейронных сетей применительно к задаче распознавания эмоций человека по аудио- и видеоинформации.

Ключевые слова: многокритериальная оптимизация, нейронные сети, распознавание эмоций, коллектив классификаторов, синтез мультимодальных данных.

NEURAL NETWORK CLASSIFIER DESIGN TO SOLVE EMOTION RECOGNITION PROBLEM

I. A. Ivanov

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Using machine learning algorithms to solve practical problems is connected with the problem of algorithm's parameter tuning. In this work we use a multi-objective optimization algorithm to search for the ensemble of Pareto optimal neural networks, which is used to solve the human emotion recognition problem based on audio and visual information.

Keywords: multi-objective optimization, neural networks, emotion recognition, ensemble of classifiers, multimodal data fusion.

Введение. Решение задач машинного обучения состоит из нескольких этапов: получение и предобработка «сырых» данных для формирования обучающей и тестовой выборки, снижение размерности признакового пространства, применение алгоритма обучения для классификации. Последний этап, включающий в себя выбор алгоритма и настройку его параметров, является очень важным, так как зачастую качество решения задачи машинного обучения очень сильно зависит от оптимальной настройки выбранного алгоритма. В данной работе рассмотрено применение многокритериального метода к настройке нейросете-вых классификаторов на примере задачи классифика-

ции эмоций с целью повышения точности классификации.

Задача распознавания эмоций. Эмоция - психический процесс средней продолжительности, отражающий субъективное оценочное отношение к существующим или возможным ситуациям. Эмоции отличаются от таких процессов, как аффект, чувство и настроение [1].

Эмоции характеризуются валентностью (тоном), т. е. могут быть положительными или отрицательны-

* Работа выполнена в рамках и при финансовой поддержке проекта ММЕП57414Х0037.

Математические методы моделирования, управления и анализа данных

ми, интенсивностью, стеничностью (побуждать к действию или расслаблять), а также содержанием. Различают семь основных эмоций: страх, счастье, отвращение, злость, грусть, удивление и нейтральное состояние.

Мимика является универсальным способом проявления эмоций людьми вне зависимости от расовой и социальной принадлежности. В данной работе решается задача распознавания семи основных эмоций по видеозаписи мимики человека и аудиозаписи его голоса. Для этого используется база данных SAVEE [2], включающая 480 видеозаписей мимики 4 лиц мужского пола, имитирующих 7 основных эмоций. Из аудио- и видеозаписей были извлечены количественные признаки с помощью программы openSMILE [3] и алгоритмов Quantized Local Zernike Moments (QLZM) [4], Local Binary Patterns (LBP) и Local Binary Patternson Three Orthogonal Planes (LBP-TOP). Извлеченные аудио- и видеопризнаки были также объединены в общую выборку, чтобы проверить, приведет ли синтез мультимодальных данных к улучшению точности классификации эмоций.

Многокритериальная оптимизация нейросете-вых классификаторов. Для решения описанной задачи распознавания была выбрана нейронная сеть прямого распространения, так как гибкая структура нейронных сетей позволяет с успехом применять их для сложных задач анализа изображений и распознавания объектов на изображениях. Эффективность нейронной сети во многом зависит от настройки ее параметров. Классический подход к настройке параметров - использование алгоритма однокритериаль-ной оптимизации, где в качестве оптимизируемого критерия выступает точность классификации. В предлагаемой нами многокритериальной постановке добавляется второй, минимизируемый, критерий - число нейронов сети. Данный критерий означает, что в процессе оптимизации параметров предпочтение отдается простым нейросетям с меньшим количеством нейронов, которые должны обладать лучшей обобщающей способностью. Изменяемые в ходе оптимизации параметры сети - количество нейронов скрытого слоя Nn (границы изменения Nn = 2,50) и число итераций обучения сети NT (границы изменения NT = 2,200).

Для решения задачи оптимизации был выбран класс эволюционных алгоритмов. Были проведены эксперименты по оптимизации с использованием алгоритмов SPEA, VEGA, NSGA, SelfCOMOGA [5], а также коэволюционным генетическим алгоритмом однокри-териальной оптимизации для сравнения однокритери-ального и многокритериального методов.

В результате оптимизации мы получаем популяцию нейронных сетей с Парето-оптимальными значениями параметров. Получаемые сети, согласно оптимизируемым критериям, должны быть либо сложными, но обеспечивающими высокую точность классификации, либо простыми, но обеспечивающими высокую обобщающую способность. Для того чтобы объединить данные достоинства, а также чтобы получить единый выход системы классификации, получаемые Парето-оптимальные нейросети были объединены в коллектив несколькими способами: метод голосования, усреднение предсказанных вероятностей классов, метаклассификация. Результаты экспериментов по сравнению эффективности однокритериально-го и многокритериального метода оптимизации нейронных сетей представлены в таблице. Также в ней указаны способы объединения Парето-оптимальных нейронных сетей в коллектив, оказавшиеся наиболее эффективными для разных алгоритмов оптимизации. Из таблицы видно, что многокритериальный метод превосходит однокритериальный по точности на всех рассмотренных выборках данных, достигая максимальной точности 39,762 % при использовании аудиовыборки, алгоритма оптимизации NSGA-2 и метаклассификации для объединения Парето-опти-мальных нейронных сетей в коллектив.

Заключение. Для решения задачи распознавания эмоций был применен метод многокритериальной оптимизации параметров нейросетевых классификаторов. Данный метод превзошел по эффективности классический однокритериальный метод, поэтому рекомендуется использовать его в дальнейших работах по распознаванию эмоций для сравнения с другими методами. В качестве метода объединения неросе-тей в коллектив рекомендуется использовать мета-классификацию, так как данный метод обеспечил наилучшую точность классификации эмоций на большинстве использованных выборок.

Точность классификации эмоций (%) при однокритериальной и многокритериальной оптимизации нейросетевых классификаторов

Алгоритм оптимизации (число критериев) Объединение коллектива классификаторов Данные

Аудио (open SMILE) QLZM LBP LBP-TOP Аудио + видео

Коэволюционный ГА (1) - 35,923 21,458 23,75 32,917 31,718

SPEA (2) Усреднение 16,994 10,903 16,458 39,583 14,256

NSGA-2 (2) Мета 39,762 11,528 17,5 38,125 34,94

VEGA (2) Мета 38,899 13,958 29,167 36,736 37,292

SelfCOMOGA (2) Мета 36,518 26,756 38,333 36,319 29,405

Решетнееские чтения. 2015

Библиографические ссылки

1. Леонтьев А. Н. Потребности, мотивы и эмоции. М., 1971.

2. Haq, S., Jackson, P. J. B. Speaker-dependent audiovisual emotion recognition // In Proc. Int. Conf. on Auditory-Visual Speech Processing (AVSP'09). Norwich, UK, 2009. Pp. 53-58,

3. Eyben F., Wullmer M., Schuller B. OpenSMILE -the Munich versatile and fast open-source audio feature extractor // Proceedings ACM Multimedia (MM), ACM. Florence, Italy, 2010. P. 1459-1462.

4. Local zernike moment representation for facial affect recognition / E. Sariyanidi [et al.] // BMVC'13.

5. Иванов И. А., Сопов Е. А. Самоконфигурируемый генетический алгоритм решения задач поддержки многокритериального выбора // Вестник СибГАУ. 2013. № 1(47). С. 30-35.

References

1. Leont'yev A. N. Potrebnosti, motivy i emotsyi [Needs, motives and emotions]. Moscow, 1971.

2. Haq S., Jackson P. J. B. Speaker-dependent audiovisual emotion recognition // In Proc. Int. Conf. on Auditory-Visual Speech Processing (AVSP'09), Norwich, UK, pp. 53-58, September, 2009.

3. OpenSMILE - the Munich versatile and fast open-source audio feature extractor / Eyben F., Wullmer M, Schuller B. // In Proceedings ACM Multimedia (MM), ACM, Florence, Italy. 2010. P. 1459-1462.

4. Local zernike moment representation for facial affect recognition / E. Sariyanidi, H. Gunes, M. Gokmen, A. Cavallaro // BMVC'13.

5. Ivanov I. A., Sopov E. A. [Self-configuring genetic algorithm for solving multi-objective choice support problems] // Vestnik SibGAU. 2013. No. 1(47), рp. 30-35 (In Russ.).

УДК 519.6

ОБ ЭВОЛЮЦИОННОМ МЕТОДЕ ВЗВЕШЕННОГО ГОЛОСОВАНИЯ В КОЛЛЕКТИВАХ В ЗАДАЧЕ КЛАССИФИКАЦИИ ТЕКСТОВ*

Ю. А. Камшилова1, Р. Б. Сергиенко2

1Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected] 2Ульмский университет Германия, 89081, г. Ульм, аллея Альберта Эйнштейна, 43 E-mail: [email protected]

Рассматривается идея применения коллективов методов взвешивания термов, основанных на процедуре взвешенного голосования, в задаче определения тем входящих звонков клиентских служб. Для оптимизации весовых коэффициентов предлагается использование самоконфигурируемого генетического алгоритма.

Ключевые слова: классификация текстов, определение тем входящих звонков, взвешенное голосование, самоконфигурируемый генетический алгоритм.

ON EVOLUTIONARY METHOD OF WEIGHTED VOTING IN ENSEMBLES FOR TEXT

CLASSIFICATION PROBLEM

Iu. A. Kamshilova1, R. B. Sergienko2

:Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected] 2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: [email protected]

In this paper concept of ensembles of term weighting methods based on weighted voting procedure for incomingcalls topics identification problem is considered. For weights optimization using of self-configuring genetic algorithm is proposed.

Keywords: text classification, topicsidentification, weighted voting, self-configuring genetic algorithm.

*

Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации в рамках проекта ММЕЕ157414Х0037.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванов И. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Иванов И. А.

NEURAL NETWORK CLASSIFIER DESIGN TO SOLVE EMOTION RECOGNITION PROBLEM

Текст научной работы на тему «Проектирование нейросетевого классификатора для решения задачи распознавания эмоций»