УДК 519.68
РАСПОЗНАВАНИЕ ЭМОЦИЙ ЧЕЛОВЕКА ПО УСТНОЙ РЕЧИ С ПРИМЕНЕНИЕМ ИНТЕЛЛЕКТУАЛЬНЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ
Е. Д. Лосева, Л. В. Липинский
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Описывается применение многокритериальных эволюционных алгоритмов для отбора наиболее информативных признаков в задаче распознавания эмоций человека по речи. Описано три подхода (метода): SelfAGP+ANN, PS+MCGP, PS+MCGPE, основанных на кооперации метода «фильтра» -предобработка данных и метод «обертки» с привлечением нейросетевых классификаторов для формирования финального набора релевантных признаков. Проведенный сравнительный анализ показал эффективность разработанных методов для повышения качества распознавания информации, содержащей акустические данных.
Ключевые слова: многокритериальная оптимизация, генетическое программирование, генетический алгоритм, отбор признаков, распознавание эмоций.
EMOTION RECOGNITION BY SPEECH OF HUMAN USING INTELLIGENT METHODS
FOR DATA ANALYSIS
E. D. Loseva, L. V. Lipinsky
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
The multi-criteria evolutionary algorithms for selection the most informative features in task of human emotion recognition is described. Three approaches (methods): SelfAGP+ANN, PS+MCGP, PS+MCGP E ere described, based on the cooperation methods: "filter" for preprocessing data and "wrappers" for creation final set of relevant features using neural networks classifiers. After the research all developed methods for improving information recognition, consisting acoustical data, the good results were shown.
Keywords: multi-criteria optimization, genetic programming, genetic algorithm, features selection, emotion recognition.
Современные технологии позволяют достаточно эффективно использовать методы распознавания эмоционального состояния человека. В настоящее время существует несколько подходов для распознавания - это видео съемка, аудиозапись голоса и фотография лица человека. Одной из сфер применения этих разработок может стать, розничная торговля. С помощью программы продавцы смогут узнать мнение покупателей о том или ином товаре. Кроме того, она может быть применена психологам и психотерапевтам для диагностики ранних стадий депрессии, или промоутерам, которые смогут использовать технологию для быстрого понимания реакции людей на их предложения. Сейчас распознавание эмоций человека, например, по речи, проводится с достаточно высокой точностью, но существует рад открытых вопросов [1]:
- отбор подмножества релевантных признаков из общего количества признаков;
- выбор наиболее эффективных классификаторов;
- выбор методов отбора признаков в условиях зашумленности и искажения данных.
Поэтому в качестве альтернативы автором разработаны подходы, основанные на многокритериальных эволюционных алгоритмах. В работе [2] описан разработанный метод (Self-adjusting Genetic Programming-SelfAGP+ANN) с применением многокритериального генетического программирования с представление НС в виде дерева для создания и отбора наиболее эффективных НС клас-
АКТУАЛЬНЫЕ ПРОБЛЕМЫ АВИАЦИИ И КОСМОНАВТИКИ - 2016. Том 1
сификаторов [3]. НС классификаторы используется для оценки эффективности подмножества признаков, поданных в качестве входных сигналов. Используемые критерии эффективности: точность классификации, сложность НС, уровень парной корреляции входов НС. На основе метода SelfAGP+ANN автором разработан двухэтапный метод, объединяющий метод «фильтр» в качестве предобработки данных и «обертка» в формирования финального набора признаков с применением НС классификаторов, сгенерированных с применением многокритериального ГП (Preprocessing with Sorting - PS, Multi - criteria Genetic Programming - MCGP). На первом этапе (PS) проводится оценка признаков по трем критериям качества: уровень вариации, оценка Фишера. После вычисления порогового значения, оцениваются и отбираются признаки по эффективности «0» - не эффективный и «1» - эффективный признак. В промежуточный набор попадают признаки с «1». Второй этап (MCGP) идентичен методу SelfAGP+ANN. На этом этапе отбираются релевантные признаки в финальный набор. На основе метода PS+MCGP был разработан подход (PS +MCGP_Ens), в котором решение по эффективности принимает ансамбль НС. А финальный набор признаков формируется с использованием входных нейронов всех НС из текущего ансамбля. Решение ансамбля формируется по схеме Scheme 3:
1. Классификация объектов из обучающей выборки сетями из ансамбля. Подсчет правильно классифицированных объектов по каждой НС. Та НС, которая правильно показала, определила большее количество объектов считается более эффективной.
2. Определение для каждого объекта тестовой выборки ближайшего объекта из обучающей выборки. Вычисление выхода по тестовой выборке (ТВ). Вычисление выхода проводится той НС, которая показала лучший результат на ближайшем объекте обучающей выборки. Если несколько НС показали хороший результат, то предпочтение отдается более эффективной НС.
3. Тестирование сетей. Вычисление эффективности общего решения ансамбля. Точность классификации - это отношение суммы правильно классифицированных объектов из ТВ найденными сетями к общему количеству объектов в базе данных.
Для реализации метода PS+MCGP_E количество НС в ансамбле - 3. Для тестирования выбраны следующие классификаторы: VFI, Naive Bayes, k-NN, JRip, LWL [4] и базы данных: Berlin (немецкий язык) [5], LEGO (английский язык) [6], RSDB (русский язык) [7]. В таблице приведены результаты (после 50 запусков) сравнительного исследования разработанных методов: SelfAGP+ANN, PS+MCGP, PS+MCGP_E. Полученные результаты демонстрируют эффективность разработанных методов. Средняя точность с применением метода SelfAGP+ANN - 60,4 %, метода PS+MCGP - 72,4, метода PS+MCGP_E - 74,8 %. Наибольшее значение по точности классификации отмечено после применения метода PS+MCGP_E: точность повышена на 8,4 %. Исследовано, что качество распознавания зависит от выбранного классификатора. Наибольшую точность показали следующие классификаторы: JRip, k-NN. Также точность классификатора зависит не только от качества (эффективности), но и от количества признаков. В целом, разработанные методы показали свою эффективность для повышения качества распознавания информации по речи (по акустическим характеристикам). Разработанные методы могут быть интегрированы в различные системы с целью обработки данных, в том числе, в диалоговые системы, для повышения качества эмоций по речевому сигналу.
Сравнение эффективности разработанных методов на трех базах данных
Классификатор
БД Количество признаков LWL JRip k-NN Naive Bayes VFI
До отбора После отбора Точность, %
Berlin 45 Метод отбора 20 23,б 40,2 б9,2 б2,б 50,4
SelfAGP+ANN
PS + MCGP 22 22,8 58,5 7б,9 74,9 54,7
PS +MCGP Ens 28 3б,2 49,9 74,8 70,3 5б,1
LEGO 29 SelfAGP+ANN 12 75,4 71,2 б3,9 б4,2 52,5
PS + MCGP 18 73,9 70,8 81,3 7б,б б7,0
PS +MCGP Ens 23 72,1 75,б 80,5 74,1 б8,9
RSDB 20 SelfAGP+ANN 8 8б,8 93,5 83,7 85,5 58,1
PS + MCGP 13 91,4 95,3 88,б 87,б б5,7
PS + MCGP Ens 1б 93,7 85,7 9б,2 92,2 95,б
Библиографические ссылки
1. Self-adaptive multi-objective genetic algorithms for feature selection / C. Brester, E. Semenkin, M. Sidorov, W. Minker // Proceedings of International Conference on Engineering and Applied Sciences Optimization (OPT-i'14). 2014. С. 1838-1846.
2. Loseva E. Multi-criteria Self-adjusting Genetic Programming for design neural network models in the task of feature selection // Актуальные проблемы в современной науке и пути их решения : материалы XXIV Междунар. конф. М., 2016. № 2(23), Ч. 5. С. 5-9.
3. Loseva E. D., Lipinsky L. V. Ensemble of networks with application of multi-objective self-configurable genetic programming // Vestnik SibGAU. 2016. Vol. 17. No. 1. С. 67-72.
4. Akthar F., Hahne C. Rapid Miner 5: Operator reference // Dortmund. 2012. P. 25-55.
5. A database of german emotional speech / F. Burkhardt, A. Paeschke, M. Rolfes, W. F. Sendlmeier,
B. Weiss // Interspeech. 2005. С. 1517-1520.
6. Schmitt A., Ultes S., and Minker W. A parameterized and annotated corpus of the cmu let's go bus information system // International Conference on Language Resources and Evaluation (LREC). 2012.
C. 208-217.
7. Лосева Е. Д. Применение десяти алгоритмов для оптимизации параметров машины опорных векторов и оптимизации отбора информативных признаков в задаче распознавания пола и возраста человека // Современные концепции научных исследований : материалы XII Междунар. науч.-практ. конф. (27-28 марта 2015, г. Москва). № 3 ; Евразийский союз ученых. 2015. С. 132-136.
© Лосева Е. Д., 2016