Научная статья на тему 'Обзор подходов к проблеме распознавания эмоций по параметрам устной речи'

Обзор подходов к проблеме распознавания эмоций по параметрам устной речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
967
174
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
распознавание эмоций / аффективные вычисления / обработка речевых сигналов / машинный слух. / emotion recognition / affective computing / emotional speech / machine hearing.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мубаракшина Раушания Тахировна, Яковенко Антон Александрович

В работе предложен обзор предметной области аффективных вычислений и рассмотрены методы обработки эмоционально окрашенной речи. Рассмотрена задача бинарной классификации в контексте рассматриваемой проблемы, проанализированы факторы, оказывающие влияние на качество получаемых результатов. Сформулированы цели и задачи предстоящего исследования. Предложен подход, реализующий парадигму машинного слуха, которая заключается в извлечении физиологически обоснованных признаков речевого сигнала и применении нейросетевых методов для их анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мубаракшина Раушания Тахировна, Яковенко Антон Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A REVIEW ON SPEECH EMOTION RECOGNITION PROBLEM

The paper presents a review on modern research field on affective computing and examines approaches to the emotional speech processing problem. The binary classification task in the context of the emotional speech recognition is considered, factors affecting the quality of the results are analyzed. The goals and objectives of the forthcoming study are formulated. An approach that implements the machine hearing paradigm is proposed.

Текст научной работы на тему «Обзор подходов к проблеме распознавания эмоций по параметрам устной речи»

УДК 004.522, 004.934.2

Мубаракшина Раушания Тахировна,

студент,

Яковенко Антон Александрович,

ведущий программист

ОБЗОР ПОДХОДОВ К ПРОБЛЕМЕ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО ПАРАМЕТРАМ УСТНОЙ РЕЧИ

Россия, г. Санкт-Петербург, ФГАОУ ВО «Санкт-Петербургский политехнический университет Петра Великого», [email protected], [email protected]

Аннотация. В работе предложен обзор предметной области аффективных вычислений и рассмотрены методы обработки эмоционально окрашенной речи. Рассмотрена задача бинарной классификации в контексте рассматриваемой проблемы, проанализированы факторы, оказывающие влияние на качество получаемых результатов. Сформулированы цели и задачи предстоящего исследования. Предложен подход, реализующий парадигму машинного слуха, которая заключается в извлечении физиологически обоснованных признаков речевого сигнала и применении нейросе-тевых методов для их анализа.

Ключевые слова: распознавание эмоций, аффективные вычисления, обработка речевых сигналов, машинный слух.

Raushaniia Mubarakshina,

Student, Anton A. Yakovenko,

Lead software engineer

A REVIEW ON SPEECH EMOTION RECOGNITION PROBLEM

Russia, St.Petersburg, Peter the Great St.Petersburg Polytechnic University, [email protected], [email protected]

Abstract. The paper presents a review on modern research field on affective computing and examines approaches to the emotional speech processing problem. The binary classification task in the context of the emotional speech recognition is considered, factors affecting the quality of the results are analyzed. The goals and objectives of the forthcoming study are formulated. An approach that implements the machine hearing paradigm is proposed.

Keywords: emotion recognition, affective computing, emotional speech, machine hearing.

Эмоциями принято называть особый вид психических процессов, выражающих реакции индивида на воздействие внутренних и внешних раздражителей, имеющих ярко выраженную субъективную окраску в форме непосредственных переживаний [1]. Эмоции охватывают все виды чувствительности и являются важным фактором регуляции жизнедеятельности. Люди способны выражать широкий спектр эмоций, однако однозначного определения и метода измерения эмоции не существует, что приводит к различным подходам к категоризации эмоциональных данных [2,3].

На сегодняшний день в когнитивистике и исследованиях по искусственному интеллекту наиболее распространены две формальных модели представления эмоций: дискретная (или категориальная) и непрерывная (или многомерная) [4]. Дискретный подход предполагает существование первичных эмоциональных состояний, которые также называют базовыми. При этом определение базовых эмоций также не является однозначным, и в различных исследованиях выделяют от 6 (гнев, отвращение, страх, печаль, счастье, удивление) до 22 видов эмоциональных состояний. В непрерывном подходе эмоция рассматривается в качестве базиса в многомерном координатном пространстве. Изменение величины, присутствующей в определенном измерении, характеризует изменение эмоционального состояния и его интенсивности. Кроме того, существует гибридный подход, который, как видно из названия, предполагает комбинацию дискретного и многомерного. Все эти подходы основываются на общем допущении, что в один момент времени может быть выражена только одна эмоция.

В последние годы особую актуальность приобрело направление т.н. аффективных вычислений - новых технологий, обеспечивающих человеко-машинное взаимодействие посредством анализа эмоций [5]. Это область исследований, направленная на разработку интеллектуальных систем, способных обрабатывать, распознавать и интерпретировать эмоциональное состояние человека, и впоследствии адаптировать своё поведение надлежащим образом. Аффективные вычисления развиваются в двух взаимосвязанных направлениях. Первое направление - распознавание эмоций, оно нацелено на разработку методов точной классификации эмоциональных состояний человека. Второе направление связано с синтезом эмоций и нацелено на воспроизведение эмоциональных состояний внутри интеллектуальных систем, например, в робототехнике.

Человеческий мозг распознает эмоции с использованием визуальной (мимика, жестикуляция) и слуховой модальности (речь). Мультимо-дальный подход увеличивает доступную к интерпретации информацию и позволяет более точно распознать эмоцию, и применяется в задачах

аудиовизуального распознавания эмоций [6]. Однако, разработать такой алгоритм представляется весьма трудоемкой задачей. Кроме того, человеко-машинный интерфейс часто предусматривает только один канал коммуникации. Поскольку наибольшей выразительностью обладает лицо человека, наблюдается активное развитие алгоритмов определения эмоций по изображению. К настоящему времени распознавание эмоций на основе визуальных данных достигло высокой точности, но их применение ограничено определением знака эмоции. Для того, чтобы иметь возможность распознать не только знак, но и интенсивность эмоции, предпочтительнее использовать речевые сигналы, что обуславливает актуальность развития соответствующей методологии [7,8].

Таким образом, цель предлагаемого исследования - разработать систему классификации эмоций по параметрам устной речи. В настоящей работе выполнен обзор предметной области аффективных вычислений в задаче распознавания эмоций для определения актуальных направлений, существующих подходов и выбора методологии.

В качестве основы предлагается использовать дискретную модель представления эмоциональных данных. Как упоминалось выше, согласно дискретной теории эмоций, существует несколько первичных типов эмоциональных состояний. Но поскольку наличие множества категорий негативно сказывается на производительности системы распознавания, а также в виду сложности самой задачи, сначала подход будет изучаться на примере бинарной классификации.

Бинарная классификация предполагает разделение двух категорий эмоций по признакам, представленным характеристическими векторами (объектами выборки). Приведём формальную постановку данной задачи.

Пусть множество ^ = ^Л х 1" * - признаковое пространство, а У - конечное множество меток классов. Имеется обучающая выборка:

Хт = К^,УЛ...СХш.Ут)} где т - размерность пространства признаков. Признаком называется

отображение Щ, где — множество допустимых значений при-

знака. При заданных признаках Л ■■■ (п, вектор признакового описания

объекта х е % выглядит следующим образом:

х = (£Се>, (х))

Признаковые описания обычно принимают за сами объекты. Требуется построить алгоритм 0С: X ^, способный классифицировать произвольный объект - Е л .

В настоящее время для построения классификаторов широко используются методы линейного дискриминантного анализа, к-ближайших соседей, модели смесей гауссовых распределений, скрытые марковские

модели, машины опорных векторов, деревья решений и искусственные нейронные сети [9-12]. Также могут использоваться ансамбли классификаторов для взвешенного принятия решений.

Сложность анализа речевых сигналов вызвана как высокой междикторской и внутридикторской вариативностью, так и разницей в длительности речевых высказываний. Поэтому технологии обработки эмоционально окрашенной речи призваны распознавать эмоциональное состояние пользователя посредством численного анализа устойчивых речевых признаков. С помощью исследований в области акустики, психолингвистики и психофизиологии выявлены признаки, придающие окрас и знак речи. Данные характеристики задают вектор состояний и позволяют разделять эмоции. Для анализа эмоционального окраса речи используют признаки, которые можно разделить на частотные и временные. Установлена зависимость между высотой тона, скоростью, громкостью голоса и эмоцией. Так, например, речь, возникающая в состоянии страха, гнева или радости, становится быстрой и громкой, с широким диапазоном высоты тона, в свою очередь усталость, апатию или грусть характеризует медленная, низкая по тембру и невнятная речь.

Помимо выбора признакового описания, существенное влияние на результат распознавания эмоций оказывает речевая база [13]. Собранные в реальном времени аудиозаписи спонтанной речи заметно ухудшают эффективность решения задачи, в то время как речь профессиональных актёров способствует улучшению качества обучения, т.к. содержит ярко выраженный эмоциональный окрас. В связи с этим, модели предпочтительно обучать с использованием специально подобранных корпусов эмоциональной речи, позволяющих оценить работу разрабатываемых алгоритмов и сфокусироваться на классификации состояний, не усложняя задачу на начальных этапах разработки.

Также, на первом этапе, во избежание междикторской вариативности, расчёты планируется осуществлять по отдельности для разных дикторов. На основе полученных результатов предполагается сделать выводы о способах извлечения эмоциональных характеристик из речевого сигнала, разработать эффективную стратегию распознавания и установить качество интерпретации различных видов эмоционального окраса речи. В общем виде процесс классификации речевых сигналов можно представить в виде структурной схемы, изображённой на рис.1.

аудиосигнал

с >

извлечение речевых признаков

V__

Рис. 1. Структурная схема системы диагностики состояния человека по речи

Распознавание эмоций в речевом сигнале относится к типу задач, для которых важно учитывать то, как акустический сигнал воспринимается человеком. Поэтому для реализации представленной схемы в предстоящем исследовании предлагается подход с позиции машинного слуха [14]. Согласно данному подходу, на этапе извлечения речевых признаков сигнал представляется в физиологически обоснованной форме, с применением имитационных моделей процессов обработки аудиоинформации в слуховой периферии. Затем, полученные данные поступают на вход модуля принятия решений, представленного нейросетевым классификатором. Искусственные нейронные сети позволяют структурировать плохо формализованные данные, коими являются данные об эмоциональном окрасе устной речи. На этапе обучения происходит настройка прогнозирующих моделей, описывающих эмоциональные состояния. Сложность такого подхода заключается в выборе подходящей архитектуры сети и корректной настройке её параметров. Данные вопросы будут подробно рассмотрены в ходе дальнейшей работы.

Итак, в данной работе представлен обзор актуальных проблем и методов в задаче определения эмоционального состояния диктора по голосу. Подводными камнями в области распознавания эмоций остаётся несогласованность в определении понятий и выявлении определяющих эмоции характеристик, отсутствие стандартов, задающих направление развития. Однако, рынок уже может предложить готовые базы и решения в данной области. Технологии распознавания речи и анализ эмоций способствуют развитию интеллектуальных систем человеко-машинного взаимодействия. Использование естественного для человека языка станет большим прорывом в робототехнике. К настоящему моменту в разработке систем распознавания эмоций заинтересованы такие сферы, как автомобилестроение, игровая индустрия, нейромаркетинг, безопасность и другие.

Список литературы

1. Scherer K.R. What are emotions? And how can they be measured? // Social science information. - 2005. - Т. 44. - №. 4. - P. 695-729.

2. Галунов В.И. О возможности определения эмоционального состояния по речи // Речевые технологии. - 2008. - № 1. - С. 60-66.

3. Лукьяница А. А., Шишкин А.Г. Автоматическое определение изменений эмоционального состояния по речевому сигналу // Речевые технологии. - 2009. - № 3. -С. 60-76.

4. Cornelius R.R. The science of emotion: Research and tradition in the psychology of emotions. - Prentice-Hall, Inc, 1996.

5. Calvo R.A. et al. (ed.). The Oxford handbook of affective computing. - Oxford Library of Psychology, 2015.

6. Ranganathan H., Chakraborty S., Panchanathan S. Multimodal emotion recognition using deep learning architectures // 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). - IEEE, 2016. - С. 1-9.

7. Давыдов А.Г., Киселев В.В., Кочетков Д.С. Классификация эмоционального состояния диктора по голосу: проблемы и решения // Труды международной конференции «Диалог 2011». - М.: РГГУ, 2011. - С. 178-185.

8. Кальян В.П. Выбор решений при распознавании эмоций по речи // Машинное обучение и анализ данных. - 2016. - Т. 2 - № 4. - С. 454-470.

9. Стерлинг Г., Приходько П. Глубокое обучение в задаче распознавания эмоций из речи // Труды конференции «Информационные технологии и системы 2016» / ИППИ РАН. - 2016. - С. 451-456.

10. Полякова А.С., Сидоров М.Ю., Семенкин Е.С. Комбинирование подходов кластеризации и классификации для задачи распознавания эмоций по речи // Сибирский журнал науки и технологий. - 2016. - Т. 17 - № 2. - С. 335-342.

11. Лосева Е.Д., Липинский Л.В. Распознавание эмоций человека по устной речи с применением интеллектуальных методов анализа данных // Актуальные проблемы авиации и космонавтики. - 2016. - Т. 1 - № 12. - С. 533-535.

12. Ingale A. B., Chaudhari D. S. Speech emotion recognition //International Journal of Soft Computing and Engineering (IJSCE). - 2012. - Т. 2. - №. 1. - С. 235-238.

13. Алешин Т.С., Редько А.Ю. Принципы подготовки баз речевых данных для задачи распознавания эмоционального окраса речи человека по речевому сигналу // Современные наукоёмкие технологии. - 2016. - № 6. - С. 229-233.

14. Lyon R.F. Machine hearing: An emerging field // IEEE signal processing magazine. - 2010. - Т. 27. - №. 5. - С. 131-139.

УДК 004.934.2, 004.032.26

Панова Анастасия Андреевна,

студент,

Яковенко Антон Александрович,

ведущий программист

МЕТОДЫ ДЕТЕКТИРОВАНИЯ ГОЛОСОВОЙ АКТИВНОСТИ

Россия, г. Санкт-Петербург, ФГАОУ ВО «Санкт-Петербургский политехнический университет Петра Великого», [email protected], [email protected]

Аннотация. В работе представлен аналитический обзор предметной области детектирования голосовой активности. Рассмотрены основные способы решения данной задачи, применяемые на практике. Предложен подход, основанный на анализе визуального представления акустического сигнала, свёрточных нейронных сетях и парадигме машинного слуха. Приведена структурная схема соответствующей методологии, лежащей в основе предлагаемого исследования.

Ключевые слова: детектор голосовой активности, обработка речевых сигналов, машинный слух, сверточные нейронные сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.