Научная статья на тему 'Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2)'

Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
• распознавание эмоций диктора • трансформеры • свёрточные нейронные сети / • deep learning • speaker emotion recognition • transformers • convolutional neural networks

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кушнир Д. А., Жонин А. А.

Распознавание эмоций по речи является нетривиальной задачей из-за недостатка информации об эмоциональном состоянии в аудиосигнале. В этой работе анализируются подходы к распознаванию эмоционального состояния по аудиосигналу и его транскрипции. Многие работы в этой области посвящены разработке и анализу признаков, в наибольшей мере отражающих эмоции в речи, но анализ существующих работ показывает наибольшую перспективность методов глубокого обучения. Были проанализированы сверточные глубокие нейронные сети различной архитектуры (VGG и ResNet), а также трансформерные архитектуры для оценки эмоции по расшифровке аудиозаписи. Результаты показывают эффективность совмещения информации из этих двух модальностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEEP LEARNING IN MULTIMODAL METHODS FOR RECOGNIZING THE SPEAKER’S EMOTIONAL STATE (PART 2)

Emotion recognition from speech is a non-trivial task due to the lack of information about the emotional state in the audio signal. This paper analyzes approaches to emotion state recognition from audio signal and its transcription. Many works in this area focus on developing and analyzing features that best represent emotion in speech, but the analysis of existing works shows the greatest promise of deep learning methods. We analyzed convolutional deep neural networks of different architectures (VGG and ResNet) as well as transformer architectures for emotion estimation from audio transcripts. The results show the effectiveness of combining information from these two modalities.

Текст научной работы на тему «Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2)»

Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2)2

Кушнир Д. А., кандидат технических наук, 3Ш^, Москва, d.kushnir@3itech.ru

Жонин А. А., 3Ш^, Москва, a.zhonin@3itech.ru

Распознавание эмоций по речи является нетривиальной задачей из-за недостатка информации об эмоциональном состоянии в аудиосигнале. В этой работе анализируются подходы к распознаванию эмоционального состояния по аудиосигналу и его транскрипции. Многие работы в этой области посвящены разработке и анализу признаков, в наибольшей мере отражающих эмоции в речи, но анализ существующих работ показывает наибольшую перспективность методов глубокого обучения. Были проанализированы сверточные глубокие нейронные сети различной архитектуры (VGG и ResNet), а также трансформерные архитектуры для оценки эмоции по расшифровке аудиозаписи. Результаты показывают эффективность совмещения информации из этих двух модальностей.

• распознавание эмоций диктора ронные сети

трансформеры • свёрточные ней-

СИСТЕМА МУЛЬТИМОДАЛЬНОГО РАСПОЗНАВАНИЯ ЭМОЦИЙ НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ

Разработанная модель оценки эмоционального состояния диктора по аудиозаписи и ее расшифровке и интегральной оценки применяет методы глубокого обучения, поскольку те показывают наибольшее качество.

ПРЕДОБРАБОТКА АУДИОЗАПИСИ И АГРЕГИРОВАНИЕ ПРИЗНАКОВЫХ ПРЕДСТАВЛЕНИЙ

Обучение моделей оценки эмоционального состояния происходило не на исходных аудиозаписях, в качестве предобработки аудиозаписей было использовано преобразование на основе гребенки фильтров

22

Начало см.: Речевые технологии. — 2023. — № 2. — С. 49

2

равноразнесенных по частотной шкале мел. Данный выбор обоснован тем, что, во-первых, данное преобразование хорошо выявляет частоты человеческой речи, так как формирует дискриминативные нелинейные представления на низких частотах, и формирует меньше дискриминативных признаков на высоких частотах, таким образом концентрируя внимания на участке нижних частот, в которых сосредоточен человеческий голос, а во вторых, данное преобразование хорошо себя показало при решении разных задач, связанных с обработкой речевых аудиозаписей, особенно при применении алгоритмов машинного и глубокого обучения.

Алгоритм получения выходов фильтр-банков по шкале мел состоит из следующих шагов. Сначала выполняется кратковременное преобразование Фурье, на выходе которого получается распределение частот от времени. Далее результаты выхода кратковременного преобразования Фурье берутся по модулю и возводятся в квадрат, получая распределение амплитуды и частоты во времени. Конечным этапом является свертка спектрограммы с коэффициентами гребенки фильтров с частотами, равноразне-сенными по шкале мел Hm(k) для каждого временного фрейма. Гребенка фильтров с частотами, равноразнесенными по шкале мел, задаётся следующим образом:

f = 700

102595

(1)

m = 2595

1 + -^ 700

(2)

HM (k

0, k < f (m-1) k _f (m-1)

,f(m_1)<k <f (m)

f (m )_f (m-1)

f(m + 1)_k . . . .

-A—\ / \ ,f (m)< k < f (m +1) f(m + 1)_f(m) v ' v '

0, k > f (m +1)

(3)

Здесь М — количество фильтр-банков, которые мы хотим использовать, ! — частота в Гц; т — преобразованная мел частота; к — текущий фильтр.

При использовании глубоких нейронных сетей для решения разных задач обработки аудиосигналов возникает проблема в агрегировании участков разной длительности. В разработанной системе оценивались следующие способы агрегирования признаков аудиосигнала:

а)усреднение;

б) обучаемое взвешенное усреднение (ОВУ);

в) обучаемое взвешенное статистическое усреднение (ОВСУ).

Пусть h = [Л1 ,Л2.....Лг]еЯТх"т — временные аудиопризнаки длительностью Т и размерностью с!т . Тогда агрегирование с помощью усреднения (а) будет иметь вид:

illll^-i!., ТИР^ 1

Кушнир Д. А., Жонин А. А. Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2)

24

м=т ТР

1 I=1

Обучаемое взвешенное усреднение (ОВУ) имеет вид:

е = У71 (АР+ь)+к ехр (е)

a (e ) =

Е;=1exp(ey)

T

м,=ЕаЛ

(4)

(5)

(6)

(7)

Тут V — векторы размерностью dm, Ь и к — скаляры; I — функция активации, например ReLU или Tanh.

ОВСУ, так же как и ОВУ, но добавляется еще вектор стандартного отклонения, О — адамарово произведение:

: = л ЕаЛ © h - М, © М,

(8)

ГЛУБОКАЯ СВЕРТОЧНАЯ СЕТЬ ДЛЯ РАСПОЗНАВАНИЯ ЭМОЦИЙ

В данной работе использовались VGG [62] подобные архитектуры нейронной сети и ResNetSE34L [63] с разными способами агрегирования и разными гиперпараметрами. Используемые архитектуры представлены ниже.

Рис. 1. Архитектуры глубоких нейронных сетей VGG_1 и VGG_2

I=1

T

I=1

Рис. 2. Архитектура глубокой нейронной сети ResNetSE34L

Одной из самых простых и известных архитектур является VGG для распознавания изображений, поэтому она была выбрана и модифицирована для оценки эмоционального состояния диктора. В качестве модификации выступает уменьшение количества слоёв, так как объем данных намного меньше по сравнению с базой данных ImageNet. Помимо уменьшения количества слоёв была использована другая функция активации: вместо ReLU была использована LeakyReLU, которая не зануляет отрицательные значения, а придает им меньший вес, что часто улучшает качество. Также перед каждой функцией активации применяется BatchNormalization. Известно, что нормализация по порциям данных позволяет стабилизировать и ускорить обучение сети. После использования свёрток и агрегатора временной составляющей используется прореживание (dropout). Данный слой используется для регуляризации модели, предотвращения переобучения модели на обучающей выборке и, как следствие, увеличивает генерализацию модели. Для сравнения было выбрано две архитектуры типа VGG (рис. 1) с разным количеством гиперпараметров модели, результаты работы которых приведены в разделе 5.

Помимо VGG архитектуры, использовалась ещё одна архитектура, которая называется ResNetSE34L, которая представляет собой уменьшенную версию ResNet. Архитектура ResNet (рис. 2) известна тем, что обычно показывает результат лучше по сравнению с моделями типа VGG за счёт того, что имеет аддитивные слои и, как следствие, более быстрое течение градиентов между слоями. Версия SE [64] помимо сверточных слоев использует линейные слои внутри модели, которые позволяют уменьшить размер данной архитектуры без сильной потери качества. В данной работе за счёт большого количества параметров модель не обучалась с нуля для задачи оценки эмоционального состояния диктора. Прежде чем обучить эту модель, сначала решалась задача идентификации диктора на большом объёме данных. После чего данная предобученная модель

дообучалась на эмоциональном корпусе. Данный подход известен как Transfer Learning, когда берётся обученная модель из близкой по смыслу задачи в плане распределения входных данных и доо-бучается для задачи на другом наборе данных. При определенных условиях, особенно когда набор входных данных не является большим, данный подход часто дает лучшее качество в сравнении с не-предобученными моделями.

Использовались разные функции потерь. При решении задач классификации обычно используют кросс-энтропию (КЭ), если K — количество классов, y — истинный класс, y, — оценка вероятности класса, то соотношения для кросс-энтропии:

Ls =—T/i '°QYi

(9)

Однако при несбалансированном наборе примеров в каждом классе использование соотношения выше ведет к тому, что недоминирующие классы будут иметь худшее качество распознавания в зависимости от соотношения примеров между классами. Для устранения данной проблемы используют взвешенную функцию потерь (ВКЭ), где веса расставляют обратно пропорционально количеству примеров в классе. Если С( — количество примеров в каждом классе, то взвешенная кросс-энтропия будет иметь вид:

1

=— c C

Lsw =— YWc, y/ |09У/

/=1

(10)

Простое взвешивание функции потерь не единственный способ борьбы с несбалансированным набором примеров в классах. Для борьбы с этой проблемой также используется фокальная функция потерь (ФФП), которая имеет вид:

(12)

L =—Еа/ ■ Y/' (1 — Yi) ■ '°9Y'

26

где а(., у — настраиваемые гиперпараметры.

Для увеличения разнообразия данных выполнялось аддитивное и мультипликативное наложение шумов, а также изменение тона. В качестве аддитивных шумов были взяты разные шумы, такие как звуки поезда, стуки по дереву, многоголосый шум и т. д. При добавлении аддитивного шума целевое отношение сигнал — шум (БЫ^ для аугментации генерировалось из нормального распределения с математическим ожиданием, равным 20, и стандартным отклонением, равным 8 (13). При добавлении мультипликативного шума (ревербераций) мощность ревербераций для каждой аудиозаписи Р задавалась через равномерное распределение с параметрами 0,05 и 0,9 соответственно (14). Также менялся тон голоса Т, уровень изменения которого менялся от -8 до 8 через равномерное распределение (15). При применении общей аугментации использовались следующие вероятности для каждой

K

K

K

/=1

аугментации, 30 % — аддитивный шум, 30 % — изменение тона, 20 % — реверберация и 20 % отсутствие какой-либо аугментации.

БМЯ-М (20, 8) (13)

Я~и (0,05, 0,9) (14)

Т ~и(-8,8) (15)

ПРЕДСТАВЛЕНИЯ СЛОВ ДЛЯ КЛАССИФИКАЦИИ ПО ТЕКСТУ

В качестве представления слов был использован метод Woгd2Vec, который представляет собой отображение каждого входящего слова в вектор заданной длины. Таким образом формируется словарь (матрица слов) с уникальными словами, каждому из которых соответствует свой уникальный вектор. Данная матрица имеет возможность настраиваться в процессе обучения, в зависимости от решаемой задачи и захватывает определенные характеристики слов независимо от всего текста. Данные характеристики могут включать семантические зависимости слов, определения, смысловую нагрузку и т. д. Используя данные векторные представления, помимо решения задач классификации, возможно также рассчитывать близость слов относительно решаемой задачи. При решении задачи использовалось обучаемое отображение слов с нуля и предобученная матрица на большом наборе данных. В данной работе использовалась матрица (м х С), где м — количество слов в словаре, а С — размер вектора, который представляет численно слово в пространстве всех остальных слов, пример данной матрицы (словаря) представлен в таблице ниже. Первая колонка — это примеры слов, в каждой строке каждому слову соответствует вектор X = (Х1, Х2, ... Хс) — который и является отображением слова в вектор чисел. Данный словарь представляет собой набор весов, который перемножается на слова, которые кодируются унитарным кодом, таким образом получая для каждого слова свой уникальный вектор.

привет х1

плохо х1

xорошо

благодарю

извините *1

АРХИТЕКТУРА ТРАНСФОРМЕРА

В качестве модели классификации эмоций по расшифровке аудио была использована архитектура Transformer, которая в последнее время зарекомендовала себя как одна из лучших в решении задач обработки естественного языка. Архитектура представлена ниже.

illlài^-i!., ТИР^ 1

Кушнир Д. А., Жонин А. А. Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 2)

Рис. 3. Схема архитектуры глубокой нейронной сети Transformer

(encoder-only)

На рисунке 3 Embedding — матрица слов, которая описана в пункте 1, PositionaL Embedding — кодировка позиций слов, аддитивная операция, складывающая вектор позиции слова и вектор слова из матрицы. Multi-Head attention — слой на основе многоголового внимания. Add & Norm — аддитивная операция, складывающая нормализованный выход нейронов в предыдущем слое нейронной сети с выходом предыдущего блока слоев нейронной сети. Global Average Pooling — усреднение временных характеристик в выходных нейронах нейронной сети.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Исследовались два способа кодирования позиций слов. Первый способ заключается в создании матрицы позиций, которая составляется таким же образом, как матрица слов, только вместо слов заполняется позициями слов в предложении. Данная матрица является обучаемой. Второй способ кодирования информации о позиции слов является созданием матрицы позиций на основе гармоник, которая имеет вид:

28

P (k ,2/) = sin

P =

2 nd

(16)

P (k ,2' + 1) = cos

k_

2

В выражении (16) к — позиция слова в предложении, С — размерность входа в токенах в трансформере. Р(к, /) — позиция функции для вычисления значения позиции к в предложении к индексу (к, ¡) матрицы позиций. п — скаляр, который задаётся экспериментально, часто берется как 10 000. / — используется для вычисления индексов в колонках, одним / вычисляется значение как косинуса, так и синуса. Можно заметить, что четные позиции соответствуют синусоидальной функции, а нечетные — косинусоидальной функции.

Последний способ кодирования позиций представляет собой матрицу кодирования позиций слов с фиксированными значениями, которые не настраиваются в процессе обучения, и в последнее время является одним из основных при использовании архитектуры типа Transformer для задач, связанных с обработкой естественного языка.

Для расширения обучающего набора данных слова с вероятностью р, которая подбирается экспериментально, заменяются на синонимы. Для замены слов на синонимы была использована библиотека ш^-шо^-пе^ которая представляет собой семантическую сеть типа WoгdNet для русского языка, составленную из данных русского Викисловаря. Таким образом, получилось расширить как словарный запас модели, так и количество данных для обучения модели.

ИНТЕГРАЦИЯ ОЦЕНОК ПО АУДИОЗАПИСИ И ЕЕ РАСШИФРОВКЕ

Алгоритм интегральной оценки эмоций использует выходы моделей оценки эмоционального состояния диктора по аудиозаписи и по расшифровке аудиозаписи. Выход этих моделей для данного речевого сообщения и его расшифровки представляет собой вектор вероятностей длиной 2, который содержит в себе вероятности данной аудиозаписи или ее расшифровки принадлежать одному из классов: {нейтральный; негативный}.

Далее векторы выхода от модели оценки по аудиозаписи формула и по расшифровке pCA и по расшифровке poт объединяются с помощью логистической регрессии:

5+ = woPoT [0]+ WPoA [0]+ Ь

Y =

pred

0(Нейтральный класс), ——— < t

1(Негативный класс), —> t

v ' 1+e +

1 + e—(17)

30

В выражении (17) w0, w1, b — коэффициенты логистической регрессии, которые обучаются на валидационной выборке, t — порог принятия решения (настраивается на валидационной выборке). Также значение

out =-1-— может использоваться для расчета вероятностей клас-

1+е +

сов при пороге t = 0,5 таким образом: 1-out — как вероятность нейтральной оценки эмоции, out — как вероятность негативной оценки эмоции.

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ

Набор данных представляет собой аудиозаписи с разметкой эмоций по фразам, которые были размечены специалистами. Наборы данных были взяты из реальных разговоров из разных сфер, таких как банковская, спорт, медицина, связь. Помимо времени начала и конца фразы для каждой фразы дана расшифровка в виде текста и соответствующая ей разметка эмоционального класса. Размечались такие эмоции, как гнев, недовольство, грусть, страх, нейтрал, удовлетворение, радость, скука и сочетание этих эмоций. Однако в работе, в оценке эмоционального состояния диктора были использованы только два класса: негатив и нейтрал, так как негатив в первую очередь интересно находить в колл-центрах и других компаниях, которые могут предоставлять удалённую поддержку. Если в сочетании эмоций была хотя бы одна негативная эмоция, то эмоция размечалась как негативная. В качестве негатива использовались такие эмоции, как гнев, недовольство и страх, остальные эмоции считались нейтральным классом. Данные в рамках разметки нейтрал и негатив сильно не сбалансированные, так как в реальных аудиозаписях не часто встречаются негативные разговоры. Еще больше не сбалансированы позитивные эмоции.

В процентном соотношении в рамках разметки часть негатива составляет примерно 6,1 % от всего набора данных, аудиозаписи с положительными эмоциями составляют 0,52 % от всего набора данных.

Всего было подготовлено 500 ч аудиозаписей, размеченных по эмоциям.

Данные были разделены на валидационную выборку (2,9 % объема выборки), тестовую (0,18 % объема) и обучающую (96,92 % объема).

Тестовая выборка представляет собой аудиозаписи 882 фраз, 55,66 мин в целом, из них 511 нейтральных фраз, 328 фраз с негативом, 43 фразы с позитивом. Модели оценки эмоционального состояния по аудиозаписи и интегральной оценке считают фразы с позитивом как нейтральные, поскольку распознают только негатив и нейтральную эмоцию.

Для оценки эмоционального состояния диктора использовались описанные выше алгоритмы классификации эмоций по аудиозаписи. Всего оценивалось два эмоциональных состояния: нейтрал и негатив. Точность считается как среднее значение диагонали нормированной матрицы

потерь, нормирование происходит за счёт деления на общее количество примеров для каждого класса. Каждая модель обучалась 100 эпох, в качестве метода оптимизации был выбран Адам с шагом обучения, равном 0,0001, который уменьшался на 10 % каждые пять эпох. При обучении использовался обучающий, валидацион-ный и тестовый набор. Каждая модель тренировалась на обучающем наборе данных и валидировалась на валидационном. Лучшая модель на валидационном наборе с максимальной точностью использовалась для тестирования. По тестируемому набору данных оценивалось качество моделей. Для оценки результата использовалась средняя точность, которая представляет собой среднее значение диагонали нормированной матрицы потерь. Рассмотрим детальнее каждую из моделей.

1. ResNetSe34L — это предобученная модель, которая заранее была предобучена на большом корпусе данных для задачи идентификации диктора. Данная модель в качестве агрегатора использует ОВУ. Используя инициализацию из задачи идентификации диктора, данная модель дообучалась на задачу оценки эмоционального состояния на корпусе. Данный подход объясняется тем, что во многих задачах глубокого обучения глубокие нейронные сети, обученные на похожих наборах данных, могут выучивать признаки, которые могут помочь в решении других задач, но при условии, что данные имеют похожую природу. Для обучения данной модели использовались разные функции потерь. Результаты приведены в таблице 1.

2. У6Э_1, У6Э_2 — две одинаковые архитектуры, которые визуально представлены в разделе 2. Они отличаются только набором фильтров в сверточных слоях. Ниже представлены результаты для разных функций потерь и разными способами агрегирования. Данные модели обучались сразу и не предобучались на других наборах данных.

Таблица 1

Результаты экспериментов на аудиозаписях моделей на глубоких нейронных сетях

Модель Функция потерь Агрегатор Точность

ResNetSe34L КЭ ОВУ 0,747

ResNetSe34L ВКЭ ОВУ 0,752

ResNetSe34L ФФП ОВУ 0,729

VGG_1 КЭ Среднее 0,528

VGG_1 ВКЭ Среднее 0,702

VGG_1 ФФП Среднее 0,702

VGG_1 ФФП ОВУ 0,741

VGG_1 ФФП ОВСУ 0,735

VGG_2 КЭ Среднее 0,512

VGG_2 ВКЭ Среднее 0,744

VGG_2 ФФП Среднее 0,732

VGG_2 ФФП ОВУ 0,732

VGG_2 ФФП ОВСУ 0,756

По таблице, представленной выше, можно заметить, что использование пред-обученной сети (ResNetSe34L) не улучшает качество для оценки эмоционального состояния диктора, однако, если набор данных был значительно меньше, чем тот, на котором проводились эксперименты, предобученная сверточная нейронная сеть давала лучший результат по сравнению с сетями, которые обучались с нуля. Однако это не значит, что предобучение на данных похожей природы не улучшает качество, это означает, что при таком наборе данных, используя такую архитектуру нейронной сети в контексте задачи оценки эмоционального состояния диктора, это не помогает улучшить результат распознавания. Исходя из таблицы выше, можно сделать вывод, что наилучший результат достигается с помощью ОВСУ, что было ожидаемо, так как ОВСУ помимо обучаемого среднего также обучается взвешенному стандартному отклонению, что является дополнительной полезной информацией при оценке эмоционального состояния диктора.

После определения лучшей модели, VGG_2 с ОВСУ, она была дообучена на дополненной обучающей выборке, и окончательная точность на тестовой выборке составила 0,806.

Для распознавания эмоций по расшифровке аудиозаписи в качестве модели использовалась архитектура Transformer, оценка происходила на трёх эмоциональных состояниях: позитив, негатив и нейтрал. Для модели было выполнено разное кодирование текстовой информации. Использовались обычная матрица слов МС, матрица слов плюс кодирование позиций слов с помощью обучающей матрицы КМС и кодирование слов плюс фиксированная матрица кодирования позиций на основе гармоник ГКМС. Также были использованы разные матрицы представления слов, одна инициализировалась случайно и настраивалась в процессе обучения, другая инициализировалась из матрицы слов, которая была предобучена на большом корпусе русского языка. Количество выходных нейронов в трансформере было взято как 256, количество голов на основе внимания было взято равным 8. В качестве метода оптимизации весов нейронной сети был выбран метод Adam, начальный шаг обучения был взят равным 0,001, и уменьшался на 95 % каждые пять эпох. Размер батча был равен 256. Вероятность применения синонимов к словам (аугментация) была равна 60 %. Результаты экспериментов представлены в таблице 2 ниже.

Таблица 2

Результаты экспериментов на текстовых расшифровках аудиозаписей модели Transformer

Модель Предобработка слов Предобученный набор слов Точность

Transformer МС - 0,471

Transformer МС + 0,555

Transformer КМС - 0,525

Transformer КМС + 0,580

Transformer ГКМС - 0,547

Transformer ГКМС + 0,525

32

Можно заметить, что лучшее качество даёт модель с предобученной матрицей слов и с обычным кодированием позиций. Также интересно, что для кодирования позиций методом гармоник предобученная матрица слов не особо влияет на качество распознавания. Однако для обычной матрицы слов и с обычным добавлением кодирования позиций качество заметно улучшается при использовании матрицы слов перед обученной на большом русском корпусе данных.

После определения лучших гиперпараметров, с предобученной матрицей слов и с обычным кодированием позиций, трансформер был дообучен на дополненной обучающей выборке, и окончательная точность на тестовой выборке составила 0,803.

Эксперименты по мультимодальному распознаванию эмоционального состояния по аудиозаписи и ее расшифровке использовали наилучшие полученные модели, выход модели оценки эмоции по расшифровке с оценкой вероятности позитивной эмоции игнорировался.

Точность модели интегральной оценки эмоций составила 0,817.

ВЫВОДЫ

В данной работе были исследованы методы и подходы оценки эмоционального состояния по аудиозаписи, ее расшифровке и способов объединения результатов, включая традиционные методы машинного обучения, подходы к подготовке признакового описания и методы обучения нейросетей, в том числе глубоких и рекуррентных. Наиболее перспективными представляются модели на основе глубоких сверточных нейронных сетей, эти модели были исследованы на имеющейся выборке по двум эмоциональным состояниям, найдены модификации с наибольшим качеством. Текстовая расшифровка аудиозаписи представляет собой альтернативный источник информации об эмоциональном состоянии диктора, и подходы к оценке эмоционального состояния по тексту также были изучены. Объединение этих двух источников данных об эмоциональном состоянии диктора позволяет точнее его распознать, для этого изучалось применение логистической регрессии в качестве способа объединения.

Список использованных источников

1. M. Swain, A. Routray, and P. Kabisatpathy. Databases, features and classifiers for speech emotion recognition: A review. Int. J. Speech Technol., vol. 21, no. 1, pp. 93-120, 2018.

2. M. El Ayadi, M. S. Kamel, and F. Karray. Survey on speech emotion recognition: Features, classification schemes, and databases. Pattern Recognit., vol. 44, no. 3, pp. 572-587, 2011.

3. B. Schuller, A. Batliner, S. Steidl, F. Schiel, and J. Krajewski. The INTERSPEECH 2011 speaker state challenge» in Proc. ISCA INTERSPEECH, Florence, Italy, Aug. 2011, pp. 3201-3204.

4. B. Schuller, S. Steidl, A. Batliner, E. Nöth, A. Vinciarelli, F. Burkhardt, Rob van Son, F. Weninger, F. Ey-ben, T. Bocklet, G. Mohammadi, and B. Weiss. The INTERSPEECH 2012 speaker trait challenge in Proc. ISCA INTERSPEECH, Portland, OR, USA, Sep. 2012, pp. 1-4.

5. B. Schuller, S. Steidl, A. Batliner, A. Vinciarelli, K. Scherer, F. Ringeval, M. Chetouani, F. Weninger, F. Ey-ben, E. Marchi, M. Mortillaro, H. Salamin, A. Polychroniou, F. Valente, andS. Kim. The INTERSPEECH 2013 computational paralinguistics challenge: Social signals, conflict, emotion, autism. in Proc. ISCA INTERSPEECH, Lyon, France, 2013, pp. 148-152.

6. F. Eyben, M. Wollmer, and B. Schuller. OpenSMILE — The Munich Versatile and Fast Open-Source Audio Feature Extractor. in Proc. ACM Multimedia (MM), Florence, Italy, 2010, pp. 1459- 1462.

7. T. Özseven. A novel feature selection method for speech emotion recognition. Appl. Acoust., vol. 146, pp. 320-326, Mar. 2019.

8. S. Jing, L. Chen, and X. Mao. Prominence features: Effective emotional features for speech emotion recognition. Digit. Signal Process., Rev. J., vol. 72, pp. 216-231, Jan. 2018.

9. Q. Mao, G. Xu, W. Xue, J. Gou, and Y. Zhan. Learning emotion discriminative and domain-invariant features for domain adaptation in speech emotion recognition. Speech Commun., vol. 93, pp. 1-10, Oct. 2017.

10. M. Pantic, L. Rothkrantz. Toward an Affect-Sensitive Multimodal Human-Computer Interaction. Proccedings of the IEEE, Vol. 91, pp. 1370-1390, Sep. 2003.

11. V. Petrushin. Emotion in Speech, Recognition and Application to Call Centers. Proc. ANNIE '99, 1999.

12. D. Ververidis, C. Kotropoulos, I. Pitas. Automatic Emotional Speech Classification», Proc. ICASSP 2004, pp. 593-596, Montreal, Canada, 2004.

13. B. Schuller, G. Rigoll, M. Lang. Hidden Markov Model-Based Speech Emotion Recognition. Proc. ICASSP 2003, Vol. II, Hong Kong, China, pp. 1-4, 2003

14. W. Q. Zheng, J. S. Yu, and Y. X. Zou. An experimental study of speech emotion recognition based on deep convolutional neural networks. in Proc. IEEE Int. Conf. Affect. Comput. Intell. Interact., Sep. 2015, pp. 827-831

15. J. Huang, J. Tao, Z. Lian, and Y. Li. Speech emotion recognition from variable-length inputs with triplet loss function in Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, 2018, pp. 3673-3677.

16. L.R. Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE 1989, 77, 257-286.

17. T.L. Nwe, S.W.Foo, L.C. De Silva. Speech emotion recognition using hidden Markov models. Speech Commun. 2003, 41, 603-623

18. A. Nogueiras, A. Moreno, A. Bonafonte, J.B. Marino. Speech emotion recognition using hidden Markov models. In Proceedings of the Seventh European Conference on Speech Communication and Technology, Aalborg, Denmark, 3-7 September 2001.

19. Y.L. Lin, G. Wei. Speech emotion recognition based on HMM and SVM. In Proceedings of the 2005 International Conference on Machine Learning and Cybernetics, Guangzhou, China, 18-21 August 2005; Volume 8, pp. 4898-4901.

20. A. Shaw, R.K. Vardhan, S.Saxena. Emotion Recognition and Classification in Speech using Artificial Neural Networks". Int. J. Comput. Appl. 2016, 145, 5-9.

21. R.V. Darekara, A.P. Dhande. Emotion recognition from Marathi speech database using adaptive artificial neural network. Biol. Inspired Cogn. Archit. 2018, 25, 35-42

22. K. Bhatnagar, S.C. Gupta. Extending the Neural Model to Study the Impact of Effective Area of Optical Fiber on Laser Intensity". Int. J. Intell. Eng. Syst. 2017, 10, 274-283.

23. A. Stuhlsatz, C.Meyer, F. Eyben, T. Zielke, H.G. Meier, B. Schüller. Deep neural networks for acoustic emotion recognition: Raising the benchmarks. In Proceedings of the 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP), Prague, Czech Republic, 22-27 May 2011.

24. K.Han, D.Yu, I.Tashev. Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine. In Proceedings of the Fifteenth Annual Conference of the International Speech Communication Association, Singapore, 14-18 September 2014.

34

25. M. Amer, B. Siddiquie, C. Richey, A. Divakaran. Emotion Detection in Speech Using Deep Networks. In Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 4-9 May 2014

26. U. Tiwari, M. Soni, R. Chakraborty, A. Panda, S. Kumar Kopparapu. Multi-Conditioning and Data Augmentation using Generative Noise Model for Speech Emotion Recognition in Noisy Conditions. In Proceedings of the ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 4-8 May 2020

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

27. D. Bertero, P. Fung. A first look into a convolutional neural network for speech emotion detection. ICASSP 2017, 5115-5119.

28. S. Mekruksavanich, A. Jitpattanakul, N. Hnoohom. Negative Emotion Recognition using Deep Learning for Thai Language!. In Proceedings of the Joint International Conference on Digital Arts, Media and Technology with ECTI Northern Section Conference on Electrical, Electronics, Computer and Telecommunications Engineering (ECTI DAMT and NCON), Pattaya, Thailand, 11-14 March 2020; pp. 71-74.

29. P. Harar, R. Burget, M. Kishore Dutta. Speech Emotion Recognition with Deep Learning. In Proceedings of the 4th International Conference on Signal Processing and Integrated Networks (SPIN), Noida, India, 2-3 February 2017; pp. 137-140

30. S. Zhang, S. Zhang, T. Huang, W. Gao. Speech Emotion Recognition Using Deep Convolutional Neural Network and Discriminant Temporal Pyramid Matching. IEEE Trans. Multimed. 2018, 20, 1576-1590.

31. G. Trigeorgis, F.Ringeval, R.Brueckner, E.Marchi, M.A. Nicolaou, B. Schüller, S. Zafeiriou. Adieu Features? End-To-End Speech Emotion Recognition Using A Deep Convolutional Recurrent Network. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 20-25 March 2016.

32. J. Zhao, X. Mao, and L. Chen. Speech emotion recognition using deep 1d & 2d cnn lstm networks. Biomedical Signal Processing and Control, vol. 47, pp. 312-323, 2019.

33. D.A. Clevert, T. Unterthiner, S. Hochreiter. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs). arXiv 2015, arXiv:1511.07289.

34. Y. Xie, R. Liang, Z. Liang, C. Huang, C. Zou,; B. Schüller. Speech Emotion Classification Using Attention-Based LSTM. IEEE/ACM Trans. Audio Speech Lang. Process. 2019, 27, 1675-1685.

35. Tomas Mikolov, et al. (2013). Efficient Estimation of Word Representations in Vector Space. arX-iv: 1301.3781

36. Jeffrey P., Richard S. and Christopher M. (2014) Glove: Global vectors for word representation. Proc. of the 2014 conf. on EMNLP pp 43-1532

37. J. Devlin, M. Chang, K. Lee, K. Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019, Proc. of the 2019 conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 1 pp 86-4171

38. Yangming T. (2020). Deep learning-based fine-grained text sentiment analysis research", (Hang-zhou) Zhejiang Gongshang University.

39. Usman N., Imran R., Katarzyna M. and Muhammad I. (2020) Transformer based Deep Intelligent Contextual Embedding for Twitter sentiment analysis. Future Generation Computer Systems 113 pp. 58-69

40. E. Fersini, E. Messina and F.A. Pozzi (2014). Sentiment analysis: Bayesian ensemble learning. Decision support systems 68, pp. 26

41. Sara S., Nicholas F., Geoffrey E. H. (2017) . Dynamic routing between capsules. Advances in neural information processing systems" pp. 66-3856

42. Yequan W., Aixin S., Jialong H., Y. L and Xiaoyan Z. (2018). Sentiment analysis by capsules. Proc. of the 2018 world wide web conf. pp 74-116

43. Yequan W., Aixin S., Minlie H. and Xiaoyan Z. (2019). Aspect-level sentiment analysis using as- capsules. The World Wide Web Conf. pp 44-2033

44. Chunning D., Haifeng S., Jingyu W., Qi Q., Jianxin L., Tong X. and Ming L. (2019). Capsule network with interactive attention for aspect-level sentiment classification. Proc. of the conf. on EMNLP pp. 501-5492

45. Jindian S., Shanshan Y. and Da L. (2020). Enhancing Aspect-based Sentiment Classification with Auxiliary Sentence and Domain Knowledge. J. IEEE Access 8 pp. 61-100551

46. Huaishao L., Tianrui L., Bing L. and Junbo Z. (2019) DOER: Dual cross-shared RNN for aspect term-polarity co-extraction (preprint arXiv:1906.01794)

47. Xinlong L., Xingyu F., Guangluan X., Yang Y., Jiuniu W., Li J., Qing L. and Tianyuan X. (2020) Enhancing BERT Representation with Context-Aware Embedding for Aspect-Based Sentiment Analysis. IEEE Access 8 pp 76-46868

48. S. Poria, E. Cambria, R. Bajpai and A. Hussain. A review of affective computing: From unimodal analysis to multimodal fusion. Inf. Fusion, vol. 37, pp. 98-125, Sep. 2017.

49. E. Cambria. Affective computing and sentiment analysis. IEEE Intell. Syst., vol. 31, no. 2, pp. 102-107, Mar./Apr. 2016.

50. S. K. D'Mello and J. Kory. A review and meta-analysis of multimodal affect detection systems. ACM Comput. Surv., vol. 47, no. 3, 2015.

51. S. Nemati and A. R. Naghsh-Nilchi. Incorporating social media comments in affective video retrieval. vol. 42, no. 4, pp. 524-538, 2016.

52. S. Nemati and A. R. Naghsh-Nilchi. An evidential data fusion method for affective music video retrieval. vol. 21, no. 2, pp. 427-441, 2017.

53. S. Poria, E. Cambria, N. Howard, G.-B. Huang and A. Hussain. Fusing audio visual and textual clues for sentiment analysis from multimodal content. Neurocomputing, vol. 174, pp. 50-59, Jan. 2016.

54. S. Poria, N. Majumder, D. Hazarika, E. Cambria, A. Gelbukh and A. Hussain. Multimodal sentiment analysis: Addressing key issues and setting up the baselines», IEEE Intell. Syst., vol. 33, no. 6, pp. 17-25, Nov./Dec. 2018.

55. N. Majumder, D. Hazarika, A. Gelbukh, E. Cambria and S. Poria. Multimodal sentiment analysis using hierarchical fusion with context modeling. Knowl.-Based Syst., vol. 161, pp. 124-133, Dec. 2018.

56. R. R. Sarvestani and R. Boostani. FF-SKPCCA: Kernel probabilistic canonical correlation analysis. Appl. Intell., vol. 46, no. 2, pp. 438-454, 2017.

57. S. Nemati. Canonical correlation analysis for data fusion in multimodal emotion recognition. Proc. 9th Int. Symp. Telecommun. (IST), pp. 676-681, Dec. 2018.

58. L. Gao, R. Zhang, L. Qi, E. Chen and L. Guan. The labeled multiple canonical correlation analysis for information fusion. IEEE Trans. Multimedia, vol. 21, no. 2, pp. 375-387, Feb. 2018.

59. Liam Schoneveld, Alice Othmanib, Hazem Abdelkawyb. Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition", ELSEVIER, 2021

60. Sharmeen M.Saleem Abdullah , Siddeeq Y. Ameen , Mohammed A. M.Sadeeq, Subhi R. M. Zeebaree. Multimodal Emotion Recognition using Deep Learning. JASTT, 2021

61. R. Gnana Praveen,Wheidima Carneiro de Melo, Nasib Ullah, Haseeb Aslam, Osama Zeeshan Theo Denorme, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Patrick Cardinal, and Eric Granger. A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition. 2022. In proc. EEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).

62. K. Simonyan, A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. Available online: http: //arxiv.org/abs/1409.1556

63. Kaiming He, Xiangyu Zhang, Shaoqing Ren, Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770-778

64. J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 7132-7141

36

65. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition; AT&T Bell Laboratories

66. Rumelhart; Hinton; Williams (1986). Learning representations by back-propagating errors (PDF). Nature. 323 (6088): 533-536

DEEP LEARNING IN MULTIMODAL METHODS FOR RECOGNIZING THE SPEAKER'S EMOTIONAL STATE (PART 2)

Kushnir D. A., Candidate of Technical Sciences, 3iTech, Moscow, d.kushnir@3itech.ru

Zhonin A. A., 3iTech, Moscow, a.zhonin@3itech.ru

Emotion recognition from speech is a non-trivial task due to the lack of information about the emotional state in the audio signal. This paper analyzes approaches to emotion state recognition from audio signal and its transcription. Many works in this area focus on developing and analyzing features that best represent emotion in speech, but the analysis of existing works shows the greatest promise of deep learning methods. We analyzed convolutional deep neural networks of different architectures (VGG and ResNet) as well as transformer architectures for emotion estimation from audio transcripts. The results show the effectiveness of combining information from these two modalities.

• deep learning • speaker emotion recognition • transformers • convolutional neural networks

i Надоели баннеры? Вы всегда можете отключить рекламу.