Научная статья на тему 'Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 1)'

Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 1) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
• глубокое обучение • распознавание эмоций диктора • трансформеры • свёрточные нейронные сети / • deep learning / speaker emotion recognition • transformers • convolutional neural networks

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кушнир Д. А., Жонин А. А.

Распознавание эмоций по речи является нетривиальной задачей из-за недостатка информации об эмоциональном состоянии в аудиосигнале. В этой работе анализируются подходы к распознаванию эмоционального состояния по аудиосигналу и его транскрипции. Многие работы в этой области посвящены разработке и анализу признаков, в наибольшей мере отражающих эмоции в речи, но анализ существующих работ показывает наибольшую перспективность методов глубокого обучения. Были проанализированы сверточные глубокие нейронные сети различной архитектуры (VGG и ResNet), а также трансформерные архитектуры для оценки эмоции по расшифровке аудиозаписи. Результаты показывают эффективность совмещения информации из этих двух модальностей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кушнир Д. А., Жонин А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEEP LEARNING IN MULTIMODAL METHODS FOR RECOGNIZING THE SPEAKER’S EMOTIONAL STATE

Recognizing emotions from speech is a non-trivial task due to the lack of information about the emotional state of speaker in the audio signal. This work analyzes approaches to recognizing an emotional state from an audio signal and its transcription. Many works in this area are devoted to the development and analysis of features that best reflect emotions in speech, but an analysis of existing works shows the greatest promise of deep learning methods. Convolutional deep neural networks of various architectures (VGG and ResNet), as well as transformer architectures for recognizing emotions from audio signals were analyzed. The results show the effectiveness of combining information from these two modalities.

Текст научной работы на тему «Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 1)»

Глубокое обучение в мультимодальных методах для распознавания эмоционального состояния диктора (часть 1)

Кушнир Д. А., кандидат технических наук, 3Ш^, Москва, d.kushnir@3itech.ru

Жонин А. А., Москва, a.zhonin@3itech.ru

Распознавание эмоций по речи является нетривиальной задачей из-за недостатка информации об эмоциональном состоянии в аудиосигнале. В этой работе анализируются подходы к распознаванию эмоционального состояния по аудиосигналу и его транскрипции. Многие работы в этой области посвящены разработке и анализу признаков, в наибольшей мере отражающих эмоции в речи, но анализ существующих работ показывает наибольшую перспективность методов глубокого обучения. Были проанализированы сверточные глубокие нейронные сети различной архитектуры (VGG и ResNet), а также трансформерные архитектуры для оценки эмоции по расшифровке аудиозаписи. Результаты показывают эффективность совмещения информации из этих двух модальностей.

• глубокое обучение • распознавание эмоций диктора • трансформеры • свёрточ-ные нейронные сети

ВВЕДЕНИЕ

Оценка эмоционального состояния диктора в последние годы является одной из активных исследовательских направлений. Эмоциональное состояние является одной из самых важных факторов в человеческой коммуникации. Речь стала одной из лучших и быстрых систем взаимодействия с человеко-машинными интерфейсами. Распознавание эмоций широко используется в образовании, здравоохранении [1].

Есть множество методов и алгоритмов, которые используются для оценки эмоционального состояния диктора по аудио. Каждый подход пытается решить проблему с определенного угла и имеет свои плюсы и недостатки. Исторически большинство методов для распознавания эмоционального состояния диктора базируется на классических методах машинного обучения, например таких, как скрытые марковские модели и метод опорных векторов. Однако в последние годы тренд сместился в сторону методов глубокого обучения. Методы глубокого обучения также применяются для распознавания эмоционального состояния по тексту.

49

Перспективным является оценка эмоционального состояния с помощью гибридных подходов, которые объединяют разную информацию, например текст и аудиосигнал работают лучше по сравнению с методами, которые работают только с одной модальностью информации [48-50]. В качестве текста предлагается использовать расшифровку аудиозаписи, полученную путем применения методов автоматического распознавания речи.

Данная статья исследует существующие методы оценки эмоционального состояния диктора по аудиозаписи и ее автоматической расшифровке. Исследовались также наиболее перспективные методы для разных модальностей, а также их объединение.

Для оценки эмоционального состояния исследователи используют разные традиционные методы предобработки сырого сигнала, вычисления признаков и классификации [1, 2].

Основная проблема традиционных подходов заключается в том, что не все признаки эффективны для оценки эмоционального состояния диктора, на данный момент исследователи не нашли оптимальный набор признаков для фреймов или целых аудиозаписей.

В последнее время множество исследователей, которые занимаются задачей оценки эмоционального состояния диктора, начали использовать методы глубокого обучения. Помимо задач классификации глубокие нейронные сети широко используются для оценки эмоционального состояния диктора. Используются разные нейросетевые методы для оценки эмоционального состояния диктора, такие как искусственные нейронные сети, сверточные нейронные сети, рекуррентные нейронные сети, сети на основе внимания (трансформеры) и комбинации этих методов. Эти методы также будут рассмотрены.

В целом традиционные методы базируются на методах машинного обучения, которые нуждаются в нахождении нужных признаков и глубоком понимании проблемы для отбора признаков, которые больше всего важны.

При вычислении признаков используют дескрипторы малого уровня (ДМУ) и высокоуровневые статистические функции (ВСФ), которые были опубликованы на конференции ¡ЫТЕРБРЕЕСН 2013 СотРаге [3-5]. Данный набор признаков включает в себя 4368 признаков. Для расчёта признаков используют готовую библиотеку орепБМИЕ [6]. Для классификации используют разные методы машинного обучения [10-13].

ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО АУДИОЗАПИСИ

ОТБОР ПРИЗНАКОВ

50

Вдобавок многие исследователи используют некоторые новые признаки, которые рассчитываются из аудиозаписей для улучшения качества классификационных моделей. Например, Turgut использовал новый метод отбора признаков, который базируется на четырех условиях для набора признаков и эмоциональных состояний [7]. ShaoLing Jing и др. предложили новый набор признаков, который дополняет традиционные акустические признаки, которые использовали для оценки эмоционального состояния [8]. Qirong Mao и др. адаптировали дискриминантный анализ и назвали этот метод эмоционально-дискриминативным, и метод пространственно-инвариантного обучения признаков для оценки эмоционального состояния диктора [9].

СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ

Скрытые марковские модели сыграли важную роль в распознавании речи с 60-х годов [16]. Они построены для создания гибкой модели на базе речевых временных признаков, компенсируя вариации длительности фонем или фонемоподобных звуков в аудиосигнале. Скрытые марковские модели были одними из первых алгоритмов для распознавания эмоционального состояния диктора. Некоторые исследователи пытались решить проблему, используя частотные представления, такие как мел-кепстр банка фильтров и кепстр коэффициентов линейных оценок [17], также некоторые использовали ДМУ [18].

Также есть работы, которые используют адаптированные признаки эмоционального состояния, например такие, как просодические признаки в работе Lin [19]. Они рассматривают временную динамику и спектральные характеристики, используя скрытые марковские модели, и определяют признаки для оценки эмоционального состояния диктора. В этой работе были получены сравнительно хорошие результаты, а также дополнительно укрепили гипотезу, что поддиапазоны энергий в полосах частот, равноразнесенных по шкале мела, и временная динамика частоты основного тона являются важными индикаторами для распознавания эмоционального состояния диктора.

МЕТОД ОПОРНЫХ ВЕКТОРОВ

Метод опорных векторов — один из широко известных алгоритмов, который используется для классификации эмоционального состояния диктора. Метод опорных векторов формирует п-мерные гиперплоскости, которые оптимально разделяют данные на классы. Могут формироваться как линейные, так и нелинейные разделяющие гиперплоскости в признаковом описании набора данных. Метод опорных векторов использовали для распознавания эмоций в датском языке [19]. В качестве признаков использовали MFCC (кепстральные коэффициенты по мел-шкале). Результаты работ показывают, что такая система независима от диктора и текста.

ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ

Спецификой задач машинного обучения является невозможность их решения одним заранее созданным алгоритмом. Под каждую задачу адаптируется определенный алгоритм, который зависит от данных. Адаптация — это один из ключевых

51

признаков человеческого головного мозга: обобщающая способность человеческого головного мозга помогает нам мыслить логически, что является первым шагом к обучению. ИНС является одним из решений проблемы адаптивного обучения для ЭВМ. ИНС способна выучить сложные нелинейные связи между входными и выходными зависимостями. Данные системы используются почти во всех сферах машинного обучения и также в оценке эмоционального состояния диктора.

Например, Shaw и др. [20] создали систему распознавания эмоций, которая распознавала четыре эмоциональных класса (радость, злость, грусть, нейтральность), используя ИНС. Для реализации системы они использовали просодические и спектральные признаки для задачи классификации. Созданная авторами сеть имеет входной слой, скрытый слой и выходной слой, который представляет собой выход четырех классов. Исследователи показали, что, используя данный подход, можно добиться точности в 81% для полной точности для всех классов.

Позднее, в 2018 г., Darekar и Dhande [21] представили систему, основанную на ИНС. Авторы использовали статистические и MFCC признаки, размерность которых была уменьшена за счет метода главных компонент, которые были поданы на вход ИНС, которую представили Bhatnagar и Gupta в 2017 [22] и которая представляет собой ИНС с двумя скрытыми слоями.

Реализация и обучение ИНС быстрее остальных методов глубокого обучения, однако ИНС не всегда легко решает очень сложные и нелинейные задачи из-за проблемы обучаемости данного подхода.

Глубокое обучение — это название группы методов машинного обучения, которые представляют собой многослойные нейронные сети. Д. Хин-тон и Д. Румельхарт представили алгоритм обратного распространения для многослойных нейронных сетей [66] в 1986 г., а Ян Лекун в 1988 [65] представил алгоритм обратного распространения ошибки в многослойных сверточных нейронных сетях, что позволило создавать глубокие структуры признаков в нейронных сетях. Однако из-за ресурсных ограничений они не стали пользоваться популярностью до недавнего времени.

В 2011 году Stuhlsatz и др. [23] представили систему, основанную на глубоких нейронных сетях, для распознавания эмоций диктора по аудиосигналу, ОДА (обобщенный дискриминантный анализ). Авторы утверждают, что ОДА — это обобщение линейного дискриминантного анализа, который максимизирует дискриминантный критерий Фишера для нелинейной функции, определённой глубокой нейронной сетью. Авторы применили данный метод для девяти разных наборов данных. Исследователи экспериментально подтвердили, что их подход работает лучше по сравнению с другими методами типа опорных векторов.

ГЛУБОКОЕ ОБУЧЕНИЕ

52

Позже, в 2014 г., Han и др. [24] использовали глубокую нейронную сеть для оценки вероятности эмоционального состояния диктора для аудиосегментов. Авторы также использовали неглубокую нейронную сеть для идентификации эмоций по акустическим признакам, рассчитанным на временных отрезках одинаковой длины. Для распознавания эмоций авторы объединили сегментные признаки через ИНС для создания аудиопризнаков, которые подавались на вход экстремальной обучающей машины (ЭОМ) для классификации эмоций. Для сравнения данного подхода с другими методами авторы использовали скрытые Марковские модели (СММ), метод опорных векторов (МОВ), ИНС-СММ подход и ИНС-МОВ подход. Авторы экспериментально показали, что точность их метода на 5-20% выше, чем все остальные сравниваемые методы.

В этом же году Amer и др. [25] использовали нелинейную ограниченную машину Бо-льцмана (ОМБ). ОМБ использовался для создания модели условных распределений признаков для формирования генеративного классификатора, который производил оценку кратковременных представлений речи. Также авторы укрепили глубокую нейронную сеть с помощью условного случайного поля (УСП), которое было создано, используя небольшую нейронную сеть для создания долговременных представлений речи для оценки эмоционального состояния диктора. Авторы тестировали свою систему на трех разных наборах данных (AVEC, VAM, SPD) и экспериментально подтвердили улучшения в сравнении с другими методами. Во многих примерах, особенно на данных из AVEC, СММ-УСП модель работала лучше на 10 процентов, чем на предложенных авторами системы. Авторы утверждают, что это происходит из-за недостатка примеров длинной длительности.

Позже Tiwari и др. [26] исследовали шумоустойчивость для оценки эмоционального состояния диктора. Авторы использовали параметрическую генеративную модель для добавления аддитивного шума. Исследователи утверждают, что разработанная ими глубокая нейронная сеть может быть использована для удаления аддитивного шума. Предложенный метод хорошо может быть использован для аугментации данных, когда количество данных ограничено.

Сверточные нейронные сети (СНС) — это нейронные сети, где скрытые слои имеют разные сверточные фильтры, которые отвечают на специфический признак во входном сигнале. Одним из преимуществ сверточных нейронных сетей является получение признаков из данных высокой размерности. Также многие исследователи используют СНС для оценки эмоционального состояния диктора.

Например, W. Zheng и др. обучили свёрточную нейронную сеть для оценки эмоционального состояния диктора на размеченных данных, в работе было экспериментально подтверждено, что предложенный подход превосходит метод опорных векторов, обученный на обычных признаках [14].

D. Bertero и P. Fung [27] использовали СНС, которая была способна производить классификацию трех эмоциональных состояний (злость, счастье и грусть) с точностью 66,1%. Авторы также показали, что активность нейронов была сконцентрирована рядом с частотами основного тона, которые коррелировали с эмоциями.

В 2020 году Mekruksavanich и др. [28] провели эксперимент с одномерной СНС и экспериментально подтвердили точность в 96,6 % для классификации негативных эмоций в наборе данных на тайском языке.

S3

Harar и др. [29] предложили метод на глубокой нейронной сети, которая включала СНС и ИНС. Авторы тестировали подход на берлинском наборе данных. В качестве классов использовались эмоции, такие как грусть, нейтральная и злость. Авторы удаляли тишину из сигналов и делили аудиофайлы на временные отрезки по 20 мс без пересечений. Эта сеть перед отбором признаков имела шесть сверточных слоев с разрежением с вероятностью 0,1, далее они использовали два параллельных метода для отбора признаков, которые шли на вход ИНС. Авторы экспериментально подтвердили точность в 77,51%, но точность по файлу достигла 96,97% с уверенностью в 69,55%.

Zhang и др. [30], представили систему по оценке эмоционального состояния диктора на основе глубокой СНС (ГСНС), которая имеет архитектуру AlexNet. Данная ГСНС была предобучена на 1,2 млн изображений, и дообучена на наборе данных EMO-DB. В качестве классов использовали злость, грусть, радость и нейтральную эмоцию. Авторы экспериментально подтвердили точность выше 80%, что выше на 20% метода опорных векторов.

ГСНС хорошо моделируют разные отклики в сигналах, которые соответствуют разным признакам описания. Однако для получения хорошего качества с помощью ГСНС необходимо большое количество данных. При обучении решения задачи оценки эмоционального состояния диктора количество примеров намного меньше, чем количество изображений, применяемых при обучении ГСНС задаче распознавания изображений. Таким образом, подходы на основе ГСНС для задачи оценки эмоционального состояния по речи часто переобучаются, из-за чего приходится часто проводить разные методы регуляризации сетей.

Рекуррентные нейронные сети могут выучивать временные события и реагировать на них за счёт особой архитектуры сети. Данные методы могут быть полезными, когда временные характеристики являются важными признаками. Сети на основе LSTM способны реагировать на кратковременные и долговременные временные характеристики, что делает их хорошим инструментом для непрерывной оценки эмоционального состояния диктора. Рассмотрим одни из известных работ по распознаванию эмоций, в которых используется LSTM.

J. Huang и др. использовали триплет функцию потерь в процессе обучения модели, которая использовала LSTM блоки для обучения и расчёта признаков, после чего признаки, полученные с помощью обучения LSTM, были использованы для настройки метода опорных векторов и последующей классификации эмоционального состояния диктора

В 2016 году Tгigeoгgis и др. [31] предложили систему для распознавания эмоций, используя СНС и LSTM сеть. Большим отличием их метода относительно других методов того времени является то, что они

РЕКУРРЕНТНЫЕ ГЛУБОКИЕ НЕЙРОННЫЕ СЕТИ

[15].

54

не использовали расчёт признаков, а обрабатывали сырой сигнал напрямую, для обучения алгоритма. Авторы использовали окно в 6 с и предобрабатывали аудио к 16 кГц. После чего аудиосигнал подавался на сверточный слой с 40 фильтрами и размером фильтра 2 для создания временных признаков. Выход первого свер-точного слоя пропускался через pooling слой размером 2, чей выход шёл на второй сверточный слой размера 10 для сглаживания временных признаков и выделения спектральных признаков. В конце СНС последние признаки проходили через pooling слой размером 20 для уменьшения размерности. Таким образом, уменьшенный шестисекундный сегмент шёл на 128 LSTM ячеек, разделенный на блоки по 40 мс.

В 2019 году Jianfeng Zhao и др. [32] предложили использовать два блока сетей, однослойный сверточный блок, который создавал локальные признаки, и LSTM блок для обучения глобальным признакам. В этом исследовании они использовали как одномерные свертки для сырого сигнала, так и двумерные свертки на логарифмической мел спектрограмме (ЛМС). Блок локальных признаков представлял собой сверточный слой, после которого следовала батч нормализация, экспоненциально линейная функция и max-pooling слой. Добавление батч нормализации, за счёт поддержания фиксированного среднего и дисперсии, помогает каждому слою избегать сильных флуктуаций и стабилизирует сходимость сети. Экспоненциально линейная функция активации также помогает ускорить сходимость [33] и пытается помочь с проблемой исчезающего градиента. Последняя часть в локальных признаках — это max-pooling, который широко используется в СНС. После расчета локальных признаков LSTM часть извлекает временные зависимости. Выход LSTM сети проходит через ИНС для классификации эмоционального состояния диктора. Авторы использовали одинаковую архитектуру как для одномерных, так и для двумерных свёрток. Сначала два слоя локальных признаков с 64 фильтрами и два слоя с 128 фильтрами, выход которого шёл на LSTM слой с 256 ячейками, которые шли на ИНС для осуществления классификации эмоций. В обеих реализациях размер фильтров равнялся 3. Авторы провели два эксперимента. Эксперимент в условиях зависимости от диктора и в условиях независимости от диктора. В первом случае авторы экспериментально подтвердили точность в 92% для одномерных свёрток и 95% процентов для двумерных свёрток. Во втором случае 62 и 82% соответственно.

Позже, в 2019 г., Х1е и др. [34] презентовали систему, основанную на модифицированных 1_БТМ с 512 и 256 ячейками, за которым следовал блок внимания на временную часть и признаковую часть, выход которого подавался на ИНС. В этом исследовании авторы утверждают, что внимание человека на большом временном отрезке не сбалансировано, таким образом авторы предложили использовать блок механизма собственного внимания для забывающей части 1_БТМ, что позволило увеличить производительность и достичь такую же точность, что и без блока внимания. Авторы экспериментировали с пятью комбинациями методов, 1_БТМ с временным вниманием, 1_БТМ с признаковым вниманием, 1_БТМ с признаковым и временным вниманием, 1_БТМ с модифицированным слоем памяти, 1_БТМ с модифицированным слоем памяти, признаковым и временным вниманием. Авторы утверждают, что результаты на наборе данных английского языка eNTERFACE являются лучшими на то время на этом наборе данных (89,6% точности).

1_БТМ является очень эффективными для временных рядов из-за возможности запоминания паттернов. Данные модели широко применяются для оценки эмоционального

55

Кушнир Д. А., Жонин А. А. Глубокое обучение в мультимодальных методах для распознавания эмоционального

состояния диктора (часть 1)

состояния диктора. LSTM хорошо выучивают спектральные признаки в сигнале. В группе с СНС, получая пространственно-временные признаки входного сигнала, они формируют компетентную систему для оценки эмоционального состояния диктора. Однако LSTM дольше обучается и для хорошей работы требует большого количества обучающих примеров.

ОБЗОР МЕТОДОВ РАСПОЗНАВАНИЯ

ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО ТЕКСТУ

Текст содержит информацию об эмоциональном состоянии диктора, независимую от эмоциональных характеристик речи, выраженных в акустической модальности. Значит, можно рассчитывать на получение дополнительной информации об эмоциях, недоступных только из анализа аудиосигнала. Для оценки эмоционального состояния по тексту исследователи используют представления смысла текста в виде векторных представлений слов и фраз, разные традиционные методы машинного обучения, а также нейросетевые подходы.

ПРЕДСТАВЛЕНИЯ СЛОВ

Представления слов — это одна из важнейших частей языковой модели, которая создает признаковое описание и является вектором для моделей на основе классического и глубокого машинного обучения. Такие векторные представления, как Word2vec [35], Glove [36], Bert [37], используются для оценки эмоционального состояния. Известно, что word2vec и glove являются независимыми от контекста и кодируют скрытую семантическую информацию, а Bert — это предварительно обученная модель, которая позволяет получить контекстную зависимость динамических векторов слов, при этом есть возможность дообучить эту систему под определённую задачу. Tao [38] производил эксперименты для текста на СНС, LSTM и LSTM с вниманием в сетях для оценки того, как разные векторные представления слов влияют на качество моделей. Экспериментальные результаты показали, что все три способа, описанные выше, достигают хороших результатов, среди них Bert имел лучший результат, Glove работал быстрее всех, а word2vec имел средний результат и время работы. Bert имеет лучший результат из-за хорошего обобщения, так как имеет способность извлекать хорошие признаки, но на его обучение и использование необходимо большое количество ресурсов. Традиционные векторные представления слов не могут побороть проблему полисемии и не могут захватить эмоциональную окраску слов. Например, Naseem [39] изучал векторные представления трансфор-мера, контекста, Glove, части речи и лексикона на предмет качества. В этом исследовании было установлено, что контекстные эмбеддин-ги играют важную роль для решения проблемы полисемии и дают разные эмоциональные метки к словам, в отличие от векторных представлений, получаемых с помощью архитектуры трансформера (Bert).

56

КЛАССИЧЕСКИЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ

В классических лексико-ориентированных системах методы получают оценку эмоционального состояния по тексту и основаны на лексиконе и определённых правилах для оценки эмоциональных метрик по негативным словам, глаголам и т. д. Статистические методы на основе машинного обучения, такие как наивный Бай-ес, модель максимальной энтропии, метод опорных векторов, всегда опирались на большой набор данных для обучения модели [40]. На сегодняшний день методы на основе глубокого обучения работают лучше во многих задачах обработки естественного языка за счёт хорошего извлечения признаков и способности обучаться под большие наборы данных.

КАПСУЛЬНАЯ СЕТЬ

Капсульная сеть [41], которую предложил J. Hinton, компенсирует репрезентативные эффекты СНС за счёт извлечения признаков в форме векторов. Основная идея этой сети — это построение как можно большего числа структур в нейронной сети и надежда на то, что эти новые структуры помогут модели улучшить её обобщающую способность. Wang и др. [42] сделали первую попытку для построения капсуль-ной модели на основе рекуррентной нейронной сети для оценки эмоций по тексту. В статье предлагается дизайн простой капсульной структуры с тремя капсулами, каждая из которых фокусируется на определенную эмоцию. В работе достигнуты продвинутые результаты без лингвистической информации в 2018 г. Wang и др. [43] предложили использовать уровневые эмоционально факторные капсульные модели (AS-Capsules), которые могли детектировать эмоции более эффективно. Авторы использовали корреляцию между аспектом и соответствующими эмоциями через общие компоненты. Эксперименты показали хорошие результаты на наборе данных SemEval14. Более того, авторы протестировали устойчивость модели за счет прогона модели на ресторанных отзывах сервиса Yelp. Du и др. [44] предложили использовать капсульную сеть с интерактивным механизмом внимания, для создания вектора признаков с помощью минимаксного алгоритма для кластеризации. На то время это был один из лучших результатов на наборе данных твиттера и SemEval14. В 2020 г. Su и др. [45] объединили XLNet и капсульную сеть. Авторы сгенерировали глобальные аспектно-зависимые представления на основе вспомогательных признаковых представлений, используя капсульную сеть. Авторы пытались решить проблему аспекта и локальных признаковых проблем и добились одного из лучших результатов того времени на наборе данных SemEval14. Капсульные сети — это многообещающие методы, которые могут быть использованы в базовых моделях для представления иерархической информации.

МОДЕЛИ НА ОСНОВЕ ТЕХНОЛОГИИ BERT

Bert может генерировать контекстно-зависимые векторные представления слов для лучшего представления семантической текстовой информации. Однако данная модель часто может давать неожиданные результаты. В последнее время исследования на предмет применимости этого метода для оценки эмоционального состояния по тексту совершили хороший прогресс. Li и др. [47] использовали предобученный Bert для создания контекстно-зависимых векторов слов. В этом исследовании они экспериментально подтвердили, что с использованием Bert базовая модель может

57

давать результаты лучше, чем лучшая модель, обученная без Вег^ Авторы также установили, что, увеличивая сложность модели, результат может быть улучшен. Li и др. [47] также утверждали, что Beгt не может дать достаточно дополнительной информации для различия разного рода аспектов из-за ограниченного набора параметров. Для решения этой проблемы авторы предложили использовать специальный механизм для контроля прямого распространения признаков эмоционального состояния из выхода Beгt с контекстно-зависимыми представлениями. Авторы использовали только относительно контекстно-зависимые представления и добились одного из лучших результатов на наборе данных SemEval14. Однако Beгt достаточно вычислительно сложный алгоритм для использования в решении задачи определения эмоций по тексту, и создание маленькой и эффективной модели на основе Beгt является одним из важных направлений в глубоком обучении.

ОБЗОР МЕТОДОВ ОБЪЕДИНЕНИЯ ИНФОРМАЦИИ ИЗ МОДАЛЬНОСТЕЙ

Известно, что оценка эмоционального состояния с помощью гибридных подходов, которые объединяют разную информацию, например текст и аудиосигнал, работает лучше по сравнению с методами, которые работают только с одним каналом информации [48-50]. Однако, помимо улучшения качества распознавания, возникают также проблемы для создания способа по объединению разного вида входной информации.

ОБЪЕДИНЕНИЕ НА ОСНОВЕ ВХОДНОЙ ИНФОРМАЦИИ

Одними из первых, кто производил оценку эмоций на основе текстовой и аудиовизуальной информации, были и МадЬ^-М^сЫ [51].

Авторы объединили комментарии из социальных сетей с аудиовизуальными признаками через функцию принятия решений. Авторы улучшили метод группировки за счет взвешивания каждого канала информации и показали, что объединение трех каналов информации работает лучше, чем каждый в отдельности. Более того, авторы экспериментально установили, что добавление текста улучшает качество по сравнению с использованием только аудиовизуальной информации [52]. В 2016 г. S. Ропа и др. [53] предложили объединять каналы информации как при формировании признаков, так и взвешивая решения по отдельным модальностям при принятии решений. В 2018 г. авторы [54] использовали разные архитектуры нейронных сетей для каждой модальности для оценки эмоционального состояния на основе текстовой и аудиовизуальной информации. Также авторы протестировали эти модели на разных наборах данных с фиксированными обучающими и тестовыми наборами данных. Также исследователи рассматривали проблемы, которые часто не обсуждают в других работах по мульти-модальной классификации эмоций, таких как зависимость от диктора, важность разных каналов входной информации и обобщающая способность. В 2018 г. также М. Majumdeг и др. [55] предложили новый

58

способ объединения признаков, который выполняется иерархически, сначала объединяя по два канала информации (текст и аудио, аудио и видео), после чего объединяются все три канала информации. Авторы экспериментально показали, что предлагаемый метод уменьшает ошибку до 3-5% по сравнению с обычным объединением признаков.

ОБЪЕДИНЕНИЕ НА ОСНОВЕ ЛАТЕНТНЫХ ПРЕДСТАВЛЕНИЙ

Использование разных каналов информации с одинаковыми вкладами за счёт объединения их признакового описания не единственный способ объединения модальностей. Методы на основе создания латентных представлений являются одними из лучших способов объединения разнородной информации. Например, канонический корреляционный анализ (ККА) используется для проецирования разнородных признаков в единое корреляционное пространство [56].

S. Nemati и др. [57] использовали ККА для объединения аудиовизуальной информации. Авторы также показали, что при использовании текстовой информации качество распознавания эмоций улучшается. В 2018 г. L. Gao и др. [58] использовали ККА с дополнительными обучающими данными для создания дискриминативных признаков для разных каналов информации.

Также объединять векторы представления признаков можно за счёт моделей глубокого обучения, которые позволяют обучать совместное представление множества входных каналов информации, после чего пропускать данные векторные представления через модель для оценки эмоционального состояния. Например, в 2021 г. L. Schoneveld и др. [59] предложили использовать модель на основе гибридной нейронной сети, состоящей из трех подсетей, для объединения латентных представлений из разных каналов информации. Более того, исследователи использовали рекуррентную сеть для извлечения временных характеристик. Авторы утверждают, что их подход даёт лучший результат (на то время) на наборе данных RECOLA. В том же году M. Saleem и др. [60] сделали сравнительный обзор классических методов объединения латентных представлений и методов глубокого машинного обучения. Авторы утверждают, что использование методов глубокого обучения, таких как LSTM и Bert моделей, позволяет улучшить качество. В 2022 г. G. Praveen и др. [61]. использовали объединение латентных представлений на основе механизма внимания, который учитывает корреляцию между латентными представлениями признаков. Авторы утверждают, что данный подход эффективно справляется с объединением признаков и уменьшает неоднородность отдельных признаков. Авторы экспериментально подтвердили, что предложенный ими метод работает лучше по сравнению с обычным механизмом внимания.

Список использованных источников

1. Swain, М., Routray, А. and Kabisatpathy, Р. Databases, features and classifiers for speech emotion recognition: A review // Int. J. Speech Technol., vol. 21, no. 1, pp. 93-120, 2018.

2. Ayadi, M. El., Kamel, M. S., and Karray, F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognit., vol. 44, no. 3, pp. 572-587, 2011.

3. Schuller, В., Batliner, A, Steidl, S., Schiel, F. and Krajewski, J. The INTERSPEECH 2011 speaker state challenge // in Proc. ISCA INTERSPEECH, Florence, Italy, Aug. 2011, pp. 3201-3204.

59

Кушнир Д. А., Жонин А. А. Глубокое обучение в мультимодальных методах для распознавания эмоционального

состояния диктора (часть 1)

4. Schuller, B., Steidl, S., Batliner, A., Noth, E., Vinciarelli, A., Burkhardt, F., Son, Rob van, Weninger, F., Eyben, F., Bocklet, T., Mohammadi, G. and Weiss, B. The INTERSPEECH 2012 speaker trait challenge in Proc. ISCA INTERSPEECH, Portland, OR, USA, Sep. 2012, pp. 1-4.

5. Schuller, B., Steidl, S., Batliner, A., Vinciarelli, A., Scherer, K., Ringeval, F., Chetouani, M., Weninger, F., Eyben, F., Marchi, E., Mortillaro, M., Salamin, H., Polychroniou, A., Valente, F. and Kim, S. The INTERSPEECH 2013 computational paralinguistics challenge: Social signals, conflict, emotion, autism in Proc. ISCA INTERSPEECH, Lyon, France, 2013, pp. 148-152.

6. Eyben, F., Wollmer, M. and Schuller, B. openSMILE - The Munich Versatile and Fast Open-Source Audio Feature Extractor // in Proc. ACM Multimedia (MM), Florence, Italy, 2010, pp. 1459-1462.

7. Ozseven, T. A novel feature selection method for speech emotion recognition // Appl. Acoust., vol. 146, pp. 320-326, Mar. 2019.

8. Jing, S., Chen, L. and Mao, X. Prominence features: Effective emotional features for speech emotion recognition // Digit. Signal Process., Rev. J., vol. 72, pp. 216-231, Jan. 2018.

9. Mao, Q., Xu, G., Xue, W., Gou, J. and Zhan, Y. Learning emotion discriminative and domain-invariant features for domain adaptation in speech emotion recognition // Speech Commun., vol. 93, pp. 1-10, Oct. 2017.

10. Pantic, M., Rothkrantz, L. Toward an Affect-Sensitive Multimodal Human-Computer Interaction // Proccedings of the IEEE, Vol. 91, pp. 1370-1390, Sep. 2003.

11. Petrushin, V. Emotion in Speech, Recognition and Application to Call Centers // Proc. ANNIE '99, 1999.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Ververidis, D., Kotropoulos, C., Pitas, I. Automatic Emotional Speech Classification // Proc. ICASSP 2004, pp. 593-596, Montreal, Canada, 2004.

13. Schuller, B., Rigoll, G., Lang, M. Hidden Markov Model-Based Speech Emotion Recognition // Proc. ICASSP 2003, Vol. II, Hong Kong, China, pp. 1-4, 2003

14. Zheng, W. Q., Yu, J. S. andZou, Y. X. An experimental study of speech emotion recognition based on deep convolutional neural networks // Proc. IEEE Int. Conf. Affect. Comput. Intell. Interact., Sep. 2015, pp. 827-831.

15. Huang, J., Tao, J., Lian, Z. and Li, Y. Speech emotion recognition from variable-length inputs with triplet loss function // Proc. Annu. Conf. Int. Speech Commun. Assoc. INTERSPEECH, 2018, pp. 3673-3677.

16. Rabiner, L. R. A tutorial on hidden Markov models and selected applications in speech recognition // Proc. IEEE 1989, 77, 257-286.

17. Nwe, T. L., Foo, S. W., De Silva, L. C. Speech emotion recognition using hidden Markov models // Speech Commun. 2003, 41, 603-623

18. Nogueiras, A., Moreno, A., Bonafonte, A., Marino, J. B. Speech emotion recognition using hidden Markov models // In Proceedings of the Seventh European Conference on Speech Communication and Technology, Aalborg, Denmark, 3-7 September 2001.

19. Lin, Y. L., Wei, G. Speech emotion recognition based on HMM and SVM // In Proceedings of the 2005 International Conference on Machine Learning and Cybernetics, Guangzhou, China, 18-21 August 2005; Volume 8, pp. 4898-4901.

20. Shaw, A., Vardhan, R. K., Saxena, S. Emotion Recognition and Classification in Speech using Artificial Neural Networks // Int. J. Comput. Appl. 2016, 145, 5-9.

21. Darekara, R. V., Dhande, A. P. Emotion recognition from Marathi speech database using adaptive artificial neural network // Biol. Inspired Cogn. Archit. 2018, 25, 35-42.

60

22. Bhatnagar, K., Gupta, S. C. Extending the Neural Model to Study the Impact of Effective Area of Optical Fiber on Laser Intensity // Int. J. Intell. Eng. Syst. 2017, 10, 274-283.

23. Stuhlsatz, A., Meyer, C., Eyben, F., Heike, T., Meier, H. G., Schüller, B. Deep neural networks for acoustic emotion recognition: Raising the benchmarks // In Proceedings of the 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP), Prague, Czech Republic, 22-27 May 2011.

24. Han, K., Yu, D., Tashev, I. Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine // In Proceedings of the Fifteenth Annual Conference of the International Speech Communication Association, Singapore, 14-18 September 2014.

25. Amer, M., Siddiquie, B., Richey, C., Divakaran, A. Emotion Detection in Speech Using Deep Networks // In Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 4-9 May 2014.

26. Tiwari, U., Soni, M., Chakraborty, R., Panda, A., Kumar Kopparapu, S. Multi-Conditioning and Data Augmentation using Generative Noise Model for Speech Emotion Recognition in Noisy Conditions // In Proceedings of the ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, 4-8 May 2020.

27. Bertero, D., Fung, P. A first look into a convolutional neural network for speech emotion detection // ICASSP 2017, 5115-5119.

28. Mekruksavanich, S., Jitpattanakui, A., Hnoohom, N. Negative Emotion Recognition using Deep Learning for Thai Language // In Proceedings of the Joint International Conference on Digital Arts, Media and Technology with ECTI Northern Section Conference on Electrical, Electronics, Computer and Telecommunications Engineering (ECTI DAMT and NCON), Pattaya, Thailand, 11-14 March 2020; pp. 71-74.

29. Harar, P., Burget, R., Kishore Dutta, M. Speech Emotion Recognition with Deep Learning. In Proceedings of the 4th International Conference on Signal Processing and Integrated Networks (SPIN), Noida, India, 2-3 February 2017; pp. 137-140.

30. Zhang, S., Zhang, S., Huang, T., Gao, W. Speech Emotion Recognition Using Deep Convolutional Neural Network and Discriminant Temporal Pyramid Matching // IEEE Trans. Multimed. 2018, 20, 1576-1590.

31. Trigeorgis, G., Ringevai, F., Brueckner, R., Marchi, E., Nicoiaou, M. A., Schüller, B., Zafeiriou, S. Adieu Features? End-To-End Speech Emotion Recognition Using A Deep Convolutional Recurrent Network // In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 20-25 March 2016.

32. Zhao, J., Mao, X. and Chen, L. Speech emotion recognition using deep 1d & 2d cnn lstm networks // Biomedical Signal Processing and Control, vol. 47, pp. 312-323, 2019.

33. Clevert, D. A., Unterthiner, T., Hochreiter, S. Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs) // arXiv 2015, arXiv:1511.07289.

34. Xie, Y., Liang, R., Liang, Z., Huang, C., Zou, C., Schüller, B. Speech Emotion Classification Using Attention-Based LSTM // IEEE/ACM Trans. Audio Speech Lang. Process. 2019, 27, 1675-1685.

35. Mikolov, Tomas et al. (2013). «Efficient Estimation of Word Representations in Vector Space», arXiv:1301.3781.

36. Jeffrey, P., Richard, S. and Christopher, M. (2014) Glove: Global vectors for word representation // Proc. of the 2014 conf. on EMNLP pp 43-1532.

37. Devlin, J., Chang, M., Lee, K., Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 2019, Proc. of the 2019 conf. of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 1 pp 86-4171.

38. Yangming, T. (2020) Deep learning-based fine-grained text sentiment analysis research, (Hang-zhou) Zhejiang Gongshang University.

39. Usman, N., Imran, R., Katarzyna, M. and Muhammad, I. (2020) Transformer based Deep Intelligent Contextual Embedding for Twitter sentiment analysis // Future Generation Computer Systems 113 pp. 58-69.

61

Кушнир Д. А., Жонин А. А. Глубокое обучение в мультимодальных методах для распознавания эмоционального

состояния диктора (часть 1)

40. Fersini, E., Messina, E. and Pozzi, F. A. (2014) Sentiment analysis: Bayesian ensemble learning // Decision support systems 68, pp. 26.

41. Sara, S., Nicholas, F., Geoffrey, E. H. (2017) Dynamic routing between capsules // Advances in neural information processing systems, pp. 66-3856.

42. Yequan, W., Aixin, S., Jialong, H., Y. L and Xiaoyan, Z. (2018) Sentiment analysis by capsules // Proc. of the 2018 world wide web conf. pp 74-116.

43 Yequan, W., Aixin, S., Minlie, H. and Xiaoyan, Z. (2019) Aspect-level sentiment analysis using as- capsules // The World Wide Web Conf. pp 44-2033.

44. Chunning, D., Haifeng, S., Jingyu, W., Qi, Q., Jianxin, L., Tong, X. and Ming, L. (2019) Capsule network with interactive attention for aspect-level sentiment classification // Proc. of the conf. on EMNLP, pp. 501-5492.

45. Jindian, S., Shanshan, Y. and Da, L. (2020) Enhancing Aspect-based Sentiment Classification with Auxiliary Sentence and Domain Knowledge // J. IEEE Access 8 pp. 61-100551.

46. Huaishao, L., Tianrui, L., Bing, L. and Junbo, Z. (2019) DOER: Dual cross-shared RNN for aspect term-polarity co-extraction (preprint arXiv:1906.01794).

47. Xinlong, L., Xingyu, F., Guangluan, X., Yang, Y., Jiuniu, W., Li, J., Qing, L. and Tianyuan, X. (2020) Enhancing BERT Representation with Context-Aware Embedding for Aspect-Based Sentiment Analysis // IEEE Access 8 pp 76-46868.

48. Poria, S., Cambria, E., Bajpai, R. and Hussain, A. A review of affective computing: From unimodal analysis to multimodal fusion // Inf. Fusion, vol. 37, pp. 98-125, Sep. 2017.

49. Cambria, E. Affective computing and sentiment analysis // IEEE Intell. Syst., vol. 31, no. 2, pp. 102-107, Mar./Apr. 2016.

50. D'Mello, S. K. and Kory, J. A review and meta-analysis of multimodal affect detection systems // ACM Comput. Surv., vol. 47, no. 3, 2015.

51. Nemati, S. and Naghsh-Nilchi, A. R. Incorporating social media comments in affective video retrieval, vol. 42, no. 4, pp. 524-538, 2016.

52. Nemati, S. and Naghsh-Nilchi, A. R. An evidential data fusion method for affective music video retrieval, vol. 21, no. 2, pp. 427-441, 2017.

53. Poria, S., Cambria, E., Howard, N., Huang, G.-B. and Hussain, A. Fusing audio visual and textual clues for sentiment analysis from multimodal content // Neurocomputing, vol. 174, pp. 50-59, Jan. 2016.

54. Poria, S., Majumder, N., Hazarika, D., Cambria, E., Gelbukh, A. and Hussain, A. Multimodal sentiment analysis: Addressing key issues and setting up the baselines // IEEE Intell. Syst., vol. 33, no. 6, pp. 17-25, Nov./Dec. 2018.

55. Majumder, N., Hazarika, D., Gelbukh, A., Cambria, E. and Poria, S. Multimodal sentiment analysis using hierarchical fusion with context modeling // Knowl.-Based Syst., vol. 161, pp. 124-133, Dec. 2018.

56. Sarvestani, R. R. and Boostani, R. FF-SKPCCA: Kernel probabilistic canonical correlation analysis // Appl. Intell., vol. 46, no. 2, pp. 438-454, 2017.

57. Nemati, S. Canonical correlation analysis for data fusion in multimodal emotion recognition // Proc. 9th Int. Symp. Telecommun. (IST), pp. 676-681, Dec. 2018.

58. Gao, L., Zhang, R., Qi, L., Chen, E. and Guan, L. The labeled multiple canonical correlation analysis for information fusion // IEEE Trans. Multimedia, vol. 21, no. 2, pp. 375-387, Feb. 2018.

59. Schoneveld, L., Othmanib, A., Abdelkawyb, H. Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion Recognition // ELSEVIER, 2021.

60. Sharmeen, M. Saleem Abdullah, Siddeeq, Y. Ameen, Mohammed, A. M. Sadeeq, Sub-hi, R. M. Zeebaree. Multimodal Emotion Recognition using Deep Learning, JASTT, 2021.

62

61. Gnana Praveen R., Wheidima Carneiro de Melo, Nasib Ullah, Haseeb Aslam, Osama Zeeshan Theo Denorme, Marco Pedersoli, Alessandro Koerich, Simon Bacon, Patrick Cardinal, and Eric Granger. A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition, 2022, In proc. EEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).

62. Simonyan, K., Zisserman, A. Very Deep Convolutional Networks for Large-Scale Image Recognition. Available online: http: //arxiv.org/abs/1409.1556

63. Kaiming, He, Xiangyu, Zhang, Shaoqing, Ren, Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770-778.

64. Hu, J., Shen, L. and Sun, G. Squeeze-and-excitation networks // in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 7132-7141.

65. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., Jackel, L. D. Back-propagation Applied to Handwritten Zip Code Recognition; AT&T Bell Laboratories.

66. Rumelhart; Hinton; Williams (1986). Learning representations by back-propagating errors (PDF). Nature. 323 (6088): 533-536.

DEEP LEARNING IN MULTIMODAL METHODS FOR RECOGNIZING THE SPEAKER'S EMOTIONAL STATE

Kushnir D. A., Candidate of Technical Sciences, 3iTech, Moscow, d.kushnir@3itech.ru

Zhonin A. A., 3iTech, Moscow, a.zhonin@3itech.ru

Recognizing emotions from speech is a non-trivial task due to the lack of information about the emotional state of speaker in the audio signal. This work analyzes approaches to recognizing an emotional state from an audio signal and its transcription. Many works in this area are devoted to the development and analysis of features that best reflect emotions in speech, but an analysis of existing works shows the greatest promise of deep learning methods. Convolutional deep neural networks of various architectures (VGG and ResNet), as well as transformer architectures for recognizing emotions from audio signals were analyzed. The results show the effectiveness of combining information from these two modalities.

• deep learning, speaker emotion recognition • transformers • convolutional neural networks

63

i Надоели баннеры? Вы всегда можете отключить рекламу.