Научная статья на тему 'РАСПОЗНАВАНИЕ ЭМОЦИЙ В ПЕРСИДСКОЙ РЕЧИ С ПОМОЩЬЮ ОДНОМЕРНОЙ (1D) НЕЙРОННОЙ СЕТИ'

РАСПОЗНАВАНИЕ ЭМОЦИЙ В ПЕРСИДСКОЙ РЕЧИ С ПОМОЩЬЮ ОДНОМЕРНОЙ (1D) НЕЙРОННОЙ СЕТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
110
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ЭМОЦИЙ / ОБРАБОТКА РЕЧИ / ЭМОЦИОНАЛЬНАЯ РЕЧЬ / ПЕРСИДСКИЙ ЯЗЫК / БАЗА ДАННЫХ ПЕРСИДСКОЙ РЕЧИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сейедмилад Ранаей Сиадат

Проблема распознавания и классификации эмоций в речи является одной из наиболее актуальных и значимых тем исследований; однако на сегодняшний день для большого количества языков практически не проводилось исследований с целью достижения требуемой точности [распознавания]. Выражение и распознавание эмоций на основе сигнала человеческой речи является одной из сложных проблем - помимо собственно языковой проблемы. В настоящей статье предлагается систематический и надежный подход к реализации системы распознавания эмоций для малоресурсных языков, таких как персидский. Насколько нам известно, это первая работа SER на материале персидского языка с использованием методов глубокого обучения. База данных эмоциональной речи Sharif ShEMO с пятью основными эмоциями (гнев, страх, счастье, печаль и удивление), а также нейтральным состоянием была определена как наиболее подходящий кандидат для оценки архитектуры одномерной сверточной нейронной сети (1DCNN). Данные сначала обрабатываются с использованием метода извлечения признаков коэффициентов косинусного преобразования Фурье для частот чистых тонов (MFCC), после чего MFCC поступают в качестве входных данных в нашу нейронную сеть. Результаты эксперимента показывают, что предлагаемый нами метод обеспечивает точность классификации [эмоций] около 74 % на наборе данных ShEMO.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сейедмилад Ранаей Сиадат

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EMOTION RECOGNITION IN PERSIAN SPEECH USING A ONE-DIMENSIONAL (1D) NEURAL NETWORK

The problem of recognition and classification of emotions in speech is one of the most relevant and significant research topics; however, to date, for a large number of languages, almost no research has been carried out in order to achieve the required accuracy [of recognition]. The expression and recognition of emotions based on the signal of human speech is one of the difficult problems - in addition to the language problem itself. This paper proposes a systematic and robust approach to implementing an emotion recognition system for low-resource languages such as Persian. To the best of our knowledge, this is SER's first work in Persian using deep learning methods. The Sharif ShEMO Emotional Speech Database, with five primary emotions (anger, fear, happiness, sadness, and surprise) as well as a neutral state, was identified as the most suitable candidate for evaluating a 1D Convolutional Neural Network (1DCNN) architecture. The data is first processed using the pure tone cosine Fourier transform coefficient (MFCC) feature extraction method, after which the MFCCs are fed as input to our neural network. The results of the experiment show that our proposed method provides a classification accuracy [of emotions] of about 74 % on the ShEMO dataset.

Текст научной работы на тему «РАСПОЗНАВАНИЕ ЭМОЦИЙ В ПЕРСИДСКОЙ РЕЧИ С ПОМОЩЬЮ ОДНОМЕРНОЙ (1D) НЕЙРОННОЙ СЕТИ»

44

Распознавание эмоций в персидской речи с помощью одномерной (ГО) нейронной сети

Сейедмилад Ранаей Сиадат,

Московский физико-технический институт, Москва, Россия, ranaei.siadat.ss@phystech.edu

Проблема распознавания и классификации эмоций в речи является одной из наиболее актуальных и значимых тем исследований; однако на сегодняшний день для большого количества языков практически не проводилось исследований с целью достижения требуемой точности [распознавания]. Выражение и распознавание эмоций на основе сигнала человеческой речи является одной из сложных проблем — помимо собственно языковой проблемы. В настоящей статье предлагается систематический и надежный подход к реализации системы распознавания эмоций для малоресурсных языков, таких как персидский. Насколько нам известно, это первая работа SER на материале персидского языка с использованием методов глубокого обучения. База данных эмоциональной речи Sharif ShEMO с пятью основными эмоциями (гнев, страх, счастье, печаль и удивление), а также нейтральным состоянием была определена как наиболее подходящий кандидат для оценки архитектуры одномерной сверточной нейронной сети (1DCNN). Данные сначала обрабатываются с использованием метода извлечения признаков коэффициентов косинусного преобразования Фурье для частот чистых тонов (MFCC), после чего MFCC поступают в качестве входных данных в нашу нейронную сеть. Результаты эксперимента показывают, что предлагаемый нами метод обеспечивает точность классификации [эмоций] около 74 % на наборе данных ShEMO.

• распознавание эмоций • обработка речи • эмоциональная речь • персидский язык • база данных персидской речи.

I. ВВЕДЕНИЕ

За последние годы в отраслевых и академических кругах было проведено множество исследований по распознаванию человеческих эмоций, которые привлекли внимание многих ученых. Исследования в области систем ASR показали, что ключевыми элементами этих систем

являются лингвистические характеристики, таких как морфема, слово или предложение, что помогает лучше понять речь говорящего [1, 2]. Паралингвистиче-ские особенности, в том числе язык тела, жесты, мимика, тон и высота голоса, настроение и эмоции [3], а также лингвистическая информация являются двумя важными свойствами любого речевого сигнала со стороны говорящего; и человеческому мозгу необходимо и то и другое для лучшего понимания и эффективной коммуникации. Любой недостаток паралингвистических характеристик, таких как мимика и эмоции, негативно влияет на понимание и качество общения. Таким образом, для обеспечения эффективного и однозначно понятного общения, как у людей, важным фактором в развитии естественного взаимодействия человека с компьютером является потребность в паралингвистических характеристиках, таких как эмоции.

В настоящее время многие исследователи в области искусственного интеллекта пытаются изучать речь человека с целью анализа или выявления эмоционального состояния говорящего [4]. Выбор и извлечение этих признаков (характеристик) в ESR является сложной задачей [5, 6]. С целью классификации эмоций на основе их акустических характеристик (энергии, формантных частот, основного тона частоты) в речевых высказываниях [7, 8, 9] исследуются различные алгоритмы машинного обучения, такие как искусственные нейронные сети, машины опорных векторов, скрытые марковские модели (HMM) и гауссовы модели смешения. В извлечении этих признаков из речи и повышении эффективности и снижении вычислительной сложности при оценке человеческого поведения также сыграли важную роль подходы с применением глубокого обучения. С помощью методов глубокого обучения реализуются различные приложения в реальном времени для распознавания человеческих эмоций. Например, в случае взаимодействия человека и робота, если робот понимает эмоции человека по речи, для эффективного общения с говорящим могут быть адаптированы соответствующие действия; информация об эмоциональном состоянии учащихся может улучшить качество обучения и обеспечить более эффективные методы обучения; центры экстренного вызова могут определять эмоциональное состояние пользователя для обеспечения корректного реагирования. Существует множество моделей и методов в области глубокого обучения, таких как CNN [10], CNN-LSTM [11], которые используются для определения высокоуровневых признаков с целью достижения большей точности по сравнению с низкоуровневыми признаками при работе вручную. Эти методы также применяются к задаче ASR и показали современные характеристики эффективности. Однако эти исследования в основном сосредоточены на распознавании эмоций при анализе англоязычной речи и мандаринского наречия [китайского языка], и результаты не всегда применимы к анализу речи на других языках, таких как персидский.

В настоящей статье мы исследовали возможности одномерных сверточных нейронных сетей (1DCNN) в классификации речевых эмоций на персидском наборе данных, называемом базой данных эмоциональной речи Sharif (ShEMO) [12]. ShEMO — это полуестественный набор данных, который включает образцы речи 87 носителей персидского языка для пяти наиболее часто используемых эмоций, а именно: гнев, страх, счастье, печаль и удивление, а также естественное состояние. Сначала из каждого аудиосигнала извлекаются характеристики коэффициентов косинусного преобразования Фурье для частот чистых тонов (MFCC), после чего вектор MFCC поступает в одномерную сверточную нейронную сеть (1D сверточную нейронную сеть) и используется SoftMax для классификации эмоций.

45

46

II. СОПУТСТВУЮЩИЕ РАБОТЫ

На сегодняшний день учеными разработано множество методов и приемов выявления эмоционального состояния по цифровым звуковым сигналам в области SER. Как упоминалось в предыдущей главе, извлечение и выбор отличительных и характерных особенностей звукового сигнала для обнаружения эмоций — одна из самых сложных задач [13]. Недавние исследования в области SER показывают, что эту область науки можно разделить на две важные части.

1. Извлечение отличительных и высокоуровневых признаков из речи.

2. Выбор подходящего алгоритма для классификации этих признаков и распознавания эмоций по речи.

В последние десятилетия было проведено много исследований в области искусственного интеллекта и глубокого обучения, которые привели к решению сложных вычислительных задач для исследователей. Многие ученые в области SER разработали множество алгоритмов и методов глубокого обучения для повышения точности распознавания [эмоций] с использованием звуковых речевых сигналов (аудиосигналов). Как уже упоминалось, в рамках задач SER было проведено много исследований по извлечению ряда признаков из аудиосигнала и использованию сверточной нейронной сети (CNN) для классификации этих признаков и распознавания эмоций в речи. Например, Н. Суган [14] сравнил три различных кепстральных признака, таких как коэффициенты косинусного преобразования Фурье для частот чистых тонов (MFCC), коэффициенты косинусного преобразования Фурье с учетом человеческого фактора (HFCC) и коэффициенты косинусного преобразования Фурье гамматон-ной частоты (GFCC), и добился немного более высоких показателей на HFCC, чем на GFCC и MFCC, для двух разных наборов данных EMODB и SAVEE. Дейв и др. [15] оценили и сравнили различные типы извлечения признаков для речевых эмоций и показали наилучшие характеристики для признаков MFCC для SER, чем для других низкоуровневых признаков, таких как коеффициенты линейного предсказания (LPC), громкость и форманта. Цунь-Лонь [16] оценил извлечение пяти различных признаков, таких как LPC, MFCC, коэффициенты косинусного преобразования Фурье линейного прогнозирования (LPCC), логарифмические частотные коэффициенты мощности (LFPC), перцептивное линейное прогнозирование (PLP) на мандаринском наречии китайского языка [17], и использовал линейный дискриминантный анализ (LDA), метод k ближайших соседей (K-NN) и скрытые марковские модели (HMM) как классификаторы для классификации эмоций. Эндрю Хуань [18] представил методику, основанную на стандартной архитектуре CNN, аналогичную Alexnet [19], для глубокого обучения и обучил классификатор softmax распознавать эмоциональное состояние говорящего в наборе данных RAVDESS [20]. При этом сообщалось о максимальной точности в 85 % — наилучшей за 500 эпох с использованием расщепления данных испытаний 60/20/20.

Как упоминалось выше, из-за отсутствия данных и достаточных ресурсов на некоторых языках, таких как персидский, проведено не так много

исследований по извлечению данных и внедрению различных глубоких нейронных сетей на персидском наборе данных, подобном ShEMO. Омид Мохамад Незами [12] использовал расширенный женевский минималистический набор акустических параметров (eGeMAPS) [21] и извлек эти признаки с помощью openSMILE [22] из набора данных ShEMO. Затем он нормализовал эти характеристики с использованием z-оценки. Он использовал три различных типа алгоритмов машинного обучения, таких как SVM с ядром радиальной базисной функции (RBF), и де-

рево решений с алгоритмом случайного леса для классификации. Кроме того, применялась 10-кратная перекрестная проверка с использованием байесовской оптимизации [23], применяемой для изменения параметров каждого классификатора. Он достиг точности 58,2 % для классификатора SVM, а также точности 47,6 и 47,4 % для K-NN и дерева решений соответственно.

Рис. 1. Визуализированные MFCC трех различных эмоций (нейтрального состояния, грусти и счастья)

В настоящей работе для извлечения признаков из каждого сигнала были выбраны MFCC, которые можно рассматривать как представление аудиоданных в виде изображения по осям частоты и времени. Также оценивалась эффективность алгоритмов глубокого обучения, а не алгоритма машинного обучения, такого как SVM, K-NN и дерево решений.

I. ЭКСПЕРИМЕНТАЛЬНАЯ МОДЕЛЬ

A. Сбор данных

Для проверки нашей методики и архитектуры использовалась база данных эмоциональной речи Sharif (ShEMO), представленная Омидом Мохамадом Незами [12]. База данных эмоциональной речи Sharif (ShEMO) — это общедоступная база данных персидской речи, которая содержит 3000 естественных высказываний в формате .wav (16 бит), записанных с частотой дискретизации 44,1 кГц в монозвуке, а также извлеченные высказывания радиоспектаклей, которые транслируются онлайн, длительностью 3 часа и 25 минут. База данных ShEMO содержит образцы речи 87 носителей персидского языка (31 женщина, 56 мужчин) и включает аудиофайлы с пятью эмоциональными состояниями, такими как гнев, страх, счастье, печаль и удивление, а также нейтральное состояние вместе с орфографической и фонетической транскрипцией.

47

48

B. Предварительная обработка данных

Предварительная обработка является одним из основных этапов подготовки входного сигнала для достижения [требуемой] точности и эффективности модели. Сначала мы использовали python 3.6 и библиотеку LibROSA (версия 0.7.2) [24] для загрузки аудиофайлов. Мы использовали исходную частоту дискретизации (22 Гц) и битовую глубину для обеспечения согласованной частоты дискретизации во всех базах данных, при этом звук предоставляется в стереоформате и нормализован в моноформате. После передискретизации всех высказываний мы очищаем аудиосигналы, чтобы удалить участки тишины из каждого речевого сигнала. Из каждого очищенного высказывания в наборе данных мы извлекаем признаки коэффициентов косинусного преобразования Фурье для частот чистых тонов, называемых MFCC (50 коэффициентов). В качестве оконной функции мы выбрали окно Ханна. Размер окна составляет 512 (23 миллисекунды при частоте дискретизации 22 050 Гц), а длина скачка — 256, т. е. перекрытие составляет 50 %, что обеспечивает хороший баланс между требуемыми характеристиками и вычислительной сложностью. Форма вывода MFCC для каждого высказывания представляет собой двумерный матричный формат с полосами MFCC по оси y и временем по оси x для отражения полос MFCC во времени. Мы визуализировали MFCC трех разных эмоций, таких как нейтральное состояние, грусть и счастье, которые показаны на рисунке 1.

^ Обучение и тестовые выборки

Сначала мы разделили целые наборы данных shEMO для целей обучения и тестирования с 80 % и 20 % данных соответственно (данные обобщены в таблице 1). Затем мы вычислили признаки MFCC (50 коэффициентов) для каждого высказывания в обучающем наборе данных, а также в тестовой выборке данных. Наконец, метки обучающих и тестовых данных были закодированы как векторы прямого унитарного кода и переданы в нашу сеть. Следует отметить, что мы исключили высказывания с эмоцией страха в базе данных для обучения и тестирования, поскольку в базе данных их было немного (всего 38).

Таблица 1

Число обучающих и тестовых выборок после расщепления 80/20 % по каждому эмоциональному состоянию

Эмоция ShEMO

Обучение (80 %) Тест (20 %) Всего

Счастье 165 36 201

Грусть 369 80 449

Гнев 829 230 127

Страх 32 6 38

Нейтральное 823 205 1028

Удивление 182 43 225

Рис. 2. Предлагаемая архитектура одномерной сверточной нейронной сети (1D CNN), используемая в текущем исследовании

D. Архитектура одномерной сверточной нейронной сети

Предлагаемая архитектура глубокой нейронной сети для SER показана на рисунке 2. Архитектура глубокой нейронной сети, которая была реализована в нашем исследовании, представляла собой одномерную сверточную нейронную сеть (1D CNN) с тремя сверточными слоями и одним полносвязным слоем с 128 скрытыми нейронами. Как мы упоминали ранее, shEMo содержит аудиофайлы с пятью эмоциональными состояниями, такими как гнев, страх, счастье, печаль и удивление, а также нейтральным состоянием. Поэтому мы использовали softmax в качестве функции активации для конечных выходных узлов, чтобы оценить распределение вероятностей классов, каждый из которых принадлежит к одной из эмоций. Мы используем подвыборку с определением максимального значения после второго и третьего сверточного слоя. В качестве функции активации мы выбрали блоки линейной ректификации (ReLU) в сверточных и полносвязных слоях, чтобы снизить вероятность возникновения проблемы подстройки (переобучения) и ввести нелинейность в модель. Начальное количество ядер было установлено равным 8 и 16 для первого и второго сверточных слоев и 32 для третьего сверточного слоя соответственно. Кроме того, размер каждого сверточного фильтра составляет 5 • 1 с шагом 1 и «такими же» интервалами заполнения для создания карт признаков. Размер ядра для подвыборки с определением максимального значения — 2 с шагом 2 и «такими же» интервалами заполнения. Мы использовали инициализацию Ксавье в полносвязном слое для настройки начальных значений веса [25]. В качестве функции потерь использовалась минимизация перекрестной энтропии, а в качестве блока оптимизации (оптимизатора) — Adam (адаптивная оценка моментов) с параметрами 1г=0,0001 [26]. Количество итераций обучения составляло 500. Кроме того, мы включили операцию отсева (исключения) после третьего сверточного слоя, чтобы предотвратить подстройку и улучшить характеристики.

49

Гиперпараметры и настройки предлагаемой сети

Таблица 2

Параметр Значение

Фунция активации Блоки линейной ректификации(ReLU)

Функция потерь Минимизация перекрестной энтропии

Оптимизатор Adam

Шаг (интенсивность) обучения 0.0001

Число эпох 500

инициализатор Инициализация Ксавье

50

E. Показатели оценки

После реализации алгоритма глубокого обучения и построения модели необходимо оценить характеристики (качество) модели перед тестированием модели на реальных данных, чтобы свести к минимуму ошибку. Показатели оценки помогают нам повысить качество модели глубокого обучения. Существует несколько видов параметров (метрик) для оценки моделей. Мы выбрали следующие матрицы оценки, такие как матрица неточностей, оценка (мера) И, точность и отклик модели, чтобы повысить точность нашей модели. Сокращения TP и TN представляют собой истинно положительное и истинно отрицательное значение, аналогичным образом FP и FN представляют ложноположительное и ложноотрицательное значение.

Скорость/правильность классификации. Правильность — это отношение правильно спрогнозированного наблюдения к общему количеству наблюдений. Скорость или прваильность классификации рассчитывается по следующему уравнению:

Правильность

(TP+TN)

TP+TN+FP+FN

(1)

Точность — это отношение положительных правильно спрогнозированных наблюдений к общему количеству спрогнозированных положительных наблюдений. Точность рассчитывается по следующему уравнению:

Точность

_TP) TP+FP

(2)

Отклик или чувствительность. Это отношение правильно спрогнозированных положительных наблюдений к общему количеству положительных наблюдений. Отклик рассчитывается по следующему уравнению:

Отклик ■

_ TP) TP+FN

(3)

Оценка П представляет собой средневзвешенное значение точности и отклика и рассчитывается по следующему уравнению:

Точность. Отклик

Оценка П = 2.----------(4)

Точность + Отклик

Матрица неточностей представляет собой таблицу степеней Ы*Ы (Ы — количество классов), которая используется для обобщения результатов нашего прогноза с помощью числовых оценок в задаче классификации, истинные значения которых известны. В основном столбцы в матрице неточностей включают в себя фактические классы и классы прогнозирования строк, которые позволяют нам вычислять оценку И и показатели точности и отклика.

model loss

- train - test

О 100 200 300 400 500

epoch

Рис. 3. Обучение vs ошибка тестирования на 500 эпох

IV. РЕЗУЛЬТАТ

Мы провели несколько экспериментов, чтобы повысить качество обучения и точность тестирования на базе данных БЬЕМО. Мы не смогли улучшить качество нашей модели путем изменения гиперпараметров, такие как размер ядер свертки и отсев. На рисунке 3 показан «потерянный» график между обучающими и тестовыми выборками на 100 эпох. Согласно результатам, потери минимизируются после каждой эпохи. Качество обучения и тестирования начинают совпадать примерно через 100 эпох. Общая точность тестирования составляет 71,9 %. На рисунке 4 показан «потерянный» график между между обучающими и тестовыми выборками на 500 эпох. Примерно после 120-й эпохи графики обучения и тестирования пересеклись друг с другом, что означает переобучение. Из-за этого график тестирования после точки пересечения не улучшится, даже если улучшится качество обучения. Качество обучения будет продолжать улучшаться, даже если модель обучается на большем числе эпох. Кроме того, применение регуляризации Ксавье в полносвязном слое помогает сгладить графики точности и тестирования. Общая точность тестирования составляет 73,7 %. На рисунках 5 и 6 показаны нормализованные матрицы неточностей для модели, выполненные для 100 и 500 эпох соответственно. Что касается отдельных эмоций, то нейтральное состояние и гнев достигли

51

52

model accuracy

0.70 0.65 0.60 0.55 0.50 0.45 0.40 0.35

г*"

/V

— /

О 20 40 60 80 100

epoch

Рис. 4. Обучение уз ошибка тестирования на 100 эпох

наивысшей точности со значениями 0,83 и 0,84 соответственно при прогоне на 500 эпох. В основном это связано с тем, что эти две эмоции имеют наибольшее количество образцов в наборе данных. Напротив, эмоция с наименьшим количеством образцов (это счастье) достигла самой низкой индивидуальной точности со значением 0,22. Согласно [12], эмоцию счастье чаще всего путают с гневом. Однако результат здесь показывает, что счастье в основном классифицируется как нейтральное состояние и реже как гнев. Это означает, что примененная здесь модель может лучше различать, что счастье и гнев являются эмоциями разного спектра, а не просто двумя похожими эмоциями сильного возбуждения. Это похоже на правду, поскольку нейтральное состояние ближе к счастью в эмоциональном спектре по сравнению с гневом. Несмотря на то что общая точность тестирования одинакова, т. е. составляет 71,9 и 73,7 %, матрица неточностей для 500 эпох показывает лучший результат.

Рис. 5. Точность тестирования нормализованной матрицы неточностей для базы данных 8ЬЕМО для 500 эпох

Для сравнения, значение эмоции удивления увеличилось с 0,16 до 0,40, а значение эмоции счастья увеличилось с 0,16 до 0,22. Несмотря на то что использование 500 эпох дает лучшую точность и матрицу неточностей, это может быть верно только для этого набора данных, а результат может быть хуже для неотображаемых данных из-за переобучения, которое произошло примерно после 120-й эпохи. Это важно отметить, особенно для практического применения. Еще один важный аспект, который следует отметить, это то, что эмоция страха полностью исключена из набора данных, поскольку он включает всего 38 ее образцов.

В таблице ниже показаны соответствующие характеристики для 594 тестовых образцов по точности, отклику и оценке f1 в независимом от пола испытуемых (гендерно-независимом) режиме. Показано, что общая оценка f1 составляет 74 % на 500 эпох с использованием расщепления 80/20 данных тестирования для пяти эмоций (нейтральное состояние, счастье, грусть, гнев и удивление). Согласно нашей точности, предложенная модель в гендерно-независимом режиме достигла результата с точностью на 15,5 % лучше, чем классификатор SVM Омида Мохамада Незами [12] с точностью 58,2 %. Как показано, первое наблюдение заключается в том, что у гнева лучшая точность и оценка f1. С другой стороны, нейтральное состояние дало лучший отклик. Оба признака имеют наибольшее количество образцов, как указано соответственно.

Таблица 3

Результаты эксперимента на базе ShEMO для 1D CNN

Точность Отклик Оценка F1 опорное значение

Счастье 165 36 201 36

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Грусть 369 80 449 80

Гнев 829 230 127 230

Нейтральное состояние 823 205 1028 205

Удивление 182 43 225 43

Итого 0.74 0.74 0.74 594

^ я

0.83 0.024 0.054 0.078 0 015

0 36 0.22 0083 0.33 0

0.3 0.025 0.57 0.075 0.025

0.083 003 0.017 0.026

023 0 0.19 0.19 04

0.75

0 60

045

0 30

0 15

ООО

щ neutral happy sad angry surprised Predicted

Рис. 6. Точность тестирования нормализованной матрицы неточностей для базы

данных ShEMO для 100 эпох

53

54

V. ИТОГИ И ВЫВОДЫ

Задача распознавания речевых эмоций на персидском языке решается 1DCNN на базе данных ShEMO. ShEMO — это набор речевых высказываний на персидском языке, состоящий из 3000 образцов, разделенных на шесть различных эмоций. Сначала мы использовали исходную частоту дискретизации (22 Гц) и битовую глубину для обеспечения постоянной частоты дискретизации во всех базах данных, при этом аудиоданные предоставляются в стереоформате и нормализуются в моноформате. Затем из речевых высказываний извлекаются признаки с использованием MFCC с 50 коэффициентами. После этого признаки MFCC сжимаются путем усреднения признаков во времени, поэтому аддитивный шум речевого фрагмента снижается. Теперь, когда входные данные обработаны надлежащим образом, они распространяются через предложенную архитектуру модели, состоящую из трех сверточных слоев одномерной сети, одного полносвязного слоя со 128 нейронами и выходного слоя SoftMax, количество нейронов которого зависит от выходных меток. Сеть прошла обучение в течение 500 эпох для данных ShEMO. В процессе обучения имело место переобучение (подстройка) с 500 эпохами, но необходимо продолжить работу, чтобы повысить качество для набора данных ShEMO. С точки зрения только точности по сравнению с другими известными работами, предложенная архитектура модели превзошла классификатор SVM Омида Мохамада Незами [12] на 15,5 % в случае набора данных ShEMO. Это показывает, что предложенное решение является лучшим для ShEMO и может рассматриваться как новое современное решение, по крайней мере, для набора данных ShEMO, поскольку результат Омида Мохамада Незами [12] был предыдущим лучшим результатом. Это демонстрирует, что предложенная модель успешно преодолела сложность решения задачи распознавания эмоций в речи с использованием примененного метода извлечения признаков.

VI. ДАЛЬНЕЙШИЕ ИССЛЕДОВАНИЯ

Даже при таких отличных результатах возможно дальнейшее повышение качества предложенной архитектуры. Одним из потенциальных улучшений, которое можно реализовать, является использование различных методов извлечения признаков, таких как коэффициенты линейного предсказания и кепстральные коэффициенты линейного предсказания Еще одно усовершенствование, которое может дать лучший результат, заключается в реализации другой архитектуры нейронной сети вместо 1DCNN, такой как двунаправленная LSTM и другие гибридные сети. Кроме того, также интересно дополнительно изучить качество предлагаемой модели на объединенных наборах данных в рамках одного языка.

Литература

1. Juang B.-H., Levinson S.E., Rabiner L.R., and Sondhi M.M. Hidden markov model speech recognition arrangement. Nov. 8 1988, uS Patent 4,783,804.

2. Levinson S.E. Continuously variable duration hidden markov models for automatic speech recognition. Computer Speech & Language, vol. 1, no. 1, pp. 29-45, 1986.

3. Roach P., Stibbard R., Osborne J., Arnfield S. and Setter J. Transcription of prosodic and paralinguistic features of emotional speech. Journal of the International Phonetic Association, vol. 28, no. 1-2, pp. 83-94, 1998.

4. Grewe L. andHu C. Ulearn: understanding and reacting to student frustration using deep learning, mobile vision and nlp. In Signal Processing, Sensor/Information Fusion, and Target Recognition XXVIII, vol. 11018. International Society for Optics and Photonics, 2019, p. 110180W.

5. Chaudhary A., Sharma A.K., Dalal J and Choukiker L. Speech emotion recognition. Journal of Emerging Technologies and Innovative Research, vol. 2, no. 4, pp. 1169-1171, 2015.

6. Wei B., Hu W., Yang M. and Chou C.T. From real to complex: Enhancing radio-based activity recognition using complex-valued csi," ACM Transactions on Sensor Networks (TOSN), vol. 15, no. 3, pp. 1-32, 2019.

7. Jain M., Narayan S., Balaji P., Bhowmick A., Muthu R.K. et al. Speech emotion recognition using support vector machine. ArXiv preprint arXiv:2002.07590, 2020.

8. El Ayadi M.M., Kamel M.S. and Karray F. Speech emotion recognition using gaussian mixture vector autoregressive models. In 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07, vol. 4. IEEE, 2007, pp. IV-957.

9. Han K., Yu D. and Tashev I. Speech emotion recognition using deep neural network and extreme learning machine. In Fifteenth annual conference of the international speech communication association, 2014.

10. KrizhevskyA., Sutskever I. and Hinton G.E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, 2012, pp. 1097-1105.

1m. HochreiterS. andSchmidhuber J. Long short-term memory. Neural computation, vol. 9, no. 8, pp. 1735-1780, 1997.

12. Nezami O.M., Lou P.J. and Karami M. Shemo: a large-scale validated database for persian speech emotion detection. Language Resources and Evaluation, vol. 53, no. 1, pp. 1-16, 2019.

13. Salwa R.F.G. Al-agha A. , Hilal H. Saleh. Analyze features extraction for audio signal with six emotions expressions. International Journal of Engineering and Advanced Technology (IJEAT), 2015.

14. Sugan N., Srinivas N.S., Kar N., Kumar L., Nath M.K. and Kanhe A. Performance comparison of different cepstral features for speech emotion recognition. In 2018 International CET Conference on Control, Communication, and Computing (IC4), 2018.

15. Dave N. Feature extraction methods lpc, plp and mfcc in speech recognition.International journal for advance research in engineering and technology, vol. 1, no. 6, pp. 1-4, 2013.

16. Pao T.-L., Chen Y.-T. and Yeh J.-H. Emotion recognition from mandarin speech signals. In 2004 International Symposium on Chinese Spoken Language Processing. IEEE, 2004, pp. 301-304.

17. H. Bu, J. Du, X. Na, B. Wu, and H. Zheng. Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline. In 2017 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O-COCOSDA). IEEE, 2017, pp. 1-5.

18. Huang A. and Bao P. Human vocal sentiment analysis. ArXiv preprint arXiv:1905.08632, 2019.

19. Alom M.Z., Taha T.M., Yakopcic C., Westberg S., Sidike P., Nasrin M.S., Van Esesn B.C., Awwal A.A.S. and Asari V.K. The history began from alexnet: A comprehensive survey on deep learning approaches. ArXiv preprint arXiv:1803.01164, 2018.

20. Livingstone S.R. and Russo F.A. The ryerson audio-visual database of emotional speech and song (ravdess): A dynamic, multimodal set of facial and vocal expressions in north american english. PloS one, vol. 13, no. 5, 2018.

21. Eyben F., Scherer K.R., Schuller B.W., Sundberg J., Andre E., Busso C., Devillers L.Y., Epps J., Laukka P., Narayanan S.S. et al. The geneva minimalistic acoustic parameter set (gemaps) for voice research and affective computing. IEEE transactions on affective computing, 2015.

55

22.

23.

24.

25.

26.

Eyben F., Woiimer M. and Schuiier B. Opensmile: the munich versatile and fast open-source audio feature extractor. In Proceedings of the 18th ACM international conference on Multimedia, 2010, pp. 1459-1462.

Snoek J., Larocheiie H. and Adams R.P. Practical bayesian optimization of machine learning algorithms. In Advances in neural information processing systems, 2012, pp. 2951-2959.

Librosa library. [Online]. Available: https://librosa.github.io/librosa/ Giorot X. and Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth international conference on artificial intelligence and statistics, 2010, pp. 249-256.

Kingma D.P. and Ba J. Adam: A method for stochastic optimization. ArXiv preprint arXiv:1412.6980, 2014.

EMOTION RECOGNITION IN PERSIAN SPEECH USING A ONE-DIMENSIONAL (1D) NEURAL NETWORK

Seyedmilad Ranaei Siadat,

Moscow Institute of Physics and Technology, Moscow, Russia, ranaei.siadat.ss@phystech.edu

The problem of recognition and classification of emotions in speech is one of the most relevant and significant research topics; however, to date, for a large number of languages, almost no research has been carried out in order to achieve the required accuracy [of recognition]. The expression and recognition of emotions based on the signal of human speech is one of the difficult problems — in addition to the language problem itself. This paper proposes a systematic and robust approach to implementing an emotion recognition system for low-resource languages such as Persian. To the best of our knowledge, this is SER's first work in Persian using deep learning methods. The Sharif ShEMO Emotional Speech Database, with five primary emotions (anger, fear, happiness, sadness, and surprise) as well as a neutral state, was identified as the most suitable candidate for evaluating a 1D Convolutional Neural Network (1DCNN) architecture. The data is first processed using the pure tone cosine Fourier transform coefficient (MFCC) feature extraction method, after which the MFCCs are fed as input to our neural network. The results of the experiment show that our proposed method provides a classification accuracy [of emotions] of about 74 % on the ShEMO dataset.

• emotion recognition • speech processing language • Persian speech database.

emotional speech • Persian

56

i Надоели баннеры? Вы всегда можете отключить рекламу.