Научная статья на тему 'Распознавание эмоций по речевому сигналу с помощью функций модуляционной теории звуковых сигналов'

Распознавание эмоций по речевому сигналу с помощью функций модуляционной теории звуковых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
160
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДУЛЯЦИОННАЯ ТЕОРИЯ / MODULATION SOUND THEORY / ЭМОЦИОНАЛЬНЫЙ ОКРАС РЕЧИ / EMOTIONAL SPEECH RECOGNITION / ГИЛЬБЕРТОВА ОГИБАЮЩАЯ / HYLBERT ENVELOPE / СОБСТВЕННАЯ МГНОВЕННАЯ ЧАСТОТА / INSTANTANEOUS FREQUENCY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алешин Тимофей Сергеевич

В работе [1] были рассмотрены все существующие функции, которые используются для решения задачи распознавания эмоционального состояния человека по его речевому сигналу, а также предложены гильбертова огибающая и мгновенная частота речевого сигнала как новые функции для этой сферы. Ниже представлены доказательства уместности использования функций модуляционной теории сигналов для определения эмоционального окраса речи, получены графики огибающей и мгновенной частоты для различных эмоций, определён набор признаков, извлечение которых в дальнейшем позволит успешно решить поставленную задачу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EMOTION SPEECH RECOGNITION WITH SOUND MODULATION THEORY FUNCTIONS

We reviewed all the existing functions used for human emotion speech recognition [1]. Also we offered Hilbert envelope and the instantaneous speech signal frequency as a new function for this area. There are reasons to use the modulation sound theory functions to determine emotional speech. Different graphics obtained envelope and instantaneous frequency for different emotions. And finally we defined a set of features which extraction will allow solve this problem successfully.

Текст научной работы на тему «Распознавание эмоций по речевому сигналу с помощью функций модуляционной теории звуковых сигналов»

РАСПОЗНАВАНИЕ ЭМОЦИЙ ПО РЕЧЕВОМУ СИГНАЛУ

U U

С ПОМОЩЬЮ ФУНКЦИЙ МОДУЛЯЦИОННОЙ ТЕОРИИ

ЗВУКОВЫХ СИГНАЛОВ

Алешин Тимофей Сергеевич

Аспирант Санкт-Петербургского государственного института кино и телевидения Санкт-Петербург

EMOTION SPEECH RECOGNITION WITH SOUND MODULATION THEORY

FUNCTIONS

Aleshin Timofey

raduate student of Saint-Petersburg State Institute if Film and Television Saint-Petersburg

АННОТАЦИЯ

В работе [1] были рассмотрены все существующие функции, которые используются для решения задачи распознавания эмоционального состояния человека по его речевому сигналу, а также предложены гильбертова огибающая и мгновенная частота речевого сигнала как новые функции для этой сферы. Ниже представлены доказательства уместности использования функций модуляционной теории сигналов для определения эмоционального окраса речи, получены графики огибающей и мгновенной частоты для различных эмоций, определён набор признаков, извлечение которых в дальнейшем позволит успешно решить поставленную задачу.

ABSTRACT

We reviewed all the existing functions used for human emotion speech recognition [1]. Also we offered Hilbert envelope and the instantaneous speech signal frequency as a new function for this area. There are reasons to use the modulation sound theory functions to determine emotional speech. Different graphics obtained envelope and instantaneous frequency for different emotions. And finally we defined a set of features which extraction will allow solve this problem successfully.

Ключевые слова: модуляционная теория, эмоциональный окрас речи, гильбертова огибающая, собственная мгновенная частота.

Keywords: modulation sound theory, emotional speech recognition, Hylbert envelope, instantaneous frequency.

В современном мире бурными темпами идёт развитие технологий взаимодействия человека и вычислительной машины. Многие интернет-сервисы уже содержат алгоритмы, создание которых ещё недавно считалось сложной задачей: распознавание голоса, распознавание текста по речи, распознавание лиц и т.д..

По достижению определённого успеха в данных направлениях исследователи перешли на новые, такие как, например - распознавание эмоций по речи или автоматическое определение эмоционального окраса речи. Эта задача относительно новая, существует несколько типов алгоритмов, осуществляющих её решение.

В работе [1] представлены все используемые признаки эмоционального окраса речи для распознавания эмоций, а также предложены новые признаки, благодаря которым возможно получить более эффективные алгоритмы, нежели существующие. Новые предлагаемые характеристики речевого сигнала, по которым можно выделить те или иные признаки эмоционального окраса речи - это гильбертова огибающая речевого сигнала и его собственная мгновенная частота.

Эти функции являются основными в модуляционной теории обработки сигналов [2].

По [2] «...Огибающей пары сигналов ' ' неотрицательная функция времени

s ( t )=( 52+52 )0,5

где ^ - опорный сигнал, полученный преобразованием Гильберта от исходного сигнала.

Текущей фазой пары сигналов называют функцию

называется

(2)

Мгновенной частотой пары сигналов называют производную от текущей фазы

Особенность мгновенной частоты заключается в том, что эта величина зависит от времени, а в классическом представлении спектр сигнала - величина, не зависящая от времени. Вследствие этого мгновенная частота лучше характеризует динамические изменения частоты исходного сигнала.

Для проведения исследования была подготовлена база данных эмоционально окрашенной речи (ЭОР). Для подготовки к эксперименту на профессиональный аудиорекордер была записана речь 10 человек (3 мужчин и 7 женщин), актёров театра, содержащая 6 «базовых» эмоций, предложенных [4]: печаль, страх, отвращение, презрение, гнев и счастье. Также один раз ими был прочитан предложенный отрывок без эмоций, нейтрально.

Эксперты произнесли 2 фразы, которые являются пан-граммами (содержат в себе все буквы алфавита). Для проведения эксперимента были выбраны 2 панграммы: «Эж-но-эфиопский грач увёл мышь за хобот на съезд ящериц»

и «Здесь фабула объять не может всех эмоций: шепелявый только по акустическим признакам сигнала; определить, в

скороход в юбке тащит горячий мёд». В результате было каких именно звуках содержатся эти акустические призна-

получено 140 звуковых файлов, содержащих эмоционально ки.

окрашенную речь. Для примера представим огибающую и мгновенную

Использование панграмм в данном случае имело следу- частоту нейтрального высказывания и эмоции «гнев» для

ющие цели: эмоциональный окрас не должен зависеть от мужского голоса (Рис. 1 а-в и 2 а-в). семантического содержания текста и может быть определён

а

б

■ «У ■ Л(1 и ,1.1 1,1. и.; _и 1 к1и< 41. < 1

•т...... ™ Т||.......1.....г г •.....*Т'1

г

в г

а - исходный сигнал по времени б - огибающая исходного сигнала в - мгновенная частота без СФ г - мгновенная частота с СФ

Рисунок 1. Графики для мужского голоса, «нейтральная» эмоция

а

б

1

1 1

1

1

1 Ulli L, ^"kikJiiU ........ uJ„ "ihr Ш1 Ii iL

1 i

в

а - исходный сигнал по времени б - огибающая исходного сигнала в - мгновенная частота без СФ г - мгновенная частота с СФ

Рисунок 2. Графики для мужского голоса, эмоция «гнев»

На графиках мгновенной частоты видны частотные пики, которые по своим значениям превышают речевой диапазон. Эти возмущения называются пертурбациями, которые [5] «...связаны обычно с участками резких формантных переходов на границах звуков (в отличие от флюктуаций, которые затрагивают и квазистационарные участки звуков) и в определённой степени отражают сегментный состав отрезка речи.». Величина и количество пертурбаций может использоваться для задач распознавания. К примеру, при эмоции «презрение» пертурбации возникают значительно чаще, чем при нейтральной эмоции, к тому же они гораздо больше по амплитуде.

После применения сглаживающих фильтров мы получили следующие картины для мгновенных частот сигналов (рис. 1 г и 2 г).

По представленным графикам видно, что характеристики речевого сигнала - огибающая и собственная мгновенная частота - являются подходящими для решения задач распознавания эмоций по голосу. Во-первых, благодаря пертурбациям можно определить количество резких формантных переходов в речи, которые говорят о высоких перепадах амплитуды огибающей и маленькой скорости её нарастания. Количество пертурбаций и их значения позволяют успешно классифицировать ту или иную эмоцию.

Во-вторых, по сглаженной функции мгновенной частоты от времени можно определить следующие частотные параметры: частоту основного тона голоса, диапазон изменения основной частоты, характер изменения частоты (например,

при эмоции «счастье», частота повышается, при «печали» -понижается), характер мелодичного рисунка речи и т.п.

По огибающей удобно определять паузы в речи, которые в свою очередь делятся на паузы-смычки, паузы хезитации и интонационные [5], определять длительность ударных звуков, их интенсивность и т.д.. К примеру при эмоции «страх» количество пауз и их длительность возрастает по сравнению с нейтральной эмоцией, а интенсивность возрастает с увеличением

Кроме того дальнейшее изучение частотной картины для каждого из предложений позволит определить интонационный рисунок речи.

Практическая реализация алгоритмов выделения этих признаков из огибающей и мгновенной частоты речевого сигнала и нахождение наиболее эффективных из них в целях распознавания эмоционального окраса речи и составляют основную цель дальнейших исследований в данном направлении.

Список литературы:

1. Алешин Т. С. Новые признаки эмоционально окрашенной речи в речевом. Научное обозрение, 2015. - №1. -102 с.

2. Применение модуляционного анализа-синтеза звуковых сигналов: Монография. Том 3 / Е.Н. Осташевский, В.К. Уваров; под ред. В.К. Уварова. - СПб.: СПбГУКиТ, 2005.

U U.5 1 1.5 2 2.5

t,c

2

3. Уваров В.К. Точное компандирование частотного и 5. Светозарова Н.Д. Интонационная система русского

динамического диапазонов звуковых сигналов. СПб.: СПб-ГУКиТ, 2001. - 326 с.

4. Экман П. Психология эмоций / пер. с англ. В. Кузин. - СПб.: Питер, 2010. - 336 с.

языка. Л.: Изд-во Ленинградского ун-та, 1982. - 176 с.

6. Ишуткин Ю.М. Разработка теории модуляционного анализа-синтеза звуковых сигналов и ее практическое применение в технике записи звука кинофильмов: Автореф. дис док. тех. наук. - М.:1. НИКФИ, 1985. 48с.

СОЗДАНИЕ ПРОСТОИ МУЛЬТИПЛИКАЦИИ

Ананьева Марина Алексеевна

старший преподаватель Московский Государственный Университет информационных технологий, радиотехники и электроники МИРЭА

г. Москва

INSTANTIATE THE SIMPLE ANIMATION

Ananieva Marina Alekseevna

older teacher of Moskow State University information technology, radio-technology and electronics MIREA, MOSCOW

АННОТАЦИЯ

В данной статье рассматривается создание собственной мультипликации - условного изображения клоуна. Пример простой мультипликации приводится в [1]. Простые анимации можно использовать при создании какой-нибудь обучающей программы, чтобы описывать какие-то схемы или условные изображения механизмов, чтобы показать в движении взаимодействие их отдельных составляющих.

ABSTRACT

In this article considers the instantiate eigenanimation - of conditional image clown. The example of simple animation result in [1]. The simple animation one can use by instantiate some teach program, in order to revive some schemes or conditional image of mechanism, in order to show in movement interaction them separate structures.

Ключевые слова: мультипликация, условное изображение.

Keywords: animation, conditional image.

//программа написана на языке C++Builder 6 #include <vcl.h> #pragma hdrstop

#define IC_M Image1->Canvas->MoveTo #define IC_L Image1->Canvas->LineTo #define IC_B_C Image1->Canvas->Brush->Color #define IC_P_C Image1->Canvas->Pen->Color #define IC_P_W Image1->Canvas->Pen->Width #define IC_F Image1->Canvas->FloodFill #define IC_E Image1->Canvas->Ellipse #define IC_P Image1->Canvas->Pixels #define cW clWhite #define cG clGreen #define cR clRed #include «Article_13_Lh» //-----------------------------------------------------------

#pragma package(smart_init) #pragma resource «*.dfm» TForml *Form1;

short num=0;short H=90; short revers=1; short Xpos=7*H/3;short Ypos=540;

//------------------------------------------------

: TForm(Owner)

{ }

//------

_fastcall TForm1::TForm1(TComponent* Owner)

//рисует на поверхности формы клоуна

void_fastcall TForm1::Draw()

{Color=(TColor)cW; switch(num) {case 0: //клоун

IC_P_C=(TColor)RGB(254,97,29);IC_B_C=(TColor) RGB(254,97,29);

IC_E(Xpos-2*H,Ypos-4*H,Xpos+2*H,Ypos); //левый глаз

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

IC_P_C=(TColor)cW; IC_B_C=(TColor)cW; IC_E(Xpos-H,Ypos-11*H/3,Xpos-H/6,Ypos-13*H/6); //зрачок

IC_P_C=(TColor)0; IC_B_C=(TColor)0;

IC_E(Xpos-7*H/10,Ypos-3*H,Xpos-7*H/30,Ypos-7*H/3);

//блик

IC_P_C=(TColor)cW; IC_B_C=(TColor)cW; IC_E(Xpos-H/2,Ypos-83*H/30,Xpos-2*H/5,Ypos-79*H/30);

//правый глаз

IC_P_C=(TColor)cW; IC_B_C=(TColor)cW;

i Надоели баннеры? Вы всегда можете отключить рекламу.