А.Н. Г олубинский,
доктор технических наук
ВЫЯВЛЕНИЕ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО РЕЧЕВОМУ СИГНАЛУ НА ОСНОВЕ ВЕЙВЛЕТ-АНАЛИЗА
DETECTION OF AN EMOTIONAL STATE OF A PERSON BY A SPEECH SIGNAL ON THE WAVELET ANALYSIS BASIS
Предложен способ выявления эмоционального состояния человека по речевому сигналу при использовании непрерывного вейвлет-преобразования. Сформулированы практические рекомендации по быстрому вычислению непрерывного вейвлет-преобразования речевого сигнала.
The approach of detection of an emotional person’s state by a speech signal with using the continuous wavelet transform is developed. The practical guidelines on fast computation of the continuous wavelet transform of a speech signal are formulated.
В настоящее время оценка эмоционального состояния человека с помощью аппаратно-программных средств является актуальной задачей. Автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес [1], например, в криминалистике, медицине, системах контроля и управления доступом и др.
Однако оценка эмоционального состояния по параметрам устной речи является весьма сложной задачей, как в плане математической формализации задачи, так и в способах чёткой конкретизации эмоционального состояния — однозначного детектирования эмоции по речевому сигналу.
Эмоции (франц. emotion — волнение, от лат. emoveo — потрясаю, волную) — реакции человека и животных на воздействие внутренних и внешних раздражителей, имеющие ярко выраженную субъективную окраску и охватывающие все виды чувствительности и переживаний.
Приведём одну из классификаций основных видов эмоциональных состояний человека [2]: удовольствие, гнев (ярость), расслабленность, удивление, презрение, стыд, тревога, отвращение, интерес, недовольство, возбуждение, страдание, радость, страх, спокойствие, вина, напряжение. Наиболее часто на практике пользуются упрощённой классификацией видов эмоций, например [2]: депрессия, тоска, печаль, норма, радость, страх, гнев.
Для конструктивного решения задачи о распознавании эмоций по голосу необходимо количественно охарактеризовать речевой сигнал, и выделить существенные параметры, отвечающие за эмоциональное состояние человека. Как правило, используют следующие численные характеристики для эмоциональной речи [2,3]:
- громкость (интенсивность) речевого сигнала;
- частоты первых трёх формант и их среднеквадратичные отклонения (СКО) (характеристики интегрального спектра);
- частота основного тона (ЧОТ) и его СКО;
- изменение темпа речи (растяжение-сжатие речевого сигнала во времени).
Приведём таблицу, в которой указаны вариации численных характеристик на
качественном уровне для ряда эмоциональных состояний [3]. Высокие значения соответствуют «активным» эмоциям — радости, страху, гневу, а низкие значения — «пассивным» эмоциям — депрессии, тоске, печали.
Соответствие между просодическими особенностями речи и эмоциональным
состоянием диктора
Категория эмоции Значения (относительно нормы)
Интенсивность Темп ЧОТ СКО ЧОТ
Норма норма норма норма норма
Депрессия низкие низкие низкие низкие
Тоска низкие низкие низкие низкие
Печаль низкие низкие низкие низкие
Радость высокие высокие высокие высокие
Страх высокие высокие высокие высокие
Гнев (ярость) высокие высокие высокие высокие
Однако, как правило, не принимаются во внимание значения энергетического спектра на формантных частотах. Практически не используется информация о состоянии голоса, заключающаяся в таких характеристиках, как:
- амплитуды гармоник несущего колебания (на частоте основного тона и обертонов);
- модуляция основного тона по частоте (джиттер);
- модуляция основного тона по интенсивности (шиммер);
- модуляция несущего колебания по амплитуде (изменение громкости во времени).
Дополнительные трудности при обработке речи с целью выявления эмоций вызывает отсутствие подходов, основанных на использовании адекватной математической модели речевого сигнала. Данная ситуация, обусловлена, прежде всего, сложностью речевого сигнала, где, например, для вокализованного сегмента, одновременно присутствует сложное несущее колебание, промодулированное по амплитуде и частоте также сложными колебаниями [4,5].
В последнее время предлагается ряд направлений и способов, способствующих решению задачи определения эмоционального состояния по речевому сигналу [2,6,7]. Перспективным математическим аппаратом в этом плане является непрерывный вейвлет-анализ, позволяющий вычислить частотно-временные характеристики речевого сигнала с удовлетворительным разрешением по времени и частоте, выявив существенные особенности в анализируемом сложном нестационарном сигнале.
В некоторых литературных источниках [8,9] приводятся сведения об удовлетворительных результатах работы компьютерного детектора эмоций, основанного на использовании вейвлет-преобразования. Однако, как правило, нигде не указывается такая необходимая для обработки речевого сигнала информация, как:
1. Какой материнский вейвлет использовался (в том числе обоснование выбора вейвлета)?
2. Какие были параметры материнского вейвлета (их сравнительный анализ)?
3. Какой алгоритм применялся для вычисления вейвлет-преобразования (т.к. прямое вычисление интеграла вейвлет-преобразования не позволяет обрабатывать речевой сигнал в реальном масштабе времени)?
4. Какие параметры вейвлет-преобразования следует использовать в качестве существенных, адекватно характеризующих вид эмоционального состояния?
5. Какая мера различимости использовалась для принятия решения о виде эмоционального состояния?
6. Каким образом вычислить порог принятия решения о соответствии конкретному виду эмоционального состояния?
Данная информация, разумеется, является «ноу-хау» разработчиков программно-аппаратных средств, что в итоге, к сожалению, не позволяет оценить потенциальную надёжность и адекватность математических моделей, используемых при разработке заявляемых систем эмоционального детектирования.
Следует отметить, что каждый из приведённых выше вопросов является самостоятельной научной задачей и требует решения и детального анализа.
В связи с этим математическая формализация и решение задач, способствующих выявлению эмоционального состояния говорящего, несомненно, актуальны.
Цель работы — разработка способа выявления эмоционального состояния человека по речевому сигналу при использовании непрерывного вейвлет-анализа.
Информация об эмоциональном состоянии человека заключается в характеристиках, описывающих сложное нестационарное колебание — речевой сигнал. Следовательно, для выявления эмоционального состояния диктора необходимо анализировать динамические характеристики речевого сигнала. Из акустической теории речеобразо-вания известно [10], что речевой сигнал является результатом прохождения сигнала от генератора (голосовых связок) через резонатор сложной формы (речевой тракт) с последующим излучением во внешнее пространство. Таким образом, информация о голосовом источнике (в т.ч. индивидуальных особенностях голоса, эмоциональном состоянии и др.) заключается в изменении во времени:
- амплитуд спектральных составляющих (амплитудного спектра);
- частоты основного тона;
- обертонов.
Основной проблемой при решении задачи о выявлении эмоций по голосу является выделение существенных параметров, адекватно описывающих эмоциональное состояние человека. Решение этой задачи может основываться на регистрации изменений спектра речевого сигнала во времени, т.е. с использованием частотно-временного анализа.
Преимуществом вейвлет-анализа перед кратковременным преобразованием Фурье является переменное значение временного и частотного «окон», что позволяет осуществлять более точный частотно-временной анализ для малых по длительности высокочастотных составляющих и больших по длительности низкочастотных составляющих речевого сигнала.
Таким образом, одним из эффективных альтернативных методов частотновременного анализа является непрерывное вейвлет-преобразование, позволяющее проводить анализ на произвольно выбираемых частотах с корректировкой размера окна преобразования под каждую анализируемую частоту.
Отметим, что непрерывное вейвлет-преобразование (НВП) имеет преимущество перед дискретным в виде возможности получения характеристик и параметров в аналитическом виде, что позволяет получать аналитические выражения для практической оценки существенных параметров [11]. Также некоторые материнские вейвлеты непрерывного вейвлет-преобразования в ряде случаев непосредственно соответствуют конкретному физическому процессу, что определяет потенциально более высокую точность описания относительно дискретного вейвлет-анализа. Например, человеческое ухо устроено так, что при обработке звукового сигнала результирующее преобразование сигнала будет с точностью до константы совпадать с вейвлет-преобразованием [8], при этом в качестве материнского вейвлета целесообразно использовать вейвлет Мор-ле, поскольку частотно-временные характеристики данной функции аналогичны характеристикам базилярной мембраны.
К преимуществу вейвлета Морле следует отнести наличие параметров ^(параметр масштаба, влияющий на ширину окна) и X (доминантная частота, позволяющая
варьировать избирательность базиса), варьируя которые, можно добиться: 1) приемлемой ширины для частотного и временного окон (параметр о); 2) высокой точности аппроксимации, используя небольшое количество коэффициентов вейвлет-преобразования — вследствие «резонанса» сигнала с вейвлетом (параметр X).
Исходя из физической модели процесса речеобразования речевой сигнал представляет собой сложный квазипериодический сигнал, генерируемый голосовыми связками, который прошел через резонатор сложной формы в виде речевого тракта. Поэтому представляет научный интерес рассмотреть такую математическую модель речевого сигнала, где будут учтены вариации частоты основного тона, сложная структура несущего колебания, а также изменение во времени интенсивности звука.
Следует отметить, что наиболее важный вклад в характеристики, описывающие эмоциональное состояние человека, вносят вокализованные сегменты речи [2,3,6]. Таким образом, для выявления эмоционального состояния говорящего рассмотрим сле-
дующую математическую модель речевого сигнала:
ґ \
KL i(t) = ^Mk cos(2—kFot + Fk)^U/ cos
k=o l=1
, (1)
P
2pl fo t +1■ ^mp sin( 2ppFot + уp) + j
P=1
где Mk и mp — соответственно глубина амплитудной модуляции k-й гармоники и индекс частотной модуляции p -й гармоники модулирующих колебаний; Fq — наименьшая частота модулирующих колебаний; Ui — амплитуда l-й гармоники несущего колебания; fo — значение ЧОТ при отсутствии естественных вариаций; Ф£, у/p и j —
соответственно начальные фазы модулирующих по амплитуде, модулирующих по частоте и несущих гармоник; (K +1), P и L — количество модулирующих по амплитуде,
модулирующих по частоте и несущих гармоник соответственно.
Исследования показали, что частота основного тона в пределах одного вокализованного звука изменяется во времени по квазигармоническому закону (с наличием максимума примерно в середине временного интервала). Таким образом, в первом приближении, будем считать, что вариация ЧОТ в модели с амплитудно-частотной модуляцией (АЧМ) с полигармонической несущей (ПГН) описывается по гармоническому закону. Тогда при P=1, модель (1) упростится, принимая вид:
K L
u(t) = ^Mk cos( 2pkFot + Фk)cos (2pl fq t +1 ■ misin( 2pFq t + /q) + j). (2)
k=0 l=1
Для обеспечения условия наличия максимума в середине временного интервала:
fo(t) = [2pfot+m1sin(2pF0t+/o)+j] = f0 + m ■ F0sin(2pF00,
2p 2p d t 2pd t
следует положить значение /q = —р/2, в результате выражение (2) примет вид:
K L
u(t) = ^Mk cos( 2pkFot + Фк)^Ul cos (2pl fo t—l ■ m cos[2pFqt] + j). (3)
k=0 l=1
НВП сигнала f(t) осуществляется путём свёртки [11]:
¥ ¥ 't—b^
Wu(a,b) = fu(t) ya,b№ = -L f u(t)-y*( — )dt, (4)
j ІУ J a
— ¥
V a у
где а — масштаб (безразмерная величина, обратно пропорциональная частоте); Ь — координаты сдвига (размерность времени); двухпараметрическая вейвлетная функция:
— оо
1
t—b
Wa, b (t) = ~nW ----------- , (5)
V a J
здесь у(1) — материнский вейвлет, который должен удовлетворять условиям:
1) временной и частотной локализации;
¥
2) нулевого среднего (для выполнения условия допустимости): Jy(t )^ = 0;
— ¥
¥
3) ограниченности: ^у(7)|2ё7 <¥ .
—¥
Также для удобства анализа вводят дополнительное условие:
¥
4) единичной нормы: Jy(0-у*(1= 1.
Вейвлет Морле, в общем случае, задаётся выражением:
у(і) =
* 2 i?2 _2 v 2
_t_____ x о t
j. e 2о2 — e 2 2о2
40 4—\
3Х2о2
ял ---------------
(6)
1 + е-Х а - 2 • е 4
однако на практике условие нулевого среднего с высокой точностью (значение которого не превышает 10-3) выполняется при X >4, в результате упрощённый материнский вейвлет Морле [12]
Л
W(t)» i-V- ejXt ■ e 202 . (7)
ыо 4С учётом (7) НВП (4) для вейвлета Морле приобретает вид:
¥
1
Wu(уb) = 04— О J u(t)
• ехр
(t — b)2 ,et — b
22 — JX------
v 2o2a2 a ,
dt . (В)
4о4[л§а\
Для вычисления НВП от математической модели (2) представим её в следующем виде, используя разложение в ряд по функциям Бесселя:
1 К Ь
и() = 2 ХМк Хи/ {/0(1т1)'[с08( 2р//0 + кр0] 1 + Р +Фк )+с^( р1/о — кЪЪ +р/ —фк )] +
2 к=0 1=1
¥
+ 2Jr (/m1) ■ [cos(2—і/0 + (r + k Ш + j + ry0 + Ф )+cos(2—\/f0 + (r — k )F0]t +j + ry0 —Ф) +
r=1
r
+(— 1)Г • с0з(2Я[//0 — (г—кЩ] +Р —[Г¥0 +<Ч])+(—1)Г • с05(2р//0 — (г+кЩ]+Р —[ГЩ +Фк]) }. (9) Вычисляя для модели АЧМ ПГН (2) НВП по формуле (8) и используя свойство линейности, получим следующее выражение:
4^[2оа К Ь
%и(аЬ) =-----4-------^Мк^и/&0(/т)- [Л( 2р//0 + кЩ,рР/ +фк])+Л( 2р//0 — М01 [р/ —фк])] +
4 к=0 /=1
Я
+ X^г(/т1) • К( 2р[//0 + (г +к)^0],[р/ + гу0 + Фк]) +^( 2р//0 + (г — к)Ц)],[р/ + гу0 — Фк]) +
г=1
— ¥
+(-1/ Л(2р//о - (г - ВДЩ -(гу-фк)])+ (-1)Г Л Р/ - (г+к) І0Ш - (гу+Ф*)])]},(10)
где функция
Л (а,у) = ехр
у2[Х + йю]' 2
- ]Ью- у
+ ехр
у2[Х-йю]2 2
+ ,/Ью+ у
(11)
В области положительных значений а первое слагаемое в (11) пренебрежимо мало, т.е.:
Л(ю, у) » ехр
(У [X-йЮ]2 2
+}Ью+ ]у
(12)
Так как при г > Я спектральные составляющие сильно убывают, то в выражении (10) значение Я можно оценить:
Я = \_/тх +1], (13)
где _ J — целая часть числа.
В качестве примера приведём рис. 1, на котором показан локальный спектр (ска-
2
лограмма) НВП Еи (с1, Ь) = К (й , Ь)| , построенный в логарифмическом масштабе
ЕдБ и (й, Ь) = 10 • ]% (Еи (а, Ь)/ тах[ Еи (а, Ь)]) для математической модели АЧМ ПГН (2)
при параметрах: /0= 100 Гц; и1= 1; и2= 1; и3= 1; ^/ = 0; ^0= 1 Гц; М0= 0,734; М1= 0,1; М2= - 0,1; М3= - 0,1; М4= - 0,1; М1= 0,9; Фк= 0; т1= 10; у0= - р/ 2; А= 1,2510-4 с. Для расчётов были приняты значения параметров вейвлета Морле: У= 1, Х= 5.
Как видно из рис. 1, в спектре присутствуют максимумы (белые области) на масштабах а0, й1, й2, соответствующих частотам первых трёх гармоник (/0; /1»2/0; /2»3/0).
а ЕдВ и (й,Ь)
На практике стоит задача обработки речевого сигнала, заданного набором отсчётов х;=х (1;), ; е 1, N, где N — количество отсчётов. Непосредственное вычисление интеграла НВП Жх (а,Ь) численными методами, помимо проблемы сходимости для малых значений а, требует достаточно больших машинно-временных ресурсов.
Для практической обработки речевого сигнала с целью выявления эмоционального состояния необходимо использовать быстрые алгоритмы, позволяющие проводить вычисления с приемлемой для решаемой задачи скоростью.
В настоящей работе для быстрого вычисления НВП речевого сигнала использовался алгоритм, который основывается на выражении, следующем из равенства
Парсеваля [12]:
4a
Wx
(a, b) = ^-Л JX(w) ■ Y*(a w> ejwb dw,
(14)
где Х(ю) и — соответственно преобразование Фурье от х (?) и у(?). Выражение (14)
для дискретных значений:
ат — О-тт + Аа • т ,
— Ьтіп + АЬ •п ■ принимает вид:
а
m = 0,1,...,(Na -1); n = 0,1,..., (Nb-1);
Aa (amax amin)/(Na 1) ;
Ab = (b
тах
■bmrn)/(Nb -1)
Wx (m, n) ='
N-1 j 2—■n ■ k
m Z C&k YW(k,m) e
k=0
N
2—
(15)
(16)
где Ск — коэффициенты дискретного преобразования Фурье (ДПФ) для отсчётов хг-. которые можно вычислить на основе алгоритма быстрого преобразования Фурье (БПФ). Выражение (16) определяет алгоритм расчёта НВП, в котором обратное ДПФ от
произведения (ск • (к. т)) вычисляется с помощью процедуры БПФ.
Для вейвлета Морле (7), преобразование Фурье:
Г а1(Х~ ю а)1 Л
Y (w) =42- ■ s ■ exp
таким образом, функция:
Yw(k, m) = 42— s exp
2
s
2
r 2— ■ k ■ a,
2
m
N А
(17)
(18)
где А=1/ и fd — шаг и частота дискретизации соответственно.
На рис. 2 и 3 приведены локальные спектры НВП Ех(а,Ь)=\Жх(а,Ь)\2 для речевого сигнала в виде парольной фразы «код» соответственно голосом в эмоциональных состояниях «норма» и «радость». При этом /і=8000 Гц; длительность фразы ?и=0,5 с (N=4000).
Из сравнения графиков на рис. 2 и 3 видно, что при эмоции «радость» ЧОТ и обертона имеют большие значения (/0 » (X + д/^2 + 2а~2)/(4р-атах0); из рис. 3: атах
0»24 А; /0»270,5 Гц) относительно эмоции “норма” (из рис. 2: атах 0»39 А; /0»166,7 Гц), также наблюдается ускорение темпа произношения.
Для детектирования эмоционального состояния предлагается использовать следующую меру различимости между локальными спектрами НВП:
N -1 -1
Ё Ё (ЕаАр(т,п) - ЕаАд(т,п) )
----100%, (19)
SWp,q =
m=0 n=0
Na-1 Nb -1
X X (Е.Ао(т.п))1
т=0 п=0
здесь р = 1. Р. где Р — количество исследуемых реализаций речевого сигнала; q = 1.Q. где Q — количество видов эмоциональных состояний человека (в базе данных); Едбо (т.п)
— локальный спектр НВП в логарифмическом масштабе для эмоции «норма». Мера различимости (19). является относительно простой в плане вычислений. при этом обладая удовлетворительной точностью различения разных видов эмоционального состояния.
оо
— со
т 70 60 50 40 30 20 10
Рис. 2. Локальный спектр НВП речевого сигнала, эмоциональное состояние «норма»
т
70
60 50
40 30 20 10
Рис. 3. Локальный спектр НВП речевого сигнала, эмоциональное состояние «радость»
Таким образом, разработан способ детектирования эмоционального состояния человека по речевому сигналу при использовании НВП. Приведена математическая модель речевого сигнала для данной задачи и рассчитано для неё НВП при использовании материнского вейвлета Морле. Даны практические рекомендации по быстрому вычислению НВП речевого сигнала, а также предложена мера различимости для выявления эмоционального состояния.
ЕдБ X (т,п)
0 1000 2000 3000
ЕдБ х (т,п)
1000 2000 3000
ЛИТЕРАТУРА
1. http://www.speetech.by/press/analytics/1
I. Галунов В.И. О возможности определения эмоционального состояния по речи // Речевые технологии. — 1008. — N° 1. — С. 60—66.
3. Фёдоров В.М. . Рублёв Д.П.. Юрков П.Ю. Влияние эмоционального состояния диктора на его речь // Проблемы современной схемотехники: сборник трудов Международной научно-технической конференции. — Таганрог. 1008. — С. 87—91.
4. Голубинский А.Н. К вопросу о физической интерпретации модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами // Вестник ВИ МВД России. — 1008. — № 1. — С. 84—90.
5. Булгаков О.М.. Голубинский А.Н. Оценка частоты основного тона речевого сигнала методом максимального правдоподобия при известном распределении амплитуд и начальных фаз гармоник сложного несущего колебания // Вестник ВИ МВД России. — 1010. — № 1. — С. 154—161.
6. Лукьяница А.А.. Шишкин А.Г. Автоматическое определение изменений эмоционального состояния по речевому сигналу // Речевые технологии. — 1009. — № 3. — С. 60—76.
7. Давыдов А.Г.. Киселёв В.В.. Кочетков Д.С. Классификация эмоционального состояния диктора по голосу: Проблемы и решения // Труды международной конференции «Диалог 1011». — М.: РГГУ. 1011. — С. 178—185.
8. Горшков Ю.Г. Новые решения речевых технологий безопасности // Специальная техника. — 1006. — №4. — С. 1—13.
9. Фёдоров В.М.. Юрков П.Ю. Распознавание эмоционального состояния человека по акустическим параметрам речи // Анализ разговорной русской речи: сборник тр удов Третьего междисциплинарного семинара. — СПб.: СПИИРАН. 1009. — С. 17.
10. Фант Г. Акустическая теория речеобразования — М: Наука. 1964. — 184 с.
II. Короновский А. А.. Храмов А. Е. Непрерывный вейвлет-анализ и его приложения. — М.: Физматлит. 1003. — 176 с.
11. Бурнаев Е. В. Применение вейвлет преобразования для анализа сигналов. — М.: МФТИ. 1007. — 138 с.