Научная статья на тему 'Построение моделей речевых сигналов и их анализ с точки зрения эмоционального состояния человека'

Построение моделей речевых сигналов и их анализ с точки зрения эмоционального состояния человека Текст научной статьи по специальности «Физика»

CC BY
176
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение моделей речевых сигналов и их анализ с точки зрения эмоционального состояния человека»

- методики выработки навыков выявления и опознания подпороговых стимулов, влияющих на состояние окружающей среды и организм человека, для организации профилактической работы с населением;

- системы мониторинга окружающей среды на основе экспертных оценок специально подготовленной группы операторов-эниологов, как биологических индикаторов внешних воздействий.

УДК 681.3

ПОСТРОЕНИЕ МОДЕЛЕЙ РЕЧЕВЫХ СИГНАЛОВ И ИХ АНАЛИЗ С ТОЧКИ

ЗРЕНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА

И.Б. Старченко, В.И. Тимошенко, А.Ф. Хроматиди

Таганрогский государственный радиотехнический университет Россия, 347928, Таганрог, ГСП-17а, пер. Некрасовский, 44.

Тел.: (86344) 6-17-95; факс: (86344) 6-17-95; e-mail: ega@tsure.ru

Проблема компьютерной обработки речи приобретает всевозрастающее значение в связи с целым рядом практических вопросов. Обычно для оценки состояния человека используется комплексная оценка его физиологических параметров: пульс, артериальное давление, интенсивность работы потовых желёз и т.д.

Мы хотим предложить систему с новыми возможностями, которые позволят решать более широкий круг задач. Для оценки состояния используется речевой сигнал. Комплексное использование этой и ранее разработанных систем позволит с большей точностью оценивать психофизиологическое состояние человека.

Эмоциональные признаки в речевых сигналах указывают на психофизиологическое состояние исследуемого человека. Работы, которые отражают амплитуды, спектральные признаки и миограммы голосообразовательного аппарата человека, уже известны и они были использованы в этой работе.

Огромные достижения человека в различных областях его деятельности во многом зависят от его способности использовать речь как средство общения. Человеческая речь, по своей ёмкости, несёт избыточную информацию по сравнению с информацией, содержащейся в первоначальной мысли. Такая избыточная информация позволяет распознавать речь каждого отдельного человека.

Представление о звуковой картине речи можно получить с помощью трехмерной модели, так называемой спектрограммы. Она отражает как распределение энергии по частоте изменяется во времени. Но чтобы объяснить структуру спектрограмм, необходимо знать анатомию и физиологию голосового тракта человека.

Поэтому были разработаны акустическая и соответствующая ей электрическая модели речевого аппарата (РА) (рис. 1). Хотя конфигурация полостей РА отличается сложной формой, в РА можно выделить ротовую, глоточную и носовую полости. При образовании гласных проход из полости глотки в носовую полость закрыт нёбной занавеской. Полости рта и глотки разделены сужением, образуемым спинкой языка и нёбом. Второе сужение образуется с участием губ и двух рядов зубов.

тт0

Й5

ниь

и 12 из 14 15 16 П 18

У02 21 VD3l7

№ Й5

1

Ц

д)

Рис.1 Модели речевого аппарата а) - продольное сечение ГА; б) - акустическая модель; в) - эквивалентная электрическая схема; г) - упрощённая эквивалентная схема; д) электрическая

схема.

Н2

С2

№А1

С5

Н8

С1

L9

ГГ1

Н6

Я4П С3

С4

Акустические параметры полостей РА неравномерно распределены вдоль его оси. При акустическом моделировании каждый участок РА (полость, сужение) представляется в виде секции, параметры в которой можно считать распределенными равномерно.

Был введен ряд упрощений, которые, с некоторым приближением позволяют получить достаточно наглядное описание процессов происходящих в РА. Площадь голосовой щели во время фонации не превышает 0.2-0.4 см2; площадь же поперечного сечения глотки имеет величину в 10-20 раз большую. Поэтому голосовую щель можно рассматривать как источник с большим внутренним сопротивлением, т.е. как источник объемной скорости. Точно так же можно пренебречь упругостью стенок полостей. В результате получим акустическую модель РА, изображенную на рис.1,б. Голосовые связки изображены в виде поршня. Секция Б1 представляет собой полость гортани, секция 82 - область сжатия, образуемую спинкой языка, секция 83 - ротовую полость и секция 84 - область сжатия, образуемую ротовым отверстием. Звуковая энергия, излучаемая из ротового отверстия, отражается от лица говорящего, т.е. лицо как бы является отражательной доской. Речевой аппарат имеет следующие среднестатистические размеры: длина вдоль его оси от голосовой щели до ротового отверстия равна 17.5 см, площадь поперечного сечения полостей - не более 5... 15 см2. При таких размерах распространение звуковых волн вдоль оси РА не зависит от изгибов формы. Для сигнала с частотой ниже некоторой граничной Ю в РА выполняется условие распространения плоских волн. Для полого цилиндра диаметром 2Я

¡0 = 117 •C, 0 R

где с = 3.53*102 м/с - скорость распространения звука при 1 = 37° С. При ^бкГц, 2• R = 2• 1.17 • 3.53-102 •Ю2/(6• 103) = 6.8ст, т.е. больше поперечного размера РА в любой его точке.

При длине волны Я = с/значительно превышающей длину РА (f ~ 1000Гц),

допустима замена распределенных параметров на сосредоточенные.

Был составлен электрический аналог акустической модели. Путем замены каждой полости Т-образной эквивалентной схемой, была получена схема, изображенная на рис. 1,в. Генератор ег является аналогом голосовой щели и представляет собой источник тока ¡о с внутренним сопротивлением ^ Ток 1, проходящий через активное Ян и индуктивное Ьн сопротивления, представляют собой аналог объемной скорости в ротовом отверстии. Величины Ян и Ьн -представляют собой сопротивление излучения и массу воздуха в ротовом отверстии.

Последние определяются по формулам:

Rн =

2 п ■ с

Г = 8-р

3 п •г

где р = 1.14*10-6 кг/м3 - плотность воздуха; г - радиус кругового отверстия, равного площади ротового отверстия.

Можно рассматривать голову как отражающую доску, имеющую радиус 9 см, в центре которой действует поршневая диафрагма. Действие отражающей доски

учитывается коэффициентом К5 (ю) входящим в формулу для сопротивления излучения. На низких частотах К8 (ю) =1, на частотах около 2 кГц К8 (ю) =1.7, а на

более высоких частотах коэффициент К5 (р ) опять уменьшается. В формулах выше коэффициент К8 р) =2, что соответствует отражению от бесконечно большой доски.

В схему рис. 1,в были введены следующие упрощения: пусть хп соединен последовательно с большим внутренним сопротивлением генератора ^ и им можно пренебречь. Сопротивления упругости х22 и х24 представляют соответственно небольшие области сжатия в ротовой полости между спинкой языка и нёбом и в ротовом отверстии. Их величина велика и поэтому ими также можно пренебречь. В диапазоне интересующих нас частот сопротивление Итак, с принятыми упрощениями схема, приобретает вид, изображенный на рис. 1,г.

_ _ р-с _ 0.523 Хс1 _ *21 _„ . (р-/ Л_ ми(0.19-10-3 -р)'

р-с __2.6_.

~ б1П(0.13 -10-3 р);

£3 - б1П

I с

1 1 р-с (р - / Л 2 - р - с (р - /2 Л

ХЫ _--Х11 + Х12 + — -Х13 _---tg\ -1 1 +-----1 1 +

" 2 11 12 2 13 ^ Л 2-с J Л 2-с J

+ -tg\р3 | _ 0.519-(.99-10-4р) + 8.89-&(0.21-10-4 р)

£3 I 2-с

2.67- (.64-10-4 -р)

+

1 \ о „„Л

I _

У

ХЬ 2 _ Х13 + Х14 + ХН _

р - с (р-/3 Л 2 - р - с (р-/4 Л 8 - р - с

^ £3 Л 2-с У 84 Л 2-с У 3-П -г (2.67 • ^^(0.64 • 10-4 • р)+ 8.89- tg(0.64-10-4 - р) + 0.0002) /

ХС 2 Х23

Ниже будут приведены графики, отражающие зависимость общего сопротивления схемы от частоты (рис. 2,3 ).

Согласно графическому решению уравнений, резонансные частоты для модели равны 330, 2320 и 2750 Гц при Б1 =7,7 см2 , 82 =0,9 см2 , 83 =1,5 см2 ; 11 =7 см, 12 =1.5 см, 13 =4.5 см. Эти значения довольно близки к среднестатистическим значениям, равным 270, 2290 и 3010 Гц.

Электрический аналог модели, составленной из двух полостей, можно рассматривать как систему связанных контуров с взаимным влиянием полостей на частотные положения формант. Собственные частоты полостей определены графическим методом по точкам пересечения кривых хи - хС1 и хЬ2 - хС2. При этом имеем очевидные равенства хы = хС1, хЬ2 = хС2. Оказалось, что Б01 =400 Гц и Б02 =1750 Гц. Так как отличия собственных частот полостей и формантных частот не велики, то можно сделать вывод: для звука [1] частота первой форманты определяется главным образом задней полостью, а второй - передней. Однако эта зависимость для других звуков может быть иной. Так, для [у] частота определяется скорее ротовой полостью, а Б2 - глоточной, т.е. порядок формант (первая, вторая) определяется не порядком полостей, а их размерами. Это и приводит к казалось бы необоснованному объединению губных и заднеязычных по дифференциальному признаку низкий.

Рис.2

1-ПП-1-1-г

ко! ю -

1000 2000 3000 4000 5000 6000 7000 70 Г 7000

Для речевого диапазона (5=70... 7000 Гц)

Рис.3

Итак, формантная модель учитывает место сужения в ротовой полости, площадь поперечного течения полостей и степень огубленности. Для описания способа образования используются сигналы основного тона и тон-шум, а интенсивности - значение амплитуд первых двух-трех формант. Таким образом,

формантная модель может быть описана пятью-семью параметрами, полоса частот каждого из которых составляет 8...14 Гц. Частота формант обратно пропорциональна общей длине тракта. Из-за распределенного характера постоянных РА каждая полость оказывает влияние на значения всех формант, формантное распределение для звуков является точным отражением конфигурации РА. Обратный переход от распределения формант к форме РА из-за компенсаторных явлений неоднозначен.

Такое представление хорошо согласуется с моделью образования гласных. Применительно к согласным более приемлемо описание с помощью моментов первых трех порядков:

Мп =\/"•£(/)• #,

где В(1}- спектральная плотность.

Момент нулевого порядка Мц= представляет

Средняя частота спектра

Л = Мх! М 0,

интенсивность.

где М! =| /•£(/)• df.

Дисперсия спектра

= И -

где Л2 = М2/ М0;

М 2 =| Л2• Б(/)#.

Результаты экспериментальных исследований.

Для проведения экспериментов по выделению характерных эмоциональных признаков речи человека, были записаны 14 различных голосовых сигналов. Эти сигналы представляют собой фразу "Доброе утро".

Частотный диапазон сигналов от 70 до 7000 Гц, динамический диапазон 120 дБ, длительность около 2 мс. Проводились амплитудный и частотный анализы, для различных размеров БПФ.

Первым являлся амплитудный анализ. Идея состояла в следующем: известно, что амплитуда речевого сигнала человека напрямую зависит от его психофизиологического состояния, и об этом уже упоминалось ранее. Поэтому был проведён сравнительный анализ всех имеющихся сигналов с помощью наложения (см. рис. 4).

Рис.4. Амплитудный анализ

Помимо этого проводились сравнения, для ситуации произнесения студентом одной и той же фразы до экзамена и после. Был оценен уровень амплитуд каждого

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

сигнала и, следовательно, проведена предварительная оценка эмоционального состояния исследуемого человека.

Далее к голосовым сигналам были применены фильтры. Баттерворта, Чебышева, Бесселя. Наиболее приемлемым оказался фильтр Чебышева, поскольку его использование позволяет эффективно "вырезать" шумы, тем самым выделив необходимую и полезную информацию.

Вторым направлением являлся частотный анализ. С помощью программы Cool Edit Pro были получены частотные характеристики рассмотренных сигналов. Они проанализированы на предмет выбросов, уровня шумов, уровня соотношения высокочастотных и низкочастотных составляющих. Видно, что за пределами голосового диапазона (7000 Гц) уровень сигнала находится на уровне порога слышимости: для данной программы -72 дБ. Наибольшие амплитуды наблюдаются в пределах частотного диапазона обычной речи (до 3 кГц). Повышение амплитуды на определённых частотах (выбросы), являются одним из классификационных признаков.

0, дБ -12 -22 -32 -42 -52 -62 -72 -82 -92

0 1 2 3 4 5 6 7 8 9 10 кГц

Рис. 5. Частотный анализ.

ЛИТЕРАТУРА

1. Аблазов В.И. Преобразование, запись и воспроизведение речевых сигналов. К.: Лыбидь, 1991г. - 206с.

2. Механизмы речеобразования / Под ред. Л. А. Брызгунова. М.-Л.: Наука, 1966г. -206 с.

3. Нейман Л. В. Анатомия, физиология и патология органов слуха и речи. М.: Просвещение, 1977 г. - 176 с.

4. Сорокин В.Н. Синтез речи. М.: Наука, 1992г. - 392 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.