Фазовые соотношения между основным тоном и обертонами гласных звуков

В. И. Воробьев; Г. В. Давыдов; Ю. В. Шамгин

2006

Доклады БГУИР

апрель-июнь

№ 2 (14)

УДК 621.396: 534.78

ФАЗОВЫЕ СООТНОШЕНИЯ МЕЖДУ ОСНОВНЫМ ТОНОМ И ОБЕРТОНАМИ ГЛАСНЫХ ЗВУКОВ

В.И. ВОРОБЬЕВ, Г.В. ДАВЫДОВ, Ю.В. ШАМГИН

Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь,

Поступила в редакцию 20 мая 2005

Путем обработки цифровых записей гласных звуков речи нескольких дикторов показано, что оценки разностей фаз между основным тоном речевого сигнала и обертонами несут информацию, которая может быть использована при решении задач распознавания звуков речи и идентификации дикторов.

Ключевые слова: разность фаз кратночастотных квазигармонических компонентов речевых сигналов, распознавание речи, идентификация дикторов.

Введение

Известно [1], что сдвиги фаз между гармоническими составляющими речевых сигналов (РС) непосредственно не оказывают заметного влияния на их слуховое восприятие. Вместе с тем это не означает, что эти параметры всякий раз приобретают произвольные значения и являются заведомо неинформативными. Напротив, в речевых сигналах, формируемых единой материальной системой и характеризующихся определенной цельностью, неизбежно присутствует внутренняя (в том числе и фазовая) согласованность частотных составляющих.

Наши исследования [2-6] показали, что одним из перспективных видов анализа межкомпонентных связей у сверхширокополосных и полигармонических радио- и гидролокационных сигналов, а также акустических сигналов речи и вибрации в механических узлах машин является анализ разностей фаз кратночастотных составляющих и составляющих с рациональными отношениями частот.

До недавнего времени выявление и анализ связей между компонентами спектра РС были весьма затруднены. Современные средства обработки РС существенно изменяют положение.

На возможную целесообразность учета начальных фаз узкополосных составляющих вокализованных участков РС и формантных колебаний указывалось в [7, 8]. Однако данные по вопросам межкомпонентной фазовой обработки РС в известных нам публикациях не содержатся.

Приведенные ниже материалы наглядно свидетельствуют, что оценки разностей фаз между колебанием с частотой основного тона (ЧОТ) и обертонами гласных звуков несут информацию, которая может быть использована при решении задач распознавания звуков речи и идентификации дикторов.

Математический анализ

Реализации обрабатываемого гласного звука ) можно представить в виде

p=n . . _

(()= Z Ap ()cos (nF о pt + Фкр (()) k = 1, M, (1)

р=ы

хк(г)= ^ >

р=1

где Акр (() и Фкр (() — медленно меняющиеся амплитуда и фаза р-й квазигармонической составляющей для к-й реализации звука х(г); Ек0 — ЧОТ в к-й реализации; М — количество реализаций; N — число выбранных для анализа квазигармонических составляющих.

В формуле (1) аргумент косинуса представляет собой текущее значение полной фазы р-го квазигармонического колебания в к-й реализации звука х(г), равное

^ (() = 2^орг + Фр (г); р = 1, N; к = 1, М . (2)

Если Ткр (() разделить на р и результат вычесть из полной фазы Тк1 (() колебания

с ЧОТ (р=1), то определенная таким образом разность фаз ЛТкр (г) между колебанием с ЧОТ и р-й квазигармонической составляющей не содержит линейно нарастающих слагаемых:

лтр (() = фк1 (() - Фр (г)/р; р = ; к = 1М. (3)

Необходимо отметить, что для взаимного уничтожения упомянутых составляющих в формуле (3) требуется обеспечить непрерывность функций Тк1 (г) и Ткр ((), что достигается

применением известной процедуры их "сшивания" в точках квазипериодически возникающих в них скачков на величину 2п.

Можно убедиться, что диапазоном однозначного определения величины ЛТ^р (() является отрезок [0; 2п/р]. Поэтому вычисляемые по формуле (3) значения ЛТкр(() необходимо нормировать по модулю |2п / р|:

A^kP (()=[Ф ki (()-Ф kp (t )/ p]

2п p = 1, N; k = 1, M . (4)

P

В случаях, когда анализируется разность фаз между д-й и р-й квазигармонической составляющими, формула (3) перепишется в виде

A^p (()=Ы()-Ф kp (t У p ]

2np p = 2, N; q = 3, N; k = 1, M . (4)

q

Полные фазы уtp (t) отфильтрованных и доступных для преобразований по отдельности квазигармонических компонентов Akp (t) cos (t)), p = 1, N, k = 1, M можно определять с помощью перехода к соответствующим им аналитическим сигналам с использованием преобразования Гильберта.

Методика

Для выполнения оценок разности фаз между квазигармонической компонентой с ЧОТ и обертонами использовалась следующая последовательность действий: ввод цифровых записей звуков речи;

обработка анализируемой реализации xk (t), k = 1, M, звука x(t) временным окном Хэннинга с длительностью, равной длительности этой реализации;

вычисление спектра и кепстра мощности реализации xk (t), k = 1, M ;

оценка усредненного на длительности анализируемого звука значения частоты Fk 0 его основного тона, выполняемая на основе данных спектрального и кепстрального анализа; вычисление средних частот ближайших обертонов pFk 0; p=2, 3, ..., N;

полосовая фильтрация звука на ЧОТ (Fk 0) и на частоте p-го обертона (p Fk 0) в полосе

(0,1-0,2) от центральных частот;

формирование аналитических представлений квазигармонических колебаний на ЧОТ и частоте p-го обертона;

вычисление огибающих и фаз колебаний на ЧОТ и частоте p-го обертона; выявление интервалов времени, на которых огибающие колебания на ЧОТ и частоте p-го обертона превышают уровень 0,7 от своих максимальных значений;

определение временного интервала, на котором огибающие колебаний на ЧОТ и на частоте p-го обертона совместно превышают уровень 0,7;

"сшивание" фаз колебаний на ЧОТ и на частоте p-го обертона как функций времени в точках разрывов первого рода (скачки на величину 2п);

вычисление по формуле (4) разности фаз между колебаниями на ЧОТ и частоте p-го обертона;

построение графиков функций < A^p (t) >, k = 1, M , где угловые скобки символизируют определение среднего значений функций A^p (t), k = 1, M , на выделенных с помощью анализа огибающих временных интервалах.

Экспериментальная часть

Цифровые записи РС четырех дикторов-мужчин (A,D,S,V) производились в специально оборудованном лабораторном помещении БГУИР, имеющем защиту от акустических шумов и шумов вибраций с уровнем <40 дБА.

Регистрация и анализ РС осуществлялись с помощью компьютера на базе процессора Pentium II.

Для ввода РС в использовались микрофон типа М-101 и 16-разрядная звуковая плата. Частота дискретизации составляла 22050 Гц.

Для предварительного анализа временных и спектральных характеристик РС, а также временной селекции звуков и слов применялся пакет прикладных программ WaveLab 4.0d.

Спектральный, кепстральный анализ и межкомпонентная фазовая обработка цифровых записей выделяемых для исследования звуков и слов производились с помощью нескольких специально разработанных для этих целей рабочих программ.

Результаты и их обсуждение

На рисунке в качестве примера результатов межкомпонентной фазовой обработки основного тона и обертонов приведены данные, полученные при анализе звуков "Э" и "И" в словах "ДЭ КСИ" (прочтение математического обозначения дифференциала dE,).

С целью наглядной демонстрации принципиальной возможности использования информации, содержащейся в межкомпонентных фазовых соотношениях РС, для анализа выбрано по две реализации РС с однообразным (при восприятии на слух) произнесением упомянутых слов дикторами А, Б, 8 и V.

л а

л

■а

Н

и О X

т Л

ос Л X X

<и т

ч

ш а

и >

90

70

60

50

40

30

2А

IV

23

1А

10

2У

13

0.02 0.04

0.06 0.03 Время, с

20

1А РНе:0ЕЕ1д ; 158.6/317.2 Нг

2А РНе:0ЕЕ2д ¡159.8/319.6 Нг

Ю РПе:ОЕЕ10 136.9/373.6 Нг

20 РПе:ОЕЕ20 196.9/393.6 Нг

1Б РПе:0ЕЕ13 220.5/441 Нг

2Б РПе:0ЕЕ23 222.7/445.4 Нг

IV РНе:0ЕЕ1у ¡188.9/373.8 Нг

2У РИе:0ЕЕ2у ¡188.5/377 Нг

0.1 0.12

а

180

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

160

Л

1_ 140

го

Л

120

Н

и

О X 100

п

Л

80

ос

Л

X

X 80

<и

X

ш 40

и

>

20

0

■ IV '

2У :

20

ю :

15 25

1А

2А

1А РПе^З^д 91.1/182.2 Нг

2А РЛе^Зрд 94.2/188.4 Нг

Ю Р11е:КЗ,10 185.3/370.8 Нг

20 РЛе^Э^р 160.7/361.4 Нг

1Б РЛе:К5|13 210/420 Нг

2Б РИе^Б^ 202.3/404.6 Нг

IV РНе:^,^ 121.8/243.6 Нг

24 РЛе^Зру 122.5/245 Нг

0.1

0.15 Время, с

0.2

б

Усредненные значения разности фаз между колебаниями на частоте ^0 основного тона и обертоном с частотой 2/70: а) для звука "э" в слове "дэ"; б) для звука "и" в слове ("кси"). А, Б, 8, V — обозначения читающих дикторов

Как видно из графиков рисунка, в рассматриваемом случае наблюдается заметное различие усредненных разностей фаз между основным тоном и ближайшим к нему обертоном (р=2) как у различных дикторов при произнесении одного и того же звука, так и для различных звуков, произнесенных каждым диктором. Частоты основного тона и обертона для каждой реализации показаны в таблицах, помещенных справа от полей графиков.

Заключение

Проведенные исследования показали, что оценки разностей фаз между квазигармоническими составляющими РС на ЧОТ и кратных ей частотах оказываются незначительно изменяющимися на длительности тональных звуков, в общем случае различными для разных звуков, индивидуальными и устойчивыми для разных дикторов.

Количественные оценки степени устойчивости и информативности межкомпонентных фазовых характеристик требуют накопления статистически представительных данных на специально сформированных речевых базах. Вместе с тем имеющиеся у авторов рабочие материалы позволяют считать, что вариативность этих характеристик не явится препятствием для использования данных межкомпонентных фазовых измерений в РС при решении многих задач распознавания звуков речи и идентификации дикторов.

В случаях, когда традиционно используемые параметры речи (такие как ЧОТ, данные формантного анализа и др.) оказываются недостаточными для решения задач обнаружения, распознавания РС и идентификации дикторов, измерения и анализ указанных фазовых характеристик могут давать необходимую дополнительную информацию.

Важным качеством предложенных процедур обработки РС является их пониженная чувствительность (при отсутствии помех — полная нечувствительность) к изменениям интенсивности анализируемых РС.

PHASE RELATION BETWEEN FUNDAMENTAL TONES AND VOWEL SOUNDS

OBERTONES

V.I. VARABYEU, G.U. DAVYDAU, YU.V. SHAMGIN Abstract

It is shown by digital recordings processing of vowel sounds from different speakers, that difference of phases evaluation between fundamental tone and obertone carrying information, which can be used for listening discrimination and speaker identification.

Литература

1. Сапожков М.А. Речевой сигнал в кибернетике и связи (Преобразование речи применительно к задачам связи и кибернетики). М.: ГИЗЛ по вопросам связи и радио, 1963. 451 с.

2. Воробьев В.И., Климов А.В. //Радиотехника. 1986. № 2. С. 19-22.

3. Воробьев В.И., Климов А.В. // ХХХ111 Всесоюз. межвузовская науч.-техн. конф.: Тез. докл. Т. 1. Ч. 2. ТОВВМУ им. С.О. Макарова. Владивосток, 1990. С. 156.

4. Воробьев В.И., Суданов П.М. // ХХХV Всесоюз. межвузовская науч.-техн. конф.: Тез. докл.. Т. 1. Ч. 1. ТОВВМУ им. С О. Макарова. Владивосток, 1992. С. 50-51.

5. Воробьев В.И. / Материалы XIII научно-технического семинара РНТОРЭС им. А.С. Попова "Статистический синтез и анализ информационных систем". Рязань, Рязанская государственная радиотехническая академия, май 1994. С.75-78.

6. Анализ межкомпонентных фазовых соотношений в речевых сигналах: Отчет о НИР (ГБЦ 96-3023) / Белорусский государственный университет информатики и радиоэлектроники: БГУИР; Руководитель Воробьев В.И. Минск, 1996. 36 с. ГР № 19963577.

7. Дворянкин С. // Открытые системы, № 3, 2000.

8. Дегтярев Н.П. Параметрическое и информационное описание речевых сигналов. Минск, 2003. 216 с.

Фазовые соотношения между основным тоном и обертонами гласных звуков Текст научной статьи по специальности «Физика»

Аннотация научной статьи по физике, автор научной работы — В И. Воробьев, Г В. Давыдов, Ю В. Шамгин

Похожие темы научных работ по физике , автор научной работы — В И. Воробьев, Г В. Давыдов, Ю В. Шамгин

PHASE RELATION BETWEEN FUNDAMENTAL TONES AND VOWEL SOUNDS OBERTONES

Текст научной работы на тему «Фазовые соотношения между основным тоном и обертонами гласных звуков»