Научная статья на тему 'К вопросу о выделении модулирующего колебания из огибающей речевого сигнала'

К вопросу о выделении модулирующего колебания из огибающей речевого сигнала Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
791
91
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДУЛИРУЮЩЕЕ КОЛЕБАНИЕ / ОГИБАЮЩАЯ / АНАЛИТИЧЕСКИЙ СИГНАЛ / ФИЛЬТРАЦИЯ / РЕЧЕВОЙ СИГНАЛ / MODULATING WAVE / ENVELOPE / ANALYTICAL SIGNAL / FILTERING / SPEECH SIGNAL

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Голубинский Андрей Николаевич, Булгаков Олег Митрофанович

Разработан способ выделения модулирующего колебания из огибающей речевого сигнала при использовании математической модели, построенной на основе теории модуляции. Даны рекомендации по выбору типа, порядка и частоты среза фильтра нижних частот, используемого при выделении модулирующего колебания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The method of modulating wave selection from speech signal envelope, using the mathematical model on the modulation theory basis is designed. Recommendations for choice of type, the order and cutoff frequency of the low-pass filter used at selection modulating wave are given.

Текст научной работы на тему «К вопросу о выделении модулирующего колебания из огибающей речевого сигнала»

А.Н Г олубинский,

кандидат технических наук

О.М. Булгаков,

доктор технических наук, доцент

К ВОПРОСУ О ВЫДЕЛЕНИИ МОДУЛИРУЮЩЕГО КОЛЕБАНИЯ ИЗ ОГИБАЮЩЕЙ РЕЧЕВОГО СИГНАЛА

TO THE MODULATING WAVE SELECTION FROM SPEECH SIGNAL ENVELOPE

Разработан способ выделения модулирующего колебания из огибающей речевого сигнала при использовании математической модели, построенной на основе теории модуляции. Даны рекомендации по выбору типа, порядка и частоты среза фильтра нижних частот, используемого при выделении модулирующего колебания.

The method of modulating wave selection from speech signal envelope, using the mathematical model on the modulation theory basis is designed. Recommendations for choice of type, the order and cutoff frequency of the low-pass filter used at selection modulating wave are given.

В последнее время широкое распространение получило описание речевых сигналов в виде математических моделей, записанных в явном виде [1—3]. Это связано, прежде всего, с тем, что данное направление даёт конструктивный подход к решению многих задач анализа и синтеза речи.

Из теории речеобразования известно, что речевой сигнал содержит в себе информационную составляющую (отвечающую за передачу, например, языковых фонем) и промодулированное ей несущее колебание [4].

Наиболее распространённые модуляционные модели речевого сигнала представляют речевой сигнал в виде:

- амплитудно-модулированного (АМ) колебания [1,5];

- частотно-модулированного колебания [6—8];

- колебания с амплитудно-частотной модуляцией [6].

Одним из наиболее простых в математическом описании и физической интерпретации при одновременно высокой точности математической модели является представление речевого сигнала импульсом АМ-колебания с несколькими несущими частотами, промодулированного суммой гармоник [5].

Запишем в общем виде математическую модель речевого сигнала в виде импульса АМ-колебания при использовании детерминированного подхода:

u(t) — Имод(t) ' Мнес (t) , t ] , (1)

где uм0Д(t) — модулирующее колебание (отвечающее за информационную составляющую), а uK^ (t) — несущее колебание; Ти — длительность импульса.

Положим, что модулирующее (модуляция воздушного потока губами, ртом) и несущее (сигнал голосовых связок, прошедший резонатор в виде речевого тракта) колебания являются периодическими, что позволяет представить их рядами Фурье:

¥ ¥

u(t) — X Mf cos(2pkF0t + Fk) XUpcos(2plf0t + j0, te[0;тё ]. (2)

k—0 l—0

Здесь Mkia — глубина модуляции (относительная амплитуда) k-й гармоники модули-

рующего колебания; Fo — наименьшая частота модулирующего колебания; U}311 — амплитуда l-й гармоники несущего колебания; f0 — частота основного тона.

Введём обозначения:

Wk = 2pkFo ; Wi = 2plfo ; Mf = Mk; U^ = Ub

Из практических соображений ограничимся конечным количеством гармоник ряда: положим, что (K+1) — количество модулирующих гармоник, (L+1) — количество несущих гармоник. На основе (2) запишем модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами для случая модуляции суммой гармоник с учётом того, что постоянная составляющая несущего колебания Uо пренебрежимо мала (вследствие того, что затухает в резонаторе речевого тракта, а также сильно ослабляется микрофоном и звуковой платой ЭВМ):

K L

u(t) = X Mk cos(Wkt + Fk)ZUi cos( Wit + ji), te[0;тё ]. (3)

k=0 l=1

Математическую модель (3) можно использовать, например, для описания вокализованных участков речи с высокой точностью [5].

Цель исследования — разработка способа выделения модулирующего колебания из огибающей речевого сигнала, представленного математической моделью в виде импульса АМ-колебания с несколькими несущими частотами, промодулированными суммой гармоник.

Для выделения модулирующего колебания имод(t) вычислим огибающую U(t) сигнала (3) как модуль аналитического сигнала [9]:

U(t) = |z(t)| =Vu2(t) + v2(t), (4)

где аналитический сигнал

z(t) = u(t) + Jv(t), (5)

v(t) — сигнал, сопряжённый по Гильберту; J = V-T .

Согласно свойству огибающей модулированного сигнала можно записать с учётом (1) [9]:

U(t) = uiia (t) • UiM(t), (6)

где инес (t) — огибающая несущего колебания.

Используя (3), запишем:

L

uian (t) = ZUlcos( wlt +jl). (7)

l=1

Сопряжённый по Гильберту сигнал [9]:

L

vian (t) = ZUlsin( wlt + jl). (8)

l=1

Таким образом:

Uian (t) =V u2an(t) + v2an(t) = | Z^Un cos[(wn -Wl)t + (jn - jl )]^^ . (9)

Огибающая математической модели речевого сигнала с соответствии с (3) и (6):

U(t) = uiia (t)

L

ZUlUn cos[(Wn - Wl )t + (jn - jl)] =

l,n=1

к

= х мксоз( а к1+ф к)

к=0 \

Ь

Iи!ипС08[(Юп -Ю^ + (фп -фх)] .

1,п = 1

Таким образом, стоит задача выделения модулирующего колебания из модели огибающей, которая описывается выражением (10).

Преобразуем (9) к виду:

иш(0=

Ь

Хиіип СОБ^п -01> + (фп -Фх)] =

1,п=1

ОТ

1=1

1+

Ь

Щ^СОБ^-О^ + (Фп -ф)]

1,п=1 1*п

(11)

ОТ

1=1

Разложив выражение (11) в ряд Тейлора в окрестности малых значений второго слагаемого под знаком корня в правой части и, ограничившись первыми двумя членами разложения, получим:

иіай (1):

Ь

, I и2

Уі=1

л

1 Ь

1 +—------ I И1ипС08[( юп-ю^і + (Фп-Ф1)]

Ь

21 и2

1=1

2 1,п=1 1 * п

(12)

Следовательно, огибающая математической модели речевого сигнала:

Ґ Л

и(1) = иіїа (і)

, 1и2 +—1

\(1=1

2„

I и1ипС08[(Шп-Ш1)1 + ( Фп-Ф1)]

Ь 2 1,п=1

I и2 ,

1 * п

(13)

Из выражения (13) видно, что огибающая речевого сигнала содержит как низкочастотную составляющую, так и высокочастотное колебание, причём низкочастотная составляющая пропорциональна модулирующему колебанию.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если огибающую и (?) речевого сигнала (13) пропустить через фильтр нижних частот (ФНЧ) с частотным коэффициентом передачи К(]Ю), то сигнал на выходе фильтра:

иоїх (^»иіїа (а іи12|каш)

1 =1

<в«вйб

+

и,л- (і) Ь ,|

+ ^----- Iи1ипС0Б((юп - +(Фп -Ф1) + шб[к0ш)])к(іш|т>т

Ь „ і „_і "и>ийб

2„

(14)

I и2 1,п 1

К1?1 1 1 *п

где юср — частота среза фильтра. Полагая, что ФНЧ обладает хорошими селективными свойствами, будем считать, что при условии шах[0^ ]« ®ср амплитудно-частотная характеристика |К(]а)| »1, а при шп[(юп -^1)] >юйб, что |К(_]Ю)| » 0. В данном приближении сигнал на выходе ФНЧ:

и61х @ иіїа С1)

Ь 2

д I и? .

V1=1

(15)

Таким образом, на основе математической модели (2) речевого сигнала можно заключить, что модулирующее колебание пропорционально сигналу огибающей на выходе ФНЧ.

Ь

Ь

Ь

1

Для оценки константы в правой части формулы (15) используем выражение для энергии сигнала (2) [5]:

Е 1П2,

2 1=1

и его средней мощности:

1 ь 2 Е/Т = - Еи2.

2 1 =1

Учитывая выражения (15) и (17), получим соотношение для расчёта модулирующего колебания через сигнал огибающей на выходе ФНЧ и дисперсию:

(1) = и 1, ио1х (0. (18)

(16)

(17)

и,'

л/2ЁЛ

Выражение (18) позволяет выделить из речевого сигнала модулирующее колебание, отвечающее за информационную составляющую. Для этого необходимо получить огибающую речевого сигнала и пропустить её через ФНЧ.

Проведём экспериментальное выделение модулирующего колебания на основе предложенного алгоритма, характеризующегося формулой (18). Для расчёта будем использовать персональную ЭВМ, ввод речевого сигнала в которую выполняется с помощью звуковой платы со стандартной частотой дискретизации Гс)=6000 Гц. Данная частота была выбрана вследствие того, что первые 3-4 форманты находятся в области до 3000—3600 Гц [4]. Звуковые платы ЭВМ, как правило, добавляют различные постоянные составляющие в речевой сигнал. В связи с этим проводилась операция центрирования реализации:

у1 = х, -X, 1 = 1^, (19)

где хI — начальные отсчёты речевого сигнала; N — число отсчётов; х — математическое ожидание:

_ 1 М

х = — Е х1. (2°)

1 = 1

Время произнесения парольной фразы (длительность импульса) зададим равным Ти, при выбранном интервале дискретизации А = 1/^ речевой сигнал имеет N = Тё /А

отсчётов. На рис. 1 приведены отсчёты у1 центрированной реализации речевого материала в виде слова «он», состоящего из двух фонем.

10

0

-5

^рЩДшМАШз1

5

0 200 400 600 800 1000 1200 1400 1600 1800 *

Рис. 1. Центрированная реализация речевого сигнала

Для экспериментального вычисления огибающей речевого сигнала воспользуемся свойством преобразования Гильберта [9]:

Цо> = Р(°Х ^ °- (21)

[0, о < 0,

где Z (о) — спектр аналитического сигнала ^ (1), выражение (5); и (о) — спектр сигнала и (?).

Рассчитаем спектр речевого сигнала с помощью быстрого преобразования Фурье (БПФ). На основе коэффициентов БПФ Сщ, к = 0, N — 1 вычислим БПФ аналити-

ческого сигнала по формуле (21):

С 2к = 2С ик, (22)

здесь С1к — коэффициенты БПФ аналитического сигнала. Вычислив обратное БПФ,

получим отсчёты аналитического сигнала . (для речевого сигнала), / = 1, N.

Таким образом, отсчёты огибающей речевого сигнала могут быть вычислены:

и1 = |г,| = 4(и 1)2 + (^ 1)2 . (23)

График огибающей Ц представлен на рис. 2.

Для синтеза цифрового ФНЧ будем использовать метод билинейного преобразования. В качестве аналогового фильтра-прототипа выберем ФНЧ Баттерворта 3-го порядка, что обусловлено равномерностью амплитудно-частотной характеристики (АЧХ) в полосе пропускания при достаточном затухании в полосе задерживания. Алгоритм фильтрации данным фильтром:

(24)

]=0

т=1

где — сигнал на выходе ФНЧ; коэффициенты фильтра:

.3

а0 = °пб/В ; а1 = 3а0 ; а2 = 3а0 ; а3 = а0 ;

( ' \3 ^ \2

2 У ^ (2 )2 „ 2 2

К =

3| — I + 2оср I — I — 2й0п-------------3о3п

IА ) ср1 А ) ср А ср

В;

у/

ь2 =— 3(!) ++2025А—3о^5 /в;

ь3 = ) — 2°пб + 2°йб А—°б 1 т.

(25)

здесь интервал дискретизации А = 1/^; В = I — I + 2юйбI — I + 2юйб —+ юйб .

2

А

2

А

2

А

3

2

Рис. 2. Огибающая речевого сигнала

Также следует отметить, что необходимо учитывать групповое время замедления (ГВЗ), т.е. фазовые задержки, вносимые фильтром в выходной сигнал. В результате сигнал на выходе ФНЧ оказывается смещён на интервал времени, который можно оценить, как временной интервал, примерно равный среднему ГВЗ в полосе пропускания:

т(ю- = -—Ф(ю)], (26)

йю

где Ф(ю) = а^[ К (—)] — фазо-частотная характеристика фильтра.

Средняя мощность (дисперсия) речевого сигнала, входящая в выражение (18), может быть оценена для центрированной (у = 0) реализации речевого сигнала по соотношению :

1 Ж

Е/ *и =°1 = N-12 у2. (27)

г=1

Таким образом, на основании (18) можно записать выражение для отсчётов модулирующего колебания:

имод г =Т=ГМ>г. (28)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

л/2ст„2

Положим, что модулирующее колебание в выражении (1) является периодической функцией на временном интервале 1 е [0; ] с периодом Тп (интервалом) разло-

жения равным длительности импульса:

Тп=Хе. (29)

При этом основная частота модулирующего колебания в выражении (2):

Й1 = 2рр0 = , (3°)

а частоты кратных гармоник:

ак = 2ркг°=р (31)

Для достаточно точного представления периодического модулирующего колебания рядом Фурье будем полагать, что необходимо учесть не менее К = 5^10 гармоник ряда. Таким образом, можно приблизительно оценить частоту среза ФНЧ:

/ср = Рк = КГ° = К = К. (32)

В нашем случае время произнесения контрольной фразы ти=0,33 с. Таким образом, частоту среза ФНЧ ориентировочно можно принять порядка ^=15^30 Гц (значение частоты основного тона для речевого материала в виде слова «он» при этом соста-

вило значение /0 =155 Гц). Для экспериментальных расчётов выберем ^ =20 Г ц.

На рис. 3 приведены графики зависимости значений отсчётов огибающей от времени при фильтрации различными ФНЧ. Как видно из рис. 3, при фильтрации ФНЧ Бат-терворта 3-го порядка (сплошная линия) модулирующее колебание достаточно хорошо

выделяется из огибающей речевого сигнала с учётом определения имод (/) по выражению (1). При фильтрации ФНЧ Баттерворта 2-го порядка (штриховая линия) и троекратной фильтрации ФНЧ 1-го порядка (штрих-пунктирная линия), как видно из рис. 3, модулирующее колебание выделяется хуже вследствие более сильного ослабления информационных гармоник О% (модулирующего колебания) в полосе пропускания.

Рис. 3. Модулирующее колебание речевого сигнала при различных ФНЧ

Также следует отметить, что недостаточное ослабление высокочастотных составляющих несущего колебания (например, при однократной фильтрации ФНЧ Баттерворта 1-го порядка) в полосе задерживания вызывает периодические высокочастотные осцилляции (с частотами ю;), накладывающиеся на модулирующее колебание.

Из графиков, приведённых на рис. 2, 3, видно, что модулирующее колебание действительно представляет собой низкочастотную составляющую огибающей речевого сигнала. На основании анализа зависимостей, приведённых на рис. 2, 3, можно сделать вывод о том, что предложенный способ позволяет проводить выделение модулирующего колебания из несущей речевого сигнала, содержащего вокализованные участки.

Заметим, что выделить модулирующее колебание имод(/) можно следующими

тремя способами:

1) задав вид аппроксимирующей функции и^д (0 модулирующего колебания для

математической модели речевого сигнала им (^) ° им [м^од, *] (проверив её на адекватность и убедившись в наилучшем результате при данной функции аппроксимации, например на основе минимума ошибки аппроксимации Ци1 (1) - иу(1;)||, в виде метрики двух сигналов

— математической модели и экспериментальных данных соответственно);

2) подав речевой сигнал и(1) на нелинейный элемент (например, с квадратич -

ной характеристикой и^ (1) = [и(1;)] ), а затем отфильтровав полученный сигнал с по -мощью ФНЧ с частотой среза Гср, превышающей верхнюю частоту Бк модулирующего колебания (Гйб > Бк);

3) рассчитав огибающую и (?) и выполнив её фильтрацию ФНЧ с частотой среза /ср, превышающей верхнюю частоту Рк модулирующего колебания (Гйб > Бк).

Однако в первом способе возникает проблема подбора необходимой функции аппроксимации (ввиду, с одной стороны, многообразия различных аналитически заданных функций, с другой — ограничением лишь известными функциями).

Во втором способе модулирующее колебание претерпевает нелинейные искажения вследствие применения нелинейного преобразования, так как ФНЧ не позволяет отфильтровать все побочные составляющие, появившиеся в обогащённом спектре сигнала мнэ (/), а применение полосовых фильтров высоких порядков существенно усложняет обработку.

Предлагаемый третий подход позволяет относительно просто получить модулирующее колебание ммод(/) в численной форме, которое затем значительно легче аппроксимировать или использовать для определения параметров М% и Ф% при разложении данного колебания в ряд Фурье. То есть, полученное модулирующее колебание можно впоследствии представить, например, в виде ряда Фурье для удобства аналитического описания информационной составляющей речевого сигнала в процессе речеоб-разования. Заметим, что полученные результаты можно использовать в различных задачах как анализа, так и синтеза речи.

ЛИТЕРАТУРА

1. Якушев Д.И., Скляров О.П. Моделирование гласных звуков // Акустический журнал. — 2003.— Т. 49. — № 4. — С. 567—569.

2. Ищенко С.М. Слуховой анализ периодичности звука и его огибающей: математическая модель // Акустический журнал. — 2004.— Т. 50. — № 4. — С. 562—567.

3. Сорокин В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий // Речевые технологии. — 2008. — № 1. — С. 18—48.

4. Фант Г. Акустическая теория речеобразования. — М.: Наука, 1964. — 284 с.

5. Голубинский А.Н. Методика расчёта параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами для случая модуляции суммой гармоник // Системы управления и информационные технологии. — 2008.

— № 4.1. — С. 156—161.

6. Маркин Д.Н. Разработка метода и технических средств компандирования спектров речевых сигналов: автореф. дис. ... канд. техн. наук: 05.11.18. — СПб., 2008.

— 22 с.

7. Зуев П.Ю. Разработка метода и технических средств частотного компрессирования речевых сигналов для повышения разборчивости на фоне помех: автореф. дис. . канд. техн. наук: 05.11.18. — СПб., 2007. — 22 с.

8. Азаров И.С., Петровский А.А. Вычисление мгновенных гармонических параметров речевого сигнала // Речевые технологии. — 2008. — № 1. — С. 67—77.

9. Радиотехнические цепи и сигналы / Д.В. Васильев [и др.]; под ред. К.А. Са-мойло. — М.: Радио и связь, 1982. — 528 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.