2007
Доклады БГУИР
октябрь-декабрь
№ 4 (20)
УДК 621.371.39:681.322.01
ГАРМОНИЧЕСКАЯ МОДЕЛЬ РЕЧЕВОГО СИГНАЛА: ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ И ИХ КВАНТОВАНИЕ
АН. ПАВЛОВЕЦ1, П. ЗУБРЫЦКИ2, А. А. ПЕТРОВСКИЙ1
'Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
2Технический университет, Белосток, Польша
Поступила в редакцию 29 мая 2007
Рассматривается метод определения параметров гармонической модели речевого сигнала с последующим их квантованием. Особенностью метода является применение цикла с обратной связью для определения гармонических амплитуд и фаз. Предлагается также использование закономерностей психоакустики в процедуре квантования амплитуд.
Ключевые слова: гибридный вокодер, гармоническая модель, частота основного тона, квантование векторов переменной длины, психоакустика.
Введение
Большинство сигналов в природе, включая речь и музыку, могут быть описаны при помощи гармонической модели, которая определяется следующим набором параметров: фундаментальной частотой, амплитудой и фазой каждой частотной компоненты. Гармонический сигнал генерируется серией синусоид или гармонических компонент, частоты которых являются целочисленным кратным некоторой фундаментальной частоты. Данная модель является весьма эффективным решением для большого количества приложений кодирования сигнала, так как позволяет представить сигнал с помощью достаточно компактного набора параметров.
Первые попытки представления речевого сигнала с помощью гармонической модели датируются началом 1980-х гг. [1]. В дальнейшем в системах анализа-синтеза речи данное представление стало уточняться и дополняться описанием сигнала-остатка в форме шумовой модели [2], что позволяет повысить точность представления речевого сигнала, а вместе с тем и качество.
Некоторые сегменты речевого сигнала сложно разделить на периодическую и апериодическую составляющие, используя гармоническую и шумовую модели. Это происходит при попадании в сегмент взрывных звуков, наличии в сегменте одновременно гласных и глухих согласных, присутствии каких-то локальных явлений. Следующей ступенью развития представления речевого сигнала стала гибридная модель [3], предусматривающая три возможных класса для сегмента речи — вокализованный, невокализованный, переходный. Особенностью ее является анализ-синтез переходных сегментов во временной области, в то время как вокализованные и невокализованные сегменты обрабатываются в частотной области.
Модель речевого сигнала, рассматриваемая в данной работе, предполагает классификацию речевого сегмента с точки зрения возможности декомпозиции его на
гармоническую и шумовую компоненты. Признаком такой возможности является вокализованность сегмента (рис. 1).
В такой модели важнейшим аспектом является корректное определение гармонической и шумовой компонент. Существуют различные подходы к их разделению. Так, например, в [2] сегмент речи представлен суммой гармонической и шумовой составляющих, спектры которых находятся соответственно до и после так называемой максимальной частоты вокализованности. Подход [4] характеризуется определением вокализованности в определенных частотных полосах.
Рис. 1. Схема декомпозиции речевого сигнала в вокодере, основанном на раздельном кодировании гармонической, шумовой и переходной компонент
Данные подходы не вполне адекватно описывают речевой сигнал, поскольку в них используются бинарные решения о вокализованности сигнала в целой полосе частот. Отличие рассматриваемой модели анализа-синтеза речи от вышеупомянутых состоит в использовании для декомпозиции речевого сигнала дискретного преобразования Фурье, согласованного с изменением контура частоты основного тона [5-7]. Этот подход позволяет разделить гармоническую и шумовую составляющие во всем речевом спектре.
Одним из фундаментальных вопросов в приложениях кодирования на базе гармонических моделей является квантование гармонических амплитуд, так как качество реконструированной речи в параметрических вокодерах в большой степени зависит от качества квантования параметров гармонической компоненты, несущей основную информацию о кодируемом речевом сигнале.
В настоящее время известно достаточно большое количество подходов кодирования последовательности гармонических амплитуд. Скалярное квантование, например, квантует каждый элемент индивидуально; тем не менее векторное квантование [8] является более предпочтительным подходом для современных алгоритмов низкоскоростных кодеров речи, что обусловлено улучшенным качеством последнего. Традиционные векторные квантователи строятся с учетом фиксированной длины векторов. В последних работах удалось добиться достаточно высокого качества квантования гармонических амплитуд благодаря применению схемы расщепленного векторного квантования линейных спектральных пар, при этом прозрачное кодирование достигалось при скорости 23 бит/вектор [9]. Однако построение векторного квантователя с переменной длиной кодируемого вектора гармонических амплитуд выглядит более естественным решением ввиду того, что при этом не требуется осуществления дополнительных преобразований над входным вектором.
Таким образом, целью данной работы является разработка метода определения параметров гармонической модели и их квантования.
Определение параметров гармонической модели речи
Согласно модели (рис. 1), вокализованный сегмент речевого сигнала может быть представлен в виде суммы гармонической и шумовой составляющих:
s(i)=h(i)+r(i). (1)
Гармоническая модель для описания речи впервые была предложена в [1]:
М (
^г) = У А-. соб к = 1 к
2пкК I + ек
Л
(2)
где К — частота основного тона; Ак — амплитуда к-й гармонической компоненты; ек — фаза к-й гармонической компоненты; М — количество гармоник; ^ — частота дискретизации.
Данная модель, однако, не учитывает изменение частоты основного тона во времени. При достаточно малой величине окна анализа (до 25 мс) можно предположить, что это изменение носит линейный характер. Уточненная модель выглядит следующим образом:
М(
Щ) = У А соб к =1 к
2пкг1
К +
2 N
Л
+еь
(3)
где АК0 - изменение частоты основного тона за N отсчетов.
Следующим уточнением гармонической модели речи будет введение в формулу (3) фактора, учитывающего изменение (нарастание либо затухание) гармонических амплитуд с течением времени [1о]:
М
(
Кг) = У А.в^1 соб к =1 к
2пк1 [
К +
2 N
Л
+е„
(4)
где Р — фактор изменения; предполагается, что значения гармонических амплитуд эволюционируют по экспоненциальному закону. Использование формулы (4) позволяет повысить точность представления нестационарных вокализованных речевых сегментов.
Для определения параметров гармонической модели речи (амплитуд и фаз) на заданном сегменте удобно проводить анализ, синхронизированный с изменением контура частоты основного тона (следящий анализ) [6]:
Нп (к) = У () ехр
С
2пк1 (
К
Ко +-
АКо| 2 N
(I), 3 = >/-1,
(5)
где ^п(!) — временное окно; п — номер сегмента.Тогда амплитуды и фазы к-й гармоники определяются соответственно как
>е2(Яп (к)) + 1т2 (Нп (к))
Ап (к) = ■
еп(к) = -аг^
(6)
У *(/)
1=0
1т( Нп (к ))
(7)
Ле( Нп (к))
Величину фактора изменения амплитуд в можно определить следующим образом [9]:
в = 1п(х) / Т0, х =
З0 ЗТ0
Зт Зт т0 т0
(8)
1=0
где £0 = [|50|,..., _1 ]Т, = [|_1|]г ; Т0 — значение периода основного тона в
отсчетах, s0, 81,..., — отсчеты речевого сигнала, N — длина сегмента.
Шумовая компонента выделяется путем вычитания из исходного сигнала синтезированной, согласно (4), гармонической компоненты:
К0=8(0-М0. (9)
Поскольку гармоническая и шумовая модели кардинально отличаются друг от друга, важным аспектом является точная сепарация гармонической и шумовой компонент речи. Показателем точности в данном случае может служить отношение "гармоники / шум":
Е
HNR = 101%-±, (10)
Ег
где Ей и Ег — энергии гармонической и шумовой компоненты соответственно. Рассмотрим спектрограмму некоторого речевого фрагмента (рис. 2).
Рис. 2. Спектрограмма речевого фрагмента
Очевидно, что большая часть данного фрагмента имеет гармоническую структуру с фундаментальной частотой, изменяющейся в области примерно 300-400 Гц. Рассмотрим зависимость отношения "гармоники / шум" от предполагаемой частоты основного тона. Для этого выберем один из вокализованных сегментов данного фрагмента речи и проведем анализ по формулам (4)-(10) для типичных значений частоты основного тона речи от 50 до 500 Гц с шагом 1 Гц. Результат приведен на рис. 3.
Рис. 3. Речевой сигнал, его спектр и зависимость отношения "гармоники / шум" от предполагаемого значения фундаментальной частоты
Из рис. 3 видно, что зависимость HNR(F0) имеет локальный максимум в точке, равной частоте основного тона данного сегмента речи и носит унимодальный характер в ее окрестности (область 280-390 Гц). Эксперименты показали, что характер данной зависимости является общим для вокализованных сегментов. Таким образом, параметры гармонической компоненты будут иметь оптимальные значения при
F0opt = arg max(HNR(Fo)), Fa < Fo < F0r,
(11)
где диапазон [F0i; F0r] — некоторая окрестность фундаментальной частоты.
Таким образом, целесообразна следующая методика определения параметров гармонической компоненты: сначала проводится приблизительная оценка частоты основного тона и отслеживание ее контура, а затем в окрестности этой оценки проводится поиск максимума HNR методом анализа-через-синтез по формулам (4)-(10). Ниже приведен пример реализации данной методики:
В приведенном алгоритме используются следующие обозначения: NRG — энергия сигнала на сегменте;
ThrNRG — заданное пороговое значение энергии вокализованного сегмента, определенное эмпирически;
NACF(k) — подпрограмма расчета нормализованной автокорреляционной функции по формуле
м
¥(к) = ■
j=1
мм
Z * 2 Z
j=i j=i
(12)
'j+k
If NRG>ThrNRG then
begin
For k=Pmin to Pmax do NACF(k);
Candidates=Search max NACF(ThrAd);
F0 =Track DP(Candidates);
fF0 >0 then
begin
Beta=Compute Beta(F0);
for j=1 to n iterations do
[F0opt, A, d]=Golden_Section(F0lj),F0r(j));
end;
end;
где k — порядок автокорреляции; M — длина сегмента речи в отсчетах; j sj+k — отсчеты сигнала;
Search_max_NACF(ThrAd) - подпрограмма поиска максимумов нормализованной автокорреляционной функции (НАКФ), с которыми отождествляются кандидаты частоты основного тона Candidates. Рассматриваются только значения максимумов НАКФ, превышающие некоторый адаптивно изменяющийся порог ThrAd;
Track_DP(Candidates) — подпрограмма выбора траектории частоты основного тона методом динамического программирования [11]. Помимо кандидатов частоты основного тона в ней рассматривается и гипотеза о невокализованности речевого сегмента. В качестве параметров в данной подпрограмме используются значения НАКФ, с которыми отождествлены кандидаты частоты основного тона Candidates, а также расстояния между кандидатами частоты основного тона для смежных сегментов. Траектория частоты основного тона должна представлять собой для вокализованных звуков плавную линию. Результатом работы подпрограммы является приблизительная оценка фундаментальной частоты F0 > 0 или вывод о
невокализованности данного сегмента речи F0 = 0 ;
Compute_Beta( F0) — подпрограмма, осуществляющая расчет фактора изменения
гармонических амплитуд ß;
Golden_Section(F0l(j),F0r(j)) — подпрограмма, осуществляющая поиск максимума отношения "гармоники / шум" в окрестности значения F0 методом "золотого сечения", выполняется n_iterations раз. На каждой итерации в подпрограмме осуществляется расчет векторов гармонических амплитуд A и фаз Ö по формулам (5)-(7) с последующим синтезом гармонической компоненты по формуле (4) и определением нового значения HNR.
Определив оптимальное значение частоты основного тона F0vt, можно определить
оптимальное значение AF0, используя вышеприведенный алгоритм. Условием оптимальности будет следующее выражение:
AF°pt = arg max(HNR( FT +AF0)), AF01 < AF0 < AF0, (13)
где диапазон [AF01; AF0r] представляет возможную область изменения частоты основного тона.
Итак, результатом работы представленного алгоритма является набор параметров, характеризующий гармоническую компоненту речевого сигнала: фундаментальная частота F0, изменение фундаментальной частоты AF0, вектор гармонических амплитуд А и вектор гармонических фаз Ö, фактор ß.
На рис. 4 показан результат работы приведенного алгоритма в составе схемы обработки речевого сигнала, представленной на рис. 1.
Рис. 4. Сепарация речевого сигнала.
Квантование гармонических амплитуд
В системах анализа-синтеза и передачи речи задачи определения параметров и квантования имеют равную значимость. В контексте гармонической модели проблема квантования в большей степени связана с передачей вектора гармонических амплитуд. Если рассмотреть изменение спектра речевого сигнала во времени для разных дикторов (рис. 5), можно сделать вывод, что векторы гармонических амплитуд, даже определяющие голос одного и того же диктора, имеют различную размерность в разные моменты времени.
К сожалению, математический аппарат векторного квантования был разработан для квантования векторов фиксированной размерности и практически не используется с векторами переменной размерности, такими как векторы гармонических амплитуд. Для решения данной проблемы возможны различные подходы. Одним из вариантов является использование собственной кодовой книги для каждой размерности [12]. Естественно, такой подход является малоприемлемым для использования в системах реального времени из-за серьезных требований к объему памяти. Наиболее широко применяемые решения осуществляют различные преобразования над векторами переменной размерности с тем, чтобы привести их размерность к некоторому заданному фиксированному значению (с сохранением формы речевого спектра) с последующим применением техник векторного квантования. Примерами таких решений могут служить [9, 13-15]. Очевидным недостатком здесь является необходимость дополнительных преобразований и, следовательно, возможность внесения дополнительных искажений.
i£j' "О 50
ai
1 0
t -50
I
ЙГ S 50
i 0
G, -50
2 i
m 50
1 0
2 -50
^N^/vvv.. IjI/VV^A/VA^W^'
1000 2000 3000 4000 Frequency, [Hz]
10ОО 2000 3000 4000 Frequency, [HzJ
. | JAy^'vy-iYwrvYy | J №VVVvV'vly-vW/
1000 2000 3000 4000 Frequency, [Hz]
1000 2000 3000 Frequency, [Hz]
Ш -5
10ОО 2000 3000 Frequency. fHz)
■MY';
10ОО 2000 3000 Frequency, (Hz)
CD ■P. 50
1
s? -50
ЙГ s. 50
•§ 0
OJ -50
s
50
T3.
1 0
2 -50
1000 2000 3000 4000 Frequency, [Hz]
1000 2000 3000 4000 Frequency, [Hz]
/Ш
IAM/WVS
1000 2000 3000 4000 Frequency, [Hz]
10ОО 2000 3000 Frequency, IHzI
10ОО 2000 3000 Frequency, [Hz]
з 0
S1 -50
10ОО 2000 3000 Frequency, JHz|
10ОО 2000 3000 Frequency, [Hz]
3 1000 2000 3000 40 Frequency, [Hz]
J-5
V^vyVii
1000 2000 3000 Frequency, [Hz]
б
1000 2000 3000 Frequency, [Hz]
I 0
II -50
J-a
1000 2000 3000 Frequency, [Hz]
1000 2000 3000 Frequency, [Hz]
Рис. 5. Изменение спектра речи во времени: а) женский голос; б) мужской голос
Одно из возможных решений — квантование фиксированного количества гармонических амплитуд, например, в кодере на базе линейного предсказания со смешанным возбуждением (MELP — Mixed Excitation Linear Prediction) [16] векторное квантование используется для квантования первых 10 гармонических амплитуд, а амплитуды остальных гармоник считаются равными амплитуде последней (10-й) гармоники. Легко заметить, что 10 гармоник покрывают весь или почти весь речевой спектр для женских голосов с высокой частотой основного тона, в то время как для мужских голосов они могут покрыть только одну четвертую всего частотного диапазона (рис. 5,а, б), что означает существенную потерю качества для мужских голосов по сравнению с женскими.
Наконец, в [17] была разработана схема векторного квантования с переменной размерностью векторов (от англ. — Variable Dimension Vector Quantization — VDVQ). Тем не менее, поскольку в этом подходе не учитываются закономерности психоакустики, его трудно считать оптимальным.
Далее будет рассмотрен математический аппарат VDVQ и некоторые его модификации с точки зрения человеческого восприятия речи.
Векторное квантование с переменной размерностью векторов
В схеме VDVQ, предложенной в [17], кодовая книга квантователя содержит N кодовых векторов:
Я, 7 = 0,....,N - 1
при
yTi = [ y,0 ••• y,K -1 ],
где Nv — размерность кодового вектора.
(14)
а
Пусть поиск вектора гармонических амплитуд х с размерностью Щю0) и
нормализованной частотой основного тона ш0 осуществляется путем полного перебора в кодовой книге, тогда требуется рассчитать следующие расстояния:
(х, у ), г = 0,..., Nc -1, (16) где
Я = [УгЛ У1,2 - У,,N(и0) ] , (17)
кз = У,кз, - = 1,-,N(«0), (18) при
N^0, ]
-- , и, = 3©0,3 = 1,-,N(©0), (19)
к, =
п
где [.] означает округление к ближайшему целому.
Схема работает следующим образом: для каждого кодового вектора Уг путем расчета
набора индексов к- извлекается вектор у,, имеющий ту же размерность, что и х. Эти индексы
рассчитываются в соответствии с периодом основного тона и указывают на элементы Уг ,
ближайшие к позиции --й гармоники в кодовой книге. После расчета всех расстояний для квантования х выбирается индекс кодового вектора с наименьшим расстоянием. В качестве расстояния (меры искажения) используется спектральное отклонение:
Ж =
1 N (и0), 4 2
— У (х- - у-). (20)
N («0) -=1
Улучшенная конфигурация схемы УБУ^, называемая IVDVQ, предложена в [18]. Улучшение основано на интерполяции элементов кодовых векторов Уг для получения действительных кодовых векторов у{ . Индексы к- в IVDVQ рассчитываются без операции округления:
NV и -
к3 =и - = -«0, - = 1,., N(«0). (21)
п
Элемент у, - получается путем линейной интерполяции между двумя элементами вектора у,, определяемыми индексами |к- J и |к- ] :
Л - = у ,|к- J+{к-}(у,\-]- у,,
(22)
где {к-} обозначает дробную часть выражения (21). Обучение кодовых книг по методам VDVQ и IVDVQ представляет собой вариацию на тему алгоритма "к-средних" [19] и подробно описано в [18]. Результат применения метода к квантованию гармонических амплитуд отражен на рис. 6, использовалась 10-разрядная кодовая книга.
Рис. 6. Пример восстановления речи, кодированной с использованием метода VDVQ
VDVQ с применением линейной шкалы чувствительности слуховой системы человека
Метод квантования IVDVQ может рассматриваться как приемлемое решение для задачи квантования гармонических амплитуд. Если же посмотреть на эту задачу с точки зрения человеческого восприятия речи, становится очевидным, что IVDVQ не является оптимальным подходом. Данный вывод объясняется тем, что в процессе обучения кодовой книги в качестве критерия качества используется спектральное отклонение, не зависящее от частоты. В то же время человеческий слух имеет различную чувствительность к звукам разной частоты. Другим аспектом является нелинейная зависимость восприятия приращения громкости от приращения амплитуды. Таким образом, одно и то же численное значение разности между двумя гармониками может соответствовать совершенно разному перцептуальному искажению.
Для устранения таких несоответствий предлагается перцептуально обоснованный метод IVDVQ. Для того чтобы производить квантование гармонических амплитуд с учетом особенностей человеческого восприятия, величину амплитуд следует выражать не в децибелах, а в сонах и соответственно осуществлять обучение кодовой книги и поиск в ней (расчет расстояния между векторами - формула (20)). Шкала изменения громкости в сонах считается линейной для человеческого уха и определяется как [20]
Ар - 40
А. = 2 10 , (22)
где Ар и А. — значения амплитуд, выраженные в фонах и сонах соответственно.
Единица измерения "фон" связана с единицей измерения "децибел" частотной характеристикой уха, значение в фонах определяется кривыми равной громкости [21], которые можно аппроксимировать следующим выражением, справедливым для речи средней громкости:
Ар = А,в - АТН(/) + АТН
1кН ■
(23)
где Ар и АсВ — значения гармонических амплитуд в фонах и децибелах соответственно, АТН функция, аппроксимирующая значение абсолютного порога слышимости [21]:
АТН(/) = 3,64/-08 - 6,5е-0б(/-3-3)2 +10-3/4, где / — частота в кГц.
(24)
Рис. 7. Результат применения метода VDVQ, использующего линейную шкалу чувствительности слуховой системы человека
Таким образом, обучение кодовой книги и последующее квантование гармонических амплитуд основано на минимизации психоакустического искажения, что является преимуществом по сравнению с традиционным подходом VDVQ. Результат применения метода к квантованию гармонических амплитуд отражен на рис. 7, использовалась 10-разрядная кодовая книга.
VDVQ с психоакустически обоснованным ограничением длины вектора
Кодовые книги для VDVQ-метода обычно имеют большую длину кодовых слов (от 41 до 109 — в экспериментах [18]), что приводит к высоким требованиям к объему памяти для их хранения. В то же время можно видеть, что последние гармонические амплитуды спектра имеют незначительную величину, особенно в случае мужской речи (рис. 5б). Следовательно, имеет смысл ограничить размерность квантуемого вектора таким образом, чтобы не учитывать достаточно малые амплитуды. Схожая проблема существует в рамках модели речевого сигнала "гармоники плюс шум" [2, 22], где необходимо найти максимальную частоту вокализованности (ограничить спектр гармонической компоненты). Алгоритм, предложенный в [2], осуществляет проверку спектра на "гармоничность" в окрестности гармонических амплитуд, в случае, если спектр в области двух смежных проверяемых гармоник оказался "негармоническим", проверка прекращается. В качестве максимальной частоты вокализованности принимается последняя гармоника частоты основного тона,
предшествующая "негармонической" области спектра. Все же данный алгоритм является в большой степени эвристическим и использует при оценке некоторые заранее определенные опытным путем пороговые значения.
Модель анализа речевого сигнала, рассмотренная в данной статье, предполагает разделение речи на гармоническую и шумовую компоненту по всему спектру. Используя закономерности психоакустики, можно определить, в какой степени шумовая компонента влияет на восприятие человеком гармонической компоненты, т.е. определить гармоники, не влияющие на восприятие речи в целом.
Для решения данной проблемы использовалась психоакустическая модель Джонстона [23]. Данная модель позволяет рассчитать порог маскирования "шум маскирует тон" в частотной области с использованием следующей последовательности действий:
1. Сегмент шумовой компоненты, полученный с помощью выражения (9) взвешивается временным окном и подвергается ДПФ.
2. Спектр мощности шумовой компоненты суммируется в критических полосах, измеряемых в барках [21]:
ЬЦ
Вг = ^ Р(п),
(25)
где Р(п) — п-й частотный компонент спектра мощности; Ь/г, Ькг — номера начального и конечного спектральных отсчетов, попадающих в г-ю критическую полосу. Шкала барков получается с помощью следующего преобразования:
г(/) = 1 +13 аге1в(0,76/) + 3,5 аге1в((//7,5)2):
(26)
где / — частота в Гц. Для ДПФ размерности 256 и частоты дискретизации ^=8000 Гц параметры критических полос приведены в табл. 1.
3. Рассчитывается функция распространения для оценки эффектов маскирования в нескольких критических полосах [24]:
^ ^ = ю(15,81+7,5(^+0,474)-17,5^1+(к +0,474)2)/10
(27)
где к=г-у; г — номер барка маскируемого сигнала; у — номер барка маскирующего сигнала.
4. Вычисляется распространение спектральной энергии барка в каждой критической полосе как свертка Вг с функцией распространения
5.
" С" ^1,2 ^1,3 • ^1,18 " В1 "
С 2 ^ 2,1 ^ 2,2 ^2,3 • ^ 2,18 В2
С3 = ^3,1 ^ 3,2 ^3,3 • ^3,18 X В3 , (28)
со : о ^18,1 ^18,2 ^18,3 • ^18,18 _В18 _
аг = Ш1П
6. Рассчитываются коэффициенты тональности для каждой критической полосы:
(29)
' ЖМ^ (г) Л
ЖМ
,1
йВ шах )
где ^¥Мс1В(г) — мера спектральной пологости в г-й критической полосе: ЖМж = 10[[0(ем) - 10Ею(АМ )],
(30)
где АМ и ОМ — среднее арифметическое и среднее геометрическое значение спектра мощности в г-й критической полосе; 8ЕМйВтах — максимальное значение меры спектральной пологости равное -60 дБ.
Ь1
п
Таблица 1. Параметры критических полос приведены для ДПФ размерности 256 и частоте дискретизации ^=8000 Гц
Номер критической полосы Номера элементов ДПФ Количество элементов ДПФ Частоты, Гц
1 1-3 3 0-94
2 4-6 3 94-187
3 7-10 4 187-312
4 11-13 3 312-406
5 14-16 3 406-500
6 17-20 4 500-625
7 21-25 5 625-781
8 26-29 4 781-906
9 30-35 6 906-1094
10 36-41 6 1094-1281
11 42-47 6 1281-1469
12 48-55 8 1469-1719
13 56-64 9 1719-2000
14 65-74 10 2000-2312
15 75-86 12 2312-2687
16 87-100 14 2687-3125
17 101-118 18 3125-3687
18 119-128 9 3687-4000
7. Определяются смещения порогов маскирования: Ог = 5,5(1 -а г).
(31)
8. Производится расчет порогов маскирования в критических полосах и их ренормализация:
Т. = 101о81°(с' /10 (32)
Для ренормализации требуется определить ошибку распространения спектральной энергии барка, для этого предполагается, что на слуховую систему воздействует гипотетический раздражитель, спектральная энергия которого в критической полосе равна единице:
(33)
С 1 ¿1,2 ¿1,3 • ¿1,18 " 1 "
С Е 2 ¿2,1 ¿2,2 ¿2,3 • 2,18
С Е 3 = ¿3,1 ¿3,2 ¿3,3 3,18 X 1
С Е18 _ ¿18,1 V 18,2 С 18,3 ¿ 18,18 _ 1
Ренормализованные пороги маскирования определяются как
т: = т - 101о&о(0,).
9. Окончательные значения порогов маскирования определяются как Г/ = тах ((, АТН (/ ) ),
(34)
(35)
где АТН(/) рассчитывается с помощью выражения (24) для частот, равных значениям гармоник частоты основного тона.
Максимальной частотой вокализованности считается последняя гармоника частоты основного тона, превышающая порог маскирования.
На рис. 8 показан результат расчета порога маскирования и определения максимальной частоты вокализованности для вектора гармонических амплитуд. Очевидно, что
вычислительная сложность поиска в кодовой книге в данном случае будет снижена более чем в 2 раза.
Рис. 8. Маскирование гармонических амплитуд.
Таким образом, удается ограничить размерность вектора гармонических амплитуд на основании закономерностей психоакустики и тем самым снизить вычислительную сложность процесса квантования гармонических амплитуд. Результат применения метода отражен на рис. 9, использовалась 10-разрядная кодовая книга.
Сравнительные результаты методов квантования векторов переменной размерности
Поскольку предлагаемые методы квантования основаны на использовании особенностей слуха человека, классические параметры, по которым можно их сравнить (отношение "сигнал/шум", спектральное отклонение и т.д.), не смогут обеспечить корректную оценку качества. В то же время оценка качества по шкале MOS (Mean Opinion Score) требует наличия специально оборудованного помещения и определенного количества подготовленных слушателей. Таким образом, целесообразным будет произвести оценку качества реконструированной речи с помощью такого параметра, при расчете которого использовалась бы модель слуха человека. Таким параметром является модифицированная величина искажений спектра барков (MBSD — Modified Bark Spectral Distortion) [25], искажения в данном случае определяются как средняя разность субъективных оценок громкости.
Рис. 9. Результат применения метода с психоакустически мотивированным ограничением
длины вектора.
Для оценки качества использовались десятиразрядные кодовые книги, полученные с использованием подходов, описанных выше. Результаты тестирования качества реконструированной речи для различных вариантов квантования гармонических амплитуд приведены в табл. 2.
Таблица 2. Качество реконструированной речи при использовании различных подходов для квантования векторов гармонических амплитуд
VDVQ VDVQ+преобразование "децибелы-соны" VDVQ+психоакустически обоснованное ограничение длины вектора
MBSD 5,5973 2,3769 5,3348
Таким образом, психоакустически модифицированные варианты квантования векторов гармонических амплитуд показали по результатам измерений лучшее качество с точки зрения восстановления речи. Самый лучший результат был обеспечен при использовании метода VDVQ с применением линейной шкалы чувствительности слуховой системы человека.
Заключение
В данной статье была рассмотрена гармоническая модель речевого сигнала с точки зрения определения ее параметров и последующего их квантования.
При определении параметров гармонической модели использовался математический аппарат дискретного преобразования Фурье, согласованного с изменением контура частоты основного тона. Данный подход обеспечивает высокую точность результатов при условии корректного определения фундаментальной частоты. Применение техники динамического программирования в совокупности с последующим одновременным уточнением частоты основного тона и определением параметров гармонической модели в цикле с обратной связью методом анализа-через-синтез позволяет добиться качественного разделения речевого сигнала на периодическую (непосредственно гармоническую) и апериодическую (шумовую) компоненты. Сепарация речи на эти две разные по своей природе составляющие, а
следовательно, описание их разными наборами параметров, приводит к уменьшению пространства состояний для процедуры квантования, что, в свою очередь, упрощает подготовку кодовых книг и улучшает их качество.
Метод квантования векторов переменной размерности является весьма удобным для использования с такими параметрами гармонической модели речи как амплитуды, поскольку отпадает надобность в дополнительных преобразованиях. Предложенные методы, в основе которых лежат преобразования, использующие закономерности психоакустики позволяют повысить качество реконструированной речи и снизить вычислительную сложность алгоритмов квантования. Возможно, лучшие результаты даст объединение подходов, связанных с преобразованием шкал "децибелы-соны" и психоакустически обоснованным ограничением длины вектора гармонических амплитуд.
HARMONIC MODEL OF THE SPEECH SIGNAL: PARAMETERS ESTIMATION
AND QUANTIZATION
A.N. PAVLOVETS, P. ZUBRYCKI, A.A. PETROVSKY Abstract
The method of estimation of parameters of speech signal harmonic model is considered in this paper. The main feature of this method is application of the closed-loop analysis-by-synthesis algorithm for joint pitch refinement and harmonic amplitudes computing. Further quantization of harmonic amplitudes vector is improved by perceptually based methods.
Литература
1. AlmeidaL., Tribolet J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1983. Vol. ASSP-31, № 3. P. 664-678.
2. Stylianou Y. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 1. P. 21-29.
3. ShlomotE, Cuperman V., Gersho A. // IEEE Trans. Speech and Audio Proc. 2001. Vol. 9, № 6. P. 632-646.
4. Griffin D, Lim J. // IEEE Trans. on Acoust., Speech, Sig. Proc. 1988. Vol. 36, №8. P. 1223-1235.
5. Петровский А.А., Серков В.В. // Цифровая обработка сигналов. 2002. № 2. C. 2-12.
6. Petrovsky A., Zubricki P., Savicki A. // Proc. Europ. Conf. on Circuit Theory and Design. 2003. Vol. 3. P. 169-172.
7. Sercov V., Petrovsky A. // Proc. EUROSPEECH'99. 1999. P. 1479-1482.
8. Gersho A., Gray R.M. Vector Quantization and Signal Compression. Kluwer Academic, Norwell, USA. 1992.
9. Павловец А.Н., Петровский А.А. // Цифровая обработка сигналов. 2005. № 3. C. 13-21.
10. Jensen J., Jensen S., Hansen E. // Proc. IEEE ICASSP'2000. 2000. P. 1439-1442.
11. Talkin D. // Speech Coding and Synthesis. Editors: W.B. Kleijn and K.K. Palival. Elsevier. Amsterdam, Netherlands. 1995.
12. Adoul J.-P, DelpratM. // Proc. Allerton Conf. on Circuits, Syst., Comput. 1986. P. 1004-1011.
13. McAulay R.J., Quatiery T.F. // Speech Coding and Synthesis. Editors: W.B. Kleijn, K.K. Palival. Elsevier, Amsterdam, Netherlands. 1995.
14. Nishiguchi M., Inoue A., Maeda Y., Matsumoto J. // Proc. IEEE Speech Coding Workshop. 1999. P. 84-86.
15. Li C., Lupini P., Shlomot E., Cuperman V. // IEEE Trans. on Speech and Audio Proc. 2001. Vol. 9, № 6. P. 622-631.
16. Supplee L., Cohn R., Collura J., McCree A. // Proc. IEEE ICASSP'97. 1997. Vol. 2, P. 1591-1594.
17. Das A., Rao A., Gersho A. // IEEE Sig. Proc. Letters. 1996. Vol. 3. № 7. P. 200-202.
18. Chu W. // Proc. 3rd IEEE Int. Symp. on Image and Sig. Proc. and Analysis. 2003. Vol. 1. P. 537-542.
19. MacQueen, J. // Proc. 5th Berkeley Symp. on Math. Stat. and Prob. 1. 1967. P. 281-296.
20. Bladon R. // J. of the Acoust. Soc. of America. 1981. Vol. 69. P. 1414-1422.
21. Zwicker E., Fastl H. / Psychoacoustics: facts and models. Berlin: Springer-Verlag, 1990.
22. Bao C, Lukasiak J., Ritz C. // Proc. Interspeech'2005. 2005. P. 2709-2712.
23. Johnston, J. // Proc. IEEE ICASSP'88. 1988. A1.9, P. 2524-2527.
24. Schroeder M. R., Atal B. S, Hall J. L. // J. of the Acoust. Soc. of America. 1979. Vol. 66. P. 1647-1652.
25. Yang W, BenbouchtaM, Yantorno R. // Proc. IEEE ICASSP'98. 1998. P. 541-544.