Алгоритм порождения речеподобных сигналов
Ключевые слова: порождающий алгоритм, тестовые сигналы, вокодеры, оценивание, структурные параметры, законы распределения, форманты, основной тон.
Описан алгоритм, генерирующий хаотическую последовательность тестовых сигналов с речеподобной структурой. Он построен в соответствии с акустической теорией речеобразования и предназначен для оценивания надежности и точности функционирования алгоритмов выделения структурных параметров речи, использующихся в вокодерных системах. Приводятся установленные зависимости, аппроксимирующие дифференциальные законы распределения центральных частот и ширин основных формант, а также частоты основного тона естественной речи. Опираясь на эти зависимости, описываемый алгоритм вырабатывает значения формантных и мелодических параметров, по которым конструируются генерируемые тестовые сигналы. Каждый такой сигнал сопровождается перечнем тех значений структурных параметров, при которых он был создан алгоритмом генерации. Это обеспечивает адекватность дальнейшего оценивания испытуемых алгоритмов. Предусмотрены разные режимы работы генерирующего алгоритма. Каждый из восьми структурных параметров может изменяться во времени с задаваемой скоростью и характером изменения. Приведены примеры генерируемых сигналов, иллюстрирующих три типичных случая: неизменность во времени значений всех структурных параметров, вариация интенсивности тестового сигнала, вариация всех структурных параметров.
Соболев В.Н.,
Профессор кафедры Теории электрических цепей МТУСИ
Современные вокодеры не обеспечивают достаточно высокого качества передачи речи, что сдерживает их внедрение в практику коммерческой телефонии.
Помимо обычных искажений, вносимых линией передачи (внешние помехи, потери отдельных пакетов и т.д.), имеют место специфические искажения, присущие только вокодерным устройствам (в частности частотнодеформационные искажения [1]). Они возникают как в анализирующей, так и в синтезирующей части системы из-за несовершенства алгоритмов функционирования отдельных блоков вокодера.
В анализирующей части искажения могут быть вызваны, например, неточностью работы спектрального анализатора, погрешностями при выделении формантных параметров, неточностью расчёта коэффициентов линейного предсказания, погрешностями и сбоями, возникающими в выделителе основного тона и дискриминаторе тон-шум-пауза. Для устранения пагубного влияния указанных факторов следует, прежде всего, локализовать их проявление (то есть выделить те блоки, в которых возникают соответствующие погрешности и сбои) а также получить их количественные оценки. Приняв в качестве целевой функции минимум количественных оценок погрешностей и сбоев, можно усовершенствовать алгоритмы функционирования отдельных блоков вокодера.
Оценивание погрешностей и сбоев на простейших испытательных сигналах неэффективно вследствие неадекватности структуры этих сигналов структуре речевого сигнала, являющегося сложно модулированным неэрго-дическим случайным процессом. Для достижения указанной цели автором разработан специальный программный продукт, являющийся по существу датчиком квазифонем, учитывающим специфическую структуру речи [2]. Он генерирует хаотическую последовательность отдельных кадров речеподобного сигнала. Каждый такой кадр сопровождается перечнем тех априорных значений структурных параметров, по которым он был построен
алгоритмом генерации. По результатам сравнения значений параметров, выделяемых испытуемым алгоритмом из генерируемых датчиком речеподобных сигналов, с априорными значениями соответствующих параметров, можно с достаточной достоверностью судить о точности работы испытуемого алгоритма на естественной речи. Описываемый генератор тестовых сигналов может быть использован для оценивания точности определения частот и ширин трёх формант, частоты основного тона, амплитуд, частот и фаз отдельных гармонических составляющих, а также для определения точности передачи огибающей амплитудного спектра речи в вокодерных системах.
Процесс автоматического испытания алгоритмов выделения структурных параметров речи описывается следующим образом:
А0 А! J А2 А., А4 А5 Р6 ь А7 А* По,
I I
где Ао и П0 — начало и конец вычислительного процесса, оператор Р6 проверяет условие достижения заданного объёма выборки тестовых кадров, остальные операторы выполняют следующие действия:
А1 - ввод управляющей информации и исходных данных, содержащих сведения о требуемых законах распределения структурных параметров естественной речи;
А2 - расчет совокупности априорных значений структурных параметров для очередного генерируемого кадра и порождение очередной реализации речеподобного сигнала;
Аз — работа испытуемого алгоритма выделения речевых параметров;
А4 - сравнение выделенных параметров с их априорными значениями;
А5 - подготовка к генерированию следующего кадра;
А7 — статистическая обработка погрешностей выделения параметров;
Аз - вывод результатов испытания.
Здесь и далее в логических схемах после условных операторов Р использованы отсылки, имеющие следующий смысл: ь - да, г - нет. Предлагаемый алгоритм генерации тестовых сигналов выполняет функции сле-
дующих операторов общего процесса исследований: А0, А|, А2, А5, По- Содержание операторов А3, А4, А7 и А8 определяется пользователем в зависимости от конкретных задач, стоящих перед исследователем.
Ниже рассматривается структура и процесс функционирования алгоритма генерации тестовых сигналов. Управляющая информация, вводимая пользователем на начальном этапе посредством составного оператора А|, предназначена для установления того или иного режима работы порождающей части алгоритма. В частности предусмотрена настройка алгоритма на использование статистических характеристик только мужской или только женской речи, а также совокупности мужских и женских голосов. Возможны различные степень и характер изменения каждого структурного параметра в течение генерирования очередного кадра. Можно задавать разную степень зашумлённости генерируемых речеподобных сигналов аддитивной гауссовской помехой.
Логическая схема составного оператора А| имеет вид:
Qi Q2-1Q.1 Q-i Р51-,
1 1
где оператор Р5 проверяет условие г < 8, остальные операторы выполняют следующие действия:
Qi: ввод значений J, Т, Д/, s, A/om, о0ю, A/of, Oof, /от»™, /от««, fill mm < folnm. Mfl, Ofl, Мц, On, MfJ , OfJ, F\ •« • F\ im, , F} , Fima,
F3 min , Fi mai , V , Eg , £2 .
Q2: N = ft = 1 /At; p» = I; r-I; 7=1; ; -0; / = 0; // = 0.0005.
Qj: ввод значений q„ 6r Qj: r~r + I.
В качестве исходной информации пользователем задаются требуемые значения следующих величин:
J — количество выдаваемых кадров речеподобного сигнал;
Т - длительность каждого кадра;
At - постоянная отсчёта сигнала во времени (шаг дискретизации);
s - пол “говорящего” (.v = “/и” — мужской; s ="f” -женский; л = “п ” - чередование полов);
v - отношение интенсивностей (отношение СКО) аддитивной помехи в виде гауссова шума и формируемого квазиречевого сигнала (<т„ /ос);
£i и е2 -минимальные допустимые отношения формантных частот (F2 /F, и F3 /Fi)\
qr - характер изменения r-го параметра в течение временного интервала Т (qr = "р ” - регулярный характер, qr = "с ” — случайный характер; г = 1, 8 );
дг - относительное изменение г-го параметра в течение временного интервала Т. Обычно задают дг е [0; 1 ]; при Зг = 0 значение г-го параметра остаётся неизменным; при дг * 0 значение параметра рг линейно изменяется от pr+rj-Sr рг12 до рг±т)-8Г ■ рг12, увеличение и уменьшение равновероятны и чередуются от реализации к реализации по случайному закону; при qr = “р ” величина г] равна 1, при qr = “с" величина rj равномерно распределена в диапазоне от 0 до 1;
М0 т, Он т, М0 а0, - математическое ожидание и дисперсия частоты основного тона для мужских голосов (помечены индексом т) и женских голосов (помечены индексом 0;
./о т mini.fi) т max ' ,/о f mint ./о f max I предельные ЗНЗЧСНИЯ ЧЗС-
tot основного тона;
Мц, ап, MF2, а/7, MFi, of} - математические ожидания и дисперсии частот трех основных формант;
^'\ mint ^'\ maxt ^'2 mint ^2 maxt F} mint ^*3 max ПреДеЛЬНЫе
значения частот этих формант.
wFl(f)
wF2(0
wF3(0
,0 001
1000
3000
1 1 A ■
wF0m(f) \ / ■
0 01 - / \ • - -
wF0f(f)
V \
X
J , к .
n 0 0 200 400
i
Рис. 1. Дифференциальные распределения центральных частот формант и частоты основного тона
В соответствии с гауссовской аппроксимацией (см. рис.1) реальных распределений упомянутых частот их математические ожидания, дисперсии и предельные значения целесообразно задавать следующим образом:
Мит = 140 Г<т„т = 25 Гч; М0г = 250 Гг/;
<т0 г = 32 Гч; Му | = 450 Гч; аг \ = 160 Лц;
МТ 2 = 1450 Гц\ <т,: 2 = 500 Гц\ Мг 3 = 2700 Гц\ оу з = 240 ГI/); /0 т т/л = 62 Гц\
Лттах - 250 Гг/; Уогтш= 125 Гц;/И „шх = 500 Лу;
тШ = 150 Гц\ тих = 900 ГЦ\
р2 тт = 500 Гг/; тах = 2800 Г!/;. = 1500 Гц\
Рз тах - 3400 Гч;
В соответствии со значениями перечисленных величин, задаваемых пользователем, оператор А( производит настройку работы генератора квазифонем А2. Принцип порождения кадров речеподобного сигнала основан на акустической теории речеобразования [3]. Законы и статистические характеристики, используемые порождающей частью алгоритма, соответствуют сведениям, содержащимся в [3 и 4].
Логическая схема составного оператора А2 имеет вид:
111)1 5 4
до, Р2гд<}., р4Г Р?Гд о, р,Г Р»Г<}, Д0,„ Єà 0,2 до,, Рм Г Р15Ь Р,«,Ь
Qr Pi»!-ДОи Р-цГДОл ДОи ДОн Р24Г QjsPj»!- ОгДР»!-О» ДО»
Я 21 * 10 II 13
Pji I Qk-IQm РмГ Qjf JQm J Qr i Рз»Г Q« Р41Г Q4: J Qi\ Р44Г PjjF
P1(.LQ,^Q„ РИГ Q„L ДО„и ДО<; PkiTL Дд«1------------IQ5? Р«ГДОэт ,
19 20 22 5 6 7 21 12 13 22 19
где операторы Р проверяют условия:
Рг: F\^<pi<F\mn. Ps: Pi >c\P\-
fr.F,mm<p,<F)mn. Р»: pi >tvp;. Рц:>’>0.5. P|4:r>6. Pi<:5= "m". Plt:j="f". Рц:>'>0,5. P»:/oi»,<P7</oi«„. P24: r>3. P:*:/> 3400. P;*: q, = "c". PM: v > 0,5. P«: r > 8. P»: r > 3. P4i: > 3400.
P«: r>8. P,f:n>N. Р»: v = 0. P«: n>N. Py: /om«.<P7</om«!. P«: n>N.
Остальные операторы выполняют следующие действия:
Qi: / = / + I; у = Q, р\ = Мп + ап у.
Q3: / = / + I; у = Сл Pi = -у.
Q6: / = /+ 1; у = С; р3 = Мю +aF3 у.
Q,: г = 4.
Qi«: }- = 0,0025 • (рг.} / 10)2 - 0,025 рг.3 +100;
i = i+1; ,у = £/.
Q,2: / = /+1; ,у = 6; pr = у (1 +у)12.
Q„: r = r+ 1. Qi7: / = / + 1; д' = с,.
Qi,: / = /+1; y = Ci', Pi = Kt + 0оГУ, 7 = 0.8.
Q21: To = 1 Ipr, />*= 1; * = 1.
<Ъ:/=* p7; Я* =10l°'576 ^ ^2+00422 ^ ^)4J;
r = 1.
q23: =n ki {[ i - (//pr )2]2+{f' Рг+з^ Pr )2}'2;
r = r + 1.
Q25: /' = /+ 1; _У = 6; v|/* = 2^ .y; * = * + 1. Q27:r= 1.
Q»:/ = /+l; у = it', dr = dr-y. QM: dr = dr-prlN\
/=■1+1; y = &.
Qn- dr = -dr. Q33: Vr= pr-dr-N/2-, r = r + 1.
QJ5: i/o = 0 ; и = 1.
Q,6: A: = 1 ; xn = 0. Q37:/ = к ■ V1;
^ = l0l°-576(/y ^)2+0.0422-(/r /y)4J. r= J
Q.«: ^ =w , | [ I _ (/ / )* ]2 + (/-K„,/»',2)2} IJ’
Qj»: x„=x„ + W • sin f 271 •/• n ■ At + i//k).
Q42: x„ = x„- Vs; u0- u0 + x„; n =n+ 1 ; r- 1.
Q43: K=Vr + dr; r = r+ 1.
Q47: Wo= UolN\ и = 0; /?= 1.
Q48: u = м + (дг„ - M0)2 ; n = и + 1.
Qso: м = Vm/N ; «= 1.
QM: / = /+1;,у = 6; pr = у• (2->>)/4.
Q52: I = I + \; У = Cl \ Pt = M0m + (Torn y; y= 1 .
Qs4: dr = Sr.
Q55: / = / + 1; ^ = Ct; = x„ + м • • v; /1 = и + 1.
Qs?: j =j+ 1.
При каждом обращении к составному оператору А2 происходит следующее. Операторы Q|...P8 определяют средние значения частот трёх формант Л. F2 и F3, операторы Q9...P14 и Q51 рассчитывают средние значения ширин трёх формант AF\, ДЛ и ДЛ, операторы P15...Q2|, Q52 и P5i задают среднее значение частоты основного тона fo для очередной реализации кадра речеподобного сигнала. Значения F\, Л, Л и f0, соответствующие параметрам р|, рт, и в алгоритме, определяются
посредством обращений к датчику случайных чисел с нормальным законом распределения (1 = 1+ 1 ;у = С), при этом соблюдаются рекомендованные ранее диапазоны средних значений всех перечисленных параметров и допустимые соотношения значений соседних формантных частот.
Значения AF|, AЛ и ДЛ, соответствующие параметрам р4, рь и рь в алгоритме, определяются посредством обращений к датчику случайных чисел с равномерным законом распределения (/ = / + 1 ;у = & ) в пределах эмпирически установленных границ, зависящих от значений выбранных формантных частот [2]. Дифференциальная функция распределения значений ширин формант описывается следующим выражением:
=
05j(AFrmed-AFrmh) 0 при
при
при
др . < < Др
гтп ~' г — гтеа
/SF ,< AF < /SF •
гтеа~~ / — гпиг>
где /- = 1,3 - номер форманты; граничные значения Д/> т,„ . ДЛГ тЫ и ДЛГ тах определяются по формуле:
№гр = *-(ОД25104-/? -01125КГ1 +50),
причём значения коэффициента к в процессе вычисления границ Дргт.п, АРгте(1 и АРгтах принимаются
соответственно равными 0,5, 1 и 2. Здесь символом med обозначено медианное значение параметра ДЛГ . Г рафик
функции уу „ представлен на рис. 2. Вышеприведённое
Аг ^
выражение для функции распределения построено в
Дгг
соответствии с данными, приведёнными в [5,6].
- л/-; )
"'Л^г 0.S/(AFrm,„ -AFrm„,)
о
dJ-'
AFr.
Ы-,,
Рис. 2. Дифференциальное распределение значений ширины /'-ой форманты
Совокупность значений Рг и АР, (г = 1,3) полностью
определяет огибающую мгновенного амплитудного спектра, а вместе со значением % и сам спектр амплитуд.
ад
■ ' - л
ку\ J V-/\ -- : . 1 V _ / / f
1000
2000
3000
S(f)
Рис. 3. Огибающие амплитудного спектра
В качестве примеров на рис. 3 представлены графики огибающих амплитудного спектра двух квазифонем, рассчитанные по формуле:
■ Л 0.576 • ( 0,0005 • / )2 + 0,0422 - ( 0,0005 • / )4
5(/) = —
*>
f-AFi
L-M г ^ L-Я гпиХу
в предположении, что значения использованных параметров не изменяются во времени на протяжении каждого кадра (при ^=500Гц\ ^,=1300Гц\ /г3=2900Гц\
Д/^ =95 Гц\ АГ2 = 200 Гц I Щ =150 Л* и при
воогц, =2000Г=3000Л/; д^, =100л;
ДЛ, = 200 Гц; ДГ3 = 300 Гц )■
Операторы 022--.Ргб рассчитывают амплитудный Ж*./о) и фазовый 1//(к •спектры очередного
кадра речеподобного сигнала. Амплитуды гармонических составляющих определяются, исходя из ранее рассчитанных средних значений формантных параметров и частоты основного тона. При определении начальных фаз происходит обращение (/ = / + 1; у = у/ к = 2л ■ у ) к датчику случайных чисел, равномерно
распределённых на интервале [0; 1]. В результате возникает эталон комплексного спектра очередного кадра. Такой спектр имитируют стационарный участок речевого сигнала.
Операторы 027-..Рл4 и 054 определяют динамику речевых параметров в пределах очередного кадра.
Операторы Оз5...Р45 порождают очередной кадр ква-зиречевого сигнала с изменяющимися во времени значениями структурных параметров. Правило порождения можно выразить так:
А' 100.576-(0.0005-*/0(0)2 + 0,0422-(0.0005-А ■ /о(/))4
If Г. , 2 t,
к-мп-ц,(/)]
{ [mij 1 fh') I
х sm(2x-k-f0(t)-t + yk) },
где сг0(/) - изменяющаяся во времени интенсивность речеподобного сигнала, у/к - начальная фаза
A-ой гармоники основного тона;
К = int[ Fmx //0(772)] - количество гармоник основного тона в используемом частотном диапазоне [0, /гтах]; обычно принимают Fmax = 3400 Гц\ длительность интервала Г обычно выбирают равной 10...20 мс.
Правила изменения во времени структурных речевых параметров могут задаваться любыми. Однако, учитывая медленность изменения этих параметров в естественной речи, в большинстве случаев можно ограничиваться линейным законом p(t) =р +/./, где Р е {Д Рп /SFr} - рассчитанные ранее значения стационарных параметров, p(t) G {a(t)9 fo(t)9f(t)9 ~ функции изменения
значений параметров в пределах кадра. Значение произведения / • / линейно изменяется от - L до L. Задаваемое максимальное значение L связано с максимальной скоростью изменения соответствующего параметра в естественной речи. Количество дискретных отсчётов в каждом кадре несложно подсчитать по формуле: N = int (77 Д/).
В качестве примеров на рис.4 приведено несколько синтезированных кадров. Первый и последний из них иллюстрируют случаи изменения огибающей интенсивности в начале и конце озвученного участка. Второй кадр соответствует стационарному участку речи, когда все структурные параметры являются постоянными величинами. Третий кадр отражает нестационарный участок при изменении во времени значений всех параметров.
Операторы Р46*■ *0?о, 055 и Р56 осуществляют зашум-ление реализации, если этого потребовал пользователь, задав при вводе 0 •
Оператор 057 соответствует оператору А5, т.е. осуществляет подготовку к генерированию следующего кадра.
Описанный алгоритм удобно использовать в исследовательской практике, так как он обеспечивает получение адекватных оценок качества выделения скрытых в естественной речи структурных параметров, используемых для передачи информации в вокодерах различных типов. Эксперименты, проводимые с разработанным алгоритмом генерации тестовых сигналов в разных режимах его работы, позволяют целенаправленно совершенствовать принципы выделения спектральных и мелодических параметров речи и освещают пути создания высокоэффективных адаптивных алгоритмов выделения структурных параметров из реального речевого сигнала в передающих частях и методов синтеза высококачественной речи в приемных частях вокодерных систем.
1. Пирогов А.А. Синтетическая телефония. - М.: Связьиздат, 1963, 119 с.
2. Соболев В.Н. Информационные технологии в синтетической телефонии. - М.:ИРИАС, 2007. - 360 с.
3. Фант Г. Акустическая теория речеобразования. - М.: Наука, 1964.-284 с.
4. Сапожков М. А. Речевой сигнал в кибернетике и связи. -М.: Связьиздат, 1963. - 451 с.
5. Фланаган Дж Анализ, синтез и восприятие речи. - М.: Связь, 1968. - 392 с.
6. Dunn Н.К. Methods of measuring vowel formant bandwidths. -J. Acoust. Soc. Amer., 1961, v.33, № 12, pp.1737-1746.
jo 11*1*
0 0 00) 0 01 0 015 0 03
Piic. 4. Кадры квазиречевого сигнала
Литература
Generating algoritm of speech-like signals
Sobolev V.N., MTUCI, Russia
Abstract.
The algorithm creating a chaotic sequence of test signals having speech-like structure is described. The algorithm is built in keeping with the acoustic speech building theory and is intended for evaluation of reliability and accuracy of functioning of the algorithms that are used for structural speech parameters extraction in vocoders The ascertained dependencies approximating differential distribution laws of central frequencies and widths of basic formants and also frequencies of natural speech fundamental tone are given. Being guided by these dependencies the described algorithm produces formant values and tune parameters, on the basis of which generated test signals are built. Each such a signal is accompanied by a list of the structural parameters values under which this signal was created by the generation algorithm. This provides adequacy of the tested algorithms further evaluation. Various operation modes of the generating algorithm are stipulated. Each of the eight structural parameters can change at time at a given velocity and change type. The examples of generated signals that illustrate three typical cases (constancy in time of all structural parameters values, test signal intensity variation, variation of all structural parameters values) are represented.
Keywords: generating algorithm, test signals, vocoders, evaluation, structural parameters, distribution laws, formants, fundamental tone.