Научная статья на тему 'Алгоритм генерации тестовых сигналов с речеподобными статистическими свойствами'

Алгоритм генерации тестовых сигналов с речеподобными статистическими свойствами Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
109
56
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Соболев В. Н., Люленков Н. А.

Описан алгоритм, порождающий хаотическую последовательность сигналов с речеподобной структурой. Он построен в соответствии с акустической теорией речеобразования и предназначен для оценивания надежности и точности алгоритмов выделения структурных параметров речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритм генерации тестовых сигналов с речеподобными статистическими свойствами»

16 декабря 2011 r. 18:12

Т-Сотт #10-2010_________________________________(Технологии информационного общества)

Алгоритм генерации тестовых сигналов с речеподобными статистическими свойствами

Описан и чгорит \/, порождающий хаотическую последовательность сигналов с речеподобной структурой. Он построен в соответствии с акустической теорией речеобразования и предназначен дли оценивания надежности и точности алгоритмов выделения структурных параметров речи.

Соболев В.П.. Люленков Н.А.

Современные вокодерные системы нс обеспечивают достаточно высокого качества передачи речи, что сдерживает их внедрение в практику коммерческой телефонии.

11омимо обычных искажений, вносимых линией передачи (внешние помехи, потери отдельных пакетов и т.д.), имеют место специфические искажения, присущие только вокодерным устройствам (в частности частотнодеформационные искажения). Они возникают как в анализирующей. так и в синтезирующей части системы из-за несовершенства алгоритмов функционирования отдельных блоков вокодера.

В синтезирующей части искажения могут быть вызваны, папример, неточностью работы спектрального анализатора. погрешностями при выделении формантных параметров. неточностью расчета коэффициентов линейного предсказания, погрешностями и сбоями, возникающими в выделителе основного тона и дискриминаторе тон-шум-пауза.. Для устранения пагубного влияния указанных факторов следует прежде всего локализовать их проявление, то есть выделить тс блоки, в которых возникают соответствующие погрешности и сбои, а также получить их количественные оценки. Приняв в качестве целевой функции минимум количественных оценок погрешностей и сбоев, можно усовершенствовать алгоритмы функционирования отдельных блоков вокодера.

Оценивание погрешностей и сбоев на простейших испытательных сигналах неэффективно вследствие их неадекватности структуре речевого сигнала. Для достижения указанных целей авторами разработан специальный программный продукт, являющийся по существу датчиком квазифонсм [11, учитывающим специфическую структуру речи. Он генерирует хаотическую последовательность отдельных кадров речеподобного сигнала Каждый такой кадр сопровождается перечнем тех априорных значений структурных параметров, по которым он был построен алгоритмом генерации. По результатам сравнения значений параметров, выделяемых испытуемым алгоритмом из генерируемых датчиком речеподобных сигналов, с априорными значениями соответствующих параметров, можно с достаточной достоверностью судить о точности работы испытуемого алгоритма на естественной речи. Процесс испытания алгоритмов выде-

ления структурных параметров речи описывается так: А „ Oi J О: 0> Qj О5 О». Р-L Os Ц>. где А „ и Ц, - начало и конец вычислительного процесса, оператор Р- проверяет условие превышения заданного объема выборки тестовых кадров, остальные операторы выполняют следующие действия:

Oi - ввод управляющей информации и исходных данных. содержащих сведения о законах распределения структурных параметров естественной речи;

О; - расчет совокупности априорных значений структурных параметров для очередного генерируемого кадра;

О, - порождение очередного кадра;

О) - испытуемый алгоритм выделения речевых параметров;

О? - сравнение выделенных параметров с их априорными значениями;

Or. подготовка к генерированию следующего кадра:

О* - статистическая обработка погрешностей выделения параметров.

Очередная совокупность значений структурных параметров, вырабатываемых оператором Q j содержит значения частот и ширин трех основных формант (I] и

ДFr / = 1,3) и значение частоты основного тона (уо). Частота основного тона и частоты формант задаются в соответствии с нормальными законами распределения (см. рис. 1) с учетом известных для каждого параметра величин математического ожидания М и дисперсии с (М ,от “ 140 Гц; <т „ = 25 Гц: XI г = 250 Гц: af„ , “ 32 Гц; М F , = 450 1ц: а г , = 160 Гц: М,: = 1450 Гц; п | : 500 Гц: М г j 2700 Гц: п F j 24(1 Гц ), а также с

учетом известных областей значений упомянутых параметров (/0яе [62; 250] Гц: А | € 1125 : 500] Гц;

h]e [150; 900] Гц; е 1500; 2800) Гц;. е [1500: 3400] Гч, здесь и далее буквой m обозначена принадлежность к мужским голосам, буквой f - принадлежность к женским голосам). Кроме того, при выборе частот формант соблюдается их старшинство и задаваемые пользователем значения допустимой максимальной близости £ (/г, >егГ{ и (Fy >e2 'F2>•

114

Т-Сотт #10-2010

[Технологии информационного общества)

чгГЭДО

----- 0

МгГО(0

1

1 ІГ

.. . V

0 200 і і

Рис. 1. Дифференциальные раепрелеления центральных частот формант и частоты основного тона

Значения ширин формант задаются в соответствии с равномерными иконами раепрелеления в пределах эмпирически установленных границ, зависящих от значений выбранных формантных частот [2]. Дифференциальное распределение выбираемых значений ширин формант описывается следующим выражением:

0,5/(Д/^-Д/^>

0 при

где граничные значения др. п леляются по формуле:

при ДГ, 5

при \Г, тч1 < Д/\ < Д/'

г^,<АГ1Ыщ; аг, > иг1таг.

д/7і

, и ДА'. опрс-

і пЫ і тих 1

к (0,125 10 4 Г; - 0,125 10 Г, + 50 )•

Я/) =

10'

,0.57<> (0.0005 1 Г +0.0422 < 0.0005 I >

/дг,

р?

п

н «/л(2л -А •/„(/)•/н у і

где а„(/) - изменяющаяся во времени интенсивность речеподобного сигнала, ц ( -начальная фаза А-ой гармоники основного тона. Правила изменения во времени структурных речевых параметров могут задаваться любыми. Однако, учитывая медленность изменения этих параметров в естественной речи, в большинстве случаев можно ограничиваться линейным законом /А.1) =Р Ч К ■ /, где Ре ! А, /„, /;, 4/у г - значения параметров. выдаваемые оператором 0... />(/)€ !а(/), ./„(/),./)(/). Д/у(01 - функции измс-нения значений параметров в пределах кадра, / = 1,3* Значение углового коэффициента К равномерно распределено па интервале |-К .К ]; значение К определяется максимальной скоростью изменения соответствующего параметра в естественной речи.

Причем значения коэффициента А в процессе вычисления границ д г/я4,. АГ,„т1 и АГ,тах принимаются соответственно равными 0,5. 1 и 2.

В качестве примеров на рис. 2 представлены реализации огибающих амплитудного спектра двух квазифонем, рассчитанные по формуле

в предположении, что значения использованных параметров не изменяются во времени на протяжении каждого кадра ( при Г, =500 Гц- Р2 = 1300 Гц: Р:, = 2900 Гц : ЛГ, = 45 Гц ■ ДГ; = 200 Гц : ЛГ} = 150 Гц и при /•'|=600Л/: Р2 =2000 Гц. Г} =3000 Гц:

Д^, = 100Гц- М-\ = 200 Гц '■ АТ) = 100 Гц)- Последовательности таких кадров имитируют лишь стационарные участки естественного речевого сигнала.

Оператор О-, порождает очередной кадр квазиречево-го сигнала с изменяющимися во времени структурными речевыми параметрами Правило порождения можно выразить так:

к |п"-'7'' •"■“•К 1 '<|(')г -<М«22 КМИН 4 /М'М1 //(/) = <;(/) £

«О

Рис. 2. Огибающие амплитудного спектра

В качестве примеров на рис. 3 приведено несколько синтезированных кадров. Первый и последний из них иллюстрируют случаи изменения огибающей интенсивности в началах и концах озвученных участков. Второй кадр соответствует стационарным участкам речи, когда все структурные параметры являются постоянными величинами. Гретин кадр отражает нестационарный участок при изменении во времени значений всех параметров.

Управляющая информация, вводимая пользователем па начальном этапе работы посредством оператора О |. предназначена для установления того или иного режима функционирования порождающей части алгоритма.

115

i Надоели баннеры? Вы всегда можете отключить рекламу.