Научная статья на тему 'Статистический синтез алгоритмов оценивания периода основного тона речевых сигналов'

Статистический синтез алгоритмов оценивания периода основного тона речевых сигналов Текст научной статьи по специальности «Математика»

CC BY
179
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Омельченко Анатолий Васильевич, Пресняков Андрей Игоревич

Разрабатывается математическая модель речевого сигнала в виде процесса авторегрессии с нестационарным порождающим процессом и на ее основе выполняется синтез алгоритмов оценивания периода основного тона речи, учитывающих динамику его изменения. Для синтезированного алгоритма исследуются свойства оценок периода основного тона.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistics synthesis of algoritms that evaluate the period of the main tone of the voise signals

The model of the vo!se signal has been elaborated (worked out) as the process of the autoregresskn whh unstatistically caused process. Also the synthes!s of the algorithms that evaluate the period of the mam tone has been done. These algorithms contam (have) two mam stages (bases): 1) evaluation of the moments when the mpulse of the vo!se exchement arise advent. 2) Kalman’s filtration of the period of the mam tone of speech.

Текст научной работы на тему «Статистический синтез алгоритмов оценивания периода основного тона речевых сигналов»

ТЕЛЕКОММУНИКАЦИИ

УДК 519. 712. 3

СТАТИСТИЧЕСКИЙ СИНТЕЗ АЛГОРИТМОВ ОЦЕНИВАНИЯ ПЕРИОДА ОСНОВНОГО ТОНА РЕЧЕВЫХ СИГНАЛОВ

ОМЕЛЬЧЕНКО А. В., ПРЕСНЯКОВ А. И.

Разрабатывается математическая модель речевого сигнала в виде процесса авторегрессии с нестационарным порождающим процессом и на ее основе выполняется синтез алгоритмов оценивания периода основного тона речи, учитывающих динамику его изменения. Для синтезированного алгоритма исследуются свойства оценок периода основного тона.

Одной из основных задач обработки речи является оценивание частоты основного тона (ОТ). Существует много алгоритмов оценивания частоты (периода) ОТ, каждый из которых обладает определенными достоинствами и недостатками [1—3]. Несмотря на большое количество работ по данной проблеме, отыскание эффективных ее решений является актуальной задачей.

Настоящая статья посвящена статистическому синтезу алгоритмов оценивания периода ОТ речевых сигналов. Задача решается в два этапа: на первом этапе синтезируются алгоритмы оценивания моментов возникновения голосовых импульсов, а на втором — алгоритмы калмановской фильтрации периода ОТ. 1. Модель речевого сигнала

В большинстве алгоритмов оценивания периода ОТ используется свойство периодичности вокализованных участков речи на коротких временных интервалах длительностью T<0,02c. При обработке речевых сигналов широко используются алгоритмы оценивания периода ОТ по автокорреляционной функции сигналов [1]. Недостатком автокорреляционного алгоритма, а также большинства других известных алгоритмов является наличие аномальных ошибок оценивания, обусловленных особенностями “тонкой структуры” речевых сигналов и изменением периода ОТ на интервале анализа.

Цель настоящей работы — разработка алгоритмов оценивания периода ОТ, которые учитывали бы динамику его изменения (мелодику речи).

В основе большинства методов обработки речи лежит модель речеобразующей системы в виде совокупности генератора возбуждения и голосового тракта, которые рассматриваются независимо друг от друга. Генератор формирует возбуждающий сигнал либо в виде последовательности импульсов для вокализованных звуков, либо в форме шумоподобного процесса для невокализованных звуков. Голо-

совой тракт рассматривается как линейная динамическая система. Его передаточная функция характеризуется резонансными (формантными) частотами. Для формирования звуков основную роль играют первые три форманты, которые лежат в диапазоне от 200 до 4000 Гц. В процессе речи все формантные частоты непрерывно изменяются в соответствии с особеностями произносимых звуков.

Опишем математическую модель речевых сигналов, выбранную для решения задачи оценивания периода ОТ речи.

Будем полагать, что речевой сигнал дискретизирован в соответствии с теоремой Котельникова и представлен своими отсчетами, взятыми с интервалом At. Рассматривая речевой тракт как линейный фильтр, запишем сигнал на его выходе в виде стохастического уравнения [1]

p

х(Д = Za kx(7 - k) + ц(4 t = 0,1,2,..., (1)

k=1

где u( — сигнал возбуждения; a k, k = 1, p — коэффициенты фильтра.

Следуя работе [3], на интервалах вокализованной

речи возбуждающий сигнал u(£) будем рассматривать как нестационарный гауссовский белый шум с нулевым средним и дисперсией, изменяющейся по закону

= Е а2( ДЕ-т і) +ст 2

£ = 0,1,2,•••, (2)

і

здесь ст 2 — постоянная величина; a2(t) — функция времени, задающая изменение дисперсии возбуждения на периоде ОТ. Моменты возникновения им-

пульсов возбуждения Г. опишем уравнением

т . = т . + Т + Tc

і і-1 0 с ■

(3)

где То — среднее значение периода ОТ; Тс, — случайная составляющая периода ОТ.

Выполненное исследование речевых сигналов показало, что для функции возбуждения а(Ц в (2) может быть использована следующая аппроксимация:

КО =

A0exp|- У

если t > 0;

0, если t < 0.

(4)

Совокупность выражений (1) -( 4) задает принятую в данной работе математическую модель речевого сигнала. В частном случае, когда в (3) случайная составляющая периода ОТ равна 0 (с вероятностью 1),

сигнал X 4 будет принадлежать классу периодически коррелированных случайных процессов [3, 6].

2.Синтез алгоритма оценивания моментов возникновения импульсов голосового возбуждения

Сформулируем задачу оценивания моментов возникновения импульсов голосового возбуждения. Будем полагать, что наблюдаются отсчеты речево-

го сигнала х(7), I = 0, N -1, взятые с интервалом

дискретизации At, и для последовательности отсчетов сигнала X 4 справедлива модель, задаваемая выражениями (1), (2). Будем также считать, что все параметры в выражениях (1),(2) априори известны,

22

РИ, 1999, № 1

за исключением моментов возникновения импульсов ГОЛОСОВОГО возбуждения X i , i = 1, k . Импуль-

сы возбуждения будем считать неизвестными величинами, удовлетворяющими условиям

Xi = ViAt; Vi -Vi_ 1 > Lm; vi є{0,1,...,N-l} , (5) где натуральное число Lm>>to/At.

Необходимо по наблюдаемой последовательности отсчетов речевого сигнала оценить количество импульсов голосового возбуждения к и моменты их

возникновения {г i = v i At, i = 1,kj.

Сформулированная задача относится к классу задач разрешения [4] и состоит в определении числа компонент сигнала в смеси с одновременным оцениванием их параметров.

Для решения поставленной задачи воспользуемся методом максимального правдоподобия (МП). В работе [4] показано, что алгоритм МП разрешения сигналов имеет вид

{iv1,..„vк )= argmax [4x/v1,...,vk^ , (6)

[k,v 1 ,---,vk)

где ^ x/v1’"',v^ — логарифм функции отношения правдоподобия наблюдаемой последовательности отсчетов сигнала; x = (x( 0,..., -1) — вектор вре-

менных отсчетов сигнала.

Несложно показать, что для выбранной модели речевых сигналов (1), (2) логарифм функции отношения правдоподобия с точностью до несущественных слагаемых равен

4x/v1-...-v к J=

1 N -1

=- Е

2

і = p

С2 (/)

с 2( /)

k

Еa2( (£-Vi)At ) + ст2 i = 1

1 N -1 + 2 2

ln ст 2 - ln Е a2((£-vi)At) +ст2

-i = 1 _І_

(7)

где

p ______

С(X = XX “ 2 а sX1 ~ s), 1 = P,N -1 (8)

s = 1

сигнал на выходе обеляющего фильтра.

В выражениях (7), (8) использованы обозначения,

введенные в разделе 1: а2( Mt) — отсчеты функции,

задающей изменение дисперсии на периоде ОТ; ст2— постоянная составляющая дисперсии ОТ в выражении (2).

Учитывая условие (5), приводим выражение (7) к

виду

X X/V1,. 1 k .>vk) = 2 2 ‘ 2 i = 1

где a2 (Mt)

V • ^ L

i Е m С2Mb(7 -у)-o2d

= v

b X =

2 (ш)+ct 2

0 < £ < L

m

(9)

(10)

£ > L

m

2

Lm d = E ln

£ = 0

1 +

a2( I At)

(11)

Подставив выражение (9) в алгоритм (6), получим следующую модификацию алгоритма МП:

I k,V\,...,Vк )= argmax \ Е Slv,- И

У.....vt )Ь = 1 1

где решающая функция

(12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

S(v) = 2 mz2b)b(^-v)-CT2d, v = p,N-1, (13)

£ = v

а максимум в (12) ищется среди совокупности

V !,...,Vк , удовлетворяющей условию |v;- - Vj I > Lm. Поиск максимума в (12) может быть выполнен методами целочисленного программирования.

Для уменьшения вычислительных затрат вместо алгоритма МП (12) можно использовать следующий итеративный алгоритм:

vi = argmax<! ЕS{vt)\, і = 1,2>..> (14)

Vi Є Ri [і = 1 J V 7

здесь функция S(X определяется согласно (13);

R0 ={v S^>°;Ri = Ri+1\{vi_1,...,vi_1 + Lm} .(15)

Итерации прекращаются, если R; = 0, где 0 — пустое множество.

Таким образом, синтезированный алгоритм оценивания моментов возникновения импульсов гортанного возбуждения включает шаги: обеление речевого сигнала в соответствии с выражением (8); вычисление значений решающей функции согласно (13); нахождение оценок моментов возникновения импульсов голосового возбуждения и их общего количества в соответствии с итеративной процедурой (14),(15).

Для экспоненциальной модели изменения дисперсии возбуждающего сигнала (4) найдем аналитическое выражение для временного окна b( £) в алгоритме разрешения (12), (13). Используя (4) в выражении (10), получаем

Ь( £) =

1 + q 1 exp

( у

2Ш/

\ / о)

1

0 < 7 < Lm; m ’

(16)

0, £ > L I m

где q = A02/a2 — коэффициент, характеризующий изменение мощности речевого сигнала на периоде ОТ.

Форма функций b( £) для случая t0 = 10At показана на рис.1. Здесь значение параметра q приведено над каждым из графиков.

3. Синтез алгоритма фильтрации периода основного тона

Алгоритм разрешения импульсных сигналов (14),(15) позволяет по реализации смеси речевого сигнала и помехи найти оценки максимального правдоподобия моментов возникновения импульсов гортанного возбуждения:

W

,Xk J, где у = у At, i = 1,1s..

РИ, 1999, № 1

23

Рис. 1. Форма функций временного окна

Для оценивания текущего значения периода ОТ, которое мы определим как Tj = tj - Ц _ можно воспользоваться алгоритмом [3]

Ti = тj-ті_і, i = 2,h . (17)

В алгоритме (17) информация о динамике оцениваемого параметра не используется. Для устранения этого недостатка введем дополнительные предположения, отражающие свойства речевых сигналов.

1. На временных интервалах длительностью Тс<0,02с (участках квазистационарности) будем полагать, что период ОТ неизменен.

2. От одного участка квазистационарности к другому текущее значение периода ОТ изменяется по закону

Tj = T0 + % j = 1,2,■■■, (18)

где Т0 — среднее значение периода ОТ;

Tcj = PTcj -1 + noj, j = І,2,- (19)

— процесс авторегрессии, описывающий изменение случайной составляющей периода ОТ; р — коэффициент авторегрессии; n — порождающий процесс

2

в виде гауссовского белого шума с дисперсией ст ^ .

Предположение 1 позволяет весь интервал наблюдения разбить на участки квазистационарности, состоящие из L=[Tc/At] временных отсчетов, где [x]— целая часть числа хє R. Каждому из таких участков квазистационарности поставим в соответствие оценку периода основного тона:

max v j - min vj

Vj eZj Vj eZj

-1

At, j = 1,2,..., (20)

где Zj ={L(j-1)+1,...,Lj} — множество отсчетов j - го интервала квазистационарности; k j — количество

моментов возникновения импульсов, найденных согласно (14), (15) и принимающих значения из

множества z .

Сформулируем постановку задачи фильтрации последовательности оценок частоты основного тона, найденных согласно (14),(15),(20), с учетом динамики изменения периода ОТ.

Будем полагать, что наблюдается последовательность оценок частоты ОТ:

Tj = hjTcj + T0 + nj, (21)

где Tc j — истинное значение случайной составляющей ОТ на j-м временном интервале; nj — погрешность оценивания частоты ОТ, имеющая нормальный закон распределения с нулевым средним и дисперсией ст2;

hj И 0,1} —известная функция временного параметра j, принимающая нулевые значения на участках молчания, а также участках невокализованной речи.

Выражение (21) задает уравнение наблюдения и может быть представлено в следующем виде:

Tj - T0 = hjTcj + nj, j = 12,- (22)

Уравнение состояния описывается процессом авторегрессии (19).

Необходимо синтезировать алгоритм калмановс-кой фильтрации периода ОТ, оптимальный по критерию максимума апостериорной вероятности.

Применяя известную методику синтеза калма-новских фильтров [5] к уравнениям (19) и (22), получаем алгоритм фильтрации периода ОТ:

Tc ; =PT,

cj -1 + hj

Г Rj ї

Rj =

Vct 2 J

1

Tj T0 PTcj _ 1), (23)

1-1

h

P 2Rj-1 + °,

(24)

с начальными условиями

ст 2

Tc0 = 0, R0 = ^\- (25)

1 -р 2

Уравнения (23), (24) задают рекуррентную процедуру вычисления оценок случайной составляющей

периода ОТ Tc j и ее апостериорной дисперсии Rj, j=1,2,...,. Полное значение оценки периода ОТ равно

Tn j = Tcj + T0 j = 1,2,*, (26)

В уравнении наблюдения (21) не отражены отличия статистических характеристик оценок Tj при

hj = 0, т.е. для интервалов молчания или невокализованной речи, от характеристик на интервалах вокализованного возбуждения при hj = 1. Однако такое отличие несущественно, поскольку синтезированный в рамках принятых допущений алгоритм фильтрации (23), (24) учитывает значения оценок периода ОТ лишь на участках вокализованной речи.

Фильтр (23), (24) является нестационарным с изменяющейся во времени апостериорной дисперсией Rj. Если в течение длительного промежутка

времени hj = 0, то Rj ^ R0, если же в течение

длительного времени hj = 1, то R ^ R , где R~ —

j ж

апостериорная дисперсия оценок для стационарного фильтра, удовлетворяющая уравнению 1 _ 1 1

R” Р2Rда+о 02 ст2 (27)

Очевидно, что R да < R 0 * В нестационарном фильтре (23), (24) R ^ ^ Rj ^ R 0 , причем Rj > Rj-1 при hj = 0 и Rj <Rj-1 при hj = 1.

24

РИ, 1999, № 1

Динамика изменения апостериорнойдисперсии оценок периода основного тона согласно уравнению (24) показана на рис. 2—4. На этих рисунках по оси абцисс отложен номер участка квазистационарности речевого сигнала j, а по оси ординат — квадратный корень из

апостериорной дисперсии оценок периода ОТ

При этом продолжительностьучасткаквазистационарно-сти была принята равной 20 мс, а параметр уравнения наблюдения (21) hj изменялся следующим образом: на

интервале вокализованной речи hj = 1 (при j = 1,20) и на

интервале невокализованной речи hj = 0 (при j = 21,40).

Во всех случаях полагалось, что д/Rq = 0,6 мс.

На рис. 2-4 отображены графики зависимости

j - 0,40 для различных значений параметра

ст = стДjR 0 : ст' = 1 (рис.2); о = 0,5 (рис.3); о = 0,25 (рис. 4), где ст — среднеквадратическая погрешность оценок периода ОТ на входе фильтра. На рис. 2-4 зависимость 1 соответствует значению параметра Р=0,01; 2 - р=0,9; 3 - р=0,95; 4 - р=0,98.

Из анализа графиков, представленных на рис. 2-4, следует, что выигрыш в точности оценивания периода ОТ, получаемый в результате использования фильтра (23), (24), возрастает с увеличением параметра р и

отношения ст /^/RQ .При высокой точности предварительных оценок периода ОТ о < 0,25^R Q применение алгоритма калмановской фильтрации (23), (24) не дает ощутимого выигрыша в точности оценивания и может быть полезно лишь для интерполяции значений периода ОТ между участками вокализованной речи.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, в настоящей работе предложена модель речевого сигнала в виде процесса авторегрес -сии с нестационарным порождающим процессом и на ее основе выполнен статистический синтез алгоритма оценивания периода ОТ, учитывающего динамику изменения периода голосовых импульсов. Синтезированный алгоритм оценивания периода ОТ состоит в последовательном применении алгоритма оценивания моментов возникновения импульсов голосового возбуждения (14), (15) и калмановской фильтрации периода ОТ в соответствии с выражениями (20), (23), (24). Использование такого алгоритма для решения задач верификации дикторов показало его высокую эффективность [7].

Рис. 2. Динамика изменения апостериорной дисперсии оценок периода ОТ для случая Q ‘ =1

Рис. 3. Динамика изменения апостериорной дисперсии оценок периода ОТ для случая Q ‘ = 0,5

Рис.4. Динамика изменения апостериорной дисперсии оценок периода ОТ для случая Q ‘ = 0,25

Литература. 1. Рабинер Л. Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. М. В. Назарова и Ю. Н. Прохорова. М.: Радио и связь, 1981.496 с. 2. Методы автоматического распознавания речи: В двух книгах: Пер. с англ. /Под ред. У. Ли. М.: Мир, 1983. Кн. 1. 328с. 3. Андре-Обрехт Р. Сегментация речевых сигналов в реальныом времени без предварительного распознавания. В кн. “Обнаружение изменения свойств сигналов и динамических систем”: Пер. с англ./ Под ред. М. Бассвиль, А. Баквениста. М.: Мир, 1989. 226-251 с. 4. Трифонов А П, Шинаков Ю. С. Совместное различение сигналов и оценка их параметров на фоне помех. М.: Радио и связь, 1986. 264 с. 5. Тихонов В. И. Оптимальный прием сигналов. М.: Радио и связь, 1983. 320 с. 6. Драган Я. П, Приймак Н. В. Линейные периодически коррелированные случайные процессы. Львов: Изд. ФМИ, 1986. 30 с. 7. Омельченко А. В., Пресняков А И. Алгоритмы верификации дикторов для дистанционного обучения// Зб. наукових праць. Використання комп’ютерних технологій у навчальному процесі ХТУРЕ, Харків, 1998. С. 41-45.

Поступила в редколлегию 23.03.99 Рецензент: д-р техн. наук Руденко О. Г.

Омельченко Анатолий Васильевич, канд. техн. наук, доцент кафедры ПОС ХТУРЭ. Научные интересы: методы обработки сигналов и распознавание образов. Адрес: Украина, 310115, Харьков, ул. 17 Партсъезда, 8, кв. 33, тел. 40-94-29.

Пресняков Андрей Игоревич, ассистент кафедры ПОС ХТУРЭ. Адрес: Украина, 310202, Харьков, пр. Победы 54-б, кв. 44, тел. 40-94-29.

РИ, 1999, № 1

25

i Надоели баннеры? Вы всегда можете отключить рекламу.