Научная статья на тему 'Алгоритмы сегментации речевого сигнала на фоне коррелированной помехи'

Алгоритмы сегментации речевого сигнала на фоне коррелированной помехи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
77
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТАЦИЯ РЕЧИ / МОДЕЛЬ АВТОРЕГРЕССИИ СКОЛЬЗЯЩЕГО-СРЕДНЕГО / МОМЕНТНЫЕ ФУНКЦИИ / ФОРМАНТИ / ФОНЕМЫ / КОРРЕЛИРОВАННЫЕ ПОМЕХИ / SPEECH SEGMENTATION / SLIDING-AVERAGE AUTOREGRESSIVE MODEL / MOMENT FUNCTIONS / FORMANTS / PHONEMES / CORRELATED NOISE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Омельченко С. В.

В статье рассмотрены алгоритмы сегментации на основе оценок формант и антиформант. Получен алгоритм сегментации речи с использованием моментных функцій третего и четвертого порядка. Предложено с целью подавления коррелированных помех использовать цифровую фильтрацию на основе модели авторегрессии скользящего-среднего. Получены оценки дисперсии оценивания временных границ слов для ряда предложенных алгоритмов сегментации речи

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Algorithms of segmentation of speech signal on the correlated noise background

Algorithms of segmentation based on formant and antiformant assessments are considered in the article. An algorithm for speech segmentation using momentary functions of third and fourth order is obtained. It is proposed to use digital filtering based on the sliding-average autoregressive model to suppress correlated noise. Estimates of variance in estimating the time boundaries of words for a number of proposed speech segmentation algorithms are obtained

Текст научной работы на тему «Алгоритмы сегментации речевого сигнала на фоне коррелированной помехи»

УДК 621.391

Б01: 10.15587/2313-8416.2018.129703

АЛГОРИТМЫ СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА НА ФОНЕ КОРРЕЛИРОВАННОЙ ПОМЕХИ

© С. В. Омельченко

В статье рассмотрены алгоритмы сегментации на основе оценок формант и антиформант. Получен алгоритм сегментации речи с использованием моментных функцш третего и четвертого порядка. Предложено с целью подавления коррелированных помех использовать цифровую фильтрацию на основе модели авторегрессии скользящего-среднего. Получены оценки дисперсии оценивания временных границ слов для ряда предложенных алгоритмов сегментации речи

Ключевые слова: сегментация речи, модель авторегрессии скользящего-среднего, моментные функции, форманти, фонемы, коррелированные помехи

1. Введение

Под сегментацией речи обычно понимают расчленение речевого потока на некоторые элементы - фонемы, слоги, слова (при распознавании слитной речи), как правило, связанные с фонетическим представлением речевых сообщений. Существующие методы автоматической сегментации речи плохо защешены от воздействия помех и плохо адоптируютя к измениниям окружающей обстановки. Поэтому задача поиска помехоустойчивых методов сегментации является актуальной задачей.

2. Литературный обзор

Для создания алгоритмов распознавания речи, устойчивых к действию помех, необходима высокая точность оценок временных границ сегментов речи в условиях действия помех. В качестве информативных параметров, используемых для сегментации, могут быть различные характеристики речевых сигналов. К ним относятся частота основного тона [1, 2] формантные частоты [2], признак вокализованности [2], мощность сигнала в разных полосах частот сигнала [2], длительности произносимых фонем [1, 2] сегментация по корреляции между равноотстоящими спектрами [2-4]. Однако необходимы дальнейшее исследования алгоритмов сегментации речи устойчивых к действию коррелированных помех.

3. Цель и задачи исследования

Цель исследования - разработка алгоритмов сегментации речи устойчивых к действию помех в канале святи.

Для достижения цели были поставлены следующие задачи:

1. Рассмотреть возможность подавления коррелированных помех.

2. Розработать методы сегментации речи, которые являются устойчивыми к действию помех, характерных для речевого канала и телефонных каналов связи.

3. Провести эксперементальные исследования разработанных алгоритмов.

4. Материалы и методы исследования

Рассмотрим математическую постановку задачи сегментации речи и основные особенности её решения.

Априорная информация в виде эталонов сигнала, необходимая для алгоритмов распознавания, задаётся в виде классифицированных обучающих выборок в паузах между словами для каждого из дикторов. Считается, что время появления слова в слитном речевом сигнале априори неизвестно и заданы ограничения на длительность пауз между слогами слов.

Качество К алгоритма л- будем оценивать величиной дисперсии D(s) оценки временного положения сегментов при отсутствии внешней аддитивной помехи и устойчивостью к (я) алгоритма s к воздействию аддитивной помехи

K(s) = (D(s),kycm(s)).

(1)

Под показателем устойчивости к (я) понимается дисперсия оценки временного положения сегментов при воздействии аддитивной помехи в канале с заданным отношением сигнал-шум [1, 2].

Необходимо построить оптимальный алгоритм определения по реализациям речи моментов времени начала и конца слов, который обеспечивает максимум целевой функции в классе робастных алгоритмов.

5. Предварительная обработка речевого сигнала

Рассмотрим предварительную обработку речевого сигнала цифровым фильтром, построенным на основе модели авторегрессии скользящего-среднего (АРСС) [5]. Такой фильтр необходим для исключения коррелированных помех из сигнала и выравнивания АЧХ распознаваемых сигналов [6-11]. Полагается, что априори известен интервал времени, в течении которого отсутствует речь (пауза). Такой интервал времени используется для оценивания АРСС-параметров фильтра предварительной обработки.

Для оценивания АРСС- параметров, как правило, применяются процедуры раздельного оценива-

ния параметров авторегрессии (АР) и параметров скользящего-среднего (СС) [5]. Сначала оцениваются АР-параметры, а затем их оценки используют для построения обратного фильтра, который будет применен к исходным данным. Последовательность остаточных ошибок на выходе этого фильтра должна характеризовать процесс скользящего среднего, к которому будет применена процедура оценивания СС-параметров.

Раздельное оценивание АР- параметров в условиях действия белого шума приводит к ухудшению качества спектральных оценок параметров выбеливающего фильтра (смещается, и расширятся полоса фильтра). Экспериментально показано, что точность АР-параметров можно повысить за счет коррекции корреляционной функции с учетом уровня белого шума.

Модель АР описывается разностным уравнением

n = £ aun<-и +4,,

(2)

где ац - коэффициенты АР; р - порядок модели АР; - некоррелированные ошибки предсказания.

Минимизируя дискретную ошибку предсказания по параметру ац, приходим к уравнению Юла -Уокера:

[г ] • a = i

(3)

где матрицы и векторы, входящие в уравнение, имеют вид:

[г] =

1

p-1

Р-2

1

" Г1" a

_ Г2 _ a2

, Г = , a =

r a

_ Р _ _ p _

где Я* - корреляционная функция сигнала при отсутствии шума; В" - дисперсия белого шума; б(у) -дельта-функция Дирака.

Поэтому корреляционная функция узкополосной помехи в паузе корректируется с учетом уровня белого шума

R = R -D S(j),

nyj yj п V /5

(6)

где S(j) =

1, где j = 0

[0, где j * 0

Приближенные оценки дисперсии белого шума В вычисляются по спектральным оценкам шума в паузе £ (/) в виде

в = ш1п(в, в ,•••, в),

1 Ь2 уд

где В1 =- У У (£>(1) ->(/)) -

у Д-(£2 + 1 -¿1) ,Уд+1(

оценки дисперсии шума, построенные в ьй полосе частот.

Вектор оценок коэффициентов АР находится из выражения

;=[г ]

a = I г I • г.

(7)

Алгоритм оценивания ошибки предсказания описывается выражением

У, = х, -£anx,-и ,

(8)

где аи - оценки коэффициентов АР.

Оценка нормированной корреляционной функции ошибки предсказания сигнала в паузе

Корреляционная матрица представлена компонентами г = Я / Я, где

1 L2 T - j

R =_1_у у^) .(v))

nj (T + 1 - j). (L2 +1 - L1) £ £ ( '+j ' )

V-Ы 1=0

- оценка корреляционной функции сигнала в паузе, v-номер выборки.

Процедура оценивания дисперсии аддитивного белого шума затруднена наличием узкополосной помехи.

При наличии аддитивного белого шума и узкополосной помехи (будем считать их статистически независимыми) сигнал в паузе описывается выражением

У, = X/ + "г, с корреляционной функцией Яу/ = Яу + Вп -8(у),

(4)

(5)

1

L2 T-j

к =_

yj "(T +1 - j )• (L2 +1 -

т^г £ £ (У+j • y )), (9)

1 - L1) v=L1 I=0

где v-номер выборки, Т-период наблюдения.

Фильтрация сигнала ошибки предсказания описывается разностным уравнением

= -£ bus,-u + y,,

(10)

где Ь = кУи / ^о - коэффициенты фильтра, являющиеся результатом оценивания нормированной корреляционной функции ошибки предсказания. Нормированная АЧХ фильтра

|1 -£ (a,

H (n2n / T) = *='

g-ikn2nlT ^ |

I £ (bk

g-ikn2n/T ^ |

и=1

и=1

и=1

k=0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Коэффициенты а = (а0, ах,...., ар ) и

В = ф0,Ь1,....,Ьр) выбеливающего АРСС фильтра вычисляют с использованием выборок речевого сигнала, взятых в период молчания.

6. Алгоритмы сегментации речи по энергетическим признакам

Рассмотрим алгоритмы сегментации речи по энергетическим признакам.

В результате применения декорелирующего фильтра, алгоритмы обнаружения могут быть упрощены за счет декорреляции временных отсчетов речевого сигнала [2].

При обеспечении некоррелированности признаков и равенства дисперсий в координатном представлении в алгоритме обнаружения речевого сигнала по энергетическим признакам выносится решение о наличии речевой информации в к-ой выборке, если выполняется неравенство

Выборочные значения оценок моментных функции определяются выражением

m [0, j - i, k - i] =

1

X x[t] • x[t + i] • x[t + k ],

(17)

N - к^

т4 [0, ] -1, к -1, п - /] =

1 ^ г (18) = ——- X # ] • # +1] • # + к ] • х + п],

где h - максимальное значение сдвига для каждого набора (И), (Ы).

Решение на основе оценок трёхмерных мо-ментных функций принимается в соответствии с выражением

H : R(k) < Л,

(19)

H : (l(k)) > Л,

(12)

Pl Р 2

N 2

где I (к) = X 8* , а 8* -1-ый отсчет к-ой выборки ре-

{=1

чевого сигнала.

В противном случае выносится решение о наличии паузы.

Порог Л в общем случае вычисляется как

Л = OU

2 2 а -а

( \n а2

2

а

> о, а > а0.

(13)

Для критерия Неймана-Пирсона при заданном а порог преобразуется к виду Л = ст02 х2 , где х2 -выраженное в процентах отклонение случайной величины, распределенной по закону %2 с п степенями свободы.

Вычисление пороговых уровней Л , также может производится экспериментально по результатам определения локальных минимумов близлежащих справа или слева (в зависимости от задачи) от глобального максимума гистограммы распределения решающей статистики [2].

7. Алгоритмы сегментации речи в пространстве оценок моментных функций

Моментные функции третьего порядков стационарного процесса определяются выражениями

m [i, j] = m2[0, j -i].

(14)

Трёхмерные моментные функции стационарного процесса определяются выражениями

m [i, j, k]=m [0, j - i, k - i].

(15)

Четырёхмерные моментные функции стационарного процесса определяются выражениями

m [i, j, k, n] = m [0, j - i, k - i, n - i].

(16)

где R(k) =XZsgn №,k u,v))® sgn № (0,u,v)),

u=0 v=0

fl, X > 0;

где функция sgn( x) = \

[0, X < 0.

Вычисление пороговых уровней Л, производится экспериментально по результатам определения локальных минимумов близлежащих справа или слева от глобального максимума гистограммы распределения решающей статистики.

Решающее правило на основе оценок знаковых функций моментной функции может быть представлено в виде

H : Я(к) < Л, (20)

pl p 2

где R(k) = XX (sign (тък (0, u, v)) • sign (mj' (0, u, v))),

sign( x) =

1, x > 0; -1, x < 0.

Решение на основе оценок моментной функции принимается в соответствии с выражением

Н : Я(к) <Л, (21)

где среднее расстояние можно вычислить в виде

К(к) = X X (тз,к (0, и, V)) - тзг (0, и, V))2.

и=0 V=0

Расстояния трёхмерных моментных функций может быть представлено в виде

Р1 Р 2

К(к) = XX-(тз,к (0,и, V)) -т/ (0,и, V) + а)-1,

pi p 2 p

= ZZZ mu (0,u,v,")) - w3r (0, u, v, n

u=0 v=0 n=0

)' +«)-1,

где Яф°" - функционалы, построенные на основе метрик в пространстве Ll, Ь2

где г - параметр расстояния.

8. Алгоритм сегментации речи по совокупности формант и антиформант

Для сегментации возможно использование оценок формант и антиформант. Авторегрессионые спектральные оценки формантных частот вычисляются в соответствии с выражением

£b(ri)Qxp(-j2nnk)

./,. =y arg loc maxi I -JL±~I,-•

k 1 ~ X ' exp(-j 2жпк)

к = 0,М},

где /' = аг£ 1ос тах(л;) - векторная функция, задающая соответствие элементам входной последовательности хьх2,...,хм элементам выходной последовательности упорядоченное множество номеров локальных максимумов { ^ . / = 0. /. |: вектор оценок

= ( ]] г.! = 0. /. |. Ь -количество локальных максимумов в спектре; ^ = 1/ А/ - частота дискретизации сигнала, А - период дискретизации сигнала; м = I [N/2-1]; 2[у] - функция округления к ближайшему целому числу.

Авторегрессионые спектральные оценки частот антиформант вычисляются в соответствии с выражением

К

fa,v = arg loc mini l-2^

^ b (и) exp(-j27rnk)

k = 0, M},

1 - ^ä(n) • exp(-j2;nik)

где у = а^/оС7771П(л;)- векторная функция, задающая соответствие элементам входной последовательности хьх2,...,хм элементам выходной последовательности упорядоченное множество номеров локальных минимумов { ^ . I = 0. /. |: вектор оценок /у

={ , = 0, ¿лги" }, Lмин -количество локальных

максимумов в спектре.

После выполнения сегментации фонем необходимо принять решение о наибольшей степени близости в пространстве признаков произносимой фонемы и одной из фонем обучающих выборок.

Решение о начале нового сегмента фонем в очередной выборке принимается по результату сравнения с порогом значений Яф0", вычисленных по формуле

Яфш > д

Bf = £ min «,', • I / (п) ~fn(n +1) Г +

La

+Х min «!,• I fa (n) - fa11 (n + \) \\

где / (п), /а (п) - оценки частот ьой форманты п-го

сегмента; а; . - весовые коэффициенты, i = -ТД ;

j = ; q принимает значения 1 или 2 в зависимости от вида критерия близости.

На основе первичной сегментации слов по формантным признакам выносится решение о наличии речевой информации в п-ом сегменте в случае если

н1 : ясплов < а,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Цп)

Яп°е = £ .min aij-\fjn)~ f" Г +

,=1 je[-J, J ]

L(n)

Л \q

+У min се],-1 fa (n)-fa

1=T .м-J ,J ] ' '

где / («), /а (и) - оценки частот ¡-ой форманты и антиформанты п-го сегмента; /а" , у«77 - эталонные

оценки частот ьой форманты и антиформанты, полученные усреднением оценок для нескольких сегмен-

тов, соответствующих паузе речи; j = -ТД ; q-весовые коэффициенты.

i = -J, J;

9. Результаты экспериментального исследования алгоритмов сегментации речи и их обсуждение

Исследования описанных выше методов сегментации выполнены по выборкам реальных речевых сигналов для разных дикторов. Оценивание показателей качества производилось для алгоритмов выполняющих сегментация слов речи по энергетическим признакам с выбеливанием и без выбеливания, по признакам формант и антиформант для порядка модели 12.

С целью звукового контроля качества сегментации речи с помощью экспертов проведены экспериментальные исследования. По отсчетам звукового сигнала, следующих в результате дискретизации с частотой 8 кГц, проводились оценки временных границ начала и конца каждого из 10 слов речи.

В табл. 1 приведены результаты исследования 3 варианта устройств сегментации слов, отличающихся типом алгоритма оценивания начала и конца слова. Из таблицы видно, что тип устройства в смысле критерия максимума дисперсии оценивания временного положения слов, зависит от требований устойчивости.

n=1

k

n=1

Если задать допустимое значение показателя персии оценивания временного положения D будет устойчивости Куст^) соответствующего отношению алгоритм сегментации слов по энергетическим при-сигнал шум q=13, то наилучшим по показателю дис- знакам с выбеливанием.

Таблица 1

Результаты исследований устройств сегментации слов_

Алгоритмы сегментации слов D, с2 D^2 при q=13

По энергетическим признакам с выбеливанием 0,00023 0,0005

По энергетическим признакам без выбеливания 0,0022 0,0035

Формант и антиформант для порядка модели 12 0,0019 0,0020

10. Выводы

1. В статье рассмотрены возможности подавления коррелированных помех за счет использования цифрового фильтра на основе модели авторегрессии скользящего -среднего.

2. Получены алгоритмы оценивания временных границ слов речи на основе моментных функций, формантных и антиформантных признаков с

выбеливанием. Рассмотрены различные пути решения сформулированной задачи сегментации речевых сигналов.

3. На основе экспеременалных исследований показана эфективность предложенных алгоритмов оценивания временных границ слов речи на основе ряда энергетических признаков, формантных и анти-формантных признаков с выбеливанием.

Литература

1. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов / под ред. М. В. Назарова, Ю. Н. Прохорова. М.: Радио и связь, 1981. 496 с.

2. Пресняков И. Н., Омельченко С. В. Помехоустойчивые алгоритмы сегментации речи в системах обработки // Радиотехника. 2003. № 131. С. 165-177.

3 Сорокин В. Н., Цыплихин А. И. Сегментация и распознавание гласных // Информационные процессы. 2004. Т. 4, № 2. С. 202-220.

4. Сорокин В. Н., Цыплихин А. И. Сегментация речи на кардинальные элементы // Информационные процессы. 2006. Т. 6, № 3. С. 177-207.

5. Марпл С. Л. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

6. Пресняков И. Н., Омельченко С. В. Автоматическое распознавание раздельных слов и фонем речи // Радиоэлектроника и информатика. 2003. № 2. С. 41-47.

7. Пресняков И. Н., Омельченко С. В. Алгоритмы распознавания фонем речи // Радиотехника. 2003. № 135. С. 180189.

8. Пресняков И. Н., Омельченко С. В. Распознавание речевого сигнала на фоне коррелированной помехи // Радиотехника. 2004. Вып. 137. С. 23-30.

9. Пресняков И. Н., Омельченко С. В. Алгоритмы распознавания речи // Автоматизированные системы управления и приборы автоматики. 2004. № 126. С. 136-145.

10. Пресняков И. Н., Омельченко С. В. Распознавание фонем речи // Радиоэлектроника и информатика. 2004. № 3. С. 59-63.

11. Пресняков И. Н., Омельченко С. В. Распознавание речевого сигнала на фоне белого шума и узкополосной помехи // Прикладная радиоэлектроника. 2004. Т. 3, № 2. С. 29-35.

Рекомендовано до публгкацИ д-р техн. наук Безрук В. М.

Дата надходження рукопису 06.03.2018

Омельченко Сергей Васильевич, кандидат технических наук, доцент, кафедра информационно сетевая инженерия, Харьковский национальный университет радиоэлектроники, пр. Науки, 14, г. Харьков, Украина, 61166

E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.