Научная статья на тему 'Обнаружение звуков речи на фоне шумов'

Обнаружение звуков речи на фоне шумов Текст научной статьи по специальности «Математика»

CC BY
205
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ЧАСТОТНЫЕ ПРЕДСТАВЛЕНИЯ / РЕШАЮЩАЯ ФУНКЦИЯ / ЗВУКИ РЕЧИ / МИНИМИЗАЦИЯ ОБЪЕМОВ БИТОВЫХ ПРЕДСТАВЛЕНИЙ РЕЧЕВЫХ ДАННЫХ / ГРАДИЕНТ

Аннотация научной статьи по математике, автор научной работы — Жиляков Е. Г., Белов С. П.

В статье теоретически обосновывается выбор решающей функции (РФ) для выявления на фоне шумов регистрирующих приборов факта присутствия в анализируемом отрезке речевого сигнала энергии, обусловленной наличием звуков речи. Показано, что предлагаемая РФ является функцией максимальной чувствительности в смысле приращения ее математического ожидания при наличии звуков речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обнаружение звуков речи на фоне шумов»

УДК 004.896

ОБНАРУЖЕНИЕ ЗВУКОВ РЕЧИ НА ФОНЕ ШУМОВ

Е.Г.ЖИЛЯКОВ С.П. БЕЛОВ

Белгородский государственный национальный исследовательский университет

e-mail: Zhilyakov@bsu.edu.ru e-mail: Belov@bsu.edu.ru

В статье теоретически обосновывается выбор решающей функции (РФ) для выявления на фоне шумов регистрирующих приборов факта присутствия в анализируемом отрезке речевого сигнала энергии, обусловленной наличием звуков речи. Показано, что предлагаемая РФ является функцией максимальной чувствительности в смысле приращения ее математического ожидания при наличии звуков речи.

Ключевые слова: частотные представления, решающая

функция, звуки речи, минимизация объемов битовых представлений речевых данных, градиент.

Введение.

Известно, что речевые сигналы состоят в общем случае из отрезков отсчетов, которые сформировались либо при отсутствии звуков речи (шумы регистрирующих приборов в паузах речи) либо при наличии, как шумов, так и воздействий акустических колебаний, порождаемых звуками речи. Одна из задач проблемы минимизации объемов битовых представлений речевых данных заключается в сокращении данных в паузах речи на основе кодирования их длительностей, например, сохраняя номер начального отсчета и информацию об общем их количестве. При этом оказывается возможным почти на треть сократить объем хранимых и передаваемых данных. Эффективность реализации этого подхода в значительной степени зависит от правильного выбора решающей функции.

В связи с этим в статье обосновывается выбор решающей функции, позволяющей минимизировать вероятность ошибочного принятия решения.

Теоретические основы выбора решающей функции.

Уточним формулировку задачи обнаружения звуков речи применительно к анализу отрезков речевых сигналов.

Пусть зафиксирован отрезок (вектор) отсчетов речевого сигнала х = (х1,.., хы)Т длительности (размерности) N. Основная (начальная) гипотеза формулируется следующим образом:

Н0: отсчеты речевого сигнала принадлежат паузе в речи (порождена шумами).

Символически это означает, что

Но : х = и = (и1з.., ин)Т, (1)

где символ означает отсчет шума.

Формулировка альтернативной гипотезы имеет вид:

Н1 : хотя бы часть отсчетов порождена, как шумами, так и под воздействием акустических колебаний, порождаемых звуками речи.

Полагая справедливым предположение об аддитивности взаимодействия шумов и реакции на звуковое воздействие, содержание альтернативы можно выразить следующим образом

Н1: х = г + и , (2)

где г = (г1,.., )Т - обусловленный речевым сообщением вектор, некоторые из

компонент которого могут быть равны нулю (например, когда речь отсутствует), причем

предполагается что шумы от речи не зависят.

Необходимо разработать решающую процедуру, которая позволяет принять решение в пользу одной из сформулированных гипотез. При этом следует иметь в виду разную

плату за ошибочные решения. В частности ошибочное решение в пользу гипотезы (2) приводит к неоправданному увеличению хранимых или передаваемых речевых данных. В свою очередь ошибочное решение в пользу гипотезы (1) приводит к искажению части речевого сообщения. Безусловно важнее исключить риски ошибочного принятия гипотезы (1).

Основу любой решающей процедуры составляет решающая функция (РФ):

F = F(х), (3)

которая определяет способ обработки вектора анализируемых данных, с тем чтобы при выполнения условия

F г (4)

отвергнуть проверяемую гипотезу.

Здесь и в дальнейшем Аа - критическая область, выбираемая из условия

Р^ г А* / Но} = а« 1, (5)

где Р - символ вероятности; а - вероятность ошибок первого рода.

Известно, что характеристическим свойством отрезков сигналов, порождаемых звуками речи, является сосредоточенность их энергий в малых частях частотной полосы, равной половине частоты дискретизации. Иными словами с высокой точностью выполняется условие

N

" = ^ ^

к =1 геЯ„

1|г||2 = £ г; = £ Р-(г), (6)

где Рг (г) - части энергии

Рг (г) = I | 2(у)|2 йу/2л , (7)

уеУГ

попадающие в непересекающиеся частотные интервалы

V = [У,-У-)и[У,ГУ2г),0 < У1Г < У;- <л;Уп П V,, = 0, (8)

из некоторого множества ЯК, причем их суммарная ширина удовлетворяет неравенству

£ (У; Г - У.Г )/ЖУ . (9)

Здесь и в дальнейшем большими символами обозначаются трансформанты Фурье соответствующих векторов, обозначаемых малыми символами, то есть

N

2 (у) = £ гк ехр(-Хк -1)). (10)

к=1

Для правой части этого неравенства в зависимости от звука речи выполняется

0,25 <у < 0,5, (11)

причем правая часть здесь достигается редко (только для шипящих).

В свою очередь энергия отрезков шумов в паузах распределена более равномерно, так что предположительно выполняются равенства

Ъг = М[Рг(и)] = М[|| и||2](У;Г -У1- )/л . (12)

Здесь М- символ математического ожидания.

Поэтому, в основе построения РФ целесообразно использовать характеристику распределения энергий анализируемого отрезка сигнала по частотным интервалам

Рг (х) = I | X(у)|2 йу/2л . (13)

уеУГ

Имея в виду определения (3.10) и (3.8), отсюда нетрудно получить следующее представление в виде квадратичной формы

Р- (х) = хТА-х, (14)

где АГ = {а-к}, г',к = 1,.., N - субполосная матрица с элементами

а-к = | exp(-]\(г - к))йу / 2л = 2 sin(AУГ (г - к) / 2) * cos(юГ (г - к)) / л (г - к) ; (15)

уеУГ

АУ- = У2- - У1Г; (16)

«г = (У2Г + У1Г )/2 ; (17)

Здесь в дальнейшем символ Т в качестве верхнего индекса означает транспонирование соответствующего вектора.

Пусть для определенности отсчеты шумов в паузах речи являются стационарными, имеют равное нулю математическое ожидание

М[ик] = 0,к = 1,..,N, (18)

и автокорреляционную функцию (АКФ)

Ои (г - к) = М[икиг ], г, к = 1,.., N. (19)

Тогда из определения (14) нетрудно получить выражение для условных математических ожиданий соответствующих частей энергий отрезков шума

N

Г

г,к =1

(21)

М[Р-(х)/Н„] = Ъг = М[Р- (а)] = £ агкС, (г - к). (20)

Если шумы не коррелированны

(г - к) =о 2, г = к;

Gи (г - к) = 0, i Ф k

то с учетом соотношений (15) получаем

М[Рг (х)/ Н0) = Ъг = М[РГ (и)] = ои2NAVГ /л . (22)

В свою очередь нетрудно получить представление для условного математического ожидания квадрата доли энергии

N N

М[Р;(хУН0) = М[Р,2(«)] = £ £ аТкагп,М]. (23)

г,к =1п,т=1

Предположим также, что вектор шумов имеет гауссовское распределение вероятностей и выполняются условия (18) и (21). Тогда [1] справедливы соотношения

М[игикипит ] = 0, (г Ф к) П (г Ф п) П (г Ф т) П (к Ф п) П (к Ф т) П (п Ф т)

М [игикипит] = 0 (24)

если хотя бы один из индексов не совпадает ни с одним из других;

М[игикипит ] = 0 г" ^ Г2 , (25)

если имеются попарные совпадения индексов;

М[и гикипит ] = 3о 4 , г = к = п = т . (26)

Таким образом, соотношение (23) дает

М [ РГ (х) / Н 0) = М [Р/(и)] = (о н2 NAVг / л )2 +ан4 N (А Уг / л )2. (27)

Отсюда с учетом соотношения (22) нетрудно получить представление для условной дисперсии рассматриваемой части энергии

< = М [Р (X)/Н 0)] - М 2[Р (х)/Н 0] = 2а > (АУг / я У . (28)

Представления (22) и (28) дают соотношение

фг = йг /Ъг = (2/Ы)1П , (29)

которое в оговоренных выше условиях определяет закономерность изменений отношения среднеквадратического отклонения части энергии отрезка шума к его математическому ожиданию. Легко видеть, что с ростом длительности анализируемого отрезка сигнала в паузе это отношение стремиться к нулю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Исследование свойств частей энергий шума можно осуществить и с иных позиций, имея в виду, что симметричная субполосная матрица обладает полным набором орто-нормированных собственных векторов [2], удовлетворяющих условиям

Кчк = АгЧк, к = N; (30)

г -I

К > К2 > ••• >К;; (31)

N

(Чк,Ч\) = £ ЧлЧш = 8*, I,к = !,••,N; (32)

8 к - символ Кронекера 8 к = 0 VI Ф к,

8 * = 1VI = к

Отметим, что, как показывают вычисления, собственные числа субполосных матриц обладают свойством

К ;+„ - 0, п = 1,^, N - 3 ,3 = 2[АУГ /2я ] + 4. (33)

Тогда [2] субполосную матрицу можно представить в виде

N

Аг = £ Кй'Т, (34)

к=1

что позволяет вычислить часть энергии в заданном частотном интервале с использованием соотношения

N

Рг (х) = £ Кка кг, (35)

к=1

где а кг - скалярные произведения анализируемого и соответствующего собственного векторов

N

а кг = (X, чк) = £ ХЧк, (36)

=1

1 Н0 и оговоренных выше

В виду линейности формы (36) при выполнении гипотезы

свойствах шумов в паузах речи эти случайные величины также будут иметь гауссовское распределение вероятностей. При этом с учетом ортонормальности собственных векторов субполосных матриц нетрудно получить соотношения для первых двух условных моментов

М[акг / Н0] = 0, (37)

М[акга 1г / Н0] = 0, I Ф к, (38)

М[акг /Н0] =а2. (39)

В соответствии с этим соотношение (35) дает

N

М[РГ(X)/Н„] =аи £ К;. (40)

п=1

Имея в виду связи между следом матрицы и суммой её собственных чисел [2]

N N

£ К = £ а'ш, (41)

к =1 к=1

и определение (3.15), отсюда снова нетрудно получить соотношение (3.22). Кроме того с учетом гауссовости случайных величин вида (3.36) и равенств (3.37)-(3.39) нетрудно получить соотношение для условной дисперсии

N

М [(рг (х) - Ъ, )2/Н 0] = 2а 4 £ (К )2. (42)

к=1

Сопоставляя соотношения (40) и (44) с полученными ранее из других соображений представлением (22) и (28)) первых двух условных моментов части энергии с учетом равенства (41) нетрудно установить следующие равенства

N N

£ (к;)2 = N(АУ, /я)2 = (АУ/я)£ к; . (43)

к =1 к =1

Вместе с тем, если учесть, что только часть собственных чисел субполосной матрицы значимо отлична от нуля, то соотношения (35),(40) и (42) нетрудно преобразовать к виду

Рг(X) =£ К,га2, (44)

к =1

Ъ, = М[Р (X)/ Н 0] = а 2 £ к; . (45)

к=1

М[(Рг(X)-Ъг)2/Н„] = 2а4£ (К)2. (46)

к =1

В виду гауссовости при выполнении гипотезы Н0 случайных величин (36), и, следовательно, в силу (38) их независимости можно показать [1], что характеристическая функция случайной величины (44) имеет вид

0(1 / Н „) = П (1 - ]К„а 1‘) • (47)

к=1

Дифференцируя это выражение, нетрудно по известным правилам [1] получить соотношения для любых условных начальных моментов. В частности имеет место представление для условной функции плотности вероятностей вычисляемой части энергии

(у /Н0) = | П (1 - 1а 2^) ехР(-./у)й, (48)

—^ к=1

которое в принципе позволяет вычислить границы критической области, исходя из заданной вероятности ошибок первого рода при проверке справедливости гипотезы Н0 .

Положим

5(Юг, X) = Рг (X) / М[Рг (X) / Н0 ] = Рг (X) / Ъг. (49)

Используя предыдущие результаты, легко показать справедливость соотношений

сг° = М[5(Юг, X)/Н0] = 1, (50)

о 2 = Мрг(X) -1)2/Н0] = 2/N. (51)

Отметим, что соотношение (51) характеризует закон изменения отклонений (49) относительно правой части (50) в зависимости от длительности анализируемого отрезка шумов в паузах речи.

В общем случае (2) имеет место

5(Юг, X) = (Рг (и) + гтАгП+Рг (г)) / ъг . (52)

Отсюда с учетом предыдущих условий и результатов получаем

С = М[5(Юг,X)/Н1] = 1 + М[Рг(5)]/Ъг. (53)

Так как величина интеграла (7) при ненулевом векторе сигнала является положительной, то отсюда следует неравенство

Сг > с0 = 1. (54)

Иными словами, математическое ожидание случайной величины (52) увеличивается по сравнению с выполнением исходной гипотезы.

Пусть теперь полезный сигнал в (2) является узкополосным и может быть представлен в виде

г; = У; СО8(0; + ф), к = 1,„, N, (55)

где ф - случайная равномерно распределенная в интервале (-я ,я) фаза; 0 - круговая частота из интервала (0, я) ; у; - так называемая огибающая.

Полагаем, что величина N(АУг /я ) выбрана такой, что выполняется условие

А У /2

Р0(у) = 2 | | У (у) |2 й\ /2я = т£ у2, т - 1, (56)

0г ;=1

причем имеет место представление

N

Р0(у) = уТА0у = £ а1У,У; , (57)

I,;=1

а°к = 8т( АУг (I - к )/2)/ я (I - к) (58)

Очевидно, что ввиду равенства[1]

М[] = УгУ; С^(0 0' - к)) (59)

будет выполняться

N

М[Рг(г)] = 2 £ а°.;у.у; соб(юг (I - ;)) соб(0 (I - к)). (60)

I,; =1

Отсюда получаем выражение для первых двух производных

N

йМ[Рг(г)] / йю г = -2 £ (I - к')а°ку1ук 8т(юг (I - к)) соб(0 (I - к)), (61)

I, к =1

й2М[Рг(г)]/ йю2г = -2 £ (I - к)2 а°у{ук соб(Юг (I - к)) соб(0 (I - к)), (62)

I,;=1

из которых следует, что вторая производная всюду неположительная, так что в максимум правой части (60) будет достигаться там, где равна нулю правая часть (61), то есть выполняется

N N N N

£ £ £ £

I \к I г к гк I г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 (V а0 у б1п(ю (I - к))соб(0 (I - к)) = 2 ку 1 =1 а0 у Бт(ю (I - к))соб(0 (I - к))•

I =1 к =1 к =1

Легко понять, что в виду симметрии субполосной матрицы, четности функции косинуса и нечетности функции синуса последние условие равносильно требованию

N N

2£ !уг £ а0шу1 8т(Юг (I - к)) соб(0 (I - к)) = 0 . (63)

I =1 к =1

Его легко на основе тригонометрических тождеств преобразовать к виду

N N N N

al

l=1 к =1 i =1 к =1

Е У Е a<kyi sin((“r- e )(i - к)) =- Е У Е a°Уг sin((rar + e )(i - к)). (64)

В частном случае равенства частот

Юг =0 (65)

получаем требование в виде

NN

Е гУг Е aiкУк sin((2ek - 2Єі)) = О. (66)

=1 =1

к

Так спектр последовательности ук БІп((20к - 20/')) по сравнению со спектром огибающей в (55) будет сдвинут на 20 в область высоких частот, то в виду условия (56) равенство (63) будет выполняться с той же точностью. Иными словами, выполнение равенства (62) соответствует достижению максимального значения правой части (60)

max M [Pr (z)] = Е a0ІУгУк = Po(y), (67)

N

ak

i ,k =1

подстановка которого в (53) в свою очередь дает значение максимума математического ожидания отношения вида (52)

max е\ = 1 + P0 (y) / br, (68)

Таким образом, математическое ожидание отношения

S(Юг, X) = Pr (X)/ br, (69)

увеличивается при наличии квазигармонической компоненты, обусловленной речевыми сообщениями (речевая компонента). При этом совпадение значения середины частотного интервала, в котором оценивается часть энергии, с частотой квазигармонической речевой компоненты дает максимум.

Пусть теперь речевая компонента представляет собой аддитивную смесь нескольких квазигармонических составляющих

M

wk,

i=1

смысл параметров которой очевиден. Тогда будет иметь место

Zk =Е wk0 =Е У ко C0s(e гк +Ф г X к = N , (70)

cr

r

M

1

= M[S(Ю r,x)/tfj = 1 + £ M[Pr(Wi)]/br > 1. (71)

i =1

При выполнении какого - нибудь из равенств

Юг =0 j , j G{1,.., M} (72)

будет достигать максимального значения соответствующее математическое ожидание в сумме правой части (71). Ясно, что при выполнении условия

min 10j -0k |>AVr, j,k е {1,..,M} (73)

можно определить такую квазигармоническую wm компоненту, для которой имеет место

P0 (Уm ) > P0(yk X Vk * m . (74)

Иными словами, правая часть (69) может использоваться в качестве решающей функции, причем решение о наличии речевой компоненты должно приниматься при выполнении условия

maxS(юг,X) > И(юг),AVr <юг <n-AVr. (75)

Здесь Л(Юг) - в общем случае зависящая от центральной частоты интервала оценивания частей энергии функция, обеспечивающая допустимые вероятности ошибок первого и второго родов. Её значения целесообразно вместе с функцией вида (22) (зависимость математического ожидания шумов от центральной частоты) оценивать непосредственно по реализациям шумов, для чего необходимо иметь достаточно обширную обучающую выборку. Отметим еще одно качество предлагаемой решающей функции. Определение (57) с учетом возможности разложения

N

ао=£ \о чк г

к=1

нетрудно преобразовать к виду

N

N

Р(Л = В( Р ) = £ Р 2, Р к = (*°к Г £ УтЧтк

(76)

к=1

т =1

Отсюда после частного дифференцирования по п легко

= получить

1 с о-

отношение для градиента части энергии, попадающей в интервал частотного анализа

gradP = 2( РіД рN)

(77)

так что имеет место равенство

Ро(У) = ДР) = (8гаЛР, Р) / 2,

(78

)

Иными словами приращение (по сравнению с отсутствием сигнала) функции про- исходит в направлении градиента, то есть в линейном приближении максимально быст- ро. Таким образом, предлагаемая решающая функция в определенном смысле является функцией максимальной чувствительности.

Работа выполнена при поддержке гранта РФФИ 12-07-00514-а.

Литератур

а

1. Левин, Б.Р.Теоретические основы статистической радиотехники [Текст] -М.:

Советское радио, т.1,1969. - 752 с.

2. Гантмахер, Ф.Р. Теория матриц [Текст] / Ф.Р. Гантмахер. - М.:

Физматлит,

2004. - 560с.

DETECTION OF SPEECH SOUNDS IN THE BACKGROUND NOISE

E.G.ZHILYAKOV S.P.BELOV

BelgorodNational

Research University

e-mail: Zhilyakov@bsu.edu.ru e-mail: Belov@bsu.edu.ru

The paper theoretically justified choice of decision function (RF) to identify the background noise recording apparatus of the fact of presence in the analyzed segment of the speech signal energy due to the presence of speech sounds. It is shown that the proposed RF is a function of maximum sensitivity in the sense of expectation of the increment in the presence of speech sounds

Key words: frequency representation, decision function, speech sounds, minimizing the volume of voice data bit representations, the gradient.

i Надоели баннеры? Вы всегда можете отключить рекламу.