Научная статья на тему 'Об оценке времени корреляции речевых сегментов'

Об оценке времени корреляции речевых сегментов Текст научной статьи по специальности «Математика»

CC BY
328
79
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевой сигнал / коэффициент корреляции / время корреляции / математиче-ская модель / отношение сигнал-шум / speech signal / correlation coefficient / correlation time / mathematical model / signal to noise ratio

Аннотация научной статьи по математике, автор научной работы — Голубинский Андрей Николаевич

Получены выражения для оценки времени корреляции речевых сигналов на основе стохастической математической модели, описывающей вокализованные и невокализованные сегменты речи. Приведены расчётные формулы для частных случаев, соответствующих различным параметрам голосового источника.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Голубинский Андрей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON ESTIMATION OF CORRELATION TIME OF THE SPEECH SEGMENT

The formulas to estimate the time correlation of speech signals based on a stochastic mathematical model describing the voiced and unvoiced speech segments are obtained. The calculation formulas for special cases, corresponding to different parameters of the voice source are given.

Текст научной работы на тему «Об оценке времени корреляции речевых сегментов»

Радиотехника и связь

РАДИОТЕХНИКА И СВЯЗЬ

А.Н. Г олубинский,

доктор технических наук, доцент

ОБ ОЦЕНКЕ ВРЕМЕНИ КОРРЕЛЯЦИИ РЕЧЕВЫХ СЕГМЕНТОВ

ON ESTIMATION OF CORRELATION TIME OF THE SPEECH

SEGMENT

Получены выражения для оценки времени корреляции речевых сигналов на основе стохастической математической модели, описывающей вокализованные и невокализованные сегменты речи. Приведены расчётные формулы для частных случаев, соответствующих различным параметрам голосового источника.

The formulas to estimate the time correlation of speech signals based on a stochastic mathematical model describing the voiced and unvoiced speech segments are obtained. The calculation formulas for special cases, corresponding to different parameters of the voice source are given.

Обработка звуковых и речевых сигналов является важным научно-практическим направлением в инфокоммуникационных системах, радиотехнике, связи, медицине и т.д. [1]. В связи с этим остро встаёт вопрос параметризации речевых сигналов — выделения небольшого набора существенных параметров, адекватно отображающих свойства речи, голоса, передаваемой посредством речевых сигналов информации.

Для расчёта существенных параметров речевых сигналов (например, частоты основного тона (ЧОТ), формантных частот, амплитуд спектральных составляющих на ЧОТ и частотах обертонов, и др.) необходимо знать временной интервал, на котором оценки параметров будут эффективны и состоятельны.

Поэтому актуальной научной задачей является оценка временного интервала (сегмента), на котором корреляционные связи в речевом сигнале являются заметными, основанная на адекватной математической модели.

В инженерной практике вместо точного аналитического задания вида нормированной корреляционной функции (коэффициента корреляции) r(j) часто используют лишь

128

Вестник Воронежского института МВД России №4 / 2014

интервал корреляции (время корреляции) тк, что даёт ориентировочное представление о том, на каком интервале времени в среднем имеет место заметная коррелированность между значениями случайного процесса, существенная для решаемой задачи [2].

Заметим, что время корреляции определяется как характерное время спадания до нуля коэффициента корреляции [2, 3]. Поскольку это понятие качественное, то решение многих задач будет сильно зависеть от их количественного определения. В работах [2—5] приведено более десяти определений тк, собранных из разных источников. Некоторые из них не являются универсальными, то есть они справедливы только для монотонно спадающих с ростом задержки или слабо осциллирующих нормированных корреляционных функций r(т) и не годятся для осциллирующих в общем случае. Все остальные с помощью введения параметров можно свести всего к трем видам:

ГО

т® = J | r (т)\а ёт, 0 <а<го; (1)

0

т^2) = max{ т: | г(т) |> є}, 0 < є < 1; (2)

ГО

11 т■ r(т) \а ёт

43) = -°то-----------, 0 < а < го . (3)

J\r(т)\а ёт 0

Идея, которая привела к определению (3), заключается в отождествлении тк с некоторым «корреляционным моментом порядка а ». Однако тестирование определений (1) — (3) по различным моделям корреляционных функций показало, что определением тк в виде (3) нецелесообразно пользоваться на практике по двум причинам [3].

Во-первых, для двух коэффициентов корреляции Гі(т) и Г2(т) таких, что для

всех т справедливо | Гі(т) |>| ^(т) | интервал корреляции т^3 , рассчитанный по ^(т), может оказаться значительно (во много раз и даже порядков) больше, чем рассчитанный по Гі(т) [3]. Во-вторых, для дельтообразных корреляционных функций определение (3) может давать бессмысленные результаты [3]. Например, если в дискретном времени рассмотреть корреляционную функцию, которая при всех задержках равна нулю, кроме единственной задержки т = n, где она принимает значение r(n) = 1/ n, то

определение (3) дает значение т^(3) = па, что при больших n приводит к большим значениям времени корреляции, однако, на самом деле, для больших n очевидно, что тк ~0 [3].

Таким образом, остается всего два рациональных определения времени корреляции — (1) и (2).

Отметим, что для осциллирующих корреляционных функций наиболее часто используется определение (1) при а = 1. Геометрически так заданное тк равно основанию прямоугольника с единичной высотой, имеющего ту же площадь, что и площадь под кривой | г(т) |.

129

Радиотехника и связь

Отметим, что для процессов, заданных в дискретные моменты времени t є{0;± 1; ± 2;...}, определение гк, аналогичное (1), будет выглядеть следующим образом:

ж

41} = Y| rn Iа ’ 0 <а<ж • (4)

n=1

Рассмотрим математическую модель речевого сигнала, описывающую вокализованные и невокализованные сегменты речи, в виде суммы реализаций двух случайных процессов [6]:

f(t) = u(t) + n(t), (5)

Здесь u(t) является реализацией квазидетерминированного процесса (в виде импульса АМ-колебания с несколькими несущими частотами для случая случайных начальных фаз), характеризуя вокализованные сегменты речи, и определяется следующим образом:

L

u(t) = (l +M cos [2^Fot + Фо ])YU cos \2nlfo t + Pl ], t є[0;ги ], (6)

l=1

где М — глубина модуляции; Fo и Фо — соответственно частота и начальная фаза модулирующего по амплитуде колебания; fo — ЧОТ; Ui и pl — соответственно амплитуда и начальная фаза l -й гармоники несущего колебания; Ги — длительность импульса.

При этом в формуле (6) Фо и pi — случайные величины, не коррелированные между собой и равномерно распределённые в интервале [0;2.] с плотностями вероятностей

Ppi =■

(7)

2.’ ^Ф° 2.

Отметим, что процесс с реализациями u(t) является стационарным в широком смысле, эргодическим случайным процессом, функция корреляции которого (для центрированного процесса)

Ru (Г)

1

2

1 +

2

cos [2.?0г]

L

Yu2cos [2^if0r]

i=i

(8)

Для описания шумовых составляющих речевого сигнала, характеризующих невокализованные участки речи, воспользуемся простой математической моделью в виде случайного процесса, представляющего собой белый шум n(t), ограниченный по полосе частотfs[0;/в] верхней частотойf [7, 8], со спектральной плотностью мощности N0H. Данный случайный процесс имеет функцию корреляции [8]:

Rn (г) = N0fn sinc(2^/er), (9)

где N0=const — односторонняя спектральная плотность мощности (для физических частот). Этот случайный процесс является стационарным в широком смысле и эргодическим.

Можно показать, что случайный процесс f(t) также будет являться стационарным в широком смысле и эргодическим [6].

Положим, что реализации u(t) и n(t) соответствующих процессов некоррелированны между собой, таким образом, функция корреляции процесса с реализациями Iff) — стохастическая модель (5), для центрированных случайных процессов, имеет вид

Rf(r) = Ru (г) + Rn (г)

1

2

1 +

M 2 2

cos [2^F0r]

L

Yu2 cos [2^/f0r]+щл .

l=1

(10)

Оценим время корреляции математической модели речевого сигнала (5). Так как корреляционная функция модели (5) является осциллирующей, воспользуемся определением (1) при значении а = 1:

130

Вестник Воронежского института МВД России №4 / 2014

JI г%(т)\

dr .

(11)

Коэффициент корреляции модели (5) рассчитывается следующим образом [6]: 2

гЛг) = ^---ru (r) +

Ь z 2 + 1

1

9 -П

z 2 + 1

rn (r);

(12)

где z2 = o^jоП = Ru (0)/Rn (0) — отношение сигнал-шум (ОСШ); о2 и о2 — диспер-

.2 2

' и и 0п

сии сигнальной и шумовой компонент соответственно; ru (r) = Ru (r)/Ru (0); rn (r) = Rn (r)/Rn (0).

Поскольку интегрирование проводится в интервале наблюдения (t є [0; ги ]), выражение (11) с учётом формулы (12) приобретает вид

гк =

‘'и

I

2

9 'u

z2 + 1

ru (r) +

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 -n

z2 +1

rn (r)

dr.

(13)

Приближенное вычисление интеграла (13) (ошибка менее 5%) для модели (5) даёт следующее аналитическое выражение для оценки времени корреляции (при f > f 3):

гк 2z

L

(S

S uf

ги rc(z + 1)

f

1 +

V

M

2

2L

1

■S u

1=1

f(z + 1)fE 'ri-

(14)

В частном случае при z2 >> 1; M < 0,5; ги > 1/(4 ) выражение (14) упрощается, принимая вид

2 V

L

Suf

1=1

r и ^

(15)

L

Su2

1=1

Заметим, что при Ui = U = const выражение для оценки времени корреляции определяется как

2

(16)

Гк _______

ги 7Ї • л/ L

таким образом, чем шире спектр модели (5), тем (на основе теоремы Винера — Хинчина) уже функция корреляции, что соответственно уменьшает значение времени корреляции.

Рассмотрим более общую и более точную математическую модель шумовой составляющей n(t) речевого сигнала. Данной модели соответствует аппроксимация односторонней спектральной плотности мощности случайного процесса N(f) [В2-с] набором постоянных составляющих N£ , к = 0; K в полосах частот шириной П£ [Гц] в окрестности центральных частот F£ [Гц]:

‘к =

0

0

131

Радиотехника и связь

N0, приf Є

0. До

2

N(f)

Nj, приf є

Fi

П

2

1 .

-.Fi

+

Пі

2

(17)

NK, приf є

Fk

Пк ;FK +Пк 2 2

Функция корреляции такого случайного процесса имеет вид

Rn (т) = ^0П0 sine (жП0 т) + ^ Nk Uk • sine (жПк т) • cos(2^ Fk г). (18)

2 к=1

Следует отметить, что точность математической модели шумовой компоненты с корреляционной функцией (18) значительно выше относительно модели с корреляционной функцией (9) при значениях ОСШ z > 1.

Выражение для оценки времени корреляции при математической модели шумовой компоненты с корреляционной функцией (18) записывается следующим образом (ошибка менее 7%):

тк

ти

2 z 2

ж( z 2 +1)

І

L

Zu4

I=1

2

, M2

1 + —

2

V У

L

■Zu2

I=1

4( z +1) -ти

П f

>2 K

+Z (Пк)

' к=1

2

1

2

(19)

При значениях параметров По = 2f ; Пк = 0, к = 1; K формула (19) переходит в выражение (14).

Заметим, что при увеличении значения глубины модуляции M время корреляции (при постоянной энергии сигнала) уменьшается (вследствие расширения спектра и соответственно сужения области существенных значений осциллирующего коэффициента корреляции). Из полученного выражения (19) также видно, что при расширении полосы частот шумовой компоненты значение времени корреляции уменьшается, вследствие ослабления корреляционных связей в реализации процесса g(t) за счёт шума n(t) .

Следует отметить, что время корреляции целесообразно использовать в качестве существенного параметра меры различимости в критерии для метода сепарации речевых сигналов на вокализованные и невокализованные (импульсные, шумовые) сегменты, при этом практические численные оценки характерных значений (для соответствующих сегментов) времени корреляции будут играть роль пороговых значений в данном критерии.

Таким образом, в работе получены аналитические выражения для оценки времени корреляции речевых сигналов на основе стохастической математической модели, описывающей вокализованные и невокализованные сегменты речи, а также приведены расчётные формулы для частных случаев, соответствующих различным параметрам голосового источника.

ЛИТЕРАТУРА

1. Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Распознавание личности по голосу: аналитический обзор // Информационные процессы. — 2012. — Т. 12. — № 1. — С. 1—30.

2. Тихонов В.И. Статистическая радиотехника. — М.: Радио и связь, 1982. — 624 с.

132

Вестник Воронежского института МВД России №4 / 2014

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Моисеев С.Н. Вероятностные модели и прогноз частотных параметров ионосферного канала распространения радиоволн через спорадический слой Е: дис. ... д-ра физ.-мат. наук: 01.04.03 / С.Н. Моисеев. — Воронеж, 2002. — 239 с.

4. Мирский Г.Я. Характеристики стохастической взаимосвязи и их измерения. — М.: Энергоиздат, 1982. — 320 с.

5. Романенко А.Ф., Сергеев Г.А. Вопросы прикладного анализа случайных процессов. — М.: Сов. Радио, 1968. — 256 с.

6. Голубинский А.Н., Булгаков О.М. Математические модели речевых сигналов для верификации и идентификации личности по голосу. — Воронеж: Издательскополиграфический центр Воронежского государственного университета, 2010. — 364 с.

7. Дженкинс Г., Ватт Д. Спектральный анализ и его приложения. — М.: Мир, 1971. — Вып.1. — 316 с.

8. Купер Дж., Макгилл К. Вероятностные методы анализа сигналов и систем. — М.: Мир, 1989. — 376 с.

REFERENCES

1. Sorokin V.N., Vyugin V.V., Tananyikin A.A. Raspoznavanie lichnosti po golosu: analiticheskiy obzor // Informatsionnyie protsessyi. — 2012. — T. 12. — # 1. — S. 1—30.

2. Tihonov V.I. Statisticheskaya radiotehnika. — M.: Radio i svyaz, 1982. — 624 s.

3. Moiseev S.N. Veroyatnostnyie modeli i prognoz chastotnyih parametrov iono-sfernogo kanala rasprostraneniya radiovoln cherez sporadicheskiy sloy E: dis. ... d-ra fiz.-mat. nauk: 01.04.03 / S.N. Moiseev. — Voronezh, 2002. — 239 s.

4. Mirskiy G.Ya. Harakteristiki stohasticheskoy vzaimosvyazi i ih izmereniya. — M.: Energoizdat, 1982. — 320 s.

5. Romanenko A.F., Sergeev G.A. Voprosyi prikladnogo analiza sluchaynyih pro-tsessov. — M.: Sov. Radio, 1968. — 256 s.

6. Golubinskiy A.N., Bulgakov O.M. Matematicheskie modeli rechevyih signalov dlya verifikatsii i identifikatsii lichnosti po golosu. — Voronezh: Izdatelsko-poligraficheskiy tsentr Voronezhskogo gosudarstvennogo universiteta, 2010. — 364 s.

7. Dzhenkins G., Vatt D. Spektralnyiy analiz i ego prilozheniya. — M.: Mir, 1971. — Vyip.1. — 316 s.

8. Kuper Dzh., Makgill K. Veroyatnostnyie metodyi analiza signalov i sistem. — M.: Mir, 1989. — 376 s.

СВЕДЕНИЯ ОБ АВТОРЕ

Голубинский Андрей Николаевич. Начальник кафедры радиотехники и электроники. Доктор технических наук, доцент.

Воронежский институт МВД России.

E-mail: annikgol@mail.ru

Россия, 394065, г. Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-54.

Golubinskiy Andrey Nikolaevich. Chief of the chair of Radio engineering and electronics. Doctor of technical sciences, assistant professor.

Voronezh Institute of the Ministry of the Interior of Russia.

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-54.

Ключевые слова: речевой сигнал; коэффициент корреляции; время корреляции; математическая модель; отношение сигнал-шум.

Key words: speech signal; correlation coefficient; correlation time; mathematical model; signal to noise ratio.

УДК 519.7:534.78:621.39

133

i Надоели баннеры? Вы всегда можете отключить рекламу.