Научная статья на тему 'О времени предсказуемости вокализованных сегментов речи'

О времени предсказуемости вокализованных сегментов речи Текст научной статьи по специальности «Математика»

CC BY
205
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевой сигнал / коэффициент корреляции / время корреляции / время предсказуемости / математическая модель / отношение сигнал-шум. / speech signal / correlation coefficient / correlation time / predictability time / mathematical model / signal to noise ratio.

Аннотация научной статьи по математике, автор научной работы — Голубинский Андрей Николаевич

Получены выражения для оценки времени предсказуемости речевых сигналов на основе стохастической математической модели, описывающей вокализованные сегменты речи. Приведены расчётные формулы для частных случаев, соответствующих большим отношениям сигнал-шум.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Голубинский Андрей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT PREDICTABILITY TIME OF VOICED SPEECH SEGMENT

The formulas to estimate the predictability time of speech signals based on a stochastic mathematical model describing the voiced speech segments are obtained. The calculation formulas for special cases, corresponding to high signal to noise ratio are given.

Текст научной работы на тему «О времени предсказуемости вокализованных сегментов речи»

Вестник Воронежского института МВД России №3 / 2015

РАДИОТЕХНИКА И СВЯЗЬ

А.Н. Г олубинский,

доктор технических наук, доцент

О ВРЕМЕНИ ПРЕДСКАЗУЕМОСТИ ВОКАЛИЗОВАННЫХ СЕГМЕНТОВ РЕЧИ

ABOUT PREDICTABILITY TIME OF VOICED SPEECH SEGMENT

Получены выражения для оценки времени предсказуемости речевых сигналов на основе стохастической математической модели, описывающей вокализованные сегменты речи. Приведены расчётные формулы для частных случаев, соответствующих большим отношениям сигнал-шум.

The formulas to estimate the predictability time of speech signals based on a stochastic mathematical model describing the voiced speech segments are obtained. The calculation formulas for special cases, corresponding to high signal to noise ratio are given.

На сегодняшний день актуальным научно-практическим направлением в радиотехнике, связи, телекоммуникационных системах, медицине и т.д. является обработка речевых сигналов [1]. В связи c этим параметризация речевых сигналов (выделение небольшого набора существенных параметров) должна адекватно

отображать свойства речи и голоса передаваемой посредством речевых сигналов информации. При этом вычисление существенных параметров речевых сигналов (например, частоты основного тона (ЧОТ), формантных частот, амплитуд

спектральных составляющих на ЧОТ и частотах обертонов, и др.) проводится на конечных временных интервалах.

Таким образом, актуальной научной задачей является определение временного интервала исследуемого временного ряда, на котором оцениваемые параметры будут адекватно отражать характеристики изучаемого процесса.

В инженерной практике вместо точного аналитического задания вида нормированной корреляционной функции (коэффициента корреляции) часто

7

Радиотехника и связь

используют лишь интервал корреляции (время корреляции) тк, что даёт ориентировочное представление о том, на каком интервале времени в среднем имеет место заметная коррелированность между значениями случайного процесса, существенная для решаемой задачи [2].

Заметим, что время корреляции определяется как характерное время спадания до нуля коэффициента корреляции [2, 3]. Поскольку это понятие качественное, то решение многих задач будет сильно зависеть от их количественного определения. В работах [2—5] приведено более десяти определений тк, собранных из разных источников. Некоторые из них не являются универсальными, то есть они справедливы только для монотонно спадающих с ростом задержки или слабо осциллирующих нормированных корреляционных функций r(т) и не годятся для осциллирующих в общем случае. Все остальные с помощью введения параметров можно свести всего к трем видам:

ГО

т® = JI r (т) |а ёт, 0 <а <го; (1)

0

Тк2) = max{ т: | г(т) |> s}, 0 < s < 1; (2)

ГО

J| т■ r(т) \а ёт

тк3) = "°то-------’ 0 < а < го • (3)

J \r (т)\а ёт 0

Идея, которая привела к определению (3), заключается в отождествлении тк с некоторым «корреляционным моментом порядка а». Однако тестирование определений (1) — (3) по различным моделям корреляционных функций показало, что определением тк в виде (3) нецелесообразно пользоваться на практике по двум причинам [3]. Во-первых, для двух коэффициентов корреляции ^(т) и Г2(т) таких, что

для всех т справедливо 171(т)|>| Г2(т)\, интервал корреляции т^3, рассчитанный по Г2(т) , может оказаться значительно (во много раз и даже порядков) больше, чем рассчитанный по г\(т) [3]. Во-вторых, для дельтообразных корреляционных функций определение (3) может давать бессмысленные результаты [3]. Например, если в дискретном времени рассмотреть корреляционную функцию, которая при всех задержках равна нулю, кроме единственной задержки т = n, где она принимает

значение r(n) = 1/n, то определение (3) дает значение т® = па , что при больших n приводит к значительным значениям времени корреляции, однако, на самом деле, для больших n очевидно, что тк ~ 0 [3].

Таким образом, остается всего два рациональных определения времени корреляции — (1) и (2). При этом для осциллирующих корреляционных функций наиболее часто используется определение (1) при а = 1. Геометрически так заданное тк равно основанию прямоугольника с единичной высотой, имеющего ту же площадь, что и площадь под кривой | r(т) |.

8

Вестник Воронежского института МВД России №3 / 2015

Важно отметить, что время корреляции тк является наихудшей оценкой временного интервала, на котором наблюдаемый процесс выступает как предсказуемый.

В связи с этим актуальной научной задачей представляется определение и расчёт адекватной оценки временного интервала, на котором исследуемый процесс (а обрабатываемый речевой сигнал является одной из реализаций наблюдаемого процесса) выступает как предсказуемый.

Для оценки данного временного интервала применительно к обработке речевых сигналов, на котором наблюдаемый процесс выступает как предсказуемый, предлагается использовать время предсказуемости гп [3, 6].

Время предсказуемости можно определить как максимальный временной интервал предсказуемости (детерминации) временного ряда, в пределах которого дисперсия (среднеквадратичное отклонение) прогноза будет меньше дисперсии (среднеквадратичного отклонения) временного ряда [3].

Чрезвычайно существенно, что время предсказуемости гп может заметно превышать время корреляции тк, которое служит характерным масштабом спадания степени когерентности (коэффициента корреляции) [6]. Значение времени корреляции можно приближенно оценить как величину, обратную ширине спектра тк ~ 1 /(А/) [6]. Время предсказуемости гп определяется совершенно иными факторами: уровнем шумов (измерительные шумы, флуктуационные воздействия на систему и др.), точностью используемой математической модели и т.д. Другими словами, время гп существенным образом зависит от априорных сведений, касающихся динамики системы, поэтому во многих случаях возможно значительное превышение времени предсказуемости относительно времени корреляции, т.е. тп >>тк.

Конструктивным подходом к оценке времени предсказуемости является способ [3], основанный на определении гп как значение задержки т , при которой огибающая модуля коэффициента корреляции спадает до некоторого уровня.

Для расчёта оценки времени предсказуемости вокализованного сегмента речи воспользуемся математической моделью речевого сигнала в виде суммы реализаций двух случайных процессов:

£(t) = u(t) + n(t). (4)

Здесь u(t) является реализацией квазидетерминированного процесса (в виде импульса АМ-колебания с несколькими несущими частотами для случая случайных начальных фаз), характеризуя вокализованные сегменты речи, и определяется следующим образом:

L

u(t) = (l + Mcos [2^F0t + Ф0 cos \2nl/ot + pi ] t е[0ти] (5)

l=1

где М — глубина модуляции; Fo и Фо — соответственно частота и начальная фаза модулирующего по амплитуде колебания; /о — ЧОТ; Ui и pi — соответственно амплитуда и начальная фаза l -й гармоники несущего колебания; Ти — длительность импульса. При этом в формуле (5) Фо и pi — случайные величины, не коррелированные между собой и равномерно распределённые в интервале [0;2^] с плотностями вероятностей:

9

Радиотехника и связь

Рщ =■

(6)

2л’ ^Ф° 2л

Отметим, что процесс с реализациями u(t) является стационарным в широком смысле, эргодическим случайным процессом, функция корреляции которого (для центрированного процесса):

R (^) = 1

f2

M'

1 + —- cos [2лРдг]

(7)

L

X'2 cos [2nlhT] •

. i=1

Для описания шумовых и фоновых составляющих вокализованного речевого сегмента воспользуемся математической моделью n(t), которой соответствует аппроксимация односторонней спектральной плотности мощности случайного

процесса N(f) [В2-с] набором постоянных составляющих Nq, Nk, k = 1; K в полосах частот с соответствующей шириной П0, Пk [Гц] в окрестности центральных частот Fk [Гц]:

N(f) = \

Nо,при f е N\,при f е

о- По }

F-*П F + П}

(8)

Rn (т) =

NK> при f е р

nq П0

F ПK -F . П

Fk 2K-Fk 2

K

Функция корреляции такого случайного процесса имеет вид:

K

sinc (лП0 т) + XNk Пk - sinc (лПk т) -cos(2^ Fk т)

k=1

2

(9)

Данный случайный процесс является стационарным в широком смысле и эргодическим.

Можно показать, что случайный процесс £(t) также будет стационарным в широком смысле и эргодическим.

Положим, что реализации u(t) и n(t) соответствующих процессов некоррелированны между собой, таким образом, функция корреляции процесса с реализациями <^(t) — стохастическая модель (4), для центрированных случайных процессов, имеет вид:

r4(t) = Pu (т) + Rn (т)

1

2

1 +

M2

2

cos [2лFQт]

L

X'l2 cos [2л1М +

l=1

+

N0 П0

K

2

sinc (лП0 т) + XNk Пk - sinc (л П т) - cos(2л Fk т) •

(10)

k=1

Коэффициент корреляции модели (4) рассчитывается следующим образом [7]:

2

‘ (11)

z 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

r%(т) = “2— ru(т) + 2— rn(т), z +1 z +1

10

Вестник Воронежского института МВД России №3 / 2015

22/2 22 где z2 =&и1 = R (0)/Rn (0) — отношение сигнал-шум (ОСШ); о^ и о„ —

дисперсии сигнальной и шумовой компонент соответственно; ru (т) = Ru (г)/Ru (0) ; rn (т) = Rn (т)/Rn (0).

Таким образом, коэффициент корреляции с учетом (7), (9), (11) имеет вид:

г^(т) = ■

z 2 M 2 1 + cos 1 1 <N L XUlcos [2ж//0т] l=1

z2 + 1 1 M2 1 + 2 L XUl l=1

+

+

K

X

k=1

sinc (ж П0 т) + XNk Пk • sinc (ж Пk т) • cos(2^ Fk т)

z2 +1

N0 П0 2

K

(12)

+

X Nk П k

k=1

Для расчета времени предсказуемости как задержки т , при которой огибающая модуля коэффициента корреляции спадает до уровня s, воспользуемся свойством функции корреляции амплитудно-модулированного колебания [8]:

R™ (т) = Rm!l (т) • RKec (т), (13)

где Rмoд (т), RK^ (т) и R3H (т) — соответственно функции корреляции

модулирующего, несущего и амплитудно-модулированного колебаний.

Учитывая свойство (13), огибающая модуля коэффициента корреляции:

U

I г|(т)1

M 2

2 z 1 + —- cos [2ж^зт]

z2 +1

+

1

1 +

2

z2 +1

1 + 2ж • -

N0 П0 2

K

(14)

+

X Nk П k

k=1

K

X Nk

k=0

При M e [0; V2] первое слагаемое будет неотрицательным, в результате формула (14) принимает вид:

U

1 г|(т)|

M 2

z 2 1 + — 1 2 — +

1

z2 +1

1 +

M_

2

2

z2 +1

N0 П0

K

(15)

1 + 2ж • -

2

+

X Nk п

k=1

K

X Nk

k=0

Таким образом, необходимо решить относительно т трансцендентное уравнение

U[| г#(т)|] = s. (16)

1

1

11

Радиотехника и связь

Уравнение (16), в общем случае в аналитическом виде решения не имеет, найти решение можно, воспользовавшись одним из численных методов (например, методом дихотомии, методом хорд, методом касательных, методом последовательных приближений и др.) [9].

Рассмотрим подробнее частный случай при z (16) принимает вид:

M 2

1 н--cos [2^Р0гп ]

2

2

1 +

M

2

- s.

2

>> 1. В данном случае уравнение

(17)

решение которого в аналитическом виде:

1

=

2ж- F

arccos

s--

1_

M 2

(1 -s)

(18)

Следует отметить, что самостоятельной задачей и направлением научных исследований является определение адекватных значений уровня s, до которого должна спадать огибающая модуля коэффициента корреляции.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В работе [3] указано на определение разумных значений данного уровня, однако, к сожалению, не приводится чёткий критерий для определения численного значения уровня s .

Тем не менее, ряд авторов указывают на успешное использование эмпирически подобранных значений уровня s для решения задач обработки речевых сигналов. Например, в работе [10] порог для принятия решения о признаке «тон-шум» (вокализованный или невокализованный речевой сегмент) устанавливается по уровню спадания коэффициента корреляции s - 0,4. Заметим, что для расчета времени предсказуемости временного ряда в работе [3] также рекомендуется использовать уровень s - 0,4.

Расчетное выражение для оценки времени предсказуемости для параметров: s - 0,4; M -1 имеет следующий вид:

0,4

F

(19)

0

т

п

При значении частоты модулирующего по амплитуде колебания F) = 1/ :

гп * 0,4 -ги, (20)

а для F0 - 2/ги:

гп * 0,2 -ги. (21)

В качестве параметра, показывающего, во сколько раз время предсказуемости превосходит время корреляции, можно использовать относительное время предсказуемости [3]:

g = -. (22)

Выражение для расчета относительного времени предсказуемости при

2

использовании формулы расчета времени корреляции (для z >> 1; U[ - const; M -1):

12

Вестник Воронежского института МВД России №3 / 2015

h =

b(r)|dr=WL

(23)

имеет следующий вид:

з • 4L

g = -—-----|arccos[3£- 2]|. (24)

8•Ао •Тн

Рассматривая область главных значений арккосинуса [—ж; ж], получим (учитывая, что arccos[—1] = ±ж) при £ = 1/3 максимальное значение относительного времени

предсказуемости:

gmax

3n-4L

8 • А0 h ’

(25)

что соответствует при А) • ги = 1:

gmax = 1,178 XL. (26)

Отметим, что в реальном речевом сигнале амплитуды несущих гармоник не являются константами (Ui ^ const) [11,12], это приводит к увеличению значения времени корреляции примерно на 20%. В результате формула (26) для практической оценки максимального относительного времени предсказуемости принимает вид:

gffiT WL. (27)

Таким образом, при увеличении количества несущих гармоник L относительное время предсказуемости вокализованных сегментов речи увеличивается

пропорционально 4L. Например, для четырёх несущих гармоник в речевом сегменте (что соответствует звуку /у/) время предсказуемости более чем в два раза превышает

время корреляции (gmXX™ ~ 2 ); для девяти несущих гармоник в речевом сегменте (что соответствует звуку /э/) время предсказуемости более чем в три раза превышает время

корреляции (g№T -3).

Заметим, что значительное относительное время предсказуемости в большей степени присуще процессам с осциллирующими корреляционными функциями [3], к которым, собственно, и относится функция корреляции (10).

Полученные выражения для расчёта времени предсказуемости дают возможность, например, определить временной интервал (или количество отсчётов) для коэффициента корреляции, который следует использовать для оценки существенных параметров речевого сигнала (частоты основного тона, амплитуд гармоник на частоте основного тона и обертонах, формантных частот и др.). Также время предсказуемости позволяет оценить временной интервал, в течение которого можно получить адекватный прогноз исследуемого временного ряда (например, речевого сигнала), когда ошибка прогноза (на основе математической модели) будет меньше ошибки самого временного ряда.

ЛИТЕРАТУРА

1. Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Распознавание личности по голосу: аналитический обзор // Информационные процессы. — 2012. — Т. 12. — № 1. — С. 1—30.

13

Радиотехника и связь

2. Тихонов В.И. Статистическая радиотехника. — М.: Радио и связь, 1982. —

624 с.

3. Моисеев С.Н. Вероятностные модели и прогноз частотных параметров ионосферного канала распространения радиоволн через спорадический слой Е: дис. ... д-ра. физ.-мат. наук: 01.04.03. — Воронеж, 2002. — 239 с.

4. Мирский Г.Я. Характеристики стохастической взаимосвязи и их измерения. — М.: Энергоизадт, 1982. — 320 с.

5. Романенко А.Ф., Сергеев Г.А. Вопросы прикладного анализа случайных процессов. — М.: Сов. радио, 1968. — 256 с.

6. Кравцов Ю.И. Случайность, детерминированность, предсказуемость // Успехи физических наук. — 1989. — Т. 158. — Вып. 1. — С. 93—122.

7. Голубинский А.Н., Булгаков О.М. Математические модели речевых сигналов для верификации и идентификации личности по голосу. — Воронеж: Издательскополиграфический центр Воронежского государственного университета, 2010. — 364 с.

8. Радиотехнические цепи и сигналы / Д.В. Васильев [и др.]; под ред. К.А. Самойло. — М.: Радио и связь, 1982. — 528 с.

9. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. — М.: Наука,1973. — 832 с.

10. Маркел Дж., Грей А.Х. Линейное предсказание речи. — М.: Связь, 1980. —

308 с.

11. Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник Воронежского института МВД России. — 2011. — № 3. — С. 144—153.

12. Голубинский А.Н., Гущина А.А. Математическая модель вокализованных сегментов речевого сигнала, основанная на модели речевого тракта // Вестник Воронежского института МВД России. — 2012. — № 4. — С. 72—80.

REFERENCES

1. Sorokin V.N., Vyugin V.V., Tananyikin A.A. Raspoznavanie lichnosti po golosu: analiticheskiy obzor // Informatsionnyie protsessyi. — 2012. — T. 12. — # 1. — S. 1—30.

2. Tihonov V.I. Statisticheskaya radiotehnika. — M.: Radio i svyaz, 1982. — 624 s.

3. Moiseev S.N. Veroyatnostnyie modeli i prognoz chastotnyih parametrov ionosfernogo kanala rasprostraneniya radiovoln cherez sporadicheskiy sloy E: dis. d-ra. fiz.-mat. nauk: 01.04.03. — Voronezh, 2002. — 239 s.

4. Mirskiy G.Ya. Harakteristiki stohasticheskoy vzaimosvyazi i ih izmereniya. — M.: Energoizadt, 1982. — 320 s.

5. Romanenko A.F., Sergeev G.A. Voprosyi prikladnogo analiza sluchaynyih protsessov. — M.: Sov. Radio, 1968. — 256 s.

6. Kravtsov Yu.I. Sluchaynost, determinirovannost, predskazuemost // Uspehi fizicheskih nauk. — 1989. — T. 158. — Vyip. 1. — S. 93—122.

7. Golubinskiy A.N., Bulgakov O.M. Matematicheskie modeli rechevyih signalov dlya verifikatsii i identifikatsii lichnosti po golosu. — Voronezh: Izdatelsko-poligraficheskiy tsentr Voronezhskogo gosudarstvennogo universiteta, 2010. — 364 s.

8. Radiotehnicheskie tsepi i signalyi / D.V. Vasilev [i dr.]; pod red. K.A. Samoylo. — M.: Radio i svyaz, 1982. — 528 s.

14

Вестник Воронежского института МВД России №3 / 2015

9. Korn G., Korn T. Spravochnik po matematike dlya nauchnyih rabotnikov i inzhenerov. — M.: Nauka,1973. — 832 s.

10. Markel Dzh., Grey A.H. Lineynoe predskazanie rechi. — M.: Svyaz, 1980. —

308 s.

11. Golubinskiy A.N. Vyiyavlenie emotsionalnogo sostoyaniya cheloveka po rechevomu signalu na osnove veyvlet-analiza // Vestnik Voronezhskogo instituta MVD Rossii. — 2011. — # 3. — S. 144—153.

12. Golubinskiy A.N., Guschina A.A. Matematicheskaya model vokalizovannyih segmentov rechevogo signala, osnovannaya na modeli rechevogo trakta // Vestnik Voronezhskogo instituta MVD Rossii. — 2012. — # 4. — S. 72—80.

СВЕДЕНИЯ ОБ АВТОРЕ

Голубинский Андрей Николаевич. Начальник кафедры радиотехники и электроники. Доктор технических наук, доцент.

Воронежский институт МВД России.

E-mail: annikgol@mail.ru

Россия, 394065, г. Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-54.

Golubinskiy Andrey Nikolaevich. Chief of the chair of Radio Engineering and Electronics. Doctor of Technical Sciences, Assistant Professor.

Voronezh Institute of the Ministry of the Interior of Russia.

E-mail: annikgol@mail.ru

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-54.

Ключевые слова: речевой сигнал; коэффициент корреляции; время корреляции; время предсказуемости; математическая модель; отношение сигнал-шум.

Key words: speech signal; correlation coefficient; correlation time; predictability time; mathematical model; signal to noise ratio.

УДК 519.7:534.78:621.39

15

i Надоели баннеры? Вы всегда можете отключить рекламу.