УДК 681.391
В. Н. ЖУРАВЛЕВ (Запорожский национальный технический университет), И. В. ЖУКОВИЦКИЙ (ДИИТ)
АНАЛИЗ ДЕВИАЦИИ ЧАСТОТЫ ФОНАЦИИ
ПРИ ДЕМОДУЛЯЦИОННОЙ ОБРАБОТКЕ РЕЧЕВОГО СИГНАЛА
Розглянуто алгоритм цифрово! обробки вдентифжацшного фрагменту мови, що дозволяе на основ1 аналь зу значення несучо! частоти сигналу мови, який наведений у вигляд1 сигналу з фазовою модулящею, тдви-щити точшсть щентифшацд параметр1в фонем.
Рассмотрен алгоритм цифровой обработки идентификационного фрагмента речи, позволяющий на основе анализа девиации несущей частоты речевого сигнала, представленного в виде сигнала с фазовой модуляцией, повысить точность идентификации параметров фонем.
In clause the algorithm of digital processing of an identification fragment of speech allowing is considered, on the basis of the analysis deviation of carrying frequency of a speech signal submitted as a signal with phase modulation, to increase accuracy of identification of parameters phoneme.
Широкое распространение информационных систем на железнодорожном транспорте предопределяет необходимость разработки методов защиты информации, которая хранится и обрабатывается в этих системах, в том числе -методов идентификация абонентов системы. Одними из известных методов идентификации являются биометрические методы. При этом основная трудность применения речевых технологий в системах биометрической идентификации абонентов сетей связи - это недостаточная устойчивость методов распознавания слитной речи по отношению к входным ошибкам и ошибкам обработки. Большинство методов, которые применяются в настоящее время, основаны на моделях генерации гипотез с использованием семантико-синтаксических или стохастических ограничений. Методы базируются на применении теории цепей Маркова, теории нейронных сетей [1], выделения гипотез фонем методом скользящего анализа сигнала с последующей оценкой гипотез морфем на основе акустического правдоподобия словоформ и правдоподобия временных интервалов [2],
оценивания спектральной энергии сегментов речевого сигнала [3].
Минимальными структурно-функциональными звуковыми единицами в большинстве языков являются фонемы. Они сами по себе не обладают смысловыми значениями, но потенциально связаны со смыслом как элементы единой знаковой системы. В сочетании друг с другом, и нередко по отдельности, они образуют слова и обеспечивают опознавание (идентификацию) и различение (дифференциацию) языковых знаков как значимых единиц.
Как правило, полное описание речевого сигнала только его спектром невозможно. Наряду со спектральной информацией, необходима еще и информация о динамике речи, которую определяют параметры активного состояния фонем. Для расчета параметров и характеристик, идентифицирующих активное состояние фонем в составе слов, наиболее часто применяются классические методы спектрально-временного анализа [4].
Известен [1] алгоритм идентификации параметров активного состояния фонем, функциональная схема которого представлена на рис. 1.
Рис. 1. Функциональная схема алгоритма идентификации параметров активного состояния фонем
Сигнал 5 (^) преобразовывается в блоке 1 (см. рис. 1) в цифровую форму 5 (пТ) аналого-
цифровым преобразователем АЦП на основании обобщенной теоремы отсчетов с частотой дискретизации
Л = V Т,
где Т - интервал дискретизации, которая должна быть не менее удвоенной верхней частоты канала тональных частот (ТЧ).
Для последующей обработки сигнал 5(пТ) обрабатывается в блоке 2 фильтром с передаточной характеристикой Нтч (сотч), соответствующей каналу ТЧ:
5тч (пТ ) = 5 (пТ )Нтч (сотч ). (1)
Блок 3 осуществляет оконное Ж (Ти, к) сегментирование сигнала 5тч (пТ) с параметрами:
Ти - определяет длительность сегмента идентифицируемого сигнала на основании значения полосы частот Дютч канала ТЧ и постоянной времени слуха Тс [5]
T^ = f (тч ,ГС);
(2)
к - определяет количество сегментов идентификации и является функцией от Ти и коэффициента перекрытия сегментов идентификации Кпер, который обычно [3] принимается
равным 0,5.
Идентификацию амплитуд А и мощности N спектральных составляющих формант по п
полосам (с серединными частотами с>1.. с.. .сот) осуществляют блоки фильтров 4.1 ...4.7...4.т, с передаточными характеристиками Н1 (£ ), на выходах которых образуются сигналы
St (со,. ) = 5ТЧ (nT)Hi (со,. ).
(3)
В блоке 5 осуществляется обработка сигналов (сог-) с записью параметров формант (А, N, 8) в матрицу эталонов идентификационных признаков абонентов М [г, V ], где г - вектор абонентов, V - вектор идентификационных параметров абонента.
Рассмотренный алгоритм позволяет анализировать фрагменты речевых сигналов на временном отрезке Ти . Таким образом, дискретность определения времени активного состояния фонемы зависит от Ти, что вносит погрешность в идентификационные параметры V абонента.
В данной работе предложен алгоритм идентификации фонем, основанный на анализе изменения несущей частоты при фазовой демодуляции речевого сигнала абонента. В основе алгоритма лежит наблюдение, что при фазовой демодуляции речевого сигнала, значение несущей частоты изменяется на границах фонем, а значит, может быть представлено как идентификационный параметр.
Сигнал s (t) на интервале времени идентификации Тр является сигналом с конечной
энергией, не содержит дельта-функций и разрывов. Основываясь на этом можно предположить, что параметры его изменения можно определить, исследуя девиацию несущей частоты Люн, при представлении речевого сигнала как сигнала с угловой модуляцией.
Представим речевой сигнал s (t) на сегменте идентификации Тр в виде сигнала несущей с частотой ган, который модулирован информационным сигналом sy (t) . Мгновенные амплитуда Ay (t)) и фаза фу (t) сигнала s (t) изменяются по закону Y передаваемого сообщения
s (t) = Ay (t)cos [aHt + шy (t) + фо ], (4)
где Ay (t) - амплитудная огибающая сигнала s (t) ; фу (t) - мгновенная фаза сигнала s (t) ;
ф0 - начальная фаза сигнала s (t).
Весь аргумент функции cos выражения (4) представляет полную фазу ¥(t) сигнала s (t):
¥( t ) = ^t + фу (t ) + фо. (5)
Для выделения мгновенной амплитуды и фазы применим метод низкочастотного эквивалента [6], который заключается в замене исходного сигнала s (t) его комплексной огибающей. Запишем сигнал s (t) в экспоненциальной форме
,(t) = Re{^ (t)^(t)}.
(6)
Выражение в фигурных скобках является комплексной функцией действительной переменной
S(t) = Ay (t){cos(t)] + jsin(t)]}, (7)
действительная часть которой совпадает с исходным сигналом 5 (t) , а мнимая часть
u (t) = Ay (t)sin[¥(t)]
(8)
отличается от исходного сигнала поворотом фазы на угол (—я/2) и является сопряженным гармоническим сигналом. Сопряженный гармонический сигнал получаем из исходного 5 ) , проведя над ним преобразование Гильберта
и () = П1
тт •>
1 Т 5 (т)
Л т,
П 0 т — t
(9)
где t - текущее время; т - подынтегральное время свертки.
Данный интеграл представляет собой линейную свертку сигнала 5 (т) и функции 1/П)
и, таким образом, является идеальным фазовращателем, вносящим на всех частотах фазовый сдвиг, равный - 90°.
Можно определить модуль мгновенной огибающей Ау () сигнала 5 (^)
Ау (г) = 752 (г) + и2 (г) , (10)
полную мгновенную фазу
и ( Г )
Выделив в мгновенной частоте постоянную несущую юн и начальную фазу фо, можно вычислить мгновенную фазу фу ()
фу (0 = ^(0 — Ю^ — Фо = 5у (), (13)
которая является искомой информационной составляющей 5у (t) в фазомодулированном
речевом сигнале 5 (t).
Под индексом фазовой модуляции в понимают [6] отношение девиации несущей частоты Дюн к частоте ю у модулирующего сигнала
5у (t) . Потребуем неизменности индекса модуляции на интервале времени Тр и положим его равным единице в = 1
в=Дюн
ю,
= 1.
(14)
) = агС§
(11)
и мгновенную частоту ю'^)
и (t)
ч dт(t) а I
а л |
*)
5 (t)^ — и ({)^
v ' Л v' л
5 2 () + и 2 ()
. (12)
В этом случае можно предположить, что изменения мгновенной фазы информационной составляющей фу ^) (13) на интервале Тр будут отражены в функции девиации несущей частоты Дюн.
С целью увеличения точности идентификации параметров фонем предлагается дополнить существующие методы следующим алгоритмом. Сигнал 5 ^) преобразовывается в блоке 1
(рис. 2) в цифровую форму 5(пТ) аналого-
цифровым преобразователем АЦП с частотой дискретизации /5.
Рис. 2. Функциональная схема алгоритма идентификации параметра несущей частоты фонем
Блок 2 осуществляет оконное Ж (Ти, к) сегментирование сигнала 5тч (пТ) . Таким образом, сигнал на выходе блока 2 будет определяться
5 (пТ,Тик ) = 5 (пТ )Ж (Тик ). (15)
Блок 3 производит декодирование сигнала 5 (пТ,Тик) в соответствии с выражением (13) на сегменте длительностью Ти с определением значения несущей частоты юп
5у (пТ,Ти , юн,в = 1) = ^ (пТ) — юнпТ — Фо, (16)
где Ти - время идентификации несущей частоты юн.
В блоке 4 определяются значения несущей частоты юн на интервале времени Тр .
По предлагаемому алгоритму был произведен расчет несущей частоты юп морфем «АКУЛА», «НАУКА» и «КУКЛА», содержащих одинаковые фонемы.
В результате расчетов, которые проводились в программной среде Ма1;ЬаЬ 6.5, получены следующие графики (рис. 3-5).
Т.
Морфема "аки1а"
а
6
Рис. 3. Графики анализа морфемы «АКУЛА»: а - график зависимости сигнала морфемы от времени 5 (пТ); б - график девиации
параметра несущей частоты на интервале времени идентификации <вн (Тр)
Морфема "пайка"
О 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
а
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
б
Рис. 4. Графики анализа морфемы «НАУКА»:
а - график зависимости сигнала морфемы от времени 5 (пТ);
б - график девиации параметра несущей частоты на интервале времени идентификации <вн (Ти)
Рис. 5. Графики анализа морфемы «КУКЛА»: а - график зависимости сигнала морфемы от времени 5 (пТ);
б - график девиации параметра несущей частоты на интервале времени идентификации юн (Ти)
Речевой сигнал морфем записывался на жесткий диск ПЭВМ с частотой дискретизации 96 кГц и 16-разрядным квантованием по уровню.
Проведя анализ вариации параметра несущей частоты юн (Ти) для вокализованных фонем «а», «у» и «л» на интервале Тр, можно сделать следующие выводы:
— несущая частота фонемы «а» лежит в пределах 480...650 Гц;
— несущая частота фонемы «у» лежит в пределах 220.250 Гц;
— несущая частота фонемы «л» лежит в пределах 180.270 Гц.
Однако характер девиации несущей частоты юн (Ти ) на интервале идентификации вокализованных фонем разный, поэтому для определения обобщенных зависимостей параметров идентификации требуется проведение дополнительных исследований.
Выводы
Полученные результаты позволяют сделать вывод о целесообразности применения предложенного алгоритма при идентификации параметров фонем.
Повышение эффективности идентификации достигается на основании проведения, дополнительно к существующим методам, анализа девиации несущей частоты фонем речи, представленной в виде сигнала с фазовой модуляцией.
Увеличение точности идентификации возможно при анализе статистической обработки девиации значений параметра несущей частоты для фонем идентифицируемого абонента сети.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Лалетин П. А. Использование сетей с самостоятельной адаптацией для распознавания слов человеческой речи / П. А. Лалетин, Э. Г. Лалетина, Ю. П. Ланкин // Научная сессия МИФИ-2000. 2-я Всероссийская научно-техническая конференция «Нейроинформатика-2000»: Сборник научных трудов. В 2-х частях. Ч. 2. - М.: МИФИ, - 2000. - С. 88-95.
2. Старушко Д. Г. Новая система признаков для распознавания речевых единиц / Д. Г. Старушко, В. Ю. Шелепов // Штучний штелект. - 2002. - № 4. - С. 48-53.
3. Филимонов В. В. Опыт создания системы автоматического распознавания русской речи: Тезисы международной конференции «Информатизация правоохранительных систем», - М.: 1998. Ч. 2, -С.104-106.
4. Бондарко Л. В. Звуковой строй современного русского языка. - М.: Просвещение, 1997. - 175 с.
5. Цвикер Э. Ухо как приемник информации / Э. Цвикер, Р. Фельдкеллер; Пер. с нем. под ред. Б. Г. Белкина. - М.: Связь, 1971. - 225 с.
6. Гоноровский И. С. Радиотехнические цепи и сигналы: Учебник для вузов. - М.: Радио и связь, 1986. - 512 с.
Поступила в редколлегию 29.10.2005.