О.М. Булгаков,
доктор технических наук, доцент
А.Н. Г олубинский,
кандидат технических наук
ОЦЕНКА ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА МЕТОДОМ МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПРИ ИЗВЕСТНОМ РАСПРЕДЕЛЕНИИ АМПЛИТУД И НАЧАЛЬНЫХ ФАЗ ГАРМОНИК СЛОЖНОГО НЕСУЩЕГО
КОЛЕБАНИЯ
PITCH FREQUENCY ESTIMATION OF A SPEECH SIGNAL BY A MAXIMUM LIKELIHOOD METHOD AT KNOWN DISTRIBUTION OF AMPLITUDES AND INITIAL PHASES OF HARMONICS OF THE COMPOUND CARRYING OSCILLATION
Разработан способ оценки частоты основного тона речевого сигнала при оптимальной временной обработке на основе математической модели с полигармониче-ской несущей. Получены точностные характеристики оценки частоты основного тона методом максимального правдоподобия при известных априорных распределениях амплитуд и начальных фаз гармоник.
The approach of pitch frequency estimation of a speech signal at optimum time processing on the basis of mathematical model with polyharmonic carrying is developed. The accuracy characteristics of pitch frequency estimation by maximum likelihood method at known a priori distributions of amplitudes and initial phases of harmonics are calculated.
Оценивание периода (или частоты) основного тона является одной из наиболее важных задач в обработке речи [1]. Выделитель основного тона используется в вокодерах, системах идентификации и верификации дикторов, в устройствах, предназначенных для глухих [1]. В этой связи важным качеством метода оценки частоты основного тона является его универсальность, т.е. обеспечение удовлетворительных результатов для различных дикторов в различных областях применения и условиях эксплуатации.
Адекватная математическая модель u(t), описывающая вокализованные речевые сегменты [2], обеспечивает принципиальную возможность создания алгоритмов оптимальной обработки, например для расчёта оценки частоты основного тона [3].
Цель работы — разработка способа оценки частоты основного тона речевого сигнала при оптимальной временной обработке на основе математической модели с полигармонической несущей для случая известных априорных распределений амплитуд и начальных фаз гармоник.
Оптимальным приёмником (по Вудворту) называется приёмное устройство, образующее на своём выходе апостериорное распределение оцениваемого параметра [4]. В условиях априорной неопределённости оцениваемого параметра, при неслучайном (хотя и неизвестном) оцениваемом параметре, а также когда получение апостериорного распределения сложнее, чем получение функции отношения правдоподобия, целесообразно в качестве оптимального метода оценки использовать метод максимального правдоподобия (МП) [3].
Пусть детерминированный сигнал u(t,f0) принимается на фоне шума n(t), при этом требуется оценить значение существенного параметра fg, заключённого в
сигнале u (V, /0).
Рассмотрим оценку частоты основного тона методом максимального правдоподобия, оперируя математической моделью речевого сигнала:
/0) = и (t, /0) + п^X (1)
где и(V, /0) — детерминированный сигнал, представленный модуляционной полигар-
монической моделью [5]:
К Ь
и(Х/0) = 2Мк со8(2рЛ,Ромодt + Фк)2и/ СО<2р//0 t + Р), tе[°^и]. (2)
к=0 1=1
Здесь Мк и ^)мод — соответственно глубина амплитудной модуляции к -й гармоники и наименьшая частота модулирующего колебания; и/ — амплитуда /-й гармоники несущего колебания; /0 — частота основного тона (ЧОТ); Фк и р/ — соответственно начальные фазы модулирующих и несущих гармоник; (К +1) и Ь — количество модулирующих и несущих гармоник соответственно. Функция п^) в выражении (1) — шумовая компонента в виде гауссова случайного процесса с нулевым средним значением и функцией корреляции вида
ч )=N 51 - Ч), (3)
где N0 — односторонняя спектральная плотность мощности; 5() — 5 -функция Дирака.
Из-за наличия шумовой компоненты по принятому колебанию (1) нельзя с полной достоверностью определить его ЧОТ. Наличие шумов обусловливает случайный характер результатов наблюдений. Измерение ЧОТ по сигналу и (V, /0) при наблюдении реализации случайного сигнала %^, /0) (1) проведём на основе методов математической статистики [4,6]. Поскольку определение неизвестного параметра / производится на основе обработки реализации случайного сигнала, то оценка параметра также является случайной величиной. В этом случае наиболее полные сведения о возможных значениях параметра содержатся в апостериорной плотности вероятности (/) = w [ / Х(',«0)], которая является условной плотностью вероятности параметра
/ при условии, что принята данная реализация Х^,/0) [4]. Перепишем апостериорную плотность вероятности, выделяя априорные сведения Wpr (/) [6]:
WpS (/) = ^рГ (/) Л(/), (4)
где Л(в) — функционал отношения правдоподобия (ФОП) [6]; К — нормирующий коэффициент. Оценка параметра / по апостериорному распределению производится на основе байесовского метода, минимизирующего среднюю величину потерь, возникающих при неточном определении параметра [6]. Если априорное распределение Wpr (/) неизвестно, то оценка может производиться по максимуму ФОП [4,6]. Выбор
оценки по максимуму Л(в) оправдан тем, что при увеличении времени наблюдения или увеличении энергетического отношения сигнал/шум (ОСШ) оценка максимального правдоподобия (ОМП) становится состоятельной, эффективной, асимптотически байесовской, асимптотически нормальной [4,7].
При наблюдении сигнала (1) на фоне аддитивного гауссова шума с функцией корреляции (3) логарифм ФОП (ЛФОП) имеет вид [4]:
2 т 1 т
М(/) = — Г Х(/, /о) 4(1, /) а/ Г и2 (/, /) а/, (5)
М Ыоо
где Т — время наблюдения.
ОМП параметра / определяется как
./0 = ш^р М (/). (6)
Устройство, формирующее (5), называют приёмником максимального правдоподобия (ПМП) [4]. При этом ЛФОП (5) является достаточной статистикой и определяет ту существенную операцию, которую надо произвести над принятой реализацией, чтобы извлечь всю информацию о неизвестном параметре, содержащуюся в реализации Х(/,/о) . Заметим, что в выражении для ЛФОП (5) от принятой реализации Х(/,/о) за-
висит только первое слагаемое, которое также является достаточной статистикой:
2 т
Мо(/)=— ГХ(/,/о)и(/,/)* . (7)
о о
В ходе исследований было выяснено, что полигармоническое модулирующее колебание, входящее в выражение (2), практически не оказывает влияния на точность оценки ЧОТ. Таким образом, в качестве опорного сигнала и(/, /) будем использовать полигармоническую математическую модель без учёта модуляции:
I
и(^ /) = Xи1 со*(2р1// + Ф[). (8)
I=1
Положим, что амплитуды и и начальные фазы ^ несущих гармоник априори
известны (например, из предварительного спектрального анализа).
Структура оптимального приёмника, синтезированного по методу максимального правдоподобия, при наблюдении сигнала (1) на основе ЛФОП (5) имеет вид, представленный на рис. 1, где обозначены:
т N-1
- блок 1 — интегратор | Н(/)ё/ или сумматор А ^ Щ/Д) в зависимости от того,
о /=о
обрабатывается аналоговый входной сигнал Х(/, /о ) или дискретный Х/ (/о ) = Х(/А, /о ), то есть данный блок реализует взятие интеграла по Стилтьесу [8]; при этом опорный сигнал и(/, /) для непрерывной обработки имеет вид (8), а для дискретной обработки принимается равным 4/ (/) ° и(/ А, /) ;
- блок 2 — квадратор;
- блок 3 — блок расчёта оценки ЧОТ в соответствии с выражением (6).
Рис. 1. Блок-схема алгоритма измерения частоты основного тона речевого сигнала методом максимального правдоподобия при известных амплитудах и начальных фазах
несущих гармоник
Проанализируем зависимость выходного эффекта ПМП в виде ЛФОП М (/) (5) от частоты опорного сигнала / . На рис.2 представлен график нормированного на наибольшее значение ЛФОП М^(/), полученный для речевого материала в виде слова “он”, при трёхгармоническом опорном сигнале ( Ь = 3) при значениях амплитуд гармоник Ц7/ = 1 и начальных фаз щ = 0.
График на рис. 2 свидетельствует о наличии глобального максимума, соответствующего наибольшему значению ЛФОП, аргумент которого является оценкой, и в данном случае оценка ЧОТ равна /о =155,1 Гц.
Рис. 2. Нормированный логарифм функционала отношения правдоподобия при неизвестных значениях амплитуд и начальных фаз гармоник при трёхгармоническом опорном сигнале
Сигнал на выходе ПМП, характеризуемый ЛФОП (5), с учётом принятой реализации X/, /о) (1) может быть представлен в виде
М(/) = §(Г)+И(Г), (9)
т.е. ЛФОП представляется суммой колебаний, где
2 т 1 т
5 (/) = 5 (/о, /) - 0(/)П = —І „(і, /о) и (і, /)<нІ и 2(і, /)аі — (10)
Щ3 н03
о о о о
сигнальная функция ЛФОП;
_ 2 т
N(/) = — |п(1) и (1,1 )а — (11)
0 о
шумовая (помеховая) функция ЛФОП;
2 т
5(/о,/) =тг І „(і,/о)„(і, /)<Х — (12)
#о0
сигнальная функция на выходе оптимального приёмника (7);
т
0(/)=5(/,/) =-^ І „2(і, / )аі — (із)
оо
ОСШ на выходе оптимального приёмника (7). Сигнал на выходе оптимального приёмника (7) соответственно может быть представлен в виде
М0 (/ ) = 5 (/о, /) + N (/). (14)
При этом ОСШ по мощности для принятого сигнала на выходе оптимального
приёмника (7):
^2 ° б(/о). (15)
Подробное обсуждение свойств колебания на выходе ПМП при наблюдении
сигнала вида (1) можно найти, например, в [4].
Исследуем характеристики оценки ЧОТ /о, полученной по методу максимального правдоподобия на основе ЛФОП (5) при известных амплитудах и начальных фазах несущих гармоник.
Согласно методу максимального правдоподобия, оценка определяется по положению максимума выходного эффекта приёмника максимального правдоподобия:
М (/ ) = Мо (/)-0(/)/2. (16)
Поскольку при наличии помех оценка носит случайный характер, то её характеристиками являются характеристики случайных величин, а именно: смещение, дисперсия, рассеяние [4]. Эти характеристики оценок могут быть найдены, если известно решение уравнения правдоподобия
*мш=о. (17)
а / ' ’
При этом ОМП соответствует случаю решения уравнения (17), когда
а м (/)
а /
= о
при
/о
а2 м (/) а /2
< о.
/о
Отметим, что в общем случае уравнение (17) нелинейное, а поэтому общих методов его решения нет. Однако в широко распространённом на практике случае достаточно надёжных оценок (ненадёжные оценки не представляют интереса для практики) решение этого уравнения может быть найдено методом малого параметра, с помощью которого нелинейное уравнение правдоподобия максимизируется, приводя тем самым к возможности получения его приближённого общего решения.
В известной реализации метода малого параметра [4] используется разложение оценок в степенной ряд по величине обратной ОСШ на выходе приёмника. Таким образом, приближённое решение уравнения правдоподобия можно найти методом малого параметра при большом энергетическом ОСШ [4].
Будем считать, что М (/) сходится к сигнальной функции § (/) в смысле «почти наверное»: Р{ Нш М(/) = §(/)} = 1 [9], где е = 1/г (2 — ОСШ по напряжению на е®0
выходе оптимального приёмника (7) в точке / = /0 ), тогда характеристики оценок, полученные методом малого параметра, в значительной степени определяют точность оценок параметров.
При условии высокой апостериорной точности можно ограничиться использованием лишь первого приближения. В этом случае оценка угла /0 асимптотически несмещённая и имеет нормальное распределение. При этом дисперсия оценки является асимптотически эффективной и определяется выражением [4]
п-1
Д/о!/о) =
Э 2 5 (/1, /2)
Э /1 Э /2 /1=/2=/о _
(19)
Условную дисперсию зачастую бывает удобнее выразить через производные нормированной сигнальной функции:
5 (/1, /2) = 5 (/1, /2)/Г2 Таким образом,
Д/о! /о) = -т
1 Э 2 5 (/1, /2)
~^2 г Э /1 Э /2 /1 = /2 = /о _
п-1
(2о)
(19а)
В качестве примера рассмотрим актуальный для практики случай, когда начальные фазы опорного полигармонического колебания (8) имеют фиксированное значение. В этой связи положим начальные фазы гармоник равными нулю jl = о. Подставляя при данном допущении функцию (8) в выражение (12), с учётом (2о) запишем нормированную сигнальную функцию следующим образом:
(і V1її
5 (/1, /2) = £ и} £ £{/і{/,„{5тс[2р(1/1 -/т ] + 51110^(1/1 + т/2)т]}.(21)
V 1=1 ) I=1 т=1
Подставляя (21) в (19а) и выполняя дифференцирование в точке истинного значения, получим выражение для условной дисперсии оценки при априори известных значениях амплитуд и начальных фаз гармоник принимаемого сигнала:
D(fo|fo)=
4p2z2T2 1=
L i L
ZU1Um1m{sinc[2p(1-m)f0T] - sinc[2p(1+m)foT]}+- ZU 1
1,m=1 31=1
l^m
. (22)
На рис. 3 приведён график зависимости среднеквадратичного отклонения (СКО)
оценки:
s /ol/o) Ч D(f /ol/o) (23)
от количества гармоник L в опорном сигнале u(t, /) и истинного значения ЧОТ /o при Ui = const.
L
1
\
o,1
Ь /о , Гц
Рис. 3. Среднеквадратичное отклонение оценки частоты основного тона в зависимости от количества гармоник в опорном сигнале и истинного значения частоты основного тона
Из графика (рис. 3) видно, что при увеличении количества гармоник Ь (от одной до девятнадцати) происходит уменьшение <х(/о | /о), а при увеличении истинного
значения ЧОТ /о наблюдаются незначительные осцилляции <г(/о | /о) при несущественном уменьшении СКО.
Функция 8тс(х) быстро затухает при х > 1, а в реальных условиях измерения, когда произведение /о Т = Т/То > 1,4. Таким образом, первое слагаемое в квадратных скобках в степени «-1» выражения (22) много меньше второго слагаемого, что позволяет записать приближённую формулу для оценки ЧОТ:
-1-1
D(. folfo)» 2 2 2 Z Ui
4p2z2T2 l=1
L
Z u}i2
(22а)
_i=1
При Ui = const выражение для дисперсии (22а) принимает вид
-1-1
) 3L
D(folfo) =
4p2 z 2T 2
L
Z2
l=1
(226)
Для случая L = 3
) 9
D(folfo) =----2TT, (22в)
56p2 z2T2
при этом СКО, соответствующее (22в), равно ) 3
s Л|Л)=ШРГт (24)
Таким образом, полученные условные дисперсии позволяют характеризовать и анализировать потенциальную точность оценки ЧОТ при оптимальной временной обработке речевого сигнала на основе метода максимального правдоподобия.
ЛИТЕРАТУРА
1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. — М.: Радио и связь, 1981. — 496 с.
2. Голубинский А.Н. К вопросу о модели речевого сигнала для верификации личности по голосу // Вестник ВИ МВД России. — 2oo5. — С. 29—34.
3. Голубинский А.Н. Расчёт частоты основного тона речевого сигнала на основе полигармонической математической модели // Вестник ВИ МВД России. — 2oo9. — №1. — С. 81—89.
4. Куликов Е.И., Трифонов А.П. Оценка параметров сигналов на фоне помех. — М.: Сов. радио, 1978. — 296 с.
5. Голубинский А.Н. Методика расчета параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами, для случая модуляции суммой гармоник // Системы управления и информационные технологии. — 2oo8.
— № 4.1. — С. 156—161.
6. Боровков А. А. Математическая статистика. — М.: Наука, 1984. — 472 с.
7. Ван Трис Г. Теория обнаружения, оценок и модуляции. — М.: Сов. радио, 1972. — Т.1. — 744 с.
8. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. — М.: Наука,1973. — 832 с.
9. Кендалл М. Статистические выводы и связи / М. Кендалл, А. Стьюарт. — М.: Наука, 1973. — 9oo с.