А.Н. Голубинский,
кандидат технических наук
ОЦЕНКА ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА ПРИ АПРИОРИ НЕИЗВЕСТНЫХ АМПЛИТУДАХ И НАЧАЛЬНЫХ ФАЗАХ ПОЛИГАРМОНИЧЕСКОГО НЕСУЩЕГО КОЛЕБАНИЯ
PITCH FREQUENCY ESTIMATION OF A SPEECH SIGNAL AT A PRIORI UNKNOWN AMPLITUDES AND INITIAL PHASES OF POLYHARMONICAL CARRYING OSCILLATION
Предложен способ оценки частоты основного тона речевого сигнала при оптимальной временной обработке на основе математической модели с полигармониче-ским несущим колебанием при неизвестных априорных распределениях амплитуд и начальных фаз несущих гармоник. Применительно к рассмотренному случаю вычислены точностные характеристики оценки частоты основного тона методом максимального правдоподобия.
The approach of pitch frequency estimation of a speech signal at optimum time processing on the basis of mathematical model with polyharmonic carrying oscillation at unknown a priori distributions of amplitudes and initial phases of harmonics is developed. For this case the accuracy characteristics of pitch frequency estimation by maximum likelihood method are calculated.
К числу актуальных задач, возникающих при создании систем контроля и управления доступом на основе аутентификации диктора относится выделение первичных признаков речевого сигнала, таких как основной тон, в условиях реальной речевой обстановки [1]. Основной тон является важнейшим параметром речевого сигнала. В нём представлена информация об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата [2].
При оценке частоты основного тона речевого сигнала информация о распределении амплитуд Ul и начальных фаз j гармоник, образующих сложный полигармо-нический сигнал, как правило, является трудно получаемой информацией. Поэтому представляет интерес рассмотреть такую модель речевого сигнала, где неизвестны амплитуды и начальные фазы всех гармоник. При этом наличие 2L неизвестных параметров естественным образом скажется на структуре измерительного устройства, свойствах выходного колебания и характеристиках оценки.
Цель исследования — разработка способа оценки частоты основного тона речевого сигнала при оптимальной временной обработке на основе математической модели с полигармонической несущей для случая неизвестных априорных распределений амплитуд и начальных фаз гармоник.
Для оценки частоты основного тона методом максимального правдоподобия будем использовать математическую модель речевого сигнала:
£(Л fo) = u (t, fo) + n( ^ 0)
где u(t, fo) — детерминированный сигнал, представленный модуляционной полигармонической моделью [3]:
к ь
и(х,/0) = ^мксоб( 2ркР0модX + Фк)^ЦС08(2я7/X + щ), хе [0;ти], (2)
к =0 /=1
здесь Мк и ^0мод — соответственно глубина амплитудной модуляции к -й гармоники и наименьшая частота модулирующего колебания; и/ — амплитуда /-й гармоники несущего колебания; /0 — частота основного тона; Фк и щ — соответственно начальные фазы модулирующих и несущих гармоник; (К +1) и Ь — количество модулирующих и несущих гармоник соответственно. Шумовая компонента п (х) в выражении (1) моделируется гауссовским случайным процессом с нулевым средним значением и функцией корреляции вида:
К(хЪ х2 )= “2° 8(х1 - Х2 ) , (3)
где N0 — односторонняя спектральная плотность мощности (на линейные частоты); £(•) — 8-функция Дирака.
Запишем модель сигнала и(X, /0) без учёта модулирующего колебания, практически влияющего на точность оценки частоты основного тона, следующим образом:
ь
и<Х/0) = ^{х/ С0<2р//0х) + У/ 8т(2р//0х)}, (4)
/=1
где х/ = и/ С0<в/); У/ = и/ §т( в/); в/ =-щ . (5)
Осуществляя максимизацию логарифма функционала отношения правдоподобия (ЛФОП) М (/) по неизвестным несущественным параметрам х/ и У/ , можно показать, что ЛФОП в итоге трансформируется, принимая для разрешаемых источников следующий вид [4]:
ь ь
(6)
M (f) 2T
£ xf(f) + £ Yi2(f )
_l=1 l=1 _
где соответствующие синфазные и квадратурные компоненты:
T _ T
X,(f')=^\X(f,fo)cos(,2plft)it; Yi(f)=-^ ii((,fo)sin(2plft)dl. (7)
N0 J N0 J
0 0 0 0
При этом оценка максимального правдоподобия (ОМП) параметра f (соответствующая частоте основного тона) определяется как:
f0 = arg sup M(f ). (8)
Как видно из (6), оптимальная обработка сигнала сложного источника (полигар-монического сигнала) с целью оценки его параметров сводится к формированию билинейной формы из квадратурных компонент корреляционного интеграла.
При этом к разрешаемым источникам относятся источники, для которых выполняется соотношение [5]:
Yij fo) <<1 i * j; 1, J =1, L , (9)
где модуль нормированной взаимной функции неопределенности каждой пары источ-
ников сигнала (гармоник, образующих полигармонический сигнал) рассчитывается как:
Yij (fl, f2) “{i,2 ij (fl, f2)+s,2 ij (fl, f2)}1/2, i, j = 1L. (10)
Величины Sc i j(fl,f2) и Ss i j (fl, f2) , характеризующие синфазные и квадратурные компоненты, входящие в (10), являются элементами многомерной нормирован-
Ъу(/0,/0)= ;и.ч Г0 = РО-/)/0Л. (13)
ной сигнальной функции S( /1, /2) для сложного (полигармонического) источника [4], которая представлена в матричном виде.
Для оценки частоты основного тона на основе принятой реализации (1) для сигнала вида (2) квадратуры сигнальной функции БС /у(/1,/2) и /у (/1,/2) на основе их
определений [4] могут быть вычислены как:
о ( /• / ) » С05[2р(у/2 - ¿/¡Ж] -1 . о ( г г ) » вШ[ 2р(2 - 1/1)Т] (11)
ос/у (/1, /2) о /*г • /\т- ; °с1]' (/1, /2) . .г чт, . (11)
2р( у/2-//)Т 2р(у ./2- ^./1)Т
В результате подстановки (11) в (10) получим выражение для нормированной взаимной функции неопределенности:
5Ш[ р(у/2 - //\)Т]
р(У/2 -
которая в точке истинного значения имеет вид:
51П[ р(у - /)/0 т]
р(у - О ,/0Т
Учтём, что функция ¡эйпс [рх]| < 0,1 при х > 2,69; при этом, согласно (9), нас интересует случай / ф у, т.е. |у -у > 1. Таким образом, можно считать, что
^тс [р( у -/) /0 Т ]| << 1, если обеспечено выполнение условия /0 Т = Т/Т0 > 2,69, т.е. если время наблюдения Т превышает период основного тона речевого сигнала Т0 примерно в 2,7 раза Заметим, что данное условие всегда необходимо обеспечивать на практике, чтобы «гармоники разрешались». Так как период основного тона речевого сигнала Тз лежит в диапазоне от Т0тт = 1//0тах = 1/330 » 3,3 мс до Т0тах = 1//0тт = 1/70 »14,3 мс [6], то, выбирая интервал наблюдения Т > 2,69 14,3 »38,5 мс, мы всегда обеспечим выполнение условия /0 Т = Т/Т) > 2,69, следовательно, гармоники будут разрешимы.
Таким образом, для сигнала вида (2) выполнение условия разрешаемых источников (9) практически всегда обеспечено.
Структура оптимального приёмника, синтезированного по методу максимального правдоподобия при наблюдении сигнала (1) на основе максимизированного ЛФОП (6), имеет вид, представленный на рис.1. Данное приёмное устройство, реализующее алгоритм (6), позволяет вычислить оценку частоты основного тона при отсутствии априорной информации о распределении несущественных параметров и/ и р/.
Рис. 1. Блок-схема алгоритма измерения частоты основного тона речевого сигнала методом максимального правдоподобия при неизвестных амплитудах и начальных
фазах несущих гармоник
В блок-схеме алгоритма расчёта оценки частоты основного тона при оптимальной временной обработке сигнала при отсутствии априорной информации о распределении амплитуд и начальных фаз гармоник входного сигнала (рис.1) обозначены:
Т N-1
- блок 1 — интегратор | х(г)ёг или сумматор А ^ Н(/А) в зависимости от того, обра-
0 ¿=0
батывается аналоговый входной сигнал £(г, /о) или дискретный X (/о) = £(*А, /о), то есть, данный блок реализует взятие интеграла по Стилтьесу [7]. Опорные сигналы для непрерывной обработки имеют вид:
Щ1(г, /) = соъ(2ж/г), ..., иы (г, /) = соъ(2ж\/г), ..., пс1 (г, /) = соъ(2жЬ/г); usl(t, /) = sin(2p/г), • ••, Щг (г, /) = М2ж1/г), ..., и81 (г, /)=вт(2жЬ/г),
а для дискретной обработки принимаются равными:
ис 1(/Д /) = соз(2р/¿А), ., исг (¿А, /) = со8(2Р /¿А), •, ис^ (¿А, /) = со^(>лЬ/¿А);
и^'А,/) = 8т(2р/7А), ..., щг(¿А,/) = 8т(2я//7А), ..., и^О'А,/) = 5\п(2лЬ/гА);
- блок 2 — квадратор;
- блок 3 — блок расчёта оценки частоты в соответствии с выражением (8).
Проанализируем зависимость выходного эффекта приёмника максимального правдоподобия в виде максимизированного ЛФОП М (/) (6) от частоты опорного сигнала I . На рис. 2 представлен график нормированного на наибольшее значение ЛФОП МN (I), полученный для речевого материала в виде слова “он” при трёхгармоническом опорном сигнале ( Ь = 3). На графике ЛФОП, представленном на рис.2 видно наличие глобального максимума, аргумент которого, соответствующий оценке частоты
основного тона, принимал значение 1 =155,3 Гц.
Вычислим характеристики оценки частоты основного тона методом максимального правдоподобия при неизвестных амплитудах и начальных фазах несущих гармоник. Выражение для условной дисперсии при неизвестном априорном распределении амплитуд и начальных фаз гармоник при условии их разрешения в случае высокой апостериорной точности имеет вид [4]:
70 100 150 200 250 300 /,
Рис. 2. Нормированный логарифм функционала отношения правдоподобия при неизвестных значениях амплитуд и начальных фаз гармоник при трёхгармоническом опорном сигнале
V 32 (/1,/2)
/ ,аи
,-1
Э /1 Э /2
-1
(14)
/1-/2 - /0
определяются на основе истинных значений амплитуд и0 /
(15)
где коэффициенты аг-гармоник: а = и21 аи = Ь .
Хч2,
/=1
Сравнивая выражение для дисперсии (14) с определением дисперсии на основе сигнальной функции [8], можно записать для априори неизвестных Ц7/ и л соотношение, связывающее нормированную сигнальную функцию и модуль нормированной вза-
1
2
имной функции неопределенности каждой пары гармоник полигармонического сигнала (при условии разрешения гармоник):
L
ял, Л)=Ха^-дл, /¡). (16)
i=1
С учётом (12) и (15) нормированная сигнальная функция принимает вид:
Г L 'l-1 L
ЯЛ,/2) = Х^01 Х^/2sinc ДОC/l -/2)Г]. (17)
V l =1 У l=1
Таким образом, условная дисперсия может быть рассчитана по формуле (14) с учётом (12).
Вычисляя вторую смешанную производную Y--( /1, /2) (14) в точке истинного
значения, получим выражение для условной дисперсии оценки частоты основного тона при неизвестном априорном распределении амплитуд и начальных фаз гармоник принимаемого сигнала:
D(f/ы/о)=•
¿7'
Р Zi
I= 1
' L
ZU<2,,2 =1
-1
(14а)
При U01 = const выражение для дисперсии (14а) принимает вид:
D( /о! /о)
3L
2 2 2 Р Zi
' L
Z>2
.1=1
-1
Для случая X = 3 соотношение для дисперсии (14б) записывается как: ) 9
»(/о!/о) =------ГГТ’
14р2 г2Г 2
при этом среднеквадратичное отклонение, соответствующее (14в):
) 3
*( /о!/о) =
(14б)
(14в)
(18)
л/Й pzT
Из сравнения соответствующих дисперсий, полученных для случаев априори известных [9] и неизвестных распределений амплитуд и начальных фаз гармоник принимаемого колебания (14а) — (14в), можно заключить, что дисперсия оценки частоты основного тона при неизвестных Ui, j в четыре раза больше, чем при известных.
Приведём таблицу, в которой указаны характеристики оценок тремя методами для 95,5% доверительной вероятности, соответствующей границам доверительных интервалов ± 2s.
Таблица получена для речевого материала в виде слова «он» при параметрах: fd =6000 Гц; N =1800; L = 3; А/ =0,1 Гц; U\ =1; j =0. Время вычисления оценки Хвыч с помощью указанных методов определялось с помощью программы Mathcad 13 на ЭВМ с характеристиками: процессор — AMD Athlon 64 x2 Dual Core Processor; оперативная память (RAM) — 3 Гб.
№ Название метода Л, Гц 2s, Гц Хвыч, с
z 2 = 10 5 II 2 N z 2 = 20
1 Метод максимального правдоподобия при априори известных и1 и (р1 [9] 155,1 0,269 0,220 0,190 83
2 Метод максимального правдоподобия при априори неизвестных и и ср1 155,3 о,538 о,439 о,38о 112
3 Метод, основанный на минимизации невязки коэффициентов корреляции [1о] 155,2 /=2оо /=6оо /=1ооо 5
о,164 о,581 о,611
Заметим, что значение удвоенного среднеквадратичного отклонения для метода, основанного на минимизации невязки коэффициентов корреляции, равное 0,164 и превышающее потенциальную точность метода максимального правдоподобия, было получено при количестве коэффициентов корреляции, используемых для получения оценки, ,/=200. То есть, использовалась не вся информация, полученная из наблюдаемой реализации Х(х, /о), а только её часть, определяемая наиболее значимыми отсчётами коэффициента корреляции, которые отражают структурные связи, обусловленные оцениваемым параметром (в виде частоты основного тона). При этом в случае увеличения / с увеличением ошибки модели £г удвоенное среднеквадратичное отклонение
оценки 2о также будет возрастать.
Таким образом, из анализа данных таблицы можно заключить, что преимуществом метода максимального правдоподобия является высокая потенциальная точность оценки частоты основного тона, особенно для речевых сегментов сильной вокализации (которым соответствуют большие значения отношения сигнал/шум). К недостаткам же следует отнести большое время получения оценки частоты основного тона и относительно сложный алгоритм обработки.
Следует сказать об имеющихся на сегодняшний день проблемах, связанных с оптимальной совместной оценкой частоты основного тона /о и амплитуд несущих гармоник и:
- требуются большие вычислительные ресурсы;
- время получения оценок настолько велико, что не позволяет создать систему аутентификации личности по голосу, работающую в масштабе реального времени;
- алгоритмы оптимальной совместной оценки параметров могут иметь некорректные по Адамару решения [11] (например, случай вырождения при максимизации ЛФОП по неизвестным амплитудам и начальным фазам гармоник), что ведёт к дополнительным ошибкам и вычислительным трудностям.
Следует отметить, что другие реализации оптимальных приёмников, на основании которых вычисляется оценка частоты основного тона, можно синтезировать по методу максимального правдоподобия [8], используя квазидетерминированную полигар-моническую модель сигнала вида (2).
ЛИТЕРАТУРА
1. Михайлов В.Г. Из истории исследований преобразования речи / В.Г. Михайлов // Речевые технологии. — 2оо8. — № 1. — С. 93—113.
2. Гитлин В.Б., Лузин Д. А. Совместный алгоритм выделения основного тона речи по методам ОБ и автокорреляционной функции спектра // Речевые технологии. — 2оо8. — № 3. — С. 39—49.
3. Голубинский А. Н. Методика расчета параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами для случая модуляции суммой гармоник // Системы управления и информационные технологии. — 2оо8.
— № 4.1. — С. 156—161.
4. Лукин А. Н. Радиофизические методы измерения параметров сложных источников излучения: дис. ... д- ра физ.-мат. наук: о1.о4.о3. — Воронеж, 1998. — 415 с.
5. Фалькович С.Е., Хомяков Э.И. Статистическая теория измерительных радиосистем. — М.: Радио и связь, 1981. — 288 с.
6. Сапожков М.А. Электроакустика. — М.: Связь, 1978. — 272 с.
7. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. — М.: Наука,1973. — 832 с.
8. Куликов Е. И., Трифонов А.П. Оценка параметров сигналов на фоне помех. — М.: Сов. радио, 1978. — 296 с.
9. Булгаков О.М., Голубинский А.Н. Оценка частоты основного тона речевого сигнала методом максимального правдоподобия при известном распределении амплитуд и начальных фаз гармоник сложного несущего колебания // Вестник ВИ МВД России. — 2о 1о. — № 2.— С. 154—162.
10. Голубинский А. Н. Расчет частоты основного тона речевого сигнала на основе полигармонической математической модели // Вестник ВИ МВД России. — 2оо9. — № 1. — С. 81—89.
11. Сизиков В.С. Устойчивые методы обработки результатов измерений. — СПб.: Спецлит, 1999. — 24о с.