Научная статья на тему 'Расчёт частоты основного тона речевого сигнала на основе полигармонической математической модели'

Расчёт частоты основного тона речевого сигнала на основе полигармонической математической модели Текст научной статьи по специальности «Математика»

CC BY
4575
415
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
SPEECH SIGNAL / POLYHARMONICAL MODEL / FREQUENCY OF A PITCH / CARRIER FREQUENCY / РЕЧЕВОЙ СИГНАЛ / ПОЛИГАРМОНИЧЕСКАЯ МОДЕЛЬ / ЧАСТОТА ОСНОВНОГО ТОНА / НЕСУЩАЯ ЧАСТОТА

Аннотация научной статьи по математике, автор научной работы — Голубинский Андрей Николаевич

Предложена методика расчёта оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции. Проведено сравнение данного метода оценки частоты основного тона с амплитудным, корреляционным, спектральным и вейвлет методами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Голубинский Андрей Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CALCULATION OF THE PITCH FREQUENCY OF A SPEECH SIGNAL ON THE BASIS OF POLYHARMONICAL MATHEMATICAL MODEL

The method of calculation of the pitch frequency estimation of a speech signal on the basis of minimum misalignment correlation coefficients is proposed. The comparison of the given method of the pitch frequency estimation with amplitude, correlation, spectral and wavelet methods is carried out.

Текст научной работы на тему «Расчёт частоты основного тона речевого сигнала на основе полигармонической математической модели»

А.Н. Голубинский,

кандидат технических наук

РАСЧЁТ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ ПОЛИГАРМОНИЧЕСКОЙ МАТЕМАТИЧЕСКОЙ МОДЕЛИ

CALCULATION OF THE PITCH FREQUENCY OF A SPEECH SIGNAL ON THE BASIS OF POLYHARMONICAL MATHEMATICAL MODEL

Предложена методика расчёта оценки частоты основного тона речевого сиг -нала на основе минимума невязки коэффициентов корреляции. Проведено сравнение данного метода оценки частоты основного тона с амплитудным, корреляционным, спектральным и вейвлет методами.

The method of calculation of the pitch frequency estimation of a speech signal on the basis of minimum misalignment correlation coefficients is proposed. The comparison of the given method of the pitch frequency estimation with amplitude, correlation, spectral and wavelet methods is carried out.

Одним из актуальных практических направлений обработки сигналов в охранных системах является обработка звуковых и речевых сигналов. При этом важнейшим параметром речи, применительно к задачам кодирования, сжатия, идентификации и верификации по речевому сигналу, является частота основного тона речевого сигнала для вокализованных участков речи [1].

Однако на пути вычисления оценки частоты основного тона встаёт ряд трудностей, основными из которых являются:

- сложность алгоритмов получения оценки;

- низкая точность оценки;

- наличие ошибок, связанных с грубыми промахами (например, принятие за оценку частоты основного тона частоты первого или второго обертона);

- неустойчивость алгоритма вычисления оценки (например, к шумам или эмоциональной окраске речи).

Таким образом, представляет научный интерес разработка методов оценки частоты основного тона, которые лишены указанных недостатков.

Цель работы — разработка метода расчёта оценки частоты основного тона речевого сигнала на основе минимума невязки между коэффициентами корреляции, рассчитанными по экспериментальным данным и по специальной тестовой математической модели речевого сигнала.

Принято считать [2—5], что на участках вокализованного звука речевой тракт человека возбуждается периодическим колебанием связок. Период этого колебания называют периодом основного тона. Эта величина является индивидуальной характеристикой диктора. Она может меняться в зависимости от эмоциональной окраски речи, но в достаточно узких пределах. В процессе исследования речи установлено, что частота основного тона человека лежит в пределах 50—350 Гц.

Существуют следующие основные методы оценки частоты основного тона речевого сигнала :

1) методы, основанные на амплитудной селекции (амплитудные методы);

2) корреляционные методы;

3) методы, основанные на частотной селекции (спектральные методы);

4) методы на основе вейвлет-преобразования;

5) методы на основе кепстрального анализа;

6) методы на основе линейного предсказания.

Рассмотрим подробнее каждый из указанных методов.

В амплитудном методе на стационарном участке вокализованного звука при малом уровне шумов форма речевого колебания почти точно повторяется на каждом очередном периоде основного тона. Расстояние между глобальными максимумами (максимумами максиморумами) речевого сигнала можно приблизительно считать равным периоду основного тона. Основная трудность алгоритмов амплитудной селекции состоит в необходимости подавления локальных ложных максимумов. Этого можно добиться за счёт повышения порога срабатывания в схеме поиска максимумов. Однако при этом увеличивается вероятность пропуска истинного максимума. Очевидно, что как пропуск, так и потеря максимума может привести к существенным искажениям синтезированного звука. Повысить надёжность определения периода основного тона можно, например, добавив второй канал амплитудной селекции, выделяющий положение минимумов речевого сигнала. Главным достоинством устройств временной селекции является чрезвычайная простота реализации. Основные недостатки: низкая точность и неустойчивость определения основного тона (даже при относительно небольшом уровне шумов).

Корреляционные методы определения периода основного тона речевого сигнала базируются на оценке среднего значения периода пульсаций квазипериодической корреляционной функции [3] (или, в частном случае, вычислении первого глобального максимума корреляционной функции [6]). Частота основного тона /1 рассчитывается по соотношению:

/1=/-, (1)

Ир-1

где /^ — частота дискретизации; Ир _ — среднее число отсчётов корреляционной функции, через которое пульсации повторяются [7]; р — число глобальных максимумов корреляционной функции, взятых для усреднённой оценки Ир _1 .

В частном случае, основанном на поиске первого глобального максимума, применяется следующий подход. Пусть речевой сигнал представлен в виде последовательности отсчётов. Для вокализованных звуков можно считать, что временной вид речевого колебания почти точно повторяется на каждом очередном периоде основного тона. В качестве оценки периода основного тона Т = 1/ /1 , выраженной в числе отсчётов, выбирают значение, минимизирующее целевую функцию, которая определяется как сумма квадратов разностей между отсчётами сигнала и отсчётами сигнала, смещёнными на некоторое число отсчётов [6]. Если предположить, что энергия речевого сигнала не меняется на участке квазистационарности, то оценка периода основного тона должна максимизировать корреляционную функцию. Данный подход обеспечивает существенно более высокую достоверность определения периода основного тона по сравнению с методами временной селекции. При этом следует отметить значительную вычислительную сложность данного алгоритма. Существуют его модификации, основанные на вычислении взаимной корреляционной функции с подобранной функцией, которая клип-пирует речевой сигнал на три уровня {-1, 0, 1} (трёхуровневый ограничитель). Таким образом, можно упростить алгоритм, сделав его пригодным для аппаратной реализации, тогда вычислитель взаимной корреляционной функции можно построить без ум-

ножителя [8]. Рассмотренные корреляционные методы оценивания периода основного тона имеют общий недостаток: неустойчивую работу в случае, когда речевой сигнал модулирован по амплитуде. Энергия же реальной, т.е. эмоционально окрашенной речи изменяется даже на квазистационарных участках, соответствующих одной фонеме. В этом случае применяется модифицированная целевая функция, в которой смещённые отсчёты сигнала умножаются на некоторый параметр, имеющий смысл коэффициента усиления [8]. Метод позволяет получить достаточно точную оценку основного тона, которая плавно меняется во времени в соответствии с изменениями голоса. Поэтому данный алгоритм используется в стандарте 0.723, регламентирующем способ сжатия речевого сигнала для видеоконференций.

Спектральный метод основан на том, что при вокализованном возбуждении речевого тракта в спектре сигнала присутствуют пики на частотах, кратных частоте основного тона. Если построить дискретное преобразование Фурье с достаточно малым шагом дискретизации по частоте, то можно попытаться в качестве оценки частоты основного тона использовать частоту, соответствующую максимальному значению энергии спектра. Поиск максимума следует производить в интервале 50—350 Гц. Однако часто возникает ситуация, когда в указанной полосе лежит и вторая гармоника основного тона, иногда даже с большей энергией. В этом случае она будет ошибочно принята за оценку основного тона. Чтобы избежать этого, обычно ищут максимум не спектра, а некоторой нелинейной функции от спектра [8]. Эта функция, как правило, представляет собой сумму сжатых по частоте в несколько раз логарифмов спектра мощности. Суть идеи состоит в том [8], что для истинной частоты основного тона вторая гармоника второго слагаемого сложится с первой гармоникой первого слагаемого и усилит её. Аналогично для третьего слагаемого и т. д. В результате для вокализованного звука будет иметь место ярко выраженный пик функции (от спектра) на частоте основного тона, а для невокализованного звука суммирование будет иметь хаотический характер.

Заметим, что в общем случае оценка значений спектра является несостоятельной и может иметь большие погрешности. Для уменьшения ошибки оценки спектральных составляющих, например нормированной спектральной плотности мощности (также часто используют дискретное преобразование Фурье, или быстрое преобразование Фурье), применяют методику спектральных окон. Выбор спектрального окна (весовой функции) при анализе определяется в результате компромисса между разрешающими способностями по частоте и во времени [4, 9]. Следует отметить, что для спектральных методов применение нелинейного преобразования спектра и окон может вносить большие смещения, что существенно ухудшает точность оценки.

Относительно новый развивающийся метод (см., например, [10]) оценки частоты основного тона речевого сигнала на основе вейвлет-преобразования базируется на применении непрерывного или дискретного вейвлет-преобразования. Следует отметить положительную сторону данного метода: для генерированного эталонного четырёхгармонического сигнала относительная погрешность оценки частоты основного тона и формантных частот методом вейвлет-преобразования не превышала 0,38% [10]. Недостатки данного метода: необходимость корректировки окна преобразования под каждую оцениваемую частоту; сложность алгоритма реализации метода; большие вычислительные затраты.

Метод оценивания основного тона на основе кепстрального анализа состоит в вычислении и анализе кепстра — обратного преобразования Фурье логарифма спектра мощности сигнала [8]. Однако данный метод имеет ряд существенных недостатков, таких как: необходимость применения дополнительной методики для вычисления порога для оценки периода основного тона в области возможных значений; работа в нереальном масштабе времени; необходимость применения временных окон и операций сгла-

живания; низкая точность оценки при сильной узкополосности гармоники основного тона [8].

Среди методов оценки на основе линейного предсказания обычно используют метод обратной фильтрации (обратный линейный фильтр). При приближении частоты повторения в обратном фильтре к частоте основного тона происходит всё более и более сильное выравнивание спектра. Одна из трудностей — это постоянный расчёт спектра речевого сигнала при подстройке частоты повторения в обратном фильтре. Метод даёт удовлетворительные оценки, пока спектр выравнивается достаточно хорошо, однако здесь стоит новая задача определения степени равномерности спектра после обратной фильтрации. Также следует отметить, что при частотах основного тона выше 200 Гц данный метод оценки приводит к плохим результатам [6].

Суть предлагаемого метода расчёта оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции при использовании полигармони-ческой математической модели заключается в следующем. Частоту основного тона будем оценивать на основе определения минимума невязки коэффициентов корреляции. Невязка определяется между значениями коэффициентов корреляции, полученных на основе экспериментальных данных, и коэффициентами тестовой (специальной для оценки основного тона) математической модели речи, содержащей вокализованные участки. Оценка /0 частоты основного тона /0 определяется как значение аргумента, при котором наблюдается наименьшее значение невязки еКТе&1 (/0) в диапазоне частот [3] от 50 до 350 Гц (с шагом, например, А/0 =0,1 Гц или менее, при необходимости большей точности оценки):

где ЯаТе81 (/'А, /0) — коэффициент корреляции тестовой математической модели речевого сигнала, применяемый для оценки частоты основного тона; Я/ — коэффициент корреляции центрированного речевого сигнала;

Звуковые платы ЭВМ, как правило, добавляют различные постоянные составляющие в речевой сигнал. В связи с этим для удобства последующей обработки речевого сигнала над отсчётами полученной реализации случайного процесса проводилась операция центрирования реализации:

/0 = arg inf [eRTest (/0)], здесь тестовая невязка (ошибка):

(2)

eRTest(/0) = 2(RaTest(JA,/0) -Rj j2 ,

J=1

(3)

(4)

здесь функция корреляции:

1 N _ / _

к/ = N 2 ( у > _ у )( у+/

i = 1

у), / = 0, J; J — число отсчётов коэффициентов корреля-

i =1

— ма-

(5)

тематическое ожидание начальных отсчётов речевого сигнала. Для центрированной реализации (5): у = 0 .

Запишем упрощённый вид коэффициента корреляции тестовой (трёхгармонической) математической модели речевого сигнала:

1 3

RaTest(у'Л, /о) = - ^ cos(2p/ fo j А) . (6)

3 /=0

Используя данную оригинальную методику, можно довольно просто (без применения сложных алгоритмов вычисления) получить высокоточную оценку частоты основного тона fo речевого сигнала, содержащего вокализованные участки речи. Следует отметить, что увеличение количества гармоник более трёх не приводит к существенному увеличению точности оценки.

Более общий вид коэффициента корреляции тестовой математической модели речевого сигнала рассчитывается на основе стохастического подхода при использовании квазидетерминированной математической модели речевого сигнала [11]:

L

u(t) = Mcos[2pFot + Фо]^U/ cos[2p/fot + j/], te[0;tM ], (7)

/ =0

где Ф 0 и j/ — случайные величины, не коррелированные между собой и равномерно

распределённые в интервале [0;2p]; F0 — частота модулирующего колебания; U/ — амплитуда /-й гармоники несущего колебания; f0 — частота основного тона; M — глубина модуляции; ти — длительность импульса. Можно показать, что данный случайный процесс является стационарным в широком смысле и эргодическим.

Таким образом, общий вид коэффициента корреляции тестовой математической модели речевого сигнала:

M2 L

Ku(t) =—cos(2pF0t)^U/2cos(2p/f0T) . (8)

2 /=0

Для дискретных отсчётов функции корреляции t = j Л, j = 1, J:

M 2 L

KaTest( jA f0 ) = cos(2 pF0 j A)^ U/ cos(2 p/ f j Л); (9)

2 /=0

ЯаТеЯСта,/о) = КТ15А1‘В= сов(2Р0;Д)^Ц?со8(2р/./оТ А) / Ги1 ■ (10)

КаТезКО,,/о) ¡=0 / ¡=0

При равенстве всех амплитуд р единице для количества гармоник в полигармониче-ской модели, равного трём (¿=3, трёхгармоническая модель), если положить Fo = 0 (случай отсутствия модуляции несущих гармоник — нет информационного сигнала, который не описывает индивидуальные особенности голоса [11]), тестовая математическая модель упрощается, и коэффициент корреляции принимает вид (6).

Для расчёта оценки частоты основного тона речевого сигнала будем использовать персональную ЭВМ, ввод речевого сигнала в которую выполняется с помощью звуковой платы, со стандартной частотой дискретизации /^ =6000 Гц. Данная частота была выбрана вследствие того, что первые 3-4 форманты находятся в области до 3000—3600 Гц [3, 4]. При увеличении частоты дискретизации возможно повышение точности оценки частоты основного тона при одновременном увеличении ресурсов обработки массивов данных.

Определим число отсчётов КК J, достаточное для анализа характеристик математической модели. Проведённый анализ речевых сигналов различных дикторов показал, что все значения КК заходят в доверительные границы, полученные по методу Бартлетта [12] ± 3s до 200-го отсчёта (для fd =6000 Гц), таким образом, выберем J =200.

В результате исследования зависимости eRTest (f0) было выяснено, что аргумент f0 (оценка частоты основного тона) глобального минимума inf [eRTest (f0)], если использовать в коэффициенте корреляции (10) только три слагаемых суммы — тестовая трёхгармоническая модель (6), имеет достаточно хорошую точность оценки. Дальнейшее увеличение количества гармоник приводит, как правило, к несущественному возрастанию точности оценки (относительная погрешность оценки основного тона для тестовых сигналов увеличивалась не более чем на 0,1%). Также было установлено, что если амплитудные коэффициенты положить равными единице, то оценка частоты основного тона практически не смещается (относительное смещение менее 0,05%).

Рис. 1 поясняет сущность предлагаемого метода на примере упрощённой тестовой математической модели, при использовании реального речевого сигнала (слово “он”). На рис. 1 сплошной линией показан график зависимости коэффициентов корреляции речевого сигнала (оценка частоты основного тона по разработанному методу составила f = 155,2 Гц) от номера отсчёта; штрихпунктирной, штриховыми и пунктирными линиями изображены зависимости коэффициентов корреляции тестовой трёхгармонической математической модели, при этом частоты основного тона тестовой модели были заданы соответственно: = 155,2 Гц, f0 = 155,2±5 Гц и f0 = 155,2± 10 Гц.

Из графиков коэффициентов корреляции, приведённых на рис. 1, видно, что даже при незначительной неточности оценки частоты основного тона происходит значительное увеличение тестовой ошибки из-за существенного рассогласования между коэффициентом корреляции, рассчитанным по экспериментальным данным (речевого сигнала), и коэффициентом корреляции тестовой математической модели.

Поэтому даже упрощённая тестовая математическая модель даёт результаты оценки частоты основного тона с высокой точностью. Следует отметить, что возможно применение и более общей тестовой математической модели (10), однако с одновременным увеличением точности оценки происходит усложнение алгоритма обработки в связи с необходимостью дополнительно адаптивно оценивать амплитуды гармоник.

Рис. 1. График коэффициентов корреляции речевого сигнала и тестовой трёхгармонической математической модели при различных значениях частоты основного тона для тестового сигнала

Для анализа качества работы предложенного метода оценки основного тона генерировались различные эталонные полигармонические сигналы. В данной работе приведены результаты анализа при использовании эталонного четырёхгармонического сигнала (с постоянной составляющей) следующего вида:

где иЭТ = 142; иЭТ = 14; и^ =14; иЭТ = 14; и^Т = 14. Параметры данного сигнала были выбраны такими же, как и в работе [10], для удобства сравнения точностных характеристик предлагаемого метода оценки частоты основного тона с методом, основанным на вейвлет-преобразовании.

В результате оценки частоты основного тона /0 генерированного эталонного че-

в диапазоне частот от 50 до 345 Гц), при использовании тестовой трёхгармонической математической модели было установлено, что модуль относительной погрешности оценки

не превышает 0,3%. Например, для значения частоты основного тона генерированного эталонного сигнала /0 = 155 Гц, оценка частоты основного тона имела значение

/о = 155,02 Гц, при этом модуль относительной погрешности оценки составил 0,013 %.

В качестве практической проверки разработанного метода оценки частоты основного тона речевого сигнала проводился расчёт оценки частоты основного тона для 5 произнесённых гласных звуков для 10 различных дикторов. Также проводилось сравнение точности оценки частоты основного тона с ранее известными другими четырьмя методами. В результате анализа оценок частоты основного тона было установлено, что точность разработанного метода оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции при использовании полигармонической математической модели в подавляющем большинстве случаев является наибольшей по сравнению с ранее известными другими методами. При этом точность оценки, полученная на основе предлагаемого метода:

- оказывается одного порядка с точностью оценки методом, основанным на вейвлет-преобразовании;

- примерно превышает на порядок точность оценки корреляционным и спектральным методами;

- в основном превышает более чем на порядок точность оценки амплитудным методом.

Данное сравнение проводилось с использованием генерированных эталонных

ь

(11)

I =0

ЭТ

тырёхгармонического сигнала для 60 различных частот основного тона /0 (каждые 5 Гц

5 л = /0 м 10000,

/0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(12)

полигармонических сигналов.

В качестве примера зависимости тестовой ошибки от частоты тестового сигнала, приведём рис. 2 для одного из дикторов, произносящего вокализованный участок речи

— слово «он». Для данного случая глобальный минимум (оценка частоты основного тона речевого сигнала) наблюдался на частоте / = 155,2 Гц.

Рис. 2. Тестовая ошибка для реального речевого сигнала при использовании тестовой трёхгармонической математической модели

На основании проведённых расчётов по разработанному методу оценки частоты основного тона с использованием тестового сигнала и при сравнении с другими методами оценки можно заключить, что предлагаемый метод обеспечивает наибольшую точность оценки частоты основного тона, относительная погрешность при этом не превышает 0,3% при шаге А/0 =0,1 Гц.

Таким образом, разработан метод расчёта частоты основного тона речевого сигнала на основе минимума невязки между коэффициентами корреляции при использовании полигармонической математической модели. Предлагаемый метод оценки частоты основного тона является достаточно простым для реализации в виде алгоритмов расчёта при одновременном обеспечении высокой точности оценки.

ЛИТЕРАТУРА

1. Сорокин В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий / В.Н. Сорокин // Речевые технологии. — 2008. — № 1. — С. 18—48.

2. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов / Ю.Н. Прохоров. — М.: Радио и связь, 1984. — 240 с.

3. Назаров М.В. Методы цифровой обработки и передачи речевых сигналов / М.В. Назаров, Ю. Н. Прохоров. - М.: Радио и связь, 1985. — 176 с.

4. Фланаган Дж. Анализ, синтез и восприятие речи / Дж. Фланаган. — М.: Связь, 1968. — 392 с.

5. Фант Г. Анализ и синтез речи / Г. Фант.— Новосибирск: Наука, 1970. — 306 с.

6. Маркел Дж. Линейное предсказание речи / Дж. Маркел, А.Х. Грей. — М.: Связь, 1980. — 308 с.

7. Ролдугин С. В. Модели речевых сигналов для идентификации личности по

голосу / С. В. Ролдугин, А.Н. Голубинский, Т.А. Вольская // Радиотехника. — 2002.

— №11. — С. 79—81.

8. Рабинер Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер. — М.: Радио и связь, 1981. — 496 с.

9. Голубинский А.Н. Модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими для верификации личности по голосу / А.Н. Голубинский // Системы управления и информационные технологии. — 2007. — № 4. — С. 86—91.

10. Рассказова С. И. Метод формантного анализа на основе вейвлет-преобразования в системах распознавания речи / С.И. Рассказова, А.И. Власов // Наукоемкие технологии и интеллектуальные системы: сборник трудов IX Научнотехнической конференции. — М.: МГТУ им. Н.Э. Баумана, 2007. — С. 38—43.

11. Голубинский А.Н. Разработка математической модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами, применительно к задаче верификации личности по голосу / А.Н. Голубинский; Воронежский институт МВД России. — Воронеж, 2008. — 29 с. — Деп. в ВИНИТИ 09.07.08, №591-В2008.

12. Бокс Дж. Анализ временных рядов. Прогноз и управление / Дж. Бокс, Г. Дженкинс. — М.: Мир, 1974.— Вып.2. — 408 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.