Научная статья на тему 'Гибридный алгоритм выделения частоты основного тона'

Гибридный алгоритм выделения частоты основного тона Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
348
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОЦЕНКА ОСНОВНОГО ТОНА / КРОСС-КОРРЕЛЯЦИОННАЯ ФУНКЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вишнякова О.А., Лавров Д.Н.

В статье приведено описание алгоритма нахождения трека основного тона на базе смешанного алгоритма поиска в спектральной и временной областях для исходного сигнала и его нелинейного преобразования. Набор кандидатов формируется на выходе спектральной гармонической корреляционной функции и нормализованной взаимнокорреляционной функции. После итогового отсева кандидатов формируется конечный трек.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишнякова О.А., Лавров Д.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Гибридный алгоритм выделения частоты основного тона»

Математические структуры и моделирование 2016. № 1(37). С. 59-65

УДК 004.934

гибридный алгоритм выделения частоты

основного тона

О.А. Вишнякова

преподаватель, e-mail: olga@infotekorg.ru Д.Н. Лавров

доцент, к.т.н., e-mail: dmitry.lavrov72@gmail.com

Омский государственный университет им. Ф.М. Достоевского

Аннотация. В статье приведено описание алгоритма нахождения трека основного тона на базе смешанного алгоритма поиска в спектральной и временной областях для исходного сигнала и его нелинейного преобразования. Набор кандидатов формируется на выходе спектральной гармонической корреляционной функции и нормализованной взаимнокорреляционной функции. После итогового отсева кандидатов формируется конечный трек.

Ключевые слова: оценка основного тона, кросс-корреляционная функция.

Введение

В большинстве задач классификации речевых сигналов при параметрическом представлении речи значимым параметром является мгновенная частота основного тона F0, определяемая как мгновенная частота колебаний голосовых связок диктора. Основными показателями качества оценки являются временное и частотное разрешения, то есть скорость реакции на изменение F0 и величину отклонения, которое фиксирует алгоритм.

К настоящему времени предложен ряд алгоритмов оценки основного тона, в том числе использующих методы оценки как во временной, так и в частотной областях [1-5]. Наиболее популярными алгоритмами оценки являются RAPT [6], YIN [7] и SWIPE [8] и их модификации. Несмотря на низкий процент ошибок даже при наличии шумов (как фонового, так и обусловленного смешанным возбуждением речевого тракта), точность снижается при модуляции F0.

Рассматриваемый алгоритм базируется на RAPT и использует в поиске кандидатов нормализованную кросс-корреляционную функцию (НККФ). Поставив перед собой задачу минимизировать чувствительность к модуляциям основного тона и степени зашумлённости сигнала, предложенный метод представляет собой комбинацию корреляционного метода и частотной селекции для оценки F0. При этом, как было показано в [9,10], добиваясь устойчивости к внешним помехам, оценка в спектральной области проводится как для исходного сигнала, так и для его нелинейного преобразования.

60 О.А. Вишняковя, Д.Н. Лавров. Гибридный алгоритм выделения частоты...

1. Описание алгоритма

Можно выделить основные шаги алгоритма, включающие предобработку, поиск кандидатов и итоговую постобработку. На рис. 1 приведена общая схема алгоритма.

Входной сигнал

Предобработка * 1

Квадрироавние сигнала

> ' ^

Полосовой фильтр (50-1500 Гц)

L

Отфильтрованный Отфильтрованный исх°дный сигнал квадрированный сигнал

___________t__________________t__________

Поиск кандидатов

Спектральная гармоническая корреляционная функция

Нормализованная кросскорреляционная _______________функция_______________

Кандидаты F0

I Постобработка I I

Отсев кандидатов

Итоговый трек F0

Рис. 1. Схема алгоритма поиска трека основного тона

1.1. Предобработка

Фундаментальная частота F0 проявляется при квадрировании сигнала даже при условии малой амплитуды либо отсутствия в исходных данных, как показано в [9], что характерно для телефонной речи. Таким образом, предобработка включает в себя создание копии исходного сигнала и его нелинейное преобразование (квадрирование), нормализацию, а также последующую фильтрацию полосовым фильтром с полосой пропускания (50-1500 Гц) исходного и

Амплитуда Амплитуда

Математические структуры и моделирование. 2016. № 1(37)

61

квадрируемого сигналов. Допустимый интервал на F0 определяем 60-400 Гц. На рис. 2 приведён результат постобработки.

0.5 1 1.5 2 2.5 3

Время (сек.)

Нелинейный сигнал после ФНЧ

Время (сек.)

Рис. 2. Исходный сигнал после применения фильтра (сверху), нелинейно обработанный сигнал после применения фильтра (снизу)

1.2. Поиск кандидатов F0 по максимумам SHC

Основа метода частотной селекции базируется на предположении, что при вокализованном возбуждении речевого тракта в спектре сигнала присутствуют пики на частотах, кратных частоте основного тона. Поиск выполняется на интервалах в 32 мс с перекрытием в 10 мс при частоте дискретизации в 16 кГц. Для лучшего частотного разрешения применяется интерполяция оконным sine-фильтром, получая в итоге шаг по частоте в 7.8 Гц и ширине окна в 2048 отсчётов. Далее строится спектральная гармоническая корреляционная функция SHC, определяемая следующим соотношением:

WL/2 R

SHC (n,f )= £ Д S (n,rf + /'),

f=-WL/2 r=1

где S(t,n) — спектр сигнала для фрейма n, WL ширина спектрального окна, R число гармоник. Так как сигнал нормализован, максимальное значение функции 1.0. Выполняется поиск локальных максимумов только для спектра квадрируемого сигнала, при этом пороговое значение для отсеивания ложных экстремумов установлено в 0.6. На рис. 3 спектр и спектральная кросскорреляционная функция.

62 О.А. Вишняковя, Д.Н. Лавров. Гибридный алгоритм выделения частоты...

Спектр нелинейного сигнала

Рис. 3. Спектр фрейма нелинейного преобразования сигнала и его SCH

Для минимизации ошибок F0 вычисляется на вокализованных участках. Для принятия решение о типе интервала используется нормализованное низкочастотное энергетическое соотношение NLFER, которое определяется отношением суммы спектральных компонент фрейма в диапазоне частот F0max — F0min к среднему значению по всему сигналу.

NLFER(n)

1

N

fax,,,S (n. f) E.N-.EF—'Г s(n.f)'

Z_^n_l Z—/J —гQmin V 5 J '

1.3. Поиск кандидатов F0 по максимумам NCCF

Кандидаты вычисляются как для исходного, так и для нелинейно модифицированного сигнала, используя нормализованную кросс-корреляционную функцию NCCF (НККФ), определяемую следующим соотношением:

.. N-Kmax

NCCF (k) = —= V s(n)s(n + к).

n—i

Математические структуры и моделирование. 2016. № 1(37)

63

где

N Kmax k+N Kmax

e0 ^ ^ s(n) , ek ^ ^ s(n) , Kmin ^ k ^ Kmax.

n=1 n=k

Локальные максимумы НККФ соответствуют задержке сигнала, равному периоду основного тона. В случае, когда имеется несколько локальных максимумов НККФ близких к единице, выбирается соответствующий наименьшему периоду. Так как значения на невокализованных участках значительно меньше 1, НККФ вычисляется только на вокализованных участках, определяемых NLFER.

1.4. Постобработка

На стадии постобработки выполняется поиск контура основного тона при помощи динамического программирования, соединяющий найденных кандидатов периода в спектральной и динамической областях, при этом накладывается ограничение, что частота основного тона изменяется медленно и, таким образом, значения частот смежных фреймов не должны сильно отличаться [11].

2. Результаты экспериментов

2.1. Речевая база данных

Тестирование алгоритмов поиска F0 важно проводить на одних и тех же речевых базах данных. Существует несколько свободных баз, собранных различными исследовательскими лабораториями. В состав данных включают записи с ларингофона и значения эталонных частот основного тона, вычисленных по траекториям с ларингофона.

В качестве примера можно привести:

1. «The Pitch-Tracking Database». Включает 2342 предложений, произнесённых 10 мужскими и 10 женскими голосами [12].

2. «The fundamental frequency determination algorithm evaluation database». Включает по 50 предложений, произнесённых одним мужским и одним женским голосом [13].

В работе использовалась «The Pitch-Tracking Database». Эталонные частоты посчитаны при ширине окна в 32 мс и перекрытием в 10 мс.

2.2. Трек частоты основного тона

На рис. 4 приведён результат работы алгоритма — итоговый трек частоты основного тона.

Мерой ошибок считаем процент грубых ошибок (Gross Error — GE), вычисляемый как

GE

1

Nvf

Nv F

E s(fF (t). FTW

k= 1

(t).FS“(t))

Fpe/ (t)-F0st(t)

F0re/ (t)

1

> 0.2

0

Частота (Гц) Частота (Гц)

64 О.А. Вишняковя, Д.Н. Лавров. Гибридный алгоритм выделения частоты...

400

350

300

250

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.5

Итоговый трек F0 на спектрограмме исходного сигнала

1 1.5 2 2.5 3

Время (сек.)

400

350

300

250

200

50 ■ 0"

спектрограмме нелинейного сигнала

Время (сек.)

0.5

1.5

2

2.5

Рис. 4. Спектрограмма исходного сигнала и итоговый трек F0 (сверху), спектрограмма нелинейного преобразования сигнала и итоговый трек F0 (снизу)

где Nvf число вокализованных фреймов, Fgef эталонное значение F0, F0st вычисленное значение. Таким образом, определяется число фреймов с отклонением полученной оценки более чем на 20%.

По результатам экспериментов для женских голосов GE = 4.1%, для мужских 3.7%.

3. Заключение

Предложенный метод нахождения трека основного тона реализован на базе смешанного алгоритма поиска в спектральной и временной областях для исходного сигнала и его нелинейного преобразования. Эффективность метода обусловлена использованием нелинейной версии сигнала для поиска кандидатов и объединением результатов поиска. Приведены результаты работы алгоритма.

Литература

1. Hess W.J. Pitch and voicing determination / Advances in Speech Signal Processing / edited by S. Furui, M.M. Sohndi. 1992. P. 3-48.

2. Hermes D.J. Pitch analysis / Visual Representations of Speech Signals / edited by M. Cooke, S. Beet, M.C. Wiley. 1993. P. 3-25.

3. Gerhard D. Pitch Extraction and Fundamental Frequency; History and Current Techniques. Technical report, Dept. of Computer Science, University of Regina, 2003.

4. Pavlovets A., Petrovsky A. Robust HNR-based closedloop pitch and harmonic parameters estimation // Proc. the 12th Annual Conference of the International Speech Communication Association (Interspeech-2011), Italy, Florence, 27-31 August 2011.

Математические структуры и моделирование. 2016. № 1(37)

65

5. Zubryeki Р. Petrovsky A. Quasi-periodie signal analysis using harmonic transform with application to voiced speech processing // ISCAS 2010: 2374-2377.

6. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) / Speech Coding and Synthesis / W.B. Kleijn, K.K. Paliwal eds. Elsevier, ISBN 0444821694. 1995.

7. Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech and music // Journal Acoust. Soc. Am. 2002. Vol. 111, № 4. P. 1917-1930.

8. Camacho A., Harris J.G. A sawtooth waveform inspired pitch estimator for speech and music // Journal Acoust. Soc. Am. 2008. Vol. 123, № 4. P. 1638-1652.

9. Zahorian S.A., Hu H. A spectral/temporal method for robust fundamental frequency tracking // The Journal of the Acoustical Society of America. 2008. № 123. P. 45594571.

10. Kavita K., Zahorian S. Yet another algorithm for pitch tracking // Acoustics, Speech, and Signal Processing (ICASSP), 2002 IEEE International Conference on. IEEE 2002. Vol. 1. P. 1-361.

11. Азаров И.С., Вашкевич М.И., Петровский А.А. Алгоритм оценки мгновенной частоты основного тона речевого сигнала // Цифровая обработка сигналов. 2012. № 4. С. 49-57.

12. Pirker G., Wohlmayr М., Petrik S., Pernkopf F. Database for multipitch tracking // Graz University of Technology, Signal Processing and Speech Communication Laborator. 2012. URL: http://www2.spso.tugraz.at/ databases/PTDB-TUG/ (дата обращения: 06.02.2016).

13. Bagshaw P.C., Miller S.M., Jack M.A. Enhanced pitch tracking and the processing of the F0 contours for computer aided intonation teaching // Proceedings of EUROSPEECH, Berlin, Germany. 1993. 1003-1006. URL: http://www.ostr.ed. ao.uk/research/projeots/fda (дата обращения: 06.02.2016).

the hybrid algorithm of extraction of fundamental

frequency

O.A. Vishnyakjova

Teacher, e-mail: olga@infotekorg.ru D.N. Lavrov

Ph.D. (Eng.), Associate Professor, e-mail: dmitry.lavrov72@gmail.com Omsk State University n.a. F.M. Dostoevskiy

Abstract. This paper presents a new algorithm for the estimation of the fundamental frequency of speech. It is based on the combination of time domain and frequency domain processing applied for the original and nonlinearly processed version of the signal. The set of candidates is formed by using a spectral harmonics correlation and the normalized cross-correlation function. Final F0 track is calculated after candidates selection.

Keywords: estimation of the fundamental frequency of speech, cross-correlation function.

i Надоели баннеры? Вы всегда можете отключить рекламу.