Научная статья на тему 'ОПРЕДЕЛЕНИЕ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ ИНДЕКСА МНОГОМЕРНОЙ СИНХРОНИЗАЦИИ'

ОПРЕДЕЛЕНИЕ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ ИНДЕКСА МНОГОМЕРНОЙ СИНХРОНИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
125
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧАСТОТА ОСНОВНОГО ТОНА / ИНДЕКС МНОГОМЕРНОЙ СИНХРОНИЗАЦИИ / РЕЧЕВОЙ СИГНАЛ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Харченко С.С., Крючков И.А., Мещеряков Р.В.

Статья посвящена исследованию определения частоты основного тона речевого сигнала. Материалом для исследования послужила база данных The Pitch-Tracking Database from Graz University of Technology [33]. В работе использовался разработанный алгоритм определения частоты основного тона речевого сигнала на основе индекса многомерной синхронизации. Для интерпретации полученных результатов использовалось сравнение с известными эстиматорами, в качестве метрик использовались процент грубых ошибок и средний процент мелких ошибок. В ходе исследования было установлено, что алгоритм целесообразнее использовать для определения средней частоты основного тона, чем для определения частоты основного тона в режиме реального времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Харченко С.С., Крючков И.А., Мещеряков Р.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETERMINING THE PITCH FREQUENCY OF A SPEECH SIGNAL BASED ON THE MULTIDIMENSIONAL SYNCHRONIZATION INDEX

The article is devoted to the study of determining the frequency of the fundamental frequency of a speech signal. The material for the study was the database "The Pitch-Tracking Database from Graz University of Technology". The developed algorithm for determining the fundamental frequency of a speech signal based on the multidimensional synchronization index was used in the work. To interpret the results obtained, a comparison with known estimators was used; the following metrics were used: the percentage of gross errors and the average percentage of small errors. In the course of the study, it was found that the algorithm is more appropriate to use to determine the average pitch frequency than to determine the pitch frequency in real time.

Текст научной работы на тему «ОПРЕДЕЛЕНИЕ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА НА ОСНОВЕ ИНДЕКСА МНОГОМЕРНОЙ СИНХРОНИЗАЦИИ»

Определение частоты основного тона речевого сигнала на основе индекса многомерной синхронизации

Харченко С.С., кандидат технических наук, доцент кафедры безопасности информационных систем Томского государственного университета систем управления и радиоэлектроники, г. Томск, Россия, kss@fb.tusur.ru

Крючков И.А., разработчик программного обеспечения отдела разработки компонентов АО «Инфотекс», г. Томск, Россия

Мещеряков Р.В., доктор технических наук, профессор РАН, главный научный сотрудник лаборатории киберфизических систем ИПУРАН, Москва, Россия, mrv@ieee.org

Статья посвящена исследованию определения частоты основного тона речевого сигнала. Материалом для исследования послужила база данных The Pitch-Tracking Database from Graz University of Technology [33]. В работе использовался разработанный алгоритм определения частоты основного тона речевого сигнала на основе индекса многомерной синхронизации. Для интерпретации полученных результатов использовалось сравнение с известными эстиматорами, в качестве метрик использовались процент грубых ошибок и средний процент мелких ошибок. В ходе исследования было установлено, что алгоритм целесообразнее использовать для определения средней частоты основного тона, чем для определения частоты основного тона в режиме реального времени.

• частота основного тона • индекс многомерной синхронизации • речевой сигнал.

ВВЕДЕНИЕ

Конец XX и начало XXI в. ознаменовались началом истории развития речевых технологий. За это время было решено множество фундаментальных прикладных задач и разработано большое количество разнообразных алгоритмов обработки речевых сигналов, что, впрочем, не вызвало падения интереса к этой теме [1]. Активные работы как по улучшению существующих, так и по разработке новых алгоритмов обработки речи ведутся по сей день.

17

Одним из основных параметров, на использовании которого базируется как большинство классических, так и недавно разработанных алгоритмов оценки, распознавания и синтеза речевых сигналов, является частота основного тона (ЧОТ) [2].

Частота основного тона — это частота повторения колебаний голосовых складок при произнесении вокализированных звуков речи. Среди оценок данной частоты принято выделять мгновенное значение частоты основного тона и среднее значение частоты основного тона [2].

Процесс выделения ЧОТ как правило состоит из нескольких этапов [1]:

1) фильтрация и подавление шума,

2) сегментация на информативные участки,

3) определение информативных параметров.

Для каждого этапа может применяться отдельный алгоритм обработки речевого сигнала, что ведет к появлению гибридных модификаций на основе более простых алгоритмов. На данный момент наиболее популярными алгоритмами оценки ЧОТ являются сингулярный анализ [3-4], RAPT, YIN, SWIPE и их модификации [5], обеспечивающие низкий процент ошибок даже при наличии шумов. Однако даже столь совершенные алгоритмы не обеспечивают безошибочную работу во всех областях деятельности, связанных с обработкой сигналов. Например, при модуляции ЧОТ [5] точность определения заметно снижается, что и побуждает искать новые алгоритмы и улучшать существующие.

На практике оценка ЧОТ находит свое применение в самых различных областях человеческой деятельности. Помимо очевидного применения в идентификационных устройствах распознавания голоса операции детектирования и манипуляций с ЧОТ могут использоваться и в отрыве от речевого сигнала. Например, алгоритмы определения ЧОТ находят свое применение в музыке [6] или для определения переработанных с целью обхода авторских прав аудиокомпозиций [7].

Особенно широкое применение характеристики ЧОТ находят в медицине. Так, в работе Д.Д. Полешникова [8] продемонстрирован пример того, как с помощью параллельного анализа средней частоты тона речевого сигнала пациента и динамики изменения ЧОТ можно определить частоту сердечных сокращений пациента. Аналогичное исследование метрик ЧОТ может быть также использовано для диагностики повреждения наружной ветви верхнего гортанного нерва в тиреоидной хирургии [9]. Также определение ЧОТ может быть использовано при отслеживании рефлекторных изменений в процессе голосообразова-ния у пациентов после ларингоэктомии [10]. Существуют специально отобранные и модифицированные алгоритмы для решения еще более специфичных медицинских задач. Например, адаптивный метод разложения сигнала на эмпирические моды [11], использующийся для предварительной обработки звуковых сигналов с целью повышения

18

точности определения ЧОТ, нашел свое применение в системах диагностики пограничных психических расстройств [12].

Таким образом, точное определение частоты основного тона является одним из основных направлений в сфере обработки речевых сигналов. Что касается тенденций самого направления, можно выделить несколько основных спектров работ:

1) развитие алгоритмов выделения ЧОТ в режиме реального времени [13-14];

2) разработка алгоритмов с повышенной устойчивостью к шумам [15-16], в том числе

с использованием искусственных нейронных сетей (ИНС) [17];

3) непосредственно обучение ИНС [18-22].

Обучение ИНС не на непосредственный анализ речи, а на выделение частоты основного тона в ней дает более успешные результаты, например в случаях смешения голосов нескольких только мужских или только женских голосов в одном канале [23].

Обучение ИНС непосредственному анализу речи без выделения ЧОТ часто дает неудовлетворительные результаты. Например, при анализе мандаринского акцента ИНС без использования ЧОТ акцент распознавался лишь в 73 % случаев [24].

Стоит отметить, что базирующиеся на спектральном анализе методы обеспечивают большую точность, чем методы, которые базируются на использовании автокорреляционных преобразований [25]. Впрочем, существуют и гибридные алгоритмы, комбинирующие оба подхода [26]. В рамках данной работы проведено исследование эффективности выделения частоты основного тона с помощью метода многомерной синхронизации [29]. Сторонние исследования показывают, что даже двумерная обработка моноканального сигнала: представление сигнала в виде симметричной матрицы, позволяет повысить точность определения ЧОТ как в случае использования классических алгоритмов[30], так и при обучении ИНС [18].

В основе расчёта индекса многомерной синхронизации лежит автокорреляционный подход. Данный алгоритм отлично зарекомендовал себя в распознавании нейронной активности при использовании большого количества электродов для снятия сигнала, кроме того, демонстрирует высокую устойчивость к шумам [31].

Поскольку речь представляет из себя сложный полигармонический сигнал, предполагается, что индекс многомерной синхронизации может предложить увеличение точности выделения ЧОТ при обработке стерео канального речевого сигнала.

МЕТОДЫ

За основу алгоритма был взят алгоритм выделения устоявшихся зрительно-вызван-ных потенциалов на основе индекса многомерной синхронизации [32]. Указанный алгоритм представляет собой модификацию классического корреляционного анализа.

1. Исходный сигнал дискредитируется и разбивается на участки определенной фиксированной длины.

19

Харченко С.С., Крючков И.А., Мещеряков Р.В. Определение частоты основного тона речевого сигнала на основе индекса

многомерной синхронизации

20

2. Каждый из данных участков представляется в виде матрицы .

sin (2nFit)

3. Выполняется построение списка матриц вида Уг: мониками той же длины (формула 1).

cos (2 nF:t

с гар-

4. Для каждого участка исходного сигнала (X/) производится сравнение

с каждой гармоникой из списка (У/) путем расчёта коэффициента корреляции данных матриц.

5. Частота для гармоник которой коэффициент корреляции дал наиболь-

ший результат, принимается за ^0 на данном участке X/.

Различие состоит в том, что на четвертом этапе вместо коэффициента корреляции используется индекс многомерной синхронизации (выражение 2). Расчёт данного индекса представляет из себя последовательность операций с исходными матрицами, в результате которых они преобразуются в матрицу 5, для которой производится расчёт вектора собственных значений, из которого и выводится итоговый коэффициент (выражение 6).

где N — порядковый номер гармоники, К -

стота дискретизации, У(Ь) — опорный сигнал, Х(Ь) — исходный сигнал.

количество отсчетов, — Fs ча-

(2)

где Dxy рассчитываются согласно выражениям 3-5

DU=(±)XXT

М

D

21"

12 ум'

УАДо^Л) log(¿P)¿ 6

(3)

(4)

(5)

(6)

где нормированные собственные значения 5, Р = N + Nh и Nh обозначают число строк в опорном сигнале У(С]. Частота фотостимуляции, определяется как частота, соответствующая максимальному значению К.

В случае анализа аудиосигнала исходные сэмплы X/ представляются в виде одномерных (монофонический сигнал) или двумерных (стереосигнал)

матриц. В качестве средства реализации исследуемого алгоритма был выбран высокоуровневый язык программирования Python 3.8. Благодаря простоте языка и большому количеству актуальных библиотек удалось значительно сократить время на программную реализацию алгоритма.

В качестве основного инструмента для проведения операций над матрицами была использована библиотека numpy. Для быстрого преобразования исходного аудиосигнала в массив отсчетов numpy была использована библиотека librosa. Для удобного вывода временных диаграмм использовался модуль pyplot библиотеки matplotlib в связке с модулем display библиотеки librosa. Для представления полученных результатов в виде таблицы Excel была использована библиотека pandas.

В качестве исходных данных для исследования была использована база данных The Pitch-Tracking Database from Graz University of Technology [33].

Эта база содержит 4718 сортированных вокализированных образцов речи 20 различных спикеров: 10 мужчин и 10 женщин. Особенность БД состоит в том, что в ней также содержатся измеренные с помощью ларингофона контрольные значения частоты основного тона F0.

Исходный сигнал, полученный с помощью функционала библиотеки librosa, прежде чем подать его на вход алгоритма, предварительно нормализовался по амплитуде, а затем смещался вверх относительно временной оси. Таким образом на входе получался аудиосигнал той же формы, изменяющийся в пределах [0;2] и, таким образом, пригодный для использования алгоритмом, поскольку, как видно из выражения 2, в вычислении индекса используется операция взятия корня, что затрудняет анализ при наличии отрицательных значений в исходных данных.

Эксперимент проводился в следующих условиях.

1. Для расчёта Р0 для дикторов разного пола применялись разные диапазоны исследуемых частот:

• для дикторов мужского пола: 60-240 Гц;

• для дикторов женского пола: 60-350 Гц.

2. Продолжительность одного нормализованного участка составляла Ссэмпла = 50 мс.

3. Исходные данные были представлены в формате ".wav".

4. Преобразование исходных данных в массивы отсчетов производилось на частоте

дискретизации /дисКрети3аЦии = 48кГц.

В ходе предварительного изучения особенностей полученного алгоритма было обнаружено, что предложенный алгоритм обладает очень большой выборочностью относительно представленных данных: корреляция выявлялась только на участках, в которых стабильно (либо с незначительными колебаниями) присутствовала гармоника определенной частоты (рис. 1-2).

21

В связи с выделенной особенностью на эксперимент были наложены следующие дополнительные ограничения.

1. Расчёт статистических оценок производится только для фреймов, чья оценка пре-

высила частотный порог в 70 Гц, т. е. только сэмплы, «распознанные» алгоритмом таким образом, считались вокализированными. Как правило, корреляция на «пустых» участках алгоритмом воспринималась одинаково и соответствовала определенной частоте в диапазоне 60-70 Гц. Данная «пустая» частота не зависела от предоставленных на вход образцов или уровня зашумленности, однако коррелировала с размером выбранного сэмпла: например при tC3Mnjia = 50 мс частота «отсутствия» корреляции находилась на уровне 67 Гц, что и можно наблюдать на рисунке 1.

2. В статистику принимались только те образцы, для которых алгоритм смог определить

более одного участка корреляции выше указанного частотного порога.

Для сравнения алгоритмов выделения ЧОТ, как правило, рассматривается процент грубых ошибок GPE (gross pitch errors) [27] и средний процент мелких ошибок MFPE (mean fine pitch error) [28].

Величина GPE показывает отношение количества анализируемых фреймов с отклонением полученной оценки ЧОТ более чем на ±20 % от реального значения ЧОТ к общему числу вокализированных фреймов:

где №срЕ — число фреймов с отклонением полученной оценки более чем на ±20 % от настоящего значения ЧОТ;

ЫУ — общее число вокализированных фреймов.

20 %-я погрешность ошибки берется из соображений, что большинство ошибок, допускаемых алгоритмами при оценивании ЧОТ, варьируется в пределах октавы [27].

Величина МЕРЕ показывает среднее значение отклонения оценки от действительного значения в процентах для всех оценок с отклонением менее ±20 %, т. е. для всех оценок, которые не являются грубыми ошибками:

где NРРЕ — число вокализованных фреймов без грубых ошибок;

— действительные значения основного тона;

— оценочные значения основного тона.

23

24

РЕЗУЛЬТАТЫ И ДИСКУССИЯ

Данные, полученные в ходе проведения эксперимента, представлены в таблице 1.

Результаты использования MSI

Таблица 1

Характеристика Полученное значение

М Ж

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Полное время анализа базы данных ~6 часов

Оборудование AMD Ryzen 9 3900X 3.8GHz

Среднее время анализа одного нормализованного участка (сэмпла) 15.2736 мс 21.129 мс

ЭРЕ 0.91245 % 1.697 %

МЕРЕ 1.7305 % 2.113 %

Количество обработанных аудиозаписей 2360 2358

Количество аудиозаписей, принятых в статистику 2130 1660

Сравнительные данные алгоритма на основе индекса многомерной синхронизации (MSI) относительно других алгоритмов приведены в таблице 2.

Результаты использования алгоритмов [34]

Таблица 2

Мужской голос Женский голос

GPE MFPE GPE MFPE

RAPT 3.687 1.737 6.068 1.184

YIN 3.184 1.389 3.960 0.835

SWIPE' 0.783 1.507 4.273 0.800

IRAPT 1 1.625 1.608 3.777 0.977

IRAPT2 1.571 1.565 3.777 1.054

MSI 0.912 1.731 1,697 2.113

Несмотря на то что исследование проводилось на моноакустических сигналах (в отсутствие базы стереосигнальной базы данных с подтвержденной ларингофоном частотой Р0), алгоритм показывает весьма достойные результаты в сравнении с современными алгоритмами оценки ЧОТ, в частности — куда точнее определяет Р0 на выборке дикторов женского пола, как видно из таблицы 2. Однако, как видно из таблицы 1, это обстоятельство обуславливается чрезвычайно низкой чувствительностью алгоритма: количество отброшенных данных для анализа достигает на той же выборке почти 30 %, чем, вероятно, и можно объяснить столь высокую точность.

Нельзя упускать из внимания и время обработки одного сэмпла: оно на порядки выше, чем у современных алгоритмов оценки ЧОТ, пригодных для использования в реальном времени [27], что может быть связано с средствами реализации, поскольку для каждого сэмпла необходимо рассчитать MSI относительно каждой гармоники на выбранном диапазоне частот. Если необходимо повысить точность, уменьшив шаг прохода по диапазону, количество вычислений возрастает пропорционально. По проведенным исследованиям можно сделать вывод, что алгоритм малопригоден для оценки траектории ЧОТ в реальном времени, однако может быть применим для аутентификации ЧОТ по уже существующему образцу: в этом случае недостаток алгоритма — необходимость проходить по каждой частоте для определения корреляции — становится одним из преимуществ, поскольку такая частота будет заранее известна в виде образца, и количество вычислений сокращается в сотни раз.

ЗАКЛЮЧЕНИЕ

В связи с выявленной высокой точностью данного алгоритма, которую потенциально можно увеличить с использованием стереосигнала на входе, алгоритм может использоваться для уменьшения вероятности ошибки второго рода в системах биометрической идентификации и аутентификации.

Используя столь чрезвычайную выборочность алгоритма, его вполне можно применять и для оценки средней F0, а также в ситуациях, где нет возможности отфильтровать исходный сигнал: как видно из таблицы 2, алгоритм показывает сравнимые результаты с другими современными алгоритмами оценки ЧОТ, несмотря на то что на входе им использовались сырые, необработанные от шумов данные.

В ходе подготовки эксперимента был обнаружен недостаток разработанного алгоритма при оценке данных дикторов мужского пола, связанный с кратными частотами: из-за выбранного диапазона частот в оценку алгоритма 15-20 %, под влиянием шумов, вносились небольшие погрешности, в результате в качестве F0 выбралась частота 2*F0ucmuHHOe, что в ходе эксперимента приходилось программно отлавливать: если частота была вдвое больше предыдущей, максимально коррелирующей с участком сигнала частоты и разница их оценок MSI не превышала установленный £ = 0.001, то за F0 принималась первая частота.

Литература

1. Алимурадов А.К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А.К. Алимурадов, П.П. Чураков — Измерение. Мониторинг. Управление. Контроль. — 2015. — №2(12) С. 27-35.

2. Жиляков Е.Г. Алгоритмы обнаружения основного тона речевых сигналов / Жиляков Е.Г., Фирсова А.А., Чеканов Н.А. — Научные ведомости БелГУ. Сер. История. Политология. Экономика. Информатика. — 2012. — №1-1(120), вып. 21. — С. 135-143.

3. Software for speech rehabilitation of cancer patients after larynx resection / S.S. Kharchenko, R.V. Meshcheryakov, D.A. Volf, L.N. Balatskaya, E.L. Choinzonov // Biomedical Engineering. — 2016. — Vol. 50, № 2. — P. 142-146.

4. Volf D. The singular estimation pitch tracker / D. Volf, R. Meshcheryakov, S. Kharchenko. — Proceedings of the 17th International Conference on Speech and Computer, SPECOM 2015. — 2015. — Athens, Greece. — P. 454-462.

25

5.

6.

7.

8.

9.

10.

11. 12.

13.

14.

15.

16.

17.

18.

19.

20. 21.

Вишнякова О.А. Гибридный алгоритм выделения частоты основного тона / О.А. Вишнякова, Д.Н. Лавров. — Математические структуры и моделирование — 2015. — С. 59-65.

Schramm R. A polyphonic pitch tracking embedded system for rapid instrument augmentation / R. Schramm, F. Visi, A. Brasil, and M. Johann — NIME. — 2018. — Blacksburg, Virginia.

Yan Qi Copy-move detection of audio recording with pitch similarity / Qi Yan, Rui Yang, Jiwu Huang. — 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — 2015.

ПолешниковД.Д. Метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала / Д.Д. Полешников, О.О. Басов. — Вестник воронежского института МВД России — 2019. — С. 55-63. Войтенко В.В. Возможности спектрального анализа голоса для диагностики повреждения наружной ветви верхнего гортанного нервав тиреоидной хирургии. // Ктшчна ендокринолопя та ендокринна хiрургiя. — 2015. — C. 46-50. Харченко С.С. Математическая электроакустическая модель псевдоголоса и программный комплекс голосовой реабилитации пациентов после ларин-гэктомии на основе бионических принципов: дис. ... канд. техн. наук. Томск,

2017. — 114 с.

Алимурадов А.К. Оценка частоты основного тона речевых сигналов методами декомпозиции на эмпирические моды. // Измерение. Мониторинг. Управление. Контроль. — 2015. — C. 37-45.

Alimuradov A. Improved CEEMDAN Based Speech Signal Analysis Algorithm for Mental Disorders Diagnostic System: Pitch Frequency Detection and Measurement. / A. Alimuradov, A. Tychkov. // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). — 2019. — P. 22-47. Low-Latency Audio Pitch Tracking: a Multi-Modal Sensor-Assisted Approach. / S. Laurel et al. // Procedings of the 2014 International Conference on New Interfaces for Musical Expression. — London. — UK. — P. 54-59. Real-time pitch tracking in audio signals with the extended complex Kalman filter. / Orchisama Das et al. // Proceedings of the 20th International Conference on Digital Audio Effects. — 2017. — Edinburgh, UK.

Stone S. A Time-Warping Pitch Tracking Algorithm considering fast f0 changes. / S. Simon, P. Steiner, P. Birkholz. // INTERSPEECH. — 2011. — Stockholm, Sweden. Drugman T. Joint Robust Voicing Detection and Pitch Estimation Based on Residual Harmonics. / T. Drugman, A. Alwan. // INTERSPEECH. — 2011. — Florence, Italy. Han K. Neural Network Based Pitch Tracking in Very Noisy Speech. / K. Han, D. Wang. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2014. — P. 2158-2168.

Abhijith M.N. Multi-pitch tracking using Gaussian mixture model with time varying parameters and Grating Compression Transform. / M.N. Abhijith, P.K. Ghosh, K. Rajgopal. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2014. — Florence, Italy.

Crepe: A Convolutional Representation for Pitch Estimation. / Jong Wook Kim et al. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. —

2018. — Calgary, AB, Canada.

Han K. Neural networks for supervised pitch tracking in noise. / K. Han, D. Wang. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2014. — Florence, Italy.

Su H. Convolutional neural network for robust pitch determination. / H. Su, H. Zhang. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2016. — Shanghai, China.

26

22. Liu Y. Time and frequency domain long short-term memory for noise robust pitch tracking. / Y. Liu, D. Wang. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2017. — New Orleans, LA, USA.

23. Wang K. A Pitch-aware Approach to Single-channel Speech Separation. / K. Wang, F. Soong, L. Xie. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2019. — Brighton, United Kingdom, United Kingdom.

24. Mandarin tone classification without pitch tracking. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2014. — Florence, Italy.

25. Shi L. Robust Bayesian Pitch Tracking Based on the Harmonic Model. / L. Shi, J.K. Nielsen. // IEEE/ACM Transactions on Audio, Speech, and Language Processing. — 2019. — P. 1737-1751.

26. Berg E. Dictionary-based pitch tracking with dynamic programming. / E. van den Berg,

B. Ramabhadran. // INTERSPEECH. — 2014. — P. 1347-1350.

27. Вольф Д.А. Модель и программная реализация сингулярного оценивания частоты основного тона речевого сигнала. / Д.А. Вольф, Р.В. Мещеряков. // Труды СПИИРАН. — 2015. —

C. 191-209.

28. Петровский А.А. Обработка речевых сигналов в приложениях мультимедиа на основе периодической модели с нестационарными параметрами. / А.А. Петровский, И.С. Азаров. // Доклады Белорусского государственного университета информатики и радиоэлектроники. — 2014.

29. Detection of neural activ ity in functional MRI using canonical correlation analysis / O. Friman, J. Cedefamn, P. Lundberg, M. Borga and H. Knutsson // Magn Reson Med — 2001 — 45:323-30.

30. Алгоритмы обнаружения основного тона речевых сигналов. / Е.Г. Жиляков, А.А. Фирсова, Н.А. Чеканов. // Научные ведомости. — 2012. — C. 135— 143.

31. Restrictions of the Measurement System and a Patient When Using Visually Evoked Potentials / Sergei Kharchenko, Yaroslav Turovsky, Roman Mescheryakov, Anastasia Iskhakova. // 12th International Conference on Developments in eSystems Engineering (DeSE). — 2019. — Kazan, Russia.

32. Implementation of Robot-Human Control Bio-Interface When Highlighting Visual-Evoked Potentials Based on Multivariate Synchronization Index / Sergei Kharchenko, Yaroslav Turovsky, Roman Mescheryakov, Daniyar Volf. // Proceedings of 15th International Conference on Electromechanics and Robotics «Zavalishin's Readings». — 2020. — Ufa, Russia.

33. A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario. / G. Pirker, M. Wohlmayr, S. Petrik and F. Pernkopf // Proceedings of INTERSPEECH. — 2011. — p. 1509-1512.

34. Азаров И.С. Алгоритм оценки мгновенной частоты основного тона речевого сигнала. / И.С. Азаров, М.И. Вашкевич, А.А. Петровский. // Цифровая Обработка Сигналов. — 2012. — C. 49-57.

ADAPTIVE PRIMARY CODES OF SPEECH SIGNALS BASED ON THEOREM V.A. KOTELNIKOV AND REPRESENTATIONS OF KHURGIN-YAKOVLEV

Kharchenko S.S., PhD of Technical Sciences, Associate Professor of the Department of Information Systems Security, Tomsk State University of Control Systems and Radioelectronics, Tomsk, Russia, kss@fb.tusur.ru

Kryuchkov I.A., software developer of the component development department of JSC «InfoTeKS», Tomsk, Russia

27

Meshcheryakov R.V., PhD of Technical Sciences, Professor, Chief Researcher of the Laboratory of Cyber-physical Systems of the Institute of Control Sciences of the Russian Academy of Sciences, Moscow, Russia

The article is devoted to the study of determining the frequency of the fundamental frequency of a speech signal. The material for the study was the database "The Pitch-Tracking Database from Graz University of Technology". The developed algorithm for determining the fundamental frequency of a speech signal based on the multidimensional synchronization index was used in the work. To interpret the results obtained, a comparison with known estimators was used; the following metrics were used: the percentage of gross errors and the average percentage of small errors. In the course of the study, it was found that the algorithm is more appropriate to use to determine the average pitch frequency than to determine the pitch frequency in real time.

• fundamental frequency • multivariate synchronization index • speech signal • pitch tracking.

28

i Надоели баннеры? Вы всегда можете отключить рекламу.