Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками

Бессонов Максим Александрович; Фархадов Маис Паша Оглы

УДК 004.421 ББК 32.97

АЛГОРИТМЫ ИНТЕРПРЕТАЦИИ ПРОСОДИЧЕСКИХ ПРИЗНАКОВ РЕЧИ ПРИ ЕЕ ОБРАБОТКЕ НИЗКОСКОРОСТНЫМИ КОДЕКАМИ

Бессонов М. А.1,

(ФГАОУВО «Российскийуниверситет дружбы народов», Москва) Фархадов М. П.2

(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)

В рамках решения задачи определения языка аудиосообщения на основе просодического подхода предложены два алгоритма интерпретации просодических признаков речи и методика их использования - алгоритм на основе широких фонетических категорий и алгоритм на основе кросскорреляционной функции от мелодики речевого сигнала и последовательности кратковременных энергий. Проводится экспериментальная оценка алгоритмов. В качестве решающего правила используются нейронные сети.

Ключевые слова: идентификация языка, нейронные сети, просодические признаки речи, широкие фонетические категории.

1. Введение

Определение языка аудиосообщения является актуальной задачей в связи с развитием множества сетевых человеко-машинных интерфейсов, при этом в данные системы закладывается поддержка множества языков. Выделяют четыре подхода ее

1 Максим Александрович Бессонов, аспирант ([email protected]).

2 Маис Паша Оглы Фархадов, д.т.н., с.н.с. ([email protected]).

решения - акустический, фонотактический, лексический и просодический. Так или иначе, первые три строятся на одних параметрах речевого сигнала - акустических - мел-кепстральных коэффициентах, смещенных мел-кепстральных коэффициентах и т.д. Просодический подход [5-9] использует такие параметра как мелодика речи, ритм, тембр и т.д. Просодические параметры сложно поддаются описанию и математической интерпретации. И поэтому в данной статье предлагаются два алгоритма для комплексного описания просодических признаков речи с целью их использования в системах автоматического определения языка аудиосообщения. Первый алгоритм основан на широких фонетических категориях [4], второй на кросскорреляционной функции мелодии речи и последовательности кратковременных энергий.

Данные алгоритмы отличаются от известных тем, что они применимы для определения языка аудиосообщения по речи, прошедшей через низкоскоростные кодеки. Это обусловлено тем, что в низкоскоростных кодеках в канал связи передаются такие параметры, как частота основного тона, сигнал тон-шум и усиление на квазипериодических отрезках.

2. Алгоритмы интерпретации просодических признаков

2.1. АЛГОРИТМ НА ОСНОВЕ ШИРОКИХ ФОНЕТИЧЕСКИХ КАТЕГОРИЙ

Пусть множество Ь = {Ь1, Ь2, ..., Ьх} есть множество языков, на котором осуществляется процедура определения языка аудиосообщения, где N - общее число языков. Пусть каждый язык Ь7 представляется множеством аудиозаписей различных дикторов этого языка Ь7 = {11, ¡2, ..., М}, где М7 - общее число аудиозаписей языка Ь7.

Аудиозапись разбивается на квазистационарные сегменты Si(m) длительностью К отсчетов, где 7 - номер сегмента речевого сигнала, 7 = 1, 2, ..., Р, Р - общее число сегментов в аудиозаписи речевого сигнала, т = 1, ..., К - 1. На каждом сегменте 7 вычисляется признак в соответствии с природой сегмента -вокализованный, невокализованный или пауза

(1) Д. = Т (^ (ш)),г =1,2,..., Р ,

где T - операция вычисления типа сегмента, а также кратковременная энергия сегмента

(2) Ек1 = Е ((ш)),г = 1,2,...,Р,

где E - операция вычисления кратковременной энергии сегмента. При работе алгоритма без восстановления исходной формы речевого сигнала параметры А{ и Eki берутся из кадров вокодер-ной передачи. Соответственно формируются последовательности А = (Д, Д,..., Д ) и Ек = (Екг, Ек2,..., Екр ). Если сегмент классифицирован как пауза, то Ai = 0, если классифицирован как невокализованный, то Ai = 1. На каждом вокализованном сегменте вычисляется частота основного тона

(3) Р 0. = Р ((ш)),1 =1,2,..., Р,

где F - операция вычисления частоты основного тона, и формируется последовательность Р0 = (р0,Р02,..., Р0Р). При работе алгоритма без восстановления исходной формы речевого сигнала параметр F0i берется их кадров вокодерной передачи.Диапа-зон изменения частоты основного тона аудиозаписей разбивается на 5 интервалов. Для вокализованных сегментов каждый сегмент обозначается цифрой в соответствии с тем, в какой интервал ЧОТ попадает значение частоты на данном сегменте

(4) Р0И; =С/Р(Р0),/=1,2,...,Р,

где F0ui - уровень ЧОТ, UF - операция вычисления диапазона изменения ЧОТ и кодирования каждого сегмента цифровым обозначением, формируется последовательность

Р0и = (Р0щ,Р0щ,..., ) - последовательность из значений ЧОТ на сегментах аудиозаписи. Далее вычисляются сегменты возрастания/убывания кратковременной энергии речевого сигнала

(5) Еи=иЕ{Ек),г=1,2,-,Р,

Кодирующиеся Eui = (+/-) 1 в зависимости от того, возрастает или убывает энергия соответственно, где UE - операция вычис-

ления возрастания/убывания кратковременной энергии речевого сигнала. Формируется последовательность Еи = (Ещ, Еи2,..., Еир). Если данный сегмент относится к участку убыванию кратковременной энергии, цифровое значение ЧОТ умножается на (-1).

Для определения побочных и главных ударений определяется главный и побочный максимумы ЧОТ на отрезке между двумя паузами. Если положение максимума ЧОТ и кратковременной энергии совпадают во времени и максимальны на отрезке, то этот сегмент принимается за главный максимум, если максимумы во времени не совпадают, то сегмент принимается

за побочный максимум ЫЛХ1 =0^0и, Еи), где 0 - операция определения главного и побочного максимумов ЧОТ и кратковременной энергии. Формируется последовательность

(6) МАХ ={МАХ1,МАХ2,...,МАХр) .

Таким образом, окончательная последовательность широких фонетических категорий (ШФК) аудиозаписи

Х = Х,Х2,...,Хр) состоит из элементов Х7, где

0, если Л{ - пауза,

1, если Л - невокализованный,

2, если F0и - уровень 1, -2, если F0и - уровень1, Еи =-1,

3, если F0и - уровень 2, -3, если F0и - уровень 2, Еи = -1,

4, если F0и - уровень 3, -4, если F0и - уровень 3, Еи =-1,

5, если F0и - уровень 4, -5, если F0и - уровень 4, Еи = -1,

6, если F 0и - уровень 5, -6, если F0и - уровень 5, Еи = -1,

7, еслиМАХг - побочный максимум,

8, еслиЫЛХ7 - главный максимум.

(7)

Х =

На рис. 1 и рис. 2 приведены блок-схемы алгоритма кодирования сегментов речевого сигнала.

По последовательности широких фонетических категорий

X вычисляется автокорреляционная функция R = Y(X), где ¥ -операция вычисления автокорреляционной функции.

В случае работы алгоритмов без восстановления исходной формы речевого сигнала значения ЧОТ берутся из кадров воко-дерной передачи. В случае работы алгоритма с восстановлением исходной формы речевого сигнала требуется выбор алгоритма оценки частоты основного тона.

Для определения ЧОТ существуют различные алгоритмы [2]. В данной работе были проведены испытания готовых алгоритмов, реализуюших определение ЧОТ по автокорреляционной функции (АКФ) - алгоритм SIFT, по кратковременной функции средней разности (КФСР) - алгоритм AMDF, а также алгоритм оценки ЧОТ из алгоритма кодирования речи MELP. Проценты отрезков речевого сигнала с показателями .Р(ОТ) -правильно определенным основным тоном, .Р(НВ/В) - принятия вокализованного отрезка за невокализованный, .Р(В/НВ) - принятия невокализованного за вокализованный приведены в таблице 1.

Таблица ¡.Показатели правильности оценки основного тона

Алгоритм SIFT AMDF MELP

ДОТ), % 87±1 89±1 95±1,5

ДНВ/В), % 7±1 6±1 3±0,5

ДВ/НВ), % 0,5 0,5 0,5

Как следует из экспериментального сравнения представленных алгоритмов, наилучшим оказался MELP. Данный алгоритм был выбран для оценки основного тона.

Рис. 1. Блок-схема алгоритма кодирования сегментов речевого сигнала

Рис. 2. Блок-схема алгоритма кодирования сегментов речевого сигнала (продолжение)

2.2. АЛГОРИТМ НА ОСНОВЕ КРОССКОРРЕЛЯЦИОННОЙ ФУНКЦИИ МЕЛОДИИ ОСНОВНОГО ТОНА И ПОСЛЕДОВАТЕЛЬНОСТИ КРАТКОВРЕМЕННЫХ ЭНЕРГИЙ

Для реализации просодической классификации предлагается использование кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий сигналов аудиозаписей. Аудиозапись разбивается на квазистационарные сегменты Si(m) длительностью К отсчетов, где 7 - номер сегмента речевого сигнала, 7 = 1, 2, . , Р, Р - общее число сегментов в аудиозаписи речевого сигнала, т = 1, ..., К - 1. На каждом сегменте i вычисляется признак в соответствии с природой сегмента - вокализованный, невокали-зованный или пауза

(8) Л. = Т (5 (ш)),г =1,2,..., Р ,

где Т - операция вычисления типа сегмента, а также кратковременная энергия сегмента

(9) Ец = Е ( 5 (ш)),г =1,2,...,Р,

где Е- операция вычисления кратковременной энергии сегмента. Соответственно формируются последовательности Л = (Л,Л,...,Л) и Ек = (Ек1,Екг,...,Екр). Если сегмент классифицирован как пауза, то А7 = 0, если классифицирован как нево-кализованный, то А7 = 1. На каждом вокализованном сегменте вычисляется частота основного тона (ЧОТ)

(10) Р 0. = Р (5 (ш)),г =1,2,...,Р,

где Е - операция вычисления частоты основного тона, и формируется последовательность Р0 = (р0, Р0,. ., Р0Р ).

При работе алгоритма без восстановления исходной формы речевого сигнала параметры А7 и Ек7, Е01 берутся из кадров вокодерной передачи.

По последовательности значений частоты основного тона и последовательности кратковременных энергий вычисляется их кросс-корреляционная функция

(11) В = Ф(Р0, Ек),

где Ф - операция вычисления кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий. Вектор значений кросскорреляционной функции последовательности широких фонетических категорий подается на вход нейронной сети, которая принимается решение по отнесению данного вектора к какой-либо группе языков.

Алгоритм вычисления признаков представлен на рис. 3

Рис. 3. Блок-схема алгоритма кодирования сегментов речевого

сигнала

3. Методика применения алгоритмов

интерпретации просодических признаков в задаче определения языка аудиосообщения

Для применения указанных алгоритмов была разработана следующая методика. Она заключается в последовательности ряда этапов.

Этап 1. Формирование обучающей речевой базы данных.

Обучающая база данных должна удовлетворять следующим условиям: если N - общее число языков, ат' - число дикторов мужского пола языка 7, ^ - число дикторов женского пола языка 7, то Уг(ат', а}7) = У^ат, а}), где 7, ] - номера языков, 7,] = 1, ..., N. То есть все возрастные группы должны быть представлены в равной пропорции дикторами мужского и женского пола, объемы речевых данных дикторов различных возрастных групп должны быть одинаковы. Объем речевых данных должен быть достаточен со статистической точки зрения для описания всех вариативностей произношения на данном языке. Общие объемы речевых баз по языкам должны быть равны.

Шаг 1. Получение от источника аудиосообщения в цифровом виде St(fd, т, р,}) с параметрами - формат} = <даау», частота дискретизации } = 8 кГц, режим т = моно, р = 16 бит, t - номер аудиосообщения.

Шаг 2. Фильтрация аудиосообщения Stfd, т, р,}) - удаление посторонних шумов. Получение фильтрованного аудиосообщения Sffd, т, р,}) = Р^}, т, р,})], где Р - операция фильтрации.

Шаг 3. Формирование обучающих и тестовых данных. Для каждого языка Ь7 формируется база аудиосообщений ¿и^/и}^ т,р,}), S2fLifd, т,р,}), ..., Sм{Lг(fd, т,р,})}, где Мг - общее число аудиосообщений языка иг.

Общая база аудиосообщений Ъ = {2^, 2и2, ., 2ш}.

Шаг 4. Обработка всех аудиосообщений всех языков заданным вокодером.

2"°к = У0К(2), где УОК - операция обработки базы аудио-сообщений вокодером, Ток = {2'оки1, Токи2, ., 2'окш}.

Шаг 5. Вычисление параметров из аудиосообщений в соответствии с разработанными алгоритмами - формирование базы параметров 2^окьМоа1 = Мо^Л), = Моа2(2уо"и), где

Mod1, Mod2 -операции вычисления параметров в соответствии с разработанными алгоритмами описания просодических параметров речи.

Этап 2. Обучение искусственной нейронной сети, в процессе обучения происходит настройка различных параметров нейронной сети. Нейронные сети с различной топологией опи-

сываются различными математическими моделями, поэтому в каждом конкретном случае нейронная сеть будет описываться своей формулой. Для формирования групп языков строятся нейронные сети, число которых равно сочетанию из N по 2. Этап 3. Тестовая оценка нейронной сети. Шаг 1. Получение от источника аудиосообщения в цифровом виде St(fd, m, p, f) с параметрами: формат fr = «wav», частота дискретизации fd = 8 кГц, режим m = моно, p = 16 бит, t - номер аудиосообщения.

Шаг 2. Фильтрация аудиосообщения Stfd, m, p, fr) - удаление посторонних шумов. Получение фильтрованного аудиосообщения Sffd, m, p, fr) = P[Stfd, m,p,fr)], где Р - операция фильтрации.

Шаг 3. Тестирование нейронных сетей. На вход нейронной сети для каждой пары языков Li и Lj подаются аудиосообщения языков i и j, на выходе - оценка того, какому языку принадлежит данное аудиосообщение, t - номер аудиосообщения.

(12) L = NET(Sf (fd,m,p,fr)).

Шаг 4. Вычисление числа правильно распознанных аудио-сообщений в каждой паре языков. Получение вектора

D = (d12, d2i, d13, d31, ..., dN(N-1), d(N-1)N), где dij - число правильно определенных аудиосообщений для пары языков LLj, i Ф j.

Шаг 5. Построение иерархического дерева языков на основе агломеративного иерархического алгоритма

(13) Ршгп (a, ,aJ) = tnm d (Xk, X, ),

где ai,aj - языки Li и Lj, p(ai, aj) - расстояние между Li и Lj.

На основе иерархического дерева строятся группы языков.

4. Формирование речевой базы данных

Для проведения тестов в данной работе была сформирована база данных аудиозаписей, состав базы указан в таблице 2.

Источник аудиозаписей - каналы интернет вещания - телевидение и радио, т.е. речь, прошедшая обработку различными кодеками.

Таблица 2. Характеристики базы данных для проведения экспериментальной оценки эффективности моделей описания просодических признаков ___

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Язык Число дикторов Суммарное время аудиозаписей на каждого диктора, мин Пол диктора (м-мужской, ж-женский) Процент обучающей/тестовой выборки, %

Китайский 10 100 5м/5ж 80/20

Английский 10 100 5м/5ж 80/20

Финский 10 100 5м/5ж 80/20

Французский 10 100 5м/5ж 80/20

Немецкий 10 100 5м/5ж 80/20

Японский 10 100 5м/5ж 80/20

Персидский 10 100 5м/5ж 80/20

Португальский 10 100 5м/5ж 80/20

Русский 10 100 5м/5ж 80/20

Испанский 10 100 5м/5ж 80/20

Для исключения влияния базы данных на эксперимент число дикторов по всем языкам выбрано одинаковым, суммарное время аудиозаписей выбрано одинаковым, также одинаков процент обучающей и тестовой выборок. Обучающая и тестовая выборки не перекрываются. Для проведения экспериментов все аудиозаписи обучающей и тестовой выборок разделялись на отрезки по 10 с.

Возрастной состав дикторов определить возможно приблизительно - мужчины и женщины от 20 до 50 лет, объем обучающей выборки - 80% от времени аудиозаписей каждого диктора, объем тестовой выборки - 20% от времени аудиозаписей каждого диктора. Деление аудиозаписей на обучающую и тестовую выборки произведено в случайном порядке.

5. Создание и настройка нейронной сети

Задача распознавания образов в большинстве случаев решается статистическими методами, но в случае речевых данных на различных языках достаточно сложно построить статистическое распределение рассматриваемых параметров, и поэтому в данной работе для классификации отрезков речи применены искусственные нейронные сети.

Как известно, для задач типа классификации число нейронов во входном слое вычисляется исходя из вектора признаков, который подается на вход [3], а число нейронов выходного слоя зависит от того, какая задача решается и какое применяется правило интерпретации выходных значений [3]. Для оценки числа нейронов в скрытых слоях применяют формулу [3]

NN..

/

(14) 1 / У (\г \ - ^ - МУ

1 + (Ыр ) У

N

р- +

N

1 (^ + Ny +1) + Ny ,

V

где Ny - размерность выходного вектора нейросети (НС), N - число элементов обучающей выборки, N - размерность входного вектора, ^ - общее число нейронов.

Выбор класса и архитектуры НС является нетривиальной задачей, для решения которой точных методов не существует [3]. Для выбора числа нейронов выделяют два метода: 1) чем больше нейронов, тем надежнее работа сети; 2) чем больше число нейронов, тем хуже создаваемая нейронная сеть аппроксимирует функцию.

Для реализации классификатора на базе нейронной сети был сделан выбор в пользу пакета МЛ^АВ, который включает в себя функционал по нейронным сетям.

В работе экспериментальные исследования проводились со следующими сетями: сеть Кохонена, каскадная НС, сеть Элма-на, многослойный персептрон, сеть Хопфилда, вероятностная сеть, сеть с радиальными базисными функциями RBF, НС встречного распространения - LVQ сети.

Алгоритмы, стандартные в МА^АВ, использованные при обучении сетей [1]: квазиньютоновский алгоритм; алгоритм Левенберга-Марквардта с регуляризацией Байеса; метод сопряженных градиентов Флетчера-Ривса; метод сопряженных гради-

ентов Полака-Ривьера; метод сопряженных градиентов Пауэлла-Беаля; базовый метод градиентного спуска; метод градиентного спуска с переменным шагом обучения; алгоритм Левенберга-Марквартда, метод масштабированных сопряженных градиентов; метод градиентного спуска с моментом; метод градиентного спуска с моментом и переменным шагом обучения; метод «One Step Secant»; метод случайных приращений; эластичный алгоритм обратного распространения ошибки.

На первом этапе для построения сокращенных групп из 10 языков эксперименты проводились с отдельной сетью для каждой пары языков, то есть было построено 45 нейронных сетей.

Наилучшие показатели были получены при создании многослойного персептрона, поэтому было принято решение провести более точную настройку данного типа НС.

Но поскольку заранее неизвестно, какой язык подается на вход НС, было принято решение использовать единую архитектуру для сетей каждой пары языков.

6. Оценка алгоритма на основе широких фонетических категорий

Согласно формуле и исходным параметрам для тестирования НС: Ny = 2, Np = 600, Nx = 399, число нейронов в скрытых слоях 117 < Nw < 2015 для модели ШФК.

Поскольку Nw лежит в пределах от 117 до 2015, то при создании архитектуры НС число нейронов в слое варьировалось от 100 до 2000, соответственно число слоев от 1 (1 слой от 100 до 2000 нейронов) до 20 (20 слоев по 100 нейронов) в следующих конфигурациях: со 100 до 1000 нейронов с шагом в 10 нейронов в слое, с 1000 до 2000 с шагом в 100 нейронов. Максимальное число нейронов в слое 800

При построении различных архитектур многослойного пе-септрона для 45 пар языков формировался вектор целевых показателей достоверности распознавания D = (d12, d21, d13, d31, di:j, dji, dN,N-1, dN-1>N), где N - общее число языков в САОЯ. Таким образом, длина вектора D = 90. Каждый элемент dy, dj,i = 100.

Вектор показателей достоверности распознавания

Dk=(du, d2,1, di ,з, d3,i, dij, dj,i, d NN-i, d n-iN) для текущей архитектуры НС имеет также длину 90 и расстояние между D и Dk определяется как

(15) Dr = у/(dl2 — d\2 )2 + (d2X — d2Д )2 + (dhJ — dkhJ )2 +...

•• • + (dj,i — d j,i ) . + (dN,N-1 — d N,N—1) + (dN—1,N — d N-1,N ) •

Таким образом, тем меньше расстояние Dr, тем лучше настроена НС. В результате исследования Dr колебалась в пределах от 59,1861 до 532,4106. Наилучший показатель Dr = 72,5358 был получен для конфигурации НС - общее число нейронов 1400, 1 слой - 800 нейронов, 2 слой - 600 нейронов. Результаты определения языка представлены в таблице 3.

Таблица 3. Средние значения достоверности определения языка

китайский английский финский французский немецкий японский персидский португальский русский испанский

китайский 94,5 95,1 96,2 95,9 97,5 96,6 95,2 94,4 97,9

английский 93,8 97,4 92,8 93,8 93,6 98,1 94,5 94,0 97,8

финский 93,8 93,7 93,2 93,4 93,9 93,9 96,1 93,7 94,3

французский 94,2 93,6 93,2 93,9 93,4 94,0 94,8 93,8 94,4

немецкий 94,5 92,6 93,7 92,5 94,6 94,0 97,5 96,3 93,9

японский 83,6 94,1 74,0 98,3 93,3 94,0 84,9 94,4 98,0

персидский 84,4 94,0 74,6 93,3 93,8 83,6 92,7 84,3 93,2

португальский 94,2 93,6 93,5 93,9 94,2 94,5 93,5 93,9 98,4

русский 94,4 95,1 94,1 95,3 93,4 94,0 94,4 94,3 94,5

испанский 93,9 94,3 93,4 93,2 94,2 93,8 94,1 94,5 93,2

Для группировки языков на группы применим агломера-тивный иерархический алгоритм. В качестве образов выступают пары языков, в качестве расстояния между образами - средние значения достоверности определения языка в паре при фиксированной вероятности ошибки первого и второго рода. В качестве расстояния между классами используем расстояние по принципу ближайшего соседа:

(16) Ртт () = тгп d(Хк,XI),

где ю,, Ю] - языки Ь, и Ц, р(ю, ю;) - расстояние между Ь, и Ц.

Таким образом, получаем граф иерархической классификации. Исходя из полученного графа иерархической классификации, получаем группы схожести языков.

7. Оценка алгоритма на основе кросскорреляционной функции мелодии основного тона и последовательности кратковременных энергий

Согласно формуле и исходным параметрам для тестирования НС: Ыу = 2, Ыр = 600, N = 797, число нейронов в скрытых слоях 117 < < 2806 для модели кросскорреляционной функции от последовательности значений основного тона и кратковременной энергии речевого сигнала.

Поскольку лежит в пределах от 117 до 2806, то при создании архитектуры НС число нейронов в слое варьировалось от 100 до 3000, соответственно число слоев от 1 (1 слой от 100 до 3000 нейронов) до 20 (30 слоев по 100 нейронов) в следующих конфигурациях: со 100 до 1000 нейронов с шагом в 10 нейронов в слое, с 1000 до 3000 с шагом в 100 нейронов. Максимальное число нейронов в слое 800; Вг = 89,1449.

Результаты определения языка представлены в таблице 4.

Таблица 4. Cредние значения достоверности определения языка

китайский английский финский французский немецкий японский персидский португальский русский испанский

китайский 97,7 94,7 92,8 97,8 97,9 93,8 91,7 93,1 92,1

английский 91,2 91,4 92,3 92,9 94,8 92,7 97,7 90,3 92,0

финский 90,9 91,5 95,8 94,7 94,6 95,4 90,9 93,6 95,9

французский 92,1 92,9 92,4 93,9 96,7 97,5 92,1 91,8 91,8

немецкий 92,5 90,2 91,4 90,4 91,8 92,2 92,4 93,0 95,4

японский 80,6 91,8 90,1 82,3 71,9 90,7 90,5 94,7 97,2

персидский 71,1 91,5 82,3 91,6 82,6 78,2 97,5 92,5 91,5

португальский 90,7 91,0 92,0 92,0 93,2 93,4 92,1 94,5 92,5

русский 91,0 91,7 90,6 92,6 92,3 92,4 91,7 91,6 96,2

испанский 90,5 92,9 90,9 92,8 91,2 93,1 91,4 92,1 93,6

8. Заключение

Целью описанных в статье алгоритмов является комплексное описание просодических признаков речи для того, чтобы эти признаки можно было использовать при специальной обработке данных, в частности в задаче определения языка аудиосо-общения. Как следует из приведенных таблиц, описание просодических параметров моделью ШФК дает большую достоверность определения языка, но незначительно в сравнении с кросскорреляционной функцией. Показатель близости текущих результатов определения языка к целевым Вг составил Вг = 72,5358 для модели АКФ от ШФК и Вг = 89,1449 для модели кросскорреляционной функции от последовательности значений основного тона и кратковременной энергии речевого сигнала.

Отличительной особенностью данных алгоритмов является то, что они применимы при определении языка аудиосообщения

по речи, преобразованной вокодерами, без восстановления

исходной формы речевого сигнала.

Литература

1. ДЬЯКОНОВ В.П., КРУГЛОВ В В. Matlab 6.5 SP1/7/7 SP1/7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики. - М.: СОЛОН-ПРЕСС, 2006. - 456 с.

2. ИМАМВЕРДИЕВ Я.Н., СУХОСТАТ Л.В. Подходы для оценки периода основного тона речевого сигнала в зашумлённой среде // Речевые технологии. - 2014. - №1-2. - С. 84-102.

3. КОМАРЦОВА Л.Г., МАКСИМОВ А.В. Нейрокомпьютеры: Учебное пособие для вузов. - 2-е изд., перераб. и доп. - М.: изд-во МГТУ им. Н.Э. Баумана, 2004. - 400 с.

4. МИЛОШЕНКО А.А. Разработка методики использования широких фонетических категорий в задачах верификации диктора: Автореф. дис. канд. техн. наук. - Москва, 2010. -94 с.

5. AMBIKAIRAJAH E., LI H., WANG L., YIN B. Language Identification: A Tutorial // IEEE Circuits and Systems Magazine. -2011. - Vol. 11, Iss. 2. - P. 82-108.

6. BHATTACHARJEE U., SARMAH K. Language identification system using MFCC andprosodic features // Int. Conference on Intelligent Systems and Signal Processing (ISSP), Gujarat, 2013. -P. 194-197.

7. LEE R., LEUNG C.-C., MA B. Spoken Language Recognition with prosodic features // IEEE Trans. on Audio, Speech, and Language Processing. - 2013. - Vol. 21, Iss. 9. - P. 1841-1853.

8. MARTINEZ D., JEIDA E., ORTEGA A. Prosodic features and formant modeling for an ivector-based language recognition system // Proc. ICASSP, Vancouver, Canada, May 2013. -P. 6847-6851.

9. MARTÍNEZ D., BURGET L., FERRER L., SCHEFFER N. iVec-tor-based prosodic system for language identification // IEEE Int. Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012. - P. 4861-4864.

ALGORITHMS FOR INTERPRETATION OF PROSODIC FEATURES IN LOW-BITRATE SPEECH PROCESSING

Maxim Bessonov, «Russian peoples' friendship university», Moscow, graduate student ([email protected]). Mais Pasha Farhadov, Institute of Control Sciences of RAS, Moscow, Doctor of Science, Senior Researcher, (Moscow, Profsoyuz naya st., 65, [email protected]).

Abstract: We study the language identification problem using prosodic features. Prosodic features such as melody, rhythm, timbre and others are difficult to formalize mathematically. Two algorithms for a complex description of prosodic features are proposed in the paper. The first is based on the broad phonetic categories, and the second is based on the cross-correlation of the speech melody and the short-term energy sequence. The fundamental frequency was estimated by MELP algorithm. The performance of the proposed algorithms was evaluated experimentally on a database of speech recordings obtained from Internet and therefore encoded by low-bitrate vocoders. The database includes ten different languages. The proposed algorithms provide a feature description and a multi-layer neural network was used as a language classifier. Both algorithms show satisfactory classification performance, but the broad phonetic categories approach performs slightly better than the cross-correlation function. These algorithms can be applied to a speech signal processed by low-bitrate vocoders without decoding to the original signal.

Keywords: language identification, neural networks, speech prosodic features, broad phonetic categories.

Статья представлена к публикации членом редакционной коллегии Н.И. Базенковым.

Поступила в редакцию 09.11.2016.

Опубликована 31.03.2017.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бессонов Максим Александрович, Фархадов Маис Паша Оглы

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бессонов Максим Александрович, Фархадов Маис Паша Оглы

Algorithms for interpretation of prosodic features in low-bitrate speech processing

Текст научной работы на тему «Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками»