УДК 612.789.4
А. К. Алимурадов1, А.Ю. Тычков1, А. П. Зарецкий2, А. П. Кулешов3, П. П. Чураков1, Ю. С. Квитка1
ХФГБОУ ВО «Пензенский государственный университет», научно-исследовательский институт фундаментальных и прикладных исследований, 440026, г. Пенза 2 Московский физико-технический институт (государственный университет) 3ФГБУ «ФНЦТИО им. ак. В. И. Шумакова» Минздрава России
Метод повышения эффективности голосового управления на основе комплементарной множественной декомпозиции на эмпирические моды
Низкая точность распознавания речевых команд является одной из основных проблем практической реализации систем голосового управления (СГУ). Это связано с использованием неэффективных и неадаптивных методов обработки речевых сигналов. В данной статье предложен усовершенствованный алгоритм распознавания речевых команд с использованием адаптивной технологии обработки - комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ). Представлена блок-схема и подробное математическое описание основных блоков алгоритма. Суть предложенного алгоритма заключается в выделении из исходного речевого сигнала информации об уникальных свойствах голоса. Результаты экспериментального исследования предложенного алгоритма демонстрируют повышение точности распознавания речевых команд и эффективности голосового управления по сравнению с известными аналогами «RWTH ASR», «Julius» и «CMU Sphinx».
Ключевые слова: голосовое управление, СГУ, обработка речевых сигналов, КМДЭМ, мел-частотные кепстральные коэффициенты (МЧКК).
A.K. AUmuradov1, A. Yu. Tychkov1, A. P. Zaretskiy2, A. P. Kuleshov3, P.P.
Churakov1, Y. S. Kvitka1
1 Penza State University, Research institute for basic and applied studies, 440026, Penza 2 Moscow Institute of Physics and Technology (State University) 3Federal State Budgetary Institute V. I.Shumakov Federal Research Center of Transplantology and Artificial Organs, Ministry of Health of the Russian Federation
Method for improving efficiency of voice control based on the complementary ensemble empirical mode
decomposition
The low accuracy of voice recognition is one of the main problems of practical implementation of voice control systems (VCS). It is associated with the use of inefficient and non-adaptive methods for speech signal processing. An improved algorithm for recognizing voice commands using the adaptive processing technology of the complementary ensemble empirical mode decomposition (CEEMD) is proposed. The block diagram and detailed mathematical description of basic blocks of the algorithm are given. A distinctive feature of the proposed algorithm is to extract only useful information of the unique properties of voice from the original speech signal. The experimental results of the proposed algorithm show the improved accuracy of voice commands recognition and efficiency of voice control as compared to the known RWTH ASR, Julius, and CMU Sphinx analogues.
Key words: voice control, VCS, speech signals processing, CEEMD, mel-frequency cepstral coefficients (MFCC).
1. Введение
СГУ основаны на технологии распознавания речи, которое сводится к обработке и анализу речевых команд с целью определения информативных параметров. Работа в направлении повышения эффективности голосового управления ведется достаточно активно. На сегодняшний день представлено большое количество алгоритмов, повышающих точность распознавания и эффективность голосового управления. Разнообразие алгоритмов обусловлено как важностью проблемы, так и отсутствием достаточно эффективных методов ее решения. Широкую практическую популярность получили алгоритмы распознавания с открытым исходным кодом: RWTHASR [1], Julius [2] и CMUSphinx [3]. На рис. 1а представлена блок-схема классического алгоритма, применяемого в СГУ. Штриховой линией отмечен режим обучения, сплошной линией - рабочий режим алгоритма. Как видно из рисунка, точность распознавания зависит от предварительной обработки (блоки зеленого цвета), точности определения информативных параметров - МЧКК (блоки синего цвета) и распознавания (блоки красного цвета). Основная причина низкой точности связана с использованием неэффективных и неадаптивных методов обработки речевых сигналов. Исследования существующих методов обработки речевых сигналов, применяемых в СГУ [4], выявили перспективность использования адаптивной технологии анализа нестационарных данных - КМДЭМ [5]. Целью данной статьи является разработка алгоритма, повышающего точность распознавания речевых команд и эффективность голосового управления за счет применения КМДЭМ. Статья является развитием ранее опубликованных трудов авторов [6-8].
2. Комплементарная множественная декомпозиция на эмпирические моды
КМДЭМ представляет собой адаптивную технологию разложения сигнала на эмпирические моды (ЭМ). Адаптивность метода заключается в том, что базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала. Аналитическое выражение [5] декомпозиции имеет следующий вид:
x(t) = IMFi(t) + ri (t),
(1)
i=1
где х(Ь) - исходный речевой сигнал, г - номер ЭМ, I - количество ЭМ, - конечное
число извлекаемых ЭМ, Г1 (Ь) - результирующий остаток.
Особенность метода КМДЭМ заключается в многократном добавлении к исходному речевому сигналу белого шума с прямыми и инверсными значениями амплитуды и вычислении среднего значения полученных мод как конечного истинного результата независимо от того, сколько сигналов белого шума использовалось (2-4):
xj(t) Xj (ty
1 1 1 -1
x(t)
Wi(t)
(2)
IMFi(t) =
J IMFji(t) J
(3)
ri(t) =
Ej=i rji(t) j
(4)
где хз(Ь) - зашумленный белым шумом речевой сигнал, х^(Ь)* - зашумленный инверсным по знаку белым шумом речевой сигнал, 1ЫЕл(Ь),тл(Ь) - ЭМ и результирующий остаток,
*
полученные при различных декомпозициях, ^ = 1, 2,....] - количество циклов декомпозиций (добавлений к сигналу белого шума). КМДЭМ в полной мере использует преимущество статистических характеристик белого шума для обнаружения слабых периодических участков речевых сигналов с минимальным значением остаточного шума.
а. Классическая б. Усовершенствованная
Рис. 1. Блок-схемы алгоритма распознавания речевых команд
3. Алгоритм распознавания речевых команд на основе КМДЭМ
На рис. 1б представлена блок-схема усовершенствованного алгоритма распознавания речевых команд. Суть предложенного алгоритма заключается в усовершенствовании этапа предварительной обработки - уменьшении разницы между поступающими в систему
речевыми командами и шаблонами (полученными в ходе обучения) посредством выделения из исходного сигнала только полезной информации об уникальных свойствах голоса для последующего распознавания. Рассмотрим подробнее основные этапы работы предложенного алгоритма.
Блок 1. Регистрация сигнала речевой команды х(п) осуществляется со следующими параметрами: длительность записи - не более 3000 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит, где п - дискретный отсчет времени, 0 < п ^ NN -количество дискретных отсчетов в сигнале.
Блок 2. Результатом КМДЭМ сигнала речевой команды будет конечное число ЭМ 1ЫЕг(п) и результирующий остаток VI(п), где г - номер ЭМ, I - количество ЭМ.
Блок 3. Ключевым понятием при формировании набора информативных сигналов является информативность ЭМ. При условии, что речевой сигнал имеет конечную энергию, число ЭМ при разложении всегда является конечным. Для абсолютно произвольного сигнала все ЭМ можно разбить на две категории [9]:
- информативные ЭМ с шумовыми и сигнальными составляющими;
- неинформативные ЭМ с трендовыми и компенсирующими составляющими.
Информативные ЭМ в разложении всегда отражают внутреннюю структуру и особенности речевого сигнала. К их числу относятся шумовые и сигнальные ЭМ. Появление в разложении первых объясняется наличием в исходном сигнале остаточного шума, а вторые связаны непосредственно с полезным сигналом и входящими в него компонентами. Неинформативные ЭМ являются медленно меняющимися функциями. Среди них выделяют трендовые ЭМ, описывающие истинную динамику среднего значения сигнала и компенсирующие ЭМ, возникающие при разложении. Трендовые ЭМ появляются, например, при разложении суммы гармонического сигнала и полиномиального тренда. Компенсирующие (ложные) ЭМ - результат несовершенства самого алгоритма декомпозиции (критериев остановки процесса отсеивания, неточностей при вычислениях, ошибок округления). Их появление не связано с какими-либо физическими или математическими особенностями рассматриваемых сигналов, а объясняется только лишь несовершенством вычислительной процедуры. Компенсирующие ЭМ обычно создают избыточность в разложении [10], а их название объясняется тем, что в сумме они дают функцию, очень близкую к нулю, и, по сути, компенсируют друг друга. Формирование набора информативных сигналов заключается в вычитании из исходного сигнала речевой команды информативных шумовых и неинформативных ЭМ. Информативными шумовыми обычно являются первые две или три ЭМ, в зависимости от интенсивности присутствующего в сигнале шума. Неинформативными являются последние три или четыре ЭМ, в зависимости от общего количества мод (число ЭМ примерно равно двоичному логарифму от числа отсчетов в сигнале). Формирование набора информативных сигналов осуществляется по формуле:
2 2 ХаЬ,г(п)= х(п) - (а ШГг+1(п)+ Ь 1ИГ1 -\(п)), (5)
г=0 г=0
где хаь,г(п) - информативный сигнал, х(п) - исходный сигнал речевой команды, г - номер ЭМ, I - количество ЭМ, а,Ь - коэффициенты, определяющие участие ЭМ в формировании набора информативных сигналов. На рис. 2 представлена графическая интерпретация примера формирования набора информативных сигналов. Исходный речевой сигнал разлагается на десять ЭМ. Вычитая информативные шумовые и неинформативные ЭМ, сформирован набор, состоящий из восьми информативных сигналов (5).
Целью формирования набора информативных сигналов является возможность выбора одного сигнала, содержащего максимально большее количество информации об уникальных свойствах голоса. В последующих действиях работы алгоритма будет выбран наиболее приемлемый информативный сигнал, обеспечивающий наименьшую разницу между поступающей в систему речевой командой и шаблоном.
Первым "этап вычитания ¡-О
Второйэтап вычитания t-l
Третий этап вычитания i=2
Копффнш 1СНТЫ
а= 1, &=0
Коэффициенты
с/ - 0, й = !
КОЭффИЦИвНТЫ а= 1,6= ]
Йнформэтнвяые шумовые ЭМ Информативней полезные ЭМ Неинформативные ЭМ
[MP 1 1МК2 IMF 3 IMF 4 IMF 5 1МР'6 1МР7 IMF 8 1МР 9 IMF 10
1МР2 IMF 3 IMF 4 IMF 5 1МР6 1МР7 IMF 8 1Ш
IMF 3 IMF 4 IMF 5 1МР 6 1МР7 IMF 8
IMF 4 IMF 5 IMF й IMF 7
Информативный сигнал
Информативный сигнал хш(п)
Информативный сигнал х,и11(п/
Информативный сигналу, (п)
№ ¡формативный сигнал .г., „(п)
Информативный сигнал д-„ ,(п)
Информативный сигналу,(п)
- Исходный речевой сигнал —»
Рис. 2. Графическая интерпретация формирования набора информативных сигналов
Блок 4. Сегментация ЭМ - это линейное деление на составляющие отрезки, называемые фрагментами. Разработанный алгоритм основан на предположении о том, что свойства речевого сигнала с течением времени изменяются медленно. Это предположение приводит к кратковременному анализу, в котором фрагменты ЭМ выделяются и обрабатываются так. как если бы они были короткими участками с отличающимися свойствами. Сегментация ЭМ на фрагменты осуществляется по следующим формулам:
5 =
IMFi(n)
L
(6)
ум+1(п) = Ш¥г((5 • Ь) + 1; (5 + 1) • Ь), (7)
где 5 - количество фрагментов в ЭМ, Ь - количество дискретных отсчетов в одном фрагменте, уг,8+1(п) - фрагмент г-й ЭМ, 5 = 0,1,2,... 5-1 - номер фрагмента.
Блок 5. Для уменьшения искажения спектра при обработке речевых сигналов используют оконное преобразование с плавно спадающими до нуля краями. Традиционно в обработке используется окно Хэмминга - вектор коэффициентов в дискретном виде, определяемый по формуле:
w(u + 1) = 0, 54 - 0, 46 • cos(2^-
u
),
и - 1'
где и = 0,1, 2,... и-1 - номер коэффициента окна Хэмминга.
Оконное преобразование фрагмента г-й ЭМ осуществляется по формуле:
(8
Уг,з+1(п) = уг,з+1(п) ® ш(и + 1). (9)
Блок 6. В качестве информативных параметров в предложенном алгоритме используются МЧКК [10], которые включают в себя два основных понятия: кепстр и мел-шкала. Кепстр - это дискретно-косинусное преобразование амплитудного спектра сигнала в логарифмическом масштабе. Кепстр сигнала определяется по формуле:
с(п) = ОСТ[^(Х(| х(п)2 |))], (10)
где ОСТ - дискретно-косинусное преобразование, Х - спектральное представление сигнала х(п). Понятие кепстра позволяет реализовывать преимущества спектрального представления сигнала. При преобразовании сигнала из временной области в частотную происходит
сжатие информации, которая становится более наглядной, подробной и компактной - в виде кепстра. Мел шкала - это шкала частотной восприимчивости изменений высоты звука. Мел - психофизическая единица высоты звука. Высота звука связана главным образом с частотой колебаний. По этой причине люди гораздо лучше воспринимают небольшие изменения звука на низких частотах, чем на высоких. Т.е. мел-шкала моделирует частотную чувствительность человеческого слуха.
Перевод из шкалы герц в шкалу мелов происходит по следующей формуле:
m(f) = 1125 ln(1 + f/700), (11)
где m - частота в мелах, f - частота в герцах. Начальным этапом вычисления МЧКК является спектральное представление фрагментов ЭМ по формуле:
L
Yi,s+i(k) = Viss+i(s • L + l) • eLkl. (12)
i=i
где Yi,s+l(k) - спектр фрагмента сигнала i-й ЭМ, yi,s+l - фрагмент сигнала i-й ЭМ, 0 ^ k < N-1 - количество комплексных амплитуд синусоидальных сигналов, составляющих исходный сигнал, l = (1, 2,...L) - номер отсчета фрагмента сигнала ЭМ, L - количество отсчетов во фрагменте, j - мнимая единица.
Значение k определяет частоты, составляющие сигнал:
fk = N • k. (13)
где Fs - частота дискретизации сигнала. Следующим этапом вычисления МЧКК является получение периодограммы фрагментов ЭМ по формуле:
Pi,s+i(k) = L I Yi,s+i(k) \2, (14)
где Pi,, s+]_(k) - периодограмма фрагмента i-й ЭМ.
Полученные периодограммы фрагментов содержат избыточное количество информации о частотах для задачи распознавания. По этой причине для более компактного представления информации периодограммы делятся на частотные диапазоны. К каждому диапазону применяется треугольная оконная функция - мел-фильтр, позволяющая просуммировать количество энергии каждого частотного диапазона периодограммы и определить мел-коэффициенты. Формирование набора мел-фильтров осуществляется по следующей методике [6, 10]:
- задается количество мел-фильтров G, нижняя fi и верхняя f границы диапазона частот, в котором будет применяться фильтрация;
- выполняется преобразование границ диапазона из герц в мел (mi ,mh);
- на мел-шкале отрезок [mi, mh] разбивается на G + 1 непересекающихся подотрезки длиной len = mG~+Tl;
- определяются центральные частоты подотрезков по следующей формуле:
mcg = mi + g • len. (15)
где g = 1, 2,...,G - номер фильтра;
- центральные частоты переводятся в герцы fc (g) по следующей формуле (они соответствуют центральным частотам треугольных мел-фильтров):
fsmp(g) = L • fc(g), (16)
Fs
где fsmp(g) - частоты треугольных фильтров в дискретных отсчетах;
- для каждого мел-фильтра отсчеты периодограммы Р..,3+1(к) умножаются на соответствующий фильтр:
к
ИГСС., а+1(д) = ^ Р.,э+1(к) ■ Нд(к), (17)
к+1
Hg (k) =
0, k < fsmp(g - 1),
„Ja).
(18)
fr ( g)-Élp (g- 1) fsmP(g ^ ^ k ^ fsmP(g)
fsrap(g +1) - fsmp(g) fsmP(g) ^ k ^ fsmp(g + 1)
0 k>fsmp(g + 1)-
где g = 1. 2.....K - количество отсчетов в одном фрагменте. После выбора треугольных фильтров проводится логарифмирование энергии по следующей формуле:
MFCCt, s+i(g) = ln(MFCCi, s+i (g)). (19)
Последним этапом является вычисление дискретно-косинусного преобразования логарифма энергии набора фильтров. Так как все полосы пропускания фильтров перекрываются, энергии в наборе фильтров коррелируют друг с другом, поэтому необходимо провести декорреляцию по следующей формуле:
G 1
MFCCiss+i(c) = MFCCiss+i(g) ■ cos(c(g - -)G). (20)
g=i
где c = 1. 2.....C - номер МЧКК, C - желаемое количество МЧКК. Обычно для распознавания используют 12-15 МЧКК, так как чем выше индекс коэффициента, тем быстрее изменяется энергия в наборе фильтров. В результате экспериментальных исследований выяснилось, что первый МЧКК в основном несет информацию об интенсивности речевых сигналов [10]. В СГУ регистрация речевых сигналов может происходить с разными уровнями, поэтому информация первого МЧКК становится избыточной. В разработанном алгоритме в дальнейшем анализе первый МЧКК не используется.
Блок 7. Операция нормализации используется для придания равнозначности каждому МЧКК во фрагменте. Как известно, высокие частоты менее восприимчивы и МЧКК на этих частотах менее важны по сравнению с МЧКК на низких частотах. МЧКК на высоких частотах практически не влияют на результат [10]. Нормализация МЧКК - это умножение каждого коэффициента на число, которое увеличивается с номером коэффициента. Таким образом, первые коэффициенты по уровню уменьшаются, а последние коэффициенты увеличиваются. Для этой операции используется следующая формула [6, 7]:
MFCCNi, s+i(c) = MFCCi, s+i(c) ■ (1 + Ц-) sin y)). (21)
где Lf - величина, подбираемая эмпирически и равна 22 [6, 10].
Блок 8. Вычисление первого и второго приращений значений МЧКК позволяет получить динамическую информацию о коэффициентах. Вектор коэффициентов описывает фиксированную спектральную огибающую одного фрагмента, но очевидно, что речевые сигналы несут информацию и о динамике в виде незначительного изменения коэффициентов с течением времени [6, 7]:
MFCCD, „+!(c) = Eti d(MFQQ,s+iic +f> - iMFCC,,+i(e - i», (22) "'+ ' 2£ii d2 . ( )
MFCCDD ,+i(c) = Eli d(MFCCD.„+i(c + ij - (MFCCDi,s+i(c - d>), (23)
M+iW 2£ d=i d2 . ( )
где М¥ССБ1,в + 1(с),М¥ССВБг,в + 1 (с) - первое и второе приращения МЧКК, МБССг, в + 1(с) - статические МЧКК, Б - типовое значение приращения, равное 2 [6, 10].
Блоки 9, 10. Формирование базы данных шаблонов и набора данных МЧКК представляет собой объединение МЧКК (первичных, нормализованных и после приращения) в один вектор.
Блок 11. Распознавание представляет процесс сравнения поступившей в систему речевой команды с шаблоном из базы данных, полученным в ходе обучения алгоритма. Одна речевая команда может быть произнесена по-разному, так как различные части слова произносятся с разной скоростью. Для определения расхождения между поступающей в систему речевой командой и шаблоном, представленными как векторы МЧКК, должно быть выполнено выравнивание по времени. С этой целью для распознавания применяется метод динамического трансформирования времени [4], который является методикой эластичного сравнения сигнала речевой команды и шаблона в регулярных интервалах - фрагментах.
Процесс сравнения векторов МЧКК поступающей речевой команды с шаблоном начинается с расчета локальных отклонений между значениями двух векторов. В разработанном алгоритме применяются самые распространенные способы вычисления отклонений [7]: - определение коэффициента корреляции по формуле:
г(Х. , 8+1, У г, .+1) = х ' '8+1 - Т1 * У'8+1, (24)
' ' °(хг, 8+1) * °(хг, 8+1)
где г(хг,8+1,Уг,8+1) - элементы матрицы отклонения, х8+1 - вектор МЧКК фрагмента поступающей речевой команды, у8+1 - вектор МЧКК фрагментов шаблона, в = 0,1, 2,..., 5-1 - номер фрагмента;
- вычисление евклидового расстояния по формуле:
й(хг,8+1,уг,8+1) =
\
^2(хг,8+1 - Уг,8+1)2, (25)
J=1
где й(хг8+1,уг,8+1) - евклидово расстояние. Использование двух способов вычисления отклонения для определения оценки расхождения повысит точность распознавания. Результатом сравнения будет вектор, для которого было найдено минимальное расхождение между поступившей речевой командой и шаблоном. Далее вычисляется минимальная глобальная оценка расхождения (МГОР) для маршрута как сумма локальных расстояний между фрагментами речевой команды и шаблона.
Блок 12. После выполнения распознавания всех информативных сигналов, полученных из исходной речевой команды, осуществляется выбор наиболее приемлемого информативного сигнала, обеспечивающего минимальную оценку расхождения с шаблоном. Таким образом, алгоритм автоматически определяет, какие ЭМ стоит вычитать для каждой речевой команды, чтобы добиться минимальной разницы с шаблоном и максимальной точности распознавания.
4. Исследование алгоритма распознавания речевых команд
Исследование предложенного алгоритма распознавания речевых команд проводилось в экспериментально-исследовательском комплексе, реализованном в пакете прикладных программ МЛТЬЛБ. Цель исследования: определение наиболее приемлемого информативного сигнала, обеспечивающего наименьшую разницу между поступающей в систему речевой командой и шаблоном; сравнение точности распознавания предложенного усовершенствованного и известных алгоритмов. Экспериментальное исследование проводилось с использованием разработанной базы данных речевых сигналов [11]. В качестве критериев оценки эффективности распознавания были выбраны
- точность распознавания:
A = f^ • 100%, (26)
SC total
где A - точность распознавания, SCtrue - правильно распознанные речевые сигналы, SCtotai - общее количество речевых сигналов;
- разница МГОР между истинным и максимально близким к истинному распознаваниями:
А = МСЕВзгт. - ЫСЕВаррг., (27)
где МОЕО8гт. - МГОР истинного распознавания, МОЕВаррг- - максимально близкого к истинному распознаванию.
Исходные данные для исследования: обучающая и тестовая непересекающиеся выборки речевых сигналов длительностью от 10 до 3000 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит. Обучающая выборка сформирована из 1000 чистых речевых сигналов, произнесенных 50-ю людьми (мужчинами и женщинами). Тестовая выборка сформирована из 60-ти речевых сигналов - 20 различных звуков по 3 произношения каждый. Настройки аппарата КМДЭМ: уровень амплитуды добавляемого белого шума - 0,1 мВ, количество циклов декомпозиции - 100. В табл. 1 представлены результаты определения наиболее приемлемого информативного сигнала, обеспечивающего наилучшую точность распознавания и большее значение разницы МГОР.
Т а б л и ц а 1
Зависимость Ли А от номера информативного сигнала
Параметр Исходный Номер информативного сигнала
речевой 1 2 3 4 5
сигнал
A% 85,1 92,3 95,2 93,9 97,1 96,2
А 2,47 3,88 5,22 4,55 5,84 5,74
В соответствии с полученными результатами наилучшая точность распознавания и большее значение МГОР достигается при использовании информативного сигнала № 4. Наглядно это представлено на рис. 3.
сигнал
Номер информативного сигнала
Рис. 3. Зависимость А и А от номера информативного сигнала На рис. 4а - 4д представлены осциллограммы пяти информативных сигналов.
а. Информативный сигнал № 1
б. Информативный сигнал № 2
в. Информативный сигнал № 3
г. Информативный сигнал № 4
0 2000 4000 6000 3000 10000 12000
Дискретные отсчеты времени
д. Информативный сигнал № 5
Рис. 4. Осциллограммы пяти информативных сигналов: синий цвет - исходный речевой сигнал,
красный цвет - информативный сигнал
Окончательные результаты экспериментального исследования предложенного алгоритма распознавания речевых команд оценивались в сравнении с алгоритмами RWTHASR, Julius и CMUSphinx в зависимости от входного значения отношения сигнал/шум. В табл. 2 и на рис. 5 представлен сравнительный анализ точности распознавания.
100
30 —— ——
IS 20 25 30 35 40
SNRin, дБ
Рис. 5. Точность распознавания предложенного алгоритма распознавания и RWTHASR,
Julius и CMUSphinx
В соответствии с результатами, представленными в табл. 2 и на рис. 5 следует, что предложенный алгоритм распознавания эффективнее известных аналогов для всего диапазона значений входного отношения сигнал/шум:
- в среднем на 5,9 % лучше, чем метод CMUSphinx;
- в среднем на 10,7 % лучше, чем метод RWTHASR;
- в среднем на 7,7 % лучше, чем метод Julius.
Таблица2
Точность распознавания предложенного алгоритма и RWTHASR, Julius
и CMUSphinx
Входное значение от- A, %
ношения сигнал/шум
SNRin , дБ
«CMU «RWTH «Julius» Разработанный
Sphinx» ASR» алгоритм
15 44,1 41,4 42,3 48,2
20 55,8 52,6 54,3 59,1
25 62,9 59,8 61,3 66,3
30 74,7 71,4 73,8 78,7
35 87,2 84,8 88,1 91,1
40 92,7 90,8 92,3 97,1
Таким образом, использование разработанного алгоритма распознавания речевых команд в СГУ, усовершенствованного за счет применения КМДЭМ на этапе предварительной обработки, позволит значительно повысить эффективность голосового управления.
5. Выводы
В статье предложен алгоритм, обеспечивающий повышение точности распознавания на основе метода КМДЭМ. Результаты экспериментального исследования демонстрируют, что предложенный алгоритм распознавания точнее известных аналогов и позволит значительно повысить эффективность голосового управления. Важно отметить, что предложенный алгоритм распознавания более длителен, чем RWTHASR, Julius и CMUSphinx. Это связано с особенностью комплементарной декомпозиции. Поэтому в зависимости от важности задач - быстродействие или эффективность голосового управления - необходимо искать компромисс. С целью повышения быстродействия в дальнейшем актуальным является оптимизация предложенного алгоритма.
Литература
1. David R, Christian G, Georg H, Hermann N. The RWTH Aachen University Open Source Speech Recognition System. Human Language Technology and Pattern Recognition Computer Science Department. RWTH Aachen University. Germany. 4 p.
2. Lee A., Kawahara T, Shikano K. Julius - an open source real-time large vocabulary recognition engine // Proc. European Conf. on Speech Communication and Technology Aalborg. Denmark. Sep. 2001. P. 1691-1694.
3. Walker W., Lamere P., Kwok P., Bhiksha Raj R.S., Gouvea E., Wolf P., Woelfel J. Sphinx-4: A fexible open source framework for speech recognition. Sun Microsystems. Inc, Tech. Rep. SMLI TR-2004-139. Nov. 2004. 15 p.
4. Алимурадов А.К.,Чураков П.П. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи // Измерение. Мониторинг. Управление. Контроль. 2015. № 2 (12). С. 27-35.
5. Yeh J.-R., Shieh J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method. Advances in Adaptive Data Analysis. 2010. V. 2 (2). P. 135-156.
6. Алимурадов А.К., Чураков П.П. Адаптивный метод повышения эффективности голосового управления // Перспективные информационные технологии (ПИТ 2016): труды Международной научно-технической конференции / под ред. С.А. Прохорова. Самара: Издательство Самарского научного центра РАН, 2016. С. 196-200.
7. Алимурадов А.К., Муртазов Ф.Ш. Методы повышения эффективности распознавания речевых сигналов в системах голосового управления // Измерительная техника. 2015. № 10. С. 20-24.
8. Алимурадов А.К. Оптимальный алгоритм обработки речевых команд для системы голосового управления // Модели, системы, сети в экономике, технике, природе и обществе. 2015. № 2 (14). С. 139-149.
9. Клионский Д.М., Неунывакин И.В., Орешко Н.И., Геппенер В.В. Декомпозиция на эмпирические моды и ее применение для идентификации информативных компонент и прогнозирования значений сигналов с использованием нейронных сетей // Нейрокомпьютеры. 2010. № 6. С. 69-80.
10. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. Prentice Hall, 2001. 980 p.
11. Свидетельство о государственной регистрации базы данных № 2016620597. Верифицированная база речевых команд для систем голосового управления / А.К. Алимурадов // Программы для ЭВМ, базы данных, топологии интегральных микросхем; заявл. 16.03.2016; опубл. 12.05.2016.
References
1. David R, Christian G, Georg H, Hermann N. The RWTH Aachen University Open Source Speech Recognition System. Human Language Technology and Pattern Recognition Computer Science Department. RWTH Aachen University. Germany. 4 p.
2. Lee A., Kawahara T, Shikano K. Julius - an open source real-time large vocabulary recognition engine. Proc. European Conf. on Speech Communication and Technology. Aalborg. Denmark. Sep. 2001. P. 1691-1694.
3. Walker W., Lamere P., Kwok P., Bhiksha Raj R.S., Gouvea E, Wolf P., Woelfel J. Sphinx-4: A fexible open source framework for speech recognition. Sun Microsystems. Inc, Tech. Rep. SMLI TR-2004-139. Nov. 2004. 15 p.
4. Alimuradov А.К, Churakov P.P. Review and classification of processing methods of speech signals in speech recognition systems. Measuring. Monitoring. Management. Control. 2015. V. 2 (12). P. 27-35.
5. Yeh, J.-R., Shieh, J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method. Advances in Adaptive Data Analysis. 2010. V. 2 (2). P. 135-156.
6. Alimuradov А.К, Churakov P.P. An adaptive method for voice control efficiency increase. Advanced Information Technologies (AIT 2016): Proceedings of International Scientific Conference. Samara: Samara Publishing Scientific Centre. 2016. P. 196-200.
7. Alimuradov А.К., Murtazov F.Sh. Methods to improve the efficiency of recognition of speech signals in voice control systems. Measurement Techniques. 2015. N 10. P. 20-24.
8. Alimuradov А.К. Optimal algorithms of processing voice commands for voice control. Models. Systems. Networks in the Economics, Technology, Nature and Society. 2015. V. 2 (14). P. 139-149.
9. Klionsky D.М., Neunyvakin I.V., Oreshko N.I., Geppener V.V. Ensemble empirical mode decomposition and its application to identify the informative components and predict signal values using neural networks. Neurocomputers. 2010. N 6, 2010. P. 69-80.
10. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. Prentice Hall, 2001. 980 p.
11. Alimuradov А.К. State Database Registration Certificate N 2016620597. Verified speech signal database for voice control systems. Computer programs, databases, topographies of integrated microcircuits. Published 12 May 2016.
Поступила в редакцию 03.05.2017