УДК 004.934
АЛГОРИТМЫ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ В РАСПОЗНАВАНИИ РЕЧИ
© 2017 Хеин Мин Зо
аспирант кафедры программного обеспечения и администрирования информационных систем е-mail: heinminnzaw13@,gmail. com
Курский государственный университет
В информатике и электротехнике распознавание речи (РР) - это перевод произнесенных слов в текст. В этой статье акцент делается на том, как реализовать распознавание речи в цифровой обработке сигналов. Цель этой статьи - рассчитать парное расстояние между точками данных на двух разных кривых и, наконец, оценить сходство между двумя кривыми. Динамическое программирование было применено для поиска сходства двух кривых. Гарантируется, что динамическое программирование найдет самый оптимальный путь по матрице и минимизирует количество вычислений.
Ключевые слова: динамическое трансформирование времени, распознавание речи
Речь - естественный способ общения для людей, и это процесс, зависящий от времени. Речь имеет много областей исследований, таких как распознавание речи, синтез речи, анализ речи и т.д. [Rabiner, Juang 1993]. В информатике и электротехнике распознавание речи - это процесс автоматического распознавания произносимых слов человека на основе информации в речевом сигнале. Несколько высказываний одного и того же слова, вероятно, будут иметь разные длительности, и высказывания одного и того же слова с одинаковой продолжительностью будут отличаться в середине из-за того, что разные части слов произносятся в разных темпах. Чтобы получить глобальное расстояние между двумя речевыми образцами (представленное как последовательность векторов), необходимо выполнить выравнивание по времени. Концепция динамического выравнивания времени была применена для решения проблем, связанных со сравнением спектральной последовательности речи.
Технология распознавания речи
Распознавание речи - это процесс принятия устного слова в качестве входного сигнала для компьютерной программы. Это технология, посредством которой звуки, слова или фразы, произносимые людьми, преобразуются в электрические сигналы, и эти сигналы преобразуются в образец кодирования, которым присвоено значение. Распознавание речи - задача преобразования речевого сигнала в орфографическое представление. Системы распознавания речи может быть классифицирована по типу речи:
0 Зависящие от диктора: системы, которые требуют, чтобы пользователь тренировал систему в соответствии с его голосом.
0 Не зависящая от диктора: системы, которые не требуют от пользователя тренировки системы, то есть они созданы для работы с любым диктором.
0 Изолированные распознаватели слова: системы принимают по одному слову за раз, позволяют говорить естественно непрерывно.
0 Подключенные словарные системы: позволяют говорить медленно и отчетливо каждое слово с короткой паузой, то есть плановой речью.
0 Непрерывная речь: позволяет пользователю говорить почти естественным образом, её также называют компьютерной диктовкой.
0 Спонтанные системы распознавания: позволяют нам говорить самопроизвольно.
В распознавании речи извлечение признаков является наиболее важной фазой. Основной задачей фазы извлечения признаков является извлечение функции из речевого сигнала и представление их с использованием соответствующей модели данных входного сигнала.
Распознавание речи может быть выполнено с помощью таких алгоритмов, как динамическое трансформирование времени (ДТВ), скрытая марковская модель (СММ) и искусственные нейронные сети (ИНС) [Chandra, Akila 2012]. Существуют три подхода к распознаванию речи: акустический фонетический подход, подход распознавания образов и подход искусственного интеллекта [Rabiner, Juang 1993].
В акустическом фонетическом подходе распознавание речи основывается на поиске речевых звуков и предоставлении соответствующих меток этим звукам. Это является основой акустического фонетического подхода, который гласит, что существуют конечные, отличительные фонетические единицы, называемые фонемами, и эти единицы широко характеризуются набором акустических свойств, присутствующих в речи.
Подход распознавания образов включает в себя два основных этапа: обучение шаблону и тестирование шаблонов. Существенной особенностью этого подхода является то, что он использует хорошо сформулированную математическую структуру и устанавливает согласованные представления речевых рисунков для надежного сравнения образцов. Подход распознавания образов к распознаванию речи в основном таков, когда речевые шаблоны используются напрямую без четкого определения признаков и сегментации. Распознавание образов связано с классификацией объектов по категориям, особенно с помощью машины.
Подход искусственного интеллекта пытается механизировать процедуру распознавания в соответствии с тем, как человек применяет свой интеллект для визуализации, анализа и принятия решения по измеренным акустическим признакам. Подход искусственного интеллекта представляет собой гибрид акустического фонетического подхода и подхода распознавания образов [Там же].
Одним из самых простых и ранних подходов к распознаванию образов является шаблонный подход. Совпадение - это общая операция распознавания образов, которая используется для определения сходства между двумя объектами того же типа. В шаблоне совпадения шаблон или прототип образца должен быть распознанным. Образец сопоставляется с сохраненным шаблоном с учетом всех допустимых изменений позы и масштаба. ДТВ - это метод распознавания образов.
Динамическое трансформирование времени (ДТВ)
Алгоритм ДТВ основан на динамическом программировании. Этот алгоритм используется для измерения сходства между двумя временными рядами, которые могут изменяться во времени или скорости. Этот метод также используется для нахождения оптимального выравнивания между двумя временными рядами. Один временной ряд можно обернуть нелинейно, растягивая или уменьшая его вдоль временной оси. Затем эту обертку между двумя временными рядами можно найти для нахождения соответствующих областей между двумя временными рядами для определения сходства между ними. ДТВ обеспечивает процедуру выравнивания в тестовом и контрольном образцах, чтобы дать среднее расстояние, связанное с оптимальным обертыванием пути [Palden Lama, Mounika Namburu 2010].
Динамическое трансформирование времени (ДТВ) - это алгоритм выравнивания временных рядов, разработанный первоначально для распознавания речи [Myers,
Rabiner, Rosenberg 1980]. Он направлен на выравнивание двух последовательностей векторов признаков путем обертывания временной оси итеративно до тех пор, пока не будет найдено оптимальное совпадение между двумя последовательностями. Рассмотрим две последовательности векторов признаков:
С = с1,с2,■■■, с,,■■■, сп , (1)
L = > tji "' I ^т- (2)
Две последовательности могут быть расположены по бокам сетки, одна на её нижней стороне, а другая на левой стороне. Обе последовательности начинаются в левом нижнем углу сетки. На рисунке 1 показано схематическое представление выравнивания двух последовательностей вдоль сетки.
Рис 1. Cхематическое представление динамического преобразования времени двух последовательностей - С и Т вдоль сетки
Внутри каждой ячейки можно разместить меру расстояния, сравнивая соответствующие элементы двух последовательностей. Чтобы найти наилучшее совпадение или выравнивание между этими двумя последовательностями, нужно найти путь через сетку, который минимизирует общее расстояние между ними. Процедура вычисления этого общего расстояния предполагает поиск всех возможных маршрутов через сетку, и для каждого из них вычисляется общее расстояние. Общее расстояние -это минимум суммы расстояний между отдельными элементами пути, деленными на сумму взвешенной функции. Функция взвешивания используется для нормализации длины пути. Очевидно, что для любых значительно длинных последовательностей количество возможных путей через сетку будет очень большим. Основные оптимизации или ограничения алгоритма ДТВ возникают из наблюдений за характером приемлемых путей через сетку. Следующей приведена особенность, благодаря которой ДТВ становится более популярным.
Современные методы выявления могут точно определить начальную и конечную точки произнесенного слова в звуковом потоке на основе обработки сигналов, меняющихся в течение времени. Данные методы оценивают энергию и среднюю величину в коротком отрезке времени, а также вычисляют средний уровень пересечения нуля. Создание начальной и конечной точек - простая задача, если аудиозапись сделана в идеальных условиях. В этом случае отношение сигнал-шум велико, так как определить действительный сигнал в потоке путем анализа образов не представляет труда. В реальных условиях все не так просто: фоновый шум имеет огромную интенсивность и может нарушить процесс отделения слов в потоке речи.
ДТВ гарантированно найдет самый короткий путь расстояния по матрице, минимизируя при этом количество вычислений. Алгоритм ДТВ работает синхронно: каждый столбец временной матрицы рассматривается правопреемственно (эквивалентно обработке входного кадрового кадра), так что для шаблона длины т
максимальное количество путей считается в любой момент m. Если D (i, j) -глобальное расстояние до (i, j), а локальное расстояние в точке (i, j) задается d (i, j) , то
d(i, j)= d(i,j) + min[d(i-1, j-1), d(i-1, j), d(i, j-1)]. (3)
Учитывая, что D (1,1) = d (1,1) (это начальное условие), мы имеем основание для эффективного рекурсивного алгоритма вычисления D (i, j). Конечное глобальное расстояние D (n,m) дает нам общую оценку соответствия шаблона с входом. Затем входное слово распознается как слово, соответствующее шаблону с наименьшим совпадающим счетом. Шаги для расчета расстояния между двумя последовательностями [Bharti W. Gawali, Santosh Gaikwad 2010]:
0 Необходимо создать совпадающий путь. Совпавщий путь представляет собой список комбинаций точек первой последовательности и точек второй последовательности. Методика, используемая для создания этого списка, - это то, что отличает разные методы совпадения пути, из которых ДТВ является одним из них.
0 Для каждой из комбинаций точек i, j в пути совпадения вычисляется расстояние D (i, j) между ними. Существуют различные методы расчета расстояния между двумя точками. Эта реализация ДТВ использует евклидово расстояние (Euclidean distance).
0 Расстояния, рассчитанные на предыдущем шаге, суммируются, и это полное расстояние нормализуется путем деления его на количество комбинаций в пути совпадения. Результирующее значение - это расстояние между последовательностями.
Преимущества ДТВ:
0 Существуют эффективные аппаратные реализации.
0 Последовательность «обучения» проста и быстра, поскольку она просто включает в себя извлечение признаков для слов, которые необходимо распознать.
Недостатки ДТВ:
0 Не подходит для непрерывного распознавания речи.
0 Требуется вычисление точек начала и остановки слова.
Приложения ДТВ:
0 проверка динамика в судебных решениях;
0 распознавание речи / голос;
0 системы распознавания подписи;
0 голосовой набор [Silverman, Morgan 1990];
0 простая команда и управление;
0 идентификатор громкоговорителя;
0 проблемы с захватом движения [Там же];
0 практическое применение онлайн-рукописного распознавания символов.
Алгоритм ДТВ выполняет сопоставление образцов входного шаблона и эталонного шаблона с использованием следующих шагов (рис. 2).
Рис. 2. Графическое представление алгоритма ДТВ
Из вышесказанного следует, что ДТВ - самый популярный способ компенсировать вариабельность речи в системах на основе шаблонов. Методика динамического временного деформирования для временной регистрации эталонного и тестового высказывания нашла широкое применение в областях проверки динамиков и дискретного распознавания слов.
Библиографический список
Rabiner. L, Juang B.H. Fundamental of Speech recognition. Pearson Education, 1993.
Chandra Dr. E., Akila A. An Overview of Speech Recognition and Speech Synthesis Algorithms // Int.J.Computer Technology & Applications. 2012. July-August Vol 3 (4). P.1426-1430.
Myers C., Rabiner L., Rosenberg A. Performance tradeoffs in dynamic time warping algorithms for isolated word recognition // Acoustics, Speech, and Signal Processing [see also IEEE Transactions on Signal Processing] IEEE Transactions on. 1980. Vol. 28. No. 6. P. 623-635,
Palden Lama, Mounika Namburu. Speech Recognition with Dynamic Time Warping using // MATLAB" PROJECT REPORT 1. SPRING 2010.
Bharti W. Gawali, Santosh Gaikwad. Marathi Isolated Word Recognition System using MFCC and DTW Features // Proc. of Int. Conf. on Advances in Computer Science ACEEE 2010. P. 143-146.
Silverman. H., Morgan D. The application of dynamic programming to connected speech recognition // IEEE ASSP Magazine. 1990. Vol. 7, No. 3. P. 6-25.