УДК 004.934 ББК 32.973.26-018.2
П.В. ЖЕЛТОВ, В И. СЕМЕНОВ,
А.И. ТРОФИМОВА, А.К. ШУРБИН
АЛГОРИТМЫ ИДЕНТИФИКАЦИИ ФОНЕМ И ФОРМИРОВАНИЯ СЛОВА В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ*
Ключевые слова: распознавание речи, речевые команды, вейвлет-преобразование. Рассмотрены вопросы применения вейвлет-преобразования в устройстве автоматического распознавания речевых команд. Применение вейвлет-преобразования уменьшает диапазон спектральной неопределенности. И при использовании эталонов фонем, полученных на основе вейвлет-преобразования, это приводит к улучшению качества распознавания речевого сигнала. Предложены принцип действия устройства распознавания речевых команд на основе вейвлет-преобразования, алгоритм формирования базы данных фонем, алгоритм идентификации фонем, алгоритм определения границы между гласными и согласными фонемами, а также алгоритм формирования слова.
P. ZHELTOV, V. SEMENOV, A. TROFIMOVA, A. SHURBIN ALGORITHMS FOR PHONEME IDENTIFICATION AND FORMING THE WORD IN A SPEECH RECOGNITION SYSTEM BASED ON WAVELET-TRANSFORM Key words: speech recognition, voice commands, the wavelet transformation.
The article deals with the application of wavelet transformation in the device of automatic recognition of voice commands. Application of wavelet transform reduces the range of spectral uncertainty. This leads to better quality of recognition of the speech signal when we used standards of phonemes derived from the wavelet transform. Are presented the principles of the device of automatic recognition of voice commands based on wavelet-transform, the algorithm for forming a database of phoneme, the algorithm for phoneme identification, the algorithm for determining the boundaries between vowels and consonants phonemes and the algorithm for forming words.
Создание систем автоматического распознавания речи является одним из наиболее актуальных направлений развития современных компьютерных технологий. Проблема речевого ввода информации осложняется рядом факторов: различием языков, спецификой произношения, шумами, акцентами, ударениями и т.п.
Существующие системы распознавания речи можно классифицировать по разным признакам: назначению, типу речи, потребительским качествам, типу структурной единицы, механизму функционирования и методу выделения признаков.
По методу выделения признаков различают спектральный анализ, кеп-стральный анализ, вейвлет-анализ, кодирование коэффициентов линейного предсказания.
Одним из важных этапов в распознавании речи является обеспечение инвариантности к особенности произнесения, так как одним из основных факторов, отрицательно влияющих на распознавание фонем, является вариативность речи, проявляющаяся в отличиях произнесений одного и того же слова или предложения. Причина большинства ошибок распознавания фонем -случайные нелинейные деформации формы спектра фонем и временная не-
* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14-07-00143.
определенность. Поэтому трудно формировать эталоны фонем для большой базы слов (словаря). В отличие от печатного текста или искусственных сигналов естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку эти элементы не имеют явных физических границ. Они вычленяются в сознании слушателя - носителя данного языка - в результате сложного многоуровневого процесса распознавания и понимания речи [4]. Один из способов обеспечения инвариантности к особенности произнесения - это вейвлет-преобразование (ВП) речевого сигнала. ВП позволяет отделить низкочастотные особенности сигнала от высокочастотных особенностей, в результате уменьшается диапазон спектральной неопределенности. Экспериментальные исследования показывают, что эталоны фонем на основе ВП речевого сигнала имеют лучшие качества распознавания. Границы слов в слитной речи определить невозможно без привлечения всей совокупности априорных знаний о языке, его конкретном применении. Границы могут быть определены лишь в процессе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям [1-4]. Например, П. Джейн и Р.Б. Пачори предлагают метод нахождения моментов времени значительного возбуждения системы голосового тракта в устной речи [6], но не решают задачи сегментации фонем. ВП позволяет определить границы между гласными и согласными фонемами. Последовательность распознавания речевых команд можно представить в виде следующей структурной схемы (рис. 1).
Рис. 1. Структурная схема распознавания речевых команд
Анализируемый звуковой сигнал S(i) поступает в блок предварительной обработки звукового сигнала (блок 1). В блоке 1 звуковой сигнал оцифровывается с помощью АЦП, очищается от посторонних шумов, сохраняется в оперативно запоминающем устройстве. С выхода блока 1 оцифрованный звуковой сигнал при параметрическом представлении звукового сигнала одновременно поступает в блок выделения информационных признаков фонем (блок 2) и блок определения границ между гласными и согласными фонемами (блок 4). В режиме параметрического представления звукового сигнала, выделенные информационные признаки фонем из блока 2 поступают в блок 3 и сохраняются, чтобы их можно было использовать для распознавания фонем. В режиме распознавания речи
С
Начало программы
I)
оцифрованный звуковой сигнал одновременно поступает в блок идентификации фонем (блок 3) и блок определения границ между гласными и согласными фонемами (блок 4). При распознавании речи с выходов блоков 3, 4 обработанный звуковой сигнал поступает в блок формирования слова.
Для формирования эталонов фонем применяется следующий алгоритм. Вычисляется вейвлет-спектр Ж(а,Ь), где а - масштабный коэффициент, максимальное значение которого к = 20, Ь - сдвиг по времени относительно начала сигнала. Полученные вейвлет-коэффициенты (функции) Ж(а,Ь) разбиваются на п сегментов фиксированной длительности. В каждом сегменте вычисляются коэффициенты Фурье а(і) (синусные), Ь(і) (косинусные) функций Щ1,Ь) и Щ2,Ь) с помощью БПФ[5]. Вычисляется Фурье-спектр функций W(1,Ь), Щ2,Ь) каждой буквы русского алфавита. Рассчитывается число локальных максимумов Ж(а,Ь) фонем для масштабного коэффициента а, больше 2.
Для каждой буквы русского алфавита создана база данных с набором характерных частот (диапазон) сегментов функций Ж(а,Ь). Нижняя и верхняя границы диапазона характерных частот, полученные путем многократного произношения русских слов, используются как эталоны фонем для распознавания речи. Предусмотрена возможность обновления (расширения диапазона частот) базы данных с эталонами фонем для того, чтобы звуки речи выделялись при внесении новых слов в словарь (базу данных отдельных слов), т.е. разработан алгоритм обучения системы. Блок-схема алгоритма идентификации фонем приведена на рис. 2.
Для выделения идентификации фонем в блоке идентификации фонем в основном выполняются те же действия, что и в блоке формирования базы данных фонем, только в последнем пункте происходит сравнение фонем исследуемого речевого сигнала с эталонами фонем базы данных. Выделенные фонемы сохраняются в оперативной памяти.
Алгоритм определения границы между гласными и согласными фонемами включает следующие шаги. Вычисляется энергия сегментов вейвлет-спектра для масштабного коэффициента а, равного двум, и энергия сегментов звукового сигнала, определяется сумма нормированных энергий, результат суммирования подвергается ВП. По вейвлет-спектру Ж4(4,Ь) определяются границы между гласными и согласными фонемами в звуковом сигнале. Границы ме-
Вычислить число локальных максимумов
Вычислить Фурье-спектр от вейвлет-спектра в сегменте
I
Вычислить центральные частоты и среднюю энергию і
Вычислить среднее число локальных максимумов
и—-=
Идентифицировать и сохранить фонемы
С
Останов
Рис. 2. Блок-схема алгоритма идентификации фонем
жду гласными и согласными фонемами используются в блоке 2 для визуального наблюдения при формировании базы данных фонем и блоке 5 для формирования слова. Блок-схема алгоритма формирования слова приведена на рис. 3.
В зависимости от количества положительных максимумов в функции Ж4(4,Ь) выбираются различные алгоритмы сравнения исследуемого слова со словами в базе данных слов. Если выделяется один положительный максимум, то используется алгоритм нахождения границы между гласными и согласными фонемами для трех фонем. Если выделяются два положительных максимума, то используется алгоритм нахождения границы между гласными и согласными фонемами для пяти фонем, и т.д. Для формирования слова подсчитывается количе-
ство распознанных букв в интервале, где выделяются гласные буквы. Определяются три гласные буквы, для которых эти числа наибольшие, и записываются в порядке убывания в строковый массив для того, чтобы в последующем использовать их для сравнения с буквами слов из словаря. Так же подсчитываются и выбираются 3 согласные нешипящие или шипящие буквы в интервале, где выделяются согласные нешипящие или шипящие буквы. Для идентификации составленных слов и проверки их наличия в базе данных используется словарь.
Статистические исследования, проведенные на комплексе программ, разработанном на основе вышеприведенных алгоритмов, позволили определить вероятность распознавания слов с использованием разработанных алгоритмов. Были получены следующие характеристики: объем словаря составляет 30 слов; количество вариантов слов, в среднем - 2; относительная частота правильной идентификации - 0,93; относительная частота неправильной идентификации - 0,02; относительная частота события «сигнал не идентифицировался» - 0,05. Словарь речевых команд для разных ситуаций в зависимости от контекста составляется отдельно. Общее количество слов и предложений может быть доведено до нескольких сотен.
Литература
1. Желтов П.В., Семенов В.И. Методика определения границ между гласными и согласными звуками речи с применением быстрого непрерывного вейвлет-преобразования // Динамика научных исследований - 2011: материалы VII междунар. науч.-практ. конф. Przemysl: Nauka i studia, 2011. С. 12-17.
2. Желтов П.В., Семенов В.И. Некоторые проблемы распознавания речи // Компьютерные технологии и моделирование: сб. науч. тр. / КГТУ им. А.Н. Туполева. Казань, 2008. Вып. 1. С. 33-37.
3. Желтов П.В., Семенов В.И. Распознавание речи на основе вейвлет-преобразования / Чуваш. ун-т. Чебоксары, 2008. 16 с. Деп. в ВИНИТИ РАН 29.02.08, № 174-В2008.
4. Потапова Р.К. Речь: коммуникация, информация, кибернетика М.: Эдиториал УРСС, 2001. 568 с.
5. Семенов В.И. Свидетельство об официальной регистрации программы для ЭВМ № 2007615024. Непрерывное быстрое вейвлет-преобразование / зарег. в Реестре программ для ЭВМ 4 декабря 2007 г.
6. Jain P., Pachori R.B. Time-order representation based method for epoch detection from speech signals // J. of Intelligent systems. 2012. Vol. 21. Issue 1. P. 79-95.
ЖЕЛТОВ ПАВЕЛ ВАЛЕРИАНОВИЧ - кандидат технических наук, доцент кафедры компьютерных технологий, Чувашский государственный университет, Россия, Чебоксары (tchouvachie@narod.ru).
ZHELTOV PAVEL - сатПсЫе of technical sciences, assistant professor of Computer Technology Chair, Chuvash State University, Russia, Cheboksary.
СЕМЕНОВ ВЛАДИМИР ИЛЬИЧ - кандидат технических наук, доцент кафедры общей физики, Чувашский государственный университет, Россия, Чебоксары (syundyukovo@yandex. ru).
SEMENOV VLADIMIR - candidate of technical sciences, assistant professor of General Physics Chair, Chuvash State University, Russia, Cheboksary.
ТРОФИМОВА АЛЕКСАНДРА ИГОРЕВНА - ассистент кафедры компьютерных технологий, Чувашский государственный университет, Россия, Чебоксары
(a.i.trofimova@yandex.ru).
TROFIMOVA ALEKSANDRA - assistant of Computer Technology Chair, Chuvash State University, Russia, Cheboksary.
ШУРБИН АЛЕКСАНДР КОНДРАТЬЕВИЧ - старший преподаватель кафедры общей физики, Чувашский государственный университет, Россия, Чебоксары (shurti@mail.ru).
SHURBIN ALEKSANDR - senior teacher of General Physics Chair, Chuvash State University, Russia, Cheboksary.