Научная статья на тему 'Использование вейвлет-преобразования для построения моделей фонем русского языка'

Использование вейвлет-преобразования для построения моделей фонем русского языка Текст научной статьи по специальности «Математика»

CC BY
432
102
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Медведев Максим Сергеевич

Исследованы возможности использования различных типов вейвлетов для создания моделей фонем русского языка в системе преобразования речи в текст. Показано, что для получения признаков фонем целесообразно использовать кратномасштабное вейвлет-преобразование (базис Добеши 8). Вычисления проводились в среде MatLAB 7. Анализ результатов показал достаточное качество распознавания фонем (95 %).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using the wavelet transform in rassian phoneme model construction

Tthe using of different wavelet basis for the phoneme model forming for Russian speech to text system is considered. For the extraction of the phoneme descriptive features the wavelet transform (Daubechies wavelet of order 8) was used. Computing was realized by using MatLAB 7. The results of phoneme recognition analysis has allowed well quality (95 %).

Текст научной работы на тему «Использование вейвлет-преобразования для построения моделей фонем русского языка»

а0 = - а-2 - ач - а2 - аг

Теорема 2. Пусть для задачи (18), (19) выполнены условия (20), тогда приближенное решение задачи (21) сходится на отрезке О0 к точному решению с порядком k = 4:

||м - мк|| ^ ША < С к4. (38)

Приведем численные расчеты для задачи

Ьи = -ем + и =Дх), и(0) = ехр(-2 / е), м(1) = 1 (39) с точным решением м(х) = ехр((х2 + х -2) / е). В области

О0 решение имеет ограниченные производные, поэтому для задачи (23) рассмотрим область 01. Обозначим А = тах|мк. - м(х.)| и для N = 8, k = 4 составим соответствующие таблицы (табл. 5, 6).

По табл. 5, 6 следует, что погрешность, независимо от малого параметра выходит на стационарный уровень при фиксированном числе узлов. Рассмотрим влияние N при фиксированном значении малого параметра (табл. 7).

При увеличении числа узлов в два раза точность возрастает более чем в десять раз, что подтверждает четвертый порядок сходимости не для всех значений N.

Библиографический список

1. Быкова, Е. Г. Неоднородная разностная схема четвертого порядка точности в области с гладкой границей / Е. Г. Быкова, В. В. Шайдуров // Сиб. журн. вычисл. математики. 1998. Т. 1. № 2. С. 99-117.

Таблица 5

Погрешности задачи (23) в области Ц, N = 8

є 10-1 10-2 10-3 10-4 10-5

А 5,17 • 10-2 7,56 • 10-2 7,54 • 10-2 5 0 і К) 7,54 • 10-2

Таблица 6

Погрешности задачи (23) в области fl1, N = 256

є 10-1 10-2 10-3 10-4 10-5

А 1,21 • 10-6 9,85 • 10-7 9,65 • 10-7 0 40 9, 9,6 • 10-7

Таблица 7

Погрешности задачи (23) в области flj, є = 10-5

N 8 16 32 64 128 256 512 1024

А 7,54 • 10-2 0 8 7,7 • 10-3 1,2 • 10-3 1,2 • 10-4 9,6 • 10-7 0 5 тТ, 40 3,79 • 10-9

B. M. Bagaev

A DAPTIVE METHODS FOR SOLUTION THE SINGULAR PERTURBED PROBLEMS USING UNHOMOGENEOUS DIFFERENCE SHEMES

Its considered the singular perturbed problems with the small parameter before the highest derivatives. Using the decomposition of the domain its developed the highest order schemes which was suggested in the works V. V. Shaidurov. Принята к печати в апреле 2006 г.

УДК 004.93

М. С. Медведев

ИСПОЛЬЗОВАНИЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ДЛЯ ПОСТРОЕНИЯ МОДЕЛЕЙ ФОНЕМ РУССКОГО ЯЗЫКА

Исследованы возможности использования различных типов вейвлетов для создания моделей фонем русского языка в системе преобразования речи в текст. Показано, что для получения признаков фонем целесообразно использовать кратномасштабное вейвлет-преобразование (базис Добеши 8). Вычисления проводились в среде МаЛАВ 7. Анализ результатов показал достаточное качество распознавания фонем (95 %).

В современных компьютерных системах все больше внимания уделяется построению интерфейса речевого ввода-вывода, поскольку его потенциальная эффективность основана на практически неограниченных возможностях формулировки на естественном языке всевозможных задач в самых различных областях человеческой деятельности. Наиболее перспективными на сегодняшний

день являются системы речевого ввода. Но существующие модели понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Известные методы вычисления признаков речевых единиц не позволяют решать реальные задачи, что заставля-

ет продолжать исследования в этой области. Кроме того, из имеющихся программных продуктов рынка систем распознавания речи лишь немногие поддерживают русский язык.

При проектировании системы преобразования речи в текст одной из важных задач является выбор единицы распознавания. Это решение существенно влияет как на выбор описательных признаков, так и архитектуру системы в целом. В качестве единиц распознавания могут быть использованы фонологические единицы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания (рис. 1).

Рис. 1. Речевые единицы

В настоящее время создание систем распознавания речи ориентировано либо на использование в качестве эталонов целых слов, что удобно для применения в системах с ограниченным словарем, например для ввода небольшого набора команд, либо на использование метода, основанного на выделении фонем из потока речи, т. е. фонемно-ориентированного метода. Его преимущество состоит в том, что при увеличении словаря качество распознавания не снижается.

Сравнив методы распознавания целых слов и фонем, можно сделать следующий вывод: при небольшом количестве слов, используемых диктором, более высокая надежность и скорость работы наблюдается при распознавания целых слов, но при увеличении словаря характеристики резко падают. И размер словаря системы распознавания уже в сотню слов делает актуальным переход на уровень более низкий, чем распознавание слов в целом. Преимущество использования фонемно-ориентированного метода связано с тем, что набор фонем для любого языка представляет собой наименьшее число отличительных фонологических классов, которые должны быть распознаны. Система фонем русского языка насчитывает 44 единицы [1].

Одной из основных проблем, возникающих в процессе создания систем распознавания речи, является выбор признаков, позволяющих наиболее полно описать сигнал речевой единицы, а также метода их вычисления. Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик (рис. 2).

Необходимо определить такие параметры речевого сигнала, которые бы полностью описывали его, т. е. позволяли бы отличить один звук речи от другого, но были бы в какой-то мере инвариантны относительно вариаций речи.

Примером использования кепстральных характеристик при построении моделей фонем является модель Орегонского института науки и технологий. Модель фонемы в этом случае описывается как

Ф = {*12, А*12, Е, АЕ}, (1)

где К - 12 мел-частотных кепстральных коэффициентов; Д*12 - 12 характеристик дельты MFCC; Е - энергетическая характеристика; АЕ1 - дельта-характеристика энергии.

0.1 ---1----1-----1----1----1-----1----1----1----1-----

-0.15---1----1----1----1----1-----1----1----1----1-----

0 0.G5 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5

Время, с

Рис. 2. Отображение речевого сигнала во временной области

Таким образом, для вычисления признаков речевого сигнала фонемы используется 12 мел-частотных кепстральных коэффициентов, 12 характеристик дельты MFCC, которые указывают степень спектрального отклонения,

1 энергетическая характеристика и 1 дельта-характеристику энергии, в общей сложности 26 характеристик на окно. Также используется кепстральное вычитание мел-частотных кепстральных коэффициентов, предназначенное для удаления некоторых эффектов шума.

Чтобы получить информацию об акустическом окружении, берется контекстное окно характеристик, т. е. анализируются окна, находящиеся на 60, 30 мс до рассматриваемого окна и на расстоянии в 30, 60 мс после него, с учетом динамической природы речи, благодаря которой идентификация фонемы часто зависит не только от спектральных особенностей в некоторый момент времени, но также и от того, как эти особенности изменяются в течение долгого промежутка времени. Характеристики контекстного окна посылаются в нейронную сеть для классификации по 26 характеристик на каждое окно, всего для 5 окон - 130 характеристик. На выходе нейронной сети будет получена классификация каждого входного окна, взвешенная в терминах вероятностей категорий на основе фонемы. Посылая контекстные окна для всех окон речи к нейронной сети, можно формировать матрицу из вероятностей категорий на основе фонемы.

Для нахождения лучшего пути через матрицу вероятностей для каждой строки используется поиск Витерби. Вывод распознавания программы - это строка слова, которая соответствует лучшему пути. Подобная модель фонемы была предложена в системе автоматического распознавания русской речи «Sirius» Санкт-Петербургского института информатики и автоматиации РАН [2], в которой использовались мел-частотные кепстральные коэффициенты с их первой и второй производными, а для распознавания применялись методы скрытого марковского моделирования.

Распространенными методами вычисления признаков речевого сигнала являются методы, основанные на преобразовании Фурье, в частности гомоморфный анализ, позволяющий определить частоту основного тона путем вычисления кепстра речевого сигнала и измерить формантные частоты с помощью кепстрально-сглажен-

ного логарифма спектра. В данном методе анализ сводится к измерению параметров цифровой модели рече-образования, где сигнал рассматривается как свертка компонентов [3]:

х(п) = и(п) • s(n), (2)

где ^(п) - сигнал возбуждения; и(п) - импульсная характеристика голосового тракта. При этом сигналом возбуждения s(n) считается свертка последовательности импульсов основного тонар(п) и импульсов возбуждения е(п):

5(п) = ,р(п) • е(п). (3)

Операция свертки (2) легко приводится к суммированию, если применить дискретное преобразование Фурье (ДПФ), что дает произведение, и прологарифмировать результат [3]. Данное свойство используется в алгоритме, позволяющем оценить параметры каждой составляющей х(п) в отдельности (рис. 3).

Дискретное преобразование Фурье от х(п) дает сигнал, равный произведению ДПФ от и(п) и s(n):

N—1 .2п

■ і —Ї кП

X(к) = £ х(п)в N , (4)

к=0

Х(к) = и(к) S(k). (5)

В следующем блоке определяется логарифм модуля полученной последовательности, причем сигнал в точке С равен сумме логарифмов модулей ДПФ от s(n) и и(п):

1°ё( ^^^к) |) = 1ое(|и(к)|) + log(|S(k)|). (6)

Поскольку обратное ДПФ линейно, сигнал в точке D, называемый кепстром сигнала в точке А, равен сумме кепстров функции возбуждения и импульсной характеристики голосового тракта и позволяет разделить эффекты возбуждения и характеристики голосового тракта [3] (рис. 4).

Кепстр, полученный описанным выше способом, исследуется с целью отыскания пика в области возможных значений периода основного тона (4...40 мс), соответственно вычисляется и частота основного тона:

^ , (7)

Т0

где Т0 - период основного тона.

Часть кепстра в области времени, меньше чем период основного тона, содержит главную информацию о речевом тракте. Применяя к данному компоненту ДПФ, получают кепстрально-сглаженный логарифм спектра (рис. 5). Этот спектр отражает резонансную структуру речевого сигнала, т. е. пики в спектре соответствуют формантным частотам. Оцениваются первые три формантные частоты, так как именно им принадлежит основная роль при формировании звуков.

Но методы, основанные на преобразовании Фурье, в своем традиционном виде не приспособлены для анализа нестационарных сигналов. Их использование требует соблюдения условия стационарности сигнала в пределах некоторого промежутка времени, что ограничивает точность анализа локальных изменений сигнала. Например, дискретное преобразование Фурье (3) не позволяет отличить сигналы, состоящие из двух синусоид с разными частотами, один из которых равен сумме синусоид (8), а второй представляет собой последовательно следующие друг за другом синусоиды (9) [4]:

x(n) = sin(n) + sin(3n), (8)

sin(n),n < 0

V ’ . (9)

sin(3n),n > 0,

В обоих случаях их спектр будет представлять собой два пика на фиксированных частотах (рис. 6, 7).

0.35

0.3

0.01 0.02 0.03 0.04 0.05 0.06

Время, с

Рис. 4. Кепстр вокализованного сигнала

Частота, Гц

Рис. 5. Кепстрально-сглаженный логарифм спектра

Весовая функция Весовая функция

Кєпстра

Рис. 3. Гомоморфная обработка речи 53

Для построения модели фонемы автором предлагается использовать вейвлет-преобразование, в частности многомасштабный (кратномасштабный) вейвлет-анализ, который состоит в представлении сигнала последовательностью образов с разной степенью детализации, что позволяет выявлять локальные особенности сигнала и классифицировать их по интенсивности. В этом случае модель фонемы можно представить в виде набора средних значений энергии вейвлет-коэффициентов для каждого уровня детализации:

Ф = {Ж^ АЖЯ }, (10)

где - значения средней энергии вейвлет-коэффициен-

тов для 10 уровней детализации; А^- значения среднего квадратического отклонения вейвлет-коэффициентов для 10 уровней детализации; N - число уровней детализации вейвлет-преобразования.

Средняя энергия вейвлет-коэффициентов для определенного уровня детализации j определяется следующим образом:

1 Ц-1

ушах 2 М -1

X X УУ у*’

где Ф7и,к и Шу,к - масштабированные и смещенные версии скейлинг-функции (масштабной функции) ф и материнского вейвлета г; ^ к - коэффициенты аппроксимации; ^ к - детализирующие коэффициенты.

Таким образом, метод вейвлет-анализа сигналов является наиболее предпочтительным для использования, так как данный метод не содержит сложных последовательностей действий, а признаки, получаемые в результате, характеризуют сигнал и во временной плоскости, и в частотной, что дает хорошие результаты для классификации (рис. 8, 9).

(11)

где й к - детализирующие коэффициенты; к - номер вейвлет-коэффициента; Ь. - количество вейвлет-коэффициентов в анализируемом окне на уровне у.

Многомасштабный вейвлет-анализ основывается на разложении сигнала по функциям, образующим орто-нормированный базис [4]. Любую функцию можно разложить на некотором заданном уровне разрешения (масштабе) ]п в ряд вида

2 М -1 уш

/ (*) = X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(12)

Рис. 8. Вейвлет-базисы: а - Добеши 4; б - Добеши 8; в - Добеши 16

Рис. 6. График сигнала, описываемого функцией (8), и его фурье-спектр

Рис. 7. График сигнала, описываемого функцией (9), и его фурье-спектр

Проведенные экспериментальные исследования по выбору вейвлет-базиса показали, что наилучшие результаты достигаются при использовании базиса Добеши 8. Поскольку базис Добеши является ортонормированным, то это дает возможность использовать быстрый алгоритм вычисления вейвлет-коэффициентов на каждом частотном уровне по найденным коэффициентам на уровне с более высокой частотой.

Рис. 9. Сравнительный анализ качества распознавания слов для разных типов вейвлетов

При использовании вейвлет-коэффициентов в качестве признаков, описывающих речевой сигнал, необходимо определить число уровней детализации, соответствующих размеру анализируемого частотного диапазона. Частотный диапазон речи равен примерно 20.20 000 Гц [1]. Вейвлет Добеши 8 имеет центральную частоту, равную 0,666 7 Гц. При частоте дискретизации 22 050 отсчетов в секунду получаем центральную частоту вейвлета, используемого для первого уровня разложения [4]:

Frx = Fr ■ Fd,

Fr. =0,666 7 22 050 = 14 701.

(13)

С каждым следующим уровнем разложения частота вейвлета будет уменьшаться в два раза. Центральная частота вейвлета на десятом уровне разложения будет равна 28,7 Гц. Таким образом, вейвлет-коэффициенты для десяти уровней разложения отражают характеристики сигнала в указанном частотном диапазоне речи (рис. 10).

0.05 0.1 0.15 0.2 0.25 0.3

Время, С

Рис. 10. Коэффициенты вейвлет-разложения речевого сигнала на 10 уровней детализации

В ходе проведения эксперементов определялась длина фиксированного интервала во временной области, на котором рассчитываются признаки речевого сигнала. Данный интервал должен быть меньше времени звучания фонемы. В русском языке длительности фонем изменяются в пределах 50.250 мс [1]. Значение длины сегмента должно позволять вычислять признаки речевого сигнала. Нижняя граница анализируемого частотного диапазона равна 28,7 Гц и в выделенный сегмент должен укладываться, по крайней мере, один период данной частотной составляющей, который равен 36 мс. Исходя из времени звучания фонемы в русском языке и анализируемого частотного диапазона, длина сегмента будет равна 36 мс.

Для оценки эффективности предложенного метода разработана вероятностно-сетевая модель системы преобразования речи в текст на основе нейронной сети с программной реализацией в срезе MatLAB [6]. Система дает возможность пользователю сформировать базу данных фонем, провести обучение нейронной сети с заданными параметрами на сформированной обучающей выборке и выполнить преобразование в текст представленного речевого сигнала. Для оценки качества работы системы преобразования речи в текст создана база данных фонем русского языка, включающая образцы речевых сигналов фонем дикторов различного пола и возраста и были проведены эксперименты по распознаванию фонем и слов. После обучения нейросети на сформированной базе признаков фонем-эталонов диктором, проводившим обучение, произносились отдельные фонемы и слова. По результатам экспериментов определялся коэффициент распознавания речевых единиц фонем (см. таблицу).

Таким образом эксперименты показали достаточно высокий коэффициент распознавания фонем, что определяет эффективность применения вейвлет-преобразования для построения моделей фонем русского языка.

Библиографический список

1. Косарев, Ю. А. Естественная форма диалога с ЭВМ / Ю. А. Косарев. Л. : Машиностроение. Ленингр. отд-ние. 1989.

2. Рогожин, А. Л. Система автоматического распознавания русской речи «SIRIUS» / А. Л. Рогожин, А. А. Карпов, И. В. Ли ; С.-Петерб. ин-т информатики и автоматизации Рос. акад. наук. СПб., 2005.

3. Рабинер, Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд. М.: Мир, 1978.

4. Дремин, И. М. Вейвлеты и их использование / И. М. Дремин, О. В. Иванов, В. А. Нечитайло // Успехи физических наук. 2001. Т. 171. № 5. С. 465-500.

5. Кирякова, Г. С. Вероятностно-сетевая модель преобразования речи в текст. / Г. С. Кирякова, М. С. Медведев ; Краснояр. гос. техн. ун-т. Красноярск, 2005. 9 с. Деп. в ВИНИТИ 11.10.05, № 1300-B2005.

Результаты распознавания фонем [а], [о], [и], [в], [з], [ж], [ф], [ш], [с], %

№ эксперимента [а] [о] [и] [в] [з] [ж] [ф] [с] [ш]

1 90 99 98 99 97 87 95 97 100

2 94 99 100 92 99 93 97 91 99

3 97 94 100 95 100 85 97 89 96

4 92 96 98 99 80 87 94 100 98

5 87 100 99 95 100 87 95 90 90

Средний коэффициент распознавания 92 97,6 99 96 95,2 87,8 95,6 93,4 96,6

94,8

Всеуо

M. S. Medvedev

USING THE WAVELET TRANSFORM IN RUSSIAN PHONEME MODEL CONSTRUCTION

Tthe using of different wavelet basis for the phoneme model forming for Russian speech to text system is considered. For the extraction of the phoneme descriptivefeatures the wavelet transform (Daubechies wavelet oforder 8) was used. Computing was realized by using MatLAB 7. The results of phoneme recognition analysis has allowed well quality (95 %).

Принята к печати в декабре 2006 г.

ХДК 512.5

Л. А. Мартынова

АВТОМОРФИЗМЫ ОБОБЩЕННОЙ УНИПОТЕНТНОЙ ГРУППЫ Ц»Г(К)

Дано описание автоморфизмов обобщенной унипотентной группы UDI(K) над полем К характеристики ф 2, где Г - цепь натуральных чисел.

Нормальные подгруппы и автоморфизмы унитре-угольной группы иТ(п, К) были рассмотрены в 1974 г. В. М. Левчуком [1]. Несколько лет спустя, в 1982 г. результаты работ В. М. Левчука были перенесены Е. Г. Косма-ном на предельные унитреугольные группы над конечным полем [2]. В 1987 г. В. М. Левчук опубликовал статью, посвященную нормальному строению и автоморфизмам в более общей ситуации - для кольца ЫТ(Г, К) и его присоединенной группы, где строки и столбцы нумеруются не конечным, а бесконечным линейно упорядоченным множеством Г [3] (группе, рассматривавшейся Е. Г. Косманом, здесь соответствует случай цепи Г натуральных чисел). Такие группы, в частности, являются известными источниками тонких примеров, публикуемых время от времени уже в течение полувека. На этом пути были построены, исходя из унитреугольных групп, первые примеры _р-группы, совпадающей с коммутантом [4], и пример характеристической простой _р-группы [5].

В [3; 6] были описаны автоморфизмы Лиева кольца иТ(Г, К) и его присоединенной группы для произвольной цепи Г и кольца К без делителей нуля. Более частные результаты в случае конечной цепи Г и конечного поля характеристики Ф 2 были получены ранее П. П. Павловым [7] и А. Дж. Уиром [8]. Позднее Дж. А. Гиббс (1970) [9] и В. М. Левчук (1990) описали автоморфизмы унипотентной группы ЦФ(К) над произвольным полем К дру-

гих типов Ф. В частности, в работе [10] были построены обобщенные Лиевы кольца NG(K) типов G = ВГ, СГ, D .

Дадим описание автоморфизмов группы NDГ(K) в случае, когда К - поле и Г - цепь.

Назовем стандартными автоморфизмами присоединенной группы NDI(K) диагональные, полевые, графовые и локально внутренние автоморфизмы.

Основным результатом будет являться следующая теорема.

Теорема. Всякий автоморфизм NDI(K) над полем К характеристики ф 2 разложим в произведение стандартных автоморфизмов.

Введем обозначения согласно [10]. Система положительных корней Ф+ и база в системе корней Ф далее зафиксированы. Если г є Ф, то совокупность ^ є Ф+, для которых ^ - г линейная комбинация простых корней с неотрицательными коэффициентами, обозначим через {г}+. Корень ^ называется углом подмножества Н с NФ(K), если совокупность Н всех ^-координат элементов из Н отлична от нуля и Н = 0 при л ф г є Ф+, $ є {г}+. Положим также, что

Тг = (Кел || л є {г}+ ), Q(r) = (Кел || л є {г}+, л ф г), г єФ.

Так же как и в [10], назовем D -матрицей таблицу вида

i Надоели баннеры? Вы всегда можете отключить рекламу.