Медведев М.С.
Институт космических и информационных технологий СФУ
г.Красноярск, доцент [email protected]
Алгоритм фонемной сегментации в модуле обучения системы распознавания речи
Аннотация
Рассматривается применение алгоритма фонемной сегментации речевого сигнала на основе вейвлет-преобразования с целью автоматизации процесса обучения системы распознавания речи. Проводится анализ результатов работы реализованного модуля в составе системы преобразования речи в текст.
Одним из важных этапов в работе системы распознавания речи является ее предварительное обучение. Данный процесс предполагает формирование базы данных признаков для определенных сегментов речевого сигнала. В качестве единиц распознавания могут быть использованы фонологические единицы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания. Задача ручного выделения диктором таких сегментов из потока слитной речи требует значительных затрат времени и подвержена ошибкам. Кроме того, практически невозможно воспроизвести результаты ручной сегментации вследствие изменчивости человеческого зрительного и слухового восприятия. Автоматическая сегментация не безошибочна, однако она непротиворечива по своей сути, и её результаты воспроизводимы. В случае возникновения ошибок результат автоматической сегментации может корректироваться диктором. Точность сегментации в значительной степени определяет надежность автоматического распознавания речи
Целью внедрения алгоритма автоматической сегментации в модуль обучения является повышение эффективности работы системы распознавания речи, за счет сокращения времени обучения и уменьшения количества ошибок.
При построении системы «Речь-текст» в качестве распознаваемых единиц использовались фонемы. Преимущество фонемного подхода связано с использованием наименьшего числа отличительных фонологических классов, которые должны быть распознаны.
Рассмотрим алгоритм обучения на примере работы системы «Речь-текст» [1]. Структурная схема приложения приведена на рисунке 1.
На вход модуля обучения поступает речевой сигнал, который оцифровывается с определенной частотой дискретизации и разрядностью преобразования, эти параметры выбираются опционально перед началом
записи речи. С помощью алгоритма выделения слов, система разбивает речевой поток на отдельные изолированные участки.
Обучение
Рис. 1. Структурная схема системы «Речь-текст»
В процессе обучения диктор вручную определяет границы фонемы в звуковом сигнале посредством графического режима выделения. После чего для каждого выделенного сигнала фонемы на основе метода кратномасштабного вейвлет-преобразования вычисляются признаки, которые заносятся в базу данных и в дальнейшем будут использоваться в качестве обучающей выборки для нейронной сети. Применение алгоритма автоматической сегментации на этапе формирования базы признаков фонем существенно ускорит и упростит процесс обучения системы, практически исключая ручную работу, а также предоставит дополнительную информацию о количестве фонем в изолированном слове во время работы системы в режиме распознавания.
Важнейшим этапом анализа речевого сигнала является выделение его информативных признаков, которые могли бы однозначно его характеризовать. Существует набор математических методов, анализирующих речевой спектр. Вейвлет-преобразование одномерного сигнала - это его представление, сконструированное из материнского вейвлета, обладающего определенными свойствами за счет операций
сдвига во времени и изменения временного масштаба [2]. Идея состоит в представлении сигнала последовательностью образов с разной степенью детализации, что позволяет выявлять его локальные особенности и классифицировать их по интенсивности.
При исследовании сигналов полезно их представление в виде совокупности последовательных приближений грубой
(аппроксимирующей) и уточненной (детализирующей) составляющих с последующим их уточнением итерационным методом. Каждый шаг уточнения соответствует определенному масштабу анализа (уровню декомпозиции). Такое представление каждой составляющей сигнала вейвлетами можно рассматривать как во временной, так и в частотной областях.
Вейвлет-коэффициенты аппроксимации соответствуют передаточной характеристике фильтра низких частот, а детализации — высокочастотному фильтру, можно рассматривать поведение речевого сигнала в различных частотных диапазонах. Частоты ниже 125 Гц не исследуются, т.к. не содержат информации, важной для задачи сегментации. Это обусловлено природой человеческой речи, охватывающей интервал 150 - 4000 Гц. Таким образом, достаточно шести уровней разложения. Вейвлет-разложение речевого сигнала на шесть уровней детализации представлено на рисунке 2.
Исходный звуковой сигнал
„М-
Рис. 2. Детализирующие коэффициенты шести уровней декомпозиции Сигнал разбивается на окна или фреймы. Количество окон определяется из отношения количества отсчетов исходного сигнала и выбранного размера окна достаточного для обнаружения границ межфонемного перехода. Размер окна для исходного сигнала - 512 отсчетов или 20 мс. Однако с изменением частоты дискретизации сигнала, размер окна для исходного сигнала может увеличиваться.
С увеличением уровня декомпозиции размер окна сокращается в 2 раза, это связано с уменьшением количества детализирующих
коэффициентов на последующих уровнях.
Для дальнейшего определения предполагаемых границ между окнами производится Вычисление средней энергии вейвлет-коэффициентов в пределах определенного окна необходимо. Для каждого
уровня строится числовая последовательность:
ц-1
Е],к = 10 ^ I d\к к= 0
,
где d - детализирующие коэффициенты; к - номер вейвлет-коэффициента.
Для определения предполагаемых границ между соседними окнами текущего уровня детализации используется следующее неравенство:
I ■Е3,< +1 - Е, I > П
,
где п - порог энергии вейвлет коэффициентов, который определяется экспериментально.
Количество найденных границ между окнами суммируется и усредняется по количеству уровней декомпозиции. Если сумма превышает заданный пороговый коэффициент д, изменяющийся в пределах (0; 1), то отмечается межфонемный переход.
В зависимости от порогового коэффициента изменяется чувствительность обнаружения границ между фонемами.
Для программной реализации модуля сегментации, использовалась система МаПаЬ. Были разработаны следующие функции:
• Автоматическая сегментация речевых потоков;
• Предварительная обработка звукового сигнала;
• Изменение параметров сегментации;
• Редактирование результатов автоматической сегментации (удаление,
перемещение границ) в ручном режиме;
• Прослушивание сегмента непосредственно при редактировании;
• Формирование списка фонем.
Алгоритм данного модуля сегментации включает в себя два коэффициента, которые определяют варианты расстановки границ сегментации: коэффициент чувствительности распознавания и коэффициент, реагирующий на быстроту изменения энергии вейвлет-показателей. Оба коэффициента находятся опытным путем.
До декомпозиции сигнала или вейвлет-анализа, необходимо выполнить предварительную обработку речевого сигнала, которая предполагает нормализацию сигнала и очистку от шума.
Нормализация сигнала позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости. В данном модуле использована пиковая нормализация. Если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум, поэтому предусмотрена процедура шумоподавления, применяющаяся также в
случае, если исходный речевой сигнал содержит различного рода шумы. Для очистки сигналов от шума используется быстрое вейвлет-преобразование (БВП).
Рис. 3. Интерфейс модуля сегментации
На рисунке 3 представлен модуль сегментации в рабочем состоянии. Вертикальные линии, разделяющие исходный звуковой сигнал, отображают результат автоматической сегментации. В случае возникновения ошибок, пользователь имеет возможность переопределить предполагаемые границы и проверить результат. Доступны функции удаления границ, а также изменения таких параметров сегментации, как чувствительность и резкость. При нажатии кнопки «Сегментация» список фонем будет отображаться в главном окне системы «Речь-текст». После этого диктор должен сформировать выборку и обучить систему.
Для проведения экспериментальных исследований были записаны случайные слова, которые прошли предварительную обработку и автоматическую сегментацию.
Анализ результатов сегментации позволил сделать следующие выводы относительно алгоритма в целом:
• Взрывные согласные, стоящие перед гласными, делятся на два сегмента, соответствующие паузе и взрыву
• Переход от гласных к шипящим выделяется в отдельный сегмент
• Хорошо выделяются согласные твердые
• Плохо выделяются согласные мягкие
• Не выделяются согласные между двух гласных
• Появляется достаточно большое количество лишних границ при разделении согласных, реже - гласных
• Разделение рядом стоящих гласных происходит при минимальном пороговом коэффициенте, другими словами при большей
чувствительности, однако это создает лишние границы
• Границы слова, как правило, определяются правильно
• Границы согласных, как правило, определяются верно, однако между границами согласных появляются дополнительные границы;
• Автоматизированная сегментация занимает значительно меньшее время диктора, чем время затрачиваемое только на ручную сегментацию (приблизительно на 70%)
Анализ результатов показал, что требуются дополнительные исследования, связанные с определением границ фонем, в частности добавление к разработанному алгоритму, новых информативных признаков, предварительно изучив их характеристики на участках перехода между фонемами.
Основными проблемами данного алгоритма сегментации являются:
• появление лишних границ-переходов
• низкая чувствительность к переходам между гласными Возможный способ решения данных проблем заключается в
усреднении энергии рядом стоящих фреймов, а также возможностью опционально выбирать размер окна исходного сигнала. В случаях когда рядом находятся два гласных звука возможно применение формантного анализа.
Внедрение алгоритма фонемной сегментации в модуль обучения системы «Речь-текст» позволило сократить время формирования обучающей выборки на 70% по сравнению с ручным режимом работы.
Литература
1. Кирякова, Г. С. Вероятностно-сетевая модель преобразования речи в текст. / Г. С. Кирякова, М. С. Медведев; Красн. гос. техн. ун-т. Красноярск, 2005. 9 с. Деп. в ВИНИТИ 11.10.05, № 1300- В2005.
2. Вейвлет-анализ. Основы теории: пер. с нем. : учеб. пособие по спец. 01.02 "Прикл. математика": рекоменд. УМО в обл. электроники и прикл. математики. Блаттер, Кристиан. Б.м., 2006. 271с.: ил.
3. Медведев М. С. Интеллектуальный комплекс для исследования речевого сигнала. / М. С. Медведев, Г. С. Кирякова, А. С. Ли; Информационные технологии в науке, образовании, телекоммуникации и бизнесе '09: материалы XXXVI Международн. конференц. молодых ученых. Ялта-Гурзуф, 2009.