Алгоритм фонемной сегментации в модуле обучения системы распознавания речи

Медведев Максим Сергеевич

Медведев М.С.

Институт космических и информационных технологий СФУ

г.Красноярск, доцент aipracs@mail.ru

Алгоритм фонемной сегментации в модуле обучения системы распознавания речи

Аннотация

Рассматривается применение алгоритма фонемной сегментации речевого сигнала на основе вейвлет-преобразования с целью автоматизации процесса обучения системы распознавания речи. Проводится анализ результатов работы реализованного модуля в составе системы преобразования речи в текст.

Одним из важных этапов в работе системы распознавания речи является ее предварительное обучение. Данный процесс предполагает формирование базы данных признаков для определенных сегментов речевого сигнала. В качестве единиц распознавания могут быть использованы фонологические единицы: аллофоны, фонемы, дифоны, слоги, слова или некоторые их сочетания. Задача ручного выделения диктором таких сегментов из потока слитной речи требует значительных затрат времени и подвержена ошибкам. Кроме того, практически невозможно воспроизвести результаты ручной сегментации вследствие изменчивости человеческого зрительного и слухового восприятия. Автоматическая сегментация не безошибочна, однако она непротиворечива по своей сути, и её результаты воспроизводимы. В случае возникновения ошибок результат автоматической сегментации может корректироваться диктором. Точность сегментации в значительной степени определяет надежность автоматического распознавания речи

Целью внедрения алгоритма автоматической сегментации в модуль обучения является повышение эффективности работы системы распознавания речи, за счет сокращения времени обучения и уменьшения количества ошибок.

При построении системы «Речь-текст» в качестве распознаваемых единиц использовались фонемы. Преимущество фонемного подхода связано с использованием наименьшего числа отличительных фонологических классов, которые должны быть распознаны.

Рассмотрим алгоритм обучения на примере работы системы «Речь-текст» [1]. Структурная схема приложения приведена на рисунке 1.

На вход модуля обучения поступает речевой сигнал, который оцифровывается с определенной частотой дискретизации и разрядностью преобразования, эти параметры выбираются опционально перед началом

записи речи. С помощью алгоритма выделения слов, система разбивает речевой поток на отдельные изолированные участки.

Обучение

Рис. 1. Структурная схема системы «Речь-текст»

В процессе обучения диктор вручную определяет границы фонемы в звуковом сигнале посредством графического режима выделения. После чего для каждого выделенного сигнала фонемы на основе метода кратномасштабного вейвлет-преобразования вычисляются признаки, которые заносятся в базу данных и в дальнейшем будут использоваться в качестве обучающей выборки для нейронной сети. Применение алгоритма автоматической сегментации на этапе формирования базы признаков фонем существенно ускорит и упростит процесс обучения системы, практически исключая ручную работу, а также предоставит дополнительную информацию о количестве фонем в изолированном слове во время работы системы в режиме распознавания.

Важнейшим этапом анализа речевого сигнала является выделение его информативных признаков, которые могли бы однозначно его характеризовать. Существует набор математических методов, анализирующих речевой спектр. Вейвлет-преобразование одномерного сигнала - это его представление, сконструированное из материнского вейвлета, обладающего определенными свойствами за счет операций

сдвига во времени и изменения временного масштаба [2]. Идея состоит в представлении сигнала последовательностью образов с разной степенью детализации, что позволяет выявлять его локальные особенности и классифицировать их по интенсивности.

При исследовании сигналов полезно их представление в виде совокупности последовательных приближений грубой

(аппроксимирующей) и уточненной (детализирующей) составляющих с последующим их уточнением итерационным методом. Каждый шаг уточнения соответствует определенному масштабу анализа (уровню декомпозиции). Такое представление каждой составляющей сигнала вейвлетами можно рассматривать как во временной, так и в частотной областях.

Вейвлет-коэффициенты аппроксимации соответствуют передаточной характеристике фильтра низких частот, а детализации — высокочастотному фильтру, можно рассматривать поведение речевого сигнала в различных частотных диапазонах. Частоты ниже 125 Гц не исследуются, т.к. не содержат информации, важной для задачи сегментации. Это обусловлено природой человеческой речи, охватывающей интервал 150 - 4000 Гц. Таким образом, достаточно шести уровней разложения. Вейвлет-разложение речевого сигнала на шесть уровней детализации представлено на рисунке 2.

Исходный звуковой сигнал

„М-

Рис. 2. Детализирующие коэффициенты шести уровней декомпозиции Сигнал разбивается на окна или фреймы. Количество окон определяется из отношения количества отсчетов исходного сигнала и выбранного размера окна достаточного для обнаружения границ межфонемного перехода. Размер окна для исходного сигнала - 512 отсчетов или 20 мс. Однако с изменением частоты дискретизации сигнала, размер окна для исходного сигнала может увеличиваться.

С увеличением уровня декомпозиции размер окна сокращается в 2 раза, это связано с уменьшением количества детализирующих

коэффициентов на последующих уровнях.

Для дальнейшего определения предполагаемых границ между окнами производится Вычисление средней энергии вейвлет-коэффициентов в пределах определенного окна необходимо. Для каждого

уровня строится числовая последовательность:

ц-1

Е],к = 10 ^ I d\к к= 0

,

где d - детализирующие коэффициенты; к - номер вейвлет-коэффициента.

Для определения предполагаемых границ между соседними окнами текущего уровня детализации используется следующее неравенство:

I ■Е3,< +1 - Е, I > П

,

где п - порог энергии вейвлет коэффициентов, который определяется экспериментально.

Количество найденных границ между окнами суммируется и усредняется по количеству уровней декомпозиции. Если сумма превышает заданный пороговый коэффициент д, изменяющийся в пределах (0; 1), то отмечается межфонемный переход.

В зависимости от порогового коэффициента изменяется чувствительность обнаружения границ между фонемами.

Для программной реализации модуля сегментации, использовалась система МаПаЬ. Были разработаны следующие функции:

• Автоматическая сегментация речевых потоков;

• Предварительная обработка звукового сигнала;

• Изменение параметров сегментации;

• Редактирование результатов автоматической сегментации (удаление,

перемещение границ) в ручном режиме;

• Прослушивание сегмента непосредственно при редактировании;

• Формирование списка фонем.

Алгоритм данного модуля сегментации включает в себя два коэффициента, которые определяют варианты расстановки границ сегментации: коэффициент чувствительности распознавания и коэффициент, реагирующий на быстроту изменения энергии вейвлет-показателей. Оба коэффициента находятся опытным путем.

До декомпозиции сигнала или вейвлет-анализа, необходимо выполнить предварительную обработку речевого сигнала, которая предполагает нормализацию сигнала и очистку от шума.

Нормализация сигнала позволяет уменьшить погрешности распознавания, связанные с тем, что диктор может произносить слова с разным уровнем громкости. В данном модуле использована пиковая нормализация. Если входной звуковой сигнал имеет слишком малый уровень громкости, то после нормализации может появиться шум, поэтому предусмотрена процедура шумоподавления, применяющаяся также в

случае, если исходный речевой сигнал содержит различного рода шумы. Для очистки сигналов от шума используется быстрое вейвлет-преобразование (БВП).

Рис. 3. Интерфейс модуля сегментации

На рисунке 3 представлен модуль сегментации в рабочем состоянии. Вертикальные линии, разделяющие исходный звуковой сигнал, отображают результат автоматической сегментации. В случае возникновения ошибок, пользователь имеет возможность переопределить предполагаемые границы и проверить результат. Доступны функции удаления границ, а также изменения таких параметров сегментации, как чувствительность и резкость. При нажатии кнопки «Сегментация» список фонем будет отображаться в главном окне системы «Речь-текст». После этого диктор должен сформировать выборку и обучить систему.

Для проведения экспериментальных исследований были записаны случайные слова, которые прошли предварительную обработку и автоматическую сегментацию.

Анализ результатов сегментации позволил сделать следующие выводы относительно алгоритма в целом:

• Взрывные согласные, стоящие перед гласными, делятся на два сегмента, соответствующие паузе и взрыву

• Переход от гласных к шипящим выделяется в отдельный сегмент

• Хорошо выделяются согласные твердые

• Плохо выделяются согласные мягкие

• Не выделяются согласные между двух гласных

• Появляется достаточно большое количество лишних границ при разделении согласных, реже - гласных

• Разделение рядом стоящих гласных происходит при минимальном пороговом коэффициенте, другими словами при большей

чувствительности, однако это создает лишние границы

• Границы слова, как правило, определяются правильно

• Границы согласных, как правило, определяются верно, однако между границами согласных появляются дополнительные границы;

• Автоматизированная сегментация занимает значительно меньшее время диктора, чем время затрачиваемое только на ручную сегментацию (приблизительно на 70%)

Анализ результатов показал, что требуются дополнительные исследования, связанные с определением границ фонем, в частности добавление к разработанному алгоритму, новых информативных признаков, предварительно изучив их характеристики на участках перехода между фонемами.

Основными проблемами данного алгоритма сегментации являются:

• появление лишних границ-переходов

• низкая чувствительность к переходам между гласными Возможный способ решения данных проблем заключается в

усреднении энергии рядом стоящих фреймов, а также возможностью опционально выбирать размер окна исходного сигнала. В случаях когда рядом находятся два гласных звука возможно применение формантного анализа.

Внедрение алгоритма фонемной сегментации в модуль обучения системы «Речь-текст» позволило сократить время формирования обучающей выборки на 70% по сравнению с ручным режимом работы.

Литература

1. Кирякова, Г. С. Вероятностно-сетевая модель преобразования речи в текст. / Г. С. Кирякова, М. С. Медведев; Красн. гос. техн. ун-т. Красноярск, 2005. 9 с. Деп. в ВИНИТИ 11.10.05, № 1300- В2005.

2. Вейвлет-анализ. Основы теории: пер. с нем. : учеб. пособие по спец. 01.02 "Прикл. математика": рекоменд. УМО в обл. электроники и прикл. математики. Блаттер, Кристиан. Б.м., 2006. 271с.: ил.

3. Медведев М. С. Интеллектуальный комплекс для исследования речевого сигнала. / М. С. Медведев, Г. С. Кирякова, А. С. Ли; Информационные технологии в науке, образовании, телекоммуникации и бизнесе '09: материалы XXXVI Международн. конференц. молодых ученых. Ялта-Гурзуф, 2009.

Алгоритм фонемной сегментации в модуле обучения системы распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Медведев Максим Сергеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Медведев Максим Сергеевич

Текст научной работы на тему «Алгоритм фонемной сегментации в модуле обучения системы распознавания речи»