ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Вестн. Ом. ун-та. 2011. № 4. С. 153-156.
УДК 004.934.8'1
Е.А. Первушин, Д.Н. Лавров
АЛГОРИТМЫ УЧЕТА ВЛИЯНИЯ ПАРАМЕТРОВ РЕЧЕВОГО СИГНАЛА В ЗАДАЧЕ РАСПОЗНАВАНИЯ ДИКТОРОВ
Рассматривается задача распознавания дикторов. Предлагается модификация процесса распознавания, позволяющая учитывать такие параметры распознаваемого сигнала, как уровень громкости и степень вокализованности каждого участка речевого сигнала. Описывается постановка экспериментов по обучению и оценке распознавателя. Приводятся результаты экспериментов.
Ключевые слова: распознавание дикторов, удаление тишины, степень вокализован-ности.
Введение
Наиболее актуальной в области распознавания по голосу является задача повышения точности распознавания. Известны системы, которые решают данную задачу с помощью выбора наиболее информативных сегментов в используемом речевом материале. Точность распознавания таких систем существенно зависит работы сегментатора (или детектора). В данной работе также предлагается повысить точность распознавания за счет учета влияния различных звуковых сегментов на итоговое решение. При этом информативность сегментов учитывается с помощью весовых коэффициентов, с которыми объединяются решения по участкам речевого сигнала.
Схема решения задачи
Рассмотрим процесс работы системы распознавания дикторов. Как в процессе обучения, так и в процессе попыток распознавания поступающий речевой сигнал (возможно, после предварительной обработки) сегментируется на участки фиксированной длины. Продолжительность таких участков составляет порядка 10-30 мс, также между ними сохраняется перекрытие 5-15 мс. Каждый из участков обрабатывается с целью выделить векторы признаков. Таким образом, преобразовывая каждый из участков сигнала в вектор признаков, поступающий сигнал представляется с помощью последовательности векторов у15...,уь . Сами обрабатываемые участки сигнала обозначим через 11,...,, количество Ь зависит от продолжительности сигнала.
В качестве основы для построения системы используем метод векторного квантования. Тогда в процессе обучения извлеченная последовательность подается на вход алгоритму кластеризации, результат работы которого становится создаваемой моделью диктора. Этап обучения разрабатываемой системы повторяет аналогичный этап, используемый в методе векторного квантования. Дополнительные методы учета влияния параметров сигнала к созданию моделей не применяются.
© Е.А. Первушин, Д.Н. Лавров, 2011
Пусть теперь модели зарегистрированных пользователей созданы и сохранены. В процессе попытки идентификации или верификации предъявляемый образец также подвергается процедуре извлечения признаков, результатом которой является последовательность векторов признаков. Каждый из векторов сравнивается с сохраненными моделями пользователей (со всеми или с некоторыми в зависимости от цели распознавания). Результат сравнения запишем в виде матрицы:
Л
В =
Л
V N1 2 • У
Здесь N - количество моделей, с которыми осуществляется сравнение, Ь - количество извлеченных векторов (количество сегментов), й , - кратчайшее
расстояние от вектора у, до модели / .
По найденным расстояниям вычисляются степени подобия:
(
V SN 1
Чем больше значение
Л
•*N1 У
тем с большей
вероятностью вектор у, может быть отнесен к модели / . Каждый р -й столбец матрицы степеней подобия вычисляется на основе р -го столбца матрицы расстояний.
В данной работе используем отдельно два метода для вычисления степеней подобия: метод голосования и усреднение расстояний. При методе голосования для каждого вектора модель, расстояние до которой кратчайшее, получает степень подобия, равную единице, остальные модели получают нулевую степень подобия:
5Р = |Ч = т1П ( (,-,Д •
Во втором методе, названном здесь усреднением расстояний, положим вычисление степеней подобия по формуле
5 Р = -йР •
Тогда при простом суммировании степеней подобия решение принимается по среднему значению расстояния.
Теперь суммированием столбцов матрицы 5 могут быть вычислены итоговые степени подобия, по значениям которых принимается решение. Учет влияния параметров сигнала введем на данном этапе, используя весовые коэффициенты при
суммировании. Тогда степень подобия между распознаваемым образцом и моделью вычисляется как
5 =£ аЦР )5р ,
Р=1
где Цр,р = 1,...,Ь - участки распознаваемого сигнала, а(Ц) - некоторая функция, определяющая степень важности участка Ц для принимаемого решения.
Вычисление параметров сигнала
Исследуем несколько способов вычисления весовой функции а(Ц). Первый способ предполагает введение весовых коэффициентов, вычисляемых на основе уровня громкости речевого сигнала. Идея введения данного метода основывается на следующем факте. В системах распознавания дикторов часто используется обработка сигнала, заключающаяся в удалении из сигнала тихих участков, не содержащих речь. Принятие решения происходит на основе сравнения уровня громкости с по-значением. Пусть г = X X
роговым
- последовательность отсчетов участка сигнала. Определим метод вычисления уровня громкости данного участка как
Ар = тах1,...,|х3к|) .
Так как общий уровень громкости сигнала зависит от громкости произнесения, чувствительности микрофона и расстояния до него, то полученное значение требует нормирования. Для этого вычисляется среднее значение громкости распознаваемого сигнала:
1 ь
а=- Та, .
Теперь, если положим
А < т,
А
а(ЦР) =
0,
1, иначе,
то такой способ полностью совпадает с сегментированием распознаваемого сигнала на тихие и громкие участки с помощью порога т . В таком случае решение по каждому участку либо не учитывается, либо учитываются с одинаковыми весами. Исследуем также более гладкий вариант такого способа, использующий сигмоид
аЦ,) — 1
(
1
ехр
V V
/У
Алгоритмы учета влияния параметров речевого сигнала в задаче распознавания дикторов 155
Второй исследуемый способ заключается в использовании степени вокализо-ванности сигнала. Степень вокализован-ности заданного участка сигнала будем вычислять с помощью нормированной функции автокорреляции [1]. Положим вычисление степени вокализованности с помощью следующего алгоритма. Для данного участка 1. = х(х3К определяются значения
к=1
К/2
К/2
Л
Л
Е х.хЦ Е;
V к =1 \ к =1
Вычисляются значения с величиной сдвига от К /4, среди которых осуществляется поиск максимального значения
( \
У = тах
Я к
к л7+1
... Я
К
J -1У
Для того, чтобы вычислить функцию а(1), аналогично используем пороговую и
сигмоид функцию для значений (V. — Т).
Проведение экспериментов
Задача выбора значения порога или каких-либо других параметров описываемого метода решается следующим образом. Для определения значений параметров алгоритмов требуется процедура обучения. В качестве такой процедуры применим метод минимизации эмпирического риска [2, с. 10]. Для этого выберем обучающий набор данных и введем функцию ошибки. Настройка параметров будет заключаться в поиске точек, минимизирующих среднее значение функции ошибки на обучающем наборе данных. Среднее функции ошибки Ь может быть вычислено как
Ь = 1 — Я
в тесте идентификации, где Я - вероятность истинно-положительной идентификации, либо как уровень равной вероятности ошибок в тесте верификации.
Решаемая здесь задача минимизации эмпирического риска применяется не для обучения распознавателя конкретным данным, но для выбора из некоторого параметрического семейства распознавателя, показывающего в среднем более точные результаты.
В качестве алгоритма поиска оптимального значения параметров используем метод равномерного поиска. Из интервала значений параметров с равномерным ша-
гом выбирается множество значений, на которых производятся вычисления.
Преимуществом разрабатываемой системы является то, что настраиваемые параметры не участвуют в вычислениях непосредственно до момента вычисления итоговых степеней подобия. Схема настройки подобной системы выглядит следующим образом. Пусть для настройки используемого алгоритма выбрана база данных и алгоритмы извлечения признаков и создания моделей. Пусть требуется определить оптимальное значение параметра, используемого в алгоритме вычисления степеней подобия. Для этого фиксируется диапазон допустимых значений параметра и шаг, с которым будут выбираться используемые значения. Тогда для исследования точности распознавания при использовании разных значений параметров (или алгоритмов) процедуры извлечения признаков, создания моделей и поиска расстояний осуществляются один раз. Затем для каждого параметра на основе найденных расстояний вычисляются степени подобия, которые суммируются и используются для принятия решения об идентификации или верификации. Среди всех исследуемых параметров выбирается показавший наибольшую точность.
Был проведен компьютерный эксперимент по оценке эффективности работы предлагаемых алгоритмов. Сигнал сегментируется на участки продолжительностью 32 мс. В качестве метода извлечения признаков используются мэл-частотные кеп-стральные коэффициенты. База данных для экспериментов содержит 50 дикторов. Межсессионный интервал - не менее суток. Проведены эксперименты по идентификации на замкнутом множестве.
По результатам экспериментов сделаны следующие выводы. Среди двух исследуемых методов вычисления степеней подобия лучшие результаты по точности и возможности к улучшению за счет учета параметров сигнала показал метод усреднения расстояний. Точность метода была улучшена как с помощью учета уровня громкости, так и с помощью учета степени вокализованности в широком диапазоне параметров. При этом лучшие результаты достигаются использованием сигмоид функции. Результаты работы такого метода приведены на рисунке.
Максимальная достигнутая точность составила 93 % верных идентификаций по сравнению с точностью 90,33 % исходной системы без учета параметров.
Далее также были проведены эксперименты, учитывающие оба исследуемых параметра. Максимальная достигнутая точность была повышена до 93,33 %
Процент идентификации в зависимости от значения порога Т:
щ Без учета параметров А С учетом степени громкости т С учетом степени вокализованности
Заключение
Предложенный метод учета параметров позволяет более гибко использовать решения, полученные для отдельных участков речевого сигнала. Кроме того, процедура настройки параметров становится менее ресурсоемкой по сравнению с настройкой алгоритмов предобработки сигнала, таких как, например, алгоритм удаления тишины по порогу.
В качестве будущих направлений работы может быть предложено применение разработанных функций а(і) для построения моделей дикторов, например, для построения взвешенных сумм векторов при вычислении центров кластеров в методе векторного квантования.
ЛИТЕРАТУРА
[1] Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов / пер. с англ. М., 1981. 496 с.
[2] Мерков А. Б. Распознавание образов: Введение в методы статистического обучения. М. : Эдиториал УРСС, 2011. 256 с.