Алгоритм извлечения признаков речевого сигнала во временной области для задачи распознавания дикторов

Первушин Е.А.; Лавров Д.Н.

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Вестн. Ом. ун-та. 2011. № 2. С. 182-185.

УДК 519.688:534.4

Е.А. Первушин, Д.Н. Лавров

Омский государственный университет им. Ф. М. Достоевского

АЛГОРИТМ ИЗВЛЕЧЕНИЯ ПРИЗНАКОВ РЕЧЕВОГО СИГНАЛА ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ДИКТОРОВ

Предлагается метод извлечения признаков, основанный на выделении в речевом сигнале кадров, соответствующих периоду основного тона, и амплитудной нормализации. Описывается эксперимент по текстонезависимой идентификации дикторов, сравнивающий предложенный метод со существующими.

Ключевые слова: распознавание дикторов, извлечение признаков, временная область, идентификация дикторов.

Введение

Задача распознавания дикторов исследуется довольно интенсивно. Несмотря на то, что большинство исследователей в последнее время сосредотачивают свои усилия на методах классификации и распознавания образов, методы обработки сигналов с целью извлечения признаков также продолжают развиваться. Данная статья посвящена разработке и исследованию метода извлечения признаков, основанного на выделении из речевого сигнала участков, которые могут быть использованы для распознавания дикторов.

Извлечение признаков

Общий подход к процедуре обработки речевого сигнала состоит в использовании кратковременного анализа, т. е. сигнал разбивается на временные окна фиксированного размера, на которых, как предполагается, параметры сигнала не меняются. Для более точного представления сигнала между окнами делают перекрытие. Затем к каждому окну применяются алгоритмы извлечения признаков, такие как спектральный анализ, метод линейного предсказания или другие.

Задача распознавания дикторов отличается от многих других задач в области речевых технологий тем, что в данном случае нет необходимости в исследовании всего содержания речи. Достаточно выделить элементы, пригодные для распознавания дикторов.

Известно, что наибольшую ценность для распознавания дикторов имеют вокализованные звуки. Звуки данного типа образуются следующим образом: поток воздуха из легких проходит через голосовую щель, которая периодически смыкается, производя последовательность звуковых импульсов. Период, с которым производятся импульсы, называют периодом основного тона. Далее распространение импульсов происходит через ряд полостей, которые оказывают влияние на частотный состав результирующего сигнала. Размер и форма полостей речевого тракта являются индивидуальными характеристиками человека, и их влияние на речевой сигнал используется при распознавании по голосу.

©ЕА. Первушин, Д.Н. Лавров, 2011

Предлагаемый подход заключается в использовании отсчетов сигнала, извлеченных из вокализованных участков и нормированных соответствующим образом. Схема извлечения признаков состоит в следующем:

• речевой сигнал фильтруется и пере-дискретизовывается до фиксированной частоты в случае, если частота дискретизации оригинальной записи отличается от рабочей;

• на каждой итерации алгоритма исследуется часть сигнала, попадающая в окно фиксированного размера;

• принимается решение о наличии тона на исследуемом участке, и определяется его период; в случае отсутствия тона переход к следующей итерации;

• определяется точка совмещения кадров; данная точка должна находиться в итоговом векторе на фиксированном месте;

• относительно точки совмещения определяется начало и конец кадра;

• кадр нормируется по амплитуде; выделенные отсчеты сигнала, нормированные по амплитуде, представляют собой вектор, используемый для построения шаблона диктора;

• переход к следующей итерации; в случае наличия тона окно сдвигается на величину, равную периоду основного тона, в противном случае - на половину длины окна.

Эксперимент по определению

параметров метода

Для определения параметров метода и оценки точности была собрана база данных, содержащая образцы речи, записанные на микрофон в офисных условиях. Частота дискретизации оригинальных записей составляет 48 кГц, разрядность -16 бит, алгоритм предобработки сигнала передискретизовывает записи до частоты 16 кГц. База содержит мужские и женские голоса. Каждый из пользователей записал по две сессии, интервал между которыми составляет не менее суток. В эксперименте для регистрации пользователей в системе использовались записи первой сессии, записи второй сессии использовались для проведения тестовых оценок. В качестве материала для произнесения каждому пользователю предоставлялся свой текст.

Параметры метода определялись методом покоординатного спуска. В качест-

ве максимизируемого значения выступал процент верно идентифицированных кадров. Кадры шести дикторов (всего порядка 11 500 кадров) идентифицировались в системе с 23 зарегистрированными пользователями, а для регистрации и для тестирования использовалось по 30 секунд речевого материала. Для идентификации кадра вычисляются кратчайшие расстояния до каждого из зарегистрированных шаблонов. Для вычисления расстояния между двумя кадрами используется расстояние

1 N

d(* У) = N?(X - У)2’

где X = (х1,..., xN), У = (У1,..., yN),

N = min(N1, N2) .

Перед передискретизацией до рабочей частоты оригинальный сигнал пропускался через фильтр нижних частот. Для этого был использован дискретный аналог RC-фильтра с частотой среза 7000 Гц.

Для выделения основного тона использовался алгоритм, описанный в работе [1].

После нескольких итераций были выбраны следующие значения параметров. В качестве точки совмещения выбрана точка максимума. В большинстве случаев точка максимума обладает яркой выраженностью. Использование в данных целях точки перехода через ноль слева от точки максимума не обеспечило достаточной точности в проведенных экспериментах.

Начало кадра определено фиксированным на 1,8 мс слева от точки максимума. Длина кадра составляет 75 % от значения периода основного тона на данном участке.

Нормализация отсчетов кадра состоит в приведении к фиксированному значению величины

e=114

где st, i = 1,2,... - отсчеты кадра. Для этого каждый отсчет умножается на соответствующую константу. Такой подход оказывается более приемлемым для идентификации по сравнению с подходами, выполняющими нормирование непосредственно при вычислении расстояния между двумя кадрами. Исследованные подходы состояли в решении для каждой сравниваемой пары задачи минимизации

184

Е.А. Первушин, Д.Н. Лавров

N

Ё(S - (s'- а)b)2 ^ min

i=1

в одном подходе или минимизации

N

Ё (S - s'fi)2 ^ min

i=1

в другом подходе, причем второй подход оказался более эффективным по сравнению с первым.

Необходимо отметить, что выбранные значения параметров являются оптимальными (среди исследованных значений) для данной базы и данного эксперимента.

Система идентификации

Помимо описанного выше эксперимента, данный метод извлечения признаков тестировался в системе идентификации дикторов. Выбранная схема системы основана на методе ближайшего соседа и схеме голосования. Шаблоном (моделью) диктора является набор извлеченных векторов, из которого на основании заданного порога удалены кадры с низким значением энергии. Для идентификации диктора проводится сравнение шаблона, полученного по предъявленному образцу, с хранимыми в системе шаблонами зарегистрированных пользователей. Для этого идентифицируется каждый кадр исследуемого шаблона. Образец идентифицируется принадлежащим пользователю, к которому было идентифицировано наибольшее количество кадров.

Эксперимент по идентификации

дикторов

Табл. 1 и 2 содержат результаты экспериментов по текстонезависимой идентификации на замкнутом множестве. Во всех экспериментах ранг идентификации

равен единице, т. е. выдаваемый системой список кандидатов состоит из одного идентификатора. В данном эксперименте участвовали только пользователи, не принимавшие участие в экспериментах по определению параметров. Так же как и в эксперименте по определению параметров, записи первой сессии использовались для регистрации, записи второй сессии -для попытки идентификации.

В первом эксперименте продолжительность речи для регистрации для каждого пользователя составляла 30 секунд. Для попыток идентификации также использовалось по 30 секунд речи, которые разбивались на шесть 5-секундных тестовых сегмента. Таким образом, в эксперименте по идентификации среди 40 дикторов проводилось 240 тестов.

Во втором эксперименте для регистрации и для попытки идентификации использовалась короткая фраза, одинаковая для всех пользователей.

Предложенный метод извлечения признаков сравнивался с распространенным методом, вычисляющим МРСС коэффициенты (использована реализация [2]) со следующими параметрами:

• размер окна - 16 мс,

• количество коэффициентов - 24,

• минимальная частота - 20 Гц,

• максимальная частота - 6000 Гц,

• количество фильтров - 32.

Алгоритм применяется к сигналу с

частотой дискретизации 16 кГц. Для вычисления расстояния между векторами коэффициентов МРСС используется евклидово расстояние. Выбор данных параметров произведен на той же базе, на которой оценивались параметры предлагаемого метода.

Таблица 1

Результаты экспериментов по идентификации дикторов (30 секунд для обучения, 5 секунд для идентификации) в %

Используемые признаки Результат идентификации среди

10 дикторов 20 дикторов 30 дикторов 40 дикторов

Нормированные кадры сигнала 96,6 95,0 ± 3,9 92,8 ± 3,8 81,7 ± 4,9

MFCC 91,6 88,3 ± 5,7 89,4 ± 4,5 81,7 ± 4,9

Таблица 2

Результаты экспериментов по идентификации дикторов (3-5-секундная фиксированная фраза для обучения и для идентификации) в %

Используемые признаки Результат идентификации среди

10 дикторов 20 дикторов 30 дикторов 40 дикторов

Нормированные кадры сигнала 90,0 85,0 90,0 87,5

MFCC 80,0 80,0 86,6 85,0

Результаты экспериментов, состоящие из достаточного количества тестов, приведены с указанием 95 %-го доверительного интервала.

Заключение

Исследование речевого сигнала во временной области, приведенное в данной работе, имело целью определить участки речевого сигнала, наиболее пригодные для распознавания дикторов. Сигнал при этом исследовался на уровне периода основного тона.

Проведенные эксперименты демонстрируют возможность использования предложенного метода извлечения признаков для задачи распознавания диктора. Кроме того, так как для целей сравнения алгоритмов была выбрана простая система,

основанная на методе ближайшего соседа, то полученные результаты могут быть улучшены за счет использования современных методов моделирования, таких как смеси гауссовых моделей, скрытые марковские модели и др.

ЛИТЕРАТУРА

[1] Первушин Е. А., Лавров Д. Н. Алгоритм выделения основного тона и детектирования тон/не тон по минимумам разностной функции на участке минимального периода // Математические структуры и моделирование. 2010. Вып. 22. С. 24-27.

[2] CoMIRVA: Collection of Music Information

Retrieval and Visualization Applications. URL: http://www.cp.jku.at/people/schedl/Research/Dev elopment/CoMIRVA/webpage/CoMIRVA.html (дата обращения: 21.02.2011).

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Первушин Е. А., Лавров Д. Н.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Первушин Е. А., Лавров Д. Н.

Algorithm of speech signals extraction in time domain for speakers recognition

Текст научной работы на тему «Алгоритм извлечения признаков речевого сигнала во временной области для задачи распознавания дикторов»