Научная статья на тему 'Встраиваемая система идентификации по голосовым биометрическим показателям'

Встраиваемая система идентификации по голосовым биометрическим показателям Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
181
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ГОЛОСА / ЛИНЕЙНОЕ ПРЕДСКАЗАНИЕ / БИОМЕТРИЯ / SPEECH RECOGNITION / LINEAR PREDICTION / BIOMETRICS / DSP

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Бождай А. С., Гудков П. А., Гудков А. А.

В статье рассматривается задача идентификации личности по голосу. Дается описание нового метода обнаружения границ речевых фрагментов на основе вычисления спектральной энтропии сигнала, позволяющего более точно отделять полезный сигнал от помех.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Бождай А. С., Гудков П. А., Гудков А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The built-in system of identification using voice biometrics

The paper dwells on the problem of the identification by voice. A new method for detecting the boundaries of speech fragments based on calculation of the signal spectral entropy is described. The advantage of this method is more precise separation of useful signal from noise.

Текст научной работы на тему «Встраиваемая система идентификации по голосовым биометрическим показателям»

ляется использование современных беспроводных средств с использованием гетерогенной технологической радиосети, построенной на базе технологий ZigBee (802.15.4) и GSM/GPRS[2]. Концепция построения системы удаленного мониторинга приборов тепловой автоматики, учета и контроля теплоносителя объектов ЖКХ, блочно-модульных котельных и ЦТП, а также состояния тепловых магистралей предусматривает реализацию следующих функций:

- автоматический сбор с тепловычислителей параметров теплопотребления (текущих, часовых, суточных, архивных) для сохранения в базе данных и передачи в ГИС компоненту с целью пространственного анализа,

- автоматический сбор данных с приборов тепловой автоматики, датчиков загазованности, пожар-но-охранной сигнализации и т.д., на удаленных БМК и ЦТП,

- автоматический мониторинг состояния тепловых магистралей посредством опросов терминальных модулей системы проводного оперативного дистанционного контроля,

- автоматический мониторинг состояния теплосчетчиков и других параметров системы теплопотребления на объектах ЖКХ,

- передача распределенных результатов мониторинга в технологической гетерогенной беспроводной сети на центральный диспетчерский пункт и на мобильные средства связи различными способами (с использованием мощных направленных антенн, цепочек ZigBee ретрансляторов, GSM/GPRS модулей, WiFi маршрутизаторов),

- обработка и интеллектуальный анализ результатов мониторинга с целью предоставления результатов мониторинга и рекомендаций по принятию решений в наглядном виде,

- отображение результатов мониторинга посредством Web интерфейса на стационарных диспетчерских компьютерах и мобильных средствах связи руководителей и аварийно-ремонтных бригад,

- определение местоположения и слежение за перемещениями мобильных средств связи руководителей и аварийных бригад на картах и планах местности.

Качественный и своевременный мониторинг системы городского теплоснабжения дает возможность оперативно получать информацию. Это позволит повысить эффективность принятия решений, избежать аварий или снизить временные и финансовые затраты на их ликвидацию. Существующая потребность в разработке подобных систем контроля и достигнутый уровень развития беспроводных технологий обуславливает широкий спектр применения системы [3]. Она может применяться для мониторинга и контроля объектов жилищно-коммунальной сферы в областях газоснабжения, водоснабжения, электроснабжения, инженерных подземных и наземных коммуникаций и т.д. Особенностью системы на базе технологий ZigBee является использование безлицензионных радиодиапазонов, беспроводных средств связи с низким энергопотреблением, что позволяет создавать распределенные автономные системы мониторинга в масштабе города и региона.

Литература

1.Финогеев А. Г., Дильман В. Б., Маслов В. А., Финогеев А. А. Система беспроводного оперативного дистанционного мониторинга и управления сетями городского теплоснабжения на основе сенсорных сетей. - 2010. - 10с. - [Электронный ресурс] - Режим доступа http://inno-terra.ru/sites/default/files/98-107.doc

2.Финогеев А. Г., Финогеев А. А. Системы оперативного дистанционного контроля // Надежность и качество: Статья в сб. трудов Международного симпозиума. - Пенза: Изд. ПГУ, 2009. - т. 2 - С. 124-126.

3.Финогеев А. Г., Финогеев А. А. Мобильные сенсорные сети для поддержки принятия решений. // ИНФО-2009: Статья в сб. материалов Международной конференции (1-10 октября 2009). - Сочи, 2009. -С. 146-149.

УДК 57.087

ВСТРАИВАЕМАЯ СИСТЕМА ИДЕНТИФИКАЦИИ ПО ГОЛОСОВЫМ БИОМЕТРИЧЕСКИМ ПОКАЗАТЕЛЯМ

А. С. Бождай, к. т. н., доцент Тел.:(8412) 36-82-47, e-mail: bozhday@yandex.ru

П. А. Гудков, к. т. н., доцент Тел.: (8412) 36-82-47, e-mail:pgudkov@penza.net

А. А. Гудков, к. т. н., доцент Тел.: (8412) 36-82-47, e-mail: alexei@penza.net Пензенский государственный университет http://pnzgu.ru

The paper dwells on the problem of the identification by voice. A new method for detecting the boundaries of speech fragments based on calculation of the signal spectral entropy is described. The advantage of this method is more precise separation of useful signal from noise.

В статье рассматривается задача идентификации личности по голосу. Дается описание нового метода обнаружения границ речевых фрагментов на основе вычисления спектральной энтропии сигнала, позволяющего более точно отделять полезный сигнал от помех.

Ключевые слова: распознавание голоса, линейное предсказание, биометрия, DSP.

Keywords: speech recognition, linear prediction, biometrics, DSP.

Статья подготовлена в рамках государственного контракта № 14.740.11.0290 от 17 сентября 2010 года ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг.

В современном мире все больше проявляется интерес к речевым технологиям, в частности, к идентификации личности по голосу. Это объясняется, с одной стороны, появлением высокопроизводительных вычислительных систем на базе персональных компьютеров и аппаратных средств, позволяющих производить обработку речевого сигнала в реальном масштабе времени, а с другой стороны, высокой потребностью систем аутентификации в разных областях жизнедеятельности человека. Привлекательность данного метода - удобство в применении. Метод проверки голоса имеет два положительных отличия от остальных биометрических методов. Во-первых, хорошо подходит для использования в телекоммуникационных приложениях. Во-вторых, большинство современных вычислительных и телекоммуникационных устройств уже имеют необходимое аппаратное обеспечение.

Предлагаемая система идентификации ориентирована на использование для управления доступом на закрытой территории. С определенным интервалом у пользователя будет запрашиваться подтверждение его прав посредством идентификации по голосу. Вычисление характеристических признаков речевых фраз будет осуществляться автономными устройствами на базе цифровых сигнальных процессоров (DSP), расположенными по всей закрытой территории. Вычисленные характеристики будут передаваться на сервер с использованием беспроводных самоорганизующихся сетей [1].

Одним из наиболее эффективных методов анализа речевого сигнала является линейное предсказание [2]. Этот метод доминирует при оценке основных параметров речевого сигнала,

таких как период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений, что особенно актуально при реализации встраиваемой системы на

базе DSP.

Основной принцип метода линей-

Период оснодного

Рис. 1. Цифровая модель образования речи

ного предсказания состоит в том, что текущии отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале). Коэффициенты предсказания -это весовые коэффициенты, используемые в линейной комбинации речевых отсчетов.

Основные положения метода линейного предсказания хорошо согласуются с моделью ре-чеобразования, в соответствии с которой речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на нево-кализованном сегменте) (рис. 1). Метод линейного предсказания позволяет точно и надежно оценить параметры этой линейной системы с переменными коэффициентами.

Линейный предсказатель с коэффициентами ак определяется как система, на выходе которой

имеется сигнал

р

~ (п) = - к). (1)

к=1

Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров ак по речевому сигналу. Вследствие изменения свойств речевого сигнала во времени коэффициенты предсказания должны оцениваться на коротких сегментах речи. Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности (2 [^(п) - ~(п)]2 ) на коротком сегменте сигнала.

Хотя коэффициенты предсказания ак часто считаются основными параметрами при анализе речи на основе линейного предсказания, обычно сразу же возникает задача преобразования этих параметров в некоторые другие для получения иных представлений речевого сигнала. Эти представления часто оказываются более удобными при использовании, например, в системах идентификации или распознавания речи. Одним из таких представлений сигнала является кепстр импульсной характеристики системы линейного предсказания. Формально кепстр определяется как обратное преобразование Фурье логарифма прямого преобразования Фурье некоторого сигнала. Однако кепстральные коэффициенты с(п) можно найти непосредственно из коэффициентов предсказания с помощью рекурсивных соотношений

1 п—1

с(п) = ап + - 2 кс(к )ап-к. (2)

пк=1

В предлагаемой системе идентификация говорящего происходит на основе сопоставления произносимых слов или фраз с записанными ранее эталонами и последующего нахождения наиболее схожего эталона. В таком подходе важную роль играет правильное обнаружение границ слов. В [3] показано, что наибольший вклад в ошибку распознавания вносит ошибка, связанная с неверным обнаружением границ слова. Задача корректного выделения слов из входного потока является довольно сложной из-за присутствия в исходном сигнале различных шумов и помех. Традиционно задача выделения границ слов решается на основе анализа огибающей графика кратковременной энергии сигнала. Для распознавания невокализованных звуков, таких как «с», «т», обладающих малой энергией и расположенных в высокочастотной области спектра, анализируют также огибающую графика числа пересечений сигнала с нулем. Однако такой подход, так же как и другие методы, основанные на сравнении энергии сигнала или энергии отдельных

его частот с некоторыми пороговыми значениями, показывает неудовлетворительный результат при работе в зашумленной обстановке, когда амплитуда помех сопоставима с амплитудой полезного сигнала (рис. 2, а).

В связи с этим, авторами предлагается новый метод обнаружения речи на фоне сильных помех, основанный на вычислении энтропии сигнала. Суть метода заключается в следующем: вычисляется спектр сигнала (при этом сигнал предварительно пропускается через специальный взвешивающий фильтр для выравнивания спектра речи, имеющего уклон 6 дБ/окт). Далее спектр нормализуется таким образом, чтобы сумма всех его частот была равна единице. Полученная функция трактуется как дискретная плотность вероятности того, что случайная величина (кадр речи) принимает

тяг

чИ1 ^ 1'Р "И'ЦП1

Рис. 2. Выделение границ слов (а — исходный сигнал, б — информативность сигнала)

одно из заданных значений (содержит данную частоту). Энтропия сигнала, согласно формуле Шеннона, равна

H = -Z p, log Pi, (3)

i

где pi - нормализованное значение i-й частоты в спектре.

Тогда величина I = Hmax - H будет определять «информативность» сигнала. Задав некоторое пороговое значение для I, можно определить, присутствует ли речевой сигнал в данном кадре. Для лучшей работы алгоритма рекомендуется сглаживать значения I во времени с помощью медианной фильтрации. График вычисленной таким способом информативности сигнала изображен на рис. 2, б. Как видно из рисунка, приведенный метод позволяет довольно точно отделять полезный сигнал от помех и, как следствие, более точно определять границы произносимых слов.

После того как речевой фрагмент выделен из входного сигнала, требуется получить из последовательности отсчетов, представляющих данный фрагмент во времени, некоторое множество признаков, с помощью которых можно сравнивать различные речевые фрагменты между собой, используя простые метрики (например, евклидовую). Для этого сигнал равномерно разбивается на кадры (окна) одинаковой длины, и затем для каждого кадра вычисляется вектор кепст-ральных коэффициентов, которые наиболее точно характеризуют речь с точки зрения линейной модели речеобразования.

Процедура сравнения двух слов выполнятся на основе методов динамического программирования. В предлагаемой системе используется метод динамического искажения времени [4]. Суть метода заключается в выравнивании временных осей двух слов путем растяжения или сжатия некоторых участков неизвестного слова так, чтобы достигалось наилучшее его соответствие со сравниваемым словом-образцом. Такая процедура обусловлена тем, что различные варианты произношения даже одного и того же слова будут иметь различную длительность. При этом может оказаться, что один слог в слове произнесен быстрее, по сравнению со словом-образцом, а другой медленнее, т. е. имеет место нелинейная деформация оси времени. В связи с этим и используется метод динамического искажения времени.

Описанная система разработана в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы. Авторы считают, что в данной работе новыми являются следующие положения и результаты, которые отличают предлагаемую систему от аналогов: оптимизация программного обеспечения для работы на цифровом сигнальном процессоре TMS320C54 фирмы Texas Instruments, а также улучшенные характеристиками функционирования системы. В системе реализован новый метод обнаружения границ речевых фрагментов на основе вычисления спектральной энтропии сигнала. Данный метод позволяет более точно отделять полезный сигнал от помех, что ведет к улучшению работы системы в целом. Существенное усовершенствование внесено в процедуру сравнения слов. В существующих системах распознавания речи для каждого слова, как правило, хранится несколько эталонов его произнесения, и сравнение проводится со всеми эталонами всех слов. Очевидно, что такой подход приводит к неэффективному использованию памяти и вычислительных ресурсов, что недопустимо, если систему планируется использовать в качестве встраиваемой, выполненной на специализированном процессоре. Для устранения этих недостатков предлагается для каждого слова хранить только один эталон, содержащий статистические характеристики нескольких вариантов его произнесения одним диктором. Помимо существенной экономии вычислительных ресурсов, использование эталонов с усредненными характеристиками позволяет повысить точность идентификации говорящего.

Литература

1. Бершадский А. М. Разработка и моделирование гетерогенных инфраструктур для беспроводного информационного обеспечения процессов мониторинга / А. М. Бершадский, А. Г. Финогеев, А. С. Бождай // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2010. - № 1. - С. 3646.

2. Маркел Дж. Д. Линейное предсказание речи : пер. с англ. / Дж. Д. Маркел, А. Х. Грэй / Под ред. Ю. Н. Прохорова и В. С. Звездина. - М.: Связь, 1980. - 308 с.

3. Мазуренко И. Л. Многоканальная система распознавания речи / И. Л. Мазуренко. -http://www.intsys.msu.ru/invest/speech/articles/multic.htm

4. Wrigley, S. Speech Recognition by Dynamic Time Warping / S. Wrigley. -http://staffwww.dcs.shef.ac.uk/people/S.Wrigley/com326/

i Надоели баннеры? Вы всегда можете отключить рекламу.