Online-программа аутентификации, основанная на оконном преобразовании Фурье речевых фраз пользователя

Щербань И.В.; Доброходский В.В.; Ефименко А.А.

пищевая промышленность, 1984. - 508 с.

2. Пигарев В.Е. Холодильные машины и установки кондиционирования воздуха / В.Е. Пигарев, П.Е. Архипов. - М.: Маршрут, 2003. - 424 с.

3. Термодинамические диаграммы i - lgP для хладагентов. М.: АВИСАНКО, 2003. - 50 с.[Электронный ресурс] - Режим доступа: http://www.avisanco.ru

4. Изучающим основы холодильной техники. Под общей редакцией Л.Д. Акимовой / А.Е. Берсенев [и др.]. - М.: Изд-во редакции журнала «Холодильная техника», 1996. - 144 с.

5. Сумзина Л.В. Сравнительный анализ циклов бытового холодильника на хладагентах R134a, R600a / Л.В. Сумзина, А.В. Максимов, Ю.В. Кудров // Электротехнические и информационные комплексы и системы. -2012. - Т.8, №2. - С. 57 - 59.

6. Сумзина Л.В. Анализ потерь эксергии в цикле бытового холодильника / Л.В. Сумзина, А.В. Максимов // Электротехнические и информационные комплексы и системы. - 2012. Т.8, №1. - С. 37 - 39.

УДК 62

Щербань И.В., Доброходский В.В., Ефименко А.А.

Северо-Кавказский филиал Московского технического университета связи

и информатики, г.Ростов-на-Дону, Россия

ONLINE-ПРОГРАММА аутентификации, основанная на оконном

ПРЕОБРАЗОВАНИИ ФУРЬЕ РЕЧЕВЫХ ФРАЗ ПОЛЬЗОВАТЕЛЯ

Аннотация

В среде LabView National Instruments реализована программа, обеспечивающая online-защиту от несанкционированного доступа к ЭВМ. За основу взят алгоритм оконного преобразования Фурье т.к. он позволяет конструировать частотно - временное представление целых речевых фраз. В работе реализована online-программа аутентификации пользователя по его речевым фразам, позволяющая снизить методические погрешности биометрической системы управления доступом в целом.

Ключевые слова

Биометрические средства аутентификации, преобразование Фурье, спектральные характеристики голоса пользователя, МЕЛ-частотные кепстральные коэффициенты, программная среда LabView National Instruments.

UDC 62

Shcherban I.V., Dobrohoczki V.V., Efimenko A. A.

The North Caucasian Branch of the Moscow Technical University of Communications and Informatics, Rostov-on-Don, Russia

ONLINE-PROGRAMME AUTHENTICATION BASED ON WINDOWED FOURIER TRANSFORM OF

THE SPEECH PHRASES TO THE USER

In LabView National Instruments program that provides online-protection against unauthorized access to a computer. Based on the algorithm window of the Fourier transformation because it allows to design time -frequency representation of speech whole sentences. The work implemented an online version of the authentication of the user speech phrases, allowing to reduce the methodical error of a biometric access control system as a whole.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

Key words

Biometric authentication, transformation, use of Fourier spectral characteristics of your voice, MEL-frequency cepstral coefficients, software LabView National Instruments.

Основным видом информационных угроз является несанкционированный доступ к данным, а одним из основных способов защиты является управление доступом. Управление доступом включает такую функцию защиты, как аутентификация пользователя - установление подлинности пользователя по предъявляемому идентификатору [1].

На сегодняшний день в качестве идентификаторов все чаще используют биометрические параметры человека, например, его отпечатки пальцев, рисунок радужной оболочки глаза, тембр голоса и другие. Биометрические идентификаторы характеризуются высоким уровнем защиты для противодействия. Например, такие биологические характеристики пользователя, как особенности его лица или голоса отличаются высоким уровнем защиты от ложных совпадений. Таким образом в биометрических системах обеспечивается в общем высокая эффективность управления доступом.

Голосовая биометрия, как известно, характеризуется следующими уникальными особенностями, объясняющими ее достоинства в сравнении с остальными биометрическими идентификаторами. Во-первых, это единственная технология, которая позволяет подтверждать личность удаленно, например, по телефону. Во-вторых, это также единственная технология, которая подтверждает активность человека, т.е. то, что разговаривает живой человек. Например доказано, что в системах доступа с высоким так называемым порогом "доверия" невозможно пройти аутентификацию голосом, записанным даже на качественный диктофон. И, наконец, в-третьих, такая биометрия характеризуется удобством применения и низкой стоимостью, так как не требует использования специальных сканирующих устройств или другой дорогостоящей аппаратуры, а технически реализуется лишь за счет встроенных в персональную ЭВМ микрофона и звуковой карты.

Несмотря на вышеперечисленные достоинства, биометрические средства аутентификации на основе анализа голосовых характеристик пользователя пока встречаются редко. Этот факт, прежде всего, объясняется сложностями и низкой точностью аутентификации в случаях допущенных пользователем неточностей фраз или интенсивных внешних шумов, вследствие изменений голоса пользователя в зависимости от возраста или настроения, или же в зависимости от состояния его здоровья или других факторов.

Проблемы низкой точности средств аутентификации на основе анализа голосовых характеристик можно объяснить следующими очевидными фактами. Все биометрические системы работают по одинаковой схеме. Вначале, происходит процесс записи, в результате которого система запоминает образец биометрической характеристики, а затем полученная информация обрабатывается и преобразуется в математический код.

В системах доступа по голосу ядром такого преобразования является преобразование Фурье (п.Ф), а в качестве уникальных признаков используются спектральные характеристики голоса пользователя -функции спектральной плотности или спектральной плотности мощности, или же их разложения по МЕЛ-частотным кепстральным коэффициентам или по коэффициентам Фурье [2, 3]. При этом известно [2-4], что п. Ф. отображает общие сведения о частотах исследуемого сигнала в целом и не дает представления о локальных свойствах сигнала при быстрых временных изменениях его спектрального состава. Классическим является пример о том, как спектр Фурье является одинаковым для стационарного сигнала, представляющего собой сумму двух синусоид с разными частотами, и для нестационарного сигнала, состоящего из двух последовательно следующих друг за другом синусоид с теми же частотами [2, 4]. Именно недостаточная информативность п. Ф. вследствие невозможности анализа уникальных особенностей (сингулярностей) нестационарных сигналов голоса пользователя и объясняет низкую точность подобных средств аутентификации.

Следовательно, для временной локализации спектральных компонентов необходимо конструировать частотно-временное представление целых речевых фраз пользователя и, как известно, подобные задачи

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

традиционно решают на основе оконного п. Ф. [2-4]. В работе реализована online-программа аутентификации пользователя по его речевым фразам, позволяющая снизить методические погрешности биометрической системы управления доступом в целом.

Алгоритм аутентификации предполагает последовательное выполнение следующих классических действий (рисунок 1) [2-4]. Вначале осуществляется регистрация речевой фразы пользователя с помощью микрофона, ее оцифровка с частотой 10 КГц и запись в отдельный файл. Далее выделяются уникальные признаки записанной речевой фразы, также сохраняемые в отдельный файл. При попытке доступа к ПЭВМ пользователь произносит ту же фразу, где вновь выделяются уникальные признаки, сопоставляемые с ранее записанными. На основе такого сопоставления и выносится заключение о том, совпадает или не совпадает вновь предъявленный идентификатор с записанным ранее.

Ввод идентификатора пользователя

Уведомление пользователя о входе в систему

Рисунок 1 - Общий алгоритм аутентификации

Программа реализована в среде LabView на графическом языке G компании National Instruments. В качестве уникальных признаков используются МЕЛ-частотные кепстральные коэффициенты.

Так как амплитуды записываемых в разные моменты времени сигналов могут не совпадать вследствие разных настроек микрофона, внешнего шума, разных громкостей голоса пользователя, то используется процедура нормализации входных сигналов [5]. Здесь все значения амплитуд делятся на максимальную в рамках одного звукового файла и, таким образом, уравниваются образцы речи, записанные с разной громкостью, в диапазоне -1 до 1.

Реализована так необходимая частотно-временная обработка сигнала (рисунок 1).

Рисунок 2 - Разбиение сигнала речевой фразы на кадры длины N с половинным перекрытием

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

Длина скользящего временного окна (фрейма) равна N = 64 мс. Временной интервал сдвига соседних фреймов х равен половине их длительности x=0,5N=32 мс. Необходимость в перекрытии вызвана искажением звука в случаях, когда окна расположены рядом. (Хотя на практике этим приемом часто пренебрегают для экономии вычислительных ресурсов.) Для улучшения частотного спектра на разрывах границ фреймов каждый его отсчет умножается на оконную весовую функцию Хэмминга

( - ^

ю(п )= 0.53836 - 0.46164 cos

2 nn

V NФ

1

где п - порядковый номер отсчета в фрейме, для которого вычисляется новое значение амплитуды; Ык = 640 - длина фрейма в отсчетах, измеренных за период 64мс с частотой 10 КГц. Результатом является выделение центральной части фрейма и плавное затухание амплитуд на его краях, где он стыкуется сам с собой как можно более плавно.

Кепстарльные МЕЛ-коэффициенты рассчитываются в каждом фрейме, что позволяет наблюдать эволюцию во времени интересуемого частотного диапазона с дискретностью 64 мс, т.е., реализовать так называемый частотно-временной анализ. Подобная организация позволяет избежать методических ошибок определения начальных моментов анализа речевых фраз. Блок-схема соединения модулей программы показан на рисунке 2.

Рисунок 3 - Блок-схема соединения модулей программы

Лицевая панель программы показана на рисунке 3. Пользователю предоставлен широкий выбор настроек данных и методов отображения информации. Так же реализована выгрузка графиков в виде изображений и сохранение значений графиков в виде текстовых и/или в виде электронных таблиц.

С: \ Users {Nikolai [Desktop \ WORK\ Подработка \ Файлы\Разные димторы\С5555.ип

Частота дискретизации BxBflHoä, 10000 м

Верхняя частота

4000

Количество фильтров

0.\Users\Mkola!\Daktop\WQRK\nodpa6omKa\ Фай/ю<\Разные дикторы\С4.Ш

Эвклидово расстояние между лолейовательным автором по всем фреймам

Порог срабатывания

юооо

и Hl ТГ'1 Ulk— ™ jiJkL HP

u 'Fr ■1.! - -

■м . „

Рисунок 4 - Лицевая панель разработанной программы Блок- диаграммы некоторых модулей из схемы, представленной на рисунке 2, показаны ниже.

Рисунок 5 - Диаграмма блока выбора параметров

Блок выбора параметров, диаграмма которого показан на рисунке 4, позволяет задавать диапазон частот, количество фильтров, частоту дискретизации, размер временного фрейма в отсчетах и сдвиг фрейма относительно временной шкалы в отсчетах, количество бит на канал и количество каналов записи. Таким образом обеспечивается настройка процедуры идентификации с целью избежать методических ошибок определения начальных моментов для анализа речевых фраз. По умолчанию выбирается частота дискретизации 10 КГц Гц, 1 канал записи и 16 бит на канал.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №6/2016 ISSN 2410-700Х_

Диаграмма блока разбиения сигналов на временные фреймы и применения к ним п.Ф. представлена на рисунке 5. Здесь также формируются опорные точки треугольных фильтров МЕЛ-коэффициентов.

Рисунок 6 - Диаграмма блока разбиения на фреймы и п.Ф.

Диаграмма блока формирования набора из 16 (по умолчанию) треугольных фильтров в диапазоне от 120-4000 Гц показана на рисунке 6. После формирования набора фильтров, вычисляется функция спектральной плотности мощности для каждого речевого сигнала. Затем на каждый фрейм накладываются треугольные фильтры Ик\к], вычисляемые по следующему правилу [3,5]:

H [к ] =

0,

к - fsmp [i -1]

fsmp [i] - fsmp [i -1]' fsmp [i + l]- к

fsmp [i + 1]- fsmp [i]

0,

к < fsmp [i - 1] fsmp [i - 1]< к < f smp [i] ; fsmp []< к < fmp [i +1] к > fsmp [i + 1]

где /тр - опорная точка текущего фильтра, а к - отсчет спектра сигнала (текущая частота), после чего вычисляются МЕЛ-коэффициенты.

Для получения MEL-кепстральных коэффициентов применяется формула дискретного косинусного преобразования второго типа [3, 5], сжимающая данные и повышающая значимость первичных коэффициентов. Затем формируется обобщенный вектор, представляющий собой последовательное объединение МЕЛ-частотных кепстральных коэффициентов по каждому фрейму длиной

N2 = Ым • Иф,

где Им - количество МЕЛ-коэффициентов в каждом фрейме, зависящее от частоты дискретизации; Иф - количество фреймов в фразе, зависящее от длины речевой фразы.

Рисунок 7 - Диаграмма расчета МЕЛ -коэффициентов Для сравнения и идентификации используется критерий минимума нормы евклидова расстояния

8 =

N2

Kx - y )2,

i=1

где x1, x2, ... , xN£ , y1, y2, ... , yN£ - МЕЛ-кепстральные коэффициенты обобщенных векторов записанной и произносимой фраз соответственно.

В ходе исследований выявлено, что реализованная в программе процедура позволила повысить точность аутентификации пользователя по речевой фразе. Так, например, в условиях моделировавшихся внешних шумов, а также при попытках копирования голоса "эталонного" пользователя, или же при специальных ошибках при произнесении фраз "эталонным" пользователем точность аутентификации составляла не менее 80%. В 20% случае, таким образом, требовалось проведение повторной аутентификации (см. рисунок 1).

Разработанная программа online-аутентификации ПБЗ обладает высоким быстродействием 0,5-1,5 сек и эргономичным дизайном, реализована в формате устанавливаемого приложения со следующими минимальными требованиями: Windows XP2 или более поздних версий, RAM 512мБ и выше, ROM 1ГБ, наличие звуковой карты и мкирофона. Для корректной работы под управлением операционных систем семейства Windows необходимо дополнительно устанавливать дистрибутивы .NETFramework 4.5+ и LabVIEW RuntimeEngine.

Список использованной литературы:

1. Ворона В. А., Тихонов В. А. Биометрические средства защиты доступа: Системы контроля и управления доступом, обеспечение безопасности объектов. - М.: Горячая линия - Телеком, 2010. - 272 с.

2. Захаров Н. Г., Тетерко В. В. Распознавание речевых образов // Радиоэлектронная техника: межвузовский сборник научных трудов / Под ред. В. А. Сергеева. - Ульяновск : УлГТУ, 2012. 229 с. - С. 138-141.

3. Кудашев О.Ю. Система разделения дикторов на основе вероятностного линейного дискриминатного анализа / дис. на соиск. уч. ст. к.т.н. по спец. 05.13.11 - Математич. обеспеч. вычислите. машин, комплексов и компьютерных сетей. - С.Пб.: Санкт-Петербургский национальный университет информационных технологий механики и оптики, 2014. - 158 с.

4. Ken Pohlman C. Principles of Digital Audio. - McGraw-Hill, 2005. - 860 p.

5. Кехтарнаваз Н., Ким Н. Цифровая обработка сигналов на системном уровне с использованием LabView / Пер. с англ. - М.: ДодэкаХХ1, 2007. - 304 с.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щербань И. В., Доброходский В. В., Ефименко А. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щербань И. В., Доброходский В. В., Ефименко А. А.

Текст научной работы на тему «Online-программа аутентификации, основанная на оконном преобразовании Фурье речевых фраз пользователя»