Научная статья на тему 'Текстозависимая идентификация и верификация диктора по голосу в системе контроля и управления доступом'

Текстозависимая идентификация и верификация диктора по голосу в системе контроля и управления доступом Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1889
244
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА КОНТРОЛЯ И УПРАВЛЕНИЯ ДОСТУПОМ / БИОМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ / РАСПОЗНАВАНИЕ РЕЧИ / РАСПОЗНАВАНИЕ ГОЛОСА / ИДЕНТИФИКАЦИЯ / ВЕРИФИКАЦИЯ / MONITORING SYSTEMS AND ACCESS CONTROL / BIOMETRIC IDENTIFICATION / SPEECH RECOGNITION / VOICE RECOGNITION / IDENTIFICATION / VERIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Замалиев А.И., Кирпичников А.П., Ляшева С.А., Шлеймович М.П.

Рассмотрены подходы к биометрической верификации человека по голосу. Описаны основные этапы распознавания речевого сигнала. Описаны применяемые на практике модели дикторов и методы распознавания на их основе. Приведены результаты оценки качества системы, построенной на основе применения мэл-частотных кепстральных коэффициентов и метода динамической трансформации временной шкалы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Замалиев А.И., Кирпичников А.П., Ляшева С.А., Шлеймович М.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Текстозависимая идентификация и верификация диктора по голосу в системе контроля и управления доступом»

УДК 004.934

А. И. Замалиев, А. П. Кирпичников, С. А. Ляшева, М. П. Шлеймович

ТЕКСТОЗАВИСИМАЯ ИДЕНТИФИКАЦИЯ И ВЕРИФИКАЦИЯ ДИКТОРА ПО ГОЛОСУ

В СИСТЕМЕ КОНТРОЛЯ И УПРАВЛЕНИЯ ДОСТУПОМ

Ключевые слова: система контроля и управления доступом, биометрическая идентификация, распознавание речи, распознавание голоса, идентификация, верификация.

Рассмотрены подходы к биометрической верификации человека по голосу. Описаны основные этапы распознавания речевого сигнала. Описаны применяемые на практике модели дикторов и методы распознавания на их основе. Приведены результаты оценки качества системы, построенной на основе применения мэл-частотных кепстральных коэффициентов и метода динамической трансформации временной шкалы.

Keywords: monitoring .systems and access control, biometric identification, speech recognition, voice recognition, identification, verification.

Discusses the approaches to biometric verification of a person based on the voice. Describes the basic stages of recognition of the speech signal. Describes the applied model of the speakers and detection methods are based on them. Given the results of the quality assessment system based on the use of mel-frequency cepstral coefficients and the method of dynamic transformation of the timeline.

На данный момент в коммерческих приложениях широко применяют различные методы идентификации и верификации. В основе наиболее распространенных подходах лежит использование паролей, персональных идентификаторов или удостоверений личности, например, паспортов или водительских прав. Однако системы, в которых применяется идентификации и верификации на основе таких технологий, являются не очень надежными и легко могут пострадать от незаконных действий (подделки, воровства и т.п.). Поэтому все больше при создании систем контроля и управления доступом применяют методы биометрического распознавания, основанные на вычислении и анализе физиологических характеристик человека, которые являются его неотъемлемыми особенностями [1].

Количество приложений, в которых применяются биометрические технологии, чрезвычайно велико. К ним относятся, например:

- предотвращение несанкционированного проникновения на охраняемые объекты;

- ограничение доступа к информации и обеспечение персональной ответственности за обеспечение ее безопасности;

- обеспечение допуска к сложным и дорогостоящим объектам только зарегистрированных людей;

- организация учета доступа сотрудников к определенным рабочим местам.

При этом следует отметить, что в таких приложениях обычно используется интуитивно понятный программный и аппаратный интерфейс. Поэтому процесс распознавания является понятным и доступным людям любого возраст. Кроме того он обеспечивает преодоление языковых барьеров.

Наибольшей эффективностью обладают гибридные системы, например, биометрическая система контроля и управления доступом по голосовым характеристикам, которые хранятся на персональной смарт-карте, аппаратно поддерживающей работу с цифровыми сертификатами и электронной цифровой подписью.

В отличие от биометрии по фиксированным параметрам, верификация по голосу обладает практически неограниченным потенциалом для снижения ошибки за счет использования все более длинных речевых сообщений. Верификация по голосу может использоваться в темноте, на расстоянии, в частности, по стандартному телефонному каналу, в условиях, когда невозможно получить изображение лица. Она находит применение во многих сферах, например, криминалистике и судебной экспертизе, безопасности, банковских технологиях, электронной коммерции, телематике. Применение речи для задач распознавания человека (диктора) имеет большой потенциал, так как единственным требованием, предъявляемым к оборудованию, является наличие микрофона. Такие системы верификации и идентификации легко могут быть внедрены и использоваться как в системах доступа к помещениям, так и на телефонных линиях, смартфонах или планшетах [2].

Независимо от задачи, идентификации или верификации, работа системы распознавания дикторов делится на этапы обучения и распознавания. На этапе обучения система формирует дескриптор голосовых характеристик диктора и особенности произнесенной парольной фразы. На этапе распознавания модель парольной фразы диктора, построенная по входящей записи, сравнивается с моделями в базе данных.

Для построения модели диктора требуется найти компактное представление сигналов, такое, что сигналы с речью одного диктора оказывались бы «похожи» в некотором смысле, а сигналы разных дикторов «различны» в этом представлении. Использование компактного представления естественным образом обусловлено избыточностью исходных данных. Компактным представлением обычно служит последовательность дескрипторов небольшого размера, извлеченных из частей сигнала. По дескрипторам, в свою очередь, строится модель диктора. Основная сложность задач верификации и идентификации с открытым множеством решений - нау-

читься строить модель диктора так, чтобы модель обладала дискриминативной способностью, в том числе и для дикторов, не входящих в обучающую выборку.

На этапе распознавания из речи неизвестного диктора извлекается последовательность дескрипторов, строится модель диктора. Эта модель сравнивается со всеми моделями, находящимися в базе данных, с помощью некоторого алгоритма оценки близости. Полученные таким образом оценки используются далее для принятия окончательного решения. Окончательным решением для задачи верификации является один из двух возможных вариантов: подтверждение личности диктора или отвержение диктора. В задаче идентификации с закрытым множеством ответом считается наиболее похожий диктор из множества известных, в то время как в задаче с открытым множеством дополнительно вводится ответ «диктор не найден в базе».

Таким образом, в общей схеме системы распознавания можно выделить процедуры, соответствующие уровням обработки сигналов, моделей и принятия решений.

На уровне обработки сигналов выделяются признаки, существенные для задачи распознавания. На уровне моделей при регистрации пользователя формируется модель на основе анализа последовательности векторов признаков. Построение модели в простейшем случае заключается в сохранении векторов признаков. В более сложных случаях создаются вероятностные модели или другие структуры. На уровне принятия решений осуществляется анализ степени подобия или, наоборот, отличия между векторами признаков (в том числе и отличных от используемых при построении моделей) и построенными моделями, а также при необходимости вычисляются дополнительные параметры, например, пороговые значения. Принятие решений, как правило, выделяют в отдельный уровень, хотя такое выделение носит условный характер, поскольку в некоторых случаях конечные решения формируются на уровне моделей.

Распознавание диктора заключается в последовательном выполнении сначала их идентификации, а затем их верификации. При идентификации диктора определяется личность по образцу голоса путём его сравнения с шаблонами, имеющимися в базе данных. В результате процесса идентификации формируется список кандидатов. В конкретной системе контроля и управления доступом может выполняться выдача списка определенного размера или принятие решения о включении пользователя в список кандидатов на основании вычисленного или заданного порога. Если в системе предусмотрена возможность участия в идентификации незарегистрированного пользователя, то говорят об идентификации на открытом множестве. Для такого пользователя в идеальном случае система должна выдать пустой список. Если же все пользователи, для которых выполняется идентификация, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве.

При верификации диктора осуществляется проверка запрошенной идентичности посредством сравнения входного образца с хранимым в базе шаблоном. В результате верификации формируется решение (положительное либо отрицательное) об идентичности. Следует отметить, что, несмотря на различие в терминах и некоторые другие нюансы, верификация и идентификация являются по своей сути задачей классификации.

Для решения рассматриваемой задачи существуют текстонезависимый и текстозависимый подходы. Первый применяется в системах, в которых отсутствует информация о том, какую фразу должен произнести диктор. Такой подход весьма чувствителен к объему обрабатываемых речевых данных. При использовании записей длительностью менее 30 секунд значительно ухудшается эффективность тек-стонезависимой верификации.

При использовании текстозависимого подхода предполагается, что известна фраза (пароль), которую должен произнести диктор при верификации. Этот подход часто используется при распознавании речи и моделировании отдельных предложений и слов. При реализации текстозависимого подхода могут использоваться фиксированные или сгенерированные парольные фразы. Эффективность методов распознавания в рамках данного подхода обуславливается возможностью использовать информацию о временной структуре фразы.

Рассмотрим текстозависимый подход к автоматической аутентификации личности по голосу для повышения качества обслуживания и надежности системы контроля и управления доступом к служебным помещениям.

При голосовом распознавании в качестве обрабатываемого образца рассматривается запись речевого сигнала в виде последовательности отсчетов (мгновенных значений амплитуды в заданные моменты времени). Такую последовательность отсчетов сигнала называют его импульсно-кодовой модуляцией. Для получения отсчетов выполняется дискретизация аналогового сигнала (обычно с частотой 8 или 16 кГц) и квантование его мгновенных значений (обычно число уровней квантования задается 8-, 12- или 16-битным представлением). На качество распознавания речевого сигнала влияют различные помехи, связанные с условиями его записи, передачи и обработки. Например, может оказаться невозможным обеспечить использование одних и тех же микрофона и канала передачи, как для записи, так и для распознавания сигнала. По этой причине большое значение имеет предварительная обработка сигнала, которая заключается в его преобразовании в форму, удобную для дальнейшего анализа [3].

На этапе предварительной обработки входной сигнал проходит несколько последовательных стадий:

1. Ввод речевого сигнала;

2. Выделение границы речевого сигнала;

3. Цифровая фильтрация речевого сигнала;

4. Сегментация речевого сигнала;

5. Оконная обработка речевого сигнала.

При вводе речевого сигнала осуществляется его формирование в виде последовательности числовых данных (дискретных и квантованных отсчетов) на входе системы от некоторого источника. В качестве источника можно рассматривать, например, микрофон, обеспечивающий ввод сигнала в виде последовательности отсчетов по единственному каналу.

Выделение границы речевого сигнала необходимо для получения наиболее значимой информации. Например, из входного сигнала можно выделить только участки, не содержащие длительные паузы. Для этого можно воспользоваться анализом кратковременной энергии сигнала и числа нулей интенсивности либо плотности распределения значений отсчетов паузы. Второй подход является более эффективным. Он базируется на том, что при записи звука первые 200 мс речевого сигнала являются паузой, значения отчетов которой являются случайными величинами, распределенными по нормальному закону. На основе полученной информации о плотности распределения отсчетов паузы выполняется выделения речи из входного сигнала.

Цифровая фильтрация речевого сигнала предназначена для снижения влияния шума, которые накладываются на него, например, при передаче по каналу связи. Для снижения уровня шума применяют различные фильтры, которые пропускают только частотные составляющие сигнала из определенного диапазона частот.

Сегментация (нарезка) речевого сигнала заключается в его разбиении на отдельные участки (сегменты или кадры) заданной длины. Сегменты в результате нарезке, как правило, делают перекрывающимися. Это позволяет предотвратить потери информации о сигнале на границах. Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Поэтому для экономии вычислительных ресурсов и повышении скорости обработки данных перекрытие иногда пропускается. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20 - 30 мс.

Оконная обработка речевого сигнала выполняется для снижения граничных эффектов, возникающих в результате сегментации (нарезки). Для этого используют различные оконные функции, например функции прямоугольного окна, окна Ханна, окна Хемминга, окна Блэкмана.

В результате предварительной обработки сигнала формируются данные, содержащие информацию об амплитуде и форме огибающей речевого сигнала. Однако этой информации обычно бывает не достаточно для его распознавания, так как и амплитуда и форма огибающей речевого сигнала может меняться в широких пределах. Поэтому необходимо обеспечить извлечение устойчивых признаков.

Для получения устойчивых признаков для распознавания речевого сигнала часто выполняется некоторое частотное преобразование. В результате такого преобразования формируются спектральные характеристик (спектральные коэффициенты). Например, в результате дискретного преобразования Фурье речевого сигнала вычисляются коэффициенты

Фурье, на основе которых далее и формируются устойчивые признаки для распознавания. Отметим, что существуют алгоритмы быстрого преобразования Фурье, обеспечивающие решение данной задачи с высокой скоростью.

В общем случае выделяют два вида признаков для распознавания речи:

1) низкоуровневые, которые обусловлены анатомическим строением речевого аппарата;

2) высокоуровневые, которые являются приобретёнными и связанными с манерой произношения.

Совокупность признаков, описывающих информацию о дикторе, произносящем парольную фразу, представляет собой модель речевого сигнала от диктора. Следует отметить, что точность верификации и идентификации личности по голосу в значительной степени определяется используемой моделью. Очевидно, что к модели предъявляются следующие требования: наименьшее возможное количество параметров модели и ее простота. Выполнение данных требований способствует повышению скорости и точности процедур обработки информации.

Один из самых распространенных подходов основан на применении мэл-частотных кепстральных коэффициентов. Он заключается в следующем. Спектральные коэффициенты сигнала обрабатывают с помощью набора треугольных фильтров. Границы данных фильтров рассчитывают по шкале мэл, которая строится на основе анализа способности человеческого уха к восприятию звуков на различных частотах. Для вычисления мэл-частотных кеп-стральных коэффициентов сначала применяется следующая формула:

N

= 1П XI Хк

Н

т,к

(1)

к=0

где Хк - к-й коэффициент Фурье; Нтк - к-й весовой коэффициент т-го фильтра. Далее к полученным значениям применяется дискретное косинусное преобразование. В качестве признаков для распознавания, как правило, выбирают около 12 мэл-частотных кепстральных коэффициентов.

Также часто используют модели на основе линейного предсказания, в которых предполагается, что линейной комбинацией некоторого количества предшествующих отсчётов можно аппроксимировать текущий отсчёт. Весовые коэффициенты отсчетов, используемые для линейного предсказания, называют коэффициентами линейного предсказания. На их основе рассчитываются кепстральные коэффициенты:

п—1

ап +х ~скап-к, 1 ^ п < р;

к=1 П— к

X ~с к=п

(2)

п > р,

где а{ - коэффициент линейного предсказания; / = 1, р.

Описанные выше методы извлечения признаков предназначены для выделения характеристик на небольшом участке. Для того чтобы сохранить информацию о динамике речи, применяют подход, заключающийся в использовании А- (дельта-) и Л-Л-

е

т

сп =

(дельта-дельта-) коэффициентов вместе со значениями признаков. Сами А- и Л-Л-коэффициенты представляют собой первые и вторые производные признаков.

Также часто применяют нормализацию признаков. Наиболее распространённый метод нормализации заключается в вычитании кепстрального среднего. Это метод обеспечивает компенсацию динамических изменений. В случае стационарных условий его эффективность может уменьшиться.

Распознавание по голосу отличается от многих биометрических систем, основанных на распознавании статических изображений отпечатков пальцев, лица или радужной оболочки глаза, тем, что предметом распознавания является меняющийся во времени процесс. Поэтому, как правило, образец голоса представляется в виде последовательности векторов признаков, каждый из которых описывает характеристики некоторого участка речевого сигнала. Эта последовательность, полученная после обработки сигнала, используется для построения модели диктора или для сопоставления с уже построенными моделями.

Для рассматриваемой задачи может быть определён способ вычисления расстояния (степени близости) между предъявленным образцом с одним или несколькими шаблонами (моделями). Расстояние может вычисляться на основе определённой метрики или на основе оценки вероятности.

В шаблонных моделях распознаваемый объект рассматривается как неточная копия одного из хранимых. Одними из самых распространённых методов вычисления расстояния между векторами признаков для таких моделей являются манхэттэнское расстояние, евклидово расстояние, расстояние Ма-халонобиса. Вычисление расстояния выдает низкие результаты в текстозависимых системах распознавания дикторов, так как не учитывает динамическую составляющую шаблонов.

Степень близости между двумя последовательностями изменений за некоторый промежуток времени можно найти с помощью метода динамической трансформации временной шкалы. В общем случае эти последовательности могут быть разной длины, и измерения могут производиться с разной скоростью. Основным преимуществом метода является простота реализации. Он отлично подходит для решения задачи текстозависимой идентификации диктора, а также широко применяется в системах распознавания речи.

Для решения задачи распознавания эффективно применяются алгоритмы на основе скрытых марковских моделей [4]. Скрытая марковская модель представляет собой конечный автомат, в котором переходы между состояниями осуществляются с некоторой вероятностью. Начальное состояние, с которого начинается процесс, задается. Переходы в новые состояния выполняются через дискретные моменты времени. В скрытой марковской модели каждому скрытому состоянию с заданной вероятностью соответствует наблюдаемое состояние. Текущее состояние модели зависит только от конечного числа предыдущих, а закон смены состояний не ме-

няется во времени. Часто рассматривают модель, в которой текущее состояние зависит только от предыдущего. Такую модель называют моделью первого порядка.

При использовании скрытых марковских моделей необходимо решить следующие три основные задачи:

1. Вычисление вероятности последовательности наблюдений;

2. Нахождение наиболее правдоподобной последовательности скрытых состояний для наблюдаемой последовательности;

3. Обучение параметров модели по заданной последовательности наблюдений и множеству скрытых состояний.

Для задачи распознавания диктора скрытыми состояниями являются векторы признаков речевого сигнала из обучающей выборки, а наблюдаемыми -векторы признаков речевого сигнала из тестовой выборки. Скрытые марковские модели достаточно просты в понимании, имеют достаточно высокую точность распознавания. Как и модели динамической трансформации временной шкалы они применяются в основном для задач текстозависимой идентификации диктора.

Еще один подход основан на векторном квантовании. Моделью в данном случае является множество кодовых векторов, получаемое из входной последовательности векторов признаков речевого сигнала. Для построения этого множества исходная последовательность векторов признаков сначала кластеризуется. Затем выбираются центры кластеров в качестве кодовых векторов. Процесс распознавания входного речевого сигнала происходит следующим образом. Для каждого тестового вектора ci входной последовательности из Ь векторов определяются k ближайших кодовых векторов. Пусть kij - число векторов, принадлежащих эталону (диктору) Sj среди найденных ближайших кодовых векторов. Тогда вероятность того, что вектор ci принадлежит эталону Sj, определяется формулой:

IС) = . (3)

Таким образом, анализируемая последовательность векторов может быть классифицирована по правилам:

S = а^тах ^ P(Sj | с )

\<]<М г=1

(4)

или

S = а^тах £| сг). (5)

1<]<М г=1

Метод распознавания речевого сигнала на основе векторного квантования является простым в реализации, но, в общем случае, является не достаточно точным.

Высокую точность классификации дает метод опорных векторов, на основе которого строится бинарный классификатор, задающий в пространстве признаков для линейно-разделимых классов разделяющую линейную функцию. В случае линейно-неразделимых классов вводится функция ядра, при-

менение которой позволяет отобразить исходное пространство признаков в пространство более высокой размерности, в котором множества уже могут быть разделимы линейно. Метод опорных векторов является в настоящее время одним из самых употребляемых в различных областях, например, в детекторах нештатных ситуаций и при автоматическом распознавании автомобильных номеров [5, 6]. При распознавании речи в качестве модели диктора в методе опорных векторов выступают параметры разделяющей функции и параметры функции ядра. Для применения метода опорных векторов к задаче многоклассового распознавания используется стратегия «один против остальных». Для этого строится множество классификаторов, каждый из которых обучается отличать один конкретный класс от всех остальных. При распознавании объект приписывается к тому классу, чей классификатор выдал наибольшее значение разделяющей функции. Достоинством данного подхода является то, что метод опорных векторов имеет теоретическое обоснование и позволяет применять различные подходы к классификации в соответствии с выбором функции ядра. Среди его недостатков следует отметить проблему выбора ядра и медленное обучение при многоклассовом распознавании.

Эффективный подход к распознаванию речи основан на представлении диктора моделью смеси нормальных распределений [7]. Для построения такой модели необходимо оценить её параметры, которые наилучшим образом соответствуют распределению векторов признаков обучающего сигнала. Для этого можно, например, воспользоваться известным алгоритмом ЕМ. Данный подход позволяет получить высокую точность распознавания. Однако при этом необходимо решить задачи выбора числа компонентов модели и её начальных параметров.

Среди описанных методов, позволяющих решить задачу текстозависимой идентификации диктора по голосу, наиболее распространенным является метод динамической трансформации временной шкалы. Определение слова может осуществляться путем сравнения временных или частотных значений речевых сигналов. Процесс сравнения в обоих случаях должен компенсировать различные длины последовательности и нелинейный характер звука. Данному алгоритму удается решить указанные проблемы путем нахождения деформации, соответствующей оптимальному расстоянию между двумя последовательностями различной длины. Еще одним его немаловажным преимуществом является простота реализации. Метод динамической трансформации временной шкалы открыт для улучшений и хорошо подходит для приложений, которых требуется простое распознавание слов, например, для телефонов, автомобильных компьютеров, систем безопасности и т.д. По этой причине именно он был выбран для реализации программного обеспечения системы верификации личности по голосу.

Система предназначена для оперативной обработки образцов речевого аудиосигнала пользователей небольшой протяженности. Основным назначением системы является идентификация и верифика-

ция личности пользователя на основе особенностей его голоса с учетом произнесенной парольной фразы. Данная система может быть использована как структурный компонент в различных прикладных сферах:

- системы многофакторного контроля доступа;

- интегрированные интеллектуальные системы управления голосом;

- радио-системы определения несущей частоты;

и др.

Система обеспечивает следующие режимы функционирования:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- основной режим, в котором все подсистемы выполняют все свои функции;

- режим обучения, в котором осуществляется создание и заполнение базы данных пользователей и обучение системы для их идентификации.

Система обеспечивает следующие количественные показатели, которые характеризуют степень соответствия ее назначению:

- вероятность ошибок первого рода («ложное срабатывание») не превышает величину 0.1;

- вероятность ошибок второго рода («пропуск события») не превышает величину 0.2;

- время отклика системы не превышает 5 секунд;

- используемая системой оперативная память не превышает объем 30 Мб.

Система функционирует под управлением операционной системы Linux Manjaro. Программное обеспечение разработано на языке программирования C с применением компилятора GCC 6.1. При этом для разработки не применялись сторонние программные библиотеки.

Для оценки качества системы были сформированы отдельные задачи оценки близости моделей дикторов, количество которых равно количеству аудиозаписей в выбранной выборке тестирования. В рамках каждой задачи некоторая запись выбирается в качестве настроечной и тестируется против всех остальных. Таким образом, получается матрица оценок S и соответствующая оценкам матрица истинных ответов Y (0 - «отказ», 1 - «допуск») размерности L х L, где L - число моделей дикторов. Для выбранного порога в количество ложных отказов FR (False Rejection), доля ложных отказов FRR (False Rejection Rate), количество ложных допусков FA (False Acceptance) и доля ложных допусков FAR (False Acceptance Rate) могут быть вычислены следующим образом:

L L

FR(ff) = [Sj >0][Yj = 1], (6)

i=1 j=i+1

L ' v '

ZtYz =1]

i-1

LL

FA(d) = X Z[Sj <0][Yj = 0], (8)

i=1 j=i+1

L ' v '

I Y = 0]

i-1

На практике порог выбирается в зависимости от ограничений на FR и FA, в то время как в исследовании важно оптимизировать обе характеристики. Для оценки качества системы в целом, в качестве порога выбирается порог в , при котором доля ложных отказов равна доле ложных допусков. Таким образом, определяется метрика EER (Equal Error Rate):

EER = FA(G) = FR{G). (10)

Тестирование эффективности построенного решения проводилось на выборке, состоящей из 10 человек. Звуковой сигнал записывался со встроенного микрофона с частотой дискретизации 44100 Гц и разрядностью равной 16 бит в моно режиме.

В качестве признаков используется значение энергии и 25 мэл-частотных кепстральных коэффициентов. Пороговое расстояние было вычислено экспериментально и выставлено в качестве стандартного в системе. В записи данных участвовал один зарегистрированный пользователь с 3 обученными векторами в базе и 10 дикторами, пытающихся аутентифицироваться в качестве «злоумышленника». Также было произведено экспериментальное тестирование с 10 попытками запроса доступа самого пользователя. Сравнение модели диктора с входными данными считалось целевым, если модель и сказанная фраза принадлежали одному диктору и сказанная фраза совпадала с требуемым паролем. Иначе сравнение считалось нецелевым. Система верификации должна подтверждать целевое сравнение и отклонять нецелевое. В ходе эксперимента системой была допущена одна ошибка «ложного отказа» и ни одной ошибки «ложного пропуска».

Таким образом, система, основанная на текстоза-висимой верификации, по результатам экспериментальной проверки с использованием малой выборки показала хорошие результаты. Было получено значение точности системы EER = 0.1%, что подтверждает применимость разработанных алгоритмов на практике.

Литература

1. Сорокин, В.Н. Верификация диктора по спектрально-временным параметрам речевого сигнала / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. 2010. Т. 10, № 2. С. 87-104.

2. Первушин, Е. А. Обзор основных методов распознавания дикторов / Е.А. Первушин // Математические структуры и моделирование. 2011. Вып. 24. С. 41-54.

3. Котомин, А.В. Предобработка звукового сигнала в системе распознавания речевых команд / А.В. Котомин. // Наукоёмкие информационные технологии: Труды XV Молодежной научно-практической конференции SIT-2011 /УГП имени А. К. Айламазяна. Переславль-Залесский: Изд-во «Университет города Переславля», 2010. С. 25-38.

4. Рабинер, Л.Р. Цифровая обработка речевых сигналов: пер. с англ. / Л.Р. Рабинер, Р.В. Шафер. - М.: Радио и связь, 1981. 496 с.

5. Кирпичников, А.П. Обнаружение и сопровождение людей в интеллектуальных детекторах внештатных ситуаций / А.П. Кирпичников, С.А. Ляшева, М.П. Шлей-мович //Вестник Казанского технологического университета. 2014. - Т. 17. № 21. - С. 351-356.

6. Кирпичников, А.П. Автоматическое распознавание автомобильных номеров / А.П. Кирпичников, С.А. Ляшева, А.В. Обухов, М.П. Шлеймович. //Вестник технол. ун-та. 2015. - Т. 18. № 4. - С. 218-222.

7. Садыхов, Р.Х., Ракуш В.В. Модели гауссовых смесей для верификации диктора по произвольной речи / Р.Х. Садыхов, В.В. Ракуш. // Доклады БГУИР. Минск, 2003. № 4. С. 95-103.

© А. И. Замалиев - магистрант КНИТУ-КАИ, e-mail: saracen.p24@gmail.com; А. П. Кирпичников - д. ф.-м. н., зав. каф. интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: kirpichnikov@kstu.ru; С. А. Ляшева -к.т.н., доцент кафедры прикладной математики и информатики КНИТУ-КАИ, e-mail: stellyash@mail.ru; М. П. Шлеймович -к.т.н., доцент кафедры автоматизированных систем обработки информации и управления КНИТУ-КАИ, e-mail: shlch@mail.ru.

© A. 1 Zamaliev - Master Student, KNRTU-KAI, e-mail: saracen.p24@gmail.com; A. P Kirpichnikov - Dr. Sci, Head of the Department of Intelligent Systems & Information Systems Control, KNRTU, e-mail: kirpichnikov@kstu.ru; S. A. Lyasheva - PhD, Associate Professor of the Department of Applied Mathematics & Informatics, KNRTU-KAI, stellyash@mail.ru; M. P. Shleymovich -PhD, Associate Professor of the Department of Automated Information Processing Systems & Control, KNRTU-KAI, e-mail: shlch@mail.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.