Научная статья на тему 'Иммунологический метод текстонезависимой верификации личности по голосу'

Иммунологический метод текстонезависимой верификации личности по голосу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
84
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕКСТОНЕЗАВИСИМАЯ ВЕРИФИКАЦИЯ ЛИЧНОСТИ ПО ГОЛОСУ / КЕПСТРАЛЬНЫЙ АНАЛИЗ / ЛИНЕЙНЫЙ ПРЕДСКАЗАТЕЛЬ РЕЧЕВОГО СИГНАЛА / ИСКУССТВЕННЫЕ ИММУННЫЕ СИСТЕМЫ / МОДЕЛЬ ОТРИЦАТЕЛЬНОГО ОТБОРА / V-ДЕТЕКТОРЫ / TEXT-INDEPENDENT IDENTIFICATION BY VOICE / CEPSTRAL ANALYSIS / LINEAR SPEECH SIGNAL PREDICTOR / ARTIFICIAL IMMUNE SYSTEMS / NEGATIVE SELECTION MODEL / V DETECTORS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Брюхомицкий Юрий Анатольевич, Федоров Владимир Михайлович

Предлагается иммунологический метод решения задачи текстонезависимой идентификации личности по голосу, основанный на принципах представления и обработки информации, принятых в искусственных иммунных системах. Для идентификации личности по голосу используется модель Фанта, в которой, речевой сигнал образуется путем прохождения через фильтр высокого порядка. В качестве векторов признаков используются кепстральные коэффициенты, полученные на основе линейного предсказателя речи. Последующий анализ векторов признаков осуществляется на основе аппарата искусственных иммунных систем с использованием иммунологической модели отрицательного отбора. Модель реализует децентрализованное распознавание последовательно идущих фрагментов речи, путем их сопоставления со специальными, предварительно созданными распознающими элементами V-детекторами, представленными -мерными гиперсферами варьируемого размера. V-детекторы заполняют все свободное от точек голосового эталона рабочее пространство, имитируя иммунокомпетентные клетки иммунной системы. Сопоставление фрагментов голосового сигнала с V-детекторами осуществляется путем проверки их попадания в гиперсферы V-детекторов по принципу негативной селекции. Использование V-детекторов позволяет более эффективно покрыть рабочее пространство голосовых фрагментов существенно меньшим числом распознающих элементов, что позволяет сократить вычислительные затраты на реализацию процедуры верификации голоса. Принятие решения «свой»-«чужой» при анализе речевого сигнала реализуется на основе статистического подхода по частоте срабатывания V-детекторов. Метод предназначен для непрерывного верификационного контроля личности говорящего в темпе поступления голосовых данных при воспроизведении текста произвольного объема и содержания, что позволяет своевременно принимать решение о возможной подмене дикторов. Преимуществом метода является его полная защищенность от атак воспроизведения.An immunological method is proposed for solving the problem of text-independent identification of a person by voice, based on the principles of presentation and processing of voice information accepted in artificial immune systems. For personality identification by its voice, a Fanta model is used in which the voice signal is formed by passing through a high-order filter. Cepstral coefficients obtained on the basis of a linear speech predictor are used as feature vectors. The following analysis of the feature vectors is carried out on the basis of the apparatus of artificial immune systems using an immunological model of negative selection. The model implements decentralized recognition of sequentially reaching speech fragments by comparing them with special, previously created recognition elements V-detectors, represented by r-dimensional hyperspheres of variable size. V-detectors fill all the workspace free from points of the voice standard, imitating immunocompetent cells of the immune system. The comparison of fragments of the voice signal with V-detectors is carried out by checking their falling into the hyperspheres of V-detectors according to the principle of negative selection. The use of V-detectors makes it possible to more effectively cover the working space of voice fragments by a significantly smaller number of recognition elements, which reduces the computational cost of implementing the voice verification procedure. During the speech signal analysis, the decision "well-known/stranger" is making based on a statistics of V-detectors response frequency. The method is intended for continuous verification control of the speaker’s identity at the rate of voice data income when text of arbitrary size and content is reproduced. It allows to make a timely decision about the possible substitution of speakers. The advantage of the method is its complete protection from replay attacks.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Брюхомицкий Юрий Анатольевич, Федоров Владимир Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Иммунологический метод текстонезависимой верификации личности по голосу»

УДК 004.067 DOI 10.23683/2311-3103-2019-5-123-134

Ю.А. Брюхомицкий, В.М Федоров

ИММУНОЛОГИЧЕСКИЙ МЕТОД ТЕКСТОНЕЗАВИСИМОЙ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ

Предлагается иммунологический метод решения задачи текстонезависимой идентификации личности по голосу, основанный на принципах представления и обработки информации, принятых в искусственных иммунных системах. Для идентификации личности по голосу используется модель Фанта, в которой, речевой сигнал образуется путем прохождения через фильтр высокого порядка. В качестве векторов признаков используются кепстральные коэффициенты, полученные на основе линейного предсказателя речи. Последующий анализ векторов признаков осуществляется на основе аппарата искусственных иммунных систем с использованием иммунологической модели отрицательного отбора. Модель реализует децентрализованное распознавание последовательно идущих фрагментов речи, путем их сопоставления со специальными, предварительно созданными распознающими элементами - V-детекторами, представленными -мерными гиперсферами варьируемого размера. V-детекторы заполняют все свободное от точек голосового эталона рабочее пространство, имитируя иммунокомпетентные клетки иммунной системы. Сопоставление фрагментов голосового сигнала с V-детекторами осуществляется путем проверки их попадания в гиперсферы V-детекторов по принципу негативной селекции. Использование V-детекторов позволяет более эффективно покрыть рабочее пространство голосовых фрагментов существенно меньшим числом распознающих элементов, что позволяет сократить вычислительные затраты на реализацию процедуры верификации голоса. Принятие решения «свой»-«чужой» при анализе речевого сигнала реализуется на основе статистического подхода по частоте срабатывания V-детекторов. Метод предназначен для непрерывного верификационного контроля личности говорящего в темпе поступления голосовых данных при воспроизведении текста произвольного объема и содержания, что позволяет своевременно принимать решение о возможной подмене дикторов. Преимуществом метода является его полная защищенность от атак воспроизведения.

Текстонезависимая верификация личности по голосу; кепстральный анализ; линейный предсказатель речевого сигнала; искусственные иммунные системы; модель отрицательного отбора; V-детекторы.

Yu.A. Bryuhomitsky, V.M. Fedorov

IMMUNOLOGICAL METHOD OF TEXT-INDEPENDENT VERIFICATION OF PERSONALITY BY VOICE

An immunological method is proposed for solving the problem of text-independent identification of a person by voice, based on the principles ofpresentation and processing of voice information accepted in artificial immune systems. For personality identification by its voice, a Fanta model is used in which the voice signal is formed by passing through a high-order filter. Cepstral coefficients obtained on the basis of a linear speech predictor are used as feature vectors. The following analysis of the feature vectors is carried out on the basis of the apparatus of artificial immune systems using an immunological model of negative selection. The model implements decentralized recognition of sequentially reaching speech fragments by comparing them with special, previously created recognition elements — V-detectors, represented by r-dimensional hyperspheres of variable size. V-detectors fill all the workspace free from points of the voice standard, imitating immunocompetent cells of the immune system. The comparison offragments of the voice signal with V-detectors is carried out by checking their falling into the hyperspheres of V-detectors according to the principle of negative selection. The use of V-detectors makes it possible to more effectively cover the working space of voice fragments by a significantly smaller number of recognition elements, which reduces the computational cost of implementing the voice verification procedure. During the speech signal analysis, the decision "well-known/stranger" is mak-

ing based on a statistics of V-detectors response frequency. The method is intended for continuous verification control of the speaker's identity at the rate of voice data income when text of arbitrary size and content is reproduced. It allows to make a timely decision about the possible substitution of speakers. The advantage of the method is its complete protection from replay attacks.

Text-independent identification by voice; cepstral analysis; linear speech signal predictor; artificial immune systems; negative selection model; V detectors.

Введение. Голос является уникальной биометрической характеристикой человека и успешно применяется при коммуникации людей в течение всей истории человечества.

Как показывают исследования, проявление индивидуальности голоса человека присутствует в двух группах признаков: анатомических и физиологических особенностях механизма речеобразования и артикуляционной деятельности, обусловленной работой центральной нервной системы. Перспективным является использование интегральных параметров речи, которые не могут быть отнесены ни к одной из указанных выше характеристических групп, но сильно коррелированы с ними. Особенности идентификации голоса, применяемые человеком, позволяют считать, что индивидуальная окраска голоса присутствует в речевом сигнале в виде некоторой постоянной составляющей. В процессе восприятии речи слух человека, фильтруя необходимую ему информацию, одновременно осуществляет слежение за индивидуальной окраской голоса. Даже в случае, если человек не различает фонетические элементы речи и смысл произносимого, он легко идентифицирует голос говорящего.

Большинство используемых в настоящее время электронных систем верификации личности по голосу ориентированы на использование заранее обусловленных коротких фраз, выступающих в роли голосового пароля [1-5]. Они просты в реализации, обладают приемлемой для некоторых приложений точностью, но весьма уязвимы для атак воспроизведения.

Более перспективными являются голосовые системы текстонезависимой верификации личности, ориентированные на использование интегральных параметров речи [6-8]. В этих системах наблюдение за голосом может быть продолжительным, и чем больше говорит человек, тем точнее система выявляет индивидуальную окраску голоса и точнее его идентифицирует. Такие системы способны даже идентифицировать человека, когда он говорит на другом языке.

Постановка задачи. Одной из основных проблем построения систем верификации диктора как по парольной фразе, так и по произвольному тексту является выбор устойчивых интегральных признаков голоса. В наибольшей степени это позволяет модель Фанта) [9], в который речевой сигнал образуется путем прохождения сигнала возбуждения через фильтр высокого порядка. Если фильтр возбуждается периодическим сигналом, то получаются гласные, звонкие и сонорные согласные звуки. Если фильтр возбуждается случайным шумом с широким спектром, то получаются глухие согласные. В качестве интегральных признаков голоса используются кепстральные коэффициенты, полученные на основе линейного предсказателя речи.

Последующий анализ интегральных признаков голоса осуществляется на основе аппарата искусственных иммунных систем (ИИС) [10-12] с использованием иммунологической модели отрицательного отбора (МОО) [13, 14]. Модель реализует децентрализованное распознавание последовательно идущих фрагментов речи, путем их сопоставления с предварительно созданными распознающими элементами - V-детекторами, представленными r-мерными гиперсферами варьируемого размера. V-детекторы заполняют все свободное от точек голосового эталона рабочее пространство, имитируя иммунокомпетентные клетки иммунной системы.

Использование К-детекторов позволяет более эффективно покрыть рабочее пространство голосовых фрагментов существенно меньшим числом распознающих элементов, что позволяет сократить вычислительные затраты на реализацию процедуры верификации голоса. Принятие решения «свой»-«чужой» при анализе речевого сигнала реализуется на основе статистического подхода по частоте срабатывания К-детекторов.

Решение поставленной задачи. Среди математических моделей, наиболее часто используемых для описания процесса речеобразования, можно выделить следующие: кепстральный анализ, основанный на преобразовании Фурье, анализ на основе коэффициентов линейного предсказания (КЛП), кепстральный анализ на основе КЛП.

С позиции гомоморфных систем [15, 16] речевой сигнал трактуется как сигнал на выходе линейной системы с медленно изменяющимися параметрами. Это предположение позволяет считать, что на коротких сегментах речевой сигнал можно рассматривать как сигнал на выходе линейной системы с постоянными параметрами, возбуждаемой либо последовательностью импульсов, либо случайным шумом. Поскольку сигнал возбуждения и импульсная характеристика фильтра взаимодействуют через операцию свертки, задача анализа речи может рассматриваться как задача разделения компонент, участвующих в операции свертки.

Речевой сигнал Б(п),п = 0,1,... можно представить в виде свертки:

где п - временные точки отсчета речевого сигнала; й(п) - возбуждающий сигнал; у(п) - импульсный отклик речевого тракта; ® - операция свертки.

Такой подход основан на представлении речевого сигнала как суперпозицию сигнала основного тона (возбуждающий сигнал) и сигнала возникающего при прохождении возбуждающего сигнала через речевой тракт.

При переходе в частотную область свертка двух сигналов будет иметь вид:

Из данного выражения следует, что в логарифмической области период основного тона и параметры голосового тракта наложены друг на друга и могут быть разделены с помощью обычных методов обработки сигнала.

Как правило, в качестве векторов признаков голоса используются кепстраль-ные коэффициенты, которые можно вычислить непосредственно с помощью преобразования Фурье [16] или с помощью параметрического моделирования на основе линейного предсказания речи [17], в котором спектр моделируется как авто-регрессионый процесс. Данный метод выгодно отличается от непосредственного преобразования Фурье отсутствием чувствительности к фоновым шумам и нестабильности получаемых коэффициентов [17].

Модель речевого сигнала б(п) в этом случае представляется как линейная комбинация его предыдущих отсчетов:

s(n) = d(п) ® v(n),

S(co) = D(co)-V(co). Комплексный логарифм данного равенства имеет вид:

log[D(oj) ■ = log[D(<u)] + log №)].

Nlp

s(n) = — aLP(i) ■ s(n — i) + e(n),

L = 1

где NLp - число коэффициентов модели (порядок предсказания); аЬР - коэффициенты линейного предсказания;

e (n) - функция ошибки модели (разность между предсказанным и реально измеренным значением).

Используя z-преобразование, выражение может быть представлено как операция линейной фильтрации:

E(z) = Hlp(Z)-S(Z),

где Е (z) и S (z) - z-преобразование сигнала ошибки и речевого сигнала соответственно;

Nlp

HLP (z) = ^ aLP (i) ■ z~l, aLP (0) = 1,

i=1

где инверсный фильтр линейного предсказания.

Коэффициенты предсказания вычислялись с использованием рекурсии Ле-винсона-Дарбина [9]. Если фильтр линейного предсказания стабилен (а стабильность его гарантируется при автокорреляционном методе), то логарифм обратного фильтра может быть выражен как энергетический ряд [16]:

Nlp f nlp

CLP = ^ aLP(i) ■ z~l = log CLPaLP(J) ■ z~J

i=i V i=i

После дифференцирования обеих сторон выражения относительно z~1, из полученных полиномов вычисляются кепстральные коэффициенты с помощью рекурсии [9]:

Инициализация:

Сlp (1) = -aLP (1)

for(i = 2; i < Nc; i + +)

{

i-1

CLP = —aLp(i) ~ ^ ' aLP(/) " clp(i - j)

i=i

}

Здесь aLP (i) - коэффициенты линейного предсказания, CLP (i) - кепстральные коэффициенты.

При таком подходе к вычислению кепстральных коэффициентов не указывается их количество Nc. Это связано с тем, что данные коэффициенты являются результатом обратного Фурье-преобразования импульсного отклика модели линейного предсказания, а эта модель является фильтром с бесконечной импульсной характеристикой. Поэтому можно вычислять бесконечное количество кепстраль-ных коэффициентов. На практике число кепстральных коэффициентов выбирается сравнимым с числом коэффициентов линейного предсказания, в данной работе принято .

Дальнейшее решение задачи текстонезависимой идентификации личности по голосу строится на основе анализа кепстральных коэффициентов с помощью аппарата ИИС [10-12].

Исследования в области динамической биометрии личности [18], показали, что индивидуальные особенности воспроизведения данной личностью произвольных текстов (голосом, рукописью, клавиатурным набором) в наибольшей степени проявляются при воспроизведении его определенных фрагментов. Такие фрагменты представляют собой или наименьшие смысловые единицы языка (морфемы)

или определенные короткие символьные сочетания языка, часто употребляемые и хорошо «заученные» данной личностью в процессе своей предшествующей деятельности. Есть основания полагать, что использование этого феномена позволит строить системы текстонезависимой биометрической идентификации личности с существенно более высокими характеристиками по точности.

С целью использования указанного феномена для текстонезависимой идентификации личности по голосу предварительно обработанный речевой сигнал с удаленными паузами и шипящими звуками разбивается на вре-

менные участки (фрагменты):

s(n) = s-tin) + s2(n) + —I- s¿(n) + ... , n = 0,1,....

Затем каждый фрагмент речевого сигнала s¿(n) представляется г-мерным вектором признаков в пространстве :

Si(n) = Si = (s1(s2, ...,sr), к = 1,2,...,г, где соответствует числу кепстральных коэффициентов: .

Весь речевой сигнал s (п) - будет представлен последовательностью таких векторов

s(n) = {sj^i = s1(s2,....

Рис. 1 иллюстрирует фрагментацию речевого сигнала s (п) .

Рис. 1. Фрагментация речевого сигнала s (п)

Размерность векторов признаков соответствует числу кепстральных коэффициентов . Минимальное и максимальное значения

кепстральных коэффициентов определяют рабочее подпространство , в

котором распределены векторы признаков .

Распознавание голоса диктора осуществляется в режиме верификации: проверяется - работает в системе ранее зарегистрированный пользователь («свой») или произошла его подмена «чужим». При этом разделение голосовых данных осуществляется на 2 класса: «свой» или «чужой».

Последовательность {х 1, ограниченная N элементами, трактуется как голосовой эталон данной личности (диктора):

5 = {х ¿} ! = х 1,х 2 ,. ■ ■ *лт5, I = 1 ,2 ,. . .Щ.

Для тектонезависимого распознавания голоса предлагается использовать известную модель отрицательного отбора, которая реализует децентрализованное распознавание образов, представленных голосовыми фрагментами , путем их сопоставления со специальными распознающими элементами - детекторами. Детекторы имитируют иммунокомпетентные клетки иммунной системы, которые отвечают за распознавание специфических «чужих», т. е. не известных молекул (антигенов). Структура детекторов соответствует структуре голосовых фрагментов .

Популяция О детекторов с^ создается в метрике векторов признаков ж г:

0 = = Ъ.Ъ.....«V } = 1'2'-

dj = ...,йг) , к = 1,2,...,г.

Для распознавания «чужих» детекторы С представлены векторами признаков, отличающимися от векторов признаков ж г голосового эталона 5. Степень отличия задается величиной ошибки первого рода 60, (ложный недопуск «своего»).

Простейший способ создания популяции О состоит из двух фаз.

В первой фазе осуществляется случайная генерация (с равномерным законом распределения в пространстве ), детектора в виде вектора признаков (1-1, 12, ■■■, (1Г , который в первой фазе трактуется как возможный кандидат в детекторы.

Во второй фазе кандидат сопоставляется со всеми голосовыми фрагментами {ж ¿} эталона 5 на основе меры близости Евклида:

ö^s^dj) =

Z(sik ~ djk)2,

у fc=i

i = l,2,...Ns, j = l,2,...Nd, к = 1,2,...,г.

Если для всех , то кандидат в детекторы при-

обретает статус детектора dj, в противном случае dj уничтожается. По этой процедуре формируется вся популяция детекторов . Процедура повторяется до тех пор, пока не будет создано достаточное количество детекторов для надежного распознавания.

Последующее текстонезависимое распознавание голосового сигнала осуществляется путем непрерывного сопоставления анализируемых голосовых

фрагментов с детекторами по принципу негативной селекции: сра-

батывание любого детектора dj свидетельствует о том, что предъявленный голосовой фрагмент s ; отличается от всех элементов эталона {s J ^ на величину > 80, т. е. предположительно принадлежит «чужому» [13, 14].

Недостаток такого подхода состоит в том, что необходимое количество детекторов в популяции растет экспоненциально с увеличением размерности эталона . Как следствие это приводит к большим вычислительным затратам на этапе распознавания речевого сигнала за счет необходимости сопоставления текущих голосовых фрагментов с большим числом детекторов популяции

D = {dj}^ [19].

С целью устранения указанного недостатка в данной работе предлагается использовать детекторы варьируемого размера, - так называемые F-детекторы (variable-sized detectors) [20-22]. В отличие от обычных детекторов, представленных точками в пространстве Ер, F-детекторы представлены в этом пространстве гиперсферами. Такое представление позволяет эффективно заполнить пространство существенно меньшим числом детекторов популяции . Как следствие значительно сократятся вычислительные затраты на этапе распознавания речевого сигнала за счет сокращения числа операций сопоставления текущих фраг-

ментов речевого сигнала с уменьшенной популяцией детекторов

D = { *,}%

В начальной фазе кандидаты в К-детекторы как и ранее генерируется случайно (с равномерным законом распределения в рабочем пространстве Яр) в виде точек ¿у = ( сС г, сС 2,. . ., <СГ), к = 1 ,2 ,. . ., г. Затем точки ¿у проверяются на попадание в гиперсферы ранее созданных К-детекторов. При отрицательном результате проверки точки ¿у приобретают статус центров сС( К-детекторов и трансформируются затем в -мерные гиперсферы, которые заполняют свободное от точек эталона рабочее пространство Процедура трансформации каждой точки в -мерную гиперсферу со-

стоит в отыскании ближайшей к ней точки голосового эталона 5 = {ж ¿} расстояние до которой определит радиус гиперсферы создаваемого К-детектора. Принцип создания К-детекторов иллюстрирует рис. 2.

Рис. 2. Принцип создания К-детекторов

В результате такой процедуры области пространства между точками эталона будут заполняться гиперсферами К-детекторов. В итоге, при прочих равных условиях, рабочее пространство Яр будет покрываться существенно меньшим числом К-детекторов.

Принцип размещения точек эталона 5 и К-детекторов в пространстве Яр (к = 2) иллюстрирует рис. 3.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Принцип размещения точек эталона 5 и К-детекторов в пространстве Яр

Алгоритм формирования ^-детекторов.

1. В счетчике I задается начальное значение номера формируемого К-детектора .

2. Увеличение содержимого счетчика 1 = 1 + 1 .

3. В пространстве Ер случайно, с равномерным законом распределения, генерируется г-мерная точка с^ = (с(1,с(2, ■,.,с(г), играющая роль геометрического центра кандидата в К-детекторы.

4. Для I = 1 переход на шаг 6, иначе переход на следующий шаг.

5. Проверяется, - попадает ли точка с^ в гиперсферы ранее созданных V-детекторов . Для этого последовательно проверяются неравенства:

Щк - О2 < 1 = 1,2.....

Г

¿—¡к

*к = 1

Если выполняется хотя бы одно неравенство при , то возврат на

шаг 3, иначе точка с^ принимается за центр С очередного V- детектора и переход на следующий шаг.

6. Вычисляются расстояния Евклида между точкой и всеми точками

голосового эталона S = [s J i j^: E(d,s) =

У Кь-ЗкУ, 1 = 1,2.....Ъ.

^ ¿—1к = 1

7. Из вычисленных расстояний выбирается минимальное расстояние пн п I [Е(С, ж)] , соответствующее некоторой точке жт эталона 5. Это рас-

стояние определяет гиперсферу создаваемого К-детектора С

I

[dfk~smk]2 — R?-

к = 1

8. Радиус гиперсферы Иг корректируется в меньшую сторону в расчете на возможную ошибку первого рода, допущенную при формирования голосового эталона 5:

И\ = ИДИ, где - поправка на ошибку первого рода.

9. Полученный К-детектор сС( добавляется в общую популяцию О = {сС[}^= 1 К-детекторов.

10. Проверяется, достаточное ли число К-детекторов в популяции: N = Если да, то переход на следующий шаг, иначе - возврат на шаг 2.

11. Конец алгоритма.

Следует заметить, что шаг 5 алгоритма, предусматривающий проверку попадания точки образуемого К-детектора в гиперсферы ранее созданных детекторов не является обязательными. При наличии такой проверки процедура создания К-детекторов будет иметь большую вычислительную трудоемкость. Однако, за счет уменьшения зон пересечения гиперсфер К-детекторов, их необходимое количество N а будет меньшим, что приведет к сокращению вычислительной трудоемкости самой процедуры анализа. При отсутствии такой проверки вычислительная трудоемкость процедуры создания К-детекторов сократится, но их количество N а увеличится, что, в свою очередь, приведет к увеличению вычислительной трудоемкости процедуры анализа.

Учитывая то обстоятельство, что создание К-детекторов является составной частью фазы обучения, которая проводится существенно реже, чем фаза распознавания, общая вычислительная трудоемкость процедуры идентификации личности при наличии шага 5 алгоритма сократится.

Пример размещения детекторов, показанный на рис. 3 соответствует варианту отсутствия указанной проверки.

Останов процедуры создания К-детекторов в приведенном алгоритме обусловлен размером популяции К-детекторов. Возможны и другие критерии останова, например: время обучения; число итераций; предельно допустимое число не эффективных итераций, не добавляющих новых К-детекторов и др.

В режиме распознавания фрагменты голосового сигнала иденти-

фицируемой личности сопоставляется с К-детекторами популяцию .

Сопоставление реализуется путем проверки попадания векторов {ж ¿} в гиперсферы К-детекторов популяции , что соответствует поочередному решению

неравенств

Удовлетворение неравенства для любой пары векторов жч и вызывает срабатывание К-детектора , что свидетельствует о том, что фрагмент го-

лосового сигнала данной личности отсутствует в его голосовом эталоне .

Анализ голосового сигнала личности завершается принятием верификационного решения «свой-чужой». Принцип принятия такого решения обусловлен рядом особенностей исследуемого объекта.

♦ Голосовым параметрам человека свойственна существенная вариация, обусловленная зависимостью моторики голосового тракта от психофизического состояния личности.

♦ Текстонезависимая верификация голоса предопределяет обработку голосовых сигналов достаточно большой длительности.

♦ Иммунологический принцип анализа голоса реализует децентрализованную процедуру распознавания путем сопоставления большого числа фрагментов голоса, с большим числом распознающих элементов - детекторов.

Эти особенности определяют целесообразность принятия решения «свой-чужой» на основе статистического подхода, основанного на подсчете частоты срабатывания К-детекторов:

где - статистическая вероятность принадлежности голоса «чужому»

число срабатываний детекторов в проведенных операциях сопоставления; - общее число проведенных операций сопоставления. Принятие решения о принадлежности анализируемого голосового сигнала 5 (п) «своему» 5е или «чужому» 5Ч считается обоснованным при превышении частоты срабатывания К-детекторов заданного порогового значения :

Заключение. В работе предложен новый - иммунологический метод тексто-независимой верификации личности по голосу, основанный на использовании иммунологической модели отрицательного отбора которая реализует децентрализованное распознавание образов, представленных голосовыми фрагментами, путем их сопоставления со специальными распознающими элементами - К-детекторами. Предлагаемый метод позволяет на 20-30% повысить функциональность процедуры верификации личности по голосу по сравнению с известными голосовыми пароль-

к = 1

- 4с]2 < (ЯГ)2. ¿ = 1.2.....1 = 1,2.....ма.

'5е, если / < /й;

и , у ^ уп,

5Ч, если / > /ш.

ными системами [1-5]. Он позволяет вести непрерывный аутентификационный контроль личности говорящего в темпе поступления голосовых данных при воспроизведении текста произвольного объема, содержания и языка, что позволяет своевременно принимать решение о возможной подмене диктора. Преимуществом метода является его полная защищенность от атак воспроизведения.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Kenny P., Ouellet P., Dehak N., et al. A study of interspeaker variability in speaker verification // IEEE Trans. Audio Speech Language Processing. - 2008. - Vol. 16. Iss. 5. - P. 980-988.

2. Zhang Sh.-X, Mak M.-W. A new adaptation approach to high-level speaker-model creation in speaker verification // Speech Communication. - 2009. - Vol. 51. - P. 534-550.

3. Первушин Е.А. Обзор основных методов распознавания дикторов // Математические структуры и моделирование. - 2011. - Вып. 24. - С. 41-54.

4. Гришин В.М., Калашников Д.Ы. Речевой фрагментатор для нейросетевого биометрического вокодера // Пенза-2012: Тр. научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. - http^/THron^/ activity/science/BIT/T8-p73.pdf.

5. Lei Y., Hansen J. H.L. Mismatch modeling and compensation for robust speaker verification // Speech Communication. - 2011. - Vol. 53. - P. 257-268.

6. Макаревич О.Б., Юрков П.Ю., Федоров В.М. Применение рекуррентных нейронных сетей для текстонезависимой идентификации диктора // Сб. трудов «Информационная безопасность». - Таганрог, 2002. - С. 200-201.

7. Макаревич О.Б., Бабенко Л.К., Федоров В.М., Юрков П.Ю. Текстонезависимая аутентификация/идентификация по голосу в системах управления доступом // X Всероссийская научно-практическая конференция «Проблемы информационной безопасности в системе высшей школы». - М.: МИФИ, 2003. - С. 28-29.

8. Bimbot F. et al. A Tutorial on Text-Independent Speaker Verification // EURASIP Journal on Applied Signal Processing. - 2004. - No. 4. - P. 430-451.

9. Фант Г. Акустическая теория речеобразования. - М.: Наука, 1964. - 283 с.

10. Dasgupta D. Artificial Immune Systems and Their Applications, Ed., Springer-Ferlag, 1999.

11. De Castro L.N., Timmis, J.I. Artificial Immune Systems: A New Computational Intelligence Approach. - London: Springer-Verlag, 2000. - 357 p.

12. Искусственные иммунные системы и их применение / под ред. Д. Дасгупты: пер. с англ. А.А. Романюхи. - М.: Физматлит, 2006. - 344 с.

13. Dasgupta D., Forrest S. Tool breakage detection in milling operations using a negative-selection algorithm // Technical report CS95-5, Department of computer science, University of New Mexico, 1995.

14. Forrest S., Perelson A.S., Allen L., Cherukuri R Self-nonself discrimination in a computer // In: Proc. of Ieee symposium on research in security, Oakland, CA, 16-18 May 1994. - P. 202-212.

15. Опенгейм А.В., Шафер Р.В. Цифровая обработка сигналов: пер. с англ. / под ред. С.Я. Шаца. - М.: Связь, 1979. - 416 с.

16. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: пер. с англ. / под ред. М.В. Назарова, Ю.Н. Прохорова. - М.: Радио и связь, 1981. - 495 с.

17. Маркел Дж., Грэй А.Х. Линейное предсказание речи: пер с англ. / под ред. Ю.Н. Прохорова, В.С. Звездина. - М.: Связь, 1980. - 308 с.

18. Брюхомицкий Ю.А. Иммунологический подход к организации клавиатурного мониторинга // Известия ЮФУ. Технические науки. - 2014. - № 2 (151). - С. 33-41.

19. Брюхомицкий Ю.А., Федоров В.М. Метод текстонезависимой идентификации личности по голосу // Известия ЮФУ. Технические науки. - 2018. - № 8 (202). - С. 173-181.

20. Ji Z., Dasgupta D. Real-valued negative selection algorithm with variable-sized detectors // Genetic and Evolutionary Computation (GECCO 2004): Proceedings. - Berlin-Heidelberg: Springer-Verlag, 2004. - Ser. LNCS 3102. - Part I. - P. 287-298.

21. Ji Z., Dasgupta D. V-Detector: An Efficient Negative Selection Algorithm with «Proba-bly Adequate» Detector Coverage // Information Sciences. - 2009. - Vol. 179. - P. 1390-1406.

22. Pourhabibi T., Azmi R. Anomaly Based IDS Using Variable Size Detector Generation in AIS: A Hybrid Approach // International Journal of Machine Learning and Computing. - June 2012. - Vol. 2, No. 3.

REFERENCES

1. Kenny P., Ouellet P., Dehak N., et al. A study of interspeaker variability in speaker verification, IEEE Trans. Audio Speech Language Processing, 2008, Vol. 16. Iss. 5, pp. 980-988.

2. Zhang Sh.-X, MakM.-W. A new adaptation approach to high-level speaker-model creation in speaker verification, Speech Communication, 2009, Vol. 51, pp. 534-550.

3. Pervushin E.A. Obzor osnovnykh metodov raspoznavaniya diktorov [Overview of basic speaker recognition methods], Matematicheskie struktury i modelirovanie [Mathematical structures and modeling], 2011, Issue 24, pp. 41-54.

4. Grishin V.M., Kalashnikov D.M. Rechevoy fragmentator dlya neyrosetevogo biometricheskogo vokodera [Speech fragmenter for neural network biometric vocoder], Penza-2012: Tr. nauchno-tekhnicheskoy konferentsii klastera penzenskikh predpriyatiy, obespechivayushchikh bezopasnost' informatsionnykh tekhnologiy [Penza-2012: Proceedings of the scientific and technical conference of the cluster of Penza enterprises providing security of information technologies]. Available at: http://pniei.rf/activity/science/BIT/T8-p73.pdf.

5. Lei Y., Hansen J. H.L. Mismatch modeling and compensation for robust speaker verification, Speech Communication, 2011, Vol. 53, pp. 257-268.

6. Makarevich O.B., Yurkov P.Yu., Fedorov V.M. Primenenie rekurrentnykh neyronnykh setey dlya tekstonezavisimoy identifikatsii diktora [The use of recurrent neural networks for text-independent speaker identification], Sb. trudov «Informatsionnaya bezopasnost'» [Collection of works "Information security"]. Taganrog, 2002, pp. 200-201.

7. Makarevich O.B., Babenko L.K., Fedorov V.M., Yurkov P.Yu. Tekstonezavisimaya autentifikatsiya/identifikatsiya po golosu v sistemakh upravleniya dostupom [Non-volatile authentication/voice identification in access control systems], X Vserossiyskaya nauchno-prakticheskaya konferentsiya «Problemy informatsionnoy bezopasnosti v sisteme vysshey shkoly» [X all-Russian scientific and practical conference "problems of information security in the system of higher education"]. Moscow: MIFI, 2003, pp. 28-29.

8. Bimbot F. et al. A Tutorial on Text-Independent Speaker Verification, EURASIP Journal on Applied Signal Processing, 2004, No. 4, pp. 430-451.

9. Fant G. Akusticheskaya teoriya recheobrazovaniya [Acoustic theory of speech formation]. M.: Nauka, 1964, 283 p.

10. DasguptaD. Artificial Immune Systems and Their Applications, Ed., Springer-Verlag, 1999.

11. De Castro L.N., Timmis, J.I. Artificial Immune Systems: A New Computational Intelligence Approach. London: Springer-Verlag, 2000, 357 p.

12. Iskusstvennye immunnye sistemy i ikh primenenie [Artificial immune systems and their application], ed. by D. Dasgupty: transl. from engl. A.A. Romanyukhi. Moscow: Fizmatlit, 2006, 344 p.

13. Dasgupta D., Forrest S. Tool breakage detection in milling operations using a negative-selection algorithm, Technical report CS95-5, Department of computer science, University of New Mexico, 1995.

14. Forrest S., Perelson A.S., Allen L., Cherukuri R. Self-nonself discrimination in a computer, In: Proc. of Ieee symposium on research in security, Oakland, CA, 16-18 May 1994, pp. 202-212.

15. Opengeym A.V., ShaferR.V. Tsifrovaya obrabotka signalov [Digital signal processing]: transl. from engl., ed. by S.Ya. Shatsa. Moscow: Svyaz', 1979, 416 p.

16. Rabiner L.R., Shafer R.V. Tsifrovaya obrabotka rechevykh signalov [Digital processing of speech signals]: transl. from engl., ed. by M.V. Nazarova, Yu.N. Prokhorova. Moscow: Radio i svyaz', 1981, 495 p.

17. Markel Dzh., Grey A.Kh. Lineynoe predskazanie rechi [Linear prediction of speech]: transl. from engl., ed. by Yu.N. Prokhorova, V.S. Zvezdina. Moscow: Svyaz', 1980, 308 p.

18. Bryukhomitskiy Yu.A. Immunologicheskiy podkhod k organizatsii klaviaturnogo monitoringa [Immunological approach to the organization of keyboard monitoring], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2014, No. 2 (151), pp. 33-41.

19. Bryukhomitskiy Yu.A., Fedorov V.M. Metod tekstonezavisimoy identifikatsii lichnosti po golosu [Method of text-independent identification of personality by voice], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2018, No. 8 (202), pp. 173-181.

20. Ji Z., Dasgupta D. Real-valued negative selection algorithm with variable-sized detectors, Genetic and Evolutionary Computation (GECCO 2004): Proceedings. - Berlin-Heidelberg: Springer-Verlag, 2004. Ser. LNCS 3102, Part I, pp. 287-298.

21. Ji Z., Dasgupta D. V-Detector: An Efficient Negative Selection Algorithm with «Proba-bly Adequate» Detector Coverage, Information Sciences, 2009, Vol. 179, pp. 1390-1406.

22. Pourhabibi T., Azmi R. Anomaly Based IDS Using Variable Size Detector Generation in AIS: A Hybrid Approach, International Journal of Machine Learning and Computing, June 2012, Vol. 2, No. 3.

Статью рекомендовал к опубликованию д.т.н., профессор Я.Е. Ромм.

Брюхомицкий Юрий Анатольевич - Южный федеральный университет; e-mail: bryuhomitskiy@sfedu.ru; 347922, г. Таганрог, ул. Чехова, 2; тел.: +78634371905; кафедра безопасности информационных технологий; к.т.н.; с.н.с.; доцент.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Федоров Владимир Михайлович - e-mail: vmfedorov@sfedu.ru; кафедра безопасности информационных технологий; к.ф.-м.н.; доцент.

Bryuhomitsky Yuriy Anatoly - Southern Federal University; e-mail: bryuhomitskiy@sfedu.ru; 2, Chekhov street, Taganrog, 347922, Russia; phone: +78634371905; the department of information technology security; cand. of eng. sc.; senior researcher; associate professor.

Fedorov Vladimir Mikhailovich - e-mail: vmfedorov@sfedu.ru; the department of information technology security; cand. of phys.-math. sc.; associate professor.

УДК 004.896 DOI 10.23683/2311-3103-2019-5-134-145

Б.К. Лебедев, О.Б. Лебедев, А.А. Жиглатый

РАЗРАБОТКА МОДИФИЦИРОВАННОЙ МОДЕЛИ АДАПТИВНОГО ПОВЕДЕНИЯ РОЯ ЧАСТИЦ ДЛЯ ВЫДЕЛЕНИЯ МАКСИМАЛЬНОЙ

КЛИКИ В ГРАФЕ*

Предлагается метод решения задачи выделения максимальной клики в графе на основе модифицированной модели адаптивного поведения роя частиц. Метод роя частиц является методом стохастической оптимизации в чем-то схожим с эволюционными алгоритмами. Этот метод моделирует не эволюцию, а ройное и стайное поведение животных. В отличие от популяционных методов метод роя частиц работает с одной статической популяцией, члены которой постепенно улучшаются с появлением информации о пространстве поиска. В качестве структуры данных, несущей информацию о решении, используется последовательность, представляющую собой очередность формирования решения, которая называется приоритетным списком. Приоритетный список - это кодированное решение, в терминах генетического алгоритма - «хромосома». Приоритетный список является косвенной схемой кодирования решения. Переход от приоритетного списка к решению производится с помощью декодера. Декодер - оператор, позволяющий перейти от косвенной (числовой) схемы кодирования решения задачи к фенотипу. Фактически приоритетный список является интерпретацией решения в конкретной предметной области. Описываются поисковые процедуры в пространстве решений, механизмы поведения модернизированного роя частиц. Ключевая проблема, которая была решена в данной работе, связана с разработкой структуры аффинного пространства позиций, позволяющей отображать и осуществлять поиск интерпретаций решений с целочисленными значениями параметров. В отличие от канонического метода роя частиц, для уменьшения веса аффинных связей, путем перемещения частицы в новую позицию аффинного пространства решений разработан оператор направленной мутации, суть которого заключается в изменении целочисленных значений генов в хромосоме. Временная сложность алгоритма, полученная экспериментальным путем, совпадает с теоретическими исследованиями и для рассмотренных тестовых задач составляет О(п2) - О(п3). Вероятность получения глобального оптимума составила 0,94. В среднем запуск программы обеспечивает нахожде-

* Работа выполнена при финансовой поддержке гранта РФФИ № 18-07-00737 А. 134

i Надоели баннеры? Вы всегда можете отключить рекламу.