Научная статья на тему 'Применение нейронных сетей для формирования эталонов в системах биометрической идентификации личности'

Применение нейронных сетей для формирования эталонов в системах биометрической идентификации личности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1669
141
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение нейронных сетей для формирования эталонов в системах биометрической идентификации личности»

4. Amoroso, Edward, G., Intrusion Detection, 1st ed., Intrusion.Net Books, Sparta, New Jersey, USA, 1999.

5. Denning, Dorothy. (February, 1987). An Intrusion-Detection Model. IEEE Transactions on Software Engineering, Vol. SE-13, No. 2.

6. Пелетенко B.C. Обзор методик обнаружения сетевых атак. \\ Материалы II Международной научно-технической конференции «Инфокоммуникационные технологии в науке и технике»,ч. II, 2006.

7. Чипига А.Ф.,. Пелешенко В.С. Обзор моделей систем обнаружения атак в ЛВС и выявление их недостатков \\ Материалы II Международной научно-технической конференции «Инфокоммуникационные технологии в науке и технике», ч. II, 2006.

8. Кудряшов И.С. Регистрация событий в системах обнаружения компьютерных атак. \\ Материалы VII Международной научно-практической конференции «Информационная безопасность». - Таганрог: Изд-во ТРТУ, 2005.

9. Пелешенко В.С. Математическая модель процессов связи узлов в сети при обнаружении и предотвращении несанкционированного доступа к информации. \\ Материалы 9-й региональной научно-технической конференции «Вузовская наука - Северо-Кавказскому региону», 2005.

10. Отчет о работах в рамках гранта РФФИ 04-07-90010 "Исследование методов обнаружения аномальной активности в распределенных компьютерных системах и разработка системы обнаружения компьютерных атак, сочетающей сигнатурный и интеллектуальный анализ данных" за 2004.. // http ://www. decision-support. ru/ grant.

11. Кашаев Т.Р.. Система активного аудита на основе скрытых марковских моделей. \\ Материалы VII Международной научно-практической конференции «Информационная безопасность». - Таганрог: Изд-во ТРТУ, 2005.

В.Н Лиховидов, И.В. Герасимец, П.Н. Корнюшин

Россия, г. Владивосток, ДГУ

ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ФОРМИРОВАНИЯ ЭТАЛОНОВ В СИСТЕМАХ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ

В работе рассматривается задача формирования эталона для легального пользователя в биометрических системах идентификации (БСИ) с использованием самообучающихся нейронных сетей.

Статистическая формулировка задачи биометрической идентификации

Построение решающих правил в системах биометрической идентификации основано на создании некоторых эталонных представлений идентифицируемых лиц. Эти эталоны хранятся в памяти системы, контролирующей доступ, и служат для сравнения с биометрическими параметрами лиц, претендующих на доступ к ресурсам. Такими параметрами могут служить особенности голоса, рукописного или клавиатурного почерка, отпечатки пальцев и т.д. В случае, когда измеренные системой значения параметров пользователя значимо отличаются от эталона, он получает отказ в доступе к ресурсам.

В вероятностной формулировке такие решающие правила приводят к необходимости построения среднестатистических эталонов на основе образцов, предъявленных системе в режиме обучения. Целью работы является построение эталонов, обеспечивающих заданную надежность срабатывания биометрической системы идентификации (БСИ), измеряемую показателями вероятности ложного допуска (false acceptance rate, FAR), и вероятности ложного отказа (false reject rate, FRR).

Обозначим X є RN - вектор признаков, поступающий на вход БСИ и состоящий из N информативных биометрических параметров пользователя. Предположим, что вектор X можно рассматривать как значение векторной случайной величины £, распределение которой описывает статистическую изменчивость био-

метрических параметров пользователя. Если распределение случайного вектора Е, характеризующее легального пользователя, имеет плотность p0 (X) с ограниченным множеством-носителем X = {X : p0 (X) ф 0}с Rn , то множество X* с X0,

удовлетворяющее условию P(X*) = 1 - FRR , представляет совокупность тех

входных векторов X, которые БСИ будет правильно распознавать как попытку легального доступа к ресурсам.

Пусть p (X) - плотность распределения вероятностей, соответствующая биометрическим параметрам другого лица, пытающегося получить доступ, и обозначим X с Rn носитель этого распределения, то есть X = {X : p (X) ф 0}. Тогда очевидно, множество X* X будет состоять из тех входных векторов биометрических параметров, которые БСИ будет ошибочно признавать “своими”. Согласно требованиям, предъявляемым к БСИ, должно быть P(X* n>X ) < FAR .

В реальных задачах, связанных с созданием БСИ, распределения p0 (X), p (X) неизвестны, соответственно, неизвестны и множества X ,X , поэтому возникает необходимость в построении оценок распределений p0 (X), р (X), или хотя бы оценок множеств-носителей X0 ,X . Предполагается, что для построения этих оценок имеется обучающая выборка, состоящая из классифицированных образцов входных векторов X ,X2Xn;8,8 ,..,8 . То есть относительно каждого

из векторов X известно, соответствует ли он легальному пользователю 8 = 0 либо одному из набора “чужих” пользователей: 8к е {1,2,...,K} .

Если доступна достаточная по объему и представительная обучающая выборка, дающая представление о легальном пользователе и “всех чужих”, то построение оценок может осуществляться обычными методами математической статистики через оценивание распределений вероятностей { p (X),к = 0,1,... } или непосредственное построение решающих правил, определяющих границы в пространстве Rn между областями “свой” - ”чужой”.

Чаще всего при построении БСИ разработчик не располагает такой полнотой информации:

а) обучающая выборка “свой” имеет ограниченный объем (особенно для коммерческих систем, где удобства потребителя имеют решающее значение);

б) представительный набор “чужих” вообще сложно сформировать;

в) выбор вероятностных распределений p (X) является сложным вопросом

вследствие отсутствия математических моделей формирования биометрических измерений.

Общепринятые статистические модели, такие как гауссовское распределение, применяются и здесь, но скорее за отсутствием других возможностей. Многочисленные эксперименты и попытки построения решающих правил показывают, что простота гауссовских моделей с избытком компенсируется сложностью их согласования с реальной структурой наблюдений в БСИ [1,2]. Поэтому построение “теоретически правильного” статистического решающего правила оказывается

невозможным, вследствие чего приходится использовать различные приближенные эвристические процедуры.

Синтез биометрического эталона на основе самообучающейся нейронной сети

Искусственные нейронные сети (ИНС), благодаря их адаптивности и способности к обобщению функциональных зависимостей [3,4], широко применяются в задачах анализа статистических наблюдений сложной структуры [5,6], в том числе и в построении БСИ [1,2]. Здесь будет рассмотрен подход, основанный на использовании самообучающихся ИНС для синтеза биометрического эталона. При этом не делается каких-либо предположений о виде плотности распределения р0 (X),

вместо этого множество N , на котором определена плотность р0 (X), аппроксимируется набором некоторых локальных центров.

Пусть {Х,ХгХп} - выборка векторов биометрических параметров

легального пользователя. Геометрическая конфигурация многомерного множества N в пространстве признаков Яы в общем случае неизвестна и может быть весьма сложной. Вся имеющаяся информация о множестве N содержится в выборке X ,Х2,...,Хп, однако, чтобы не хранить в памяти всю эту выборку и в то же время иметь достаточную информацию для использования ее в решающем правиле, можно вместо выборки Х,Х2,...,Хп сохранять некоторый набор центров

и1,и2,...,им, (М > 1), который должен достаточно точно аппроксимировать исходную выборку. Если количество центров М существенно меньше объема выборки п, то это позволит упростить вычислительные процедуры и сэкономить

объем памяти. В качестве критерия для выбора центров и ,и ,...,и можно использовать среднеквадратичный разброс наблюдаемых векторов относительно этого набора центров. Математически это может быть сформулировано как задача минимизации функционала среднего риска, соответствующего выбору квадратичных функций потерь [6]:

м

жи1,...,им) = Jl(X)||X -и||2 -(X)О ,где

я" ‘=1

1, ||х - и\\ <||X - и\|2 V ]

^Х11о

Алгоритм оценивания оптимального набора центров [6] устроен следующим образом:

а) выбирают подходящие начальные приближения и (1),и (1),-.,им(1) (это

могут быть произвольные несовпадающие векторы из Ям);

б) затем, последовательно просматривая выборку, осуществляют итерации:

иг (г +1) = иг (г) + (Х1 - иг (г)), если 3 1 (Х1) = 1

и. (г +1) = и. (г), для всех I ф1 , (1)

г = 1,2,3,...

В теории алгоритмов самообучения доказано [7], что в пределе г ^ да последовательность оценок центров {и (г)} сходится к центрам тяжести

{ Xpo( X) dX U = D

| р0(X)dX

д

множеств Б, Б,..., Бм, образующих разбиение множества N ,

:|| X - П\\2 <|| X - П}\2 V і }.

С помощью построенных оценок центров и,и ,...,и можно с достаточной степенью точности аппроксимировать множество N ; данный набор центров {и }

и является эталонным представлением биометрического образа легального пользователя. Если затем на вход БСИ поступает вектор параметров X неизвестного пользователя, то исчерпывающая информация о расположении этого вектора X по отношению к множеству N будет содержаться в наборе расстояний от X до

всех центров эталона {и }:

Д^и) = {8 : 8. =||X-Ц||, і = 1,2,...,М} (2)

Поэтому на основе вектора Д(X,и) уже принимается решение о принадлежности данного вектора X. Сама структура решающего правила при этом может быть реализована различными способами, например, на основе порогового значения. Выбирается некоторая мера сходства/различия р(К,и), с помощью которой можно измерять степень близости вектора X к эталону. Эта мера должна иметь вид функции от вектора Д( X, и), например, один из вариантов метрики общего вида

1/а

p(X,U) = ^Е^Г| ,o < а < да,

эта формула включает в себя метрику Хемминга при а = 1 , евклидово расстояние при а = 2 , равномерную метрику p(X,U) = max{8.} при а = да и другие.

1<i< М 1

После синтеза эталона {U} на основе новой обучающей выборки

X , X ,... , X , содержащей как векторы параметров легального пользователя,

так и векторы “чужих”, оценивается пороговое значение p так, чтобы решающее

правило вида: “если p(X, U) > p0, то X - чужой” удовлетворяло на этой обучающей выборке требованиям по величинам FAR и FRR.

Синтез и визуализация сложного эталона на основе самообучающихся нейронных сетей

Если удовлетворительного порогового решающего правила не удается построить, это может означать, что структура многомерного множества К сложна и

не поддается точной аппроксимации небольшим набором эталонов. Кроме того, недостаток информации о статистике векторов “чужих” не позволит дать точную оценку надежности БСИ.

Для снижения вероятностей ошибок предлагается использовать не один эталон для легального пользователя, а набор эталонов, порождаемых разными нейронными сетями. Приведенный выше в качестве примера алгоритм (1) является самым простым алгоритмом самообучения, он эффективен для распределений

р0 (Х), образующих компактные сферические кластеры в Яы и осуществляет векторное квантование пространства признаков [4]. Как показывают эксперименты, часто структура данных носит другой характер, например, в пространстве признаков Яы формируются вытянутые множества звездообразной конфигурации или же множества в виде подпространств (гиперплоскостей), близких к параллельной ориентации. Для выделения таких кластеров можно подобрать соответствующие алгоритмы самообучения [6,7].

В этом случае эталоны и ,и ,...,и уже не будут иметь смысла центров локальных кластеров, но им всегда можно приписать некоторый другой геометрический смысл; важно то, что это есть некоторые обобщенные “центры”, позволяющие разбить обучающую выборку на подмножества, сконцентрированные вокруг компактных геометрических структур (плоскостей, лучей или других формаций).

Таким образом, будет построена некоторая другая аппроксимация носителя N с

помощью эталонов и ,и ,...,и . Любой новый вектор Х е Яы, соответствующий неизвестному пользователю, будет также закодирован набором Д(Х, и), лишь в определении (2) вместо евклидова расстояния ||Х - и || будет вычисляться некоторая обобщенная мера сходства д(Х,и) между вектором Х и центром и [7].

Таким образом, обучающая выборка отображается в пространство размерности М, и, если набор обобщенных центров {и }, составляющих биометрический

эталон, достаточно хорошо аппроксимирует множество N в Яы, то статистика

обучающей выборки У,У2,...,У в новом пространстве признаков Ям будет обладать такими же свойствами статистической стабильности, что и статистика выбор-

Т~) N

ки в исходном признаковом пространстве Я .

Для данной обучающей выборки можно использовать одновременно несколько таких обобщенных эталонов; каждый тип эталона выявляет свои особенности

структуры обучающей выборки в Яы. Более того, этот подход можно использовать как универсальный метод кодирования биометрических параметров разной природы (почерк, голос и т.д.), создавая обобщенный биометрический образ пользователя. Надежность решающего правила, основанного на таком составном эталоне, может быть существенно повышена, поскольку каждый конкретный эталон будет выявлять свои индивидуальные черты легального пользователя, так что вероятность их случайного повторения будет весьма мала.

Основное свойство биометрического образа, на основе которого лишь и можно строить БСИ - это его устойчивость: предполагается, что изменчивость вектора информативных параметров Х подчиняется статистическим закономерностям, а изменение этих закономерностей (следовательно, изменение распределения вероятностей) во времени происходит достаточно плавно и может быть отслежено теми же статистическими средствами.

Поскольку эталон приобретает весьма сложную конфигурацию в многомерном пространстве, то характеризация и отслеживание изменений самого эталона как статистического набора данных становится непростой проблемой. В подобных ситуациях часто полезным бывает создание графического (зрительного) образа такого набора данных, поскольку из всех анализаторов человеческой нервной системы зрительный анализатор является наиболее информативным. Представление

многих задач человек стремится привести к зрительной форме, от которой ему легче перейти к формальным логическим конструкциям.

Биометрический эталон в нейросетевой интерпретации легко поддается такому зрительному представлению. А именно, рассмотрим матрицу А, сформированную из векторов (2), примененных к самим центрам:

А = {S. : S.. = llu - U.lI, i, j = 1,2,...,M} .

i) i) II j i II 77? J

В общем случае, вместо евклидова расстояния следует подставить q (X, U). Диагональные элементы матрицы равны 0, и так как она симметрична, всего имеется M(M -1)/2 чисел S . Если упорядочить их в виде 2-мерного массива (с

точки зрения топологии нейронных сетей это означает формирование 2-мерного поля нейронов, аналога сетчатки глаза), то получится изображение, зрительный образ данного набора эталонов; величина S будет интерпретироваться как яркость соответствующего пикселя.

Эту картинку можно привести к какому-нибудь осмысленному изображению, если проквантовать яркости, сделав небольшое число градаций, и переставить (переупорядочить) пиксели, чтобы сформировать связную фигуру.

Использование такого зрительного эталона для принятия решения может происходить по следующей схеме. Допустим, на вход БСИ подается новый вектор признаков неизвестного пользователя. Если этот вектор признаков достаточно близок к одному из эталонов, то можно заменить этот ближайший эталон на данный входной вектор. При этом расклад межэталонных расстояний не сильно изменится, а потому на двумерном поле зрения новая матрица расстояний должна давать картинку не сильно отличающуюся от исходной (“эталонной”).

Заметим, что кроме удобства зрительного представления эталонного образа для целей анализа и принятия решений, преобразование нейронного поля в графический эталон само по себе является некоторым биометрическим ключом, который также может быть использован для контроля доступа.

На рис.1 показан результат визуализации эталона, полученного на основе анализа клавиатурного почерка. Для создания обучающей выборки пользователь «Андрей» 250 раз набрал слепым десятипальцевым методом парольную фразу длиной 15 символов: “нейронные сети”. Для каждого нажатия клавиши измерялось два параметра: продолжительность нажатия и интервал времени между отпусканием предыдущей клавиши во фразе и нажатием следующей. Для первого символа интервал всегда равен нулю, поэтому в результате размерность входного пространства получается равной N = 2п -1 = 29. Эта обучающая выборка подавалась на вход самообучающейся нейронной сети (векторное квантование с 9-ю эталонами). Для построенных эталонов формировалась матрица взаимных расстояний (36 чисел). Затем эти числа квантовались в 4 градации яркости, из которых путем перестановки формировалась буква «А» (фигура «а» на рис.1). После этого для проверки принадлежности к легальным пользователям претенденты «1», «2» и «3» набирают парольную фразу длиной 15 символов (в данном случае она им известна), которую система преобразует в 29-мерные векторы: соответственно X, X2, Х3. Эти векторы замещают один из векторов в эталоне (ближайший по

эвклидовой метрике), и затем к матрице взаимных расстояний применяется в точности тот же алгоритм градации яркости и та же последовательность перестановок, что и к первоначальному набору из 9 векторов эталона. Визуальный анализ полученных в результате этой процедуры фигур «б», «в» и «г» на рис.1 подтвер-

ждает, что претендент «1» - легальный пользователь, претендент «2» - очень похож на легального, а претендент «3» - злоумышленник.

а б в г

Рис.1. Графическое представление клавиатурного почерка

Заключение

Обычно использование гауссовского распределения в моделях обработки наблюдений в явном или неявном виде бывает обосновано одним из фундаментальных свойств этого распределения:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а) гауссовское распределение возникает как результат суммирования большого числа независимых факторов;

б) гауссовское распределение имеет наибольшую энтропию среди всех непрерывных распределений с заданной дисперсией.

Первое свойство делает естественным применение нормального распределения в задачах обнаружения сигналов в условиях помех, при этом за счет увеличения числа наблюдений повышается точность оценок. Второе же свойство говорит о том, что оценки, выведенные в предположении нормальности распределений, являются в определенном смысле минимаксными: даже если истинное распределение наблюдений не гауссовское, все же оценки, полученные из гауссовской модели, могут быть приемлемым решением, поскольку они соответствуют худшему возможному сценарию.

Что же касается задач анализа наблюдений, возникающих в системах биометрической идентификации, то здесь обе предпосылки использования гауссовских моделей, по-видимому, не имеют места. Вариации наблюдаемой динамики процессов типа клавиатурного почерка не являются следствием наложения малых случайных влияний, представляющих собой некий аддитивный шум. Отклонения биометрического образа “чужого” пользователя от правильного (“своего”) эталона будут, скорее всего, иметь характер некоторого систематического смещения (отклонения) от эталона, так что интерпретация такого смещения в терминах вероятностной неопределенности (энтропии) может лишь исказить истинное положение дел. Как отмечалось в ряде работ (см., например [2]), для целей построения БСИ весьма желательным является поиск каких-то нелинейных преобразований (функционалов от обучающей выборки), которые лучше бы аппроксимировали структуру измерений, чем свойственные гауссовским моделям линейные функционалы. Фактически, предложенные в данной работе нейросетевые эталонные представления биометрических измерений и являются попыткой дать общую схему построения чисто эмпирических функционалов, которые могут служить основой для принятия решений в задачах идентификации пользователей.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Брюхомицкий Ю.А., Казарин М.Н. Метод обучения нейросетевых биометрических систем на основе копирования областей / Электронный журнал “Перспективные информационные технологии и интеллектуальные системы”. 2003. № 3 (15), С. 17-23 http://pitis.tsure.ru

2. Иванов А.И. Биометрическая идентификация личности по динамике подсознательных движений. -Пенза: Изд-во Пенз. гос. ун-та, 2000. 188 с.

3. Осовский С. Нейронные сети для обработки информации. - М.: Финансы и статистика, 2002. - 344 с.

4.Хайкин С. Нейронные сети: полный курс. - М.: Издательский дом "Вильямс", 2006. - 1104 с.

5. Рао С.Р. Линейные статистические методы и их применения.- М: Наука, 1968.-548 с.

6. Лиховидов В.Н., Корнюшин П.Н. Нейроподобные адаптивные алгоритмы обнаружения атак в компьютерных сетях / Известия ТРТУ. Тематический выпуск “Материалы VII Международной научно-практической конференции ‘Информационная безопасность’”. -Таганрог: Изд-во ТРТУ, 2005. № 4. - С. 82-87.

7. Likhovidov V. Variational Approach to Unsupervised Learning Algorithms of Neural Networks. - Neural Networks, vol. 10, No 2, 1997, p.p. 273-289

Ю.А. Брюхомицкий, М.Н. Казарин

Россия, г. Таганрог, ТРТУ

ТЕСТИРОВАНИЕ БИОМЕТРИЧЕСКИХ СИСТЕМ КОНТРОЛЯ ДОСТУПА

Биометрические системы контроля доступа (БСКД) претендуют стать неотъемлемой составной частью современных технологий информационной безопасности. Это подтверждается, в частности, ростом числа разработок в области БСКД, заметным расширением номенклатуры коммерческих продуктов, появлением первых биометрических стандартов. Складывающаяся в биометрии ситуация соответственно ставит и новые задачи, одной из которых является тестирование и поверка эксплуатационных характеристик БСКД. Такая задача неизбежно возникает как для разработчиков новых биометрических продуктов, так и для потребителей этих продуктов. Вместе с тем, судя по анализу соответствующих литературных источников, методики по тестирования БСКД пока отсутствуют.

Из всего множества задач, возникающих при тестировании разных типов БСКД, в рамках настоящей работы рассматривается и решается лишь одна, а именно, - определение классифицирующих способностей динамических БСКД, основанных на анализе рукописного и клавиатурного почерков пользователя. Объединение указанных БСКД в одну группу объясняется схожестью, а во многом и общностью применяемых методов и решаемых проблем.

В БСКД, как известно, точность аутентификации определяется тремя видами ошибок:

- FRR (False Reject Rate) или ошибка первого рода - вероятность ошибочных отказов авторизованному пользователю (Р1);

- FAR (False Accept Rate) или ошибка второго рода - вероятность допуска незарегистрированного пользователя (Р2);

- EER (Equal Error Rates) - равная вероятность (норма) ошибок первого и второго рода (Р1= Р2).

Наиболее естественным является метод «прямого» тестирования БСКД на реальном контингенте пользователей с вычислением статистических оценок вероятностей Р1 и Р2. Однако этот метод встречает целый ряд серьезных трудностей, среди которых можно выделить следующие:

1. Для проведения тестирования необходимо осуществить подбор достаточно большого контингента людей (пользователей), удовлетворяющих определенным требованиям:

- наличие навыков работы с клавиатурой компьютера и (или) графическим планшетом;

- наличие определенного стабильного уровня динамики почерка (как рукописного, так и клавиатурного);

i Надоели баннеры? Вы всегда можете отключить рекламу.