Научная статья на тему 'Распознавание пользователей компьютерных систем по клавиатурному почерку с учетом параметров вибрации и давления на клавиши'

Распознавание пользователей компьютерных систем по клавиатурному почерку с учетом параметров вибрации и давления на клавиши Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
718
93
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДАВЛЕНИЕ НА КЛАВИШИ / ВИБРАЦИЯ КЛАВИАТУРЫ / ШИРОКИЕ ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / КОРРЕЛЯЦИЯ МЕЖДУ БИОМЕТРИЧЕСКИМИ ПРИЗНАКАМИ / ПЛОТНОСТЬ ВЕРОЯТНОСТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сулавко А.Е., Федотов А.А., Еременко А.В.

Рассматривается проблема защиты данных от неавторизованного доступа посредством проведения аутентификации субъектов по клавиатурному почерку. Предложено использовать параметры давления на клавиши и вибрации клавиатуры совместно с временными характеристиками нажатия клавиш для распознавания печатающего субъекта. Разработана клавиатура с использованием специальных датчиков, позволяющих регистрировать дополнительные параметры. Проведена оценка информативности новых признаков, а также вероятностей ошибок распознавания субъектов на основе персептронов, формулы Байеса и сетей квадратичных форм. Наилучший результат: количество ошибок идентификации 20 человек составило 0,6 %.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сулавко А.Е., Федотов А.А., Еременко А.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Распознавание пользователей компьютерных систем по клавиатурному почерку с учетом параметров вибрации и давления на клавиши»

2. Семенов Г., Саргсян С., Науменко С. SQL-тренажер по дисциплине «Управление данными» // Информационные ресурсы России. 2012. № 2. URL: http://www.aselibrary.ru/press_center/journal/irr/irr3648/irr36483677/irr364836773683/irr3648367736833693/.

3. PostgreSQL Exercises. URL: http://pgexercises.com/.

4. Безопасность в Django: документация Django 1.4. URL: https://djbook.ru/rel1.4/topics/security.html. УДК УДК 004.8

РАСПОЗНАВАНИЕ ПОЛЬЗОВАТЕЛЕЙ КОМПЬЮТЕРНЫХ СИСТЕМ ПО КЛАВИАТУРНОМУ ПОЧЕРКУ С УЧЕТОМ ПАРАМЕТРОВ ВИБРАЦИИ И ДАВЛЕНИЯ НА КЛАВИШИ

А. Е. Сулавко1, А. А. Федотов2, А. В. Еременко2

'Омский государственный технический университет, г. Омск, Россия 2Омский государственный университет путей сообщения, г. Омск, Россия

DOI: 10.25206/2310-9793-2017-5-4-95-105

Аннотация - Рассматривается проблема защиты данных от неавторизованного доступа посредством проведения аутентификации субъектов по клавиатурному почерку. Предложено использовать параметры давления на клавиши и вибрации клавиатуры совместно с временными характеристиками нажатия клавиш для распознавания печатающего субъекта. Разработана клавиатура с использованием специальных датчиков, позволяющих регистрировать дополнительные параметры. Проведена оценка информативности новых признаков, а также вероятностей ошибок распознавания субъектов на основе персеп-тронов, формулы Байеса и сетей квадратичных форм. Наилучший результат: количество ошибок идентификации 20 человек составило 0,6 %.

Ключевые слова: Давление на клавиши, вибрация клавиатуры, широкие искусственные нейронные сети, корреляция между биометрическими признаками, плотность вероятности.

I. Введение

В настоящее время активно идут процессы информатизации общества. Появляется все больше веб-сервисов. Многие государства стремятся создать электронное правительство для оказания услуг гражданам. Доверие к таким веб-сервисам со стороны пользователей должно быть наивысшим. Однако большинство утечек конфиденциальной информации и кибератак приходится именно на веб-сервисы. Их количество в мире каждый год возрастает [1]. Имеющиеся оценки мировых финансовых потерь от этих инцидентов впечатляют: по имеющимся данным они составляют до 375-575 млрд. долларов США в год [2]. Чтобы снизить потери, в организациях различного уровня внедряются биометрические системы защиты. По данным на октябрь 2016 года 57 % предприятий используют биометрическую аутентификацию [3].

Статические биометрические образы (отпечаток пальца, сетчатка или радужка) не являются секретными, поэтому их можно скопировать, изготовив физический или цифровой муляж (для удаленной аутентификации). Тайные биометрические образы содержат в себе секрет (пароль) и поэтому потенциально могут обеспечить более высокий уровень защиты. К их числу относится индивидуальный клавиатурный почерк субъекта, проявляющийся при наборе парольной фразы. Недостаток метода аутентификации по клавиатурному почерку состоит в сравнительно низкой надежности принимаемых решений - вероятности ошибок ложного отказа в доступе (FRR) и ложного доступа (FAR) слишком значительны для использования метода на практике [4]. Данная работа посвящена повышению надежности распознавания субъектов по клавиатурному почерку посредством использования дополнительных признаков, характеризующих динамику набора текста на клавиатуре: параметры давления (силы нажатия) на клавиши и вибрации клавиатуры.

II. Разработка модифицированной клавиатуры для сбора биометрических данных

Для проведения запланированных исследований необходима клавиатура с возможностью регистрации дополнительных признаков клавиатурного почерка (давления и вибрации). Модели клавиатур с требуемыми функциями существуют либо в виде единичных экспериментальных образцов и не доступны для заказа, либо имеют неподходящий форм-фактор (клавиатуры мобильных устройств). В то же время современные средства разработки программируемых электронных устройств позволяют решить данную задачу самостоятельно.

В качестве платформы разработки программно-аппаратного комплекса для регистрации дополнительных признаков клавиатурного почерка был выбран контроллер Arduino Uno R3, который построен на чипе ATmega328, обеспечивающем преобразование аналогового сигнала в цифровую форму с помощью встроенного АЦП, и может использоваться для разработки интерактивных систем, управляемых различными датчиками и переключателями. Процесс создания программно-аппаратного комплекса состоял из следующих этапов:

1. спроектирована схема клавиатуры (рис. 1 а);

2. подобраны и приобретены компоненты;

3. проведены инженерные работы.

Рис. 1. а - структурная схема программно-аппаратного комплекса для регистрации клавиатурного почерка; b - силоизмерительный резистор Interlink 408 FSR; c. модуль USB Host Shield для подключения USB-периферии к контроллеру Arduino; d. подключение пьезоэлектрического датчика вибрации к плате Arduino Uno; f. модуль на основе операционного усилителя LM358 для усиления аналогового сигнала

К Arduino Uno R3 были подключены сенсор вибрации и 5 сенсоров давления. Для определения силы нажатия на клавиши использован датчик давления Interlink 408 FSR, который представляет собой силоизмерительный резистор, исполненный в виде плоского тонкого пассивного компонента, сопротивление которого пропорционально усилию, действующему на его поверхность. Без нагрузки сопротивление превышает величину 1 МОм и варьируется от 100 кОм до нескольких сотен Ом в зависимости от силы нажатия на поверхность датчика. Для получения данных о вибрации клавиатуры при вводе текста использован пьезоэлектрический датчик вибрации Analog Piezo Disk Vibration Sensor компании DFRobot, способный улавливать даже незначительные колебания, будучи установленным внутри клавиатуры. Пьезоэлемент при подключении к микроконтроллеру выдает сигнал, пропорциональный амплитуде вибрации. Для определения кодов клавиш и моментов их нажатия использован модуль USB Host Shield, предназначенный для подключения HID-устройств и эмуляции их работы в операционной системе. Для усиления аналогового сигнала использован регулируемый модуль на основе операционного усилителя LM358. К Arduino Uno R3 через USB Host Shield подключена клавиатура Logitech K120. Корпус клавиатуры был вскрыт и под ряды ее клавиш установлены датчики давления (рис. 2).

Частота опроса датчиков микроконтроллером Arduino Uno R3 составляет 3000 Гц, но так как последовательно опрашиваются 6 каналов (датчиков), то реальная частота дискретизации каждого из регистрируемых сигналов составляет 500 Гц. Чтобы оценить максимальную информативную частоту сигналов, формируемых при наборе текста на клавиатуре, нужно ориентироваться на наивысшую возможную скорость печати пользова-

теля на клавиатуре. Используя клавиатуру Дворака (вариант раскладки клавиатуры, предполагающий более высокую скорость набора текста по сравнению с традиционной раскладкой QWERTY), в 2005 г. Барбара Блэкберн (Barbara Blackburn) установила мировой рекорд по скорости набора текста на английском языке, отмеченный в Книге рекордов Гиннесса. Она печатала со средней скоростью 150 слов в минуту на протяжении 50 минут, временами ее скорость поднималась до 170 слов в минуту, а на короткий промежуток времени она достигла скорости 212 слов в минуту. В английском языке средняя длина слова равна 5,2 буквы, однако WPM -количество слов в минуту нередко приравнивается к 5 символам (в других странах скорость набора измеряется также в CPM — символах в минуту или в SPM - ударах в минуту). Таким образом, рекорд Барбары Блэкберн составил около 750 символов в минуту. По другим оценкам, нормальной скоростью набора для клавиатуры с раскладкой QWERTY считается 150-200 символов в минуту, хорошей - 250-300 символов. Максимальной скорости набора на клавиатуре, отмеченной в открытых источниках, соответствует частота 12,5 Гц, норме - 2,5 Гц. Согласно теореме Котельникова, частота дискретизации должна быть в два раза выше частоты сигнала. Из этого следует вывод, что частоты дискретизации сигналов 25 Гц вполне достаточно для фиксации всех частотных изменений, происходящих в клавиатурном почерке человека.

Рис. 2. Расположение датчиков давления и внешний вид клавиатуры

Для обработки информации, поступающей от клавиатуры и дополнительных датчиков, была разработана программа на языке C#.

III. Анализ клавиатурного почерка

C. Database of biometrical samples

Для сбора биометрических данных были привлечены 100 испытуемых. Испытуемые подбирались таким образом, чтобы среди них было равное количество представителей всех типов темперамента (холерик, сангвиник, меланхолик, флегматик), что проверялось тестами Айзенка (известно, что тип темперамента влияет на скорость реакции и может влиять на параметры клавиатурного почерка). Каждый испытуемый осуществлял ввод парольной фразы «прошу разрешить доступ к информации» не менее 120 раз на разработанной клавиатуре. Каждый фрагмент данных, формируемый при однократном вводе текста или парольной фразы, назовем образцом клавиатурного почерка.

D. Identification attributes

Каждый образец был преобразован в вектор значений признаков (реализацию клавиатурного почерка). Признаком назовем идентификационную характеристику, конкретную физическую величину, характеризующую оператора. Анализируемые в настоящей работе признаки по физическому смыслу можно разделить на несколько условных категорий, которые представлены в табл. 1.

Базовыми признаками клавиатурного почерка являются времена удержания и паузы между нажатием клавиш [4, 5] (категории 1.1-1.2, табл. 1). Другим признаком, который встречается в научных работах, является частота или время одновременного нажатия пары клавиш (время перекрытия) в процессе ввода текста или контрольной фразы [5, 6]. Иногда реализуется объединение группы признаков в кластер, описывающий n-грамму -n символов, набираемых на клавиатуре последовательно. В такой кластер могут входить времена удержаний n клавиш, n - 1 пауз между нажатиями клавиш, времена одновременного нажатия 2, 3, n клавиш.

За время нажатия клавиши регистрируется множество показателей моментального давления на клавишу и моментальной вибрации клавиатуры. В качестве признаков могут быть использованы как средние, так и максимальные показатели указанных величин. В настоящей работе решено апробировать максимальный регистрируемый уровень давления и вибрации на клавишу (категория признаков 2.1.-2.2, табл. 1). Корреляция между средним и максимальным значением давления при нажатии на клавиши очень существенная (более 0,9), при этом различие этих величин для разных испытуемых было менее заметным.

В настоящей работе предложен переход от временного представления функции моментального давления на клавиши р(Г) и функции показаний вибрации клавиатуры у1Ъто(() к частотному, их исследование и поиск динамических характеристик на основе метода многомасштабного анализа (признаки категорий 3.1-3.2, табл. 1). Функция р($) характеризует уровень давления на клавиатуру при нажатии одной или группы клавиш (учитывается максимальный показатель давления среди группы одновременно нажатых клавиш) в момент времени t, функция у1Ъто($) ставит в соответствие показатель вибрации моменту времени t.

Таблица 1

Описание признаков клавиатурного почерка

№ Категория признаков Краткое описание Ближайший закон распределения

1.1 Времена удержания клавиш Временной промежуток между событиями, при которых определенная клавиша нажата и отпущена (в миллисекундах). С каждой клавишей ассоциирован признак Нормальный

1.2 Паузы между нажатиями клавиш Временной промежуток между событиями, при которых одна клавиша нажата и другая клавиша нажата (в миллисекундах). С каждой парой клавиш ассоциирован признак Логнормальный

2.1 Давление на клавиши Показатель давления, измеряемый в процессе нажатия на определенную клавишу. С каждой клавишей ассоциирован признак Нормальный

2.2 Вибрация при нажатии клавиш Показатель вибрации клавиатуры, измеряемый в процессе нажатия на определенную клавишу. С каждой клавишей ассоциирован признак Нормальный

3.1 Вейвлет-параметры давления Коэффициенты вейвлет-преобразования Добеши D6, вычисляемые из функции давления на клавиши, формируемой в процессе ввода образца клавиатурного почерка Лапласа (двойное экспоненциальное) / Нормальный

3.2 Вейвлет- параметры вибрации Коэффициенты вейвлет-преобразования Добеши D6, вычисляемые из функции вибрации клавиатуры, формируемой в процессе ввода образца клавиатурного почерка Лапласа (двойное экспоненциальное) / Нормальный

Указанные функции отличаются по длительности, поэтому предварительно они приводились к единому временному масштабу. Для этого выполнялось прямое разложение функций р(0 и у1Ъто(() в ряд Фурье, одновременно вычислялась амплитуда и частота для первых к гармоник, на следующем шаге частоты гармоник масштабируемой функции заменялись частотами соответствующих гармоник, полученных для функции, к которой производится масштабирование. Далее выполнялось обратное преобразование Фурье для к гармоник с измененными характеристиками. Нормированные функции подвергались амплитудно-частотному анализу схожим образом с тем, как анализировались функции координат и давления пера при написании подписи в работе [7]. Применяемый метод разложения функций р(0 и у1Ъто(() основан на дискретном вейвлет-преобразовании и использует пирамидальный алгоритм Малла для разложения исходных сигналов на последовательности вейвлет-коэффициентов характеризующих структуру анализируемого процесса на разных масштабах у. В проводимых исследованиях использовался базис вейвлетов Добеши D6 как в [7].

Так как анализируемые сигналы были дискретизированы на частоте 500 Гц, то согласно теореме Котельни-кова верхняя частота сигнала, которая может быть найдена в результате частотного анализа, составляет 250 Гц. В табл. 2 приведены расчеты для девяти уровней разложения исследуемых сигналов, применявшихся в экспериментах. Было установлено, что спектр частот для управляющих сигналов подписи находится в пределах 2.. .12,5 Гц. Таким образом, основная доля мощности сигнала должна быть сосредоточена на уровнях разложения с 5-го по 7-й. Физический смысл коэффициентов вейвлет-преобразования можно трактовать как характеристики гармоник сигнала, принадлежащих определенному частотному диапазону и возникающих в сигнале в определенный момент времени. Данные характеристики можно рассматривать как значения признаков категорий 3.1-3.2. Всего удалось получить по 720 признаков из функций р(Г) и у1Ьго((), т.е. 1440 признаков из каждой парольной фразы.

Таблица 2

Масштабные и частотные характеристики вейвлет-коэффициентов

на разных уровнях разложения

Уровень Полоса частот, Гц Временное разрешение

разложения (масштаб), мс

1 125-250 2

2 62,5-125 4

3 31,25-62,5 8

4 15,625-31,25 16

5 7,8125-15,625 32

6 3,90625-7,8125 64

7 1,953125-3,90625 128

8 0,9765625-1,953125 256

На основании метода Хи-квадрат Пирсона определены наиболее близкие законы распределения значений признаков из табл. 1.

Е. Информативность признаков

Чтобы понять, содержится ли новая информация в дополнительных признаках, определим корреляционную зависимость между временами удержания клавиш, давлением на них и вибрацией клавиатуры, создаваемой при нажатии на клавиши, а также паузами между нажатием соответствующих клавиш. Для этого достаточно вычислить коэффициенты парной корреляции между соответствующими участками реализаций клавиатурного почерка субъекта. Вычислим данные коэффициенты корреляции по всем реализациям всех испытуемых и построим гистограммы относительных частот этих коэффициентов (рис. 3).

Рис. 3. Взаимная зависимость между признаками из различных категорий

Как видно из рис. 3, корреляция между признаками различных категорий почти во всех случаях не превышает 0,7 и в основном соответствует слабой зависимости по шкале Чеддока либо отсутствует вовсе, в некоторых случаях (не более 15%) зависимость является умеренной, крайне редко заметной (менее 5%). Вывод: информация в признаках из различных категорий не дублируется, каналы получения признаков можно считать слабо зависимыми.

Также определим, насколько зависимы признаки категории 3.1 между собой. Для этого вычислим коэффициенты парной корреляции между когерентными сечениями соответствующих признаков. Сечением назовем совокупность значений признака (по аналогии со случайной величиной). Когерентные сечения двух признаков содержат последовательности их значений, совпадающие по фазе, т.е. порядок следования реализаций в массиве значений признака одинаков для 2 сечений. По результатам оценки корреляционная взаимная зависимость 720 признаков категории иногда превышает 0,3 и по шкале Чеддока соответствует слабой. Аналогичный результат был получен относительно признаков категории 3.2. Поэтому дальнейшее увеличение количества вейвлет-коэффициентов возможно, однако время на обработку образцов клавиатурного почерка с добавлением этих признаков существенно возрастает.

Об информативности признака можно судить по площадям пересечения плотностей вероятностей его значений, характеризующих различных субъектов [8]. Площадь пересечения Брк(Лу) функции плотности вероятности у-ого признака, характеризующая /-го испытуемого, с функцией плотности вероятности этого же признака, характеризующей к-ого испытуемого, является суммой вероятностей ошибок 1-го и 2-го рода, т.е. вероятностью ошибочного распознавания /-ого и к-ого субъектов по признаку Лу. Для различных субъектов Брк(Лу) площади могут существенно отличаться, интегральную оценку информативности для всех испытуемых можно получить исходя из параметров распределения величины Бр/к(Лу) (рис. 4). Наиболее информативные признаки имеют наименьшее математическое ожидание Мх(Брк(Лу)) площадей Бр/к(Лу), напротив, признаки с наименьшей информативностью обладают наивысшими оценками Мх(Брк(Лу)). Чем больше информативность признака отличается для различных субъектов, тем выше среднеквадратичное отклонение Бх(Бр/к(Лу)) площадей Бр/к(Лу). Признаки с высокими оценками Бх(Брк(Лу)) являются информативными для одних испытуемых и малоинформативными для других (табл. 3).

Рис. 4. Оценка информативности признаков через Бр/к(Лу) -площади для 100 субъектов

Таблица 3

Средние оценки информативности признаков

№ Категория признаков Mx(Spk(Aj)) Sx(Spik(Aj))

1.1 Времена удержания клавиш 0,62099 0,08352

1.2 Паузы между нажатиями клавиш 0,57107 0,11538

2.1 Давление на клавиши 0,53589 0,10424

2.2 Вибрация при нажатии клавиш 0,80117 0,03526

3.1 Вейвлет-параметры давления 0,77147 0,05706

3.2 Вейвлет-параметры вибрации 0,78358 0,04579

Несмотря на сравнительно низкие средние оценки информативности признака категорий 3.1-3.2, общий потенциал этих признаков очень высок, что обусловлено их большим количеством. Из парольной фразы порядка 30-40 символов за приемлемое время можно получить 1440 признаков с преимущественно слабой взаимной корреляцией по шкале Чеддока. Наибольшей информативностью обладают вейвлет-коэффициенты с высокой частотой (рис. 4). При переходе к следующему уровню разложения разрешение по времени повышается, а диапазон частот снижается (табл. 2), наибольшее суммарное количество информации о печатающем субъекте содержится в высокочастотной части функций p(t) и vibro(t). В целом вибрация клавиатуры менее информативна, чем давление на клавиши для задач идентификации и аутентификации оператора.

IV. Распознавание субъектов по клавиатурному почерку

Существует два режима распознавания образов: идентификация и верификация. В первом случае выполняется определение класса из числа известных системе, к которому принадлежит предъявленный образ. Во втором - указывается предполагаемый класс, и алгоритм распознавания определяет, принадлежит ли предъявленный образ классу (в данный принцип используется в системах аутентификации). В режиме идентификации вероятность ошибок возрастает при увеличении количества идентифицируемых образов. В настоящей работе проводилась идентификация одновременно 10 и 20 субъектов (вычислительный эксперимент проводился несколько раз с разными сочетаниями испытуемых, полученные вероятности ошибок усреднялись).

Л. Идентификация субъектов по клавиатурному почерку

Реализовать алгоритм идентификации субъектов можно при помощи метода последовательного применения формулы гипотез Байеса (1) [9], который заключается в вычислении интегральных апостериорных вероятностей гипотез за некоторое число шагов, равное количеству признаков, при помощи формулы (1). Каждая гипотеза подразумевает, что предъявляемая реализация клавиатурного почерка принадлежит определенному субъекту, т.е. каждая гипотеза ассоциируется с определенным эталоном субъекта. На каждом шаге за априорную вероятность принимается апостериорная вероятность, вычисленная на предыдущем шаге, в качестве условной

вероятности подается на вход плотность вероятности значения очередного признака.

>= > , (.)

' ¿Р,-1(Н,И>Р(Л;|Я, >

1=1

где Р(Л3\Н) - условная вероятность гипотезы Н о том, что предъявленные данные принадлежат эталону /-го испытуемого, равная плотности вероятности значенияу-го признака, Р/Н1 /Л) - апостериорная вероятность /-ой гипотезы, вычисленная на у-ом шаге. На первом шаге все гипотезы (субъекты) считаются равновероятными: Ро(Н/Л) = 1/п, где п - количество идентифицируемых гипотез.

Для создания эталонов испытуемых (вычисления параметров распределения признаков) использовалось по 21 реализации парольной фразы от каждого испытуемого по аналогии с тем, какое количество рекомендуется использовать для обучения нейронных сетей (сетей персептронов) в ГОСТ Р 52633.5-2011. Остальные реализации использовались для проведения идентификации. Всего проведено более 10 000 опытов. Достоверность всех результатов составила более 0,99 при доверительном интервале вероятности 0,003. Получены следующие результаты:

- при идентификации 10 испытуемых в пространстве только базовых признаков (категории 1.1-1.2) средняя вероятность ошибок составила 0,004.

- при идентификации 20 испытуемых в пространстве только базовых признаков (категории 1.1 -1.2) средняя вероятность ошибок составила 0,025.

- при идентификации 10 испытуемых в пространстве базовых и дополнительных признаков (все категории) средняя вероятность ошибок составила 0,002.

- при идентификации 20 испытуемых в пространстве базовых и дополнительных признаков (все категории) средняя вероятность ошибок составила 0,006.

В. Верификация субъектов по клавиатурному почерку

В ГОСТ Р 52633.5-2011 рекомендуется использовать однослойные или двухслойные искусственные нейронные сети в целях биометрической аутентификации. Первый слой осуществляет обогащение данных, второй играет роль кодов, исправляющих ошибки. В настоящей работе будет применяться однослойная нейронная сеть [10]. Веса нейронов вычисляются детерминировано по формуле:

ц = |Бч(х,) - Бс(х,)| / сч(х,>сс(х,),

где Бс(х,) - мат. ожидание (среднее значение) значений признака для образа «Свой», ос(х,) - среднеквадратичное отклонение значений признака для образа «Свой», Бч(х,) и сч(х,) - аналогичные показатели для образа «Чужой».

Обработчики признаков связывают с нейронами первого слоя сначала последовательно, а при превышении номера нейрона над числом признаков случайно. Выход сумматора нейрона на этапе принятия решений определяется по формуле:

У = Ё М1 • V + Ив, (2)

1=1

где V, - ,-ый вход нейрона, т - число входов, ц, - весовой коэффициент ,-ого входа, ц0 - нулевой вес, отвечающий за переключатель квантования нейрона.

Помимо сетей персептронов могут быть построены сети из иных функционалов, в частности на основе метрики Пирсона (3). Метрика Пирсона является квадратичной формой [11], не учитывающей корреляционные связи между признаками. Поэтому она дает хорошие результаты при ее использовании в сочетании с признаками, имеющими слабую взаимную корреляцию (менее 0,3).

, (3)

у О

,=1 )2

где V, - ,-ый вход нейрона, Б^,) - мат. ожидание (среднее значение) ,-ого входа нейрона, о^,) - среднеквадратичное отклонение ,-ого входа нейрона.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В настоящей работе решено реализовать сеть из функционалов Байеса-Пирсона с одним слоем нейронов, рассчитывающих выход по формуле (3). Полученное значение далее сравнивается с пороговым. Для каждого нейрона имеется свое оптимальное пороговое значение, которое подбирается эмпирически, исходя из произведения:

0=Хтах-а,

где Хшк - это максимальное значение квадратичной формы при поступлении на вход обучающих примеров образа «свой», а - стабилизирующий коэффициент, экспериментально подбираемый для каждого пространства признаков. Далее при превышении порога нейрон выдает единицу («1»), иначе нуль («0»).

Проведен вычислительный эксперимент с имеющимися биометрическими данными. Для каждого испытуемого была сформирована сеть из нейронов на базе функционала (2) (персептрон) и сеть из нейронов на базе функционала (3) (сеть квадратичных форм или сеть Пирсона-Хемминга). Для обучения описанных сетей использовалось не менее 21 реализации от каждого субъекта и по одной реализации от 64 субъектов для персеп-тронов (требование ГОСТ Р 52633.5-2011). Остальные реализации подавались на вход сетям для принятия решений. Количество нейронов и их входов в настоящей работе - параметр, который изменялся в процессе вычислительного эксперимента. Результаты эксперимента можно видеть на рис. 5-7. Вероятности ошибок рассчитывались, как отношение количества событий выдачи сетью неверного кода, и числа проведенных опытов. За один опыт принималась попытка формирования кода сетью из аутентичных биометрических данных субъекта (данных, принадлежащих этому субъекту) либо попытка фальсификации кода одного из субъектов с использованием биометрических данных другого субъекта (данные подавались на вход сети, соответствующей тому субъекту, код которого требуется сгенерировать). Ошибки рассчитывались для случая точного или частичного равенства ключей. В первом случае генерируемый и эталонный код считаются равными, если расстояние Хем-минга Её между ними равно нулю. Во втором случае число ошибок подсчитывалось при различном расстоянии Хемминга (Её > 0) между генерируемым кодом и верным, далее для каждой конфигурации сети (количества нейронов и их входов) вычислялось оптимальное расстояние Хемминга, при котором число ошибок было наименьшим. Достоверность результатов составила свыше 0,99 при доверительном интервале 0,01.

Number of neuron inputs

Рис. 5. Результаты распознавания 100 субъектов в пространстве базовых признаков (категории 1.1-1.2) при Её>0

Рис. 6. Результаты распознавания 100 субъектов в пространстве базовых и части дополнительных признаков (категории 1.1-2.2) при Её>0.

Рис. 7. Результаты распознавания 100 субъектов в пространстве всех признаков (категории 1.1-3.2) при Её>0

Анализируя результаты, можно отметить, что размерность решающего правила стоит повышать, но не до максимально возможного уровня, т.к. увеличение количества входов нейронов снижает вероятность ошибок только до определенного момента, после которого дальнейшее повышение размерности функционалов ведет к некоторому росту числа ошибок. Увеличение количества нейронов не приводит к ухудшению ситуации, число нейронов нужно повышать, пока их выходы не слишком коррелированы - в этом случае изменяя пороговое значение расстояния Хемминга Её между генерируемым кодом и верным, удается получить существенный выигрыш по сумме вероятностей ошибок 1-го и 2-го рода. В частности, если производить верификацию образов субъектов без использования признаков, получаемых с помощью вейвлет-преобразования Добеши (рис. 5 и 6), то для персептронов выгоднее повышать количество искусственных нейронов, а для сетей Пирсона-Хемминга - размерность нейронов (количество входов). Ситуация меняется, если задействовать характеристики, основанные на вейвлет-преобразовании Добеши.

V. Заключение

Резюмируем основные результаты:

1. Разработана клавиатура с использованием специальных датчиков давления и вибрации для снятия дополнительных характеристик клавиатурного почерка.

2. Предложена категория признаков, основанная на применении вейвлет-преобразования Добеши D6 к функции давления на клавиши и функции вибрации клавиатуры при наборе текста. Получено по 720 признаков из функций давления и вибрации одной парольной фразы (состоящей из 35 символов). Видится возможным получить большее количество слабо и умеренно коррелирующих признаков (по предварительным оценкам, порядка 2000-3000). При этом вероятность ошибки будет снижаться, однако время на обработку операции вычисления признаков существенно повышается.

3. Определены законы распределения базовых и дополнительных признаков клавиатурного почерка. Установлено, что наивысшей средней информативностью обладают признаки давления на клавиши.

4. Произведена оценка корреляционной зависимости признаков: определено, что зависимость базовых (временные характеристики нажатий клавиш) и дополнительных признаков (давление на клавиши и вибрация клавиатуры) в более чем 80% случаев является слабой или незначительной. Таким образом, в предложенных признаках содержится новая информация о субъекте.

5. По результатам эксперимента (с участием 100 испытуемых) количество ошибок идентификации 20 человек составило 0,6% при использовании как базовых, так и дополнительных признаков. Установлено, что дополнительные признаки в среднем могут снизить количество ошибок в 2-4 раза (в зависимости от числа идентифицируемых образов).

6. В режиме верификации дополнительные признаки позволили снизить вероятность ошибки более чем на 42,5%. Получены следующие наименьшие вероятности ошибок FRR и FAR при верификации субъектов:

- при использовании базовых признаков сетью персептронов с обучением по ГОСТ Р 52633.5-2011 с количеством нейронов 300 и количеством входов 3: FRR=0,059, FAR=0,124.

- при использовании базовых и частично дополнительных признаков (не включая вейвлет-коэффициенты) сетями персептронов Пирсона-Хемминга с количеством нейронов 250 и количеством входов 20: FRR= 0,059, FAR=0,07.

- при использовании всех признаков сетью персептронов с обучением по ГОСТ Р 52633.5-2011 с количеством нейронов 600 и количеством входов 100: FRR=0,047, FAR=0,058.

По результатам проведенных экспериментов метод последовательного применения формулы гипотез Байеса показал наилучшие результаты в сравнении с однослойными персептронами и сетями квадратичных форм. Целесообразным видится подход, сочетающий использованные методы распознавания образов. В целом использование дополнительных признаков клавиатурного почерка в целях идентификации и верификации оператора является продуктивным.

Приложение

Исследование было поддержано РФФИ (проект № 15-07-09053).

Список литературы

1. Global Data Leakage Report, H1 2016.// InfoWatch. URL: http://infowatch.com/sites/default/files/report/InfoWatch Global Report 2016 ENG.pdf.

2. Net Losses: Estimating the Global Cost of Cybercrime. Center for Strategic and international Studies, June 2014. URL:

3. Moving forward with cybersecurity and privacy. URL: http://www.pwc.ru/ru/riskassurance/ publica-tions/assets/gsiss-report_2017_eng.pdf.

4. Lozhnikov P. S., Sulavko A. E., Eremenko A. V., Buraya E. V. Methods of generating key sequences based on keystroke dynamics // Dynamics of Systems, Mechanisms and Machines: X International IEEE Scientific and Technical Conference, 15-17 November. Omsk, 2016. Р. 1-5. DOI: 10.1109/Dynamics.2016.7819038.

5. Pisani Paulo Henrique, Lorena Ana Carolina. A systematic review on keystroke dynamics // Journal of the Brazilian Computer Society. 2013. 19 (4). Р.

6. Salil P. Banerjee, Damon L. Woodard. Biometric Authentication and Identification using Keystroke Dynamics: A Survey // Journal of Pattern Recognition Research. 2012. № 7. P. 116-139.

7. Lozhnikov P. S., Sulavko A. E., Eremenko A. V., Volkov D. A. Methods of Generating Key Sequences based on Parameters of Handwritten Passwords and Signatures // Information. 2016. 59, № 7 (4). DOI: 10.3390/info7040059.

8. Lozhnikov P. S., Sulavko A. E., Samotuga A. E. Personal Identification and the Assessment of the Psychophysiological State While Writing a Signature // Information. 2015. № 6. Р. 454-466. DOI: 10.3390/info6030454.

9. Vasilyev V. I., Sulavko A. E., Eremenko A. V., Zhumazhanova S. S. Identification potential capacity of typical hardware for the purpose of hidden recognition of computer network users // Dynamics of Systems, Mechanisms and Machines: X International IEEE Scientific and Technical Conference, 15-17 November. Omsk, 2016. Р. 1-5. DOI: 10.1109/Dynamics.2016.7819106.

10. Ivanov A. I., Kachajkin E. I., Lozhnikov P. S. A Complete Statistical Model of a Handwritten Signature as an Object of Biometrie Identification // Control and Communications (SIBCON), 12-14 May. Moscow, 2016. Р. 1-5.

11. Ivanov A. I., Lozhnikov P. S., Serikova Yu. I.. Reducing the Size of a Sample Sufficient for Learning Due to the Symmetrization of Correlation Relationships Between Biometric Data // Cybernetics and Systems Analysis. 2016 Vol. 52, no. 3. Р. 379-385.

УДК 004.056

РЕАЛИЗАЦИЯ МОДЕЛИ АНАЛИЗА ЗАЩИТЫ ИНФОРМАЦИИ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ

Е. В. Трапезников

Омский государственный технический университет, г. Омск, Россия

DOI: 10.25206/2310-9793-2017-5-4-105-111

Аннотация - В работе представлен анализ систем оценки защищённости информации в информационной системе. Рассмотрены различные варианты построения систем оценки. Представлена разрабатываемая модель оценки защищённости на основе нейронной сети. Приведена реализация разрабатываемой модели в виде алгоритма работы и блок-схемы. По результатам работы определено, что модель позволяет проводить анализ оценки защищённости автоматизированной системы в изменяющихся условиях без потери качества и правильности принятия решения.

Ключевые слова: нейронная сеть, порог активации нейрона, функция безопасности.

I. Введение

Современные информационные системы предполагают достаточно большой набор различных компонентов, модулей, подпрограмм и т.д. Каждая из составляющих системы обрабатывает, или передает какую-либо информацию. При изучении вопроса оценки защищённости информационной системы важно в полной мере оценить все составляющие системы для предотвращения потери информации.

В настоящий момент существуют различные разработки как отечественных, так и зарубежных программных решений, призванных повысить уровень защищённости информационной системы. Совокупность всех средств является основой при анализе защиты информации. Существующие решения используют в своей основе различные подходы. Это могут быть как системы принятия решений, генетические алгоритмы, нейронные сети, теория искусственных иммунных систем, байесовская сеть. Вопрос важности объектов компьютерной системы для безопасности данной системы рассматривается авторами [1]. Объекты, из которых состоят системы, играют разные роли в компьютерных системах и имеют разный уровень важности для безопасности системы. Авторы [1] в своей работе при разработке эффективных методов защиты оценивают важность объектов системы. Большая часть работы [1] была сосредоточена на понимании и оценке важности системных объектов с точки зрения безопасности. В ней авторами создана сеть зависимостей безопасности от модели доступа, чтобы количественно оценить важность системных объектов безопасности в целом по всей системе. Оценивается важность объектов в отношении безопасности по показателям центральности и предлагается модель обнаружения вредоносных программ, а также составляющие системы, чтобы продемонстрировать их практичность. Данная система позволяет существенно повысить процент обнаружения вредоносных программ, и при этом ошибка при обнаружении достаточно мала.

Современную обработку информации тяжело представить без сетевого взаимодействия как внутри организации, так и за ее пределами. Передача информации может осуществляться как между филиалами организации, так и в сторонние организации.

В работах [2, 11, 12] затрагивается проблема обнаружения атак, происходящих через сеть. Наличие сети представляет серьезные проблемы безопасности. Быстрое увеличение числа атак на сеть сделало проблемы безопасности наиболее актуальной задачей. Текущие решения защиты для сетевой безопасности - это в основном статические методы, которые используются для сбора, анализа и извлечения доказательств после атак. Этот подход включает обнаружение вирусов, брандмауэр и т.д. Авторы говорят, что многие методы обнаружения, анализа образцов вирусов или сигнатур вторжения основаны на традиционных методах, таких как статистический анализ, анализ характеристик, нейронная сеть и т.д. Сетевые брандмауэры - это еще один способ защиты от атаки. Их недостаток, как подчеркивают авторы, в отсутствии самообучаемости, они могут только предот-

i Надоели баннеры? Вы всегда можете отключить рекламу.