Научная статья на тему 'Идентификация пользователей корпоративной системы с помощью поведенческого анализа с использованием модели искусственной нейронной сети'

Идентификация пользователей корпоративной системы с помощью поведенческого анализа с использованием модели искусственной нейронной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1003
169
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЯ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ИНФОРМАЦИОННАЯ СИСТЕМА / ИНФОРМАЦИЯ / ИНЦИДЕНТ БЕЗОПАСНОСТИ / КЛАВИАТУРНЫЙ ПОЧЕРК / НЕЙРОННАЯ СЕТЬ / НЕСАНКЦИОНИРОВАННЫЙ ДОСТУП / ПОВЕДЕНЧЕСКИЙ АНАЛИЗ / РАЗГРАНИЧЕНИЕ ДОСТУПА / USER AUTHENTICATION / INFORMATION SECURITY / INFORMATION SYSTEMS / INFORMATION SECURITY INCIDENT / KEYBOARD HANDWRITING / NEURAL NETWORK / UNAUTHORIZED ACCESS / BEHAVIORAL ANALYSIS / ACCESS CONTROL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савинова В.М., Бесхмельницкий А.А., Бибина Е.С., Осадчая А.Д.

Данная статья посвящена практическим аспектам информационной безопасности, в частности, проблемам обнаружения несанкционированного доступа к информации. Она описывает возможность распознавания пользователя системы посредством анализа его поведения за компьютером. В качестве исходных данных для анализа используются такие показатели, как продолжительность нажатия клавиш клавиатуры или кнопок мыши, интервал между нажатиями и тип действия, которые являются уникальными для каждого пользователя. Сам анализ производится с помощью искусственной нейронной сети, обученной на работу определенных пользователей. Исследование направлено на выявление человека, пытающегося получить несанкционированный доступ к системе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Савинова В.М., Бесхмельницкий А.А., Бибина Е.С., Осадчая А.Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OF CORPORATE SYSTEM USERS BY BEHAVIOR ANALYSIS USING AN ARTIFICIAL NEURAL NETWORK MODEL

This article focuses on the practical aspects of information security, in particular, the problems of detection of unauthorized access to information. It describes the ability to recognize the user of information system by analyzing his behavior at the computer The initial data that is used for the analysis consists of such factors as the duration of keystrokes or mouse buttons pushes, the interval between presses, the type of action that are unique to each user. The analysis is performed by using an artificial neural network that is trained to certain users. The research aims at identifying the person who is trying to gain unauthorized access to the system.

Текст научной работы на тему «Идентификация пользователей корпоративной системы с помощью поведенческого анализа с использованием модели искусственной нейронной сети»

УДК 004

ИДЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЕЙ КОРПОРАТИВНОЙ СИСТЕМЫ С ПОМОЩЬЮ ПОВЕДЕНЧЕСКОГО АНАЛИЗА С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ

ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ

Савинова В.М., аспирант, старший преподаватель кафедры «Информатика», ФГБОУ ВО «Российский экономический университет

имени Г.В. Плеханова», e-mail: lesnayapol@yandex.ru

Бесхмельницкий А.А., студент магистратуры, ФГБОУ ВО «Российский экономический университет имени Г.В. Плеханова» Бибина Е.С., студентка бакалавриата, ФГБОУ ВО «Российский экономический университет имени Г.В. Плеханова»

Осадчая А.Д., студентка магистратуры, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»

Данная статья посвящена практическим аспектам информационной безопасности, в частности, проблемам обнаружения несанкционированного доступа к информации. Она описывает возможность распознавания пользователя системы посредством анализа его поведения за компьютером. В качестве исходных данных для анализа используются такие показатели, как продолжительность нажатия клавиш клавиатуры или кнопок мыши, интервал между нажатиями и тип действия, которые являются уникальными для каждого пользователя. Сам анализ производится с помощью искусственной нейронной сети, обученной на работу определенных пользователей. Исследование направлено на выявление человека, пытающегося получить несанкционированный доступ к системе.

Ключевые слова: идентификация пользователя, информационная безопасность, информационная система, информация, инцидент безопасности, клавиатурный почерк, нейронная сеть, несанкционированный доступ, поведенческий анализ, разграничение доступа.

IDENTIFICATION OF CORPORATE SYSTEM USERS BY BEHAVIOR ANALYSIS USING AN ARTIFICIAL NEURAL NETWORK MODEL

Savinova V., the post-graduate student, senior lecturer, Informatics chair, FSEIHE «Plekhanov Russian University of Economics», e-

mail:lesnayapol@yandex.ru Beskhmelnitsky A., the post-graduate student, FSEI HE «Plekhanov Russian University of Economics» Bibina E., student, FSEI HE «Plekhanov Russian University of Economics» Osadchaya A., graduate student, National Research University Higher School of Economics

This article focuses on the practical aspects of information security, in particular, the problems of detection of unauthorized access to information. It describes the ability to recognize the user of information system by analyzing his behavior at the computer The initial data that is used for the analysis consists of such factors as the duration of keystrokes or mouse buttons pushes, the interval between presses, the type of action that are unique to each user. The analysis is performed by using an artificial neural network that is trained to certain users. The research aims at identifying the person who is trying to gain unauthorized access to the system.

Keywords: user authentication, information security, information systems, information security incident, keyboard handwriting, neural network, unauthorized access, behavioral analysis, access control.

В настоящее время любой хозяйствующий субъект подвержен множеству угроз, связанных с моральными и финансовыми потерями. Особенно остро встает проблема безопасности данных, хранящихся в сети и на корпоративной компьютерной технике.

В исследовании SANS Institute за 2016 год количество инцидентов, связанных с несанкционированным доступом, возросло на 8,7%. При этом в большинстве случаев правонарушений (77%) мишенью для злоумышленников являлась корпоративная техника: ноутбуки и смартфоны сотрудников организации [1].

По данным отчета InternetSecurityThreat компании Symantec Corporation за 2015 год количество инцидентов по вине инсайдеров возросло на 2% и составляет 10% от общего количестваслучаев хищения информации [2].

Существует множество различных механизмов проверки подлинности сотрудников: парольные, атрибутивные и др. Но из приведенной выше статистики можно сделать вывод, что вопрос полной идентификации пользователей в системе в режиме реального времени остается открытым. Поэтому объектом исследования в данной работе является управление доступом к корпоративной системе хозяйствующего субъекта.

В качестве решения поднятой проблемы целесообразно разработать средства идентификации пользователей корпоративной системы, применяя методики поведенческого анализа. Поведение каждого человека уникально: каждый из нас имеет только ему присущий набор задатков, параметры организма, особенности нервной системы, приобретенный опыт, формы мышления, эмоции и т. д. Если рассматривать пользователей системы с этой стороны, то задача их распознания будет легко решаемой.

Для достижения поставленной цели необходимо выявить все ключевые признаки, по которым определение пользователя при работе на автоматизированном рабочем месте является возможным, а также реализовать модель поиска этих характеристик и их сравнение с заданными с помощью модели искусственной нейронной сети.

Данная проблема применения методов поведенческого анализа

при работе в системе уже рассматривалась в ряде научных работ. А.Н. Аверкин рассматривал иррациональность поведения человека при принятии решения [3]. А.Н. Савинов описал методы, модели и алгоритмы распознавания клавиатурного почерка в ключевых системах [4]. Тема не осталась без внимания и за рубежом. Еще в 2002 г. итальянцы Ф. Бергадано, Д. Гунетти и К. Пикарди опубликовали несколько работ, посвященных аутентификации пользователей с применением анализа нажатия клавиш на клавиатуре [5]. Английский профессор Р. Максион написал ряд научных работ о динамике нажатия клавиш пользователем, рассматривая поведенческие механизмы для применения в расследовании компьютерных преступлений [6].

Данные работы основаны на классических методах идентификации пользователей без применения нейросетевых технологий. Они не содержат в себе описания механизма идентификации и аутентификации пользователя в режиме реального времени. Кроме того, в работах упускаются другие немаловажные возможности пользователя: использование манипулятора, особенности использования директорий и эксплуатации самой системы в целом.

Входные данные для анализа были получены экспериментальным путем с согласия участников исследования с использованием программной утилиты «Feor», разработанной А. Бесхмельницким.

Главными факторами биометрической информации, описывающей поведенческие особенности ввода управляющих последовательностей пользователем, являются параметры применения клавиатуры и мыши.

Для сбора и хранения особенностей ввода управляющих последовательностей клавиатуры применяется слежение за клавиатурным буфером машины. При любом использовании клавиатуры необходимо записывать продолжительность набора устойчивого сочетания управляющей последовательности, задержки между нажатиями, и продолжительности нажима отдельных клавиш. Для сбора информации об использовании мыши и аналогичных манипуляторов необходимо фиксировать изменения положений, времени и скорости передвижения курсора.

actionMark_û

787.42014532049

■1998.14022113108

Рис. 1. Архитектура нейронной сети

791.139703058336

Эти данные, при условии точности их регистрации до одной миллисекунды, позволяют максимально точно определить пользователя, его психологическое и эмоциональное состояние, степень уверенности, состояние стресса и максимально полно идентифицируют конкретного человека, представляя собой основные параметры биометрических особенностей ввода.

Собираемые данные фиксируются по времени и записываются в специальную базу данных. Далее производится анализ данных при помощи специальной искусственной нейронной сети, на основе выдаваемых ею данных будет приниматься решение о подлинности пользователя.

Реализовать представленную концепцию классическими методами программирования не представляется возможным. Программная модель должна иметь возможность обучаться исовершенствовать свою структуру ввиду возможных изменений поведения пользователя. Именно поэтому используется искусственная нейронная сеть.

Искусственная нейронная сеть - этосеть искусственных нейронов, связанных между собой синаптическими соединениями.Она,

изменяя свое состояние, перерабатывает заданные входные данные в совокупность выходных сигналов.

Основным отличием модели, построенной на основе нейронной сети, является ее возможность к обучению, т.е. коррекции начальных весов. При этом исходные данные подразделяют на обучающее и тестовое множества. Первое служит для непосредственного обучения, второе - для проверки качества обученной модели [7].

В рамках данной работы будет применяться метод обратного распространения ошибки «Ьаскрго^а1:юп» [10].

В зависимости от того, как нейроны связаны между собой, определяется архитектура искусственной нейронной сети. В данной работеиспользовались только полно связные сети (нейроны связаны каждый с каждым) прямого распространения (сигнал проходит от входных нейронов до выходных) - персептроны[8].

Для реализации построения системы идентификации пользователей была использована искусственная нейронная сеть, построенная и обученная с помощью программного продукта ОесСис1:огАсаСетю[9].

Таблица ? -г я x|

(SH g" & Y | M ч [ 1/48 ► M | [ 1'

aclionlntetval actionLongs acfortType aclionMark A

► 1063.5516 80,3678 mouseDick TRUE

1012.2066 255,0904 mouseDick TRUE

708.238 98,691 mouseDick TRUE

1001.1999 57.9925 mouseClick FALSE

449.1739 112.357 mouseClick FALSE

1805.6029 96,2993 mouseClick FALSE

1121.6642 131,0739 mouseClick FALSE

1081.9229 616,1237 mouseClick FALSE

2492.1336 92,5468 mouseClick TRUE

1448.5772 48.7059 mouseClick TRUE

1671,1044 126,4875 mouseClick FALSE

1112.5326 51.0716 mouseClick FALSE

663.0252 49,6669 mouseClick TRUE

288.0615 43,7193 mouseClick TRUE

2321.9476 94,1247 mouseClick TRUE

935.3701 63,3268 mouseClick TRUE

1177.9229 71,5765 mouseClick TRUE

2421.4409 61.0745 mouseClick TRUE

2498,2732 81,5101 mouseClick TRUE

1616.2803 78,1491 mouseClick TRUE

2500,9539 95,1989 mouseClick TRUE

1796,082 86,8384 mouseClick FALSE

1264,2453 93,7529 mouseClick FALSE

1912.2955 82.4365 mouseClick TRUE

1004.7042 72.5306 mouseClick TRUE

Рис.2 Собранные данные

Поле Значение

Б Входные

9.0 actionl nterval 368,537

9.0 actionLorigs ■ 473,1235

Б Выходные

ab actionMark FALSE

Рис 3. Неправомерный доступ к системе

Рис 4. Правомерный доступ к системе

Основной задачей нейронной сети в данной работе является разделение полученных данных на два типа: к первому относятся случаи, которые определяют санкционированный доступ (то есть владельца аккаунта, компьютера и прочее), ко второму -несанкционированный доступ к данным (злоумышленника). Для адекватной работы искусственной нейронной сети необходимы примеры данных как первой, так и второй группы.

Следует учесть, что происходит постоянное изменение поведения пользователя в процессе работы. Таким образом, исследуемый показатель не является статическим, то есть он изменяется с течением времени. В связи с этим и нейронная сеть должна работать в динамическом режиме, то есть проходить процесс переобучения по мере изменения поведения пользователя. Входные данные представляют собой непрерывный поток значений регистрируемых показателей. Поэтому обучающая и тестовая выборки, хранящиеся в памяти системы, должны обновляться в определенные периоды времени.

В качестве архитектуры нейронной сети в данном исследовании был выбран многослойный персептрон, так как он качественно решает задачи классификации. Количество слоев было взято равным трем (один входной, один скрытый и один выходной), т.к. размер обучающей выборки варьируется от 50-100. Ее размер зависит от пользователя, то есть как часто меняются его показатели работы с компьютером, другими словами эволюция поведения. На входном слое количество нейронов было взято два, так как рассматривается два входных параметра (период между действиями и длительность действия). Выходной слой состоит из одного нейрона, так как классификация в модели осуществляется только на две группы. Количество нейронов на скрытом слое определяется экспериментально для конкретной выборки. В данной модели оно может варьироваться в пределах 10-20 нейронов в зависимости от пользователя.

В качестве функции активации нейронов сети выбрана сиг-моидальная с коэффициентом кривизны равным единице. Метод обучения - обратного распространения ошибки.

В результате работы обученной модели должен быть получен ответ на вопрос - является ли доступ к информации пользователя, осуществляющего в настоящий момент работу с компьютером, правомерным. Если нет, система выдает отказ в доступе и дальнейшей работе.

Когда нейронная сеть обучена, на нее начинает поступать поток данных о работе текущего пользователя. С некоторой долей вероятности модель определяет правомерность доступа, однако существует критическое значение, при котором система не может однозначно это определить. Это происходит в связи с тем, что поведение ввода человека изменяется с течением времени, так как на него оказывает воздействие множество факторов (например, усталость и т.д.). Модели нужно принять решение, пришло время переобучиться в связи с изменением параметров ввода или запретить доступ к данным. В этом случае работает система нечеткого вывода.

В качестве метода нечеткого вывода выбран метод центра тяжести (Мамдани). В модели две входные переменные.

Первая входная переменная - это скорость ввода. Она может

принимать значения «низкая», «средняя» и «высокая». Ее диапазон лежит на отрезке от 0 до 1000 действий в минуту.

Уверенность ввода - второй входной параметр, который может принимать значения «неуверенный», «средний» и «уверенный». Данный параметр варьируется от 0 до 1. В качестве Функции принадлежности входных переменных была выбрана функция Гаусса.

Выходная переменная - Процесс ввода, которая характеризует пользователя (значение true - легитимный доступ, false - нелегитимный, «evolution» - легитимный пользователь, однако сети необходимо переобучение). Далее формируется база правил, которая определяет взаимосвязь входных и выходного параметров.

Данная модель позволяет определить по выбранным параметрам, в какой момент построенной нейронной сети необходимо начать процесс переобучения (то есть добавить новые паттерны в свою обучающую выборку).

В рамках построенной модели был проведен практический эксперимент, в котором приняли участие десять человек. Была выбрана программная среда, хорошо знакомая легитимному пользователю и совершенно неизвестная остальным.

Пользователи работали час с системой, в результате были собраны данные работы каждого (задержка ввода, длительность действия и его вид). Затем данные были отсортированы по виду действия (клик мыши, ввод с клавиатуры)(см. рис.2).Таким образом, была сформирована обучающая и тестовая выборки. Анализируя поведение пользователя, был выбран оптимальный размер обучающей выборки (100 примеров). Затем средствами платформы DeductorAcademic была построена и обучена нейронная сеть.В результате была получена точность распознавания тестовой выборки 80%.

Теперь с помощью обученной нейронной сети определяем пользователя по новым собранным данным. На первой итерации (30 мин) сеть с высокой точностью (70-100%) определяла, кто находится за компьютером (легитимный пользователь или нет) (рис.3-4).

Для определения легитимности доступа в этом случае проверяется системой нечеткого вывода, которая при заданных параметрах принимает решение переобучать сеть или же заблокировать доступ.

Современная практика показывает, что биометрические данные всегда служат надежным способом идентификации и аутентификации пользователя в системе. Точность определения пользователя за компьютером данным способом с помощью нейронной сети составила более 80%. Однако параметры особенностей ввода информации изменяются во времени из-за различных факторов, таких как усталость, стрессовое состояние, привыкание к устройству ввода и банальное обучение пользователя работе с системой. Адекватно говорить о необходимости постоянной корректировки параметров работы системы и ее динамического обучения.В перспективе возможно создание гибридной системы с применением различных методов анализа иерархий (подробнее о методах описано в [11]).

Для обеспечения данного принципа каждое совершенное пользователем действие должно учитываться в системе обучения нейронной сети. Так же дополнительно необходимо накапливать и систематизировать статистическую информацию о характере из-

менения параметров ввода в течение продолжительного времени на предмет выявления их сезонности, динамики и темпа изменений. С такой задачей справится динамическая нейронная сеть. На данный момент точность обученной системы составляет не более 70% на одно действие. Тем не менее, этого достаточно для избегания ложных срабатываний системы и позволяет точно определять пользователя за промежуток от 5 до 10 действий. В дальнейшем планируется совершенствование данной модели путем использования новых методов обучения сети и обновления ее архитектуры.

Литература:

l.Internet Security Threat Report: Volume 21 by Symantec Corporation World Headquarters. [Электронный ресурс]. - Режим доступа: https://www.symantec.com/content/dam/symantec/docs/reports/ istr-21-2016-en.pdf;

2.Incident Response Capabilities in 2016: The 2016 SANS Incident Response Survey by SANS Institute. [Электронный ресурс]. - Режим доступа: https://www.sans.org/reading-room/whitepapers/incident/ incident-response-capabilities-2016-2016-incident-response-survey-37047;

3.Аверкин А.Н. Нечеткие поведенческие модели принятия решений c учетом иррациональности поведения человека // Научные труды Вольного Экономического Общества России. -2014. - Том 186. - С. 153-158;

4. Савинов А. Н. Методы, модели и алгоритмы распознавания клавиатурного почерка в ключевых системах : диссертация ... кандидата технических наук.- Йошкар-Ола, 2013. - 97 c.;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Bergadano F., Gunetti D., Picardi C. User authentication through keystroke dynamics // Journal ACM Transactions on Information and System Security. - 2002 г. -Volume 5 Issue 4. - С. 367-397;

6. Roy A. Maxion Page of Carnegie Mellon School of Computer Science. [Электронный ресурс]. - Режим доступа: http://www.cs.cmu. edu/~maxion/;

7. Каллан Р. Основные концепции нейронных сетей - «Вильямс», 2001. - 288 с.;

8. R. Rojas: Neural Networks // Springer-Verlag. - Berlin. -199бг.;

9. DeductorBaseGroupLabs: Продвинутая аналитика без программирования. [Электронный ресурс]. - Режим доступа: https:// basegroup.ru/deductor/description;

10. Савинова В.М. Повышение точности и качества краткосрочного прогноза показателей социальной сферы России с использованием искусственных нейронных сетей/Савинова В.М., Бесхмельницкий А.А.// Исследования молодых ученых: экономическая теория, социология, отраслевая и региональная экономика. - 2015. - С. 290-295.

11. Титов В.А., Хайрулин И.Г., К вопросу о форме свертки локальных векторов приоритетов альтернатив по частным критериям в обобщенный вектор в методе анализа иерархий // Фундаментальные исследования. 2013. № 10-9. С. 2020-2025.

12. Китов В.А. Информационные технологии и математические методы в экономике и управлении(по материалам конференции итимм-2015) // Менеджмент и бизнес-администрирование. 2015. № 3.С. 5-8.

i Надоели баннеры? Вы всегда можете отключить рекламу.