УДК 004.891.2
СОХРАНЕНИЕ ЦЕЛОСТНОСТИ ДАННЫХ ПРИ ПОМОЩИ АНАЛИЗА АНОМАЛИЙ В ПОВЕДЕНЧЕСКОЙ ДЕЯТЕЛЬНОСТИ ПОЛЬЗОВАТЕЛЕЙ
П.А. Савенков, П.С. Трегубов
Целью исследования является разработка методов и алгоритмов программных для обнаружения аномального поведения пользователей на основе анализа поведенческих биометрических характеристик. В данной статье осуществляется обзор методов, алгоритмов и подходов, применяемых в разрабатываемом программном комплексе. Нахождение отклонений в собранных данных обеспечит своевременное реагирование администратора системы на отклонения от поведенческого профиля пользователя, что позволит сохранить целостность целевых данных.
Ключевые слова: Big Data, Data science, большие данные, программное обеспечение, машинное обучение, кластеризация, DBScan, UBA.
За последние несколько лет наблюдается устойчивый рост интереса к анализу аномальной активности в деятельности пользователей для сохранения целостности данных в информационных системах. Многими экспертами отмечается тенденция возросшего количества внутренних вторжений по сравнению с внешними. Аналитики отмечают, что более половины случаев хищения информации происходят по вине собственных сотрудников или иных лиц, имеющих легитимный доступ к информационной системе.
Источниками внутренних угроз могут являться различные категории пользователей, имеющих доступ к внутренней корпоративной сети. Группу потенциально вредоносных пользователей корпоративной сети трудно идентифицировать, и она может быть намного шире, чем может показаться на первый взгляд.
Кроме того, количество данных, которые могут являться целью внутренних атак, постоянно растёт [1]. Как показывают современные исследования, от момента, когда пользователь решает украсть данные, до непосредственно пересылки данных, проходит от нескольких недель до нескольких месяцев, которые уходят на стадию подготовки утечки. В настоящее время всё больше экспертов сходится во мнении, что утечки данных необходимо определять ещё до стадии пересылки данных за информационный периметр компании.
Причины аномального поведения пользователей. В большинстве случаев, пользователь начинает совершать действия, не характерные для его предыдущей активности как по набору выполняемых операций, так и по содержанию обрабатываемой информации.
Стадия, в течение которой наблюдается аномальное поведение пользователя, как правило, занимает достаточно длительное время, вплоть до нескольких месяцев. В связи с этим за последние несколько лет активное развитие получило направление анализа поведения пользователей для обнаружения отклонений от эталонного профиля.
Аномальное поведение может свидетельствовать о том, что пользователь не является тем, от имени кого он авторизовался, или пользователь интересуется документами, которые не относятся к его текущей рабочей деятельности [2]. Так же аномальное поведение может свидетельствовать тому, что пользователь перестал выполнять свои целевые обязанности должным образом и расходует рабочее время на решение иных задач.
Источники искомых пользовательских данных и их анализ. При анализе поведенческого образа пользователя, происходит сбор большого количества реальных данных. Однако, на их основе достаточно сложно предпринять какое-либо решение, так как данные являются разнородными, а количество параметров для анализа крайне велико.
Для анализа поведенческих биометрических характеристик пользователей, предлагается использовать методы машинного обучения и интеллектуальную обработку данных [3].
Для обнаружения аномалий в поведении пользователя определим источники данных и типы анализа аномального поведения пользователей (табл. 1).
Источники данных и типы анализа
Источник данных на мобильном устройстве Тип анализа
Используемые приложения Анализ изменения времени активности в различных приложениях на дистанции
Набираемый и получаемый текст Анализ при помощи NLP (Natural Language Processing), машинное обучение
Координаты GPS Машинное обучение (пространственная кластеризация)
Методы и алгоритмы, применяемые в реализации программного комплекса анализа аномального поведения пользователей:
1. Сбор входных данных. В реализуемой UBA системе c функционалом DSS, основанной на анализе поведенческих биометрических характеристик пользователей в связи с большим объемом входных анализируемых данных предлагается использовать методы машинного обучения и интеллектуальную обработку данных. Это позволит уменьшить количество результирующих параметров [4].
Сбор входных данных осуществляется при помощи мобильного приложения, установленного на мобильное устройство определенного пользователя c OC «Android».
2. Анализ GPS координат. Для нахождения отклонений от эталонного профиля пользователя в таких данных, как история перемещений сотрудника (GPS), применяется метод «DBSCAN» и основанный на нем метод «WrapDBSCAN». «WrapDBSCAN» отличается от базового DBSCAN наличием возможности поиска наиболее оптимального радиуса точек. Произвольный параметр радиус у этого метода отсутствует [5]. Однако добавляется новый параметр - количество итераций разбиения. Параметр показывает насколько детализировано будет рассматриваться исходный набор данных. Чем больше значение параметра тем детализированее рассматривается набор данных.
В связи с особенностями работы (энергосбережение, проблемы с сетью, разряд батареи) различных мобильных устройств, при сборе перемещений пользователей, для корректной работы метода требуется интерполировать данные на анализируемом временном промежутке. Для нормализации частоты анализируемых данных во временной области используется многомерная кусочно-линейная интерполяция.
3. Анализ текстовых данных. Для обработки текстовых данных, таких как пользовательский ввод и входящие уведомления, применяется NLP (Natural Language Processing - обработка естественного языка).
Процесс обработки выглядит следующим образом:
1) Токенизация по словам;
2) Лемматизация и стемминг текста;
3) Фильтрация по стоп словам;
4) Мешок слов (преобразование в вектор, извлечение признаков).
При токенизации происходит разделение предложений на слова. Далее осуществляется лемматизация и стэмминг для приведения слова к канонической форме (лемме). После получения списка слов в канонической форме, из полученного списка выкидываются слова из «стоп» списка [6]. Это помогает избавиться от шумов и нерелевантных слов. Далее используется техника извлечения признаков «Мешок слов» определяющая словарь известных слов (токенов) и их степень присутствия, информация о порядке или структуре слов игнорируется, что дает не привязываться к контексту [7].
По мешку слов составляется поведенческий профиль каждого пользователя.
Эксперимент.
1. Интерполяция GPS координат
После интерполяции данных GPS перемещений пользователей в базе данных формируется сглаженная выборка с значениями через каждые 2 минуты. Результат работы алгоритма представлен на рис.1.
interpoiated points Source points
- "С
. --Л-
E-Î.Ï2 И Id
Я
5-Ï.M §
*
5408 9
«
Э-1 "J
54 10 54 Ю ■54. СЙ 54 iW
ill 4L- jfi JJB Irtd
Рис. 1. Результат работы алгоритма кусочно-линейной интерполяции GPS
координат пользователя
2. Применение методов ББ8СЛК и WRAPDBSCAN
В ходе проведения эксперимента, при помощи разработанного мобильного приложения, были собраны перемещения пользователей. На рис. 2 представлены отображенные на графике исходные данные геолокации пользователей, где Ось X - долгота, Ось У - широта.
3112Л37А12 ¡¡.2Я7Ж6 34 2££3GKG
uottoiKIIM* K-HIIP
S^OIJiSH. ЫЛЗЧИ]
13 ¿"HSiiliH Я
ÎUZGÏÎJtE
BSSSHnç
L.iJi'-и м.оплг
^ ¡xaooji
Шфи SiH'SWi ¡JJ ™
н
M.SjffiWC i
iw.ïwn«; M.S63 ! îii.;É л met
33.Î61 liii
1Ы! Ukjl^-
sffitn. !M.o7ï«fir
Pue. 2. Исходные данные геолокации пользователей
На рис. 3 представлен график анализа данных методом DBSCAN. Синими точками отмечены нормальные данные, черными точками отмечены границы кластеров, красными - аномалии.
Из результатов, полученных при анализе видно, что при поиске точек, в одних данных метод находит аномалии корректно, а в других нет. Данные эксперименты дают понимание того что радиус должен рассчитываться автоматически. Данная особенность решена в реализации разработанного метода WrapDBSCAN. Данный метод отличается от базового DBSCAN наличием возможности поиска наиболее оптимального радиуса
47
точек. Произвольный параметр радиус у этого метода отсутствует. Однако добавляется новый параметр - количество итераций разбиения. Результат анализа представлен на рис. 4.
38 30224331 38.29378668 33 26533006 3827687344 3826841682 38,2599602
36.2635882 33.26358134 38.26357448 38.26356762 38.26356076 38.2635539
38.268083838.26706628 38.266048761 38.26503124 38.26401372
54.0217074 54.021719 . 54.021732-
54,021713_ 54.021726- $4.0217345
38.2629962
54.0113124 54,015790 - 54 04787
54.013Ю1 54 01777В- 54 021756«
38.26358844 38.26357908 38.26356972 38.26356036
38.2651382
38,26414432
38.263150« 38.26215656 38.26116268
38.2601688
54 0209633 5* 0215® 54 022257
54.021211- 54.021909- 54 0226062
Рис. 3. Анализ данных методом DBSCAN
Рис. 4. Анализ данных №4 методом WrapDBSCAN
Заключение. В ходе исследования был сформирован перечень источников данных и типов анализа, разработан метод WrapDBSCAN.
Проведены эксперименты по интерполяции GPS данных, и их анализа при помощи метода DBSCAN и модифицированного метода WrapDBSCAN. Благодаря интерполяции данных удалось произвести сглаживание собранных данных и в конечном итоге нормализовать их для корректной работы методов DBSCAN и WrapDBScan. Впервые собрана база перемещений пользователей и используемых ими наборов вводимых, получаемых и обрабатываемых текстовых данных.
Благодаря применению различных алгоритмов и методов анализа данных и машинного обучения, в разрабатываемой мобильной UBA, удалось добиться повышения информативности результирующих данных. Раннее обнаружение аномалий позволит сохранить целостность данных, уменьшить операционные затраты и повысит конкурентоспособность предприятия.
Список литературы
1. Szaniawska K., Lehmann M. The Human Factor in Managing the Security of Information // Advances in Human Factors in Cybersecurity: Proceedings of the AHFE 2019 International Conference on Human Factors in Cybersecurity, July 24-28, 2019, Washington DC, USA. Springer, 2019. Т. 960. P. 38.
2. Magklaras G.B., Furnell S.M. A preliminary model of end user sophistication for insider threat prediction in IT systems // Computers & Security. 2005. Т. 24. №. 5. P. 371380.
3. Hu Q., Tang B., Lin D. Anomalous user activity detection in enterprise multi-source logs //2017 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2017. P. 797-803.
4. Savenkov P.A., Ivutin A.N. Methods and Algorithms of Data and Machine Learning usage in Management Decision Making Support Systems // 2019 8th Mediterranean Conference on Embedded Computing (MECO). IEEE, 2019. P. 1-4.
5. Ivutin A.N., Savenkov P.A., Veselova A.V. Neural network for analysis of additional authentication behavioral biometrie characteristics // 2018 7th Mediterranean Conference on Embedded Computing (MECO). IEEE, 2018. P. 1-3.
6. Chopra A., Prashar A., Sain C. Natural language processing // International journal of technology enhancements and emerging engineering research. 2013. Т. 1. №. 4. P. 131134.
7. Ruder S. et al. Transfer learning in natural language processing // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials. 2019. P. 15-18.
Савенков Павел Анатольевич, аспирант, [email protected], Россия, Тула, Тульский государственный университет,
Трегубов Павел Сергеевич, магистрант, www. tregubov. 199 7@yandex. ru, Россия, Тула, Тульский государственный университет
PRESERVING DA TA INTEGRITY BY ANOMALY ANALYSIS IN THE BEHA VIORAL ACTIVITIES OF USERSPRESERVING DATA INTEGRITY BY ANOMALY ANALYSIS IN THE BEHA VIORAL ACTIVITIES OF USERS
P.A. Savenkov, P.S. Tregubov
The aim of the study is to develop software methods and algorithms for detecting abnormal user behavior based on the analysis of behavioral biometric characteristics. This article provides an overview of the methods, algorithms and approaches used in the developed software package. Finding deviations in the collected data will ensure the timely response of the system administrator to deviations from the user's behavioral profile, which will preserve the integrity of the target data.
Key words: Big Data, Data science, Big Data, software, machine learning, clustering, DBScan, UBA.
Savenkov Pavel Anatolevich, postgraduate, pavel@savenkov. net, Russia, Tula, Tula State University,
Tregubov Pavel Sergeevich, undergraduate, www. tregubov. 199 7@yandex. ru, Russia, Tula, Tula State University