УДК 004.891.2
ПОИСК ПОВЕДЕНЧЕСКИХ АНОМАЛИЙ В ДЕЯТЕЛЬНОСТИ
СОТРУДНИКОВ ПРИ ПОМОЩИ МЕТОДОВ ПРОСТРАНСТВЕННОЙ КЛАСТЕРИЗАЦИИ, ОСНОВАННЫХ
НА ПЛОТНОСТИ
П.А. Савенков, П.С. Трегубов
Целью исследования является выбор методов машинного обучения для обнаружения аномального поведения сотрудников на основе анализа их перемещений. В данной статье осуществляется обзор применяемости методов кластеризации в разрабатываемой UBA-системе. Одной из проблем в DLP-системах является несвоевременное выявления признаков аномального поведения пользователей. Предлагается применение методов машинного обучения в реализуемой мобильной UBA-системе. В ходе исследования была спроектирована модель связей программной системы, также собраны данные, содержащие перемещения людей. Проведен эксперимент, отображающий аномалии в перемещениях каждого пользователя.
Ключевые слова: Big Data, Data science, большие данные, информационная система, машинное обучение, кластеризация, DBScan, UBA.
За последние несколько лет наблюдается устойчивый рост интереса к задачам анализа данных в корпоративных информационных системах для сохранения целостности данных. Многими экспертами отмечается тенденция возросшего количества внутренних вторжений по сравнению с внешними. Обеспокоенность относительно данной проблемы подкрепляется тем, что компании обычно направляют основные усилия на защиту от внешних угроз, в то время как аналитики отмечают, что более половины случаев вторжений происходят по вине сотрудников или иных лиц, имеющих доступ к информационной системе. Хищение и продажа конфиденциальной информации, распространение информации ограниченного доступа - вот лишь небольшой перечень инцидентов, напрямую связанных с внутренними угрозами [1]. Таким образом, внутренние угрозы в организациях вызваны вредоносными действиями пользователей, которые имеют легитимный доступ к корпоративной сети. При классификации внутренних угроз выделяют группу угроз, совершаемых без злого умысла (случайные), по неосторожности или технической некомпетентности. В случае же злонамеренных действий инсайдер знает, что нарушает политику безопасности своей компании. Источниками внутренних угроз могут являться различные категории пользователей, имеющих или имевших доступ к корпоративной сети. Группу потенциально вредоносных пользователей корпоративной сети трудно идентифицировать, и она может быть намного шире, чем может показаться на первый взгляд. Кроме того, количество данных, которые могут являться целью внутренних атак, постоянно растёт [2].
Этапы эксфильтрации данных. На стадию подготовки утечки от момента, когда пользователь решает получить непредназначенные для него данные, до непосредственно пересылки данных, проходит от нескольких недель до нескольких месяцев. По данной причине утечки данных необходимо определять ещё до их осуществления [3].
Опишем более детально типичные этапы утечки данных. Этапы утечки данных представлены на рис.1. Легитимный сотрудник становится инсайдером начиная с некоторого переломного момента, например, после коммуникации с одним из конкурентов компании. Данный этап можно назвать этап «Начало внутреннего вторжения». После чего сотрудник-инсайдер вступает в фазу исследования (этап «Фаза исследования»), в которой он пытается найти интересующую его информацию и получить к ней доступ, при этом пользуясь своими текущими правами или пытаясь легитимными способами расширить их. На данном этапе часто отмечаются случаи, когда инсайдер под разными предлогами просит у своих коллег воспользоваться их правами для доступа к определённой категории информации. Также будет уместно отметить важность задачи аутентификации пользователей, т.е. определения того, что пользователь является тем, от имени кого он авторизовался. «Фаза исследования» у инсайдера может продолжаться неделями и месяцами. С течением времени инсайдер, как правило, получает доступ к интересующим его данным. После получения доступа к информации наступает этап «Сокрытия данных». На данном этапе целью инсайдера является тестирование системы информационной безопасности компании и поиск оптимальных способов для безопасной эксфильтрации полученной информации. Традиционные средства защиты от утечек данных, такие как DLP-системы (англ. Data Loss Prevention -предотвращение утечек данных), не срабатывали, так как до этой стадии пересылка данных за информационный периметр организации не осуществлялась. Для достижения цели этапа «Сокрытия данных» инсайдеру подойдут любые действия, которые в случае их раскрытия можно будет свести к неумышленному нарушению. Зачастую инсайдеры пользуются достаточно простыми приёмами, например, создают «фиктивные» данные, которые схожи по структуре содержания с данными, запланированными для эксфильтрации, но в тоже время не являющиеся конфиденциальными. Инсайдер будет повторять подобные попытки пересылки данных с определённой периодичностью пока не определит способ передачи, при котором не срабатывают системы ИБ. Затем, имея доступ к интересующей информации и способ её кражи, инсайдер переходит к заключительному этапу утечки - «Эксфильтрация данных».
В большинстве случаев хищению информации предшествует аномальное поведение пользователя, т.е. пользователь еще до кражи информации начинает совершать действия, не характерные для его предыдущей активности как по набору выполняемых операций, так и по содержанию обрабатываемой информации.
Рис. 1. Схема типичных этапы утечки данных
Цель внутренних вторжений. Обычно целью внутренних вторжений является получение доступа к различной информации. Аномальное поведение может свидетельствовать о том, что пользователь не является тем, от имени кого он авторизовался (задача аутентификации пользователей), или же пользователь интересуется корпоративными документами, которые не относятся к его текущей рабочей деятельности, что является признаком отклонения поведенческих характеристик у пользователя от эталонных.
UBA как самостоятельный класс систем. В настоящее время сформировался самостоятельный класс систем корпоративного контроля сотрудников, в основе которых лежат методы машинного обучения для выявления признаков несвойственного поведения пользователей. Компания Gartner данный класс систем обозначает как UBA (англ. User and Entity Behavior Analytics - анализ поведения пользователей и систем). UBA-системы, в отличие от DLP, осуществляют мониторинг широкого спектра действий пользователя и принимают решения не на основе экспертно сформированных политик безопасности, а на основе исторических данных о работе пользователя. Данные системы обнаруживают ранние признаки утечки, поэтому их основная цель состоит не в блокировке действий пользователей, а в предоставлении аналитических данных с описанием того, по какой причине выявленные действия являются аномальными для конкретного пользователя. Согласно определению, приведённом в отчёте Gartner, UBA - это системы на основе методов машинного обучения выполняющие построение и применение моделей поведения (профилей) пользователей для выявления признаков аномального поведения.
Раннее обнаружение признаков аномального поведения. Актуальным является развитие направления обнаружения ранних признаков аномального поведения пользователей на основе методов машинного обучения для решения следующих задач [4]:
задача раннего обнаружения попыток хищения информации — процедура выявления фактов аномального поведения авторизованных легальных пользователей или нарушителей, авторизовавшихся под чужим именем;
задача аутентификации пользователей - процедура оценки достоверности того, что пользователь, работающий компьютерной системой, является действительно тем, от имени кого он авторизовался.
При анализе поведенческого образа пользователя, происходит сбор большого количества данных. Однако, на их основе достаточно сложно предпринять какое-либо решение, так как данные являются разнородными, а количество параметров для анализа крайне велико.
Для решения проблемы поиска аномалий при помощи анализа поведенческих биометрических характеристик пользователей, предлагается использовать методы машинного обучения и интеллектуальную обработку данных.
Методы поиска аномалий в реализуемой UBA-системе. Для реализуемой UBA системы, основанной на анализе поведенческих биометрических характеристик персонала предприятия в связи с большим объемом входных анализируемых данных, предлагается использовать методы машинного обучения и интеллектуальную обработку данных. Это позволит уменьшить количество результирующих параметров.
Сбор входных данных осуществляется при помощи мобильного приложения, установленного на мобильное устройство определенного сотрудника на базе OC Android. Для анализа отклонений в перемещениях сотрудников и во времени использования приложений предлагается использовать метод DBSCAN.
DBSCAN - это алгоритм кластеризации данных, основанный на плотности. Если дан набор точек в некотором пространстве, алгоритм группирует вместе точки, которые тесно расположены, помечая как выбросы точки, которые находятся одиноко в областях с малой плотностью (ближайшие соседи которых лежат далеко).
После нахождения отклонений программное обеспечение указывает на определенные отклонения поведенческих характеристик пользователя, предлагает осуществить ряд действий администратору. В некоторых случаях администратор системы принимает решение о блокировке пользователя.
Основная структура экспериментального образца клиент-серверного программного обеспечения. Для сбора поведенческих биометрических характеристик пользователя используются программные агенты сбора, устанавливаемые непосредственно на мобильные устройства пользователей (источники данных) и передающие собранную информацию в единое хранилище для её последующей обработки [5].
Обработка поведенческой информации при работе пользователей с данными состоит из трёх этапов:
Сбор поведенческих данных пользователей. Программные агенты должны реализовывать сбор и промежуточное локальное хранение поведенческой информации с целью оптимизации нагрузки на сеть передачи данных или в случае отсутствия соединения с единым хранилищем.
253
Передача собранной поведенческой информации на сервер. Передача поведенческих данных с различных мобильных устройств пользователей в единое хранилище.
Приём поведенческой информации от агентов мониторинга и последующее сохранение в единое централизованное хранилище.
На рис. 2 представлена базовая схема связей в системе.
®
Mobtfe Device
О
Main Server
Рис. 2. Схема связей системы
Архитектура агента мониторинга. Агент мониторинга реализован на языке программирования высокого уровня c# при помощи фреймоврка для разработки мобильных приложений «XAMARIN.ANDROID». Дистрибутив агента мониторинга для сбора поведенческой биометрической информации представляет собой файл формата «apk», предназначенный для установки на мобильное устройство сотрудника. Дистрибутив содержит все необходимые для мониторинга сотрудника компоненты и библиотеки и имеет в своем составе такие модули как:
Data Collection Module;
Local Database;
TCP/IP Exchanger.
Data Collection Module представляет собой модуль, собирающий и предварительно обрабатывающий получаемую информацию с мобильного устройства сотрудника перед записью в локальную базу данных.
Local Database - модуль осуществляющий временное хранение данных для разгрузки сетевого канала при передаче информации на основной сервер, а также сохраняющий данные в случае отсутствия соединения с сервером.
TCP/IP Exchanger - модуль, отвечающий за клиент серверный обмен и логику энергосбережения при обмене данными через сеть. На рис. 3 представлена базовая структура мобильного агента.
Схема работы Main Server и его дочерних модулей. «Main Server» является центральным сервером, принимающим данные от клиентских устройств с установленными мобильными приложениями-агентами.
254
Реализован «Main Server» на базе технологии Web API ASP.NET на языке C#. Данная платформа предназначена для создания Web-API интерфейсов на основе .NET Framework. «Main Server» имеет связь со всеми основными модулями системы такими как: Event Server; Mobile Control Server; Data Analysis Server; Database; Admin Console;
«Main Server» устанавливается на операционную систему Windows.
®
Mobile agent
Monitoring agent
Data collection module
~r
Local Database
_1_
TCP/IP Exchange
Рис. 3. Базовая структура мобильного агента
Эксперимент. В ходе проведения эксперимента, при помощи разработанного мобильного приложения, были собраны личные данные содержащие перемещения пользователей, автоматизированно предоставленные ими на добровольной основе. Ни рис. 4 представлены отображенные на графике исходные данные геолокации пользователей, где Ось X - долгота, Ось У - широта.
ля задзед
31 2ЕЕЭЗМ
JÎ.ÎHHÎS *
•
MÏM^Jiô
Ml ■
isrtvipjf ■
jjriü^ji? _____________
ММЧЯ- Ç1.3Î5I3P
34 «МММ- W 1WK3
у. :п иг* м лгЛ1 . М.айНв .
M 321711 ЬАдта îiJCîTMS
э^илий з&анвдак
3S ЖПГШ
эдммэя
Я.ЙЙШ
ылшас ь+.iibm. моа».
S+ïlÎHl Î4 if?Mi- 5SJMt?ïiS
в.аиб7т н..нжи: яжшм
H2S3E51.
33.265133£ З&ЙИ 14432
за.йшзж
33.261WËÊ6
ЗНкЙЙЛбЕ
млна&з У MISа
y.K'-iii. S4J:I»L M-rttmi
Рис. 4. Исходные данные геолокации пользователей
255
По данным графикам видно, что некоторые точки сконцентрированы на маленьком, а некоторые на большом участке. Данные о геолокации могут иметь кластеры различной формы, что говорит о возможности и полезности использования метода ББ8СЛК, основанного на плотности данных. Однако данный подход чувствителен к задаваемым параметрам.
В дальнейшем анализ данных проводился с различными вариантами настраивающих параметров метода. При первом анализе данных были заданы следующие параметры:
Радиус: 0.001;
Минимальное число объектов (точек) попадающих под радиус: 3.
На рис. 5 представлен график анализа данных №1 методом ББ8СЛК. Синими точками отмечены нормальные данные, черными точками отмечены границы кластеров, красными - аномалии.
38.3022433. 33.29573668 33 28533006 38.276873« 3826841682
38 259%02
40076831 01МЧ 54 023137
54 01М53 54.0237Я 54.0344932
36.2635332 * Э8.26808Э8
33.26706628 ■
38.263571« * * 38,26604876
38.26356762 а 33.26603124
38.26356076 " 38.26401372
38 2635539 -■-■-■-■- 36.2629962
ндопн я»г™ и.эгта.
54.021713- 54.0317й_ 54.0217385
$4.011012' 54 015750. 54 015757
54.913431 54 01774. 54 0217544
38.2635973 38.26358844 38.26357903 38.26356932 38.26356036
38.263551
5'0215905 54.0217Ж 5401173
54,0277005 54.0217202 54.02173М
58.2551332 38.2Ы14432
38 26315044 38,26215656
54 9209535 54.021560 54.022257
54,021211. 54 021509 54.0215052
Рис. 5. Анализ данных №1 методом ББЗСЛМ
На рис. 6 представлен график анализа данных №2. При втором анализе данных были заданы следующие параметры:
Радиус: 0.0005;
Минимальное число объектов (точек) попадающих под радиус: 3;
На рис. 7 представлен график анализа данных №3.
При третьем анализе данных были заданы следующие параметры:
Радиус: 0.000007;
Минимальное число объектов (точек) попадающих под радиус: 3.
Из всех результатов, полученных при анализе видно, что при уменьшении радиуса поиска точек, в одних данных метод находит аномалии корректно, а в других нет. Данные эксперименты дают понимание того, что радиус должен рассчитываться автоматически. Данная особенность решена в реализации метода ШгарББ8СЛК. Данный метод отличается от
базового ББ8СЛК наличием возможности поиска наиболее оптимального радиуса точек. Произвольный параметр радиус у этого метода отсутствует. Однако добавляется новый параметр - количество итераций разбиения.
33.3022433 38.29378668 38.28533006 38,27687344 38,26841682
33.2599602
545076921 54.015414. 54.02913254,013063. 54.023776. 54,0344392
30.2635882 38.26358134 38.26357448 38.26356762 38.26356076
38.2635539
54.02170?! 54.021719 54.021732.
54,021713. 54.021726. 54.0217355
38,2680838 38.26706628 38,26604876 38.26503124 38.26401372
38 2629962
54,0113124 54.015730 54.013767.
54.013801. 54.017775. 54.0217565
38.2635973 38,26353344 38,26357908 38,26356972 38.26356036
38.263651
54.0216908 54.0217104 54.02173
54.0217006 54.0217202 54 0217336
38,2651332 38.26414432 33,26315044 38.26216656 38.26116268
38,2601688
54.0203633 54,021560 54.022257.
54,021211. 54,321909 . 54.0226352
Рис. 6. Анализ данных №2 методом ББЗСЛМ
38.29378663 38.2853300$ 38.27687344 38.26841682
382599602
54 00/
:8921 54.0Т8414 54.029137 54.01 ЗОН 54.023776 54 0344952
35 2635882 38.26358134 38.2635744® 3826356762 38.26356076 38 2635539
54.02171171 54.02171» 54.02*712
54.021711. 54,021725. 54 0217155
38.2680838 35.26706628 33,26604376 38.26503124 38.26401372
38.2629962
54.01Т11Ы Ы0157М. 54.0И767
5401ЭИ1 54.017Т7В. 54 02175«
33,2635978 38.26358844 38.26357908 33.26356972 38.26356036
33.263551
54.021690! 54.0217104 54 02173
54.0217006 54.0217202 54,0217393
38.2651382 38.26414432 38 26315044 38.26215656 33.26116268
38.2601633
54 0205633 54.021560 54 022257
54.021211. 54,021909. 54.0226062
Рис. 7. Анализ данных №3 методом ББЗСЛМ
На рис. 8 представлен график анализа данных №4. При четвертом анализе данных были заданы следующие параметры: количество итераций: 1;
минимальное число объектов (точек) попадающих под радиус: 3. По графическим результатам анализа видно, что метод подобрал значение радиуса близкое к оптимальному.
257
38.3022433 33.29373663 38 23533006 33.27687344 33.26841682
33 2599602
54.0Û76921 S4 015414 54.023137
54.013053. 54.023775. 54 03449&2
38 2635973 38.26354844 33.26357903 33,26356972 39 26356036
33.263551
38.2635382 33.26358)34 38,26357448 38.26356762 33.26356076 38 2635539
540217074 54.021713. 54.021732.
54.021713 . 54.021728 . 54.D2I7335
33.26315044 33.26215656 38,26116263
54 0215805 54 0 217104 54 02173
54.0217006 54.0217202 54.021739S
38.2601638
38 2680833 38.26706628 38.26604876 38.26603124 38.26401372
38 2629962
54 071512» 54.015730. 54.0197S7.
54,013811. 54.017775. i4.0il7M&
54 0203537 54.021550 . 54.02225?.
54.021211. 54.021900- 54.0225052
Рис. 8. Анализ данных №4 методом WrapDBSCAN
Заключение. В результате применения методов анализа данных и машинного обучения, в частности методов кластеризации DBSCAN и WrapDBScan были проведены эксперименты и проанализированы полученные данные, указывающие на аномалии в поведенческих характеристиках сотрудников. Применяя методы машинного обучения и интеллектуальную обработку данных для анализа пользовательских аномалий возможно сокращение времени на получение полезной информации администратором системы, а также повышение информативности получаемых администратором данных. Актуальность UBA систем в настоящее время очень высока и будет увеличиваться со временем по мере развития новых информационных технологий.
Список литературы
1. Szaniawska K., Lehmann M. The Human Factor in Managing the Security of Information // Advances in Human Factors in Cybersecurity: Proceedings of the AHFE 2019 International Conference on Human Factors in Cybersecurity, July 24-28, 2019. Washington DC, USA. Springer, 2019. V. 960. P. 38.
2. Magklaras G.B., Furnell S.M. A preliminary model of end user sophistication for insider threat prediction in IT systems // Computers & Security. 2005. V. 24. №. 5. P. 371-380.
3. Hu Q., Tang B., Lin D. Anomalous user activity detection in enterprise multi-source logs // 2017 IEEE International Conference on Data Mining Workshops (ICDMW). IEEE, 2017. P. 797-803.
4. Savenkov P.A., Ivutin A.N. Methods and Algorithms of Data and Machine Learning usage in Management Decision Making Support Systems // 2019 8th Mediterranean Conference on Embedded Computing (MECO). IEEE, 2019. P. 1-4.
5. Ivutin A.N., Savenkov P.A., Veselova A.V. Neural network for analysis of additional authentication behavioral biometrie characteristics // 2018 7th Mediterranean Conference on Embedded Computing (MECO). IEEE, 2018. P. 1-3.
Савенков Павел Анатольевич, аспирант, [email protected], Россия, Тула, Тульский государственный университет,
Трегубов Павел Сергеевич, магистрант, www. tregubov. 199 7@yandex. ru, Россия, Тула, Тульский государственный университет
SEARCH FOR BEHAVIORAL ANOMALIES IN THE ACTIVITIES OF THE EMPLOYEES BY USING THE METHODS OF SPATIAL CLUSTERIZATION BASED ON DENSITY
P.A. Savenkov, P.S. Tregubov
The aim of the study is to choose machine learning methods to detect abnormal employee behavior based on an analysis of their movements. This article provides an overview of the applicability of clustering methods in the UBA system being developed. One of the significant problems in DLP systems is the untimely detection of signs of unusual user behavior. This problem is solved using a class of systems referred to as UBA. Machine learning methods used in the system being developed by UBA allow analyzing heterogeneous data. The application of machine learning methods in the implementation of a mobile UBA system is proposed. In the course of the study, a basic model of software system relationships was designed. Anonymous data containing movements of a certain group of people are also collected. On the basis of the obtained data, an experiment was carried out, displaying anomalies in the movements of each user.
Key words: Big Data, Data science, Big Data, software, machine learning information system, clustering, DBScan, UBA.
Savenkov Pavel Anatolevich, postgraduate, pavelasavenkov.net, Russia, Tula, Tula State University,
Tregubov Pavel Sergeevich, undergraduate, www. tregubov. 199 7@yandex. ru, Russia, Tula, Tula State University