Научная статья на тему 'МОДЕЛЬ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ'

МОДЕЛЬ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
106
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБНАРУЖЕНИЕ АНОМАЛИЙ / ЦЕНТР ОБРАБОТКИ ДАННЫХ / МАШИННОЕ ОБУЧЕНИЯ / КОМПЬЮТЕРНАЯ БЕЗОПАСНОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аль-Барри Мазен Хамед

Представлена модель признакового пространства, предназначенная для выявления аномального поведения пользователей центров обработки данных с использованием методов машинного обучения. Рассматриваются вопросы, связанные с формированием признакового пространства для моделей машинного обучения, ее программной реализацией и экспериментальной оценкой.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аль-Барри Мазен Хамед

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A FEATURE SPACE MODEL FOR DETECTING ANOMALOUS BEHAVIOR OF DATA CENTER USERS BY MACHINE LEARNING METHODS

A feature space model is presented that is designed to detect anomalous behavior of data center users using machine learning methods. Issues related to the formation of a feature space for machine learning models, its software implementation and experimental evaluation are considered.

Текст научной работы на тему «МОДЕЛЬ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ»

УДК 004.654

DOI: 10.24412/2071-6168-2022-10-79-84

МОДЕЛЬ ПРИЗНАКОВОГО ПРОСТРАНСТВА ДЛЯ ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ МЕТОДАМИ

МАШИННОГО ОБУЧЕНИЯ

М.Х. Аль-Барри

Представлена модель признакового пространства, предназначенная для выявления аномального поведения пользователей центров обработки данных с использованием методов машинного обучения. Рассматриваются вопросы, связанные с формированием признакового пространства для моделей машинного обучения, ее программной реализацией и экспериментальной оценкой.

Ключевые слова: обнаружение аномалий, центр обработки данных, машинное обучения, компьютерная безопасность

Центры обработки данных (ЦОД) являются сложными информационно-телекоммуникационным объектами, предназначенными для хранения и обработки информации в интересах управления критическими системами [1]. Они предполагают коллективное использование хранимых данных. В настоящее время ЦОД завоевывают все большую популярность во многих областях деятельности человека, включая промышленность [2], транспорт [3], банковский сектор [4], здравоохранение [5], науку и образование [6] и другие сферы.

Высокая критическая значимость ЦОД остро поднимает вопросы обеспечения их безопасности [7]. Эти объекты имеют могут иметь достаточно большое количество угроз компьютерной безопасности, как внешних, так и внутренних [8]. Для локализации внешних угроз в состав систем управления информационной безопасностью ЦОД включаются множество средств защиты, таких как антивирусные средства, межсетевые экраны, криптографические средства и т.д. [9]. Эти средства позволяют успешно противодействовать внешним угрозам. Однако противодействие внутренним угрозам компьютерной безопасности, которые, в частности, обусловлены аномальным поведением пользователей баз данных, хранящихся в ЦОД, является в настоящее время проблемой, которая еще находится в стадии своего решения.

Поведение пользователей ЦОД можно определить запросами, с которыми они обращаются к базам данных центра. Эти запросы могут нести для ЦОД две основные угрозы компьютерной безопасности: атаки вида SQL-инъекции (к запросу пристраивается некоторый вредоносный код) и несанкционированный доступ к таблицам данных (пользователи обращаются к нежелательным или запрещенным данным). В первом случае известен ряд средств и методов выявления SQL-инъекций [10]. Однако большинство из них основаны на использовании сигнатур и правил. По этой причине они не работают с неизвестными такого вида. Во втором случае основным средством защиты является система разграничения доступа. Наиболее эффективными моделями разграничения доступа в настоящее время являются ролевая (Role-Based Access Control, RBAC) [11] и атрибутивная (Attribute-Based Access Control, ABAC) [12]. Однако настройка этих систем в условиях достаточно большого количества пользователей и хранимых в ЦОД таблиц данных является весьма трудоемкой задачей. Поэтому для решения проблемы выявления аномального поведения пользователей ЦОД представляется более эффективным использование моделей и методов машинного обучения.

Известно достаточно большое количество работ, в которых методы машинного обучения применяются для обнаружения SQL-инъекций, например [13]. Эффективность этого подхода была ранее подтверждена в наших исследованиях [14, 15]. Настоящая работа продолжает исследования в этом направлении. Ее новизна заключается в разработанном методе повышения эффективности обнаружения неизвестных SQL-инъекций и атак несанкционированного доступа. В основе данного метода лежат разработанный авторами подход к оптимизации признакового пространства и использование стандартных моделей машинного обучения.

Формирование модели признакового пространства. Формирование модели признакового пространства является одним из начальных этапов методов машинного обучения, в котором определяется структура наборов данных, применяемых для обучения классификаторов. В рассматриваемой модели этот процесс разделяется на следующие два этапа:

1) построение первоначального набора признаков;

2) оптимизация признакового пространства.

Построение первоначального набора признаков. Для построения первоначального набора признаков следует рассмотреть структуру исходных наборов данных.

В качестве исходных наборов данных используются фрагменты регистрационного журнала системы управления базами данных (СУБД). Этот журнал состоит из отдельных записей. Каждая запись отражает факт обращения некоторого пользователя к базе данных и содержит следующие поля: дату, время, идентификатор пользователя и текст SQL-запроса, который был сформирован пользователем и выполнен со стороны СУБД. Таким образом, задача выявления аномального поведения пользователей сводится к задаче выявления аномальных SQL-запросов.

79

В рассматриваемом подходе первоначальный набор признаков (атрибутов набора данных) формируется из следующий категорий:

1) ключевые слова языка SQL;

2) сигнатуры, свойственные SQL-инъекциям;

3) имена таблиц данных, к которым происходит обращение в SQL-запросе.

Признаки по каждой категории формируются с помощью известного метода «мешок слов» (bag-of-words) [16]. Иными словами, они определяют количество вхождений в соответствующий SQL-запрос того или иного слова или комбинации слов.

В результате признаки первой категории определяют количество вхождений того или иного ключевого слова языка SQL. Всего было отобрано 30 ключевых слов, таких как SELECT, INSERT, UPDATE, DELETE и т.д. С помощью значений этих признаков, как предполагалось, можно определить уровень сложности SQL-запроса и его тип.

Вторую категорию признаков составляют количества вхождений тех или иных сигнатур, свойственных SQL-инъекциям. Для этой цели были отобраны следующие сигнатуры, свойственные наиболее известным видам SQL-инъекций: "Execute", " or ", "txtUserld", "getRequestString", "1=1", "- -", "CHAR", "#" and ";". Полагается, что наличие таких сигнатур в SQL-инструкциях однозначно вызвано реализацией SQL-инъекций.

Признаки третьей категории определяются количеством вхождений в SQL-запросы тех или иных имен таблиц данных. С помощью этой группы признаков, как предполагалось, можно обнаруживать аномальные SQL-запросы, в которых пользователи предпринимают попытки несанкционированного доступа.

Здесь следует отметить следующие два момента. Во-первых, кроме имен таблиц в SQL-запросах могут присутствовать имена полей (атрибутов) этих таблиц, а также значения, которые могут принимать эти поля. Естественно, учет этих элементов может повысить точность обнаружения аномальных запросов. Однако это может также привести к увеличению размерности признакового пространства и неоправданному переобучению моделей. Поэтому использование этих элементов в предлагаемом подходе отнесено нами к направлениям дальнейших исследований.

Во-вторых, количество признаков в третьей категории зависит непосредственно от структуры используемой базы данных и количества содержащихся в ней таблиц данных. В нашей работе использовалась база данных, предназначенная для организации и ведения учебного процесса в высшем учебном заведении. Общее количество учитываемых в этой базе таблиц данных равнялось 141. Следовательно, общее количество признаков в первоначальном наборе составило 181: 30 признаков относятся к первой категории, 10 - ко второй категории и 141 - к третьей категории.

Оптимизация признакового пространства. Как было отмечено выше, излишне большое количество признаков может оказывать негативное влияние на точность обнаружения аномалий. Поэтому в настоящей работе решалась задача максимального сокращения первоначального набора признаков, при котором результирующая точность обнаружения аномалий не уменьшается и/или, по возможности, может даже повыситься.

Оптимизация первоначального набора признаков проводилась на основе оценки их информативности. Для этой цели использовались следующие метрики:

- Information Gain (Info.Gain),

- Information Gain Ratio (Gain Ratio),

- ANalysis Of VAriance (ANOVA),

- нормированное среднее значение этих метрик.

Метрика Info.Gain определяет «прирост информации». Она показывает уменьшение энтропии, вызванное разделением первоначального набора признаков и поиском оптимального признака, который дает наибольшее значение по следующей формуле:

Mig (A, a) = H (A) - H (A|a), (1)

где A - признак (случайная величина), H (A) - энтропия A; H (A|a) - энтропия A при заданном значении A = a.

Метрика Gain Ratio MGR является отношением между значением метрики Info.Gain, вычисляемой согласно (1), и значением метрики Split Information (Split Info), т.е. метрики разделения информации. Метрика Split Info определяется следующим образом:

Msi (A) = MSI(Ä) = - ■log2 Pi), (2)

где A - оцениваемый признак, принимающий значения {ai, a2, ..., a„};pi- относительное количество раз, когда признак A принимает значение ai. Иными словами, pi = N (ai) / N, где N (ai) - количество значений ai признака A, N - общее количество значений признака A в выборке.

Дисперсионный анализ ANOVA представляет собой набор статистических моделей и связанных с ними процедур оценки, используемых для анализа различий между средними значениями. В своей простейшей форме ANOVA обеспечивает статистическую проверку равенства двух или более средних значений генеральной совокупности. Примеры расчета метрики информативности Manova на основе дисперсионного анализа можно найти в [17].

Последняя метрика Мсред вычисляется как среднее:

-^^сред = Mlg + Mgr ++ Manova) / 3. (3)

Критерием, по которому осуществляется оставление признака в признаковом пространстве, является превышение его метрики информативности среднего значения этой метрики по всему первоначальному набору признаков. Иными словами, для признака A*, который остается в признаковом пространстве, выполняется условие

M (A*) > (M (Ai) + M (A2) + ... + M (Ak)) / K, (4)

где K = 181 - общее количество признаков в первоначальном наборе.

Реализация модели признакового пространства. Предлагаемый подход был реализован в двух программных средах:

- на языке Python с наборами следующих библиотек: sklearn, numpy, pandas, matplotlib, Scipy, Re, Pylab, Math;

- в системе открытого доступа Orange 3.32.

Реализация на языке Python использовалась для обнаружения аномалий с использованием полного, а в системе Orange - оптимизированного набора признаков. Вычислительная среда была организована на ноутбуке Jupyter. Для создания базы данных использовалась СУБД PostgreSQL v.13.4, работающая под операционной системой Ubuntu v.13.4.

Целесообразность использования системы Orange была обусловлена более широким набором имеющихся в ней функциональных возможностей по реализации моделей и методов машинного обучения. В частности, в этой системе намного легче и нагляднее решается задача оптимизации признакового пространства. На рисунке приведен фрагмент результирующей таблицы, которую формирует Orange для анализа информативности признаков по выбранным метрикам Info.Gain, Gain Ratio и ANOVA.

0 Info, gain Garn ratio ANOVA

1 G) ЛМ e. auq 'j 2':.? 0-233 Û.0OB

2 □ s1_COUNT 0.072 0.620 450.399

3 IQ >' Y'<y COUNT <L06Î 0599 Э78Д16

4 □ gstBsquesl5[rmg_roUNT 0.048 0.504 238.055

Í G) SfMICOlONnCOUNT 0044 o.sss 243 524

□ urÇOUNT « 0.022 0.486 100233

7 □ ;;NT DDfi'i ^ W.S66

□ UNION_COUNT * 0.017 0.468 64.704

9 □ OR. COUNT O0S3 ■j 57Д 307.61O

ID □ DELETfLCOIJNT « 0022 _ 0.486 100.233

11 0 Fxecute COUNT :: иг; □O4EÊ 100.233

п □ Wl IER[_COUNT 0.069 0.065 ш 72.967

13 О DROP ;:iN. OJ2D 40. S.8Ï

14 □ rROMCOUNT m 0.026 * 0.039 4 11.016

IS И «lÉCT.eoLJNt ф О 020 1030 11337

1Б □ UMIT.COUNT ( 0.004 0.091 1 13.524

17 Cl ГаЫс1 ->■>' 141 COUNT O.HU 0013 /S 14

1» □ Tablç_rMme_9_COUNT 0.002 * 0.059 5274

là О Table rumo f.4 COUNT Ш ansa Í2U

го □ ТаЫе_гчгт»е_46_ COUNT 0.002 i 0.011 1.637

21 □ fabln rump °:4 COUNÎ ODO? □LOIS 3.649

Табличное представление метрик информативности признаков

Из рисунка видно, что различные признаки имеют различную предпочтительность по включению их в итоговых набор данных относительно различных метрик информативности.

Исследовались стандартные модели машинного обучения «с учителем» (supervised). Исследованию подлежали следующие наиболее популярные модели [18]: логистическая регрессия (LR), машина опорных векторов (SVM), дерево решений (DT), метод k-ближайших соседей (KNN), гауссов наивный Байес (GNB), многослойная нейронная сеть (MNN), случайный лес (RF).

Формирование обучающей выборки (набора данных), которая использовалось для обучения моделей машинного обучения, было выполнено исходя из фрагмента регистрационного журнала базы данных, отображающего работу пользователей с этой базой в течение 15 минут. Первоначально в этом фрагменте находилось 82192 записей. После удаления из этого набора данных дублирующих строк в нем осталось всего 1026 записей.

Затем несколько случайно выбранных записей были модифицированы таким образом, чтобы они соответствовали возможным SQL-инъекциям и попыткам несанкционированного доступа. Всего было модифицировано 50 таких записей, которые были помечены как аномальные. Для обучения использовалось 80% записей. Остальные 20% записей использовались для контрольного тестирования.

Экспериментальная оценка модели признакового пространства. Полученные результаты оценки эффективности обнаружения аномалий (показатель Р-Бсоге) для полного и оптимизированного наборов признаков по данным контрольного тестирования для различных моделей машинного обучения представлены в таблице.

Экспериментальные результаты

Модель F-score

Полный набор признаков Оптимизированные наборы признаков

Info.Gain Gain Ratio ANOVA Mсред

KNN 0,935 0,978 0,995 0,995 0,989

DT 0,935 0,935 0,935 0,935 0,935

SVM 0,974 0,984 1,000 1,000 0,995

RF 1,000 1,000 0,995 1,000 0,998

MNN 0,997 0,984 1,000 1,000 0,995

GNB 0,517 1,000 1,000 1,000 1,000

LR 0,935 0,971 0,995 0,995 0,987

Анализ полученных экспериментальных результатов позволяет сделать следующие

выводы.

Во-первых, предложенный подход к выявлению аномального поведения пользователей ЦОД, в котором используются стандартные модели машинного обучения и обучающие наборы данных, сформированные из записей регистрационного журнала СУБД, является результативным. Он позволяет находить аномальные SQL-запросы и, соответственно, выявлять аномальные обращения пользователей к базам данных ЦОД.

Во-вторых, выбранные для исследования модели машинного обучения показали различную эффективность по обнаружению аномалий. Так, модели SVM и GNB оказались недостаточно эффективными. Возможно, это вызвано недостаточно большим размером обучающей выборки. В свою очередь, модели LR, DT, KNN, MNN и RF показали достаточно высокую эффективность. Наибольшую эффективность продемонстрировала модель DT, которая не сделала ни одной ошибки в обнаружении аномалий.

В-третьих, оптимизация признакового пространства в целом приводит к повышению эффективности обнаружения аномалий в SQL-запросах. Практически для всех моделей машинного обучения видно повышение значения показателя F-score при использовании оптимизированных наборов признаков с использованием различных метрик информативности. При этом наибольшая эффективность обнаружения аномалий демонстрируется при использовании метрики ANOVA.

Наконец, предложенная метрика Мсред занимает в общем случае промежуточное значение между ANOVA, с одной стороны, и метриками Info.Gain и Gain Ratio - с другой. Изначально ввод в рассмотрение этой метрики преследовал цель выравнивания результатов оценки информативности признаков, если для различных моделей машинного обучения наиболее предпочтительным окажется использование различных метрик информативности. Однако в случае, когда одна из рассматриваемых метрик имеет полное доминирование над остальными метриками, введение в рассмотрение усредненной метрики становится не обязательным.

Заключение. В статье приводятся результаты научного исследования, проведенного в области выявления аномального поведения пользователей ЦОД с помощью моделей машинного обучения. Предложенная модель признакового пространства предполагает, что обучающие наборы данных формируются из фрагментов регистрационных журналов СУБД с помощью «мешка слов» и содержат три категории признаков, которые охватывают ключевые слова языка SQL, сигнатуры возможных SQL-инъекций и имена таблиц данных. Предложенный подход к оптимизации признакового пространства основывается на использовании метрик информативности признаков Info.Gain, Gain Ratio, ANOVA и их нормированное среднее. Экспериментальная оценка предложенного подхода на множестве стандартных моделей машинного обучения позволило выявить среди них наиболее предпочтительные. Дальнейшие исследования связываются с применением в рассмотренной научной области моделей машинного обучения «без учителя» (unsupervised).

Список литературы

1. Воронцов Д.А., Видманов Д.В. Центры обработки данных // Colloquium-Journal. 2020. № 71 (59). С. 15-16.

2. Мочалов В.П., Линец Г.И., Палканов И.С. Виртуализация серверной инфраструктуры корпоративных центров обработки данных // Инфокоммуникационные технологии. 2020. Т. 18, № 3. С. 293301.

3. Котенко И.В., Саенко И.Б., Чернов А.В., Бутакова М.А. Построение многоуровневой интеллектуальной системы обеспечения информационной безопасности для автоматизированных систем железнодорожного транспорта // Труды СПИИРАН. 2013. № 7 (30). С. 7-25.

4. Маматов Б.Т. К вопросу обеспечения безопасности центра обработки данных кредитных организаций // Global Science and Innovations: Central Asia. 2021. № 4(13). С. 52-55.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Чешейко С.И. Особенности архитектуры центра обработки данных в медицинском учреждении // Информационные и телекоммуникационные технологии. 2021. № 49. С. 12-19.

6. Мартышкин А.И. Вариант реализации вычислительного кластера центра обработки данных на примере интернет-центра вуза // XXI век: итоги прошлого и проблемы настоящего плюс. 2022. Т. 11, № 1 (57). С. 28-33.

7. Касенова Д.А. Необходимость обеспечения информационной безопасности центра обработки данных // Modern Science. 2021. № 10-1. С. 436-439.

8. Белянская О.В., Привалов А.Н. О модели угроз информационной безопасности в центрах обработки данных // Известия Тульского государственного университета. Технические науки. 2021. № 9. С. 12-16.

9. Асадуллин Я.Я. Управление информационной безопасностью центра обработки данных // Защита информации. Инсайд. 2020. № 6 (96). С. 12-22.

10. Marashdeh Z., Suwais K., Alia M. A Survey on SQL Injection Attack: Detection and Challenges // 2021 International Conference on Information Technology (ICIT), Jordan, 2021. P. 957-962.

11. Sandhu R.S., Coyne E.J., Feinstein H.L., Youman C.E. Role-based access control models // Computer. 1996. Vol. 29, No. 2. P. 38-47.

12. Shahraki A.S., Rudolph C., Grobler M. Attribute-Based Data Access Control for Multi-authority System // 2020 IEEE 19th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom), China, 2020. P. 1834-1841.

13. Joshi A., Geetha V. SQL Injection detection using machine learning // 2014 International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT), India, 2014. -P. 1111-1115.

14. Саенко И.Б., Котенко И.В., Аль-Барри М.Х. Применение искусственных нейронных сетей для выявления аномального поведения пользователей центров обработки данных // Вопросы кибербез-опасности. 2022. № 2(48). C. 87-97.

15. Саенко И.Б., Аль-Барри М.Х. Обнаружение SQL-атак на центры обработки данных на основе применения бинарных классификаторов // Труды ЦНИИС. Санкт-Петербургский филиал. 2022. Т. 1, № 13. С. 69-73.

16. Qader W.A., Ameen M.M., Ahmed B.I. An Overview of Bag of Words; Importance, Implementation, Applications, and Challenges // 2019 International Engineering Conference (IEC), Iraq, 2019. P. 200-204.

17. Антипина Н.М., Захаров В.Н., Протасов Ю.М. Однофакторный дисперсионный анализ Краскела-Уоллиса в табличном редакторе MS Excel // Информационно-технологический вестник. 2019. № 4 (22). С. 46-54.

18. Браницкий А.А., Саенко И.Б. Методика многоаспектной оценки и категоризации вредоносных информационных объектов в сети Интернет // Труды учебных заведений связи. 2019. Т. 5, № 3. C. 58-65.

Аль-Барри Мазен Хамед, адъюнкт, mazenb51@gmail.com, Россия, Санкт-Петербург, Военная академия связи имени Маршала Советского Союза С.М. Буденного

A FEATURE SPACE MODEL FOR DETECTING ANOMALOUS BEHAVIOR OF DATA CENTER USERS BY

MACHINE LEARNING METHODS

Al-Barri Mazen Hamed

A feature space model is presented that is designed to detect anomalous behavior of data center users using machine learning methods. Issues related to the formation of a feature space for machine learning models, its software implementation and experimental evaluation are considered.

Key words: anomaly detection, data center, machine learning, computer security.

Al-Barri Mazen Hamed, adjunct, mazenb51@gmail.com, Russia, St. Petersburg, Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny

i Надоели баннеры? Вы всегда можете отключить рекламу.