МЕТОДИКА ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ

Аль-Барри Мазен Хамед

УДК 004.654

DOI: 10.24412/2071-6168-2023-2-172-177

МЕТОДИКА ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ

М.Х. Аль-Барри

Рассматривается методика выявления аномального поведения пользователей центров обработки данных, основанная на применении технологии и моделей машинного обучения. Дается описание этапов методики, на которых осуществляется формирование обучающих наборов данных, оптимизация признакового пространства, оценка точности моделей машинного обучения, выбор наиболее приемлемых моделей и их непосредственное применение для текущего контроля пользовательских запросов.

Ключевые слова: обнаружение аномалий, центр обработки данных, машинное обучение, компьютерная безопасность.

В настоящее время вопросы выявления аномального поведения пользователей в автоматизированных системах являются чрезвычайно актуальными. Особенную значимость они приобретают в корпоративных автоматизированных информационных системах, в частности, в центрах обработки данных (ЦОД). Центры обработки данных представляют собой хранилища больших массивов разнородной информации. По этой причине они обеспечивают своим пользователям возможность коллективного использования содержащихся в ЦОД информационных ресурсов в интересах автоматизированного решения задач управления [1, 2]. По этой причине ЦОД являются объектами, на которые в первую очередь нацеливаются нарушители безопасности в целях получения несанкционированной информации или нарушения их работы [3, 4].

Поведение пользователей ЦОД определяется запросами, которые они посылают в базы данных, расположенные в ЦОД. Следовательно, аномальное поведение пользователей ЦОД сводится к аномальным запросам к базам данных. К такого рода запросам следует отнести запросы, которые содержат фрагменты кода, свойственные специальным компьютерным атакам - SQL-инъекциям [5, 6], а также запросы, в которых пользователи предпринимают попытки несанкционированного доступа (НСД) к таблицам данных, обращение к которым не разрешается. Такие аномальные действия можно обнаружить путем анализа регистрационных журналов баз данных с помощью технологии машинного обучения. В настоящее время такой анализ либо не проводится, либо проводится не в полном объеме. Целью работы является рассмотрение разработанной методики выявления аномального поведения пользователей ЦОД, основанной на применении технологии и моделей машинного обучения.

Общее описание методики. Предлагаемая методика предназначается как для разработчиков средств защиты, так и для администраторов безопасности ЦОД.

Исходными данными методики являются:

1) регистрационные журналы баз данных, в записях которых содержатся текст запроса, который, как правило, записан на языке SQL;

2) модели машинного обучения, которые возможно использовать для обнаружения аномалий в наборах данных;

3) требования по точности обнаружения аномальных запросов.

В качестве ограничений и допущений методики полагается, что запросы к базам данных написаны на языке SQL, а также то, что используемые модели машинного обучения не относятся к моделям глубокого обучения. Модели, используемые в предлагаемой методики, относятся к видам контролируемого (supervised), неконтролируемого (unsupervised) и частично контролируемого (semi-supervised) машинного обучения.

Предлагаемая методика содержит в себе следующие этапы:

1) подготовка наборов данных для обучения и тестирования моделей машинного обучения;

2) оптимизация признакового пространства обучающих наборов данных;

3) оценка точности обнаружения аномальных запросов моделями машинного обучения и выбор наиболее предпочтительных моделей;

4) выбор наиболее предпочтительных моделей и непосредственная проверка текущих запросов с их помощью.

Рассмотрим содержание этих этапов.

Этап 1. Подготовка наборов данных. Источником для подготовки наборов данных является регистрационный журнал системы управления базами данных (СУБД). Каждая запись этого журнала содержит следующие поля: дату, время, идентификатор пользователя и текст SQL-запроса, который был сформирован пользователем и выполнен со стороны СУБД.

В методике предлагается включить в состав первоначального множества атрибутов набора данных следующие категории признаков:

1) ключевые слова языка SQL, которые используются в запросах;

2) шаблоны (сигнатуры), свойственные SQL-инъекциям, которые планируется обнаруживать;

3) имена таблиц данных, которые содержатся в тексте SQL-запросов.

Признаки по каждой категории формируются с помощью известного метода «мешок слов» (bag-of-words) [7]. Этот метод определяет количество вхождений в соответствующий SQL-запрос того или иного слова или комбинации слов.

Признаки первой категории определяют количество вхождений того или иного ключевого слова языка SQL. Всего в методике используется 30 ключевых слов языка SQL, таких как SELECT, INSERT, UNION и т.д. Эта категория признаков определяет уровень сложности SQL-запроса и его тип. Как правило, большинство нормальных SQL-запросов являются простыми. В них, например, ключевое слово SELECT встречается один раз. Если запрос содержит SQL-инъекцию, то, как правило, такой запрос является сложным. В нем слово SELECT может встречаться многократно, причем совместно с другими словами, такими как, например, UNION и INSERT.

Вторую категорию признаков составляют количества вхождений тех или иных сигнатур, свойственных SQL-инъекциям. Примерами сигнатур, которые проверялись в методике, являются: "Execute", " or ", "txtUserId", "getRequestString", "1=1", "- -", "CHAR", "#" and ";". Они соответствуют наиболее популярным SQL-инъекциям. Наличие таких сигнатур в SQL-запросах однозначно указывает присутствие в них SQL-инъекций.

Третья категория признаков определяются количеством вхождений в SQL-запросы имен таблиц данных. С помощью этой группы признаков можно обнаруживать аномальные SQL-запросы, в которых пользователи предпринимают попытки НСД к информации, содержащейся в базе данных.

Этап 2. Оптимизация признакового пространства. Излишне большое количество признаков может оказывать негативное влияние на точность обнаружения аномалий. Поэтому представляется целесообразным решать задачу максимального сокращения набора признаков, сформированных первоначально исходя из записей регистрационных журналов, учитывая, что при этом результирующая точность обнаружения аномалий не должна уменьшаться.

Идея, положенная в основу оптимизации признакового пространства, базируется на использовании метрик информативности признаков. Для этой цели в методике используются следующие метрики [8]:

- Information Gain (Info.Gain),

- Information Gain Ratio (Gain Ratio),

- ANalysis Of VAriance (ANOVA),

- нормированное среднее значение этих метрик.

Метрика Info.Gain показывает уменьшение энтропии при поиске оптимального признака, вычисляемое по следующей формуле:

Mig (A, a) = H (A) - H (Aja), (1)

где A - признак (случайная величина), H (A) - энтропия A; H (Aja) - энтропия A при заданном значении A

= a.

Метрика Gain Ratio MGR является отношением между значением метрики Info.Gain, вычисляемой согласно (1), и значением метрики разделения информации Split Info, вычисляемой по формуле

Msl№ = -Zï=1(Pflog2pù, (2)

где pi - относительное количество раз, когда признак A принимает значение a, (т.е. p, = N (a,) I N; N (a,) -количество значений ai признака A; N - общее количество значений признака A в выборке).

Метрика ANOVA в своей простейшей форме обеспечивает статистическую проверку равенства двух или более средних значений генеральной совокупности. Примеры расчета метрики информативности Manova на основе дисперсионного анализа можно найти в [9].

Усредненная метрика M^a вычисляется как среднее значение:

^сред = Mig + Mgr ++ Manova) I 3. (3)

Критерием, по которому осуществляется оставление признака в признаковом пространстве, является превышение его метрики информативности среднего значения этой метрики по всему множеству признаков. Иными словами, для признака A*, который остается в признаковом пространстве, выполняется условие

M (A*) > (M (A1) + M (A2) + ... + M (Ak)) I K, (4)

где K - общее количество признаков в первоначальном наборе.

Этап 3. Оценка точности обнаружения аномальных запросов моделями машинного обучения. Предлагаемая методика предполагает, что оценка точности обнаружения аномальных запросов моделями машинного обучения осуществляется в следующих программных средах:

- на языке Python с наборами необходимых библиотек (sklearn, numpy, pandas, matplotlib, Scipy, Re, Pylab, Math);

- в системе открытого доступа Orange 3.32.

Для обнаружения аномалий, вызванных SQL-инъекциями, исследовались следующие наиболее популярные модели контролируемого машинного обучения [10]:

- машина опорных векторов (SVM),

- дерево решений (DT),

- логистическая регрессия (LR),

- случайный лес (RF),

- гауссов наивный Байес (GNB);

- метод ^-ближайших соседей (KNN),

- многослойная нейронная сеть (NN).

Для формирования обучающего набора данных в методике используется набор данных SQLiV3.csv, содержащий шаблоны SQL-инъекций и нормальные SQL-запросы и входящий в состав доступных наборов данных системы организации конкурсов по исследованию данных Kaggle (www.kaggle.com). После очистки этого набора данных от присутствующих в нем аномальных строк в наборе осталось 11600 нормальных записей. Затем несколько случайно выбранных записей были модифицированы таким образом, чтобы они соответствовали возможным SQL-инъекциям и попыткам несанкционированного доступа. Всего было модифицировано 50 таких записей, которые были помечены как аномальные. Примерами аномальных запросов являются:

- SELECT * FROM users WHERE username = 'administrator'--' AND password = '';

- SELECT name, description FROM products WHERE category = 'Gifts' UNION SELECT username, password FROM users—;

- SELECT Userld, Name, Password FROM Users WHERE Userld = 105 or 1=1;

- uName = getRequestString("username");

- SELECT * FROM Users WHERE Name ="" or ""="" AND Pass ="" or ""="";

- SELECT * FROM Users WHERE Userld = 105 UNION DROP TABLE Suppliers;

- UPDATE users SET password= 'newpwd' WHERE userName= 'admin' -- ' AND password=

'oldpwd';

- SELECT accounts FROM users WHERE login="legalUser"; exec(char(0x73687574646f776e)) - -AND pass-'" AND pin =.

Для обучения использовалось 80% записей. Остальные 20% записей использовались для контрольного тестирования.

Полученные результаты оценки эффективности обнаружения аномалий (показатель F-score) для полного и оптимизированного наборов признаков по данным контрольного тестирования для различных моделей машинного обучения представлены в табл. 1.

Таблица 1

Экспериментальные результаты_

Модель F-score

Полный набор признаков Оптимизированные наборы признаков

Info.Gain Gain Ratio ANOVA ^сред

SVM 0,974 0,984 1,000 1,000 0,995

DT 0,935 0,935 0,935 0,935 0,935

LR 0,935 0,971 0,995 0,995 0,987

RF 1,000 1,000 0,995 1,000 0,998

GNB 0,517 1,000 1,000 1,000 1,000

KNN 0,935 0,978 0,995 0,995 0,989

NN 0,997 0,984 1,000 1,000 0,995

Анализ полученных экспериментальных результатов показывает, что исследуемые модели машинного обучения демонстрируют различную точность обнаружения аномальных запросов. Так, модели DT и LR оказались недостаточно эффективными. Возможно, это вызвано недостаточно большим размером обучающей выборки. В свою очередь, модели SVM, RF, GBN, KNN и NN показали достаточно высокую эффективность. Наибольшую эффективность продемонстрировала модель GNB, которая на оптимальном наборе признаков не сделала ни одной ошибки в обнаружении аномалий.

Для обнаружения аномалий, вызванных попытками НСД, исследовались модели неконтролируемого и частично контролируемого машинного обучения. Для исследования были выбраны следующие модели:

- метод к-средних (k-Means) совместно с методом главных компонент (Principal Component Analysis, PCA),

- изолированный лес (IF),

- локальный уровень выброса (LOF);

- одноклассный метод опорных векторов (OCSVM).

Исследование метода k-Means на наборе данных с оптимальным признаковым пространством показало, что его наибольшая точность достигается при значении параметра к, равном 2, и количестве кластеров, равном 5. Однако достигнутая точность была равна 0,82, что не отвечает предъявляемым требованиям.

Для исследования остальных моделей неконтролируемого машинного обучения объем исходного набора данных был увеличен в 50 раз и доведен до 507232 записей. Оптимальное признаковое пространство было расширено всеми признаками третьей категории. Количество аномальных записей равнялось 20. Однако, как показали эксперименты, в этом случае все три модели дали большое количество ошибок первого и второго рода.

По этой причине исследованию подверглись модели IF, LOF и OCCVM в режиме частично контролируемого обучения, когда модель обучается на наборе данных, содержащим только нормальные записи. Результате, полученные на таком наборе данных, имеющим расширенный состав признаков, представлены на рисунке.

Accuracy of tSF

normal anomaly

00 02 04 06 OS 10

Accuracy of LOF

Accuracy of OCSVM

Результаты, полученные при частично контролируемом обучении

Точность обнаружения нормальных записей для модели LOF составила 0,9989, аномальных записей - 1,0. Модель ISF, не смотря на высокую точность обнаружения нормальных записей, не смогла обнаружить ни одной аномальной записи. Модель OCSVM показала точность обнаружения аномальных записей 1,0, однако для нормальных записей точность была равна всего лишь 0,8567.

Этап 4. Выбор наиболее предпочтительных моделей. На основании проведенных на предыдущем этапе экспериментов сформирована итоговая табл. 2, в которой на основе сравнительной оценки отображаются предпочтения по использованию моделей машинного обучения для обнаружения различных аномалий.

Таблица 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сравнительная оценка моделей машинного обучения_

Вид машинного обучения Модель машинного обучения SQL-инъекции Несанкционированный доступ

Оценка Рекомендации Оценка Рекомендации

Контролируемое SVM + + Ok + - -

DT - - - - - -

LR + - - - - -

RF + + Ok + - -

GNB + + Ok -- -

KNN + - - - - -

NN + + Ok + + Ok

Неконтролируемое K-Means - - - Не используется

ISF - - - - - -

LOF - - - + - -

OCSVM + - - - - -

Частично контролируемое ISF - - - - - -

LOF + + Ok + + Ok

OCSVM + - - + - -

Наиболее предпочтительные модели машинного обучения, выбираемые предлагаемой методикой, обозначены символами "Ок".

Непосредственная проверка текущих запросов с помощью выбранных моделей обучения производится путем подачи на соответствующую уже обученную модель текущего SQL-запроса. Это соответствует тому, что модель используется в режиме тестирования. Тестирование текущего запроса производится в реальном масштабе времени. В случае, если модель обнаруживает аномалию, администратору безопасности ЦОД выдается уведомлении о возможной SQL-инъекции или попытке НСД.

Заключение. В статье рассматривается методика выявления аномального поведения пользователей ЦОД, основанная на применении технологии и моделей машинного обучения. Методика позволяет обнаруживать в запросах, с которыми пользователи обращаются к базам данных ЦОД, атаки вида SQL-инъекции и/или попытки НСД к информации, содержащейся в базе данных. Методика использует модели поверхностного машинного обучения, относящиеся к контролируемому, неконтролируемому и частично контролируемому обучению. Методика содержит четыре этапа, на которых осуществляется формирование обучающих наборов данных, оптимизация признакового пространства, оценка точности моделей машинного обучение, выбор наиболее приемлемых моделей и их непосредственное применение для текущего контроля запросов, формируемых пользователями ЦОД.

Экспериментальная оценка методики показала, что она позволяет достигнуть достаточно высоких значений точности обнаружения как SQL-инъекций, так и попыток НСД.

Дальнейшие исследования связываются с внедрением разработанной методики в систему защиты ЦОД.

Список литературы

1. Саенко И.Б., Захарченко Р.И., Ясинский С.А., Грязев А.Н. Модели функционирования критической информационной инфраструктуры в условиях кибернетического противоборства // Информация и космос. 2018. № 2. С. 46-51.

2. Саенко И.Б., Котенко И.В., Аль-Барри М.Х. Применение искусственных нейронных сетей для выявления аномального поведения пользователей центров обработки данных // Вопросы кибербез-опасности. 2022. №2(48). С. 87-97.

3. Klymash M., Shpur O., Lavriv O., Peleh N. Information Security in Virtualized Data Center Network // 2019 3rd International Conference on Advanced Information and Communications Technologies (AICT). 2019. P. 419-422.

4. Белянская О.В., Привалов А.Н. О модели угроз информационной безопасности в центрах обработки данных // Известия Тульского государственного университета. Технические науки. 2021. Вып. 9. С. 12-16.

5. Беляев А.В., Григоров А.С. Обнаружение атак на базы данных на основе оценки внутренней структуры результатов выполнения SQL-запросов // Научно-технический вестник Поволжья. 2012. № 2. С. 99-104.

6. Mousa A., Karabatak M., Mustafa T. Database Security Threats and Challenges // 2020 8th International Symposium on Digital Forensics and Security (ISDFS). 2020. P. 1-5.

7. Qader W.A., Ameen M.M., Ahmed B.I. An Overview of Bag of Words; Importance, Implementation, Applications, and Challenges // 2019 International Engineering Conference (IEC), Iraq, 2019. P. 200-204.

8. Аль-Барри М.Х. Модель признакового пространства для выявления аномального поведения пользователей центров обработки данных методами машинного обучения // Известия Тульского Государственного Университета. Технические науки. 2022. Вып. 10. С. 79-83.

9. Антипина Н.М., Захаров В.Н., Протасов Ю.М. Однофакторный дисперсионный анализ Краскела-Уоллиса в табличном редакторе MS Excel // Информационно-технологический вестник. 2019. № 4 (22). С. 46-54.

10. Браницкий А.А., Саенко И.Б. Методика многоаспектной оценки и категоризации вредоносных информационных объектов в сети Интернет // Труды учебных заведений связи. 2019. Т. 5, № 3. С. 58-65.

Аль-Барри Мазен Хамед, адъюнкт, mazenb51@gmail.com, Россия, Санкт-Петербург, Военная академия связи имени Маршала Советского Союза С.М. Буденного

TECHNIQUE FOR DETECTING ABNORMAL BEHAVIOR OF DATA CENTER USERS BASED ON MACHINE

LEARNING TECHNOLOGY

M.H. Al-Barri

A technique for detecting anomalous behavior of data center users based on the use of machine learning technology and models is considered. The description of the technique stages is given, at which the formation of training data sets, optimization of the feature space, assessment of the machine learning model accuracy, selection of the most appropriate models and their direct application for the current control of user requests are carried out.

Key words: anomaly detection, data center, machine learning, computer security.

Al-Barri Mazen Hamed, adjunct, mazenb51@gmail. com, Russia, Saint Petersburg, Military Academy of Communications named after Marshal of the Soviet Union S.M. Budyonny

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аль-Барри Мазен Хамед

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аль-Барри Мазен Хамед

TECHNIQUE FOR DETECTING ABNORMAL BEHAVIOR OF DATA CENTER USERS BASED ON MACHINE LEARNING TECHNOLOGY

Текст научной работы на тему «МЕТОДИКА ВЫЯВЛЕНИЯ АНОМАЛЬНОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ ТЕХНОЛОГИИ МАШИННОГО ОБУЧЕНИЯ»