Научная статья на тему 'ВЛИЯНИЕ ФРАКТАЛЬНОЙ РАЗМЕРНОСТИ НА КАЧЕСТВО КЛАССИФИКАЦИИ КОМПЬЮТЕРНЫХ АТАК МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ'

ВЛИЯНИЕ ФРАКТАЛЬНОЙ РАЗМЕРНОСТИ НА КАЧЕСТВО КЛАССИФИКАЦИИ КОМПЬЮТЕРНЫХ АТАК МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФРАКТАЛЬНАЯ РАЗМЕРНОСТЬ / БИНАРНАЯ КЛАССИФИКАЦИЯ / СЕТЕВЫЕ АТАКИ / МАШИННОЕ ОБУЧЕНИЕ / ПОКАЗАТЕЛЬ ХЕРСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин О.И., Рыбаков С.Ю., Ванюшина А.В.

Введение: Для построения эффективной системы сетевой защиты компьютерных сетей от атак перспективным направлением является совместное использование фрактального анализа и интеллектуального анализа данных. Предлагается повысить эффективность классификации сетевых атак путем введения дополнительной статистики фрактальной размерности (ФР) атак наряду с другими атрибутами. Методы: В отличие от известных работ предлагается дополнительно повысить эффективность классификации сетевых атак путем использования в качестве информационных признаков не только среднего значения, но и других статистических характеристик ФР атак и нормального трафика. Это могут быть дисперсия, коэффициенты асимметрии и эксцесса, характеризующие форму и параметры распределения ФР. Эффективность предлагаемого способа оценивается с помощью алгоритмов машинного обучения путем оценки качества бинарной классификации сетевых атак и нормального трафика на примере использования базы данных UNSW-NB15. Для классификации набора данных были использованы следующие алгоритмы классификации метод k-ближайших соседей (k-NN), множественная логистическая регрессия (LR), дерево решений (DTC), случайный лес (RF), аda boost. Для оценки эффективности построенных моделей использовались метрики: точность (precision), полнота (recall), F-мера (F-score), ROC-кривые, AUC-ROC. Результаты исследования: Показано, что использование в качестве дополнительных информационных признаков в виде среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, характеризующих форму и параметры распределения статистических характеристик распределения ФР позволяет повысить эффективность классификации атак в среднем на 10% Наибольший эффект от учета дополнительных статистических параметров ФР заметен для алгоритмов классификации k-NN и LR. Для алгоритмов DTC и RF наибольший эффект от использования дополнительных атрибутов оказывается в сокращении времени обучения и тестирования и составляет около 3,5 раз для каждого из алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шелухин О.И., Рыбаков С.Ю., Ванюшина А.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFLUENCE OF FRACTAL DIMENSION ON QUALITY CLASSIFICATION OF COMPUTER ATTACKS BY MACHINE LEARNING METHODS

Introduction. For building an effective network protection system in computer network against attacks, a promising direction is joint use of fractal analysis and data mining. It is proposed to increase the efficiency of network attacks classification by introducing additional fractal dimension (FD) statistics of attacks along with other attributes. In contrast to the well-known works, it is proposed to further improve the efficiency of classifying network attacks by using not only the average value, but also other statistical characteristics of the DF of attacks and normal traffic as information features. These can be variance, skewness and kurtosis coefficients that characterize the shape and parameters of the distribution of the RF. The effectiveness of the proposed method is evaluated using machine learning algorithms by assessing the quality of the binary classification of network attacks and normal traffic using the UNSW-NB15 database as an example. The following classification algorithms were used to classify the dataset: k-nearest neighbors (k-NN), multiple logistic regression (LR), decision tree (DTC), random forest (RF), ada boost. The following metrics were used to evaluate the effectiveness of the constructed models: accuracy (precision), recall (recall), F-score (F-score), ROC-curves, AUC-ROC. It is shown that the use of mean value, variance, skewness and kurtosis coefficients, which characterize the shape and distribution parameters of the statistical characteristics of the FD distribution as additional information features, makes it possible to increase the efficiency of attack classification by an average of 10%. k-NN and LR classification algorithms. For the DTC and RF algorithms, the greatest effect from the use of additional attributes is in reducing the training and testing time and is about 3.5 times for each of the algorithms.

Текст научной работы на тему «ВЛИЯНИЕ ФРАКТАЛЬНОЙ РАЗМЕРНОСТИ НА КАЧЕСТВО КЛАССИФИКАЦИИ КОМПЬЮТЕРНЫХ АТАК МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ»

doi: 10.36724/2409-5419-2023-15-1-57-64

ВЛИЯНИЕ ФРАКТАЛЬНОЙ РАЗМЕРНОСТИ НА КАЧЕСТВО КЛАССИФИКАЦИИ КОМПЬЮТЕРНЫХ АТАК МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

ШЕЛУХИН Олег Иванович1

РЫБАКОВ

Сергей Юрьевич2

ВАНЮШИНА Анна Вячеславовна 3

Сведения об авторах:

1 Московский Технический Университет Связи и Информатики (МТУСИ), д.т.н., заведующий кафедрой "Информационная безопасность", Москва, Россия sheluhin@mail.ru

2 Московский Технический Университет Связи и Информатики (МТУСИ), аспирант кафедры "Информационная безопасность", Москва, Россия, s.i.rybakov@mtuci.ru

3 Московский Технический Университет Связи и Информатики (МТУСИ), к.т.н., доцент кафедры "Информационная безопасность", Москва, Россия a.v.vaniushina@mtuci.ru

АННОТАЦИЯ

Введение: Для построения эффективной системы сетевой защиты компьютерных сетей от атак перспективным направлением является совместное использование фрактального анализа и интеллектуального анализа данных. Предлагается повысить эффективность классификации сетевых атак путем введения дополнительной статистики фрактальной размерности (ФР) атак наряду с другими атрибутами. Методы: В отличие от известных работ предлагается дополнительно повысить эффективность классификации сетевых атак путем использования в качестве информационных признаков не только среднего значения, но и других статистических характеристик ФР атак и нормального трафика. Это могут быть дисперсия, коэффициенты асимметрии и эксцесса, характеризующие форму и параметры распределения ФР. Эффективность предлагаемого способа оценивается с помощью алгоритмов машинного обучения путем оценки качества бинарной классификации сетевых атак и нормального трафика на примере использования базы данных UNSW-NB15. Для классификации набора данных были использованы следующие алгоритмы классификации метод k-ближайших соседей (k-NN), множественная логистическая регрессия (LR), дерево решений (DTC), случайный лес (RF), аda boost. Для оценки эффективности построенных моделей использовались метрики: точность (precision), полнота (recall), F-мера (F-score), ROC-кривые, AUC-ROC. Результаты исследования: Показано, что использование в качестве дополнительных информационных признаков в виде среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, характеризующих форму и параметры распределения статистических характеристик распределения ФР позволяет повысить эффективность классификации атак в среднем на 10% Наибольший эффект от учета дополнительных статистических параметров ФР заметен для алгоритмов классификации k-NN и LR. Для алгоритмов DTC и RF наибольший эффект от использования дополнительных атрибутов оказывается в сокращении времени обучения и тестирования и составляет около 3,5 раз для каждого из алгоритмов.

КЛЮЧЕВЫЕ СЛОВА: Фрактальная размерность, бинарная классификация, сетевые атаки, машинное обучение, показатель Херста.

Для цитирования: Шелухин О.И., Рыбаков С.Ю., Ванюшина А.В. Влияние фрактальной размерности на качество классификации компьютерных атак методами машинного обучения // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 1. С. 57-64. Сок 10.36724/2409-5419-2023-15-1-57-64

Введение

Статистический анализ измерений сетевого трафика в компьютерной сети показывает четкое присутствие у него фрактальных или самоподобных свойств [1-4].

В работах [5-9] для решения задач информационной безопасности используются фрактальный анализ.

Для оценки степени самоподобия используются понятия фрактальной размерности множества (по Хаусдорфу) Э и показатель Херста Н , характеризующий степень самоподобия процесса, связанные между собой соотношением: Э = 2 - Н . В подавляющем большинстве работ в области телекоммуникаций для обнаружения аномалий сетевого трафика используется показатель Херста [3,4,5,16].

Для построения эффективной системы сетевой защиты перспективным направлением является совместное использование фрактального анализа и интеллектуального анализа данных.

В работе [10] на примере базы данных КОБ Сир1999 [11,12] показано положительное влияние оценки фрактальных свойств сетевого трафика и атак на качество бинарной классификации. В качестве дополнительного признака нормального трафика и сетевых атак предложено использовать среднее значение показателя Херста Н .

В отличие от [10] предлагается дополнительно повысить эффективность классификации сетевых атак путем использования в качестве информационных признаков не только среднего значения, но и других статистических характеристик ФР атак и нормального трафика. В частности, это могут быть дисперсия, коэффициенты асимметрии и эксцесса, характеризующие форму и параметры распределения ФР.

Эффективность предлагаемого подхода может быть оценена путем оценки качества бинарной классификации сетевых атак и нормального трафика на примере использования базы данных (например, UNSW-NB15[13,14]) с помощью широкого класса алгоритмов машинного обучения.

1. Набор данных

В таблице 1 представлена статистика набора данных UNSW-NB15, которая содержит в себе следующие данные: период моделирования, номера потоков, общее количество байтов от источника и получателя, количество пакетов источника, количество пакетов назначения, тип протоколов, количество нормальных и ненормальных записей и количество уникальных 1Р-адресов источника/назначения [13,14].

Составленные признаки на основе сырых данных представлены в таблице 2. Признаки с 1 по 35 представляют интегрированную собранную информацию из данных пакетов. Большинство признаков генерируется из заголовков пакетов, а дополнительные признаки 35-47 создаются на основе потока.

Основными метками набора данных и№"^КВ15 являются нормальные записи и атаки. В наборе данных представлены 9 типов атак.

Таблица 1

Статистика база данных

1й день (16 часов) 2й день (15 часов)

No_of_flows 987627 976882

Src_bytes 4860168866 5940523728

Des_bytes 44743560943 44303195509

Src_Pkts 41168425 41129810

Des_Pkts 53402915 52585462

Типы протоколов TCP 771488 720665

UDP 301528 688616

ICMP 150 374

Others 150 374

Нормальная запись 1064987 1153774

Атака 22215 299068

Количество уникальных 1Р-адресов источника 40 41

Количество уникальных 1Р-адресов назначения 44 45

Таблица 2

Признаки набора данных UNSW-NB15

№ Признак Описание

Потоковые признаки

1 Scrip 1Р адреса отправителя

2 Sport Номер порта отправителя

3 Dstip 1Р адреса получателя

4 Dsport Номер порта получателя

5 Proto Протокол связи

Базовые признаки

6 State Состояние и его соответствующий протокол, например, АСС, CLO, еще (-)

7 Dur Общая продолжительность записи

8 Sbyte Число байтов от отправителя к получателю

9 Dbyte Число байтов от получателя к отправителю

10 Sttl Время существования от отправителя к получателю

11 Dttl Время существования от получателя к отправителю

12 Sloss Пакеты отправителя ретранслированы или потеряны

13 Dloss Пакеты получателя ретранслированы или потеряны

14 Service http, ftp, ssh, dns...,else

15 Sload Биты отправителя в секунду

16 Dload Биты получателя в секунду

17 Spkts Количество пакетов от отправителя к получателю

18 dpkts Количество пакетов от получателя к отправителю

Содержательные признаки

19 Swin Окно подтверждения TCP отправителя

20 Dwin Окно подтверждения TCP получателя

21 Stcpb Номер очереди TCP отправителя

22 Dtcpb Номер очереди TCP получателя

23 Smeansz Среднее значение размера пакета, переданного с помощью src

24 Dmeansz Среднее значение пакета, переданного с помощью dst

25 Trans_de pth Глубина подключения http транзакции запроса/ ответа

26 Res_bdy_ len Размер данных, переданных от http службы сервера

Временные признаки

27 Sjit Джиттер отправителя (мс)

28 Djit Джиттер получателя (мс)

29 Stime Начало времени записи

30 Ltime Конец времени записи

31 Sintpkt Время поступления inter-packet отпр отправителя

32 Dinpkt Время поступления inter-packet получателя (мс)

33 Tcprtt Сумма 'synack' и 'ackdat' TCP

34 Synack Время между SYN и SYN и SYN_ACK пакетами TCP

35 Ackdat Время между SYN АСК и АСК пакетами TCP

Дополнительные признаки

36 Is_sm_ips _port Если отправитель (1) и получатель (3) имеют одинаковые 1Радреса и номера портов (2) (4) равны, тогда эта переменная принимает значение 1, в противном случае 0

37 Ct state ttl Число для каждого состояния (6), соответствующее определенному диапазону значений времени жизни отправителя/получате ля (10) (11).

38 Ct_flw_ht tp mthd Число потоков, у которых есть такие методы, как Get nPostB http службе

39 Is_ftp_lo gin Если сеанс ftp инициирован пользователем и пароль правильный, тогда 1, в противном случае 0.

40 Ct_ftp_ cmd Число потоков, у которых есть команда в ftp сессии.

Признаки соединений

41 Ct_srv_ src Число соединений, которые содержат одинаковые службы (14) и адреса отправителя в 100 соединениях, согласно последнему времени (26).

42 Ct_srv_ dst Число соединений, которые содержат одинаковые службы (14) и адреса получателя в 100 соединениях согласно последнему времени (26).

43 Ct_dst_ ltm Число соединений одного и того же адреса получателя (3) в каждых 100 соединениях согласно последнему времени (26)

44 Ct_src_ ltm Число соединений одного и того же адреса отправителя (1) в каждых 100 соединениях согласно последнему времени (26).

45 Ct_src_ dport_ltm Число соединений одного и того же адреса отправителя (1) и порта получателя (4) в 100 соединениях согласно последнему времени (26).

46 Ct_dst_ sport_ltm Число соединений одного и того же адреса получателя (1) и порта отправителя (4) в 100 соединениях согласно последнему времени (26).

47 Ct_dst_ src_ltm Число соединений одного и того же адреса отправителя (1) и адреса получателя (3) в 100 соединениях согласно последнему времени (26).

Признаки метки классов

48 At- tack_cat Название каждого типа атаки. В этом наборе данных содержится 9 типов атак (Fuzzers, Analysis, Backdoors, DoS, Exploits, Generic, Reconnaissance, Shellcode and Worms)

49 Label 0 для нормальной записи и 1 для записи атаки

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В анализируемой базе данных UNSW-NB15 в наборе тестовых и обучающих выборок отсутствуют признаки 29-30, а также признаки 1-4. Всего выборки содержат 175341 и 82332 обучающих и тестовых записей соответственно. Распределение записей по категориям показано на рисунках 1 и 2.

Рис. 1. Распределение записей в обучающей выборке для всех классов

Шв71

^^ I М96

677 583 ^^Н ^^Н ^^Н ^^Н 378

Analysis Backdoor

Normal Reconnaissance Shellcode Vtorms

Рис. 2. Распределение записей в тестовой выборке для всех классов

Учитывая, что классы в наборе данных UNSW-NB15 не сбалансированы, т.е. количество записей с классами normal и DoS в несколько раз превосходит количество записей по другим классам необходимо использовать нормализацию набора данных.

Нормализация проводилась по принципу мини-макс в со-

ответствии с формулой x' = -

x - min( X)

-, где min( X) и

тах( X) - тт( X) тах( X) - минимальное и максимальное значение поля из

всего набора данных.

С помощью признаков 1-5 и 29, 30 из исходных данных были выделены потоковые данные с разделением по каждой категории. Фрагмент нормального трафика UNSW-NB15 представлен на рисунке 3.

Используя экспериментально снятые характеристики атак и нормального трафика, можно оценить статистические характеристики ФР атак и нормального трафика на этапе обучения и использовать их затем на этапе классификации.

Рис. 3. Фрагмент нормального трафика UNSW-NB15

2. Алгоритмы и метри классификации

Для классификации набора данных были использованы следующие алгоритмы классификации [15]:

• Метод k-ближайших соседей (k-Nearest Neighbors, neighbors, k-NN). Использовался нормализованный набор данных.

• Множественная логистическая регрессия (Logictic Regression, LR). Для решения уравнения логистической регрессии использовался алгоритм SAGA. Использовался нормализованный набор данных.

• Мультиномиальный Наивный Баиес (Multinomial Naive Bayes, NB). Использовался нормализованный набор данных.

• Дерево решений (Decision Tree Classifier, DIG). В качестве оценочной функции использовался коэффициент неопределенности Gini. Нормализация данных не требуется. В ходе эмпирического анализа было выяснено, что лучший результат достигается при количестве признаков 2S и при глубине дерева 23.

• Случайный лес (Random Forest - RF). Из-за того, что основой алгоритма является дерево решений, нормализация не требуется. Наилучший результат для рассматриваемого набора данных был получен при разбивке данных на 100 подвыборок.

• Ada Boost (AB).

Наилучший результат для рассматриваемого набора данных был получен при разбивке данных на 1000 подвыборок.

В задачах машинного обучения наиболее часто используются следующие метрики для оценки эффективности построенных моделей: точность {precision), полнота {recall), F-мера {F-score), ROC-кривые {Receiver Operating Characteristic curve - кривая ошибок), AUC-ROC и AUC-PR {Area Under Curve -площадь под кривой ошибок и площадь под кривой pricison-recaO)

3. Д олнительные фрактальные признаки атак

Для повышения эффективности бинарной классификации анализируемого набора данных предлагается в отличие от работы [10] ввести дополнительные признаки (атрибуты) для каждого из типов обнаруживаемых атак.

При проведении численных расчетов учитывались только реализации атак, для которых количество наблюдений п>100. В этом случае погрешность оценки показателя Херста не превышала 5%.

В качестве совокупности фрактальных атрибутов предлагается использовать экспериментально полученные статистические характеристики ФР такие как: среднее значение ФР (показатель Херста) MH , дисперсию показателя Херста DH, коэффициенты асимметрии Касс, и эксцесса Кэ , характеризующие форму плотности распределения вероятностей фрактальной размерности w{ H).

В таблице 3 представлены результаты оценки указанных выше статистических параметров показателя ХерстаЯ для атак всех категорий трафика при количестве реализаций атак равном N.

При вычислениях не были учтены атаки Shellcode и Worms, поскольку для них отсутствовали продолжительные интервалы, необходимые для оценки параметров фрактальной размерности.

Таблица 3

Статистические характеристики распределения w{H) для атак

Тип атаки (N) MH Dh Kacc K3

Normal 20 0.6949 0.0009 0.3137 0.4431

Analysis 9 0.6685 0.0084 0.2493 1.1772

Backdoors 8 0.6121 0.0030 0.8678 0.4829

DoS 18 0.5900 0.0051 1.0607 2.5674

Exploit 21 0.7251 0.0060 0.4528 0.3805

Fuzzers 23 0.6891 0.0045 0.1573 1.2453

Generic 15 0.6726 0.0083 0.3544 1.3438

Reconnaissance 9 0.6026 0.0013 0.1751 1.0603

В соответствии с полученными результатами в таблицу 2 признаков набора данных иМ8"^КВ15для обучающих и тестовых подвыборок были добавлены четыре новых признака представленных в таблице 4.

Таблица 4

Дополнительные признаки атак и нормального трафика

№ Признак Описание

Дополнительные признаки фрактальной размерности

50 herst_avg Математическое ожидание ФР для распределения №( Н)

51 herst_desp Дисперсия ЭН для распределения Ц Н)

52 herst_skew Коэффициент асимметрии Касс для распределения Ц Н)

53 herst_kurtosis Коэффициентэксцесса Кэ дляраспре-деления Н) .

Если в таблице 4 запись отсутствует, то дополнительный признак принимался равным нулю. Это означает, что допол-

нительныи признак отсутствует и для данной категории атаки в процессе классификации не принимается во внимание.

На рисунках 4 и 5 представлены гистограммы, позволяющие оценить значимость признаков при учете введенных дополнительных параметров ФР. Важность введенных признаков вычислялась с помощью коэффициента Джини [15,17], лежащем в основе принятия решений алгоритмов ЭТО (рис. 4) и ЯГ (рис. 5).

Сравнение гистограмм 4а и 46 показывает, что для алгоритма ЭТО учет только одного дополнительного атрибута в виде среднего значения параметра Херста Ьвгз1_в\д ставит его на второе место по значимости при классификации атак. Однако если появляется возможность оценить дополнительные параметры ФР, то наибольшей значимостью будут обладать атрибуты Ьвгз1_бвзрк Ьвгз1_киПоз1з.

В соответствии с таблицей 4 атрибут Ь/вгз^взр характеризует разброс параметра Херста относительно среднего значения. Параметр Ьвгз1_киг1оз\з, характеризующий форму распределения параметра Херста Н) имеет хотя и важное, но существенно меньшее значение.

Как видно из рисунка 5а для алгоритма RF на качество классификации влияет большее число признаков, по сравнению с алгоритмом DTC. Однако и в этом случае учет только одного дополнительного атрибута herst_avg ставит его на первое место по значимости.

Рис. 4. Значимость первых 6 признаков для алгоритма DTC в задаче классификации а) без учета ФР; б) с учетом параметра herst_avg(50y, в) с учетом всех статистических параметров ФР из таблицы 5

Рис. 5. Значимость первых 10 признаков для алгоритма ЛТ в задаче классификации: а) без учета ФР; б) с учетом параметра

Ьвгз_а\/д(50у, в) с учетом всех статистических параметров ФР из таблицы 4

Однако, если появляется возможность оценить дополнительные параметры ФР, характеризующие форму и параметры распределения Херста \л( Н), наибольшей значимостью будут обладать атрибут Ьвгз1_бвзр.

В соответствии с таблицей 4 атрибут Ь/вгз^взр характеризует разброс параметра Херста относительно среднего значения. Параметры ¡пвгз^зквш, Ьвгз1_киг1оз\з, характеризующие форму распределения Н) имеют несколько меньшее значение, занимают по степени важности 4-е и 6-е место.

Из представленных гистограмм можно видеть, что дополнительные статистические атрибуты, представленные в таблице 4, оказывают существенное влияние на алгоритм принятия решения.

4. Результаты бинарной классификации

Рассмотрим результаты сравнительного анализа влияния статистических характеристик 1л( Н) на качество бинарной

классификации атак. Для бинарной классификации все категории атак были приведены к одной категории "Attack".

В результате классификация сводится к задаче идентификации двух классов: Attack и Normal. Анализировались три режима работы.

1. Классификация только при использовании исходных признаков 1...49 приведенных в таблице 1. Результаты классификации представлены на рисунках 6-7 (а)',

2. Классификация при добавлении к набору признаков 1...49 одного дополнительного признака №50 - herst_avg (50) - среднего значения показателя Херста. Результаты классификации, соответствующие этому случаю, приведены на рисунках 6-7 (б);

3. Классификация при добавлении к набору признаков 1...49 всех четырех статистических признаков № 50...53 приведенных в таблице 4: herst_stat (herst_avg, herst_desp; herst_skew, herst_kurtosis). Результаты классификации, соответствующие этому случаю, приведены на рисунках 6-7 (в).

Рис. 6. Значения метрики precision для классификаций а) без учета ФР, б) с учетом параметра herst_avg(50) в) с учетом всех статистических параметров из herst_stat таблицы 4

Рис. 7. Значения метрики recall для классификаций а) без учета ФР, б) с учетом параметра herst_avg(50) в) с учетом всех статистических параметров herst_statw3 таблицы 4

При классификации не использовались признаки 1-4, 29, 30 из таблицы 2, поскольку они отсутствовали в исходных обучающих и тестовых выборках.

Из представленных результатов видно, что эффективность использования дополнительных атрибутов в виде статистических параметров ФР атак herst_stat и нормального трафика наиболее заметна для алгоритмов классификации k-NN и LR. Для этих алгоритмов выигрыш от использования дополнительных атрибутов достигает 21% для метрики precision при наличии атак и41% при их отсутствии.

Выигрыш в метрике f1-score скромнее и составляет около 7%. Для метрики AUC-PR выигрыш составляет 7-8%.

Наибольший эффект достигается от использования в качестве дополнительного признака среднего значения фрактальной размерности - MH . При использовании алгоритмов классификации DTC и RF выигрыш от использования дополнительного атрибута MH оставляет около 15-20% практически для всех рассмотренных метрик.

Более существенным выигрыш от использования дополнительных атрибутов оказывается в сокращении времени обучения и тестирования. Эти результаты приведены в таблице 5.

Таблица 5

Быстродействие алгоритмов классификаций

Алгоритмы\ доп признаки нет herst_avg herst_stat

обуч. предск всего обуч. предск. всего обуч. предск. всего

k-NN 76,01 34,84 110,85 94,03 45,78 139,8 1 67,57 27,44 95,01

LR 6,84 0,01 6,85 7,17 0,01 7,18 4,65 0,005 4,65

NB 0,56 0,01 0,57 0,53 0,02 0,55 0,48 0,01 0,49

DTC 2,32 0,09 2,41 1,47 0,11 1,58 0,59 0,09 0,68

RF 16,49 0,35 16,84 8,21 0,27 8,48 4,59 0,24 4,83

Ada Boost 547,08 14,87 561,95 596,6 5 15,22 611,8 7 469,23 13,49 482,72

Наиболее эффективными здесь оказываются также алгоритмы DTC и RF. В случае алгоритма DTC использование одного дополнительного параметра в виде среднего значения ФР привело к снижению времени на обучение и тестирование более чем в 1,5 раза, а для алгоритма «случайный лес» в 1,98 раза.

Использование всех четырех дополнительных атрибутов herst_stat (herst avg; herst desp; herst skew; herst kurtosis), представленных в таблице 4 повысило их значимость и привело к снижению времени на обучение и тестирование для алгоритма «дерево решения» в 3,54 раза, а для алгоритма «случайный лес» в 3,48 раза. Абсолютные цифры оказались меньше у алгоритма «дерево решений» и составили 0,68 сек, в то время как для «случайный лес» - 4,83 сек.

Выводы

Введение дополнительных статистических параметров фрактальной размерности, характеризуемых средним значением параметра Херста MH , дисперсией DH, Касс, и Кэ характеризующими форму распределения W H) положительно влияет на качество и скорость бинарной классификации атак.

Для оценки этих параметров могут быть применены традиционные статистические методы. Размер выборок позволяющий провести оценку указанных параметров n должен позволять оценить указанные параметры с заданной погрешностью как на этапе обучения, так и на этапе тестирования.

Сравнительный анализ дополнительных атрибутов показал, что наибольшей значимостью при использовании алгоритма DTC являются атрибуты MH и DH. При использовании алгоритма RF наибольшей значимостью обладает атрибут DH. Однако велико значение и атрибутов Касс, и Кэ

характеризующихформу распределения W H).

Использование в качестве дополнительных информационных признаков среднего значения, дисперсии, коэффициентов асимметрии и эксцесса, характеризующих форму и параметры распределения статистических характеристик распределения ФР позволяет повысить эффективность бинарной классификации в среднем на 10%.

Наибольший эффект от учета дополнительных статистических параметров ФР заметен для алгоритмов классификации k- NNhLR.

Для алгоритмов DTC и RF наибольший эффект от использования дополнительных атрибутов ( MH , DH, Касс и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кэ ) оказывается в сокращении времени обучения и тестирования и составляет около 3,5 раз для каждого из алгоритмов.

Литература

1. Sheluhin O., Smolskiy S., Osin A. Self-Similar Processes in Telecommunications, John Wiley & Sons, 2007.

2. Atayero A.A., Sheluhin O.I. Integrated Model for Information Communication Systems and Networks. Desigtn and Development. IGI Global. USA, 2013. P. 462.

3. Park K, Willinger W. (Eds.), Self-similar Network Traffic and Performance Evaluation, John Wiley & Sons. 2000.

4. Monowar H. Bhuyan, Bhattacharyya D. K. Kalita J. К Network Anomaly Detection: Methods, Systems and Tools II IEEE Communications surveys & tutorials. 2013. Vol. 60(1). Pp. 303-336.

5. Wang, X. and B.X. Fang. An exploratory development on the Hurst parameter variety of network traffic abnormity signal. J. Harbin Inst. Technol., 2005, no. 37, pp.1046-1049.

6. Mohiuddin A., Abdun Naser M., Jiankun H. A survey of network anomaly detection techniques II J. Network and Сотр. App. 2015. No .60. P. 21.

7. Z. Sheng, Z. Qifei, P. Xuezeng and Z. Xuhui, Detection of Low-rate DDoS Attack Based on Self Similarity, in 2010 Second International Workshop on Education Technology and Computer Science, vol. 1 ,pp. 333-336,2010.

8. Gagandeep Kaur, Vikas Saxena and Jay Prakash Gupta. Study of Self-Similarity for Detection of Rate-based Network Anomalies. International Journal of Security and Its Applications Vol. 11, No. 8 (2017), pp. 27-44.

9. Sheluhin O.I., Lukin I. Yu. Network traffic anomalies detection using fixing method of jumps of multifractal dimension in the real-time mode. Automatic Control and Computer Sciences, September 2018. Vol. 52, Issue 5, pp. 421-430, DOI 10.3103/S0146411618050115

10. Sheluhin O.I., Kazhemskiy M.A. Influence of Fractal Dimension on Network Anomalies Binary Classification Quality using Machine Learning Methods, Automatic Control and Computer Sciences, 2020. Vol. 54, No. 3,pp.216-228,_DOI: 10.3103/S0146411620030074

11. KDD Cup 1999 Data https://kdd.ics.uci.edu/databases/ kddcup99/kddcup99.

12. NSL-KDD Dataset https://www.unb.ca/cic/datasets/nsl.html

13. Australian Center for Cyber Security (ACCS). (2014). Retrieved from http://www.accs.unsw.adfa.edu.au/

14. Moustafa N., Slay J. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set), Military Communications and Information Systems Conference (MilCIS), 2015, At Canberra, Australia, DOI: 10.1109/MilCIS.2015.7348942

15. Шелухин О.И., Ерохин С.Д., Ванюшина А.В. Классификация IP-трафика методами машинного обучения / Под ред. профессора О. И. Шелухина. М.: Еорячая линия - Телеком, 2018. 282 с. ISBN 978-5-9912-0719-5

16. Шелухин О.И., Рыбаков С.Ю., Ванюшина А.В. Модификация алгоритма обнаружения сетевых атак методом фиксации скачков фрактальной размерности в режиме online. Труды учебных заведений связи. 2022. Т. 8. № 3. С. 117-126. D01:10.31854/l 813-324Х-2022-8-3-117-126

17. Шелухин О.И., Ваковский Д.И. Прогнозирование профиля функционирования компьютерной системы на основе многозначных закономерностей II Вопросы кибербезопасности. 2022. № 6(52). С. 53-70. DOI 10.21681/2311-3456-2022-6-53-70.

INFLUENCE OF FRACTAL DIMENSION ON QUALITY CLASSIFICATION OF COMPUTER ATTACKS BY MACHINE LEARNING METHODS

OLEG I. SHELUHIN

Moscow, Russia

SERGEY YU. RYBAKOV

Moscow, Russia

ANNA V. VANYUSHINA

Moscow, Russia

ABSTRACT

Introduction. For building an effective network protection system in computer network against attacks, a promising direction is joint use of fractal analysis and data mining. It is proposed to increase the efficiency of network attacks classification by introducing additional fractal dimension (FD) statistics of attacks

KEYWORDS: a system of simultaneously and independently operating generators, synergy, emergence, harmonic signal, signal phase, frequency stability, frequency estimation, non-bias and efficiency of estimates, QAM signals.

along with other attributes. In contrast to the well-known works, it is proposed to further improve the efficiency of classifying network attacks by using not only the average value, but also other statistical characteristics of the DF of attacks and normal traffic as information features. These can be variance, skewness and kur-tosis coefficients that characterize the shape and parameters of the distribution of the RF. The effectiveness of the proposed

method is evaluated using machine learning algorithms by assessing the quality of the binary classification of network attacks and normal traffic using the UNSW-NB15 database as an example. The following classification algorithms were used to classify the dataset: k-nearest neighbors (k-NN), multiple logistic regression (LR), decision tree (DTC), random forest (RF), ada boost. The following metrics were used to evaluate the effectiveness of the constructed models: accuracy (precision), recall (recall), F-score (F-score), ROC-curves, AUC-ROC. It is shown

that the use of mean value, variance, skewness and kurtosis coefficients, which characterize the shape and distribution parameters of the statistical characteristics of the FD distribution as additional information features, makes it possible to increase the efficiency of attack classification by an average of 10%. k-NN and LR classification algorithms. For the DTC and RF algorithms, the greatest effect from the use of additional attributes is in reducing the training and testing time and is about 3.5 times for each of the algorithms.

REFERENCES

1. O. Sheluhin, S. Smolskiy, A. Osin. Self-Similar Processes in Telecommunications, John Wiley & Sons, 2007.

2. A.A. Atayero, O.I. Sheluhin. Integrated Model for Information Communication Systems and Networks. Desigtn and Development. IGI Global. USA, 2013. P. 462.

3. K. Park, W. Willinger (Eds.), Self-similar Network Traffic and Performance Evaluation, John Wiley & Sons. 2000.

4. Monowar H. Bhuyan, Bhattacharyya D. K. Kalita J. K. Network Anomaly Detection: Methods, Systems and Tools. IEEE Communications surveys & tutorials. 2013. Vol. 60(1). Pp. 303-336.

5. X. Wang, B.X. Fang. An exploratory development on the Hurst parameter variety of network traffic abnormity signal. J. Harbin Inst. Technol., 2005, no. 37, pp. 1046-1049.

6. Mohiuddin A., Abdun Naser M., Jiankun H. A survey of network anomaly detection techniques. J. Network and Comp. App. 2015. No 60. P. 21.

7. Z. Sheng, Z. Qifei, P. Xuezeng and Z. Xuhui, Detection of Low-rate DDoS Attack Based on Self Similarity. 2010 Second International Workshop on Education Technology and Computer Science, vol. 1 , pp. 333-336, 2010.

8. Gagandeep Kaur, Vikas Saxena and Jay Prakash Gupta. Study of Self-Similarity for Detection of Rate-based Network Anomalies. International Journal of Security and Its Applications Vol. 11, No. 8 (2017), pp.27-44.

9. O.I. Sheluhin, I.Yu. Lukin. Network traffic anomalies detection using fixing method of jumps of multifractal dimension in the real-time mode. Automatic Control and Computer

Sciences, September 2018, Vol. 52, Issue 5, pp 421-430, DOI 10.3103/S0146411618050115

10. O.I. Sheluhin., M.A. Kazhemskiy Influence of Fractal Dimension on Network Anomalies Binary Classification Quality using Machine Learning Methods. Automatic Control and Computer Sciences, 2020, Vol. 54, No. 3, pp. 216-228, DOI: 10.3103/S0146411620030074

11. KDD Cup 1999 Data https://kdd.ics.uci.edu/databas-es/kddcup99/kddcup99

12. NSL-KDD Dataset https://www.unb.ca/cic/datasets/ nsl.html.

13. Australian Center for Cyber Security (ACCS). (2014). Retrieved from http://www.accs.unsw.adfa.edu.au/

14. N. Moustafa, J. Slay, UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set), Military Communications and Information Systems Conference (MilCIS), 2015, At Canberra, Australia, DOI: 10.1109/MilCIS.2015.7348942

15. O.I. Sheluhin, S.D. Erokhin, A.V. Vanyushina. IP traffic classification by methods of machine learning. Moscow: Hotline - Telecom, 2018. ISBN 978-5-9912-0719-8

16. O. Sheluhin, S. Rybakov, A. Vanyushina. Modified Algorithm for Detecting Network Attacks Using the Fractal Dimension Jump Estimation Method in Online Mode. Proc. of Telecom. Universities. 2022;8(3), pp. 117-126. (in Russ.) DOI:10.31854/1813-324X-2022-8-3-117-126

17. O.I. Sheluhin, D.I. Rakovskiy. Prediction of the profile functioning of a computer system based on multivalued patterns. Voprosy kiberbezopasnosti. 2022. No. 6(52), pp. 53-70. DOI 10.21681/2311-3456-2022-6-53-70.

INFORMATION ABOUT AUTHORS:

Oleg I. Sheluhin, Moscow Technical University of Communications and Informatics, Moscow, Russia Sergey Y. Rybakov, Moscow Technical University of Communications and Informatics, Moscow, Russia Anna V. Vanyushina, Moscow Technical University of Communications and Informatics, Moscow, Russia

For citation: Sheluhin O.I., Rybakov S.Yu., Vanyushina A.V. Influence of fractal dimension on quality classification of computer attacks by machine learning methods. H&ES Reserch. 2023. Vol. 15. No. 1. P. 57-64. doi: 10.36724/2409-5419-2023-15-1-57-64 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.