Научная статья на тему 'ВЛИЯНИЕ ПРОБЛЕМЫ МНОГОЗНАЧНОСТИ МЕТОК КЛАССОВ СИСТЕМНЫХ ЖУРНАЛОВ НА ЗАЩИЩЕННОСТЬ КОМПЬЮТЕРНЫХ СЕТЕЙ'

ВЛИЯНИЕ ПРОБЛЕМЫ МНОГОЗНАЧНОСТИ МЕТОК КЛАССОВ СИСТЕМНЫХ ЖУРНАЛОВ НА ЗАЩИЩЕННОСТЬ КОМПЬЮТЕРНЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
40
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧЕНИЕ С УЧИТЕЛЕМ / MULTI-LABEL CLASSIFICATION / МНОГОЗНАЧНАЯ КЛАССИФИКАЦИЯ / МНОГОКЛАССОВАЯ КЛАССИФИКАЦИЯ / MULTICLASS CLAS- SIFICATION / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / MULTI-LABEL LEARNING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Раковский Д.И.

Введение: Защищенность информации, циркулирующей в компьютерной сети, связана с защищенностью поддерживающей инфраструктуры. Важной проблемой интеллектуальной обработки данных системных журналов является существование наборов данных, содержащих записи с несколькими ассоциациями меток классов. Работы, так или иначе исследующие проблемы многозначности, объединены термином: многозначное обучение, Multi-Label Learning. Отечественных работ, посвященных анализу наборов данных, порожденных компьютерными сетями, с многозначными метками классов, в настоящий момент не представлено, что актуализирует исследования в указанной области. Цель исследования: повысить защищенность компьютерных сетей за счет использования методов многозначного обучения при решении задачи классификации меток классов системных журналов. Результаты: Проведен сравнительный анализ однозначных и многозначных классификаторов в вычислительном эксперименте по метрике Mean accuracy. Обнаружена нелинейная зависимость между долей участков экспериментальных данных, содержащих многозначные метки классов, и точностью классификации данных. Несмотря на то, что многозначных участков в исследуемых экспериментальных данных всего 3%, выигрыш в точности достигает 23% по указанной метрике. По результатам проведенного анализа 80% однозначных классификаторов уступили в точности классификации по метрике Mean accuracy многозначным аналогам, что может сигнализировать о сильном влиянии многозначности меток классов на рассматриваемые модели. Показано, что рассматриваемая структура экспериментальных данных табличного вида подвержена влиянию проблемы многозначности гораздо сильнее, чем это может быть оценено стандартной частотной проверкой, что актуализирует дальнейшие исследования в данном направлении. Практическая значимость: Практическая значимость полученных результатов заключается в повышении защищенности компьютерных сетей за счет использования многозначного подхода в задаче классификации. Задачи информационной безопасности, решаемые многозначной классификацией, могут включать в себя: область мониторинга, обнаружения или предупреждения нарушениям и компьютерным атакам в компьютерных сетях. Обсуждение: Поскольку предсказательная способность частотной проверки влияния результатов многозначности меток классов на результаты классификации однозначных классификаторов невелика, планируются дальнейшие исследования на эту тему. Планируется расширение перечня метрик оценки качества классификации в дальнейших экспериментах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Раковский Д.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFLUENCE OF MULTI-LABEL CLASS PROBLEM OF SYSTEM LOGS ON THE SECURITY OF COMPUTER NETWORKS

Intoduction: The security of information circulating in a computer network is related to the security of the supporting infrastructure. An important problem in the intelligent processing of syslog data is the existence of multi-label datasets. Among the Russian-language scientific publications, the problem under consideration in the context of information security of computer networks is not presented. Purpose: increase the security of computer networks by using multi-label learning methods when solving the problem of classifying system logs class labels. Results: A comparative analysis of single-valued and multi-label classifiers was carried out in a computational experiment on the Mean accuracy metric. A non-linear relationship was found between the proportion of experimental data sections containing multi-label class labels and the over-all accuracy of data classification. Despite the fact that multi-label plots in the studied experimental data are only 3%, the gain in accuracy reaches 23% according to the specified metric. According to the results of the analysis, 80% of unambiguous classifiers were inferior in classification accuracy according to the Mean accuracy multi-label metric to their analogues, which may signal a strong influence of multi-label class labels on the models under consideration. It is shown that the considered structure of experimental data in a tabular form is affected by the multi-label problem much more strongly than it can be estimated by a standard frequency check, which actualizes further research in this direction. Practical relevance: The practical significance of the results obtained lies in increasing the security of computer networks through the use of a multi-label approach in the classification problem. The tasks of information security solved by multi-label classification may include: the area of monitoring, detection or prevention of violations and computer attacks in computer networks. Discussion: Since the predictive power of frequency testing of the influence of multi-label class label results on the classification results of unambiguous classifiers is low, further research on this topic is planned. It is planned to expand the list of classification quality assessment metrics in future experiments.

Текст научной работы на тему «ВЛИЯНИЕ ПРОБЛЕМЫ МНОГОЗНАЧНОСТИ МЕТОК КЛАССОВ СИСТЕМНЫХ ЖУРНАЛОВ НА ЗАЩИЩЕННОСТЬ КОМПЬЮТЕРНЫХ СЕТЕЙ»

doi: 10.36724/2409-5419-2023-15-1-48-56

ВЛИЯНИЕ ПРОБЛЕМЫ МНОГОЗНАЧНОСТИ МЕТОК КЛАССОВ СИСТЕМНЫХ ЖУРНАЛОВ НА ЗАЩИЩЕННОСТЬ

КОМПЬЮТЕРНЫХ СЕТЕЙ

РАКОВСКИЙ АННОТАЦИЯ

Дмитрий Игоревич1 Введение: Защищенность информации, циркулирующей в компьютерной сети,

связана с защищенностью поддерживающей инфраструктуры. Важной проблемой интеллектуальной обработки данных системных журналов является существование наборов данных, содержащих записи с несколькими ассоциациями меток классов. Работы, так или иначе исследующие проблемы многозначности, объединены термином: многозначное обучение, Multi-Label Learning. Отечественных работ, посвященных анализу наборов данных, порожденных компьютерными сетями, с многозначными метками классов, в настоящий момент не представлено, что актуализирует исследования в указанной области. Цель исследования: повысить защищенность компьютерных сетей за счет использования методов многозначного обучения при решении задачи классификации меток классов системных журналов. Результаты: Проведен сравнительный анализ однозначных и многозначных классификаторов в вычислительном эксперименте по метрике Mean accuracy. Обнаружена нелинейная зависимость между долей участков экспериментальных данных, содержащих многозначные метки классов, и точностью классификации данных. Несмотря на то, что многозначных участков в исследуемых экспериментальных данных всего 3%, выигрыш в точности достигает 23% по указанной метрике. По результатам проведенного анализа 80% однозначных классификаторов уступили в точности классификации по метрике Mean accuracy многозначным аналогам, что может сигнализировать о сильном влиянии многозначности меток классов на рассматриваемые модели. Показано, что рассматриваемая структура экспериментальных данных табличного вида подвержена влиянию проблемы многозначности гораздо сильнее, чем это может быть оценено стандартной частотной проверкой, что актуализирует дальнейшие исследования в данном направлении. Практическая значимость: Практическая значимость полученных результатов заключается в повышении защищенности компьютерных сетей за счет использования многозначного подхода в задаче классификации. Задачи информационной безопасности, решаемые многозначной классификацией, могут включать в себя: область мониторинга, обнаружения или предупреждения нарушениям и компьютерным атакам в компьютерных сетях. Обсуждение: Поскольку предсказательная способность частотной проверки влияния результатов многозначности меток классов на результаты классификации однозначных классификаторов невелика, планируются дальнейшие исследования на эту тему. Планируется расширение Сведения об авторе: перечня метрик оценки качества классификации в дальнейших экспериментах.

1 аспирант, ассистент кафедры информационная безопасность.

Московский технический университет КЛЮЧЕВЫЕ СЛОВА: обучение с учителем, multi-label classification,

связи и информатики, Москва, Россия, многозначная классификация, многоклассовая классификация, multiclass clas-

Prophet_alpha@mail.ru sification, информационная безопасность, multi-label learning.

Для цитирования: Раковский Д.И. Влияние проблемы многозначности меток классов системных журналов на защищенность компьютерных сетей // Наукоемкие технологии в космических исследованиях Земли. 2023. Т. 15. № 1. С. 48-56. с1о1: 10.36724/2409-5419-2023-15-1-48-56

Введение

Современные компьютерные сети (КС) обладают сложной инфраструктурой, требующей постоянного мониторинга для выявления аномальных состояний, которые могут вызвать сбои в работе, что недопустимо для масштабных распределённых КС [1]. Устойчивость КС к последствиям реализаций достигается за счет модернизации поддерживающей инфраструктуры КС; в том числе за счет повышения защищенности.

Защищенность КС может достигаться за счет применения классических мер для предотвращения перехвата траффика -установки программно-аппаратных средств защиты информации [2]; систем обнаружения и предотвращения вторжений [3,4]; антивирусного программного обеспечения [5] и прочих решений [6].

Актуальны работы, посвященные разработке программных решений для детектирования, обнаружения и нивелирование киберугроз в КС [7]. Известны работы по оценивание и прогнозирование состояния сложных объектов: применение для информационной безопасности [8, 9].

Важной проблемой интеллектуальной обработки данных системных журналов является существование наборов данных, содержащих записи с несколькими ассоциациями меток классов. То есть класс, ассоциированный с объектом, характеризуется множеством меток.

Набор данных, пригодный к классификации, как правило содержит множество признаков и ассоциированное с ним множество меток класса. Целью классификации является обученная модель, способная присвоить соответствующий класс неизвестному объекту (записи в «исторических данных»),

В зарубежных публикациях данная проблема также известна как «multi-label.,.», где вместо троеточия может располагаться уточняющее слово или словосочетание. Работы, так или иначе исследующие проблемы многозначности, объединены термином: многозначное обучение, Multi-Label Learning, MLL [10].

Многозначное обучение обобщает понятие анализа данных на область задач, в которых каждому объекту может быть сопоставлено несколько меток. Среди данных статей выделяется кластер работ по анализу текстовых корпусов [11] и тональности сообщений в социальных сетях [12].

Отечественных работ, посвященных анализу наборов данных, порожденных КС, с многозначными метками классов в настоящий момент не представлено. Существующие работы, например, [13, 14], посвящены аспектам нечеткой классификации. Нечеткая классификация относится к области нечеткой логики (Fuzzy logic), являющейся частью методов многоклассового обучения.

Многозначное обучение косвенно связано с понятием «смешанное обучение» (смешанная классификация - Misclas-sification). Термин в настоящее время используется для мар-

1 ГОСТ Р ИСО/МЭК 12207-2010. Национальный стандарт российской федерации. Информационная технология. Системная и программная инженерия. Процессы жизненного цикла программных

кировки работ, посвященных решению проблем неправильной разметки данных [15] и повышению точности классификации [16].

Информационная безопасность характеризует сохранение свойств конфиденциальности, целостности и доступности информации [17]. Анализ влияния многозначности меток классов на защищенность КС необходимо проводить в определенном терминологическом контексте. В качестве такого контекста избран ГОСТ Р ИСО/МЭК 27000, из которого проистекает вышеизложенное определение информационной безопасности, а также ГОСТ Р ИСО/МЭК122071. Согласно упомянутому документу, п. 3.25, «Защищенность (security): Способность компьютерной системы защитить информацию и данные так, чтобы не допустить их несанкционированного прочтения или изменения другими системами и отдельными лицами, и для того, чтобы допущенные к ним системы и лица не получали отказов».

Конкретизируем защищенность информации, циркулирующей в КС: «Защищенность информации - поддержание на заданном уровне тех параметров находящейся в автоматизированной системе информации, которые характеризуют установленный статус ее хранения, обработки и использования» [18].

Из двух определений следует, что защищенность информации, циркулирующей в КС, связана с защищенностью поддерживающей инфраструктуры [19]. В рамках данной работы будет проведен анализ влияния многозначности на точность классификации состояний КС, непосредственно связанных с профилем нормального функционирования КС [20].

Целью работы является повышение защищенности компьютерных сетей за счет использования методов многозначного обучения при решении задачи классификации меток классов системных журналов.

Формализация задачи

КС можно представить в виде множества из M наборов значений дискретно изменяющихся атрибутов «исторических данных» КС:

A £ А firstи Аsecond =

= iA first 1 х Afirst 2 х • ••х А first Asecond 1 х Aecond 2 х • ••х Asecond len1} j

(1)

где Am = {amn; m = 1, M, n = 1, N}, Am с A, M = Щ + ten,.

Атрибуты в записи (1), могут подразделяться на два типа: первичные {АШк-,k = 1,ler\} ивторичные {Asecond^к2 =1= len1\-

Первичные атрибуты получают непосредственно с системных датчиков, установленных внутри КС. Вторичные атрибуты получают в результате обработки первичных атрибутов. Примерами вторичных атрибутов могут быть, например, среднее время задержки сигнала в КС, количество потерянных пакетов в КС для конкретного хоста и прочее.

средств. Information technology. System and software engineering. Software life cycle processes. Дата введения - 2012.03.01.

Введем для описания КС множество меток классов категориального типа - S, которые будем называть «состояниями КС». Состояния КС могут вводиться также в виде множества:

S - {Si; SM } Snormal Sm ~ {s/ ~ ^ I)

(2)

{a\n> a2

рибута n-ной строки {aXl

, aMn } - на соответствие пра-

вилам из соответствующего множества (3) - гт/. Если

правило гт/ выполняется, то в множество меток эвр добавляется элемент Эт/ где / =

= 1.| Sm\■

Процесс маркировки можно формализовать в виде: mark : {aln, a2n,...,aMn} ^ setn; setn с S, где

i setn, если setn ф 0

{ snormal, иначе r( amn ,J) = 1= ]

, m = T~M | '

mark({aln, a2

где setn =

S e S

Jmj m

(4)

где r( amn J)

J = 1=1 Sm_ ,

1, если выполняется правило rmj e RULEm 0, иначе

Если setn = I s,

mj

НИ

e Sm

одно I r(am,

из правил

,J) = J = S

не выполняется, то m = ÏTM| = 0.

где Sm- m-тое подмножество состояний КС, ассоциированное с соответствующим^ атрибутом КС. Мощность подмножества Sm имеет верхнюю границу, равную I. На практике подмножества, входящие в S, могут иметь разную мощность.

Примером элементов с разной мощностью является неравенство |S[| ф |S2|.B случае, если VSm = 0 вводится состояние

snormal, характеризующее нормальное функционирование КС.

Для автоматизации процесса определения состояний КС введем множество решающих правил

METARULES = {RULEl, RULE2,..., RULEM},

RULEm = {rmj \J = ЩД}

Каждое подмножество - RULEm - ассоциировано с соответствующим подмножеством состояний КС по m-тому атрибуту - Sm. Мощность подмножества RULEm зависит от мощности соответствующего подмножества Sm. Итерационная переменная^/ введена для учета различия мощностей различных подмножеств Sm. В случае идентичности всех подмножеств Sm, J = 1, |Sm| = i = 1, I, верхняя граница будет тождественна I.

Решающие правила предлагается выбирать на основании вводимой индивидуально характеристики уровня обслуживания Service Level Objectives, SLOисходя из технических и эксплуатационных характеристик КС.

Решающие правила предлагается выбирать на основании характеристики уровня обслуживания SLO, вводимой индивидуально исходя из технических и эксплуатационных характеристик КС.

Рассмотрим процесс маркировки множества атрибутов, соответствующего n-ному наблюдению исторических данных (n-ной строки в таблице исторических данных) -

Это означает, что результатом маркировки будет являться заранее определенное состояние КС - Эрогта/.

Каждый элемент Г/ является свободно задаваемым вер-бально-логическим правилом, вводимым для конкретной КС. Правила могут быть сопряжены с политикой безопасности, актуальной для КС: с моделью угроз; с показателями уровня обслуживания иными методиками оценки защищенности и качества предоставляемых услуг. При воздействии маркирующих правил на данные КС, каждой записи (строке -

ia\n> a2n>

, aMn}) присваивается либо множество состояний

эвр в соответствии с соотношением (4), либо состояние

Эпогта1-

Маркировка «исторических данных» о поведении КС может быть представлена в виде таблицы размером М столбцов на N строк:

Dn = Ш

Mn

}, setn ); m = 1, M, n = 1, N},

\m a2m

> aMn }

, aMn}. Указанная строка является аргументом

функции маркировки тагк({а1п,а2п,...,аМп}), и формирует множество меток эвр соответствующих п-ной строке.

Множество эвр формируется в ходе проверки каждого ат-

где n-ной строке значений атрибутов записи ставится в соответствие состояние КС и множество меток setn.

Хотя это не единственный способ разметки экспериментальных данных, однако маркировка является наиболее удобной с точки зрения организации обработки и анализа данных специализированными программными средствами.

Структура и описание исследуемой сетевой инфраструктуры

Исследования для оценки сетевых характеристик проводилось на КС, состоящей из 6 хостов, образующих кластер под управлением Rancher (ряс. 1) [21]. Архитектура взаимодействия хостов исследуемой КС построена на принципе виртуализации и взаимодействия Docker-контейнеров; служб под управлением кластера Apache Spark, базы данных (.PostgreSQL; Apache Ignite; Apache Cassandra; Redis); кластера Apache Ignite; программного обеспечения на основе микросервисной архитектуры и других вспомогательных модулей.

Технические характеристики хостовых машин распределенной КС приведены в таблице 1. Машины №1 - №3 формируют физическую топологию распределенной КС; машины №4 - 6 функционируют посредством виртуализации операционной системой VMware ESXI на базе машин №1 - 3. Для сбора данных на шесть машин КС использовались специальное программное обеспечения получения информации системных датчиков: packetbeat (агрегирует трафик протоколов HTTP и DNS запросов); metr/cbeat (агрегирует данные по использованию центрального процессора; диска; использованию памяти; сети; по процессам системы); f/lebeat (агрегирует данные журналов сообщений); execbeat (агрегирует выполнение специализированных скриптов и отправка результата их выполнения).

M il

rn^i^Ltinul

Рис. 1. Схема исследуемой сетевой инфраструктуры

Для сбора показателей, связанных с SLO, в рассматриваемой КС реализована система по синхронному мониторингу всех хостов. Схема сбора показателей приведена на рисунке 2. Полученные данные агрегируют в централизованном хранилище под управлением Apache Cassandra.

Рис. 2. Схема использования системы агрегации показателей, связанных с SLO

На хосты, приведенные в таблице 2, в соответствии с схемой на рисунке 2, установлены агрегаторы программно-аппаратных метрик: Packetbeat (агрегатор сетевой активности хоста - мониторинг трафика, протокола HTTP к DNS запросов)2 [22]; Metricbeat- агрегатор показателей, ассоциированных с операционной системой и аппаратными устройствами хоста -использование CPU, памяти, дисков, запущенных процессов3; Filebeat - агрегатор системных журналов4; Execbeat -программное обеспечение для тестов КС методом формирования и отправки на исполнение произвольных скриптов5. Execbeat использовался для отправки /CMP-запросов (ping запросов) с целью определения задержки в сети и отправки GET-запросов с использованием для определения времени реакции сервера на посланный запрос.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 1

Конфигурация КС

№ Соответствие хоста виртуальной машине Операционная система (ОС) Количество ядер Оперативная память, Гб Емкость жесткого диска (суммарная), Гб Модель процессора

1 server3-20 (физическая машина из кластера Apache Cassandra) CentOS Linux 7 4 64 1524 Intel(R) Xeon(R) CPU ЕЗ-1220 v6 @ 3.00GHz

2 server3-21 (физическая машина из кластера Apache Cassandra) CentOS Linux 7 4 64 1524 Intel(R) Xeon(R) CPU E3-1220 v6 @ 3.00GHz

3 server3-22 (физическая машина из кластера Apache Cassandra) CentOS Linux 7 4 64 1524 Intel(R) Xeon(R) CPU E3-1220 v6 @ 3.00GHz

4 server24- 384-1 (Docker virtual machine №1; Docker virtual machine №2) Ubuntu 18.04.1 LTS 5 50,05 68 Intel(R) Xeon(R) CPU E5-1650 v4 @ 3.60GHz

5 server24- 384-2 (Docker virtual machine №3; Docker virtual machine №4; Docker virtual machine №5) Ubuntu 18.04.1 LTS 6 48,61 265 Intel(R) Xeon(R) CPU E5-2420 v2 @ 2.20GHz

6 server24- 384-3 (Docker virtual machine №6) Ubuntu 18.04.1 LTS 8 60 285 Intel(R) Xeon(R) CPU E5-2420 v2 @ 2.20GHz

2 PACKETBEAT. Lightweight shipper for network data 11 Elastic [Электронный ресурс] URL: https://www.elastic.co/beats/packetbeat (дата обращения: 22.10.2022).

3 METRICBEAT. Lightweight shipper for metrics. II Elastic

[Электронный ресурс] URL: https://www.elastic.co/beats/metricbeat

(дата обращения: 22.10.2022).

4 FILEBEAT. Lightweight shipper for logs. II Elastic [Электронный ресурс] URL: https://www.elastic.co/beats/filebeat (дата обращения: 22.10.2022).

5 Elastic beat to call commands in a regular interval and send the result to Logstash 11 Elasticsearch [Электронный ресурс] URL: https://github.com/christiangalsterer/execbeat (дата обращения: 22.10.2022).

Каждый из четырех типов атретаторов отправляет данные в центральную точку КС - агрегатор логов Logstash, преобразующий всю поступающую информацию в файлы формата JSON. Выбор формата обусловлен общепринятой нотацией строения структуры JSON файлов. Описанный стек аггрега-торов широко используется при построении систем обработки информации в области информационной безопасности [23-26].

После преобразования, JSON файл отправляется в обработчик сообщений Apache Kafka6, выполняющий буферизи-рующую функцию между большим потоком входных данных и распределённой базой данных.

Проблема первичных и вторичных атрибутов

Актуальной прикладной задачей является определение состояний КС без знания вторичных атрибутов. В этом случае метки классов SLO определяются только на основании первичных данных системных датчиков в условиях частичной неопределенности остальных параметров.

Рассмотрим два случая:

1. Полная априорная определенность как первичных, так и вторичных атрибутов КС в каждый момент времени;

2. Частичная неопределенность вторичных атрибутов КС, которые либо неизвестны, либо вычисляются с большой задержкой.

При наличии полной информации об атрибутах (Afírst и Asecond,), в силу полной зависимости setn от Asecond, задача классификации состояния КС выполняется многозначным классификатором с точностью, близкой к идеальной, т.е. без ошибок. Препятствием к такой идеальной классификации является выявление непосредственных правил преобразования

Asecond В setn ( Asecond ^ setn )•

Если правила представлены тривиальными логическими условиями «если ... то ...», то точность классификации многими классификаторами, основанными на правилах (например, деревья решений или нейронные сети), будет близка к идеальной. Если вторичные атрибуты неизвестны, но известны первичные атрибуты и соответствующие состояния -вторичные атрибуты будут являться скрытой переменной. В случае отсутствия информации о вторичных атрибутах, однозначность отображения первичных атрибутов в состояния КС не гарантируется, поскольку вторичные атрибуты становятся скрытыми переменными. Однако принципиальная возможность отображения первичных атрибутов в состояния КС, все же, возможна.

Вычислительный эксперимент

Для сравнения двух способов классификации - «классического» однозначного - и многозначного - проведем вычислительный эксперимент на Python со следующими входными данными.

Однозначный подход к классификации рассмотрим на примере многоклассовых алгоритмов, отобранных по двум критериям:

- открытость исходного кода (библиотека, реализующая данный алгоритм, находится в открытом доступе);

- наличие многозначной реализации данного алгоритма.

По установленным критериям из открытой библиотеки scikit-learn языка программирования Python7 [27] отобраны следующие алгоритмы:

- Tree.DecisionTreeCiassifier - Классификатор, сформированный на основе алгоритма «Decision Tree» (непараметрический контролируемый метод обучения);

- Tree.ExtraTreeClassifier- Классификатор, сформированный на основе алгоритма «Extra Decision Tree» (непараметрический контролируемый метод обучения). При поиске наилучшего разделения для разделения выборок узла на две группы для каждой из случайно выбранных атрибутов выбирается наилучшее разделение по задаваемому критерию;

- Ensembie.ExtraTreesCiassifier - Классификатор, сформированный на основе алгоритма «Extra Decision Tree» (ансамблевая реализация);

- Neighbors.KNeighborsCiassifier - Классификатор, сформированный на основе алгоритма голосования «К-Neighbors»;

- Ensembie.RandomForestCiassifier - Классификатор, сформированный на основе алгоритма «Random Forest» (ансамблевая реализация).

Получены показатели уровня обслуживания SLO (решающие правила) и соответствующие им состояния КС, ассоциированные со вторичными атрибутами сформированные в виде порогов, определяющих категориальные маркеры состояния КС:

- Если ни одна из целей уровня обслуживания не была нарушена, то состояние КС равно маркеру normai.

- Если время задержки сигнала к тестовому серверу (ping_avg) > 5 мс., то состояние КС равно маркеру signai_deiay.

- Если время ответа тестового сервера (server_response_timetotat) > 1.5 е., то состояние КС равно маркеру server_response_deiay.

- Если количество пакетов, потерянных при передаче к тестовому серверу (network_outdropped) > 0 шт., то состояние КС равно маркеру packets_dropped.

- Если время обработки запроса диском хостовой машины (disk_ioreadmergespersec) > 2 е., то состояние КС равно маркеру disk_iowriteawait.

При желании, количество решающих правил и затрагиваемых ими атрибутов КС может быть увеличено, однако для иллюстрации достаточно и 5 меток классов. Рассмотрим распределение экспериментальных данных по числу одновременного нарушаемых показателей уровня обслуживания. Изначальное распределение приведено в таблице 2.

6 Apache Kafka. A distributed streaming platform. II Apache Kafka 7Multiclassandmultioutputalgorithms//scikit-learnURL: [Электронный ресурс] URL: https://kafka.apache.org/ (дата https://scikit-learn.org/stable/modules/multiclass.html (дата

обращения: 22.10.2022). обращения: 26.12.2022).

Таблица 2

Распределение экспериментальных данных по числу одновременного нарушаемых показателей уровня обслуживания

Число одновре- Количество запи- Количество записей в

менно нарушае- сей в экспери- экспериментальных

мых показателей ментальных дан- данных, %

уровня обслужи- ных, ед.

вания, Anomaly

0 170931 71,870

1 60447 25,416

2 6282 2,641 0.28057

3 175 0,074

4 0 0

Таблица 3

Сравнительный анализ однозначных и многозначных классификаторов в вычислительном эксперименте

Название алгоритма классификации Значение метрики Mean accuracy Значение метрики Mean accuracy

для случая одно- для случая много-

значной класси- значной классифи-

фикации кации

Tree.DecisionTreeClas- 0,52 0,75

sifier

Tree. Extra TreeClassifier 0,66 0,69

Ensemble. Extra Tree- 0,64 0,81

sClassifier

Neighbors.KNeigh-borsClassifier 0,64 0,91

Ensemble.Random- 0,70 0,13

ForestClassifier

Как видно из представленной таблицы, более 71% экспериментальных данных занимает состояние нормального функционирования КС, что порождает проблему классового дисбаланса.

Для вычислительного эксперимента взяты первые 200 тысяч записей исходных экспериментальных данных [21]. Объем экспериментальных данных выбирался исходя из имеющихся вычислительных ресурсов.

Указанные атрибуты - ping_Avg, network_outdropped, disk_ioreadmergespersec, server_response_timetotal - преобразованы в соответствующие состояния КС и исключены из последующего анализа. Таким образом указанные вторичные атрибуты КС становятся скрытыми переменными.

В качестве первичных атрибутов, в иллюстративных целях, выбраны следующие атрибуты: disk_await, disk_writebytes, network_outbytes, network_inbytes, ping_max.

Поскольку одной записи может соотноситься несколько состояний КС одновременно, был выбран метод сведения многозначных меток классов к однозначному виду - Label Powerset (LP, [28]), порождает новый класс для каждой возможной комбинации меток посредством унитарного кодирования алфавита всевозможных комбинаций состояний КС, а затем решает задачу многозначного анализа как задачу однозначной многоклассового анализа.

Для повышения объективности классификации, точность оценивалась кросс-валидацией: выборка делилась на 10 равных частей; поочередно одна из частей становилась тестовой. Метрика оценки эффективности классификации - Mean accuracy (является стандартной метрикой для всех алгоритмов, представленных библиотекой scikit-learn.org).

Эксперимент проводился при стандартных гиперпараметрах, устанавливаемых для алгоритмов по умолчанию. Оптимизации гиперпараметров не проводилось. Для пар «однозначный алгоритм классификации X - многозначный алгоритм классификации X» устанавливались одинаковые гиперпараметры.

Результаты вычислительного эксперимента приведены в таблице 3. В таблице приведено название алгоритма, результаты для однозначного и многозначного случая. Светлым цветом выделена ячейка с наивысшим значением метрики Mean accuracy среди всех видов классификации.

Как видно из таблицы, 80% однозначных классификаторов уступили в точности классификации по метрике Mean accuracy многозначным аналогам, что может сигнализировать о сильном влиянии многозначности меток классов на рассматриваемые модели. Несмотря на то, что многозначных участков всего 3% (см. табл. 2), выигрыш в точности достигает 23% по метрике Mean accuracy для алгоритмов MLL.

Проведенный эксперимент позволяет сформировать следующие выводы.

Метод LP, используемый для разметки однозначных данных, приводит к высоким погрешностям классификации у бустинговых алгоритмов при кросс-валидации.

Структура данных [21] подвержена влиянию проблемы многозначности гораздо сильнее, чем это может быть оценено стандартной частотной проверкой, выполненной в таблице 2. Одна из возможных причин возникновения столь сильного влияния использование в качестве аргументов первичных атрибутов, напрямую не связанных с классифицируемыми состояниями КС.

Поскольку предсказательная способность частотной проверки влияния результатов многозначности меток классов на результаты классификации однозначных классификаторов невелика, планируются дальнейшие исследования на эту тему. Проведение исследований в области многозначного анализа может привести к повышению точности как статического, так и динамического обнаружения неисправностей в КС и сетевых атак [29].

Заключение

Проанализированы результаты исследования оценки характеристик состояний распределенной компьютерной системы, состоящей из шести хостов при заданных показателях уровня обслуживания SLO.

Метки классов (состояния КС) порождаемые в результате функционирования КС, в общем случае, многозначны в следствие съема и анализа информации по нескольким атрибутам КС (с нескольких системных датчиков).

Природа многозначности состояний КС отлична от природы возникновения многозначности при анализе текстовых корпусов или данных социальных сетей.

Аномалии, связанные с нарушением установленных порогов SLO, регулярно возникают одновременно по нескольким анализируемым атрибутам.

Результаты проведенного вычислительного позволяют судить о нелинейной зависимости частотного распределения многозначных меток классов на степень влияния многозначности, оказываемую на результаты классификации, что, в свою очередь, непосредственно отражается на защищенности информации, циркулирующей в КС.

В связи с полученными результатами, в случае наличия приоритета в классификации определенных меток классов (что важно для задач информационной безопасности), предлагаются к использованию многозначные классификаторы.

Литература

1. Kuznetsov A.' Babenko V.' Kuznetsova K.' Kavun S.' Smirnov O.' Nakisko O. Malware correlation monitoring in computer networks of promising smart grids IIВ сборнике: 2019 IEEE 6th International Conference on Energy Smart Systems, ESS 2019 - Proceedings. 6. 2019. C. 347-352. DOI: 10.1109/ESS.2019.8764228

2. Большаков' A.C.' Раковский Д.И. Эффективный метод многокритериального анализа в области информационной безопасности II Правовая информатика. 2020. № 4. С. 55-66. DOI 10.21681/19941404-2020-4-55-66.

3. Котенко' И.В.' Хмырое С.С. Анализ моделей и методик, используемых для атрибуции нарушителей кибербезопасности при реализации целевых атак II Вопросы кибербезопасности. 2022. Т. 50. №4. С. 52-79. DOI 10.21681/2311-3456-2022-4-52-79.

4. ГайфулинО' ДА. Котенко И.В. Применение методов глубокого обучения в задачах кибербезопасности. Часть 1 II Вопросы кибербезопасности. 2020. № 3(37). С. 76-86. DOI 10.21681/2311-34562020-03-76-86.

5. Alrammal M.' Naveed M., Rihawi S. Using heuristic approach to build anti-malware II В сборнике: ITT 2018 - Information Technology Trends: Emerging Technologies for Artificial Intelligence. 5, Emerging Technologies for Artificial Intelligence. 2019. C. 191-196. DOI: 10.1109/CTIT.2018.8649499

6. Большаков А.С.' Раковский Д.И. Программное обеспечение моделирования угроз безопасности информации в информационных системах II Правовая информатика. 2020. № 1. С. 26-39. DOI: 10.21681/1994-1404-2020-1-26-39.

7. Павленко ЕЮ.' Гололобов ИВ.' Лаврова Д.С.Г Козачок А.В. Распознавание киберугроз на адаптивную сетевую топологию крупномасштабных систем на основе рекуррентной нейронной сети II Вопросы кибербезопасности. 2022. № 6 (52). С. 93-98. DOL10.21681/2311-3456-2022-6-93-99

8. Израилов К.Е.' Буйневич MB.' Котенко И.В.' Десницкий В А. Оценивание и прогнозирование состояния сложных объектов: применение для информационной безопасности II Вопросы кибербезопасности. 2022. Т. 52. № 6. С. 2 - 21. DOLlO.21681/23113456-6-2022-2-21

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Sheluhin O.I., Osin A. V.' Rakovsky D.I. New Algorithm for Predicting the States of a Computer Network Using Multivalued Dependencies II Automatic Control and Computer Sciences, 2023, T. 57, №. 1. C. 48-60. DOI: 10.3103/S0146411623010091

10. Gibaja E„ Ventura S. A Tutorial on Multi-Label Learning //ACM Computing Surveys. 2015. №47. C. 1-40. DOI: 10.1145/2716262

11. Lima A.C.E.S., de Castro L.N. A multi-label, semi-supervised classification approach applied to personality prediction in social media II Neural Networks. 2014. T. 58. C. 122-130.

12. Карпович C.H. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ML-PLSIII Труды СПИИРАН. 2016. Т. 47. № 4. С. 92-104 DOI: 10.15622/sp.47.5

13. Котенко И.В., Саенко И.Б., Браницкий АА, Паращук И.Б., Гайфулина ДА. Интеллектуальная система аналитической обработки цифрового сетевого контента для защиты от нежелательной информации II Информатика и автоматизация. 2021. Т. 20. № 4. С. 755-792. DOI 10.15622/ia.20.4.1

14. Куликов Г.Г., Антонов В.В., Антонов Д.В. Анализ возможности извлечения аналитических знаний из формальной модели информационной системы предметной области нейросетевыми методами II Нейрокомпьютеры: разработка, применение. 2013. № 3. С. 12-16.

15. Azad, M. Moshkov M. A Bi-criteria Optimization Model for Adjusting the Decision Tree Parameters II Kuwait Journal of Science. 2022. T. 49. №2. С. 1-14. DOI 10.48129/kjs.l0725

16. Niemisto A., Yii-Harja O, Shmuievich I, Lukin V.V., Doiia A.N. Correction of misclassifications using a proximity-based estimation method II Eurasip Journal on Applied Signal Processing. 2004. № 8. C. 1142-1155. DOI: 10.1155/S1110865704402145

17. Маркое A.C. Кибербезопасность и информационная безопасность как бифуркация номенклатуры научных специальностей II Вопросы кибербезопасности. 2022. № 1(47). С. 2-9. DOI 10.21681/23113456-2022-1-2-9

18. Ловцов, ДА. Принципы обеспечения защищённости информации в эргасистемах//Правовая информатика. 2021. № 1. С. 36-50. DOI 10.21681/1994-1404-2021-1-36-50

19. Большаков, А.С., ОсинА.В.,ХусаиноеРВ. Обнаружение аномалий трафика с использованием нейронной сети для обеспечения защитыинформации//1-теИи^8. 2021. Т. 13. №4. С.1- 15.

20. Шелухин О.И., Раковский Д.И. Прогнозирование профиля функционирования компьютерной системы на основе многозначных закономерностей II Вопросы кибербезопасности. 2022. № 6. С. 28-45. DOL10.21681/2311-3456-2022-6-53-70 DOI: 10.36724/20728735-2021-15-6-40-47

21. Шелухин О.И., Раковский Д.И. Выбор метрических атрибутов редких аномальных событий компьютерной системы методами интеллектуального анализа данных II T-Comm: Телекоммуникации и транспорт. 2021. Т. 15. № 6. С. 40-47. DOI: 10.36724/2072-8735-202115-6-40-47

22. Raja B, Ravindranath K, Jayanag B. Monitoring and analysing anomaly activities in a network using packetbeat II International Journal of Innovative Technology and Exploring Engineering. 2019. T. 8. № 6. C. 45-49.

23. Котенко, И.В., Кулешов АА, Ушаков И А. Система сбора, хранения и обработки информации и событий безопасности на основе средств elastic stack II Труды СПИИРАН. 2017. Т. 54. № 5. С. 5-34. D01 10.15622/sp.54.1

24. Петров В.В., Брюханов К.В., Авксентьева Е. Ю. Сетевой мониторинг: анализ сетевого трафика с помощью ELK II Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2020. № 5. С. 102-105. DOI 10.37882/22232966.2020.05.34.

25. Caideron G, Dei Campo G, Saavedra E, Santamaria A. Management and Monitoring IoT Networks through an Elastic Stack-based Platform II Proceedings - 2021 International Conference on Future Internet of Things and Cloud, FiCloud 2021: 8, Virtual, Online, 23-25 августа 2021 года. Virtual, Online, 2021. C. 184-191. DOI 10.1109/FiCloud49777.2021.00034.

26. Kotenko I., Kuleshov A., Ushakov I. Aggregation of elastic stack instruments for collecting, storing and processing of security information and events II2017 IEEE SmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/CBDCom/IOP/SCI), California, USA, 04-08 августа 2017 года. California, USA: Institute of Electrical and Electronics Engineers, 2017. DOI 10.1109/UIC-ATC.2017.8397627.

27. Chaudhuri U, Dey S., Banerjee B., Bhattacharya A., Datcu M. Interband Retrieval and Classification Using the Multilabeled Sentinel-2 BigEarthNet Archive II IEEE Journal of Selected Topics in Applied Earth

Observations and Remote Sensing. 2021. Vol. 14. Pp. 9884-9898. DOI 10.1109/JSTARS.2021.3112209

28. Maltoudoglou L, Paisios A., Papadopoulos H., Lenc L, Martinek J., Kral P. Well-calibrated confidence measures for multi-label text classification with a large number of labels II Pattern Recognition. 2022. T. 122. C. 108271. DOI: 10.1016/j.patcog.2021.108271

29. Шелухин О.И., Рыбаков С.Ю., Ванюшина А.В. Модификация алгоритма обнаружения сетевых атак методом фиксации скачков фрактальной размерности в режиме online II Труды учебных заведений связи. 2022. Т. 8. №3. С. 117-126. DOI 10.31854/1813-324Х-2022-8-3-117-126.

INFLUENCE OF MULTI-LABEL CLASS PROBLEM OF SYSTEM LOGS ON THE SECURITY OF COMPUTER NETWORKS

DMITRIY I. RAKOVSKIY

Moscow, Russia

ABSTRACT

Intoduction: The security of information circulating in a computer network is related to the security of the supporting infrastructure. An important problem in the intelligent processing of syslog data is the existence of multi-label datasets. Among the Russian-language scientific publications, the problem under consideration in the context of information security of computer networks is not presented. Purpose: increase the security of computer networks by using multi-label learning methods when solving the problem of classifying system logs class labels. Results: A comparative analysis of single-valued and multi-label classifiers was carried out in a computational experiment on the Mean accuracy metric. A non-linear relationship was found between the proportion of experimental data sections containing multi-label class labels and the overall accuracy of data classification. Despite the fact that multilabel plots in the studied experimental data are only 3%, the gain in accuracy reaches 23% according to the specified metric. According to the results of the analysis, 80% of unambigu-

KEYWORDS: supervised learning, multi-label classification, multiclass classification, information security, multi-label learning.

ous classifiers were inferior in classification accuracy according to the Mean accuracy multi-label metric to their analogues, which may signal a strong influence of multi-label class labels on the models under consideration. It is shown that the considered structure of experimental data in a tabular form is affected by the multi-label problem much more strongly than it can be estimated by a standard frequency check, which actualizes further research in this direction. Practical relevance: The practical significance of the results obtained lies in increasing the security of computer networks through the use of a multilabel approach in the classification problem. The tasks of information security solved by multi-label classification may include: the area of monitoring, detection or prevention of violations and computer attacks in computer networks. Discussion: Since the predictive power of frequency testing of the influence of multi-label class label results on the classification results of unambiguous classifiers is low, further research on this topic is planned. It is planned to expand the list of classification quality assessment metrics in future experiments.

REFERENCES

1. Kuznetsov A., Babenko V., Kuznetsova K., Kavun S., Smirnov O., Nakisko O. Malware correlation monitoring in computer networks of promising smart grids. Proceedings of the IEEE 6th International Conference on Energy Smart Systems, ESS 2019. 2019. Pp. 347-352. DOI: 10.1109/ESS.2019.8764228

2. Bol'shakov A.S., Rakovskii D.I. An efficient multiple-criteria decision analysismethod in the field of information security. Pravovaya

informatika [Legal Informatics]. 2020. No 4. Pp. 55-66. DOI 10.21681/1994-1404-2020-4-55-66. (In Rus)

3. Kotenko I.V., Khmyrov S.S. Analysis of models and techniques used for attribution of cyber security violators in the implementation of targeted attacks. Voprosy kiberbezopasnosti [Voprosy kiberbezopas-nosti]. 2022. Vol 50. No 4. Pp. 52-79. DOI 10.21681/2311-3456-2022-452-79. (In Rus)

4. Gaifulina D.A., Kotenko I.V. Application of deep learning meth-odsin cybersecurity tasks. Voprosy kiberbezopasnosti [Voprosy kiber-

bezopasnosti]. 2020. Vol 37. No 3. Pp. 76-86. DOI 10.21681/23113456-2020-03-76-86. (In Rus)

5. Alrammal M., Naveed M., Rihawi S. Using heuristic approach to build anti-malware. Proceedings of the ITT 2018 - Information Technology Trends: Emerging Technologies for Artificial Intelligence. 5, Emerging Technologies for Artificial Intelligence. 2019. Pp. 191-196. DOI: 10.1109/CTIT.2018.8649499.

6. Bol'shakov A.S., Rakovskii D.I. Software for modelling information security threats in information systems. Pravovaya informatika [Legal Informatics]. 2020. No 1. Pp. 26-39. DOI: 10.21681/19941404-2020-1-26-39. (In Rus)

7. Pavlenko E.Y., Gololobov N.V., Lavrova D.S., Kozachok A.V. Recognition of cyber threats on the adaptive network topology of large-scale systems based on a recurrent neural network. Voprosy kiberbezopasnosti [Voprosy kiberbezopasnosti]. 2022. Vol. 52. No 6. Pp. 93-98. D0I:10.21681/2311-3456-2022-6-93-99 (In Rus)

8. Izrailov K.E., Buinevich M.V., Kotenko I.V., Desnitsky V.A. Assessment and prediction of the complex objectsstate: applicatioin for information security. Voprosy kiberbezopasnosti [Voprosy kiberbezopasnosti]. 2022. Vol. 52. No 6. Pp. 2-21. D0I:10.21681/23113456-6-2022-2-21 (In Rus)

9. Sheluhin O.I., Osin A.V., Rakovsky D.I. New Algorithm for Predicting the States of a Computer Network Using Multivalued Dependencies. Automatic Control and Computer Sciences. 2023. Vol. 57. No. 1. pp. 48-60. DOI: 10.3103/S0146411623010091(In Rus)

10. Gibaja E., Ventura S. A Tutorial on Multi-Label Learning. ACM Computing Surveys. 2015. No 47. Pp. 1-40. DOI: 10.1145/2716262

11. Lima A.C.E.S., de Castro L.N. A multi-label, semi-supervised classification approach applied to personality prediction in social media. Neural Networks. 2014. vol. 58. Pp. 122-130.

12. Karpovich S.N. Multi-Label Classification of Text Documents using Probabilistic Topic Model ml-PLSI. Trudy SPIIRAN [SPIIRAS Proceedings]. 2016. vol 47. no 4. Pp. 92-104 DOI: 10.15622/sp.47.5 (In Rus)

13. Kotenko I.V., Saenko I.B., Branitsky A.A., Paraschuk I.B., Gayfulina D.A. Intelligent system of analytical processing of digital network content for its protection from unwanted information. Informatics and automation [Informatics and automation]. 2021. vol. 20, no 4. Pp. 755-784. (In Rus)

14. Kulikov G.G., Antonov V.V., Antonov D.V. Analysis of the possibility of analytical knowledge extraction of a formal model of subject domain information system by neural network methods. Neurocomputers [Neurocomputers]. 2013. No 3. Pp. 12-16. (In Rus)

15. Azad M., Moshkov M. A Bi-criteria Optimization Model for Adjusting the Decision Tree Parameters. Kuwait Journal of Science. 2022. Vol. 49. No 2. Pp. 1 -14. DOI 10.48129/kjs.10725

16. Niemisto A., Yli-Harja O., Shmulevich I., Lukin V.V., Dolia A.N. Correction of misclassifications using a proximity-based estimation method. Eurasip Journal on Applied Signal Processing. 2004. Vol. 2004. No 8. Pp. 1142-1155. DOI: 10.1155/S1110865704402145

17. Markov A.S. Cybersecurity and information security as nomenclature bifurcation scientific specialties (russian text). Voprosy kiberbezopasnosti [Voprosy kiberbezopasnosti]. 2022. Vol 47. No 1. Pp. 29. DOI 10.21681/2311-3456-2022-1-2-9 (In Rus)

18. Lovtsov D.A. Principles of ensuring information security in ergasystems. Pravovaya informatika [Legal Informatics]. 2021. No 1. Pp. 36-50. DOI 10.21681/1994-1404-2021-1-36-50

19. Bolshakov A.S., Khusainov R. V., Osin A.V. Traffic anomaly detection using a neural network to ensure information protection. I-methods. 2021. Vol. 13. No 4. Pp. 1-15. (In Rus)

20. Sheluhin O.I., Rakovskiy D.I. Prediction of the profile functioning of a computer system (network) based on multivalued patterns. Voprosy kiberbezopasnosti [Voprosy kiberbezopasnosti]. 2022. No 6. Pp. 28-45. DOI:10.21681/2311-3456-2022-6-53-70 (In Rus)

21. Sheluhin O.I., Rakovsky D.I. Selection of metric and categorical attributes of rare anomalous events in a computer system using data mining methods. T-Comm. 2021. Vol. 15. No. 6. Pp. 40-47. DOI: 10.36724/2072-8735-2021-15-6-40-47 (In Rus)

22. Raja B., Ravindranath K., Jayanag B. Monitoring and analysing anomaly activities in a network using packetbeat. International Journal of Innovative Technology and Exploring Engineering. 2019. Vol. 8. No. 6. Pp. 45-49.

23. Kotenko I.V., Kuleshov A.A., Ushakova I.A. System for collecting, storing and processingsecurity information and events based on elasticstack tools. Informatika i avtomatizatsiya (Trudy SPIIRAN) [Informatics and Automation (SPIIRAS Proceedings)]. 2017. Vol. 54. No. 5. Pp. 5-34. DOI 10.15622/sp.54.1(In Rus)

24. Petrov V.V., Bryukhanov K.V., Avksentieva E.Y. Network monitoring: network traffic analysis using ELK. In Modern Science: actual problems of theory & practice. 2020. No 5. Pp. 102-105. DOI 10.37882/2223-2966.2020.05.34. (In Rus)

25. Calderon G., Del Campo G., Saavedra E., Santamaria A. Management and Monitoring IoT Networks through an Elastic Stack-based Platform. Proceedings of 2021 International Conference on Future Internet of Things and Cloud, FiCloud 2021. Virtual, Online,

2021. Pp. 184-191. DOI 10.1109/FiCloud49777.2021.00034.

26. Kotenko I.V., Kuleshov A.A., Ushakov I.A. Aggregation of elastic stack instruments for collecting, storing and processing of security information and events. Proceedings of the 2017 IEEESmartWorld, Ubiquitous Intelligence & Computing, Advanced & Trusted Computed, Scalable Computing & Communications, Cloud & Big Data Computing, Internet of People and Smart City Innovation (SmartWorld/SCALCOM/UIC/ATC/ CBDCom/IOP/SCI). California, USA: Institute of Electrical and Electronics Engineers. 2017. Pp. 1-8. DOI 10.1109/UIC-ATC.2017.8397627.

27. Chaudhuri U., Dey S., Banerjee B., Bhattacharya A., Datcu M. Interband Retrieval and Classification Using the Multilabeled Sentinel-2 BigEarthNet Archive. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. 2021. Vol. 14. Pp. 98849898. DOI 10.1109/JSTARS.2021.3112209

28. Maltoudoglou L., Paisios A., Papadopoulos H., Lenc L., Martinek J., Kral P. Well-calibrated confidence measures for multi-label text classification with a large number of labels. Pattern Recognition.

2022. Vol. 122. Pp. 108271. DOI: 10.1016/j.patcog.2021.108271

29. Sheluhin O.I., Rybakov S.Yu., Vanyushina A.V. Modified Algorithm for Detecting Network Attacks Using the Fractal Dimension Jump Estimation Method in Online Mode. Trudy uchebnykh zavedeniy svyazi [Proceedings of Telecommunication Universities]. 2022. Vol. 8 No 3. Pp. 117126. (In Rus) https://doi.org/10.31854/1813-324X-2022-8-3-117-126.

INFORMATION ABOUT AUTHOR:

Dmitriy I. Rakovskiy, Lecturer, Postgraduate at the Department of Information Security of Moscow Technical University of Communication andlnformatics, Moscow, Russia, Prophet_alpha@mail.ru

For citation: Rakovskiy D.I Influence of multi-label class problem of system logs on the security of computer networks. H&ES Reserch. 2023. Vol. 15. No 1. P. 48-56. doi: 10.36724/2409-5419-2023-15-1-48-56 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.