Научная статья на тему 'БИНАРНАЯ КЛАССИФИКАЦИЯ МНОГОАТРИБУТНЫХ РАЗМЕЧЕННЫХ АНОМАЛЬНЫХ СОБЫТИЙ КОМПЬЮТЕРНЫХ СИСТЕМ С ПОМОЩЬЮ АЛГОРИТМА SVDD'

БИНАРНАЯ КЛАССИФИКАЦИЯ МНОГОАТРИБУТНЫХ РАЗМЕЧЕННЫХ АНОМАЛЬНЫХ СОБЫТИЙ КОМПЬЮТЕРНЫХ СИСТЕМ С ПОМОЩЬЮ АЛГОРИТМА SVDD Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗМЕТКА ДАННЫХ / ПЕРЕМЕШИВАНИЕ ДАННЫХ / ПОЛНОСТЬЮ НОРМАЛЬНОЕ НАБЛЮДЕНИЕ / ГОЛОСОВАНИЕ ПО МАЖОРИТАРНОМУ ПРИНЦИПУ / МАЛАЯ ОБУЧАЮЩАЯ ВЫБОРКА / МАЛЫЕ ДАННЫЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин Олег Иванович, Раковский Дмитрий Игоревич

Введение: в настоящее время объем системных журналов компьютерных систем, объединенных в распределенную сетевую инфраструктуру, делает невозможным их ручную проверку в режиме реального времени. Как правило, структура каждой записи журнала содержит численное значение наблюдаемого атрибута и соответствующую пометку (маркер), помечающее запись как нормальное или аномальное. Алгоритм описания данных опорными векторами демонстрирует высокую точность классификации уже при малых объемах обучающей выборки. Особенностью алгоритма является работа с многоатрибутным набором данных, где каждое наблюдение содержит общую классифицирующую маркировку. Следовательно, возникает задача о сведении маркировок атрибутов исходных данных к единой маркировке всего наблюдения. Цель исследования: исследование точности бинарной классификации экспериментальных данных алгоритмом описания данных опорными векторами при малом объеме обучающей выборки для случая поатрибутно маркированных экспериментальных данных. Методы исследования: предложен метод для решения задачи о сведении маркировок атрибутов исходных данных к единой маркировке посредством подходов «полностью нормальное наблюдение» и голосования по мажоритарному принципу. Рассмотрены два вида данных: упорядоченные во времени и равномерно перемешанные. Точность классификации оценена при помощи вычисления площади под ROC-кривыми с проведением кросс-валидации при разном количестве атрибутов. Результаты: сравнительный анализ способов маркировки наблюдений показал преимущество подхода «полностью нормальное наблюдение» перед подходом «мажоритарное голосование» без «взвешивания». Показано, что точность классификации на перемешанных данных выше на 7% по сравнению с вариантом упорядочивания данных во времени. Исследована точность алгоритма при различном количестве атрибутов с использованием подхода «полностью нормальное наблюдение». Максимально достигнутая точность классификации составила порядка 96% при работе с 6 атрибутами, при равномерном перемешивании входного набора данных. Дальнейшее увеличение количества атрибутов приводит к снижению средней точности классификации по причине роста доли аномальных наблюдений. Показано, что при использовании равномерного перемешивания входных данных выигрыш по точности может быть увеличен на 15-20%. Практическая значимость: алгоритм демонстрирует экспоненциальный рост потребления вычислительных ресурсов при увеличении объема входных данных. Обсуждение: для достижения максимальной точности классификации при приемлемом потреблении ресурсов необходимо сформировать компактный набор входных данных, наиболее полно отражающий функционирование компьютерной системы в нормальном режиме.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шелухин Олег Иванович, Раковский Дмитрий Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BINARY CLASSIFICATION OF MULTI-ATTRIBUTE TAGGED DATA ABOUT ANOMALOUS EVENTS IN COMPUTER SYSTEMS USING THE SVDD ALGORITHM

Introduction: At present, the volume of system logs of computer systems integrated into a distributed network infrastructure makes it impossible to manually check them in real time. Typically, the structure of each log record contains the numeric value of the observed attribute and a corresponding flag to mark the record as normal or abnormal. The support vector data description algorithm demonstrates high classification accuracy even with small volumes of the training sample. A feature of the algorithm is the work with a multi-attribute dataset, where each observation contains a common classifying marking. Consequently, the problem arises of reducing the set of markings of the attributes of the initial data to one marking of the entire observation. Purpose: to investigate the accuracy of the binary classification of experimental data of the Support Vector Data Description algorithm with a small volume of the training sample, provided that the data are labeled for each attribute separately. Methods: a method is proposed for solving the problem of reducing the set of markings of the attributes of the initial data to one single marking of the entire observation by means of two approaches: "normal observation" and voting by the majority principle. Two types of data are considered: ordered in time and uniformly mixed. The classification accuracy was assessed by calculating the area under the ROC curves with cross-validation for a different number of attributes. Results: a comparative analysis of observation labeling methods showed the advantage of the "completely normal observation" approach over the "majority vote" approach without "weighting". It is shown that the classification accuracy on mixed data is 7% higher compared to the variant of data ordering in time. The accuracy of the algorithm was investigated for a different number of attributes using the "completely normal observation" approach. The maximum achieved classification accuracy was about 96% when working with 6 attributes, with uniform mixing of the input dataset. A further increase in the number of attributes leads to a decrease in the average classification accuracy due to an increase in the proportion of anomalous observations. It is shown that when using uniform mixing of input data, the gain in accuracy can be increased by 15-20%. Practical relevance: the algorithm demonstrates an exponential growth in the consumption of computing resources with an increase in the amount of input data. Discussion: to achieve the maximum classification accuracy with acceptable resource consumption, it is necessary to form a compact set of input data, which most fully reflects the functioning of the computer system in normal mode.

Текст научной работы на тему «БИНАРНАЯ КЛАССИФИКАЦИЯ МНОГОАТРИБУТНЫХ РАЗМЕЧЕННЫХ АНОМАЛЬНЫХ СОБЫТИЙ КОМПЬЮТЕРНЫХ СИСТЕМ С ПОМОЩЬЮ АЛГОРИТМА SVDD»

РО1: 10.36724/2409-5419-2021-13-2-74-84

БИНАРНАЯ КЛАССИФИКАЦИЯ МНОГОАТРИБУТНЫХ РАЗМЕЧЕННЫХ АНОМАЛЬНЫХ СОБЫТИЙ КОМПЬЮТЕРНЫХ СИСТЕМ С ПОМОЩЬЮ АЛГОРИТМА SVDD

ШЕЛУХИН Олег Иванович1

РАКОВСКИЙ Дмитрий Игоревич2

Сведения об авторах:

д.т.н., профессор, заведующий кафедрой Московского технического университета связи и информатики, г. Москва, Россия, sheluhln@mall.ru

магистрант кафедры «Информационная безопасность» Московского технического Университета связи и информатики, г. Москва, Россия, dlmltor1998@mall.ru

АННОТАЦИЯ

Введение: в настоящее время объем системных журналов компьютерных систем, объединенных в распределенную сетевую инфраструктуру, делает невозможным их ручную проверку в режиме реального времени. Как правило, структура каждой записи журнала содержит численное значение наблюдаемого атрибута и соответствующую пометку (маркер), помечающее запись как нормальное или аномальное. Алгоритм описания данных опорными векторами демонстрирует высокую точность классификации уже при малых объемах обучающей выборки. Особенностью алгоритма является работа с многоатрибутным набором данных, где каждое наблюдение содержит общую классифицирующую маркировку. Следовательно, возникает задача о сведении маркировок атрибутов исходных данных к единой маркировке всего наблюдения. Цель исследования: исследование точности бинарной классификации экспериментальных данных алгоритмом описания данных опорными векторами при малом объеме обучающей выборки для случая поатри-бутно маркированных экспериментальных данных. Методы исследования: предложен метод для решения задачи о сведении маркировок атрибутов исходных данных к единой маркировке посредством подходов «полностью нормальное наблюдение» и голосования по мажоритарному принципу. Рассмотрены два вида данных: упорядоченные во времени и равномерно перемешанные. Точность классификации оценена при помощи вычисления площади под кОС-кривыми с проведением кросс-валидации при разном количестве атрибутов. Результаты: сравнительный анализ способов маркировки наблюдений показал преимущество подхода «полностью нормальное наблюдение» перед подходом «мажоритарное голосование» без «взвешивания». Показано, что точность классификации на перемешанных данных выше на 7% по сравнению с вариантом упорядочивания данных во времени. Исследована точность алгоритма при различном количестве атрибутов с использованием подхода «полностью нормальное наблюдение». Максимально достигнутая точность классификации составила порядка 96% при работе с 6 атрибутами, при равномерном перемешивании входного набора данных. Дальнейшее увеличение количества атрибутов приводит к снижению средней точности классификации по причине роста доли аномальных наблюдений. Показано, что при использовании равномерного перемешивания входных данных выигрыш по точности может быть увеличен на 15-20%. Практическая значимость: алгоритм демонстрирует экспоненциальный рост потребления вычислительных ресурсов при увеличении объема входных данных. Обсуждение: для достижения максимальной точности классификации при приемлемом потреблении ресурсов необходимо сформировать компактный набор входных данных, наиболее полно отражающий функционирование компьютерной системы в нормальном режиме. КЛЮЧЕВЫЕ СЛОВА: разметка данных; перемешивание данных; полностью нормальное наблюдение; голосование по мажоритарному принципу; малая обучающая выборка; малые данные.

Для цитирования: Шелухин О.И., Раковский Д.И. Бинарная классификация многоатрибутных размеченных аномальных событий компьютерных систем с помощью алгоритма БУРР // Наукоемкие технологии в космических исследованиях Земли. 2021. Т. 13. № 2. С. 74-84. Рок 10.36724/2409-5419-2021-13-2-74-84

Введение

При управлении крупномасштабной сетевой инфраструктурой важную роль играет обнаружение аномалий посредством анализа системных журналов, в которые заносится информация о времени работы системы и о событиях, происходящих в ней. Как правило, обслуживающий персонал (разработчики системы или операторы) проверяют системные журналы вручную. Поиск аномалий может быть осуществлен при помощи поиска: либо по ключевым словам, либо с применением соответствующих правил. Тем не менее, объем записей в системных журналах растет пропорционально масштабу и сложности современных сетевых инфраструктур, что затрудняет или делает невозможным их ручную проверку.

Исследования проводились на сетевой инфраструктуре, состоящей из 6 хостов, образующих кластер под управлением Rancher (рис. 1). В результате исследований были получены поатрибутно размеченные экспериментальные данные, снятые с локальной компьютерной системы (КС), состоящей из нескольких серверных

и клиентских хостов, в период с 2019-09-24 05:35:06 по 2019-09-26 23:39:00 с шагом 1 с. Каждому атрибуту присвоена одна из двух маркировок — «нормальное значение атрибута» и «аномальное значение атрибута». Структура каждой записи (наблюдения) в наборе экспериментальных данных представляет собой 68 чисел, разделенных на 2 группы: 34 численных значения по каждому из атрибутов и столько же бинарных маркировок, относящих соответствующий атрибут либо к нормальному, либо к аномальному состоянию [1]. Набор экспериментальных данных сведен в csv-таблицу.

В качестве иллюстрации, на рис. 2 приведен пример записи из таблицы экспериментальных данных. Для большей наглядности бинарные маркировки выделены курсивом. Численные значения, находящиеся в аномальном состоянии и соответствующие им бинарные маркировки выделены полужирным начертанием. Из рисунка следует, что в рассматриваемый момент времени 7 атрибутов находились в состоянии «аномальное значение атрибута».

Рис. 1. Схема исследуемой сетевой инфраструктуры

0.0109,0,0006666666666666666,0,016833333333333332,0.3548,1.4250833333333333,42732146688.0,8364023808.0, 0.0,0.4,0.4,0.0,0.0,4257.2,0.4,0.0,11.0,6235489.2,1.65,1.74,0.69,139734635834.0,513290302.0,139734635834.0,0,0,0.0, 58.0,120.0,137,0,4.803999999999999,7.572,2.036,0.004,1.2670000000000001,1.268,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0, 0,0,0.0,0.0,0.0,0.0,0,0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0.0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0

Рис. 2. Пример записи экспериментальных данных вместе с маркировками

Как правило, крупномасштабные сетевые структуры являются системами реального времени, на которые накладываются соответствующие ограничения [2-4]: быстродействие (обеспечение времени выполнения задач), предсказуемость (поведение системы должно быть прогнозируемо), учет максимально допустимого времени отклика на события и пр. Учитывая эти ограничения, целесообразно подойти к анализу поведения подобных последовательностей как к задаче многоатрибутой бинарной классификации при помощи методов интеллектуального анализа данных.

Широкое распространение в задачах бинарной классификации получило семейство алгоритмов Support Vector Machine (SVM), демонстрирующее хорошие результаты при малых объемах обучающей выборки [5, 6]. Достигается такое соотношение за счет представления набора данных как точек в многомерном пространстве, где каждая координата точки представляет собой числовое значение соответствующего атрибута. Тогда задача классификации сводится к нахождению уравнения разделяющей гиперплоскости, разделяющей пространство оптимальным образом. Темпоральность данных, как правило, не учитывается. Соответственно, дополнительный выигрыш в точности классификации может быть достигнут за счет равномерного перемешивания набора данных.

Алгоритм описания данных опорными векторами1 (SVDD, Support Vector Data Description) позволяет достичь еще меньшего отношения обучающей выборки к набору данных при сохранении приемлемых результатов. Больший выигрыш в точности по сравнению с алгоритмами семейства SVM достигается за счет использования разделяющей гиперсферы вместо гиперплоскости. Использование гиперсферы позволяет работать с данными, имеющими сложную структуру в пространстве атрибутов [7-8]. Алгоритм демонстрирует лучшие результаты по точности в некоторых случаях слабо разделимых данных [9]. Данный алгоритм широко используется при обнаружении аномалий во многих прикладных областях: в медицине [10], в тяжелой промышленности [11], при биометрической аутентификации [12]. В большинстве случаев алгоритм SVDD демонстрирует лучшие результа-

ты по достигнутой точности бинарной классификации по сравнению с другими методами классификации.

Целью работы является исследование точности бинарной классификации экспериментальных данных алгоритмом SVDD при малом объеме обучающей выборки для случая поатрибутно маркированных экспериментальных данных.

Структура алгоритма 8УББ

Общая постановка задачи классификации заключается в следующем2. Пусть дан набор из т неклассифицированных данных Sm = (х1,...,хт},х^ е Кр, где х. — 1-й элемент в наборе данных (наблюдение), являющийся /»-мерной величиной, отражающей это наблюдение. Размерность определяется количеством атрибутов, по которым ведется наблюдение.

В данный набор могут входить нормальные и аномальные элементы. Тогда задачей классификации /: х ^ {-1;+1} будет являться задача классификации /-того элемента последовательности по двум классам — нормальному и аномальному. После выполнения операции классификации, каждый х. — /-й элемент будет иметь бинарную маркировку, где / (х) = +1 означает, что наблюдение х. является элементом нормального класса, а /(х) = -1 — является элементом аномального класса. Соответствующий маркированный набор из т данных, полученный в результате действия классификатора / над набором немаркированных данных возможно представить, как:

Sm = {(^,У )>Г=1,*i е Кр,y е{-1; +1},

(1)

где (х., у) — / -тый элемент набора данных, в котором х. является .-тым /-мерным наблюдением в наборе данных, у. — это бинарная маркировка данного наблюдения, относящая соответствующее наблюдение к нормальному ( у{ е+1) или аномальному (у1 е-1) классу.

Алгоритму классификации SVDD для работы с неклассифицированными данными необходимо проанализировать некоторый объем маркированных данных, при

'Tax D. M.J. and Duin R. P. W. Support Vector Data Description // Machine Learning, vol. 54. 2004. pp. 45-66. doi:10.1023/B: MACH.0000008084.60811.49

2Hastie T., Tibshirani R., Friedman J. The elements of statistical learning: data mining, inference and prediction. Springer, 2nd edition. 2009. 745 p.

этом маркировка должна быть произведена в соответствии с (1). Каждое наблюдение в таком наборе данных можно представить, как точку в /»-мерном пространстве. Тогда вокруг данных нормального класса может быть описана гиперсфера с центром а и радиусом Я>0:

F (R, а) = R

(2)

При этом не все объекты нормального класса должны находиться внутри гиперсферы. Допущение о возможности выбросов данных нормального класса за границу гиперсферы усложняет нахождение радиуса гиперсферы. С этой целью в формулу (2) добавляются дополнительные переменные что превращает отыскание радиуса гиперсферы в задачу двойственной оптимизации, которая может быть решена с помощью нахождения соответствующих множителей Лагранжа а.

Ненулевыми множители Лагранжа становятся только для тех объектов нормального класса х., для которых выполняется равенство ||х,- - а||2=Я2 + Совокупность параметров в виде центра сферы а, набора объектов (наблюдений) х., ненулевых множителей Лагранжа а и образуют гиперсферу. Объекты с ненулевыми множителями Лагранжа называются опорными векторами. Для бинарно маркированных данных решением двойственной оптимизационной задачи является Лагранжиан:

L = Та(xt ■ Xi)(xi ■ xi)-Таai(Xi ■ xi) +

i i i,i

+2T aia j(xi • xj) -T aia k(xi • xk)

i, j i,k

(3)

где х., х. — элементы набора данных (данных наблюдения), отнесенные к нормальному классу, а х, хк — элементы набора, отнесенные к аномальному классу; а, а. > 0 —

множители Лагранжа, соответствующий нормальным наблюдениям х., х.; ар ак > 0 — множители Лагранжа, соответствующие аномальным наблюдениям х ,, хк.

Для определения к какому классу отнесен немаркированный объект г, необходимо вычислить расстояние от данного объекта до центра сферы:

11 г - а||2 =(Zi ■ Zi)-Tai(X ■ X)-

i

-2Е а (г1 ■ х)+Х а а ](х ■х]) ^ и1

I и

Для повышения точности классификации осуществляется преобразование набора исходных данных из евклидова в иные пространства посредством замены скалярного произведения (х1 ■ Xj) на ядерные функции К(х1 ■ Xj) = (Ф(х1) Ф(Xj)), например на гауссово ядро [13, 14] или другие функции [15-17].

Иллюстрация решения оптимизационной задачи и нахождение множителей Лагранжа на примере двумерной выборки приведена на рис. 3. На рис. 3 а представлена поверхность, заданная двумерным пространством атрибутов и набором радиусов, соответствующих допустимым выбросам данных нормального класса за радиус гиперсферы. Цветом закодирован штраф для данных нормального класса, расстояние которых от центра гиперсферы превышает соответствующий радиус. На рис. 3б изображена проекция трехмерной поверхности с нанесенными на нее численными значениями штрафа Цветом закодирован штраф для данных нормального класса, расстояние которых от центра гиперсферы превышает соответствующий радиус. На рис. 3в изображен набор данных (кружками — обучающая выборка нормального класса; квадратами — обучающая выборка аномального класса; треугольниками — опорные векторы) и соответствующая им двумерная гиперсфера.

Рис. 3. Решение оптимизационной задачи и нахождение множителей Лагранжа на примере двумерной выборки: а) поверхность, заданная двумерным пространством данных и допустимыми расстояниями от центра гиперсферы; б) двумерная проекция поверхности с численными значениями штрафов за расстояния от центра гиперсферы; в) набор данных и соответствующая им двумерная сфера

Реализация алгоритма SVDD

Рассмотрим наиболее популярный вариант практической реализаций алгоритма SVDD, выполненный на языке Python3 с использованием в качестве ядерной функции гауссовой ядерной функции.

Результаты потребления временных и процессорных ресурсов, потребляемых алгоритмом для трех атрибутов и двух режимов работы: обучения и тестирования приведены в табл. 1.

Таблица 1

Затраты времени и памяти при одинаковых входных данных

Из представленных данных видно, что наблюдается экспоненциальный рост потребления процессорной мощности для размера обучающей выборки, большей 2000 наблюдений, при этом затраты оперативной памяти остаются на примерно одном уровне. При увеличении размера тестовой выборки наблюдается экспоненциальный рост как по затрачиваемому времени, так и затрату оперативной памяти на обработку и хранение выборки.

Как следует из (1), алгоритм SVDD оперирует муль-тиатрибутным набором данных, бинарно маркированным по каждому наблюдению. Соответственно, каждому муль-тиатрибутному наблюдению должна быть сопоставлена одна оценка данного наблюдения, которая выражается в отнесении данного наблюдения либо к нормальному, либо к аномальному классу.

Исходные данные, как правило не обладают маркировкой, присвоенной всему наблюдению, а имеется набор маркировок значений каждого атрибута в каждый момент наблюдения. В результате возникает задача о сведении 34-х маркировок атрибутов исходных данных к единой маркировке всего наблюдения.

3Support Vector Data Description (SVDD) // github URL: https://github.com/iqiukp/ SVDD (дата обращения: 22.11.2020).

Наиболее простым к определению аномальности всего наблюдения в целом является подход, при котором наблюдение считается «нормальным», если никакой из атрибутов не находится в «аномальном» состоянии. Этот способ назовем «полностью нормальным наблюдением».

Альтернативным способом является проведение голосования [18]. Голосование может быть проведено, например, по мажоритарному принципу, при котором наблюдение признается аномальным, если большинство атрибутов находится в «аномальном» состоянии.

Минусом голосования по мажоритарному принципу является одинаковый вес (значимость) каждого атрибута при определении аномальности всего наблюдения. Решением может стать ввод весов или весовых функций [19, 20], соответствующих каждому атрибуту, и их учет при подсчете голосов путем «взвешенного» голосования. В свою очередь, нахождение весовых функций может представлять собой трудоемкую задачу.

В любом случае при работе с алгоритмом SVDD экспериментальные данные необходимо привести к виду (3). Ниже рассматривается два случая: «полностью нормальное наблюдение» и мажоритарное голосование (без «взвешивания»).

Классификация экспериментальных данных при маркировке «полностью нормальное наблюдение»

Структура записи экспериментальных данных подразумевает, что каждому /»-мерному наблюдению сопоставлена /»-мерная бинарная маркировка соответствующего наблюдения:

Sm = {(X,-, у )}Г=1, X,- е К', у,- е {1; 0}' (4)

где (х,, у.) — ,-й элемент набора данных, в котором х . является ,-м р-мерным наблюдением в наборе данных, у. — р-мерная маркировка данного наблюдения (состоящая из последовательности бинарных маркеров уц £ {1;0},yi,2 £ {1;0},...,у^р £ {1;0}). В соответствии с (4), маркер вида у, j £ 0 относит j-тый атрибут наблюдения х . к нормальному классу, а маркер вида j е 1 относит у-й атрибут наблюдения х к аномальному классу.

Для работы алгоритма SVDD необходимо преобразовать р-мерную бинарную маркировку у. в одномерную бинарную у,, относящую соответствующее наблюдение х . к нормальному (у{ е+1) или аномальному (у1 е-1) классу, то есть необходимо выполнить преобразование / : у ^ {-1;+1}.

В соответствии с (4), наблюдение должно быть отнесено к нормальному классу при выполнении следующего правила:

Обучающая выборка

Размер выборки Затраты времени, с Затраты памяти, Гб

1000 0,5 ~2,4

2000 3,4 ~2,4

3000 11 ~2,5

4000 30 ~2,6

5000 60 ~2,7

Тестовая выборка

Размер выборки Затраты времени, с Затраты памяти, Гб

15 000 4 <1

20 000 10 4

30 000 20 8

40 000 67 18

44 000 170 22-28

50 000 212 26-31

f (У1) =

+1,1 y, j = 0

j=1

-1, ty,j * 0

j=1

Наблюдение считается принадлежащим нормальному классу (У1 е+1) если сумма бинарных маркеров х. нар

блюдения £ у^ у = 0. В любом другом случае наблюдение

1=1

маркируется как аномальное.

Рассмотрим результаты исследования точности классификации алгоритмом SVDD для первых 24000 наблюдений экспериментальных данных по четырем атрибутам КС, представленным в табл 2. Атрибуты выбирались таким образом, чтобы в исследуемом наборе данных содержались записи, относящиеся как к нормальному, так и к аномальному классам. Преобразование экспериментальных данных выполнялось при помощи соотношения (5).

Таблица 2

Описание атрибутов, используемых при исследовании

«cpu_iowait» Процессорное время, затрачиваемое хостом в ожидании устройства ввода-вывода, выраженное в процентах

«cpu_softirq» Процессорное время, затрачиваемое хостом на обработку программных прерываний, выраженное в процентах.

«dns_answerscount» Количество ответов на dns-запрос

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

«ping_max» Максимальное время ответа сервера на запрос (при отправке трёх запросов)

Рассматривались два варианта обработки и анализа данных.

При первом варианте данные упорядочивались во времени (вариант 1). При втором варианте данные равно-

мерно перемешивались (вариант 2). Перемешивание данных допустимо, поскольку построение гиперсферы в алгоритме SVDD происходит по отдельным наблюдениям с игнорированием корреляционных связей между ними.

Для упорядоченных во времени данных (вариант 1) точность классификации алгоритмом SVDD для четырех атрибутов по параметру АиС составила ~75%. ROC-кривая для четырех атрибутов при соотношении обучающей выборки к тестовой ~17% изображена на рис. 4а. На рис. 4б изображен график зависимости удаленности точек от центра гиперсферы для каждого из 20 тысяч наблюдений тестовой выборки. По оси абсцисс отложены номера наблюдений, по оси ординат — расстояния каждого наблюдения от центра гиперсферы. Граница гиперсферы изображена в виде горизонтальной линии, нанесенной поверх точек.

Видно, что основная часть наблюдений тестовой выборки сконцентрирована вблизи границы гиперсферы.

Низкая точность классификации обусловлена малым объемом обучающей выборки и временной зависимостью появления аномалий в разных атрибутах. Повышение точности наблюдалось либо за счет увеличения доли обучающей выборки в наборе данных, либо за счет перемешивания набора данных.

Рассмотрим второй вариант обработки данных. С этой целью, перед разделением данных на обучающую и тестовую выборки произведем равномерное перемешивание исследуемого набора.

Эффективность второго варианта перемешивания данных может быть оценена по ROC-кривой алгоритма классификации SVDD для четырех атрибутов при соотношении обучающей выборки к тестовой ~17% приведенной на рис. 5а. Точность классификации по параметру АиС составила до 82%. На рис. 5б изображен график зависимости удаленности точек наблюдений тестовой выборки от центра гиперсферы для каждого из 20 тысяч наблюдений.

Рис. 4. Эффективность SVDD при первом варианте упорядочивания данных: а) ROC-кривая; б) зависимость удаленности точек от центра гиперсферы

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Рис. 5. Эффективность SVDD при втором варианте упорядочивания данных: а) ROC-кривая; б) зависимость удаленности точек от центра гиперсферы

Граница гиперсферы изображена в виде горизонтальной линии, нанесенной поверх точек.

По сравнению с первым вариантом упорядочивания данных представленным на рис. 4б, основная часть наблюдений, отнесенных к тестовой выборке, находится на удалении от центра гиперсферы в промежутке расстояний (0,2; 0,6), при этом концентрируясь около границы гиперсферы. Кроме того, точность классификации на перемешанных данных выросла на 7% по сравнению с вариантом упорядочивания данных. Дальнейшее повышение точности классификации возможно за счет увеличения доли обучающей выборки в наборе данных.

Классификация экспериментальных данных при маркировке наблюдений вида «мажоритарное голосование»

Рассмотрим преобразование многомерной бинарной маркировки (4) к одномерной величине «голосованием». Голосование может быть проведено по мажоритарному принципу, при котором наблюдение признается аномаль-

ным, когда подавляющее большинство атрибутов (>50%) находятся в «аномальном» состоянии:

f (У) =

+1,1 y, j > 0,5

j=1

-1,1 y, j Z 0,5

j=1

Проведем исследование точности классификации алгоритмом SVDD для первых 24000 наблюдений экспериментальных данных для четырех атрибутов, представленных в таблице 2. По правилу мажоритарного голосования, выполненного для наблюдений по четырем атрибутам, аномальным признается наблюдение, в котором количество атрибутов, находящихся в состоянии «аномальное значение атрибута» превышает 2.

Рассматривались два описанных выше варианта преобразования экспериментальных данных. На рис.6 пред-

Рис. 6. ROC-кривая алгоритма классификации SVDD при различных вариантах упорядочивания данных:

а) 1-й вариант; б) 2-й вариант

ставлены ROC-кривые алгоритма классификации SVDD при использовании подхода «мажоритарное голосование» к маркировке наблюдений и соотношении обучающей выборки к тестовой ~16%.

Как видно из рисунков, при использовании подхода «мажоритарное голосование» точность классификации по параметру АиС в случае упорядоченных во времени данных составила 35%, а в случае равномерно перемешанных данных — 69%.

Точность классификации при изменении объема

экспериментальных данных

Проведем исследование зависимости средней точности классификации анализируемых экспериментальных последовательностей от количества исследуемых атрибутов при фиксированных параметрах: количество атрибутов — 4, 5, 6, 7, 8; размер обучающей выборки — 4000; размер тестовой выборки — 20000 наблюдений. Как и прежде, рассмотрим два варианта представления данных, а классификацию экспериментальных данных будем анализировать при маркировке «полностью нормальное наблюдение».

Результаты точности классификации для различного количества атрибутов с учетом проведенной кросс-валидации представлены в таблице 3. Здесь же приведено время, затрачиваемое на обработку всей выборки во время одной итерации и количество аномальных наблюдений, выраженное в процентах.

Как видно из представленных данных, наблюдается тенденция снижения средней точности классификации алгоритма SVDD при увеличении количества атрибутов. Также с увеличением количества атрибутов процент аномальных наблюдений в выборке растет, что обусловлено выбранным подходом «полностью нормальное наблюдение».

Заключение

Исследование алгоритма SVDD показывает его эффективность при малом объеме обучающей выборки — около 17%. Точность алгоритма не превышает 96% при работе с 6 атрибутами, при равномерном перемешивании входного набора данных.

Точность к

Сравнительный анализ способов маркировки наблюдений показал преимущество подхода «полностью нормальное наблюдение» перед подходом «мажоритарное голосование». При использовании подхода «полностью нормальное наблюдение» точность классификации в случае упорядоченных во времени данных составила ~75%, а в случае равномерно перемешанных данных—82%. При использовании подхода «мажоритарное голосование» точность классификации в случае упорядоченных во времени данных составила 35%, а в случае равномерно перемешанных данных — 69%.

Найдено, что при увеличении количества атрибутов наблюдается тенденция снижения средней точности классификации как перемешанных данных, так и упорядоченных по времени. С увеличением количества атрибутов процент аномальных наблюдений в выборке растет, что приводит к уменьшению точности.

Проведенная кросс-валидация подтверждает сильную зависимость точности классификации от распределения данных, представленных в обучающей выборке, что, однако может быть устранено равномерным перемешиванием входных данных. Выигрыш по точности при равномерном перемешивании составляет 15-20%.

Максимальная точность классификации при приемлемом потреблении ресурсов достигается при формировании компактного набора входных данных, наиболее полно описывающего нормальный режим работы компьютерной системы. Объем набора входных данных зависит, в первую очередь, от конкретной реализации алгоритма SVDD и может быть увеличен либо за счет оптимизации его программной реализации, либо за счет наращивания вычислительной мощности аппаратуры, на которой выполняется обработка данных.

Литература

1. Шелухин О. И., Костин Д. В., Резник И. Ю. Мониторинг и структура аномальных паттернов системных журналов компьютерных систем // REDS: Телекоммуникационные устройства и системы. 2020. № 2. С. 3-8.

2. Водяхо А. И., Никифоров В. В. Онтологические модели для систем реального времени // Онтология проектирования. 2018. № 2. C. 240-252. Doi:10.18287/2223-9537-2018-8-2-240-252

Таблица 3

Количество атрибутов 4 5 6 7 8

Точность классификации по результатам проведенной кросс-валидации, % Данные упорядочены 80,2 82,2 84,5 82,4 75,6

Данные перемешаны 82,2 81,3 96,5 92,3 87,2

Время, затрачиваемое на обработку всей выборки, одна итерация, с 40 46 50 52 60

Процент аномальных наблюдений, % 21 25 46 50 57

3. Чернов Д. В., Сычугов А. А. Современные подходы к обеспечению информационной безопасности АСУ ТП // Известия Тульского государственного университета. Технические науки. 2018. № 10. C. 58-64.

4. Довгаль В. А., Довгаль Д. В. Роль туманных вычислений в интернете вещей // Вестник Адыгейского государственного университета. 2018. № 4. С. 205-209.

5. Utkin V. L. An imprecise extension of SVM-based machine learning models // Neurocomputing. 2019. No. 331. Pp. 18-32. Doi:10.1016/j. neucom.2018.11.053

6. Kranjcic N., Medak D., Zupan R., Rezo M. Support Vector Machine Accuracy Assessment for Extracting Green Urban Areas in Towns // Remote Sens. 2019. No. 11. 655 p. Doi:10.3390/rs11060655

7. Liu Z., Kang J., Zuo M. J., Zhao X., Qin Y., Jia L. Modeling of the safe region based on support vector data description for health assessment of wheelset bearings // Applied Mathematical Modelling. 2019. No. 73. Pp. 19-39. Doi:10.1016/j.apm.2019.03.040

8. Lv Y., Zhang J., Qin W., Yang J. Adjustment mode decision based on support vector data description and evidence theory for assembly lines // Industrial Management & Data Systems. 2018. No. 8. С. 1711-1726. Doi:10.1108/IMDS-01-2017-0014

9. Dai S., Yan J., Wang X., Zhang L. A deep one-class model for network anomaly detection // IOP Conference Series: Materials Science and Engineering. 2 Ser. "2019 International Conference on Advanced Electronic Materials, Computers and Materials Engineering, AEMCME2019 — Computer Programming and Industrial Design". Changsha: Institute of Physics Publishing, 2019. P. 042007. Doi:10.1088/1757-899X/563/4/042007

10. Копылов А.В., Середин О. С., Кушнир О. А., Грачева И. А., Ларин А. О. Устойчивое детектирование ладони на изображениях на основе комбинирования информации о цвете и форме // Известия Тульского государственного университета. Технические науки. 2016. № 11-1. С. 24-40.

11. Tan J., Fu W., Wang K., Hu W., Xue X., Shan Y. Fault diagnosis for rolling bearing based on semi-supervised clustering and support vector data description with adaptive parameter optimization and improved decision strategy //

Industrial Management & Data Systems. 2019. No. 8. Pp. 1676. Doi: 10.3390/ app9081676

12. Zhang H., Liu J., Li K., Tan H., Wang G. Gait learning based authentication for intelligent things // IEEE Transactions on Vehicular Technology. 2020. No. 4. Pp. 4450-4459. Doi: 10.1109/TVT.2020.2977418

13. Xiao Y., Gao H., Yan Y. Indirect Gaussian kernel parameter optimization for one-class SVM in fault detection // Proceedings of SPIE — The International Society for Optical Engineering. 3. Ser. "Third International Workshop on Pattern Recognition" 2018. Jinan: SPIE, 2018. P. 108280K. Doi:10.1117/12.2501776

14. Roy A., Ghosh A. K. Some tests of independence based on maximum mean discrepancy and ranks of nearest neighbors // Statistics & Probability Letters. 2020. No. 164. P. 108793. Doi:10.1016/j.spl.2020.108793

15. Wang Q., Lindsay B. Pseudo-kernel method in u-statistic variance estimation with large kernel size // Statistica Sinica. 2017. No. 3. С. 1155-1174.

16. Scholkopf B., Smola A. J., Bach F. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond // London: MIT Press, 2018. 648 p.

17. LvF., HanM. Hyperspectral image classification based on multiple reduced kernel extreme learning machine // International Journal of Machine Learning and Cybernetics. 2019. No. 12. Pp. 3397-3405. Doi:10.1007/ s13042-019-00926-5

18. Шелухин О. И., Осин А.В., Костин Д.В. Диагностика «здоровья» компьютерной сети на основе секвенциального анализа последователь-ностных паттернов // T-Comm: Телекоммуникации и транспорт. 2020. Том 14. № 2. С. 9-16. Doi:10.36724/2072-8735-2020-14-2-9-16

19. Dorenskaya E. A., Semenov Yu. A. The improved algorithm for calculation of the contextual words meaning in the text // Modern Information Technologies and IT-Education. 2019. Vol. 15. No. 4. Pp. 954-960. doi:10.25559/ SITIT0.15.201904.954-960

20. Савченко Л. В. Распознавание изолированных слов на основе взвешенного голосования дикторозависимых нейросетевых моделей // International Journal of Machine Learning and Cybernetics. 2020. № 5. С. 290296. Doi:10.17587/it.26.290-296

BINARY CLASSIFICATION OF MULTI-ATTRIBUTE TAGGED DATA ABOUT ANOMALOUS EVENTS IN COMPUTER SYSTEMS USING THE SVDD ALGORITHM

OLEG I. SHELUHIN

Moscow, Russia, sheluhln@mall.ru

DMITRIY I. RAKOVSKIY

Moscow, Russia, dlmltor1998@mall.ru

KEYWORDS: data markup, shuffllng data, completely normal observation, votlng by majority princlple, small tralnlng sample, small data.

ABSTRACT

Introduction: At present, the volume of system logs of computer systems integrated ¡nto a dlstrlbuted network infrastructure makes ¡t lm-posslble to manually check them ln real tlme. Typlcally, the structure of each log record contalns the numerlc value of the observed attribute and a correspondlng flag to mark the record as normal or abnormal. The support vector data description algorithm demonstrates hlgh classlficatlon accuracy even wlth small volumes of the tralnlng sample. A feature of the algorithm ls the work wlth a multi-attribute dataset, where each observation contalns a common classlfylng marklng. Con-

sequently, the problem arises of reducing the set of markings of the attributes of the initial data to one marking of the entire observation. Purpose: to investigate the accuracy of the binary classification of experimental data of the Support Vector Data Description algorithm with a small volume of the training sample, provided that the data are labeled for each attribute separately. Methods: a method is proposed for solving the problem of reducing the set of markings of the attributes of the initial data to one single marking of the entire observation by means of two approaches: "normal observation" and voting by the majority principle. Two types of data are considered: ordered in time and uniformly mixed. The classification accuracy was assessed by calculating the area under the ROC curves with cross-validation for a different number of attributes. Results: a comparative analysis of observation labeling methods showed the advantage of the "completely normal observation" approach over the "majority vote" approach without "weighting". It is shown that the classification accuracy on mixed data is 7% higher compared to the variant of data ordering in time. The accuracy of the algorithm was investigated for a different number of attributes using the "completely normal observation" approach. The maximum achieved classification accuracy was about 96% when working with 6 attributes, with uniform mixing of the input dataset. A further increase in the number of attributes leads to a decrease in the average classification accuracy due to an increase in the proportion of anomalous observations. It is shown that when using uniform mixing of input data, the gain in accuracy can be increased by 15-20%. Practical relevance: the algorithm demonstrates an exponential growth in the consumption of computing resources with an increase in the amount of input data. Discussion: to achieve the maximum classification accuracy with acceptable resource consumption, it is necessary to form a compact set of input data, which most fully reflects the functioning of the computer system in normal mode.

REFERENCES

1. Sheluhin O. I., Kostin D. V., Reznik I. Yu. Monitoring i struktura ano-mal'nykh patternov sistemnykh zhurnalov komp'yuternykh sistem [Monitoring and structure of abnormal patterns of system logs of computer systems]. REDS: Telecommunication devices and systems. 2020. No. 2. Pp. 3-8. (In Rus)

2. Vodyakho A. I., Nikiforov V. V. Ontology models for real time systems. Ontologiya proektirovaniya [Design Ontology]. 2018. No. 2. Pp. 240-252. (In Rus). Doi:10.18287/2223-9537-2018-8-2-240-252

3. Chernov D. V., Sychugov A. A. A modern approaches to information security of automated process control systems. Izvestiya Tul'sko-go gosudarstvennogo universiteta [Izvestiya Tula State University]. 2018. No. 10. Pp. 58-64. (in Rus)

4. Dovgal V. A., Dovgal D. V. Rol' tumannykh vychisleniy v internete veshchey [Role of fog computing in the internet of things]. Vestnik Adygeyskogo gosudarstvennogo universiteta [The Bulletin of the Adyghe State University: Internet Scientific Journal]. 2018. No 4. Pp. 205-209. (In Rus)

5. Utkin V.L. An imprecise extension of SVM-based machine learning models. Neurocomputing. 2019. No. 331. Pp. 18-32. Doi:10.1016/j.

neucom.2018.11.053

6. Kranjcic N., Medak D., Zupan R., Rezo M. Support Vector Machine Accuracy Assessment for Extracting Green Urban Areas in Towns. Remote Sens. 2019. No. 11. 655 p. Doi:10.3390/rs11060655

7. Liu Z., Kang J., Zuo M. J., Zhao X., Qin Y., Jia L. Modeling of the safe region based on support vector data description for health assessment of wheelset bearings. Applied Mathematical Modelling. 2019. No. 73. Pp. 19-39. Doi:10.1016/j.apm.2019.03.040

8. Lv Y., Zhang J., Qin W., Yang J. Adjustment mode decision based on support vector data description and evidence theory for assembly lines. Industrial Management & Data Systems. 2018. No 8. Pp. 1711-1726. Doi:10.1108/IMDS-01-2017-0014

9. Dai S., Yan J., Wang X., Zhang L. A deep one-class model for network anomaly detection. IOP Conference Series: Materials Science and Engineering. 2. Ser. "2019 International Conference on Advanced Electronic Materials, Computers and Materials Engineering, AEMCME2019 - Computer Programming and Industrial Design". Changsha: Institute of Physics Publishing, 2019. Pp. 042007. Doi:10.1088/1757-899X/563/4/042007

10. Kopylov A. V., Seredin O. S., Kushnir O. A., Gracheva I. A., Lar-in A. O. Robust palm detection based on combining of color and shape information. Izvestiya Tul'skogo gosudarstvennogo universiteta [Izvestiya Tula State University]. 2016. No. 11-1. Pp. 24-40. (In Rus)

11. Tan J., Fu W., Wang K., Hu W., Xue X., Shan Y. Fault diagnosis for rolling bearing based on semi-supervised clustering and support vector data description with adaptive parameter optimization and improved decision strategy. Industrial Management & Data Systems. 2019. No. 8. Pp. 1676. Doi: 10.3390/app9081676

12. Zhang H., Liu J., Li K., Tan H., Wang G. Gait learning based authentication for intelligent things. IEEE Transactions on Vehicular Technology. 2020. No. 4. Pp. 4450-4459. Doi: 10.1109/TVT.2020.2977418

13. Xiao Y., Gao H., Yan Y. Indirect Gaussian kernel parameter optimization for one-class SVM in fault detection. Proceedings of SPIE-The International Society for Optical Engineering. 3. Ser. "Third International Workshop on Pattern Recognition" 2018. Jinan: SPIE, 2018. Pp. 108280K. Doi:10.1117/12.2501776

14. Roy A., Ghosh A. K. Some tests of independence based on maximum mean discrepancy and ranks of nearest neighbors. Statistics & Probability Letters. 2020. No 164. Pp. 108793. Doi:10.1016/j. spl.2020.108793

15. Wang Q., Lindsay B. Pseudo-kernel method in u-statistic variance estimation with large kernel size. Statistica Sinica. 2017. No. 3. Pp. 1155-1174.

16. Scholkopf B., Smola A. J., Bach F. Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond. MIT Press. 2018. 648 p.

17. Lv F., Han M. Hyperspectral image classification based on multiple reduced kernel extreme learning machine. International Journal of Machine Learning and Cybernetics. 2019. No 12. Pp. 3397-3405. Doi:10.1007/s13042-019-00926-5

18. Sheluhin O. I., Osin A. V., Kostin D. V. Diagnostika "zdorov'ya" komp'yuternoj seti na osnove sekvencial'nogo analiza posledova-

tel'nostnyh patternov [Health monitoring of a computer network based on sequential analysis of serial pattern]. T-Comm. 2020. Vol. 14. No. 2. Pp. 9-16. (In Rus). Doi:10.36724/2072-8735-2020-14-2-9-16

19. Dorenskaya E. A., Semenov Yu. A. The improved algorithm for calculation of the contextual words meaning in the text. Modern Information Technologies and IT-Education. 2019. No. 4. Pp. 954-960. Doi:10.25559/SITIT0.15.201904.954-960

20. Savchenko L. V. Raspoznavanie izolirovannykh slov na osnove vz-veshennogo golosovaniya diktorozavisimykh neyrosetevykh modeley [Isolated words recognition based on weighted voting of speaker-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

dependent neural network acoustic models]. International Journal of Machine Learning and Cybernetics. 2020. No. 5. Pp. 290-296. Doi:10.17587/it.26.290-296 (In Rus)

INFORMATION ABOUT AUTHORS:

Sheluhin O. I., PhD, Full Professor, Head of Department Information Security of the Moscow Technical University of Communications and Informatics;

Rakovskiy D.I., Moscow Technical University of Communication and Informatics.

For citation: Sheluhln O. I., Rakovskly D.I. Blnary classlficatlon of multl-attrlbute tagged data about anomalous events ln computer systems uslng the SVDD algorlthm. H&ES Research. 2021. Vol. 13. No. 2. Pp. 74-84. Dol: 10.36724/2409-5419-2021-13-2-74-84 (In Rus)

НПЦИРС

Научно-производственный центр Информационных региональных систем

► npcirs.ru

Закрытое акционерное общество "Научно-производственный центр информационных региональных систем" является предприятием, разрабатывающим автоматизированные системы специального назначения.

Основными направлениями нашей деятельности являются:

- проектирование, создание и ремонт автомат из ир о ванны* систем управления и ил составных частей, систем обработки данных, программного обеспечения, информационных систем для государственных организаций и коммерческих компаний;

■ разработка общесистемного и прикладного ПО. внедрение и сопровождение информационных систем;

■ защита информации в системах управления, локальных вычислительных сетях, программно-аппаратных комплексах, телекоммуникационных системах;

- производство и поставка технических средств, в офисном и защищенном исполнении;

■ создание, внедрение и сопровождение оперативных и учетных систем любой сложности;

■ анализ автоматизированных систем на предмет разработки к ним классификаторов и нормативно-справочной информации;

- разработка проектов и создание глобальных, корпоративных, локальных теле коммуникационных систем и структурированных кабельных сетей.

Создаваемые предприятием средства (комплексы средств автоматизации, программные и программно-информационные комплексы, информационные изделия) эксплуатируются в различных государственных органах: в органах военного управления Министерства обороны РФ, а также на предприятиях, в организациях, в органах местного самоуправления субъектов РФ, занимающихся воинским учетом.

Научные исследования в сфере КНСИ позволяют нам качественно анализировать автоматизированные системы и разрабатывать к ним классификаторы и нормативно-справочную информацию.

Телефон: 8(800)100-40-90 Е- ma ¡ I: a d mi nistra 1ог@>п рс< rs.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.