Научная статья на тему 'Диагностика "здоровья" компьютерной сети на основе секвенциального анализа последовательностных паттернов'

Диагностика "здоровья" компьютерной сети на основе секвенциального анализа последовательностных паттернов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
139
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНОМАЛЬНЫЕ СОСТОЯНИЯ / КОМПЬЮТЕРНОЙ СЕТИ / ПРОГНОЗИРОВАНИЕ / МАШИННОЕ ОБУЧЕНИЕ / ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ / МОНИТОРИНГ СИСТЕМНЫХ ПОКАЗАТЕЛЕЙ / КЛАСТЕРИЗАЦИЯ / СЕКВЕНЦИАЛЬНЫЙ АНАЛИЗ / ПАТТЕРН / ANOMALY STATES / COMPUTER NETWORK / FORECASTING / MACHINE LEARNING / DATA MINING / MONITORING SYSTEM METRICS / CLUSTERING / SEQUENTIAL ANALYSIS / PATTERN

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелухин Олег Иванович, Осин Андрей Владимирович, Костин Денис Владимирович

Для решения задач диагностики "здоровья" компьютерной сети (КС) предложено, использовать методы и алгоритмы статистической обработки данных, машинного обучения и интеллектуального анализа "прошлых" данных полученных путем изучения истории поведения сети "в прошлом" и формализации этой информации в виде некоторых шаблонов (паттернов). В качестве метода прогнозирования аномальных состояний КС предложено использовать метод выбора из полученных закономерностей наиболее приемлемой с точки зрения "здоровья сети" путем использования аппарата секвенциального анализа сформированных последовательностных паттернов. Рассмотрены этапы процесса прогнозирования на основе последовательностных паттернов и структура реализованного алгоритма вычисления прогноза текущего состояния КС. В качестве целевой функции оптимизации гиперпараметров алгоритма прогнозирования предложено использовать функцию Парето. В качестве лучшего набора параметров выбирается тот, при котором достигается максимальное значение введенной целевой функции. В качестве системных показателей, характеризующих "здоровье компьютерной сети" используется уровень обслуживания (Service Level Objectives, SLO), и соглашение об уровне предоставляемого сервиса (Service Level Agreement, SLA). На конкретном примере рассмотрена визуализация процесса кластеризации состояний КС с использованием алгоритма k-means и алгоритма понижения размерности TSNE. Предложено оценивать "здоровье сети" по близости текущей оценки прогноза состояния КС к сформированной в результате кластеризации области аномальных состояний в виде расстояния до ближайших центров кластеров, на порядковой шкале от 1 до 5. Предложено характеризовать "состояние здоровья" КС с помощью "Зеленого", "Желтого" и "Красного" уровней аномальности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шелухин Олег Иванович, Осин Андрей Владимирович, Костин Денис Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Health monitoring of a computer network based on sequential analysis of serial pattern

To solve the problems of monitoring the "health" of a computer network, it is proposed to use the methods and algorithms of statistical data processing, machine learning, and the intellectual analysis of historical data obtained by studying the behavior of the network in the past to extract patterns. We proposed to use the method of selecting the most appropriate pattern for "network health" to predict anomalous events in a computer network by using sequential analysis of extracted series of patterns. The stages of forecasting based on sequential patterns and the structure of the implemented algorithm for calculating the forecast of the current state of a computer system are considered in the article. It is proposed to use the Pareto function as a target function for optimizing the hyperparameters of the forecasting algorithm. The best set of parameters is determined by the maximum value of the target function. Service Level Objectives and Service Level Agreement are used as system indicators characterizing the "health of the computer network". A visualization of the clustering of states of a computer network is considered using a specific example using the k-means algorithm and the dimensional reduction algorithm TSNE. It is proposed to evaluate the "network health" as the distance of the forecast of the state of the computer network to the region of anomalous states formed as a result of clustering in the form of the distance to the nearest cluster centers, on an ordinal scale from 1 to 5. The paper proposes to evaluate the "health of the network using the "Green", "Yellow" and "Red" levels.

Текст научной работы на тему «Диагностика "здоровья" компьютерной сети на основе секвенциального анализа последовательностных паттернов»

ДИАГНОСТИКА "ЗДОРОВЬЯ" КОМПЬЮТЕРНОЙ СЕТИ НА ОСНОВЕ СЕКВЕНЦИАЛЬНОГО АНАЛИЗА ПОСЛЕДОВАТЕЛЬНОСТНЫХ ПАТТЕРНОВ

Шелухин Олег Иванович, DOI: 10.36724/2072-8735-2020-14-2-9-16

Московский технический университет связи и информатики, Москва, Россия, sheluhin@mail.ru

Осин Андрей Владимирович,

Московский технический университет связи и информатики, Москва, Россия, osin_a_v@mail.ru

Костин Денис Владимирович,

Московский технический университет связи и информатики, Москва, Россия, d.v.kostin@mail.ru

Ключевые слова: аномальные состояния, компьютерной сети, прогнозирование, машинное обучение, интеллектуального анализа данных, мониторинг системных показателей, кластеризация, секвенциальный анализ, паттерн.

Для решения задач диагностики "здоровья" компьютерной сети (КС) предложено, использовать методы и алгоритмы статистической обработки данных, машинного обучения и интеллектуального анализа "прошлых" данных полученных путем изучения истории поведения сети "в прошлом" и формализации этой информации в виде некоторых шаблонов (паттернов). В качестве метода прогнозирования аномальных состояний КС предложено использовать метод выбора из полученных закономерностей наиболее приемлемой с точки зрения "здоровья сети" путем использования аппарата секвенциального анализа сформированных последовательностных паттернов. Рассмотрены этапы процесса прогнозирования на основе последовательностных паттернов и структура реализованного алгоритма вычисления прогноза текущего состояния КС. В качестве целевой функции оптимизации гиперпараметров алгоритма прогнозирования предложено использовать функцию Парето. В качестве лучшего набора параметров выбирается тот, при котором достигается максимальное значение введенной целевой функции. В качестве системных показателей, характеризующих "здоровье компьютерной сети" используется уровень обслуживания (Service Level Objectives, SLO), и соглашение об уровне предоставляемого сервиса (Service Level Agreement, SLA). На конкретном примере рассмотрена визуализация процесса кластеризации состояний КС с использованием алгоритма k-means и алгоритма понижения размерности - TSNE. Предложено оценивать "здоровье сети" по близости текущей оценки прогноза состояния КС к сформированной в результате кластеризации области аномальных состояний в виде расстояния до ближайших центров кластеров, на порядковой шкале от 1 до 5. Предложено характеризовать "состояние здоровья" КС с помощью "Зеленого", "Желтого" и "Красного" уровней аномальности.

Информация об авторах:

Шелухин Олег Иванович, д.т.н., МТУСИ, Москва, Россия Осин Андрей Владимирович, к.т.н., МТУСИ, Москва, Россия Костин Денис Владимирович, аспирант МТУСИ, Москва, Россия

Для цитирования:

Шелухин О.И., Осин А.В., Костин Д.В. Диагностика "здоровья" компьютерной сети на основе секвенциального анализа последовательностных паттернов // T-Comm: Телекоммуникации и транспорт. 2020. Том 14. №2. С. 9-16.

For citation:

Sheluhin O.I., Osin A.V., Kostin D.V. (2020) Health monitoring of a computer network based on sequential analysis of serial pattern. T-Comm, vol. 14, no.2, pр. 9-16. (in Russian)

7TT

Постановка задачи

Обнаружение аномалий играет важную роль в управлении современными крупномасштабными распределенными Компьютерными системами [1,2,3]- Системные журналы, в которых записывается информация о времени рабо ты системы, широко используются для обнаружения аномалий [4,5]. Тем не менее, возрастающий масштаб и сложность современных систем приводят к объему логов, что делает невозможным ручную проверку.

Обнаружение аномального поведения системы, играет важную роль в управлении инцидентами крупномасштабных систем. Своевременное обнаружение аномалий позволяет разработчикам системы (или операторам) быстро выявлять проблемы и немедленно их устранять, тем самым сокращая время простоя системы.

Одной из важных задач анализа данных является выделение закономерностей [6,71- Для последовательных данных эту задачу решасе в частности такая область интеллектуального анализа данных (data mining) как секвенциальный анализ или анализ последовательностиых паттернов (sequential pattem mining) [8,9,10], позволяющих выявлять часто встречающиеся участки в строках и в последовательностях наборов элементов.

Добыча поеледовательноетных паттернов является частью интеллектуального анализа данных, связанная с поиском статистически значимых шаблонов (паттернов) в данных, где значения можно представить в виде последовательности [11]. Последовательный анализ паттернов состоит из обнаружении интересных подпоследовательностей в наборе последовательностей, где значимость той или иной подпоследовательности может быть измерена с точки зрения различных критериев, таких как частота появления, длина и др. Последовательный анализ шаблонов имеет множество реальных применений, поскольку данные кодируются в виде последовательностей во многих областях, таких как биоинформатика, электронное обучение, анализ корзины, анализ текста и анализ кликов на веб-страницах [12,13.14 ].

В [15] рассмотрена общая модель последовательного интеллектуального анализа с прогрессивной базой данных. Данные в базе данных могут быть статическими, вставленными или удаленными. В работе предлагается алгоритм прогрессивного установления последовательных паттернов (Progressive mining of Sequential pAtterns - Pisa), для постепенного обнаружения последовательных паттернов в определенный период интереса (period of interest - POl). POI -это скользящее окно, непрерывно изменяющееся с течением времени. Алгоритм Pisa использует последовательное дерево для эффективного обслуживания последних последовательностей данных, обнаружения полного набора актуальных последовательные шаблоны и, соответственно, удаляющее устаревшие данные и шаблоны.

В [ 16| рассмотрен последовательный анализ шаблонов на прогрессивных базах данных, в котором на «интересующем периоде» постепенно обнаруживаются последовательные закономерности. «Интересующий период» - это скользящее окно, непрерывно продвигающееся с течением времени. При изменении фокуса скользящего окна в интересующий набор данных добавляются новые элементы, а устаревшие элементы удаляются. В статье предложен новый подход, с использованием прогрессивного дерева майнинга.

В [17] предложен алгоритм, использующий для каждой возможной комбинации элементов или набора элементов понятие «процент участия» вместо частоты появления. Концепция процента участия рассчитывается на основе минимального порога поддержки для каждого установленного пункта. В э статье представлен алгоритм MS DirApp, который расшифровывается как Multiple Support Direct Appending, обнаруживающий последовательные шаблоны, рассматривая различные множественные минимальные пороговые значения поддержки для каждой возможной комбинации элементов или наборов элементов.

Основная идея прогнозирования «здоровья» компьютерной сети (КС) рассмотренная в статье заключается в изучении исторических данных о поведении сети «в прошлом» и формализации этой информации в виде некоторых шаблонов (паттернов).

Особенности задачи прогнозирования здоровья сети

с использованием последовательности ых паттернов

На основании полученной информации о типовых ситуациях в поведении КС «в прошлом» можно осуществлять прогнозирование появления того или иного паттерна в ближайшем будущем. Наиболее распространенный способ описание закономерностей - это использование однозначной функции

/ ■. X , (1)

значениями которой являются значения описываемой неременной х.

При практической проверке такой закономерности могут возникнуть ситуации, когда при одном и том же значении аргумента появляются результаты опытов с различными значениями функции, так что применение однозначных закономерностей основано на принятии ряда дополнительных гипотез н ограничений. Альтернативой использования однозначной функции подобного соответствия вида (1) является использование многозначных отображений, для которых любой набор результатов опытов, представленных в виде таблицы

A^UW.U.iW^UW^A-xY}, U)

можно рассматривать, как график точечно множественного отображения.

Здесь XxY означает декартово произведение двух множеств X и Y, элементами которого являются все возможные упорядоченные пары «входных» -.v, и «выходных» -^элементов исходных множеств.

Под исходными входными данными понимается вся доступная информация о системе к текущему моменту времени. Из этой информации должна быть сформирована таблица данных, в которой один столбец будет играть роль функции, или предсказываемого параметра, а остальные столбцы или поля, как мы их будем называть, роль аргументов. Множество знлчештй пони (Ьункчпш обозначим h.

^^Г ЭЛЕКТРОНИКА. РАДИОТЕХНИКА

пых» данных полученных в результате опытов будет означать построение многозначной закономерности. В этом случае конечный результат прогнозирования состояния сети будет состоять не в построении закономерности вида (1), а в выборе из полученных закономерностей наиболее приемлемой с точки зрения «здоровья сети». Реализация этой идеи

7ТТ

Приводит к Следующей последовательности этапов построения прогноза.

1. Формирование таблицы исходных данных.

2. Получение новых значений неходкой информации и перевод их в таблицу исходных данных.

3. Выбор наилучших многозначных закономерностей.

4. Построение результирующего значения прогноза.

Методология сравнения многозначных закономерностей

После достижения заданного уровня надежности закономерность сравнивается с другими по точности, но не исходной точности, а точности, соответствующей достигнутому уровню надежности. Гели достигнуть нужного уровня надежности не удается, то закономерность признается неудовлетворительной и в сравнении больше не участвует.

Найденные закономерности представляются в виде графиков, заданных конечным набором точек. Для дальнейшего использования, например, в прогнозировании, такое представление нужно дополнять экстраполяцией.

Будем предполагать, что исходным материалом для построения многозначной закономерности служит набор результатов опытов (2), где X с X,х,..хХк ■

Искомая многозначная закономерность определяется указанием непустого подмножества аргументов / с. {!,...,/л} и представляет собой мультимножество )'./,//[. где

ц\Х(1)*У N > (3)

иде х(1) -Л", N ~ множество натуральных чисел.

¡и!

Значение д{д',у} трактуется, как надежность точки (х, у) закономерности {А'х У,1,и\ и показывает сколько раз пара (х, у),

х/еА'(/) у£У встречалась в наборе данных д .

¡шХЦ)

Надежность всей закономерности при значении аргумента хеХ(1) считается равной сумме V у) и прини-

JKÏ

мается равной величине

Sqf[XxY,f,fi} = min Y^(x,y)-

xtX(l)

(4)

Точностью закономерности {А" х У, /,//{ в точке хеХ(1) будем называть мощность множества {^е Г|//{л',_у)>0}, которую будем обозначать символом сап/{у е Г | /Д л\ _у) > 0} •

Точность всей закономерности \х хсчитается равной

Ac(XxY, / ,//) = шах card {у е Y | /Л'л\ у) > 0[ ■

(5)

При построении методологии сравнения необходимо предварительно отобрать закономерности, достигающие заданного уровня надежности, а потом оставшиеся закономерности сравнивать по точности. Однако, при: таком способе сравнения закономерности с большим количеством ар1у-ментов будут иметь, вообще говоря, меньшую надежность, чем закономерности с небольшим количеством аргументов.

Если закономерность имеет недостаточный уровень надежности, то для решения проблемы в |18] предложено применять к пей процедуру замены множества значений аргументов па сеточное множество с меньшим количеством значений (квантованию). Подобная процедура квантования приводит к увеличению надежности закономерности, однако может понизить ее точность.

Для того чтобы такая процедура проводилась плавно, с постепенным изменением надежности, нужно задать семейство таких сеток па множестве значений аргументов.

Выбор наилучших многозначных закономерностей

Выбор закономерности - это выбор непустого подмножества в множестве полей api у ментов. Если таких полей N, то количество непустых подмножеств равно 2Л -1. При небольших значения N можно перебирать все подмножества, при больших значениях перебор нужно ограничить. Поэтому для работы алгоритма нужно указать возможные значения для подмножеств множества полей аргументов. Дня краткости эти подмножества будут называться масками закономерности, а множество возможных масок обозначим Mask.

Для каждой маски M е Mask вычисляется вектор последних значений аргументов Ш(Г,М)т Х{М), где Т— это последний момент времени обновления информации в данных.

Вектор Ш(Т, М) будем называть шаблоном (паттерном).

Для каждой допустимой маски формируется статистически й с п и с о к Ski!(T,M)t который рассчитывается следующим образом:

Для каждого допустимого значения времени t проверяется условие Ш(Г,М) = Щ(Т,М) ■ Если условие выполнено, то в список результатов опыта (2) добавляется пара (/,/(/)), где /(*)-значение поля функции.

На следующем этапе вычисляется надежность патгерна Ш(Т, М), которая равна следующей величине

S(T,M)= X f"' (6)

<!,/<<))«.W(7\M>

Здесь y,Q<y<\ - это коэффициент учитывающий «старение данных» и который дает возможность учитывать совпадения паттернов в зависимости от удаленности от последнего момента времени.

Коэффициент у является параметром метода.

В случае когда параметр у — \ соотношение (6) принимает вид

S(T,M)= I (/.АО)* (6а)

(1.Г-0

Задается еще один параметр метода - уровень надежности S, который оценивается соотношением (4).

Если S(T,M)>S, то данный шаблон участвует в прогнозировании. Если неравенство Fie выполнено, выполняется последовательное синхронное огрубление всех полей аргументов. входящих в маску, до тех пор, пока ограничение по надёжности не будет выполнено. Огрубление аргументов выполняется с помощью операции квантования. Количество уровней и шаг квантования определяются свойствами огрубляемых процессов.

Если в результате процесса огрубления офаничение но надёжности так и не выполнено, то данный шаблон не участвует в построении прогноза.

При описанном способе отбора масок используется надежность только одного значения закономерности, а именно того значения, которое реализовалось в текущий момент времени и может использоваться для прогнозирования.

Обозначим множество масок, оставшееся после такого отбора, символом 5Мшк{Т) •

Пример наложения маски длиной Мм = 5 на последовательность квантованных величин {«.}и текущею шаблона Ш(кМ), иллюстрируется на рис. 1.

Текущее "Историческое" значение значение шаблона прогноза

г///////// /////s;

а2 а5 аЗ al X а4 аЗ al aj al а4 аЗ а2

s///////////////. i

4-Т-7

1-М М I 1+1

Рис. 1. Процесс наложения маски на одномерный временной ряд квантованных признаков

Результатом наложения шаблона на матрицу квантования является подсчёт количества возможных вариантов сочетания текущих номеров уровней квантования в каждом из шаблонов при перемещении матрицы шаблонов назад "в прошлое".

Пост роение результирующего значения прогноза

После окончания отбора паттернов формируется некоторое множество паттернов со статистикой

{Ш(Т,М),$1а0, М),М е 8Махк(Т)} ■ (7)

Для каждого паттерна считается статистика появления значений поля функции «е/7* с учетом коэффициента ¿>,0<£<1, характеризующего «старение» данных , по формуле

0{Т,М,и)ш £ 8™-

Функция 0(Т, М,и) - это аналог функции кратности при описании многозначной закономерности, но с учетом удаленности анализируемого фрагмента по времени « в прошлом» от текущего момента времени.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На следующем этапе производится нормировка

&Т,М,и) . (9)

q(T, M,и) -

£0(7\М,и)

Strong(T, M)-{не F | q(T, M,и) > р max q(T, M, v)} ■ С 0)

Остальные статистики обнуляются.

Формирование значения окончательного прогноза

Вышеизложенное показывает, что исходная информация для выработки окончательного прогноза имеет следующий вид:

• Надежность паттернов (масок) S(T,M),MeSMbsk(T).

• Статистики Q(T,M,u), и s .Strong(T, Ai). Л/ е SMask(T) ■

Результирующую статистику можно сформировать по

формуле:

Resutt(7\«) =£q(T,M,u)x[Strong(T,Aî)](m) 1 <11 ^

Здесь символом x[A\(it) обозначена характеристическая функция множества Ас F, Г t,«e А

F '

О ,ие-

I А

В зависимости от типа значения прогноза можно сформировать его значение. Например прогноз можно положить равным функции Result (Г,») или предварительно нормировать эту функцию.

Алгоритм прогнозированн я

Этапы промежуточных вычислений на основе последова-тельностных натгернов представлены на рис. 2.

ПАТТЕРНЫ

@ (?)... (к) @\0).@ @ ««НИ

... |Гогюсованиеi| Голосованиек] Голосование 1| голосования

КВАНТОВАНИИ

уровень

Полученные статистики 0(Т,М,и) обрабатываются с целью выделения наиболее «сильных» значений . С этой целью вводится параметр «силы» - Бп^ощ. Для этого при анализе оставляются только те значения 0(Т, А/,и), которые обеспечивают максимум соотношения (10) с точностью до параметра /?, о < /? < I ■

Вычисление производится по формуле

Рис. 2. Этапы процесса прогнозирования на основе последовательностиых паттернов

Алгоритм вычисления прогноза имеет вид:

Шаг I. Задаётся вариант маски М1.

Шаг 2. Для каждой Маски задаётся вариант шаблона Ш]. ] = 1..Х\{2мМ-\).

Шаг 2, Для выбранной маски каждого шаблона Щ. осуществляется подсчёт числа событий, при которых после шаблона Ш1 следует уровень квантования

Шаг 4. Для каждого ¡-го шаблона находится:

МахИ{Ш .,!\! + \,а^=\Л ■

Шаг 5. Находится наиболее вероятное значения прогнозируемого уровня квантования

Шаг 6 . Анализируются все варианты масок и принимается реи/еиис о наиболее вероятном прогнозе значения уровня квантования на шаге t+1

а, +1 = а, maxN{UIpt\ t+l,a,},i = СK,j = 1 ...К!(2'"М-!)• Для характеристики числа совпадений текущего шаблона Ш с данными вектора квантованных величин Л™ при смещении маски на 1 шаг (одну ячейку) "в прошлое" вводится понятие уровня надёжности шаблона. Надёжность текущего шаблона щ в текущей момент времени вычисляется по следующему правилу Sl{m,) = card{t-l,f\, где card{t~l,f} — общее количество (мощность) элементов конечного множества пар сочетаний значений текущих шаблонов и исторических прогнозов (ИП); / — характеризует

шаг сдвига маски "в прошлое", при котором значение текущего находится шаблон щ ;/— историческое значение вектора квантования f** в момент времени {t-l}-

Если 5'¿Ш )>S t то данный шаблон участвует в прогнозировании.

Выбор пороговой величины Smp является важным этапом и состоит из нескольких шагов:

]) осуществляется фильтрация вычисленных значений надёжности S-,.

2) полученные нары максимальных значений отбраковываются путём сравнения с допустимым приращением

3) путём голосования определяется искомый порог

с

По каждому шаблону вычисляется «количество» появления каждого исхода и вычисляется итоговый прогноз одним из следующих вариантов:

сумма обработанных статистик (порог ß) с последующей нормировкой;

максимальные из суммы статистик по шаблону (порог а);

взвешенная сумма статистик с весами равными надёжности статистики:

взвешенная сумма статистик с выбором максимальных и последующей нормировкой,

В качестве целевой функции оптимизации гиперпараметров алгоритма прогнозирования предложено использовать функцию Пар ею:

(12)

t>>

Ы fe(t--JJ)

где а - настраиваемый коэффициент, определяющий соотношений числа прогнозов и их точности. В общем случае данный коэффициент обратно пропорционален числу уровней квантования прогнозируемой функции; ß - коэффициент значимости числа прогнозов, формируемых по уровню квантования п\ q - относительное число прогнозов к общему числу значений функции для п-vо уровня квантования; у:

- коэффициент значимости точности прогнозов, выдаваемых по уровню квантования п; ]1 — точность прогнозирования

функции для уровня квантования п.

F = тах{а£ ДС, + min(у,Н,>}»

В качестве наилучшего набора параметров выбирается тот, который даёт наилучшее значение целевой функции (12). После этого оптимизация считается выполненной и алгоритм с найденным набором параметров может быть запушен.

Этап кластеризации

Состояние КС предложено оценивать по близости текущей оценки прогноза состояния сети к сформированной в результате кластеризации области аномальных состояний.

При помощи кластерного анализа можно разделить большой набор данных полученных в результате прогноза на кластеры, т. е. группы похожих объектов, что позволяет значительно сократить объем данных и облегчить последующую работу с ними. При решении задачи кластеризации, в отличие от классификации, одним из первых этапов является определение зависимой переменной. Количество кластеров может быть не задано изначально и меняться в зависимости от необходимости. В анализируемом случае множество атрибутов задается, как и в задаче классификации 116] в виде вектора / = {/,,/,.....где / исследуемый атрибут, характеризующийся набором параметров (уровней квантования) / = {х,,х,.....л:я}- Каждый параметр .^.принимает значение из некоторого множества хЬ = {1^,^,...}- Для

решения задачи кластеризации необходимо построить множество с = {с,,сг,,«;с }> гле - кластер, содержащий похожие друг на друга атрибуты;

с* = 1 Щ 1,1,, е /и ¿(¡р1р) < а) ■ (13)

где ~ мера близости между атрибутами ; а —задан-

ное расстояние между атрибутами для включения их в один кластер.

В качестве простого метода кластеризации рассмотрим метод к средних [191, в котором количество кластеров задано заранее. Необходимо разделить данные на кластеры таким образом, чтобы минимизировать полную сумму квадратов расстояния от данной точки до центра кластера, к которому она принадлежит. С этой целью часто используют итеративный алгоритм:

1. Выбор к произвольных исходных центров

С = {еД, (И)

Еде

. _

IX

У=1

, а м-{т.) - множество данных;

гДе щ =

V

2. Разбиение всех объектов на к групп, наиболее близких к одному из центров и = },

1 при d^mrci)- пппd(mrc^)

Оиначе

3. Вычисление новых центров кластеров, пока центры не перестанут меняться, то есть пока решение не будет удовлетворять целевой функции

ы ;=]

В качестве примера рассмотрим результаты кластеризации результатов прогнозирования с помощью алгоритмов

7ТЛ

k-means и алгоритма понижения размерности - TSNE, позволяющего снизить размерность N-мерного пространства до заданного (в нашем случае 2D пространства) для отображения данных прогноза на плоскости.

В качестве системных показателей, характеризующих «здоровье компьютерной сети» используется уровень обслуживания (Service Level Objectives, SLO), и соглашение об уровне предоставляемого сервиса SLA (Service Level Agreementj рассматриваемой КС. Считается, что система нарушила цели уровня обслуживания, если введенный показатель превысил порог. Для исследуемой системы SLO было задано в следующем виде: задержка сигнала в сети (signal delay) - менее 5 миллисекунд; время реакции сервера (server responsedelay) — менее 1.5 секунды; отброшенные сетевые пакеты (network_packetsdropped) - количество отброшенные входящих или исходящих сетевых пакетов больше 0; задержка дисковых операций (diskoperationdelay) -среднее время, затраченное на операции чтения или записи, превышает 2 секунды.

Если ни одна из целей уровня обслуживания не была нарушена, то состояние системы считается нормальным -normal.

В качестве атрибутов характеризующих состояния КС были выбраны: serverresponsetimetotal - время ответа сервера на запрос; netvvorkoutdropped - количество отброшенных сетевых пакетов; pingavg — среднее время ответа на запрос (при отправке трех запросов); network inpackets -количество полученных пакетов; disk iowriteawait - среднее время запросов на запись, выданных на обслуживаемое устройство.

Результаты кластеризации представлены на рис. 3.

На рисунке За отображена принадлежность текущей точки прогноза к одному из кластеров, а также евклидово расстояние до центра каждого из пяти кластеров, характеризующих состояние КС. На рисунке Зов виде кластеров показано отображение текущего состояния КС на этапе обучения «в прошлом» и зекущее состояние в виде точку (выделена черная точка) в текущем времени. На рисунке 3 в пока-

зано деление области состояний КС па кластеры, при условии, что каждая точка имеет отношение только к одному кластеру (как в прошлом, так и в настоящем). Количество кластеров в рассматриваемом случае равно 5.

Оценка «аномальности» КС

Количественно оценивать «здоровье сети» можно по близости текущей оценки прогноза /. состояния КС в виде

расстояния р(р) до ближайших центров кластеров, помеченных символом р. Данные расстояния могут быть определены на порядковой шкале значениями от I до 5. Тогда степень критичности прогнозируемых аномальных состояний КС может быть описана соотношением

сгЩса1(1)) = сгШса] (р) о ■шп/>(/>,)» (16)

где сгШса1(р)е{ 1,...,5} - степень критичности р - атрибутов определяемая экспертным путем; о — операция на порядковых шкалах.

Порядковая шкала отражает более высокий уровень измерений, учитывающий, к какой категории принадлежит объект и в каком отношении он находится с другими объектами.

Общий уровень «здоровья» КС С(и) может быть определен из соотношения

С(и) = ^сгШса1(1,)- О7)

(=1

В результате решение об аномальности прогнозируемого состояния КС может приниматься но уровню С(и). Уровень безопасности может быть представлен в цвете путем определения значения показателя «цвет инцидентов» ЦИ:

ЦИ =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

зеленый,если С(и)< С"""™" (и) жетый,еслиСхмт*(10 < С(и) < С***™" (к) красный,если С (и) < С"™""" (и)

(18)

(Б) По меткам:

(А) Отнесение к кластерам:

0.775 > tluSterO 0.129 -> clusterl О. -14 Б -> duster? 0 Ш-> Cluster3 1.0И ■» clusten

cluiterO

[ dusttrl ]

' ¿Д.

cluster?

¿Jcjust*r3 /

-з -г -1

-06 -04

-0-2 00 01 0-4 ое

(В) По кластерам:

0 4

о.г 0.0 -о.г

-0.4'

ЕсКлвгЗ] Л .

_. чу,

-0.6 -0.4

signaijJelay

se rve r_res ponse_de I ay

packets dropped

normal

diskdelay

I— cluster4 cluster3 I cluster 2 clusterl ^ dtisterO

Рис, 3. Результаты кластеризации результатов прогнозирования состояний КС

Здесь сж"°""''(и) и С"ртм'*{и) пороговые уровни оцениваемые на этапе кластеризации. «Зеленый» уровень свидетельствует о отсутствии в прогнозе аномалии, что свидетельствует о нормальном режиме работы КС. «Красный» уровень свидетельствует о возможном появлении в прогнозе аномального состояния КС, является неприемлемым и требует немедленного реагирования. «Желтый» уровень ано-мачьности не является приемлемым, однако не является и критичным.

Выводы

В процессе выполнения работы на основе мониторинга системных показателей, поведения пользователей и анализа системных журналов, а также прогнозирование появления аномальных состояний разработаны алгоритмы обнаружения и прогнозирования аномальных состояний, возникающих в КС. Предложена концепция формализации качества функционирования компьютерной сети под названием "Здоровье КС", а также разработаны алгоритмы, позволяющие выполнять диагностику и прогнозировать «здоровье КС» на основе последователь!юстпых паттернов.

Методами интеллектуального анализа данных, на основе сбора и дотирования значимой информации, разработаны методика и алгоритмы диагностики и прогнозирования «здоровья» компьютерной сети.

Выполнены численные оценки кластеризации состояний КС с целью определения характера нарушения «здоровья» сети.

11рограммный продукт, созданный на базе предложенных в рамках исследования алгоритмов, может быть интересен компаниям, занимающимся производством телекоммуникационного оборудования, эксплуатацией компьютерных сетей, а также операторам сетей передачи данных.

1. Xiaohui Си. Online Anomaly Prediction for Robust Cluster Systems // IEEE 25tli International Conference on Data Engineering. March 2009, pp. 1000-1011. DOl: 10.1109/1CDE.2009.128

2. Cohen. S. Zhang. M. Goldszmidt, J. Symons, T. Kelly, and A. Fox. Capturing, indexing, clustering, and retrieving system history. SOSP, 2005.

3. Mirza M.. Sommers J.. Barford P., ZhuJ. A Machine Learning Approach to TCP Throughput Prediction // Proc. of ACM S1GMETR1CS, 2007.

4. Шепухин О.И., Рнбитт B.C., Фармаковский M.A. Обнаружение аномальных состояний компьютерных систем средствами интеллектуального анализа данных системных журналов II Во про-

сы ки бербезопасн ости №2(26), 2018. DOl: 10.21681/2311-34562018-2-33-43

5. Шелухин О.И.. Рябшиш B.C. Обнаружение аномалий больших данных неструктурированных системных журналов // Вопросы к и бербезопасн ост и. 2019. №2(30). С. 36-41. DOl 10.21681/2311 -3456-2019-2-36-41

6. Gniady С., Bull A.R.. Ни Y.C. Program Counter Based Pattern Classification in Buffer Caching // Proc. of OSDI, 2004.

7. Mohammed J. Zaki. SPADE: An Efficient Algorithm for Mining Frequent Sequences 11 Machine Learning. №42. 200!. С. 31 -60.

8. Jian Pei. Jiawei Han. Behzad Mortazavi-Asl. Jianyong Wang, Helen Pinto, Qiming Chen. Umeshwar Dayal and Mei-Chun Hsu. Mining Sequential Patterns by Pattern-Growth: The PrefixSpan Approach // IEEE Transactions On knowledge and data engineering. Vol. 16. No. 10. 2004,

9. Srikant R-. Agrawal R. Mining Sequential Patterns: Generalizations and Performance Improvements // EDBT, 1996.

10. Agrawal R.. Srikant R. Mining sequential patterns // Proceedings of the Eleventh International Conference on Data Engineering, 1995.

11. Айвазян С,А.. Енюков И.С.. Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985.

12. Abbasghorbani S., Tavoli R. Survey on sequential pattern mining algorithms // 2015 2nd International Conference on Knowledge-Based Engineering and Innovation (KBE1), Tehran. 2015, pp. 1153-1164. doi: 10.1109/KBLI.20I5.74362I1

13. Philippe Fournier-Viger, Jerry Chun-Wei Lin. Rage-Uday Kir an. Yim-Sing Koh, and Rincy Thomas. 2017a. A survey of sequential pattern mining// Data Science and Pattern Recognition I, I (2017), pp. 54-77.

14. Wensheng Can. Jerry Chun-Wei Lin. Philippe Fournier-Viger, Han-Chieh Chao. and Philip S. Ytt. A Survey of Parallel Sequential Pattern Mining // ACM Trans. Knowl. Discov. Data. 0, 1, Article 00 (August 2018). 33 p. https://doi.org/000000l

!5. Jen-Wei Huang. Chi-Yao Tseng. Jian-Chih Ou. and Ming-Syan Chen. A General Model for Sequential Pattern Mining with a Progressive Database Publication // IEEE Transactions On Knowledge And Data Engineering. Vol. 20. No. 9. 2008.

16. Keshavamurthy6.pl., Mitesh Sharma. Durga Toslmiwal. B. Efficient Support Coupled Frequent Pattern Mining Over Progressive Database Publication // International journal of Database Management Systems (IJDMS). Vol. 2. No.2.2010.

17. K.M.V. Madan Kumar. P.V.S. Srinivas and C. Raghavendra Rao. Sequential Pattern Mining With Multiple Minimum Supports in Progressive Databases Publication II International Journal of Database Management Systems (IJDMS). Vol. 4. No. 4. 2012.

18. Молодцов Д.А. Сравнение и продолжение многозначных зависимостей // Нечеткие системы н мягкие вычисления. 2016. Том 11, выпуск 2. С. 115-145.

19. Барсегян А.А.. Куприянов М.С., Степаненко В В., Холод И И. Методы и модели анализа данных: OLAP и Data Mining, СПб.: БХ В-Петербург, 2004.

Л итература

-

( I л

HEALTH MONITORING OF A COMPUTER NETWORK BASED ON SEQUENTIAL ANALYSIS OF SERIAL PATTERN

Oleg I. Sheluhin, MTUCI, Moscow, Russia, sheluhin@mail.ru Andrey V. Osin, MTUCI, Moscow, Russia, osin_a_v@mail.ru Denis V. Kostin, MTUCI, Moscow, Russia, d.v.kostin@mail.ru

Abstract

To solve the problems of monitoring the "health" of a computer network, it is proposed to use the methods and algorithms of statistical data processing, machine learning, and the intellectual analysis of historical data obtained by studying the behavior of the network in the past to extract patterns. We proposed to use the method of selecting the most appropriate pattern for "network health" to predict anomalous events in a computer network by using sequential analysis of extracted series of patterns. The stages of forecasting based on sequential patterns and the structure of the implemented algorithm for calculating the forecast of the current state of a computer system are considered in the article. It is proposed to use the Pareto function as a target function for optimizing the hyperparameters of the forecasting algorithm. The best set of parameters is determined by the maximum value of the target function. Service Level Objectives and Service Level Agreement are used as system indicators characterizing the "health of the computer network". A visualization of the clustering of states of a computer network is considered using a specific example using the k-means algorithm and the dimensional reduction algorithm TSNE. It is proposed to evaluate the "network health" as the distance of the forecast of the state of the computer network to the region of anomalous states formed as a result of clustering in the form of the distance to the nearest cluster centers, on an ordinal scale from 1 to 5. The paper proposes to evaluate the "health of the network using the "Green", "Yellow" and "Red" levels.

Keywords: anomaly states, computer network, forecasting, machine learning; data mining, monitoring system metrics, clustering, sequential analysis, pattern.

References

1. Xiaohui Gu. (2009). Online Anomaly Prediction for Robust Cluster Systems. IEEE 25th International Conference on Data Engineering. March 2009. Pages 1000-1011. DOI: 10.1109/ICDE.2009.128

2. Cohen, S. Zhang, M. Goldszmidt, J. Symons, T. Kelly, and A. Fox. (2005). Capturing, indexing, clustering, and retrieving system history. SOSP.

3. M. Mirza, J. Sommers, P. Barford, and J. Zhu. (2007). A Machine Learning Approach to TCP Throughput Prediction. Proc. of ACM SIGMETRICS.

4. Sheluhin O.I., Ryabinin V.S., Farmakovsky M.A. (2018). Detection of abnormal conditions of computer systems by means of data mining system logs. Cybersecurity Issues No. 2 (26). DOI: 10.21681 / 2311-3456-2018-2-33-43

5. Sheluhin O.I., Ryabinin V.S. (2019). Detecting Big Data Anomalies in Unstructured System Logs. Cybersecurity Issues. No. 2 (30), pp. 36-41. DOI 10.21681 / 2311-3456-2019-2-36-41

6. C. Gniady, A. R. Butt, and Y. C. Hu. (2004). Program Counter Based Pattern Classification in Buffer Caching. Proc. of OSDI.

7. Mohammed J. Zaki. (2001). SPADE: An Efficient Algorithm for Mining Frequent Sequences. Machine Learning. No.42, pp. 31-60.

8. Jian Pei, Jiawei Han, Behzad Mortazavi-Asl, Jianyong Wang, Helen Pinto, Qiming Chen, Umeshwar Dayal and Mei-Chun Hsu. (2004). Mining Sequential Patterns by Pattern-Growth: The PrefixSpan Approach. IEEE Transactions On knowledge and data engineering. Vol. 16. No. 10.

9. R. Srikant, R. Agrawal. (1996). Mining Sequential Patterns: Generalizations and Performance Improvements, EDBT.

10. R.Agrawal and R.Srikant. (1995). Mining sequential patterns. Proceedings of the Eleventh International Conference on Data Engineering.

11. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. (1985). Applied statistics. Dependency research. Moscow: Finance and statistics.

12. S. Abbasghorbani and R. Tavoli. (2015). Survey on sequential pattern mining algorithms. 2015 2nd International Conference on Knowledge-Based Engineering and Innovation (KBEI), Tehran, pp. 1153-1164. doi: 10.1109/KBEI.2015.7436211

13. Philippe Fournier-Viger, Jerry Chun-Wei Lin, Rage-Uday Kiran, Yun-Sing Koh, and Rincy Thomas. (2017). A survey of sequential pattern mining. Data Science and Pattern Recognition 1, 1, pp. 54-77.

14. Wensheng Gan, Jerry Chun-Wei Lin, Philippe Fournier-Viger, Han-Chieh Chao and Philip S. Yu. (2018). A Survey of Parallel Sequential Pattern Mining. ACM Trans. Knowl. Discov. Data. 0, 1, Article 00 (August 2018), 33 p. https://doi.org/0000001

15. Jen-Wei Huang, Chi-Yao Tseng, Jian-Chih Ou, and Ming-Syan Chen. (2008). A General Model for Sequential Pattern Mining with a Progressive Database Publication. IEEE Transactions On Knowledge And Data Engineering. Vol. 20. No. 9.

16. Keshavamurthy B.N., Mitesh Sharma, Durga Toshniwal. B. (2010). Efficient Support Coupled Frequent Pattern Mining Over Progressive Database Publication. International journal of Database Management Systems (IJDMS). Vol. 2. No.2.

17. K.M.V. Madan Kumar, P.V.S. Srinivas and C. Raghavendra Rao. (2012). Sequential Pattern Mining With Multiple Minimum Supports in Progressive Databases Publication. International Journal of Database Management Systems (IJDMS). Vol. 4. No. 4.

18. D. A. Molodtsov. (2016). Comparison and continuation of multi-valued dependencies. Fuzzy Systems and Soft Computing. Vol. 11, Issue 2, pp. 115-145.

19. Barseghyan A.A., Kupriyanov M.C., Stepanenko B.B., Kholod I.I. (2004). Methods and models of data analysis: OLAP and Data Mining. SPb.: BH St. Petersburg.

Information about authors:

Oleg I. Sheluhin, doctor of technical sciences, professor, head of the Department of Information Security, MTUCI, Moscow, Russia Andey V. Osin, PhD, MTUCI, Moscow, Russia

Denis V. Kostin., graduate student, MTUCI, department of information security, Moscow, Russia

T-Comm "Гом 14. #2-2020

i Надоели баннеры? Вы всегда можете отключить рекламу.