Научная статья на тему 'Обзор графо-аналитических подходов к мониторингу информационно-телекоммуникационных сетей и их применение для выявления аномальных состояний'

Обзор графо-аналитических подходов к мониторингу информационно-телекоммуникационных сетей и их применение для выявления аномальных состояний Текст научной статьи по специальности «Математика»

CC BY
129
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
расстояние редактирования графа / средний граф / спектр графа / кластеризация графов / информационно-телекоммуникационная сеть / подсистема сетевого мониторинга / graph editing distance / average graph / graph spectrum / graph clustering / information and telecommunication network / network monitoring subsystem

Аннотация научной статьи по математике, автор научной работы — Будко Никита Павлович, Васильев Николай Владимирович

Постановка задачи: современные подходы к мониторингу телекоммуникационных сетей ориентированы на измерение состояния отдельных устройств и сервисов, оставляя за кадром состояние сети «в целом», как единого объекта мониторинга. Как следствие, для достаточно больших телекоммуникационных сетей, особенно в случае, когда сетевой элемент присутствует в измерении ничтожное по сравнению с периодом существования всей сети время, проанализировать результаты мониторинга становится невозможным. Несмотря на все большее распространение в системах мониторинга методов многомерного анализа данных, задача наглядного представления «здоровья сети» является более чем актуальной. Тем более, что в отличие от многомерных кубов данных, интерпретация и анализ которых сродни искусству, методы на основе редакционного расстояния графов позволяют наглядно визуализировать динамику не только всей сети, но и ее отдельного фрагмента, что требует меньшей квалификации персонала, эксплуатирующего телекоммуникационные системы. Отсутствие методов идентификации состояния в зависимости от степени изменения топологии долгое время затрудняло практическое применение методов на основе расстояния редактирования графов. Однако развитие теоретического базиса, в частности доказательство результатов в области средних графов последовательности и методов кластеризации позволяет снять требование предварительной нормировки меры изменения топологии, заменив его понятием «кластера состояния». Целью работы является разработка на основе научно-методического аппарата оценки последовательностей графов методики выявления аномальных состояний телекоммуникационной сети посредством анализа степени изменения топологии объекта мониторинга. Используемые методы: методы вычислительной теории графов; методы анализа данных (кластерного анализа); линейная алгебра и спектральная теория графов; методы поведенческой аналитики; технологии сетевого мониторинга, как набор инженерных практик, поддерживающих надежную и безотказную работу приложений в настоящем и будущем; Operation Support Systems, как технология поддержки операций; методы системного анализа, структурного синтеза, теории прогноза, теории диагностики, теории классификации. Новизна работы: новизна исследования определяется полнотой проведенного анализа существующих графо-аналитических подходов и использованием теоретических результатов по усреднению последовательностей графов в рамках алгоритма k-средних для формирования адаптивной методики классификации оценки состояния телекоммуникационной сети. Результат: в работе на основе предварительно проведенного анализа результатов в области мониторинга графов телекоммуникационных сетей, а также методов кластеризации графов предложен подход к выявлению аномальных состояний телекоммуникационной сети. Предложенный подход апробирован на реальных данных ботнет-атаки на телекоммуникационную сеть и показывает довольно четкую идентификацию периодов нахождения сети в различных состояниях, таких как: атака, нормальный и переходный режимы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Будко Никита Павлович, Васильев Николай Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Review of graph-analytical approaches to monitoring of information and telecommunication networks and their application to identify abnormal states

Task statement: Problem statement: modern approaches to monitoring telecommunications networks are focused on measuring the state of individual devices and services, leaving behind the scenes the state of the network "as a whole" as a single monitoring object. As a consequence, for sufficiently large telecommunication networks, especially in the case when the network element is present in the measurement for an insignificant time compared to the period of existence of the entire network, it becomes impossible to analyze the monitoring results. Despite the increasing prevalence of multidimensional data analysis methods in monitoring systems, the task of visual representation of the "health of the network" is more than relevant. Moreover, unlike multidimensional data cubes, the interpretation and analysis of which is akin to art, methods based on the editorial distance of graphs make it possible to visually visualize the dynamics of not only the entire network, but also its individual fragment, which requires less qualification of personnel operating telecommunication systems. The lack of methods for identifying the state depending on the degree of topology change has long hindered the practical application of methods based on the distance of graph editing. However, the development of the theoretical basis, in particular, the proof of results in the field of average sequence graphs and clustering methods, makes it possible to remove the requirement of preliminary normalization of the measure of topology change, replacing it with the concept of a "cluster of state". The purpose of the work is to develop, on the basis of a scientific and methodological apparatus for evaluating graph sequences, a technique for detecting abnormal states of a telecommunications network by analyzing the degree of change in the topology of a monitoring object. Methods used: methods of computational graph theory; methods of data analysis (cluster analysis); linear algebra and spectral graph theory; methods of behavioral analytics; network monitoring technologies as a set of engineering practices that support reliable and trouble-free operation of applications in the present and future; Operation Support Systems, as a technology to support operations; methods of system analysis, structural synthesis, prediction theory, diagnostic theory, classification theory. The novelty of the work: the novelty of the research is determined by the completeness of the analysis of existing graph-analytical approaches and the use of theoretical results on the averaging of graph sequences within the k-means algorithm to form an adaptive classification methodology for assessing the state of a telecommunications network. Result: based on a preliminary analysis of the results in the field of graph monitoring of telecommunication networks, as well as graph clustering methods, an approach to identifying abnormal states of a telecommunications network is proposed. The proposed approach has been tested on real data of a botnet attack on a telecommunications network and shows a fairly clear identification of the periods when the network is in various states, such as: attack, normal and transient modes.

Текст научной работы на тему «Обзор графо-аналитических подходов к мониторингу информационно-телекоммуникационных сетей и их применение для выявления аномальных состояний»

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

УДК 621.391

Обзор графо-аналитических подходов к мониторингу информационно-телекоммуникационных сетей и их применение для выявления аномальных состояний

Будко Н. П., Васильев Н. В.

Постановка задачи: современные подходы к мониторингу телекоммуникационных сетей ориентированы на измерение состояния отдельных устройств и сервисов, оставляя за кадром состояние сети «в целом», как единого объекта мониторинга. Как следствие, для достаточно больших телекоммуникационных сетей, особенно в случае, когда сетевой элемент присутствует в измерении ничтожное по сравнению с периодом существования всей сети время, проанализировать результаты мониторинга становится невозможным. Несмотря на все большее распространение в системах мониторинга методов многомерного анализа данных, задача наглядного представления «здоровья сети» является более чем актуальной. Тем более, что в отличие от многомерных кубов данных, интерпретация и анализ которых сродни искусству, методы на основе редакционного расстояния графов позволяют наглядно визуализировать динамику не только всей сети, но и ее отдельного фрагмента, что требует меньшей квалификации персонала, эксплуатирующего телекоммуникационные системы. Отсутствие методов идентификации состояния в зависимости от степени изменения топологии долгое время затрудняло практическое применение методов на основе расстояния редактирования графов. Однако развитие теоретического базиса, в частности доказательство результатов в области средних графов последовательности и методов кластеризации позволяет снять требование предварительной нормировки меры изменения топологии, заменив его понятием «кластера состояния». Целью работы является разработка на основе научно-методического аппарата оценки последовательностей графов методики выявления аномальных состояний телекоммуникационной сети посредством анализа степени изменения топологии объекта мониторинга. Используемые методы: методы вычислительной теории графов; методы анализа данных (кластерного анализа); линейная алгебра и спектральная теория графов; методы поведенческой аналитики; технологии сетевого мониторинга, как набор инженерных практик, поддерживающих надежную и безотказную работу приложений в настоящем и будущем; Operation Support Systems, как технология поддержки операций; методы системного анализа, структурного синтеза, теории прогноза, теории диагностики, теории классификации. Новизна работы: новизна исследования определяется полнотой проведенного анализа существующих графо-аналитических подходов и использованием теоретических результатов по усреднению последовательностей графов в рамках алгоритма k-средних для формирования адаптивной методики классификации оценки состояния телекоммуникационной сети. Результат: в работе на основе предварительно проведенного анализа результатов в области мониторинга графов телекоммуникационных сетей, а также методов кластеризации графов предложен подход к выявлению аномальных состояний телекоммуникационной сети. Предложенный подход апробирован на реальных данных ботнет-атаки на телекоммуникационную сеть и показывает довольно четкую идентификацию периодов нахождения сети в различных состояниях, таких как: атака, нормальный и переходный режимы.

Ключевые слова: расстояние редактирования графа, средний граф, спектр графа, кластеризация графов, информационно-телекоммуникационная сеть, подсистема сетевого мониторинга.

Библиографическая ссылка на статью:

Будко Н. П., Васильев Н. В. Обзор графо-аналитических подходов к мониторингу информационно-телекоммуникационных сетей и их применение для выявления аномальных состояний // Системы управления, связи и безопасности. 2021. № 6. С. 53-75. DOI: 10.24412/2410-9916-2021-6-53-75 Reference for citation:

Budko N. P., Vasiliev N. V. Review of graph-analytical approaches to monitoring of information and telecommunication networks and their application to identify abnormal states. Systems of Control, Communication and Security, 2021, no. 6, pp. 53-75 (in Russian). DOI: 10.24412/2410-9916-2021-6-53-75

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

Введение

Анализ современных подсистем функционального контроля информационно-телекоммуникационных сетей (ИТКС) общего пользования (ОП) показывает доминирование реализации парадигмы систем мониторинга уровня сетевых элементов (в концепции Telecommunication Management Notation (TMN)). Реализация подобного подхода можно увидеть в системах мониторинга Zabbix, Nagios, HP OpenView и др. В данных программных комплексах каждый цикл опроса сетевого элемента сводится к выполнению проверки его доступности, опросу структурных (маршрутные таблицы) и динамических (уровни загрузки ресурсов, частота ошибок) характеристик. В этой концепции сетевое управление рассматривает поведение сетевых элементов во взаимосвязи как часть функции мониторинга отказов (fault management) в задачах корреляции и фильтрации неисправностей (event correlation). Как известно, это предполагает использование априорно заданных моделей, описывающих взаимное влияние устройств.

Наиболее часто для решения данной задачи используются модели на основе правил (rule-based evet correlation), описывающих взаимное влияние в виде «Если вышло из строя устройство А, то В и С будут недоступны». В случае выхода из строя А, в журнале проверок элементов будет наблюдаться три события: A, B, C. Применив данное правило, мы сможем определить, что первопричиной отказа является именно А. Составление подобного множества правил корреляции требует от обслуживающего персонала досконального знания сети, что в случае большого ее размера представляет собой достаточно сложную задачу. К тому же любые структурные изменения в сети будут требовать изменения множества правил.

Очевидной формой представления ИТКС ОП является граф. Узлы сети (которыми могут быть группы пользователей или отдельные клиенты и серверы) представляются вершинами графа (множество V), а дуги графа (множество E) представляют логические связи (например, направления связи или маршруты передачи данных) между узлами.

В этом случае состояние ИТКС в каждый момент времени будет описываться некоторым графом, а динамика ее изменения будет сводиться к оценке изменения множеств вершин и ребер (граф-измерения).

Цель статьи: провести обзор моделей и методов мониторинга, ориентированных на граф-измерения. Некоторые из описанных методов проиллюстрированы исследованиями, направленными на выявление аномальных состояний ИТКС ОП, которые были проведены авторами на наборе данных реальной ботнет-атаки на телекоммуникационную сеть.

Основные обозначения и терминологический аппарат

При проведении обзора граф-аналитических подходов к мониторингу ИТКС ОП и их применения для выявления аномальных состояний сетевых инфраструктур в работе вводятся следующие условных обозначения, показанные в таблице 1.

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

Таблица 1 - Основные обозначения

Обозначение Физический смысл обозначения

- Граф, описывающий сеть и представляемый:

g = (У, E, a, ß) множеством вершин (узлов) V, множеством дуг Е, функцией разметки узлов a: V^LV, где LV - множество меток узлов, функцией разметки ребер в: E^Le, где Le - множество меток рёбер

d(g, g 0 - Расстояние между графами

G= {gl, g2, ..., gn} - Медианный граф с минимальным суммарным расстоянием от центра масс до других графов

- Стоимость операции е редактирования графа (под операцией понимаем за-

c(e) мену метки узла, замену метки дуги, вставку узла, вставку дуги, удаление узла, удаление дуги)

[t, t+1] - Временной интервал наблюдения за графом (за временным рядом метрики)

gl"1" = {a, ß} - Максимально общий подграф графа g и g2 (maximal common subgraph -MCS)

p(g) = (L, C, X) - Представление графа в метках, где L = {a(x)| x е V}, C = {a(x), a(y)| (x, y) e E}, X(a(x), a(y)) = P(x, y) для всех дуг (x, y) e E

a(g) - Спектр графа (последовательность собственных чисел матрицы Ag смежно-

сти вершин

Pg = (J* > 2 Pkg - Совокупность всех путей к длины большей 2 соединяющих вершины графа g

С = [Cuv] - Матрица изменений, элементы которой соответствуют удаленным из графа gi или добавленным в граф g2 элементам (узлам, дугам)

gl A g2 - Симметричная разница графов

ф1, ф2,—, фт - Набор пороговых значений

GED - Расстояние редактирования графа (graph edit distance)

msa - Процедуры сравнения среднего графа с последующим одиночным

mma - Процедуры сравнения среднего графа с последующим средним

msd - Процедуры сравнения среднего графа с удаленным одиночным

mmd - Процедуры сравнения среднего графа с удаленным средним

с(е) - Стоимость операции е, переводящей один граф в другой

c(s) - Суммарная стоимость операций, переводящих один граф в другой

Y(ui) - Число повторений вершины ui в последовательности графов

MCS - Максимально общий подграф (maximal common subgraph)

g - Средний граф последовательности G = {gn-L+i, gn-L+2, ..., gn}

L - Ширина скользящего окна наблюдения за графом

l - Эвристически выбираемый интервал времени для наблюдения за графом сети

Lg - Лапласиан графа Lg = Dg - Ag

Dg - Матрица степеней

Ag {Xl,^2,—,Xn} - Матрица смежности вершин графа g

k - Эмпирически выбранный предел суммирования на спектрах графов

Pkg (u, v) - Множество путей длины к, соединяющих вершины u и v графа

С = [Cuv] - Матрица изменений

S - Виды состояния сети

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

Размеченные графы

Задание графа предполагает прежде всего выделение множества вершин V и ребер E графа. В качестве вершин могут выступать как устройства, так и отдельные интерфейсы этих устройств (различного уровня семиуровневой модели взаимодействия открытых систем). В то же время под ребром может пониматься как взаимодействие двух устройств, так и взаимодействие двух интерфейсов. В качестве веса ребра между двумя взаимодействующими устройствами можно использовать объем переданных данных. Действительно, эта характеристика показывает, как интенсивно использовался тот или иной маршрут или канал за заданный период времени. Иные характеристики (такие как ширина полосы пропускания, джиттер, задержка и пр.), в итоге, влияют на объем переданных данных и де-факто показывают конкурентное преимущество того или иного маршрута из доступных.

Указанная неоднозначность формулировки сетевого графа разрешается за счет механизма абстракции, который позволяет упростить/детализировать представление графа за счет объединения/раскрытия некоторых вершин или ребер.

Формально, размеченный граф g = (V, ^ а, в) с V - множеством вершин и E - множеством ребер, g - это граф, на котором заданы функции, назначающие метки (уникальные идентификаторы) вершинам и ребрам:

- а: V^LV, где LV- множество меток узлов;

- в: E^LE, где LE - множество меток ребер.

Как было отмечено перед процедурой анализа графа можно произвести его упрощение (абстракцию). В случае если устройство будет маршрутизатором, оно будет иметь несколько 1Р-адресов, которым будет соответствовать одна метка - имя устройства.

Пусть дан граф g = (V, E, а, в). Представление графа g в метках - это задание такой функции р^) = C, X), где:

1) L = |а(х)|х е E};

2) С = |а(х), аОО| (х, у) е E};

3) Ца^), а(у)) = в^, у) для всех дуг у).

Данное представление графа р^) позволяет полностью абстрагироваться от исходного графа и оперировать метками вершин и ребер.

Будем далее считать, что в заданные моменты времени t1, ь, ..., и будут формироваться преставления графов в метках р^), р2^), ..., р^), на основании которых и будет производится анализ состояния сети.

Расстояние между графами

Вопрос оценки динамики ИТКС ОП как единого целого был впервые рассмотрен в работах [1, 2]. Этот подход дает обнадеживающие результаты при анализе сцен и распознавании изменяемых образов (отпечатков ладони при различных ее положениях в пространстве). Для диагностики аномального поведения сети предложен базовый перечень граф-метрик (расстояний между графами) d (g, g') как меры изменчивости [3]. В простейшем варианте в качестве метода принятия решений может быть сравнение с пороговым значением. Од-

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

нако в отличие от других показателей, таких как загрузка процессора и памяти телекоммуникационных устройств, пороговое значение расстояние редактирования графов не нормированы и требуют предварительного исследования для каждой конкретной сети.

Согласно [1] базовым понятием граф-метрик является расстояние редактирования графа GED (graph edit distance), которое расширяет понятие расстояния Левенштейна.

Рассмотрим 6 видов операций, которые можно произвести над произвольным графом:

- замена метки узла;

- замена метки дуги;

- вставка узла;

- вставка дуги;

- удаление узла;

- удаление дуги.

Поставим в соответствие каждой операции e её стоимость c(e). Пусть с течением времени t граф g = (V, E, а, ß) переходит в граф g1 = (V, E', а7, ß7).

Определение. Метрика изменения графа GED (graph edit distance) d(g, g1) будет равна минимуму суммарной стоимости операций, переводящих один граф в другой [1]:

Г N

d (g, g') = min (c (s)) = min-

£ * (e )

i=1

(1)

Употребление формулы (1) на практике затруднено по причине экспоненциальной сложности, поэтому используются приблизительные методы на основе операций алгебры множеств вершин и ребер графов.

Для графов g = (V, E, а, в) и g1 = (V, E', а7, Р7) можно использовать следующую формулу:

d (g, g ') = |V| + V' - 2 V П V' + |E + E' - 2 |E01 + |E' . (2)

Как следует, при равенстве двух графов, расстояние будет минимальным и равным 0. В случае если графы не пересекаются g П g1 = 0, расстояние будет максимальным. Для размеченного графа используется следующая лемма [1]: Пусть даны графы g=(V,E, а, Р) с представлением p(g) = (L, C, X), g1=(V1,Ex,аьР1) с представлением p(g1) = (LbCbA,1), и g2=(V2,E2,а2, Р2) с представлением p(g2) = (L^C^). Пусть L = L1nL2, С = {(i, j)|(i, j) e C1nC2}. Пусть С0 = {(i, j)|(i, j) e C1nC2 и h(i, j) = X2(i, j)}, С70 = {(i, j)|(i, j) e С1ПС2 и h(i, j) ф %(U j)}. Тогда:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

d (g1, g2) = l +W - 2|L П l>\ + C + \c2\ - 2c + |C0| . (3)

Найденное по указанной лемме значение будем далее называть GED (graph edit distance, расстоянием редактирования графа).

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

Для оценки взвешенного графа также может быть использовано следующее выражение [4]:

|ß (u, v)- ß '(u, v)|

d (g'g ) max {ß(u, v),ß'(u, v)} • (4)

Разделив полученное выражение на общее число ребер, т. е. на \E U E7\, можно оценить вариацию вектора характеристик ребер для графа в целом. В указанном выражении (4), в случае отсутствия того или иного ребра, вес последнего считается равным 0.

Максимальный общий подграф

Наиболее простой способ оценки «разницы» графов состоит в вычислении пересечения множеств вершин и ребер. Эта идея лежит в концепции максимального общего подграфа MCS (maximal common subgraph) [5].

Пусть даны g = (V, E, а, ß) и g1 = (V, E, а7, ß7), где g1 - подграф g если Vi с V, Ei с E, а(х) = а1(х), ß(x, y) = ß1(x, y) для любых x и y. Обозначим это как g1 с g. В случае если g1 с g и g1 с g2, то g1 - это общий подграф g и g2. Если g1 с g и g1 с g2 и не существует другого общего графа g = (V, E, ...), такого что V1 с V и Е1 с Е , то g1 - максимальный общий подграф MCS (maximal common subgraph) g и g2.

Нахождение максимального общего подграфа сводится к нахождению пересечений множеств вершин и ребер. По их мощности можно оценить степень изменений сети.

Более формально для размеченных графов процедура вычисления регламентируется следующей леммой [1]: Пусть даны графы g=(V, E, а, ß) с представлением p(g) = (L, C, X), g1=(V1, E1, а1, ß1) с представлением p(g1) = (L1,C1,X1), и g2=(V2, E2, а2, ß2) с представлением p(g2) = (L^C^ta). Пусть L = L^L2, С = {(i, j)\(i, j) e C1nC2|. Тогда граф g - максимальный общий граф графов g1 и g2 , или MCS(g1, g2).

В качестве меры изменения структуры может быть использовано следующее выражение [1]:

|mcs (g, g ')

MAX {g| ,|g'} , (5)

d ( g, g ') = 1

где ИСБg') - максимальный общий граф g\ и g2, - число вершин (или ребер) в графе.

В качестве более сложных метрик можно использовать и другие [6].

Методы на основе средних графов

Усреднение временного ряда характеристики по некоторому интервалу при анализе состояния часто служит простейшим методом борьбы со случайными флуктуациями и выбросами [1, 7-9]. Эта же идея лежит в концепции усреднения граф-измерений, которое основывается на понятии среднего (медианного) графа.

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

Медианой множества графов О = {^1, g2,..., Ёп} или средним графом называется граф g' такой, что:

N Г N

Еа(ggi) = т!пГЕа(ggi)|g Е О[ (6)

¿=1 11=1

Согласно определению, медианным граф 8 называется такой граф, суммарное вЕБ которого до каждого члена последовательности минимально.

Рассмотрим еще одну аппроксимацию расстояния между графами, облегчающую процедуру вычисления среднего графа. Будем считать, что операция замены метки ребра с весом р1(е) на метку с весом р2(е) будет иметь стоимость |р1(е) - р1(е)|. В случае добавления или же удаления ребра из графа, стоимость операции будет равна весу ребра, т. е. |р1(е) - 0|.

¿2 (ё1, 8 2 )= С '[М + Ы - 2V п ^2 |] +

+ Е |Р1 (е)-Р2 (е)\+ Е Р1 (е) + Е Р2 (е). (7)

еЕЕ1 П Е2 еЕБ1\(Б1 П Е2) еЕЕ1\(Е1 П Е2)

Константа с позволяет учитывать величину влияния операций вставки/удаления узлов по отношению к операции над ребрами графа.

Рассмотрим объединенный граф ё = (V, Е, а, Р) последовательности

п п

О = {ёь 82,...8п}, где V = , Е = уЕ{ и обозначим через у(мг) число повторе-

¿=1 ¿=1

ний вершины и в последовательности графов.

УЧ УЧ Л

Определим граф ё = (V, Е, а,р) следующим образом: = {и | и Е V и у (и) > п/2},

Е = {(u, V) | и, V Е }, (8)

Р (и, V) = теё(рг (и, V) | i = 1...п).

Согласно теореме, доказанной в [1], данный граф является медианным (средним) по вЕБ, вычисляемому по формуле (7). Он не является уникальным, т. к. операция вставки-замены узла позволяет получить семейство средних графов.

Вычисление среднего графа лежит в основе целого ряда методов выявления аномальных состояний сети. Рассмотрим их более подробно. Сравнение среднего графа с последующим одиночным (тза). В данном процессе производится вычисление среднего графа по «скользящему окну» длиной Ь.

Пусть 8 - средний граф последовательности О = {ёп-ь+1, ёп-ь+2, ..., Ёп}.

Тогда расстояние, ¿2 (g, 8п+1), в сравнении с предопределенным порогом может быть использовано для выявления аномальных (скачкообразных) изменений в поведении сети.

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

В качестве порога можно использовать среднее изменение вЕБ сети по скользящему окну:

1 п

Ф = - Е ¿2 (§п , §1) .

ь 1=п-Ь

Событие «аномальное поведение сети» генерируется при условии:

Л 2 (§ п , §п+1 )> а • Ф .

Как было указано, средний граф не является уникальным, в связи с чем, если было получено семейство средних графов (§п, §>п ..§ ), можно вычислить набор пороговых значений (ф1, ф2,..., фт). Решение о состоянии сети можно определить из следующего условия:

¿2 ( ёп^ §п+1)> а Ф1 Л ¿2 ( ^ §п+1)> а • Ф2 Л... Л ¿2 ( §пт , §п+1 )> а • Фт . (9)

Для иллюстрации данного метода приведем сравнительные графики последовательных графов-измерений ботнет-атаки на телекоммуникационную сеть из набора данных СТи-13 [10] (набор номер 13). На рис. 1 красным цветом показан график расстояния редактирования, синим - расстояния редактирования между средним графом, полученным усреднением по окну длинной 15 графов и последующим согласно алгоритму msa. Указанный график иллюстрирует возможность выявить периоды существенных изменений сети и эффект фильтрации локальных выбросов.

Число операций редактир. графа (усл.ед.)

^ Время (х120 с.)

Рис. 1. Эффект фильтрации при усреднении последовательности графов

Сравнение среднего графа с последующим средним (тта). В данной схеме в последовательных скользящих окнах Ь1

= {Яп-ь+1,—, §п} и ¿2 ^2 = {§п-ь+1,..., §п+ь+2} вычисляются средние гра-

/Ч л

фы §п и §п+1.

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

В качестве правила принятия решения о состоянии сети используется следующее уравнение:

Г кф\ + ьгф2

d2 ( g n ' g n+1 )>

a •

(10)

Ь1 + ¿2

Сравнение среднего графа с удаленным одиночным (шБй). В случае, если имеет место постепенное изменение состояния сети, целесообразно сравнивать средний граф Iп не с последующим gn+\, а с отстоящим на I измерений, где I выбирается эвристически.

Сравнение среднего графа с удаленным средним (тшд). Данный метод представляет собой комбинацию предыдущего случая и сравнения последовательных средних. Как описано выше, рассмотрим средний

граф ^по множеству Ох = 1-^+1,. •., |п} и ^ по множеству 02 = {|п+/+ь..., 1п+1+ь}. Сравнение удаленных друг от друга граф-измерений позволяет оценить абсолютную величину «постепенного» изменения состояния сети.

Методы анализа на основе спектра графов сети

Пусть задан граф | = (V, Е, а, в) с матрицей смежности вершин Л^ Спектром графа 0(1) назовем последовательность собственных чисел матрицы

Л1 {Х1Д2, ..., Хп}.

В настоящее время известна также другая методика исследования свойств (неориентированного) графа на основе собственных чисел матрицы Кирхгофа (Лапласиан графа) [1, 11]: Ь = Б - Л|, где ^ - матрица степеней определяется следующим образом:

= в(и, V) | и Е У|

\уеу

В случае невзвешенного графа, элементами матрицы ^ будут степени вершин. В случае ориентированного графа матрица Кирхгофа определяется

следующим выражением: ^ = ^ — (Л1 + Л^).

На основе полученных собственных значений матрицы смежности вершин графа или матрицы Кирхгофа вычисляется расстояние между графами (вЕБ) [1]:

d ( g, g ')

- ц i )

i=i

Ш1П

k „ k E 2, E Цi2

i=1

i=1

(11)

Для спектров графов о(Л1 ) = {Х1,Х2,...,Хп} , о(Л^) = {ц1,^2,...,^п} к -

эмпирически выбранный предел суммирования. В приложениях распознавания образов и обработки изображений экспериментально установлено оптимальное значение к = 20.

k

DOI: 10.24412/2410-9916-2021-6-53-75

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

Аналогичное выражение может быть приведено и для матрицы Кирхгофа. Экспериментальные исследования [3] показывают сходное поведение данной метрики с приведенными ранее в данной работе.

Сетевые измерения на основе структуры графа

Передача данных в сети осуществляется посредством маршрутов, поэтому удаление вершины приводит к отказу маршрутов, содержащих данную вершину в качестве промежуточной. Исходя из этих соображений в качестве чувствительной метрики состояния сети можно использовать рассмотренное ранее расстояние редактирования вЕБ, основанное на числе путей, содержащих заданную вершину(ы) [12].

Для вершин и, V е У§ рассмотрим следующее множества путей графа:

Рк (и'v) - путей длины к, соединяющих вершины и и V;

Рк - совокупность путей длины к в графе;

Рк (u, = и Рк (u, - множество путей длины большей 2 соединяю-

к>2

щих вершины и и V;

Р§ = и Р§

^2 к - совокупность всех путей.

Для выделенного (непустого) подмножества ребер Е С Е, сформируем новый граф § (Е) = (VЕа, в), таким образом, что в исходном графе остаются

только те дуги, которые содержатся в маршрутах, содержащих дуги из Е С Е. Более формально, граф § (Е) формируется следующим образом:

1) V' = V .

Л

2) Ребро е е Е тогда и только тогда, когда Эр е Р§: е е р и 3в1 £ Е, е1 £ р .

3) а ' = а

4) Веса ребер в 0§ равны числу маршрутов в Р§, содержащих данное ребро в качестве компонента (и, по крайней мере, одно ребро из предопределенного набора Е С Е).

5) Атрибуты весов в созданном описанным способом графе § (Е) отражают степень важности ребер в процессах передачи данных через сеть, и поэтому определяют степень влияния на связность узлов.

Сравнение двух созданных на основе §1 = Е1, а1, р1) и §2 = Е2, а2, р2) графов, может быть осуществлено по формуле (6). В качестве Е выбирается Е1 и Е2. Также можно использовать множество ребер mcs(81, §2). Общей рекомендаций при создании Е является включение наиболее значимых связей сети.

Вариантом описанной методики является исследование 2-компонентной связности графа. В результате смежные вершины в полученном графе соответствуют вершинам исходного графа, соединенных через общего соседа. Как результат, полученная структура более чувствительна к изменениям в топологии (включение/исключением вершин, ребер), нежели исходная структура. Однако

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

в данном случае, граф остается невзвешенным. Сравнение полученных структур может быть произведено по формулам (3) и (4).

Идентификация областей изменения

Симметричная разность графов.

При анализе динамики сети важным является не только установление факта изменения, приводящего к ошибкам, но и выявление компонент графа сети, приводящих к возникновению событий [1, 12].

Расстояние между двумя графами §1 = (У1, Е1, а1, р1) и §2 = Е2, а2, р2) может быть охарактеризовано при помощи матрицы изменений С = [Сиу], элементы которой соответствуют удаленным из §1 или добавленным в §2. Строки и столбцы матрицы С соответствуют множеству V1 и^. В случае удаления или добавления ребра (и, V) соответствующий элемент матрицы будет равен 1, в случае если соответствующее ребро присутствует в обоих графах, соответствующий элемент будет равен 0. Данная матрица описывает граф, называемый симметричной разницей графов, и обозначается §1 А §2.

Сумма элементов по строкам (или столбцам) матрицы С дает вектор изменений относительно вершин объединенного множества V1 и^. Ранжирование с последующим выделением п максимальных компонент позволяет локализовать области изменений.

Указанный подход может быть распространен на взвешенные графы, при этом компоненты симметричной разности вычисляются по формуле:

|в (и, V) — в' (и, V) тах{в(и,V),в'(и,V)} , (12)

где (и, V) е е1 и Е2 .

Аналогично, для анализа динамики может быть использована группа симметричных разностей высшего порядка:

12

с„,, =

gi a2 gi+2 = ( gi Agi+! ) А ( gi+iAg+2 ),

gi а3 gi+4 = (gi a2gi+2 ) A (gi+2 A2gi+4 ) >

Анализ на основе графа соседей вершин.

Альтернативой симметричной разности является подход на основе измерения расстояния между соответствующими (последовательными во времени) графами соседей вершины. Данная техника позволяет получить вектор расстояний между графами из §1 и §2. Каждая координата вектора соответствует расстоянию между графами соседей с «точки зрения» отдельной вершины и смежных с нею вершин, что и позволяет выявить области изменений.

Последовательные измерения по времени состояния сети по описывающим их графам могут быть сравнены, используя описанный выше подход, где в качестве измерения расстояния между графами применить формулы (2) - (5). Граф соседей вершины, присутствующей только в одном графе, сравнивается с

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

пустым графом. Результатом операции является вектор расстояний графов соседей вершин: й = й((и),|2 (и)) .

Соседний подграф вершин описывает связи с вершинами, связанными 1 дугой. Для целей анализа целесообразно также рассмотреть 2-соседний граф, описывающий 1- и 2-компонентную связность, т. е. включающий 1 и 2 достижимые вершины, вместе с связывающими их ребрами.

Алгоритм выявления аномального состояния сетевой инфраструктуры на основе модифицированной процедуры кластеризации ^-средних

Как отмечено выше, в современных сетевых инфраструктурах процедура мониторинга должна осуществляться в режиме реального времени. Причем если в момент времени г состояние наблюдаемой сети принять за исходное состояние (первое множество вершин и ребер на сетевом графе |), то в промежуток времени г + 1 в силу внутренних (изменение режимов работы, величины обрабатываемого трафика и пр.), а также внешних (ошибки персонала, дестабилизирующие фактры (ДФ) и пр.) воздействий на динамической структуре будет наблюдаться совершенно другое состояние (второе множество вершин и ребер сетевого графа |1), в момент времени г + 2 может наблюдаться третье состояние, описываемое сетевым графом |2, или сеть может вернуться в исходное состояние, описываемое сетевым графом I и т. д. Каждое из этих состояний характеризуется расстоянием между графами й(1, |1), й(1, |2) и пр. Если исходное состояние сети, описываемое графом I принять за эталонное и определить порог на изменение расстояния между ним и новыми графами, образующимися в моменты времени г + 1, г + 2 и т. д., как и порог на суммарное расстояние от него до каждого образованного графа, то в случае превышения величины порога будем считать, что сеть перешла в иное состояние. При этом нормальное состояние ИТКС характеризуется допустимыми изменениями топологии сети, описываемыми некоторым множеством графов, также, как и другие виды состояний ИТКС определяются некоторым множеством графов. Эти множества образуют кластеры, где средний граф является её центром [13-15].

Функционирование алгоритмов кластеризации и их эффективность обычно оценивают с помощью таких параметров как временная (быстродействие) и их пространственная (объем обрабатываемой информации) сложность. Например, в [16] представлена оценка процедур кластеризации, используемых при обработке числовых значений: ЕаПквБгЕшг, к-средних, метод ближайшего соседа, ЕМ и ЕМ-модифицированный. Для получения их сравнительной оценки сгенерированы тестовые последовательности данных (исходные кластеры) в виде точек двумерного евклидова пространства. При тестировании алгоритмов в ходе решения задачи кластеризации были измерены объемы оперативной памяти и время исполнения алгоритмов, таблица 2. В [16] приводится алгоритм оценки качества кластеризации, по которому получены следующие индексы качества: ЕаПквБгЕшг - 0,48; метод ближайшего соседа - 0,32; ЕМ-алгоритм - 0,9; ЕМ (модифицированный) -0,6; к-средних - 0,85.

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

Таблица 2 - Результаты оценки эффективности алгоритмов кластеризации _по объему обрабатываемой информации и быстродействию [16]_

Сравниваемые алгоритмы кластеризации В земенная сложность, секунды Пространственная сложность (объем памяти), Мбит

750 1000 1500 2000 3000 10000 50000 750 1000 1500 2000 2500 3000 10000 50000

Еаг1Нв81Е1ш 0,01 0,06 0,01 0,01 0,04 0,07 0,2 0,23 0,36 0,29 0,37 0,50 0,58 1,67 3,62

^-средних 0,01 0,07 0,11 0,26 0,41 1,95 9,23 0,90 3,08 1,93 3,56 1,91 0,74 2,69 16,59

ЕМ 0,47 1,2 2,31 2,74 4,66 20,22 124,1 1,09 1,45 3,13 4,68 1,60 5,24 9,03 35,37

ЕМ модифицированный 1,45 2,24 5,5 11,4 23,3 298,9 9049 1,57 2,98 7,16 5,52 3,36 5,69 11,64 45,05

Метод ближайшего сосед 18 75 124 219 477 900 34122 24,57 54,1 97,1 206,9 294,9 386,2 1103,3; 2837,4

Оценка эффективности алгоритмов кластеризации получена по результатам тестовой проверки на основе установления контрольного значения в объектах кластеризации и расчета индекса качества кластеризации. Анализ результатов показал, что лучшими показателями индекса качества кластеризации обладают алгоритм ^-средних и ЕМ алгоритм со значениями 0,85 и 0,9 соответственно. При этом по сравнению с ЕМ алгоритм ^-средних имеет в среднем в 10 раз выше быстродействие, что дает основание выбрать его для обработки больших объемов данных (измерительной информации) и обучения классификатора оценки состояния всей распределенной ИТКС ОП в целом, рис. 2, в то время, как для обработки данных временных рядов метрик сетевых устройств, как правило, используют ЕМ алгоритм [3].

Блок-схема алгоритма выявления аномального состояния ИТКС фактически представляет из себя этап структурного анализа сети и состоит из подэтапа обучения классификатора (построенного по модифицированной процедуре алгоритма ^-средних) и подэтапа непосредственно идентификации состояния сети:

На шаге 1 осуществляют ввод исходных данных о подконтрольной ИТКС.

На шаге 2 получаем последовательность графов состояния сети G(go, gi, g2,..., gi,..., gn) в моменты времени: to, ti, t2,..., t,■,..., tn, где go начальный (проектный) граф в момент времени t0 c эталонным состоянием, когда техническое состояние (ТС) всех элементов сети и их параметров находятся в номинале.

Обычная процедура обучения классификатора предполагает, что в качестве исходных данных для идентификации нормального и аномальных состояний сети используются облака данных как неупорядоченные наборы данных, не привязанные к какой-либо из шкал измерений. Однако в отличие от процедуры TDA (Topology Date Analysis) [3, 17], применяемой для анализа временных рядов метрик элементов сети, в данном алгоритме облако данных представляют множеством точек в заданном топологическом пространстве метрик графов, описывающих состояния ИТКС во времени. А поскольку в нем исходные данные представлены сетевыми графами, то последовательность графов сети G преобразуется в облако точек, где каждому графу, описываемому графовым расстоянием от графа g0, ставится в соответствие точка в облаке данных, рис. 3 a).

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

( Конец )

Рис. 2. Блок-схема алгоритма выявления аномального состояния ИТКС ОП на основе модифицированной процедуры кластеризации к-средних

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

а) Ь) с) в)

Рис. 3. Процедура модифицированного алгоритма ^-средних при определении

состояния сети по их графам

На шаге 3 определяем расстояния между графами g0 и gi, i=1,n с переходом от последовательности графов к пространству в метриках изменения, редактирования графа (graph edit distance, GED):

- замена метки дуги ^ изменение состояния канала связи;

- вставка узла ^ восстановление (наращивание) узлов сети;

- вставка дуги ^ восстановление (добавление) канала связи;

- удаление узла ^ отказ узла (деградация сети);

- удаление дуги ^ отказ канала (нарушение связности - деградация сети). На шаге 4 на множестве G определяем кластеры k по видам состояния сети

s1,S2,...,sk,st Пsj = 0,i ф j. Одной из особенностей алгоритма k-средних является

заранее определяемое число кластеров. Для мониторинга сетевых инфраструктур, как правило, в конечной интерпретации оператора подсистемы мониторинга таких состояний всего два «работоспособное» состояние («норма») - сеть выполняет свои функции и «неработоспособное» состояние («авария», или блокировка сети). Для недопущения внезапного перехода сети в аварию, особый интерес представляет «предотказное» состояние, введенное ГОСТ 27.002-2015 и характеризуемое повышенным риском отказа объекта контроля, возникающего в результате внешних ДФ и внутренних воздействий в процессе ее функционирования. В соответствии с международной классификацией (Рек. ITU-T M.3703) «предотказное состояние» соотносится с «критическим». В связи с изложенным, на шаге 13 произвольно определяют на облаке точек три кластера, которые в последующем, после завершения схождения алгоритма k-средних, будут соответствовать основным состояниям ИТКС, рис. 3 b).

На шаге 5 проверяем условие прекращения процедуры обучения классификатора gk) = gfc 1), когда центры масс кластеров (медианные графы) на текущем

временном отсчете (t) не отличаются от предыдущего (t-1).

На шаге 6 на заданных при реализации шага 4 кластерах графов выбираем k

средних графов gi, i=1,k, являющихся начальными центрами кластеров (центрами масс - центроидами) путем процедуры минимизации суммы квадратов расстояний от каждой точки заданного кластера до его центра, рис. 3 с).

На шаге 7 осуществляем перераспределение всех точек графов по кластерам, соответствующим тому или иному состоянию сети путем определения расстояния до центров масс (полученных на шаге 6) от каждого из наблюдаемых графов,

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

рис. 3 d). Если окажется, что рассматриваемый граф ближе к медианному графу (тяготеет к нему), описывающему первое (нормальное) состояние сети - «1», следовательно состояние данного графа имеет такое же состояние, как и граф с центром «1». Если рассматриваемый граф ближе к медианному графу, описывающего состояние «2», то состояние этого графа имеет такое же состояние, как и граф с центром «2», и т. д.

На шаге 8 по выражению (8) пересчитываем центры вновь сформированных кластеров по правилу среднего медианного графа по всем графам кластера, после чего итерационную процедуру повторяем по шагу 5. Поскольку в динамической системе, к которой относят ИТКС, состояние сети постоянно изменяется, то выход из строя узла сети (вершины графа) или канала связи (ребра графа) влечет за собой перемаршрутизацию, направленную на восстановление функционального состояния сети. Поэтому с течением времени граф изменится, в связи с чем на каждом интервале времени мониторинга сети необходима итерация:

- по определению новых кластеров ее состояния в следующий момент времени t + 1;

- назначению центров масс (медианных графов), соответствующих видам ТС сети;

- определению расстояния наблюдаемого графа до центров масс медианных графов;

- сравнение вычисленных расстояний и по их минимуму - идентификация вида состояния сети.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

При этом итерационная процедура повторяется до момента времени, когда рассматриваемый граф не окажется ближе к центру кластера «2» графа, имеющему «предотказное» ТС, или к центрам кластеров «3» или «1» графа, имеющих состояние «авария» или «норма» соответственно.

Таким образом, при выполнении условия шага 5, когда центроиды кластеров не перемещаются в графовом пространстве g(t) = g(t~1), итерационные процедуры кластеризации прекращают.

Подэтап обучения классификатора состояния ИТКС проводится заблаговременно (off-line), как правило в период опытной эксплуатации, но накопление статистики функционального состояния ИТКС (дообучение) может осуществляться на всех этапах эксплуатации (ЖЦ) при разных режимах работы сети.

На шаге 9 проводим выбор ширины скользящих окон, охватывающих периоды режимов работы сети: ненагруженный L1, нагруженный L2, перегруженный L3.

На шаге 10 получаем из базы данных (БД) заданные значения параметров скользящего окна.

На шаге 11 определяем медианные графы на последовательностях G(g1, g2,..., g„), наблюдаемых в скользящих окнах шириной L1, L2, L3 при разны режимах работы сети, что важно для дальнейшего уточнения ее состояния путем сравнения с текущим графом gi.

На шагах 12, 14, 16 для выявления скачкообразных (аномальных) изменений на сети осуществляем сравнение среднего графа, рассчитанного в скользящих

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

окнах шириной Ь1, Ь2, Ь3 с последующим одиночным либо (с последующим средним) по процедурам, описанным выше (шБа, тта).

На шагах 13, 15, 17 для выявления постепенных изменений сети осуществляем сравнение среднего графа, рассчитанного в скользящих окнах шириной Ь1, Ь2, Ь3 с удаленным одиночным (удаленным средним) по процедурам, описанным выше (тяй, ттй).

На шаге 18 осуществляем идентификацию состояния сети и репликацию БД.

На шаге 19 при успешной идентификации переход на новый цикл мониторинга.

На шаге 20 компонент интеллектуальной обработки транслирует на компонент отображения измерительную информацию о виде состояния ИТКС в интересах системы поддержки принятия решения (СППР) с записью в БД.

На шаге 21 в СППР транслируем команду по результатам цикла мониторинга.

Таким образом, предложенный алгоритм оценки состояния сети на основе измерения расстояния графов и шагов алгоритма к-средних является невероятностной версией ЕМ-алгоритма, рассмотренного в [3]. Однако, поскольку предлагаемый алгоритм в основе своей использует методологию кластеризации, используемую в процедуре алгоритма к-средних, то данную версию можно назвать его модификацией.

В отличие от классического алгоритма к-среднего, где работа ведется над точками евклидова пространства, здесь оперируем терминами пространства сетевых графов с метриками в виде графовых расстояний, при этом в качестве исходных данных для классификации в алгоритме к-средних используют облака данных как неупорядоченные наборы данных, не привязанные к какой-либо из шкал измерений, а в предложенном алгоритме данные представлены множеством графов в топологическом пространстве их метрик, описывающих состояния сети во времени.

Экспериментальные исследования

Некоторые из приведенных методов были опробованы на наборе данных СТи-13 [10] (5,8 и 13 наборы соответственно), описывающего трафик внешней ботнет-атаки на корпоративную сеть, собранный в Чешском техническом университете (г. Прага). Набор данных представляет собой запись трафика, проходящего через граничный маршрутизатор, и содержит последовательность записей вида «Время - 1Р отправителя - Порт отправителя - 1Р получателя - Порт получателя - Объем переданных данных». Время наблюдения за сетью составляет 4 часа. Указанный временной интервал был разделен на интервалы по 120 секунд. В каждом интервале производилось построение графа взаимодействия. Метками вершин являлись 1Р-адреса, а весами ребер - суммарный объем переданных данных между соответствующей парой адресов.

На рис. 4-6 представлены графики (красный цвет) парных расстояний редактирования (вЕБ) между последовательными графами, вычисленными по формуле (7). Синим цветом показано относительное количество вершин в графе

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

в указанный момент времени. Ось абсцисс - ось времени (х120 с.) ось ординат -число операций редактирования графа (например, удаление узла - 500 усл. ед.).

Число операций редактир.

Время (х120 с.)

Рис. 4. Кластеризация состояния сети под ботнет-атакой (5 набор из CTU-13)

В наборе данных, визуализированном на рис. 4 и 5 сеть находится под атакой ботнет-сети Virut. Из рисунков следует, что метод кластеризации позволяет отделить существенные для целей анализа значительные изменения структуры взаимодействия от несущественных.

Число операций

ню и ш la ш ¡к

Время (х120 с.)

Рис. 5. Кластеризация состояния сети под ботнет-атакой (8 набор из CTU-13)

DOI: 10.24412/2410-9916-2021-6-53-75

Systems of Control, Communication and Security

ISSN 2410-9916

Число операций

Рис. 6. Кластеризация состояния сети под ботнет-атакой (13 набор из СТи-13)

Более нагляден набор данных, визуализированный на рис. 6. Рисунок демонстрирует трафик распределенной ББоБ атака ботнет-сети У1гШ;. Как следует из рисунка, форма графика вЕБ малоинформативна. На протяжении всего периода наблюдения видны колебания структуры. Более четко выделить периоды атаки на сеть позволяет описанная кластеризация на основе метода к-средних (показана в виде точечных графиков). Полученный набор графов был разбит на 3 кластера, каждому из которых соответствует своя «дорожка» (с представлением зелеными, синими и красными точками различные классы состояний сети). На графике четко прослеживается «подготовительный» этап атаки с 0 до 100 временных отсчета и собственно атаку - с 100 по 160 временные отсчеты.

Заключение

В данной работе произведен обзор методов сетевых измерений на основе структуры графов сети с использованием таких понятий как средние графы и спектры графов сети, которые ориентированы на проведение мониторинга реального времени на базе граф-измерений. Определены основные области применения указанных методов. На примере журналов трафика атаки на реальную сеть продемонстрирована практическая возможность использования данной группы методов, в частности графовой версии алгоритма к-средних для выявления возможных состояний телекоммуникационной сети и последующей диагностики текущего состояния. Продемонстрирована возможность использования процедуры усреднения последовательности графов для фильтрации возможных выбросов. Основным результатом и научной новизной работы является разработка на основе теоретических результатов о средних графах и алгоритма к-средних модифицированной процедуры кластеризации к-средних, отличающейся от классической, где работа ведется над точками евклидова пространства, тем, что оперирует терминами пространства сетевых графов с метриками

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

в виде графовых расстояний, при этом в качестве исходных данных для классификации в алгоритме ^-средних используют облака данных как неупорядоченные наборы данных, не привязанные к какой-либо из шкал измерений, а в предложенном алгоритме данные представлены множеством графов в топологическом пространстве их метрик, описывающих состояния сети во времени.

Литература

1. Bunke H., Dickinson P. J., Kraetzl M., Wallis W. D. A Graph-Theoretic Approach to Enterprise Network Dynamics. - Basel: Birkhauser, 2007. - 226 p.

2. Fischer A., Suen C. Y., Frinken F., Riesen K., Bunke H. A Fast Matching Algorithm for Graph-Based Handwriting Recognition // Graph-Based Representations in Pattern Recognition. 2013. Vol. 7877. P. 194-203.

3. Аллакин В. В., Будко Н. П., Васильев Н. В. Общий подход к построению перспективных систем мониторинга распределенных информационно-телекоммуникационных сетей // Системы управления, связи и безопасности. 2021. №4. C. 125-227. DOI: 10.24412/2410-9916-2021-4-125-227.

4. Umeyama S. An eigendecomposition approach to weighted graph matching problems // IEEE Transactions on Pattern Recognition and Machine Intelligence. 1988. Vol. 10. No. 5. P. 695-703.

5. Bunke H., Günter S. Weighted mean of a pair of graphs // Computing. 2001. Vol. 67. No. 3. P. 209-224.

6. Wallis W. D., Shoubridge P. J., Kraetzl M., Ray D. Graph distances using graph union // Pattern Recognition Letters. 2001. Vol. 22. P. 701-704.

7. Bunke H. On a relation between graph edit distance and maximal common subgraph // Pattern Recognition Letters. 1997. Vol. 18. P. 689-694.

8. Bunke H., Kraetzl M., Shoubridge P. J., Wallis W. D. Measuring abnormal change in large data networks // In Proceedings of the International Conference on Information: Decision and Control. Adelaide. 2002. Р. 53-58.

9. Bunke H., Messmer B. Recent advances in graph matching // International Journal of Pattern Recognition and Artificial Intelligence. 1997. Vol. 11. No. 1. P. 169203.

10. Garcia S., Grill M., Stiborek J., Zunino A. An empirical comparison of botnet detection methods // Computers and Security Journal. 2014. vol. 45. P. 100-123. URL: http://dx.doi.org/10.1016/j.cose.2014.05.011 (дата обращения 15.11.2021).

11. Цветкович Д., Дуб М., Захс Х. Спектры графов: теория и применение. Киев: Наукова думка, 1984. 384 с.

12. Dickinson P. Graph Based Techniques for Measurement of Intranet Dynamics. PhD thesis. Adelaide: Institute for Telecommunications Research, University of South Australia, 2006.

13. Günter S., Bunke H. Self-organizing map for clustering in the graph domain // Pattern Recognition Letters. 2002. Vol. 23. No. 4. P. 405-417.

14. Günter S., Bunke H. Validation indices for graph clustering // Pattern Recognition Letters. 2003. Vol. 24. No. 8. P. 1107-1113.

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

15. Jiang X., Bunke H. On median graphs: Properties, algorithms, and applications // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2001. Vol. 23. No. 10. P. 1144-1151.

16. Бильгаева Л. П., Самбялов З. Г. Оценка качества алгоритмов кластеризации // Вестник Восточно-Сибирского государственного университета технологий и управления. 2013. № 6. C. 53-60.

17. Нашивочников Н. В., Пустарнаков В. Ф. Топологические методы анализа в системах поведенческой аналитики // Вопросы кибербезопасности. 2021. № 2. C. 26-36. DOI: 10.21681/2311-3456-2021-2-26-36.

References

1. Bunke H., Dickinson P. J., Kraetzl M., Wallis W. D. A Graph-Theoretic Approach to Enterprise Network Dynamics. Basel, Birkhauser, 2007. 226 p.

2. Fischer A., Suen C. Y., Frinken F., Riesen K., Bunke H. A Fast Matching Algorithm for Graph-Based Handwriting Recognition. Graph-Based Representations in Pattern Recognition, 2013, vol. 7877, pp. 194-203.

3. Allakin V. V., Budko N. P., Vasiliev N. V. A general approach to the construction of advanced monitoring systems for distributed information and telecommunications networks. Systems of Control, Communication and Security, 2021, no. 4, pp. 125-227. DOI: 10.24412/2410-9916-2021-4-125-227 (in Russian).

4. Umeyama S. An eigendecomposition approach to weighted graph matching problems. IEEE Transactions on Pattern Recognition and Machine Intelligence, 1988, vol. 10, no. 5, pp. 695-703.

5. Bunke H., Günter S. Weighted mean of a pair of graphs. Computing, 2001, vol. 67, no. 3, pp. 209-224.

6. Wallis W. D., Shoubridge P. J., Kraetzl M., Ray D. Graph distances using graph union. Pattern Recognition Letters, 2001, vol. 22, pp. 701-704.

7. Bunke H. On a relation between graph edit distance and maximal common subgraph. Pattern Recognition Letters, 1997, vol. 18, рр. 689-694.

8. Bunke H., Kraetzl M., Shoubridge P. J., Wallis W. D. Measuring abnormal change in large data networks. In Proceedings of the International Conference on Information, Decision and Control. Adelaide, 2002, pр. 53-58.

9. Bunke H., Messmer B. Recent advances in graph matching. International Journal of Pattern Recognition and Artificial Intelligence, 1997, vol. 11, no. 1, pp. 169203.

10. Garcia S., Grill M., Stiborek J., Zunino A. An empirical comparison of botnet detection methods. Computers and Security Journal, 2014, vol. 45, pp. 100-123. Available at: http://dx.doi.org/10.1016/j.cose.2014.05.011 (accessed 15 November 2021).

11. Tsvetkovich D., Dubh M., Sachs H. Spektry grafov. Teoriya i primenenie [Spectra of graphs. Theory and application]. Kiev, Naukova dumka Publ., 1984. 384 p. (in Russian).

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

12. Dickinson P. Graph Based Techniques for Measurement of Intranet Dynamics. PhD thesis. Adelaide, Institute for Telecommunications Research, University of South Australia, 2006.

13. Günter S., Bunke H. Self-organizing map for clustering in the graph domain. Pattern Recognition Letters, 2002, vol. 23, no. 4, pp. 405-417.

14. Günter S., Bunke H. Validation indices for graph clustering. Pattern Recognition Letters, 2003, vol. 24, no. 8, pp. 1107-1113.

15. Jiang X., Bunke H. On median graphs: Properties, algorithms, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, vol. 23, no. 10, pp. 1144-1151.

16. Bilgaeva L. P., Sambyalov Z. G. Ocenka kachestva algoritmov klasterizacii [Evaluation of the quality of clustering algorithms]. Vestnik Vostochno-Sibirskogo gosudarstvennogo universiteta tekhnologij i upravleniya, 2013, no. 6, pp. 53-60 (in Russian).

18. Nashivochnikov N. V., Pustarnakov V. F. Topologicheskie metody analiza v sistemah povedencheskoj analitiki [Topological methods of analysis in behavioral analytics systems]. Voprosy kiberbezopasnosti, 2021, no. 2, pp. 26-36. DOI: 10.21681/2311-3456-2021-2-26-36 (in Russian).

Статья поступила 05.12.2021 г.

Информация об авторах

Будко Никита Павлович - соискатель ученой степени кандидата технических наук. Независимый специалист. Область научных интересов: мониторинг информационных ресурсов; сбор и обработка информации. E-mail: budko62 @ mail.ru

Адрес: 194064, г. Санкт-Петербург, ул. Бутлерова, 9, корп. 3, кв. 252.

Васильев Николай Владимирович - кандидат технических наук. Начальник сектора. Публичное акционерное общество «Информационные телекоммуникационные технологии». Область научных интересов: мониторинг информационных ресурсов; сбор и обработка информации. E-mail: [email protected]

Адрес: 197342, Россия, г. Санкт-Петербург, ул. Кантемировская, д. 8.

Review of graph-analytical approaches to monitoring of information and telecommunication networks and their application

to identify abnormal states

N. P. Budko, N. V. Vasiliev

Task statement: Problem statement: modern approaches to monitoring telecommunications networks are focused on measuring the state of individual devices and services, leaving behind the scenes the state of the network "as a whole" as a single monitoring object. As a consequence, for sufficiently large telecommunication networks, especially in the case when the network element is present in the measurement for

DOI: 10.24412/2410-9916-2021-6-53-75

Системы управления,связи и безопасности №6. 2021

Systems of Control, Communication and Security ISSN 2410-9916

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

an insignificant time compared to the period of existence of the entire network, it becomes impossible to analyze the monitoring results. Despite the increasing prevalence of multidimensional data analysis methods in monitoring systems, the task of visual representation of the "health of the network" is more than relevant. Moreover, unlike multidimensional data cubes, the interpretation and analysis of which is akin to art, methods based on the editorial distance of graphs make it possible to visually visualize the dynamics of not only the entire network, but also its individual fragment, which requires less qualification of personnel operating telecommunication systems. The lack of methods for identifying the state depending on the degree of topology change has long hindered the practical application of methods based on the distance of graph editing. However, the development of the theoretical basis, in particular, the proof of results in the field of average sequence graphs and clustering methods, makes it possible to remove the requirement of preliminary normalization of the measure of topology change, replacing it with the concept of a "cluster of state". The purpose of the work is to develop, on the basis of a scientific and methodological apparatus for evaluating graph sequences, a technique for detecting abnormal states of a telecommunications network by analyzing the degree of change in the topology of a monitoring object. Methods used: methods of computational graph theory; methods of data analysis (cluster analysis); linear algebra and spectral graph theory; methods of behavioral analytics; network monitoring technologies as a set of engineering practices that support reliable and trouble-free operation of applications in the present and future; Operation Support Systems, as a technology to support operations; methods of system analysis, structural synthesis, prediction theory, diagnostic theory, classification theory. The novelty of the work: the novelty of the research is determined by the completeness of the analysis of existing graph-analytical approaches and the use of theoretical results on the averaging of graph sequences within the k-means algorithm to form an adaptive classification methodology for assessing the state of a telecommunications network. Result: based on a preliminary analysis of the results in the field of graph monitoring of telecommunication networks, as well as graph clustering methods, an approach to identifying abnormal states of a telecommunications network is proposed. The proposed approach has been tested on real data of a botnet attack on a telecommunications network and shows a fairly clear identification of the periods when the network is in various states, such as: attack, normal and transient modes.

Keywords: graph editing distance, average graph, graph spectrum, graph clustering, information and telecommunication network, network monitoring subsystem.

Information about Authors

Nikita Pavlovich Budko - Doctoral Student. An independent specialist. Field of research: information monitoring; data acquisition. E-mail: [email protected] Address: 194064, Russia, St. Petersburg, Butlerova str., build. 9/3, sq. 252. Nikolay Vladimirovich Vasiliev - Ph.D. of Engineering Sciences. The head of the sector. Public Joint Stock Company "Information Telecommunications Technologies". Field of research: information monitoring; data acquisition. E-mail: [email protected]

Address: 197342, Russia, St. Petersburg, Kantemirovskaya St. 8.

DOI: 10.24412/2410-9916-2021-6-53-75

i Надоели баннеры? Вы всегда можете отключить рекламу.