Gavzov Vasily Viktorovich, adjunct, [email protected], Russia, Ryazan, Ryazan Guards Higher Airborne Command School,
Schenev Evgeny Sergeyevich, student, [email protected], Russia, Ryazan, Ryazan State Radio Engineering University,
Areshin Gennady Viktorovich, head of the department, [email protected], Russia, Ryazan, Ryazan Guards Higher Airborne Command School
УДК 004.023 DOI: 10.24412/2071-6168-2021-5-316-323
ЦЕНТРАЛИЗОВАННО-РАСПРЕДЕЛЕННАЯ МОДЕЛЬ СИСТЕМЫ ОБНАРУЖЕНИЯ АНОМАЛИЙ
А.А. Сычугов, М.М. Греков
Распределенные информационные системы (РИС) обладают рядом достоинств, но мониторинг состояний и управление средствами защиты информации становятся сложнее. Системы обнаружения вторжений, основанные на аномалиях и алгоритмах машинного обучения, являются перспективным инструментом защиты информации, однако несбалансированность наборов данных и их распределенное хранение затрудняет процесс обучения. Предлагаемая централизованно-распределенная архитектура системы обнаружения аномалий позволит избежать обработки полного набора данных на центральном узле, сохранив достоинства РИС, а применение генеративно-состязательной нейронной сети помогает дополнить малочисленные классы данных.
Ключевые слова: распределенные информационные системы, системы обнаружения аномалий, несбалансированность данных, генеративно-состязательные нейронные сети, машинное обучение.
В настоящее время растёт потребность в применении распределенных вычислений, которые позволяли бы обрабатывать большие объемы данных в реальном времени. Распределенные информационные системы (РИС) являются программно-аппаратными системами, функционирование которых обеспечивается множеством элементов, разнесенных территориально. Компонентами такой системы являются соединенные линиями связи узлы, на которых хранится и обрабатывается информация. Концепция распределённой архитектуры предполагает более высокий уровень отказоустойчивости, так как отказ одного элемента, как правило, не влечёт за собой отказ всей системы. Другими важными достоинствами являются параллельность вычислений и возможность как вертикального, так и горизонтального масштабирования. В отличие от централизованной системы, в распределённой системе существенно снижается нагрузка на каналы связи, а также потенциально повышается конфиденциальность хранимой информации.
Несмотря на все достоинства, контролировать состояние РИС сложнее, так как данные с каждого узла не собираются в единой точке, как в случае централизованного подхода. В связи с этим, осложняется мониторинг и управление средствами защиты информации. В качестве компромиссного решения можно применить централизованно-распределенный подход, в котором обработка данных осуществляется на разнесённых элементах системы, а результаты направляются на центральный узел, обеспечивающий возможность контроля за средствами защиты информации с минимальной нагрузкой на линии связи.
На сегодняшний день важным компонентом комплексной защиты является система обнаружения вторжений (СОВ) [1], способная регистрировать события и выявлять среди них факты вредоносной активности в компьютерной сети [2]. Несмотря на распространенность сигнатурного метода детектирования, он не позволяет распознавать неизвестные шаблоны атак, в отличие от подхода, основанного на поиске аномалий. Перспективным направлением в системах обнаружения аномалий (СОА) является применение машинного обучения [2], однако исследования в этой области предполагают наличие доступа к полному набору данных, что возможно в централизованных системах, но противоречит концепции распределенного подхода, так как в таком случае потребуется передать информацию со всего множества элементов в одну точку, где располагается СОА.
Важной задачей является устранение несбалансированности набора данных, на котором обучается алгоритм СОА, которая приводит к снижению эффективности обнаружения редких классов [3]. Например, сетевые аномалии встречаются гораздо реже, так как в основном система находится в нормальном состоянии и не атакуется. Существуют различные приемы балансировки наборов данных [4], среди которых наибольший интерес представляет генерация новых экземпляров. Генеративно-состязательные нейронные сети (Generative Adversarial Networks, GAN) способны создавать новые образцы на основе исходного распределения класса данных, что позволяет дополнить оригинальное множество [5]. В основе GAN лежит две нейронных сети: генератор создает новые образцы похожие на оригинальные, а дискриминатор - пытается различить сгенерированные и реальные данные.
В данной работе предлагается централизованно-распределенная архитектура системы обнаружения аномалий, позволяющая оценить состояние всего множества распределенных элементов без обработки полного набора данных на центральном узле. В качестве усиления СОА применяется генеративно-состязательная нейронная сеть для дополнения малочисленных классов в обучающем наборе данных.
Централизованно-распределенная модель. Пусть множество А распределенной информационной системы состоит из N узлов:
A = {аъ a2,...ÜN }
где каждый элемент a. содержит некоторое множество d. ранее переданных ему данных, которые имеют распределение pdata. (я), где х является некоторой информацией.
Полное множество D доступных во всей системе данных с распределением Pdata можно получить объединением подмножеств d.:
D = {dj u d2 u.. .dN }.
Схема предложенной централизованно-распределенной архитектуры продемонстрирована на рис. 1. Центральный узел используется только во время обучения и выполняет роль генератора в распределенной модели GAN. Каждый узел a. связан с соседним таким образом, чтобы образовывать циклическую связь. Кроме того, каждый элемент множества A соединен с центральным узлом.
Располагаемый на центральном узле, генератор G для каждого элемента a. создает образцы по некоторому распределению pg , получить которое можно из отображения G. (z; 0 g ), где G. - искусственная нейронная сеть (Artifical Neural Networks, ANN) с параметрами 0g , а z - случайная величина (noise, шум) с распределением pz. (z) . Также для каждого узла a. определяется дискриминатор D. (х; 0d.), где х - реальные или сгенерированные данные, а 0di - параметры нейронной сети, которая на
вход получает образцы из двух множеств и на выходе выдает оценку в интервале от 0 (сгенерированные) до 1 (реальные).
Элемент а^
Дискриминатор
г t t
1 Обновление ; Данные
J весов • элемента d1
Ядро СОА
Элемент aN
Дискриминатор
Обновление весов 1 Данные 1 элемента dN
1
• —► Ядро СОА
Центральный узел
Генератор
Обновление -> весов
Ядро СОА
Выход дискриминатора
Веса генератора Веса дискриминатора
Дискриминатор
И . t
Обновление : Данные
весов элемента d?
Рис. 1. Схема централизованно-распределенной архитектуры СОВ
Цель генератора производить образцы максимально похожие на реальные данные. С другой стороны, каждый дискриминатор на узлах множества А стремится отличить сгенерированные экземпляры от своего собственного набора данных, что является простой задачей на ранних этапах обучения, так как полученные от слабо обученного генератора экземпляры следуют из распределения р^ ^ Р^а- и соответствуют аномальному состоянию системы.
Центральный генератор и дискриминатор на каждом узле взаимодействуют друг с другом, чтобы найти оптимальные 9 а и 9 л . Если в конце обучения
бг и1
р^ = р^а(а., дискриминатор больше не может отличить сгенерированные и реальные
образцы, на его выходе будет значение близкое к 1, а любые другие данные, отлича-
2
ющиеся от распределения нормального состояния, будут классифицированы как аномалия.
Это взаимодействие можно смоделировать с помощью бинарной кросс-энтропийной функции потерь (1), которая позволяет определить величину ошибки нейронных сетей. Генератор будет стремиться минимизировать функцию потерь (1), а дискриминатор - максимизировать, поэтому оптимальные решения могут быть получены из следующей минимаксной игры [5]:
minmax V (Ц, Gt) = Ex~ ^ (х) [log Ц (х)] + Ez ~^ (г) [log(1 - Ц (Q (z)))]. (1)
Gi Di 1
Однако у каждого элемента щ есть доступ только к его собственному набору
данных:
гшп тах V-(Ц, С-) = Ех~р^ (х) [log Ц(х)] + Е2~р^ (^) [log(1 - Ц (0-(г)))]. Если генератор производит партии по т образцов для каждого дискриминатора
узла cij, то его целевая функция:
m
1 т , л
^ = - X 1°§(1 - а. (С (г(3)))). (2)
г тз=1
Каждый элемент а. направляет результаты функции (2) на центральный узел, где вычисляется среднее значение ошибки генератора на всех дискриминаторах:
- 1 п
1с = - X ^ (3)
пг=1 -318
Полученное в (3) значение используется для обновления весов генератора методом градиентного спуска. Таким образом, в конце обучения централизованный генератор может создавать образцы из распределения pg, которое подобно распределению
полного набора данных Pdata.
Однако дискриминаторы располагаются на узлах РИС и являются автономными, так как имеют доступ только к своим собственным данным, Pdata ^ Pdcita- • В таком
случае оптимальным значением будет [6]:
V (Di, G-) = -log(4) + JSD(pdatai 11 Pdata ^ (4)
где JSD - дивергенция Дженсена-Шеннона между Pdata. и Pdata.
Известно [5], что глобальный минимум достигается тогда и только тогда, когда Pg = Pdata, и дивергенция Дженсена-Шеннона между двумя распределениями в таком
случае всегда неотрицательна и равна нулю, а значит оптимальное значение GAN модели, у которой есть доступ ко всему набору данных, равно -log(4).
Таким образом, необходимо выполнить условие Pdata = Pdata■, то есть дискриминаторы должны обучаться на всем множестве данных D, иначе оптимальное значение будет отличаться от глобального минимума на величину JSD(Pdata- II Pdata), как
следует из (4) [6].
Также известно [5], что выход оптимального дискриминатора централизованной модели GAN, у которой есть доступ к полному набору данных, является равным 1.
2
Поэтому различие между автономным дискриминатором на узле распределенной си-
стемы,
D (x) = ■
Pdata-, и централизованным с полными данными, D(x) =1, со-
2
pdata + pgj
ставляет величину ошибки автономной модели GAN.
pdata (x)
TP = E
1 -
1
pdataj(x) + pdata (x)
1
2
где максимум достигается, когда Pdatct- (х) = р^а(а(х), поэтому количество истинно
положительных (True Positive) результатов у автономного дискриминатора меньше из-за отсутствия доступа к полному набору данных.
Несмотря на то, что автономный дискриминатор на узле аj может детектировать аномалии в распределении собственного набора данных, злоумышленник может проникнуть в систему через другой узел и остаться незамеченным. Наличие централизованной СОВ, контролирующей все элементы множества РИС, позволит обнаружить вторжение на всех элементах aj, однако в таком случае проявляются недостатки присущие централизованному подходу, а успешное нападение на центральный узел обеспечивает злоумышленнику свободный доступ ко всем элементам aj.
Необходимо осуществить процесс обучения без обмена множествами dj так, чтобы дискриминатор в каждом элементе aj мог отличить сгенерированный образец от полного набора данных, распределенного по узлам множества А. В предложенной централизованно-распределенной системе каждый элемент aj обучен на множестве D путём обмена весами, что позволяет обнаруживать вторжения на соседних элементах без обмена данными di .
Таким образом, необходимо определить период эпох К, через который осуществляется связь с центральным узлом, а также период Т, в который элементы обмениваются друг с другом своими параметрами.
Каждую К-ую эпоху веса генератора фиксируются, и он производит партии образцов и отправляет их каждому узлу щ. Также дискриминатор каждого элемента
множества А принимает на вход партию из собственного набора реальных данных .
На основе полученного на входе дискриминатора множества сгенерированных и реальных экземпляров вычисляется следующая функция потерь:
Ц = - Е [ВД (х(])) + 1о8(1 - а (Ог (/%)].
т]=1
Затем оптимизатор обновляет веса дискриминатора каждого элемента а^, используя метод градиентного спуска. Также через период К вычисляется целевая функция (2) и каждый узел а^ посылает генератору полученные значения, которые используются для вычисления (3).
Через период Т дискриминатор узла а^ отправляет свои веса соседнему дискриминатору. Если линия связи между элементами множества А образует цикл, то в конечном итоге все узлы системы получат веса соседнего дискриминатора. Так как в процессе передаются значения весов, а не данные, повышается конфиденциальность информации во время обучения, а также снижается нагрузка на линии связи. В свою очередь, в предложенной централизованно-распределённой архитектуре генератор обучается на значениях функции потерь от всех элементов, а дискриминатор - на полном множестве D. Таким образом, через достаточное количество учебных эпох центральный генератор будет сходиться к распределению полного набора данных, а дискриминаторы на узлах РИС будут подобны централизованному дискриминатору, у которого есть доступ к полному набору данных Б.
Структура элемента централизованно-распределенной модели. Каждый узел централизованно-распределенной системы состоит из трёх основных частей: модуль данных (система сбора и хранения данных), ядро системы обнаружения аномалий и дискриминатор. На рис. 2 представлена схема элемента а^, а также центральный узел,
на котором располагается общий для всех а^ генератор.
Система сбора данных (ССД) предназначена для передачи реальных данных о работе системы в хранилище, в которое также поступают образцы от генератора. Накопление происходит параллельно и непрерывно, в зависимости от класса данных, реальные или сгенерированные, ставится метка. Например, если система обнаружения вторжений предназначена для детектирования аномалий в сети, то необходимо записывать данные, захватывая сетевые пакеты.
В ССД также осуществляется предварительная подготовка данных, которая заключается в преобразовании атрибутов в вид приемлемый для обработки в ядре СОА: осуществляется нормализация значений и кодирование символьных признаков.
Ядро системы обнаружения аномалий (СОА) представляет собой алгоритм машинного обучения, на основе которого осуществляется классификация записей из хранилища, что позволяет произвести анализ текущего состояния элемента множества А.
Генератор и дискриминатор представляют собой модуль генерации данных, который предназначен для усиления существующего ядра СОА путём создания экземпляров из малочисленных классов, что позволяет сбалансировать набор данных.
Процесс обучения ядра системы обнаружения аномалий осуществляется на всем наборе данных из хранилища элемента а^. Тестирование ядра происходит на новых собранных экземплярах данных или же на части множества , которое предварительно отделено и не применяется во время обучения. Если получены неудовлетвори-
320
тельные результаты, осуществляется повторная генерация новых образцов, чтобы дополнить малочисленный класс данных. Подобно обмену весов дискриминаторов через заданный период каждое ядро отправляет параметры соседним элементам, что позволяет обучить распределенную СОВ на всем наборе данных.
Рис. 2. Структура элемента централизованно-распределенной модели
Стоит отметить, что после обучения каждый дискриминатор способен обнаружить вторжения без использования ядра СОА, но в таком случае предполагается, что во время обучения множество dj содержит записи только о нормальном состоянии системы. Тогда после сходимости GAN модели не будет никакой необходимости в центральном генераторе, поскольку все дискриминаторы могут обнаружить вторжение в систему. Если на выходе дискриминатора получен результат 1/2, то проверяемый образец принадлежит распределению данных о нормальном состоянии системы, иначе получая значения близкие к 0 или 1, можно судить об аномалии. Таким образом, в распределенной архитектуре GAN каждый дискриминатор может обнаруживать вторжение как в свои собственные данные, так и в соседние.
В данной работе была предложена централизованно-распределенная модель системы обнаружения вторжений, которая позволит детектировать аномалии с минимальной зависимостью от центрального узла. Чтобы сбалансировать набор данных, на котором обучается система, предложено применить генеративно-состязательные нейронные сети. Генератор на центральном узле позволяет создавать новые образцы из распределений редких классов, а дискриминаторы на элементах распределенной информационной системы способны обнаруживать аномалии в полном наборе данных. Обмен весами между дискриминаторами и ядрами системы обнаружения аномалий позволяет контролировать состояние всех элементов системы, при этом в фазе обучения не происходит обмен хранимыми на узлах данными.
Список литературы
1. Scarfone K., Mell P. Guide to intrusion detection and prevention systems (idps) // NIST special publication. 2007. Т. 800. №. 2007. С. 94.
2. Aldweesh A., Derhab A., Emam A. Z. Deep learning approaches for anomaly-based intrusion detection systems: A survey, taxonomy, and open issues // Knowledge-Based Systems. 2020. Т. 189. С. 105-124.
3. Letteri I. и др. A Novel Resampling Technique for Imbalanced Dataset Optimization // arXiv preprint arXiv:2012.15231. 2020.
4. Никулин В.Н., Канищев И.С., Багаев И.В. Методы балансировки и нормализации данных для улучшения качества классификации // Компьютерные инструменты в образовании. 2016. №. 3.
5. Goodfellow I.J. и др. Generative adversarial networks // arXiv preprint arXiv: 1406.2661. 2014.
6. Ferdowsi A., Saad W. Generative adversarial networks for distributed intrusion detection in the internet of things // 2019 IEEE Global Communications Conference (GLOBECOM). IEEE, 2019. С. 1-6.
Сычугов Алексей Алексеевич, канд. техн. наук, доцент, директор института прикладной математики и компьютерных наук, [email protected], Россия, Тула, Тульский государственный университет,
Греков Михаил Михайлович, студент, [email protected], Россия, Тула, Тульский государственный университет
APPLICATION OF GENERATIVE ADVERSARIAL NETWORKS IN ANOMALY
DETECTION SYSTEMS
A.A. Sychugov, M.M. Grekov
Distributed Information Systems (DIS) have a number of advantages, but state monitoring and security management are becoming more complex. Intrusion detection systems based on anomalies and machine learning algorithms are a promising tool for protecting information, but the imbalance of data sets and their distributed storage complicates the learning process. The proposed centralized-distributed architecture of the anomaly detection system will avoid processing the full data set at the central node, while retaining the advantages of DIS, and the use of a generative adversarial neural network helps to supplement small data classes.
Key words: distributed information systems, anomaly detection systems, data imbalance, generative adversarial networks, machine learning.
Sychugov Alexey Alexeevich, candidate of technical science, head of chair, [email protected], Russia, Tula, Tula State University,
Grekov Mikhail Mikhailovich, student, [email protected], Russia, Tula, Tula State University