Научная статья на тему 'О возможности применения методов data Mining для анализа распределённых атак в сети'

О возможности применения методов data Mining для анализа распределённых атак в сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
181
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / АНАЛИЗ ТРАФИКА / РАСПРЕДЕЛЕННАЯ СЕТЕВАЯ АТАКА / ЗАЩИТА ИНФОРМАЦИИ / КОМПЬЮТЕРНЫЕ СЕТИ / DATA MINING / TRAFFIC ANALYSIS / DISTRIBUTED ATTACK / DATA SECURITY / COMPUTER NETWORKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шипулин П.М., Шниперов А.Н.

Приводится обзор нескольких методов Data Mining в контексте выявления и анализа распределенных сетевых атак на объекты информатизации ракетно-космической области. Для проверки эффективности описывается решение реальной практической задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шипулин П.М., Шниперов А.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING METHODS APPLYING POSSIBILITY FOR NETWORK DISTRIBUTED ATTACKS ANALYSIS

Some methods of Data Mining are reviewed for purposes of distributed attacks on space industry detecting and analysis. Also the real solution of the practical problem is considered.

Текст научной работы на тему «О возможности применения методов data Mining для анализа распределённых атак в сети»

УДК 004.056

О ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ МЕТОДОВ DATA MINING ДЛЯ АНАЛИЗА РАСПРЕДЕЛЁННЫХ АТАК В СЕТИ

П. М. Шипулин1, А. Н. Шниперов2

:АО «Информационные спутниковые системы» имени академика М. Ф. Решетнева» Российская Федерация, 662972, г. Железногорск Красноярского края, ул. Ленина, 52

2Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 E-mail: pshipulin@gmail.com

Приводится обзор нескольких методов Data Mining в контексте выявления и анализа распределенных сетевых атак на объекты информатизации ракетно-космической области. Для проверки эффективности описывается решение реальной практической задачи.

Ключевые слова: интеллектуальный анализ данных, анализ трафика, распределенная сетевая атака, защита информации, компьютерные сети.

DATA MINING METHODS APPLYING POSSIBILITY FOR NETWORK DISTRIBUTED

ATTACKS ANALYSIS

P. M. Shipulin1, A. N. Shniperov2

1JSC "Academician M. F. Reshetnev "Information satellite systems" 52, Lenin Str., Zheleznogorsk, Krasnoyarsk region, 662972, Russian Federation

2Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation E-mail: pshipulin@gmail.com

Some methods of Data Mining are reviewed for purposes of distributed attacks on space industry detecting and analysis. Also the real solution of the practical problem is considered.

Keywords: Data Mining, traffic analysis, distributed attack, data security, computer networks.

Рост объёма информации, подлежащей анализу в системах защиты информации (СЗИ) уровня сети, провоцирует развитие методов анализа больших объёмов данных. Именно такие объёмы мы можем видеть на границах локальных сетей современных объектов информатизации ракетно-космической области. При этом атаки на информационные системы часто носят распределённый характер (как географически, так и, по времени), что в свою очередь серьёзно затрудняет их выявление. Методы интеллектуального анализа данных (Data Mining) [1] давно используются в информационных технологиях, при этом сравнительно недавно в области информационной безопасности (ИБ).

Данная работа посвящена обзору некоторых методов Data Mining, цель её заключается в проверки их эффективности в условиях реальной практической задачи по выявлению инцидентов ИБ. Для достижения поставленной цели была сформулирована вполне реальная практическая задача. На основании имеющегося журнала http-событий Web-сервера Apache (так называемый access logs file), полученного в ходе соревнований по ИБ KrasCTF-2015, необходимо выяснить, имела ли место недобросовестная игра, т. е. объединялись ли команды в «союзы», решая задания вместе, что в свою очередь прямо противоречит правилам игры. При этом априори неизвестно, какие ip-адреса были у членов команд. Известно лишь количество команд и количество участников в них. Для ответа на поставленный вопрос необходимо найти /p-адреса участников команд.

Прикладной уровень сетевого взаимодействия для проведения эксперимента выбран не случайно: существует мнение, что с ростом уровня модели OSI задача анализа трафика усложняется [2].

Секция «Методы и средства зашиты информации»

Теоретическая база эксперимента. С формальной точки зрения решение поставленной задачи сводится к задаче кластеризации данных. Она заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных [2].

Для алгоритма кластеризации элементарная единица данных - объект х е X из множества всех

объектов, имеющий некоторый вектор характеристик х(г) = {уьу2,...,у^} , где у, - отдельная характеристика объекта х(г) е Хт из соответствующей конечной выборки Хг' 4 = {х(1), х(2),..., х(т)}с X . Количество характеристик й определяет размерность пространства характеристик. Пусть У - множество кластеров на которые требуется разбить Хт, тогда задача кластеризации есть отображение Хт ^ Ук , т. е. задача построения оптимального разбиения объектов на К кластеров [3]. В качестве алгоритма кластеризации нами был выбран алгоритм к-средних (к-тват), называемый быстрым кластерным анализом [4]. Оптимальность может определяться как требование минимизации среднеквадратической ошибки к _ м м2

, где цу - центроид для кластера У] (точка в пространстве характе-

разбиения: min

II Р ) - ^ у

J=1 x('=D

ристических векторов со средними для данного кластера значениями характеристик).

Визуализация кластерной структуры на практике является достаточно непростой задачей, один из вариантов решения - многомерное шкалирование (multidimensional scaling, MDS) [4].

Кластеризация по виду запросов. Кластеризуем ip-адреса на команды, составив вектора характеристик следующим образом: x(i) = {v1,v2,...,vd}, где vi - количество запросов отJ-ого ip-адреса с URL определённого вида.

Рис. 1. Дисперсия разбиений на кластеры с К е [2; 25]

Положим количество команд неизвестным, тогда в ряду экспериментов разобьём адреса на К групп, где К е [2;25]. Верхнее значение мотивировано положением о соревнованиях: в командах

должно быть больше одного человека, т. е. [51/2] = 25.

Выдвинем гипотезу, необходимую для оценки качества разбиений: пусть количество игроков в командах одинаковое. В этом случае для оценки разбиений можно использовать плотность распределения количества /^-адресов по командам.

Рис. 2. Кластеризация при к = 3

Как мы можем видеть на рис. 1, к е [8; 101, где к - число команд при оптимальном разбиении тр-адресов (место перегиба функции дисперсии): ниже дисперсия резко спадает вниз, выше - практически не изменяется (в соревнованиях принимало участие 11 команд).

На рис. 2 видим графическое представление кластеризации тр-адресов (алгоритмом к-средних) при помощи механизма MDS.

Кластеризация по схожести запросов в некотором интервале времени. Для уточнения разбиений выдвинем гипотезу, что большинство членов команды единовременно брались за выполнение одного задания.

В данном эксперименте были использованы характеристические вектора вида x() = {vi, v2,.., vd}, где vi - количество запросов от /-ого ip-адреса с URL определённого вида и временной меткой из промежутка At = [(T - 5); (T + 5)], где 5 ^ 0 , T- некоторая временная точка в ходе соревнований.

Выводы. При визуальной оценке кластеров было замечено, что стратегии запросов некоторых ip-адресов весьма близки друг от друга, но не идентичны, таким образом недобросовестная игра команд не подтверждается. Однако для окончательного принятия решения видится перспективным строить разбиения за разные промежутки времениT1,T2,...,Tn ,а потом анализировать их пересечения.

Кроме того, можно выдвинуть гипотезу: для повышения достоверности кластеризации, необходимо использовать вектора характеристик объектов x(i) е Xm большей размерности d, т. е. использовать информацию из других полей журнала событий Web-сервера. Однако данная задача осложняется тем, что необходимо формализовывать правила корреляции различных признаков. Данные направления являются предметом дальнейших исследований.

Разработка метода решения подобных задач может позволить решить более серьёзные задачи в области ИБ, в частности исследования распределённых сетевых атак.

Библиографические ссылки

1. Анализ данных и процессов / А. А. Барсегян, И. И. Холод, М. Д. Тесс и др.. СПб. : БХВ-Петербург, 2009. 513 с.

2. Osipov P., Borisov A. Non-Signature-Based Methods for Anomaly Detection. Scientific Journal of Riga Technical University. 2010. Vol. 44. C. 107-111.

3. Котов А., Красильников Н. Кластеризация данных, 2006 г. [Электронный ресурс]. URL: http://logic.pdmi.ras.ru/~yura/internet/02ia-seminar-note.pdf (дата обращения: 29.03.2016).

4. Воронцов К. В., Лекции по алгоритмам кластеризации и многомерного шкалирования [Электронный ресурс]. URL: http://www.ccas.ru/voron/download/Clustering.pdf (дата обращения: 29.03.2016).

© Шипулин П. М., Шниперов А. Н., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.