Научная статья на тему 'Редукция размерности пространства состояний в задачах анализа сетевого трафика'

Редукция размерности пространства состояний в задачах анализа сетевого трафика Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
710
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД ГЛАВНЫХ КОМПОНЕНТ / ЛИНЕЙНЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ / АЛГОРИТМ ФИШЕРА / СНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ / ОБНАРУЖЕНИЕ ВТОРЖЕНИЙ / АНАЛИЗ СЕТЕВОГО ТРАФИКА / FISHER'S LINEAR DISCRIMINANT ANALYSIS LDA / METHOD OF PRINCIPAL COMPONENT ANALYSIS PCA / DECREASE IN DIMENSION OF THE DATA / DETECTION OF INTRUSIONS / THE ANALYSIS OF THE NETWORK TRAFFIC

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нестеренко Виктор Александрович, Таран Анна Александровна

Статья посвящена рассмотрению возможности уменьшения числа характеристик используемых при анализе состояния системы. Задача снижения числа характеристик очень важна при разработке и создании систем обнаружения вторжений: С увеличением числа характеристик улучшается качество систем обнаружения вторжений, с одной стороны, и уменьшается призводительность и быстродействие, с другой стороны. Рассмотрены два метода: метод главных компонент (principal component analysis PCA) и линейный дискриминантный анализ Фишера (Fisher's linear discriminant analysis LDA). Проводится оценка эффективности этих методов и примеры их практического использования при анализе сетевого трафика.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нестеренко Виктор Александрович, Таран Анна Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REDUCTION OF DIMENSION STATE-SPACE PROBLEM OF ANALYSIS OF NETWORK TRAFFIC

The article is devoted consideration of possibility of reduction of number of characteristics used at the analysis of a system. The problem of decrease in number of characteristics is very important by working out and creation of systems of intrusions detection: With increase in number of characteristics quality of systems of intrusions detection improves on the one hand and speed decreases on the other hand. Two methods are considered: Method of principal component analysis (PCA) and Fisher's linear discriminant analysis (LDA). The estimation of efficiency of these methods and examples of their practical use is spent at the analysis of the network traffic.

Текст научной работы на тему «Редукция размерности пространства состояний в задачах анализа сетевого трафика»

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Insertion, Evasion, and Denial of Service: Eluding Network Intrusion Detection. Thomas H.

Ptacek, Timothy N. Newsham [Электронный ресурс] / Режим доступа:

http://insecure.org/stf/secnet_ids/secnet_ids.html, свободный. - Загл. с экрана.

2. Network Based Intrusion Detection. A review of technologies. [Электронный ресурс] / Режим доступа: http://linkinghub.elsevier.com/retrieve/pii/S01674048998 0131X, свободный.

- . .

3. Benchmarking network IDS. [Электронный ресурс] / Режим доступа:

http://archives.neohapsis.com/ archives/sf/ids/2000-q4/0244.html, свободный. - Загл. с экрана.

4. Common Vulnerabilities and Exposures [Электронный ресурс] / Режим доступа: http://Cve.mitre.org, свободный. - Загл. с экрана.

Статью рекомендовал к опубликованию к.т.н., доцент О.Б. Спиридонов.

Абрамов Евгений Сергеевич

Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге.

E-mail: abramoves@gmail.com.

347928, г. Таганрог, пер. Некрасовский, 44.

Тел.: 88634371905.

Кафедра безопасности информационных технологий; к.т.н.; доцент.

Половко Иван Юрьевич

E-mail: ivan.polovko@mail.ru.

Кафедра безопасности информационных технологий; аспирант.

Abramov Evgeny Sergeevich

Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: abramoves@gmail.com.

44, Nekrasovskiy, Taganrog, 347928, Russia.

Phone: +78634371905.

The Department of Security in Data Processing Technologies; Cand. of Eng. Sc.; Associate Professor.

Polovko Ivan Yur’evich

E-mail: ivan.polovko@mail.ru.

The Department of Security in Data Processing Technologies; Postgraduate Student.

УДК 519.254, 004.056

В. А. Нестеренко, А .А. Таран

РЕДУКЦИЯ РАЗМЕРНОСТИ ПРОСТРАНСТВА СОСТОЯНИЙ В ЗАДАЧАХ АНАЛИЗА СЕТЕВОГО ТРАФИКА

Статья посвящена рассмотрению возможности уменьшения числа характеристик используемых при анализе состояния системы. Задача снижения числа характеристик очень важна при разработке и создании систем обнаружения вторжений: С увеличением числа характеристик улучшается качество систем обнаружения вторжений, с одной стороны, и уменьшается призводительность и быстродействие, с другой стороны. Рассмотрены два метода: метод главных компонент (principal component analysis - PCA) и линейный дискриминантный анализ Фишера (Fisher's linear discriminant analysis - LDA). Проводится оценка эффективности этих методов и примеры их практического использования при анализе сетевого трафика.

Метод главных компонент; линейный дискриминантный анализ; алгоритм Фишера; снижение размерности данных; обнаружение вторжений; анализ сетевого трафика.

V.A. Nesterenko, A.A. Taran

REDUCTION OF DIMENSION STATE-SPACE PROBLEM OF ANALYSIS OF NETWORK TRAFFIC

The article is devoted consideration of possibility of reduction of number of characteristics used at the analysis of a system. The problem of decrease in number of characteristics is very important by working out and creation of systems of intrusions detection: With increase in number of characteristics quality of systems of intrusions detection improves on the one hand and speed decreases on the other hand. Two methods are considered: Method of principal component analysis (PCA) and Fisher's linear discriminant analysis (LDA). The estimation of efficiency of these methods and examples of their practical use is spent at the analysis of the network traffic.

Method of principal component analysis - PCA; Fisher's linear discriminant analysis - LDA; decrease in dimension of the data; detection of intrusions; the analysis of the network traffic.

.

интенсивности передачи данных связано с проблемами обработки больших объемов информации. Так, в исследуемой сети или на локальном компьютере постоянно происходит множество событий (системные вызовы, открытие, копирование или удаление файлов, отправка или получение пакетов через сеть, нажатие определенных клавиш и т. п.). Каждое из них описывается с помощью нескольких десятков числовых и качественных характеристик (тип протокола, количество пере, ).

, , рассматриваемое событие нормальным для данной системы или это аномалия, возможно, вывзванная вредоносной активностью. Согласно стандарту RFC-1213 [1] 12 , -

20 . -торы соревнований KDDCup99 [2] использовали 41 параметр для описания сетевых соединений при поиске атак.

С другой стороны, при необоснованном росте размерности данных резко по, , анализаторов. Это недопустимо для программного обеспечения, которое должно обрабатывать данные на лету, в режиме реального времени (системы обнаружения вторжений, брандмауэры, сетевые фильтры и т. п.). Поэтому часто системы обеспечения информационной безопасности в качестве первого шага своей работы применяют алгоритмы снижения размерности входных данных.

В предлагаемой статье рассматривается применение двух линейных алгоритмов снижения размерности в задачах классификации данных, полученных при анализе сетевого трафика. А именно, метод главных компонент (principal component analysis - PCA) и метод линейного дискриминантного анализа Фишера (Fisher's linear discriminant analysis - LDA). Далее приводится краткое описание обоих ,

сетевых вторжений и туннелирования, а также список достоинств и недостатков .

. -

ального анализа данных заключается в поиске оптимального представления данных в пространстве меньшей размерности с максимальным сохранением структуры и свойств исходного набора данных. При этом могут ставится несколько целей. Самая очевидная - устранение избыточности. Другая, более сложная - поиск ,

и структуру исходных данных.

Пусть X С Rd - множество точек в пространстве характеристик, соответствующее множеству событий, возникающих в сети, каждое событие описывается

й характеритиками. Будем считать, что набор характеристик подобран так, что исходное множество однозначно разделяется на 2 различных множества У и X , соответствующих нормальным и аномальным событиям соответственно. Пусть

при этом множество У содержит ЫУ элементов, а мощность множества X - И2. При создании систем обнаружения нарушений необходимо решить задачу разбиения множества X на нормальные У и аномальные X события соответственно. Поскольку работать с большим количеством характеристик непосредственно неудобно (снижается скорость обработки данных, усложняются алгоритмы выявления структуры и т.д.), то для решения указаной задачи в первую очередь необходимо уменьшить размерность пространства характеристик без существенной потери информации о событиях в системе. Мы рассмотрим два линейных алгоритма снижения размерности: метод главных компонент и линейный дискриминантный .

помощи проектирования на выбранное линейное подпространство меньшей размерности. Пусть к < й - размерность пространства проекций, тогда описаная операция может быть представлена как действие линейного отображения

р: X ^ Як по правилу

р: х^>Сх =

~аі

х

'к1 ''М.

, (

, ),

. -

кация может быть осуществлена с использованием обычных операций сравнения (<,>,=) при подсчете разности значения проекции текущей точки и, например, проекций математических ожиданий исходных классов. Тогда действие оператора р можно записать так

р : х стх = \с1

са ]'

(1)

Способ выбора вектора с определяется используемым алгоритмом снижения .

Метод главных компонент. Идея метода главных компонент состоит в выборе в исходном й -мерном пространстве характеристик ортонормированного базиса так, чтобы его первая компонента а1 соответствовала направлению максимального разброса в пространстве событий, следующая а2 определяла направление максимального рассеяния при вычитании из исходных данных проекций на первый базисный вектор и т.д. В конце концов будет получен набор векторов а1, а2 ,..., ап . Из него выбираются первые к векторов. Они являются базисом линейного пространства, на которое будет осуществляться проектирование. Установленно [3], что заданный таким образом набор векторов представляет из себя множество собственных векторов, соответствующих собственным значениям ковариационной матрицы С2 множества событий X. В рассматриваемом случае требуется найти только вектор а1, который соответствует максимально-

х

х

а

му собственному значению ковариационной матрицы С2 и направлению максимального разброса характеристик. И хотя метод главных компонент изначально не был предназначен для классификации данных, однако в случае, когда рассеяние элементов играет важную роль в разделении данных, может быть успешно применен для этой цели.

Метод главных компонент требует, чтобы исходный набор данных был центрированным набором данных. Поэтому первым шагом является поиск математического ожидания т множества X и покомпонентное вычитание его из всех элементов исходного множества. Следующий этап - рассчет ковариационной матрицы С2. Поскольку по свойствам ковариационной матрицы она симметрична и положительно определена, то для поиска а1 может быть применен алгоритм прямых итераций [4]. Найденный собственный вектор а1 будем использовать в качестве проекционного вектора С в формуле (1).

Из описания алгоритма ясно, что скорость его работы зависит от размерности исследуемых данных й, а весь алгоритм может быть разбит на две последова-: - -ожиданий классов X , У и их ковариационных матриц. Пусть для обучения системы используется П векторов, тогда для подсчета математического ожиданий требуется й • п сложений, а центрирование элементов требует столько же вычитаний. Для формирования ковариационной матрицы понадобится п • й2 сложений

и п • й2 умножений. Количество операций, требуемых для поиска проектирующего вектора с, не может быть указано точно, поскольку для этого используется итерационный алгоритм, зависящий от заданной точности £ и выбора начального

приближения х0. Однако оно может быть ограничено заданным пользователем

максимальным числом итераций I. Метод прямых итераций состоит в много-

2

кратном умножении вектора х0 на ковариационную матрицу С . Поэтому для

каждой итерации требуется й2 умножений и й2 сложений. Таким образом, общее количество операций: 2(п • й + п • й2 + I • й2), а трудоёмкость работы алгоритма на обучающем этапе зависит от размерности данных и количества элементов обучающей выборки как 0(п • й2) .

На втором этапе, этапе анализа данных о состоянии системы, производится центрирование и проектирование возникающих векторов на расчетную прямую. Это требует по й сложений, вычитаний и умножений на каждый входной вектор. То есть скорость работы алгоритма здесь зависит от числа использованных при сборе даных характеристик как 0(й) .

Линейный дискриминантный анализ Фишера. Линейный д искриминант-ный анализ Фишера (ЬБЛ) был непосредственно разработан для решения задачи разбиения исходного набора данных на заданные множества наилучшим образом.

Пусть тУ и тх - векторы, соответствующие математическим ожиданиям исходных классов У и X соответственно, а внутриклассовые ковариационные матрицы для этих множеств - С2 и Сгг . Обозначим математические ожидания классов после проекций - тУ и т2, а соответствующие дисперсии - с'у И с'Х .

Фишер предложил [5], что лучшим будет такое направление проекций, при котором расстояние между центрами разделяемых классов окажется максимальным и в то же время разброс элементов в полученных проекциях множеств ока. -

ка проектирующего вектора c (1):

J(c) = (m2 mz\ ^max. (2)

+ ^2

В этом случае для искомого вектора c можно получить следующее выра-:

с — QW (my -mz), (3)

где Qw — ^Y + .

Как и в случае метода главных компонент, будем рассматривать количество выполняемых операций в зависимости от двух параметров: d - количество использованных характеристик для описания одного события во входном множестве

X и n - объем обучающей выборки.

В процессе обучения подсчет математических ожиданий и ковариационнных матриц требует выполнения 2 • d • n сложений и d • n умножений. Подсчет матриц mY — mz и Qw использует в сумме d + d2 сложений. И наконец, расчет

(3)

:

Qwc = (my — mz).

Решение этой задачи, например методом Г аусса, зависит от размерности пространства характеристик как O(d3) [5]. Таким образом, ассимптотическая оценка трудоёмкости алгоритма на обучающем этапе составляет O(n • d + d3) .

Непосредственно проектирование требует d сложений и столько же умножений на каждый входной вектор. И так же как в методе главных компонент линейно (O(d)) зависит от размерности входного вектора.

Результаты практического применения к анализу трафика. При решении проблем информационной безопасности процесс анализа и классификации сетевого трафика разбивается на два класса задач: первый - поиск в наборе данных элементов, соответстветствующих заданным событиям, с помощью некоторого шаблона (метод сигнатур), второй - обнаружениие отклонений от заданной модели ( ). уже известные виды атак, другой - выявлять новые.

Поскольку метод главных компонент учитывает только общие свойства пространства характеристик и никак не использует информацию о множествах, по которым будет производиться классификация после сокращения размерности, то он не может быть использован в качестве элемента некоторого сигнатурного мето, .

С другой стороны, поиск проектирующего вектора алгоритмом Фишера жестко связан с математическими ожиданиями и ковариационными матрицами двух , ,

априорное знание структуры исследуемого пространства характеристик, что более соответствует определению сигнатурных методов анализа данных.

Эффективность применения этих алгоритмов для анализа реальных наборов

. icmp- ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

взятый из коллекции open-packets.org [б]. Часть из этих пакетов относится к атаке

icmp-tunneling Windows Server 2000,

echo-reply echo-request, c

операционными системами Windows 7 и Linux Ubuntu 10.0. Для описания этих

20 , -ные к десятичному виду пары байт поля «данные» этих пакетов.

400 , , 400

пакетов другого вида и применив к остальным данным метод Фишера на основе , .

Этот результат иллюстрирует гистограмма (рис. 1).

При использовании той же обучающей выборки для метода главных компонент не удается отделить пакеты, отвечающие туннелированию, от соответствующих работе утилиты пинг (рис. 2): проекции обоих классов оказались рядом. Однако метод главных компонент позволяет увидеть другую структуру этого множества: в левой части гистограммы находятся проекции, отвечающие характеристикам icmp-пакетов, собранных на операционной системе Windows, в правой - Linux.

Рис. 1. Гистограмма для задачи обнаружения істр-туннеля методом Фишера

Рис. 2. Гистограмма проекциий для задачи обнаружения кшр-туннеля методом

главных компонент

Другой показательный пример - задача о разделении TCP-соединений, приходящихся на 80 (http) и 22 (telnet) порты. Для анализа были использованы пакеты, собранные в течение суток работы учебного класса мехмата ЮФУ. Каждому соединению были поставлены в соответствие 5 характеристик, а именно: продолжи,

, , .

Поскольку каждое из анализируемых множеств в таком пространстве характеристик имеет плотную и однородную структуру и в то же время математические ожидания классов расположены на дастаточном расстоянии друг от друга, то применение обоих алгоритмов дает схожие результаты. При линейном дискриминантном анализе (рис. 3) из 4900 соединений лишь 7 были классифицированы не верно. В случае метода главных компонент количество ошибок несколько больше (100 ), ( . 4).

На последнем примере можно увидеть еще одно интересное свойство проекционного вектора с. Рассмотрим полученный вектор. Его компоненты - коэффициенты в линейной комбинации характеристик. Наиболее значимыми для разделения событий на классы будут характеристики, соответствующие наибольшим по модулю компонентам проекционного вектора.

Рис. 3. Гистограмма проекции для задачи разделения соединений, проходящих через 80 и 22 порты методом Фишера

— ■ _____________- - - -____________________________________►

О -21500 -21000 -20500 -20000 X

т ------------22 порт

Рис. 4. Гистограмма проекции для задачи разделения соединений, проходящих 80 22

, , , -единений методом алгоритма Фишера, относящихся к 80 и 22 порту, имеет сле-:

= (-0.040045,0.826241,0.424410, -0.000785, -001266).

, -

ристикам. В данном случае - это количество пакетов, переданных от исследуемого

порта и к нему. Хотя этих двух параметров и не достаточно для окончательной

, -

.

свойства множеств при исследовании данных. Это может оказаться полезным, например, при изучениии вновь обнаруженных (0-day) атак.

Заключение. Линейный дискриминантный анализ Фишера и метод главных компонент как представители класса алгоритмов снижения размерности являются отличными инструментами для аналитиков сетевого трафика. Они не только позволяют отбросить лишнюю информацию, взглянуть на входные данные под другим углом и, возможно, лучше понять их структуру, но и могут стать хорошим дополнением к системам обнаружения вторжений или брандмауэрам. Так, алгоритм Фишера позволяет реализовать сигнатурный подход. Причем это проявляется и в части упрощения поиска соответствий с шаблонами, и при выборе наиболее значимых компонент для построения самих сигнатур. Метод главных компонент, с , .

Оба алгоритма просты в реализации, а скорость их работы линейно зависит от объема входных данных, что позволяет использовать их в системах реального времени. Однако стоит помнить, что не все данные имеют линейную структуру, а, ,

оказаться утеряными важные свойства рассматриваемого трафика. Поэтому наилучшим решением в защите информации всегда является комбинация нескольких различных по сути алгоритмов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. RFC-1213. Management Information Base for Network Management of TCP/IP-based internets: MIB-II. Network working group, http://www.ietf.org/rfc/rfc1213.txt.

2. Данные, использованные на соревнованиях KDD CUP 99. http://sigkdd.org/ kddcup/index.php?section=1999&method=info.

3. Veksler О. Лекции по курсу распознавание образов. Университет Western Ontario, 2004. http://www.csd.uwo.ca/~olga/courses/CS434_541a/Lectures.pdf.

4. Богачев КМ. Практикум на ЭВМ. Методы решения линейных систем и нахождения собственных значений. - М.: МГУ им. Ломоносова, 1998.

5. Fisher R.A. The use of Multiple Mesurements in Taxonomic Problems. Annals of Eugenics.

- 1936. - Vol. 7, part II.

6. Коллекция вредоносного трафика в формате pcap. https://www.openpacket.org/capture/ by_category?category=Malicious.

Статью рекомендовал к опубликованию д.ф.-м.н.; профессор B.C. Малышевский.

Нестеренко Виктор Александрович

Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет».

E-mail: neva@sfedu.ru.

344082, . - - , . , 27/30, . 32.

.: 88632625798.

Доцент кафедры информатики и вычислительного эксперимента.

Таран Анна Александровна

E-mail: Annie4ka@yandex.ru.

. - - , . , 36/2, . 115.

Тел.: +7515034220;88632749704.

.

Nesterenko Victor Aleksandrovich

Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”.

E-mail: neva@sfedu.ru.

27/30, Tourgenevsky Street, Fl. 32, Rostov-on-Don, 344082, Russia.

Phone: +78632625798.

Senior Lecturer of Chair of Computer Science and Computing Experiment.

Taran Anna Alexandrovna

E-mail: Annie4ka@yandex.ru.

36/2, Dobrovolskogo Street, Russia, Fl. 115, Rostov-on-Don, Russia.

Phone: +79515034220; +78632749704.

Student.

УДК 004.056.5, 004.89

..

АРХИТЕКТУРА ТИПОВОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ДЛЯ ЗАДАЧИ ОБНАРУЖЕНИЯ АТАК

Рассмотрены основные тенденции развития атак. Предложена модель системы обнаружения атак, учитывающая их. Данная система обнаружения атак реализует сбор информации на нескольких уровнях информационной системы и использует для анализа системы искусственного интеллекта (нейронные сети). По результатам анализа ряда информационных систем организаций Волгограда была предложена архитектура типовой . -мы обнаружения атак и деление ее агентов на миры.

Атака; система обнаружения атак; нейронная сеть; интеллектуальный агент; многоагентная система; миры; принятие совместного решения.

A.V. Nikishova TYPICAL INFORMATION SYSTEM ARCHITECTURE FOR INTRUSION DETECTION PROBLEM

Major trends of attack's development have been considered. Intrusion detection system's model that takes them into consideration has been suggested. This intrusion detection system gathers information in several levels of information system and use artificial intelligence system (neural network) for analysis. According to the analysis of several information systems of Volgograd typical information system architecture was suggested. On its basis multi-agent intrusion detection system's structure and partition its agents into worlds.

Attack; intrusion detection system; neural network; intelligent agent; multi-agent system; worlds; make a joint decision.

В связи с широким распространением сетей общего пользования все большее число компьютеров подвергается атакам. Согласно статистике «Лаборатории Касперского» за 2010 г., количество новых атакующих воздействий держится на уровне 2009 г. и остается высоким (рис. 1), а общее количество инцидентов продолжает увеличиваться. В 2010 г. общее число зафиксированных инцидентов типа атаки через Интернет и локальные инциденты превысило 1,9 млрд.

i Надоели баннеры? Вы всегда можете отключить рекламу.