Обнаружение аномальных вторжений в компьютерные сети статистическими методами

Шелухин Олег Иванович; Филинова Анастасия Сергеевна; Васина Алина Валерьевна

ОБНАРУЖЕНИЕ АНОМАЛЬНЫХ ВТОРЖЕНИЙ В КОМПЬЮТЕРНЫЕ СЕТИ СТАТИСТИЧЕСКИМИ МЕТОДАМИ

Шелухин Олег Иванович,

д.т.н., профессор, Заведующий Кафедрой "Информационная безопасность и автоматизация", МТУСИ, Москва, Россия, sheluhin@mail.ru

Филинова Анастасия Сергеевна,

аспирант Кафедры "Информационная безопасность и автоматизация", МТУСИ, Москва, Россия, schneeglockchen@mail.ru

Васина Алина Валерьевна,

студентка Кафедры "Информационная безопасность и автоматизация" по профилю "Программно-защищенные инфокоммуникации", МТУСИ, Москва, Россия, alinalina.v@gmail.com

Ключевые слова: аномальные вторжения, системы обнаружения вторжений, статистический анализ, атака, алгоритмы обнаружения, информационный критерии Шварца, ROC-кривые.

Для решения задачи поиска сетевых аномалий предложена методика формирования набора информативных признаков, формализующих нормальное и аномальное поведение системы статистическими методами. Статистический анализ относится к поведенческим методам определения нарушений и основан на сопоставлении текущего состояния сети с некими определенными заранее признаками, характеризующими обычное состояние сети. Наибольшую проблему вызывают атаки, с аномальным поведением в заголовке выбранного пакета телекоммуникационного трафика. Применение методов статистического анализа является наиболее распространенным видом реализации технологии обнаружения аномального поведения. Для исследования статистических характеристик были взяты данные различных атак (ICMP flooding, UDP storm, Fraggle, Smurf, Synflooding, flashcrowd и icmpflooding). Для этого был произведен захват пакетов трафика, который содержит атаку, в течение нескольких минут. Для анализа аномальных вторжений в режиме реального времени вычислены следующие текущие статистические характеристики: выборочное среднее, выборочная дисперсия, коэффициент асимметрии, коэффициент эксцесса, энтропийный коэффициент, контрэксцесс и корреляционная функция. Описывается метод обнаружения изменений дисперсии, основанный на информационном критерии Шварца (SIC). Обнаружение осуществляется в два этапа. На первом осуществляется обучения и выполняется в предположении, что на интервале наблюдения аномальные выбросы отсутствуют. На этом этапе производится выбор порога обнаружения аномалия по заданной вероятности ошибки первого рода. Показано, что для правильного обнаружения важно верно выбрать участок обучения системы, на котором выбирается установка порогового уровня. На втором этапе, в соответствии с предложенной технологией путем анализа данных в последовательно смещающемся окне анализа принимается решение о наличии или отсутствии атаки. При каждом положении окна анализа решение принимается на основе анализа последовательности.

Для цитирования:

Шелухин О.И., Филинова А.С., Васина А.В. Обнаружение аномальных вторжений в компьютерные сети статистическими методами

// T-Comm: Телекоммуникации и транспорт. - 2015. - Том 9. - №10. - С. 42-49.

For citation:

Sheluhin O.I., Filinova A.S., Vasina A.V. Detection of anomalous intrusions into computer networks statistical methods. T-Comm. 2015. Vol 9.

No.10, рр. 42-49. (in Russian).

Постановка задачи

Угрозы, производящие к атакам на большие сети, такие как Интернет, требуют эффективных методов их выявления и реагирования. Наибольшую проблему вызывают атаки имеющие аномальное поведение в характеристиках выбранного пакета атрибутов телекоммуникационного трафика. Методы обнаружения и реагирования должны быть адаптированы к широкому спектру сетевых окружений, желательно без вмешательства ручной настройки.

Обнаружение атаки должны быть таким точным, насколько это возможно. Ложные срабатывания могут привести к нежелательным реакциям, что может быть причиной отказа обслуживания легитимных пользователей поскольку ложные негативные результаты атак остаются незамеченными [!, 7]. Метод обнаружения должен быть эффективным против самых разнообразных атак, существующих на сегодняшний день, а также быть надежным против будущих попыток злоумышленников уклониться от обнаружения.

Проведенные исследования предполагают, что статистические характеристики и статистическая обработка являются эффективным подходом для обнаружения аномальных вторжений [|, 2, 8].

Разработка эффективных методов выявления недопустимых событий (аномалий) в работе сети, являющихся следствием технических сбоев или несанкционированных воздействий, является актуальной задачей. Основным требованием, предъявляемым к этим методам, является возможность обнаружения в реальном масштабе времени произвольных типов аномалий, в том числе неизвестных ранее, а также воздействий, распределенных во времени.

Сстатистические характеристики

аномальных вторжений

Анализ статистических характеристик аномальных вторжений предполагает вычисление для каждого окна следующих статистических характеристик:

- выборочное среднее: т =_!_'у7£ . (I)

здесь выборочное значение интенсивности трафика в момент

- выборочная дисперсия: у*лу (2)

п-1 »=/ ) )

I г+я

- коэффициент асимметрии: ^ — _ (3),

° О3

определяющий степень асимметричности плотности вероятности относительно оси, проходящей через ее центр тяжести.

1 '+« А

- коэффициент эксцесса: % _ __3 {4),

3 I.)4

показывающий, насколько острую вершину имеет плотность вероятности по сравнению с нормальным распределением. Если коэффициент эксцесса больше нуля, то рас-

пределение имеет более острую вершину, чем распределение Гаусса, если меньше нуля, то более плоскую и показывает, насколько острую вершину имеет плотность вероятности по сравнению с нормальным распределением.

На практике часто пользуются некоторыми другими параметрами:

- контрэксцесс, который определяется как:

1 (5)

КоЭ =

(6)

где Г| параметр эксцесса, определяемый как:

э—4

а

Где О - среднеквадратичное отклонение; р,- выборочный четвертый центральный момент.

Параметр КоЭ изменяется от 0 (распределение Коши) до I (дискретное двузначное распределение). Для нормального распределения ¡{аЭ — ^ ~ о 577.

л/3 ~ '

Другим параметром, характеризующим форму распределения, является энтропийный коэффициент

<7>

где йэ - энтропийное значение погрешности

(8)

где ¡-¡^ ^ - изменение энтропии (неопределенности),

хп

вносимое измерением случайной величины X и определяемая как

Я(~)= j>(X)ln(p(X))dX.

Л н

(9)

-и -и»

где р(Х) - плотность вероятности случайной величины.

Максимальным значением К-зиобладает нормальное распределение. Для распределения Коши и дискретного двузначного распределения К}и = О, для равномерного распределения Кэн = \/3 ^1.73-

Для расчета энтропийного коэффициента по конечной выборке необходимо сделать оценку функции плотности вероятности наблюдаемой случайной величины.

Если этой оценкой служит гистограмма (кусочно-постоянная функция на т интервалах группировки, каждый из которых имеет ширину \ы), то выборочный энтропийный коэффициент по гистограмме определяется как I Ш 1 / ч

Кэн=~10 '=1

где V/ - размер интервала группировки (размер бина гистограммы); N - объем выборки; т - число интервалов группировки (число бинов гистограммы); О - выборочное стандартное отклонение; п, - число измерений, попавших в ¡-й интервал группировки соответствующей гистограммы.

Для исследования спектральных свойств графика при отсутствии и наличии аномальных выбросов используется

(10)

корреляционный анализ, включающий вычисление корреляционной функции, коэффициента корреляции и интервала корреляции. Вычисление корреляционной функции

осуществляется в соответствии с соотношением:

(11)'где к" гаг

(временной сдвиг исходного ряда).

Под коэффициентом корреляции г{к) будем понимать нормированное значение корреляционной функции

r.m=W. (12)

<(' Щ

Под интервалом корреляции Ткр будем понимать значение аргумента, при котором автокорреляционная функция для каждого окна первый раз меняет знак.

Помимо перечисленных численных характеристик случайных процессов будем также использовать плотность распределения вероятностей (ПРВ) w(x) и (или) тесно связанная с ней функция вероятности F(x), проводимый статистический анализ должен также включать оценку ПРВ для различного положения окна наблюдения.

Результаты анализа статистических

характеристик аномальных вторжений

Рассмотрим результаты анализа статистических характеристик аномальных вторжений на примере атаки flash-crowd.

Данные по выборке: захват пакетов в 21.17.04, окончание -21.22.41, Начало атаки в 21:20:00, окончание -21:21:00. Время агрегации 0,1 с. Временной интервал на котором действует атака выделен. Атака началась через 176 с (или 1760 отсчетов). Текущие статистические характеристики рассматриваемой трассы трафика в условиях воздействия аномалии данного типа представлены на рис. I и 2.

1.1 т ......a, L,1 л J.hhMiMLj.. L J i.. JF

-,-■-j-.-

mm

Рис. I. Текущие статистические характеристики атаки Flash-crowd в окне анализа: а) реализация атаки; 6) выборочное среднее; в) выборочная дисперсия; г) коэффициент асимметрии; д) коэффициент эксцесса; е) контрэксцесс; ж) энтропийный коэффициент

Анализ представленных характеристик показывает, что выборочное среднее, выборочная дисперсия, контрэксцесс в окне анализа при воздействии аномалии принимают максимальные значения и могут быть использованы в качестве информативного признака в алгоритмах обнаружения атак подобного вида. Коэффициент эксцесса и коэффициент асимметрии также могут быть использованы в качестве информативного признака, но при этом должны оцениваться их минимальные значения.

На рисунке 2 представлены результаты статистического анализа вида распределения трафика и корреляционных функций в двух окнах анализа смещающиеся в режиме реального времени слева-направо. Одно окно расположено «ДО атаки» в то время как второе окно располагалось непосредственно «НА атаке».

® Г-

t !il Lii

ЫШ

500 1000

Дои

hi

2000 2500

fX

|Д» »J

*

L

Rfj>Rij-o;i

N YA N ЧА

Рис 2, Текущие статистические характеристики атаки flash-crowd в двух окнах анализа: а) реализация атаки: 6) содержимое окна «до атаки; в) содержимое окна «во время атаки«; г) гистограмма распределения реализации в окне «до атаки»; д) гистограмма распределения реализации в окне «во время атаки»; е) нормированное значение корреляционной функции реализации в окне «до атаки»; ж) нормированное значение корреляционной функции реализации в окне «во время атаки»

Сравнение полученных характеристик позволяет оценить влияние аномалии на вид распределения (гистограмму) и нормированную корреляционную функцию, характеризующую различие спектральных характеристик трафика до воздействия атаки (окно слева) и непосредственно при наличии ее (правое окно). Анализ представленных характеристик показывает, что форма распределения мало меняется при наличии атаки (рис. г, д). В то же время корреляционные функции существенно отличаются. Видно, что при воздействии аномалии flash-crowd в структуре трафика наблюдается гармоническая составляющая (рис. ж)), что может быть использовано при построении алгоритма обнаружения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализ информативных параметров, которые могут быть использованы в алгоритмах обнаружения аномальных вторжений

Аналогичные результаты были получены для реализации компьютерных атак - Ла$11Сго\№с1_а№1Ск, АэбИсгоу«! АазИсгоу^си^ 1стрАоосНг^, ¡стр-Аоо<^, 5тиг(, ис1р$тгт, и имеющих сходные статистические признаки. Анализ полученных статистических характеристик показывает, что во время возникновения аномалий наблюдается резкий скачок выборочного среднего и выборочной дисперсии, которые могут служить информативными признаками при обнаружении аномалии данного вида. Зависимости коэффициентов асимметрии и эксцесса, соответственно также иллюстрируют о информативности этих показателей, так как во время аномалии происходит резкое падение этих значений.

Таблица I

Информативный параметр трафика во время воздействия атаки

Выбороч- Выбо- Коэффи- Коэффи- Контр Этропий-

ное сред- рочная циент циент экс- ный коэф-

нее дисперсия асимметрии эксцесса цесс фициент

Flash- Мах Мах Мл Min Мах -

crowd

Icmp- Мах Мах Min Min Мах Мах

flooding №1

Icmp— - Мах - Min - М'т

flooding N=2

Fraggle Мах Мах Win - Мах Мах

Smurf - - Min Min Мах -

Synflood- Мах Мах Min Min - Мах

ing

Udp- Мах Мах Min Min Мах Мах

storm

Ne prune Мах • Min Min - Мах

Зависимости коэффициента корреляции иллюстрируют наличие высокочастотной или гармонической составляющей в трассе при возникновении аномалии, что также может быть использовано при синтезе алгоритмов обнаружения аномалий рассматриваемого типа. Например, при атаке flash-crowd и nepturie можно наблюдать появление гармонической составляющей.

Классификация аномальных вторжений

статистическими методами

Как было показано выше, при аномальных вторжениях статистические характеристики трафика резко меняются. В частности, наблюдается изменение формы распределения мгновенных значений трафика при появлении аномалий. Этот факт может быть положен в основу классификации аномалий.

В настоящее время общего способа решения этой задачи при произвольном задании множества реализаций атак не существует. Разработаны лишь частные случаи эффективных численных алгоритмов, базирующихся на огрубленном методе максимального правдоподобия.

Важнейшим вопросом при проведении синтеза и анализа алгоритмов обработки в условиях априорной неопределенности является вопрос, связанный с идентификацией формы распределения воздействующих аномалий.

Известны различные способы идентификации распределений случайных процессов. В частности, в качестве признаков, характеризующих форму ПРВ, могут использоваться коэффициенты асимметрии КЛ и эксцесса К,. Однако, если ПРВ имеет симметричный характер, то Ка = 0, и единственным информационным признаком остается коэффициент эксцесса. В этом случае, конструктивным является использование энтропийного коэффициента ПРВ

Кэн =Дэ<7-1 =^ехР{/ш(")}<г~1 <13)

где 1и(п) - энтропия ПРВ (информация по Шеннону),

Заметим, что для любых законов распределения величина К„ лежит в пределах 0...2,066, причем максимальное значение К1в = 2,066 имеет гауссово распределение.

В качестве второго признака, характеризующего форму ПРВ удобнее использовать не коэффициент эксцесса К^ изменяющийся от I до со, а контрэксцесс КоЭ = К/, значение которого может меняться в пределах от 0 до I.

При использовании введенных признаков любая симметричная ПРВ может быть изображена в системе координат (К!и, КоЭ) точкой. Предлагаемое представление аналитических моделей симметричных ПРВ в виде точек на плоскости признаков (К5п, КоЭ) позволяет достаточно точно и надежно охарактеризовать близость изображающих точек, соответствующих экспериментальным ПРВ, к той или иной модели.

Следует отметить, что параметры Км, КоЭ заданного аналитического распределения определяются однозначно.

Обратный переход уже неоднозначен, так как через топографическую точку с заданными координатами (Клн, КоЭ) может проходить целый пучок кривых, соответствующих ПРВ различных классов, что является основным недостатком предлагаемой систематизации и классификации ПРВ по их форме.

В случае односторонних ПРВ, характерных, например, для распределений мультиппикативных помех, к указанным причинам необходимо добавить коэффициент асимметрии. В этом случае, оцениваемому распределен и юУУ((Г|), ставится в соответствие точка (или область в случае многопараметрических ПРВ) не на плоскости (К!п, КоЭ), а в пространстве (Ка, К1п, КоЭ).

Оценивание статистических характеристик вероятностных распределений малых выборок данных с использованием методов непараметрической статистики позволяет избежать заметно искаженных выводов, которые могут быть получены в предположении о нормальности распределения в ситуации, когда гипотеза нормальности не выполнена [3].

Так для анализа поведения во времени форм выборочных распределений различных стохастических процессов в работе предлагается следующая процедура:

I) Выбирается размер исследуемых выборок N. Это число не должно быть слишком большим, чтобы не нивелировались особенности каждой конкретной реализации

исследуемого случайного процесса; N следует выбирать из диапазона 30-200.

2) Исходный ряд измерений делится на последовательные неперекрывающиеся отрезки размером N.

3) Для каждого из этих отрезков рассчитываются коэффициента контрэксцесса и ■

4) По всем полученным значениям КоЭ и К^1 рассчитываются доверительные интервалы [(.^ Ц] и [I,, для каждого параметра отдельно. Как правило верхними и нижними границами служат соответственно 10 и 90%-е процентили.

5) В соответствии с расположением в (КоЭ, К.'^/} ~

плоскости и выбранными границами каждой из последовательных выборок присваивается индекс от I до IX. Так, выборке с КоЭ < 1_ч и К^ < ик. соответствует индекс I,

выборке с Ц< КоЭ <и,а- индекс II и т.д.

Известна иная классификация форм распределений по их расположению в (КоЭ, ~ плоскости с использо-

ванием параметрически задавамых областей для каждого из известных законов распределений и (или) их комбинаций, Однако при небольших объемах выборок эти параметры опредепяются с большими погрешностями [3], поэтому будем пользоваться для расчета границ непараметрическими оценками в виде процентилей. Тем не менее, вопрос об оптимальном разбиении (КоЭ, К.Ш ) ~ плоскости требует дальнейшего дополнительного исследования.

Параметрический подход к оцениванию распределений, если заведомо известна ограниченность возможных значений случайной величины х с одной стороны, предполагает пользоваться семействами логарифмически нормальных или гамма-распределений; при ограничении х сверху и снизу - семейством бета-распределений. Если ввести в рассмотрение такие показатели формы распределения, как квадрат коэффициента асимметрии К/ и коэффициент эксцесса Кз, выраженные через моменты третьего (3) и четвертого (4) порядка, то можно указать области значений (К,, К}), в которых распределения принадлежат к тому или иному типу,

В основу информационного подхода к подбору распределения вероятностей может быть положена информация, как отражение случайной выборкой изучаемого явления. Для количественной оценки информации можно воспользоваться понятием энтропии как мерой неопределенности изучаемого явления, Энтропия Н(Х) является удобной мерой неопределенности законов распределения вероятностей, и между ними существует зависимость: величина энтропии, а, следовательно, количество информации определяются видом закона распределения. Более удобным информационным критерием является энтропийный коэффициент К1н:

К (И)

лэ н £ 4 '

Дэ = 2е

1 ад

п ( \ ( \

-IP X log X

i=l К /) \ i)

(15)

(16)

Здесь Дэ - энтропийная погрешность; Н(Х) - энтропия; р - вероятности значений выборки х,.

Таким образом, задача подбора распределения состоит в определении К)н для значений исследуемой выборки данных и сравнения величин полученных коэффициентов с некоторыми табулированными значениями.

В качестве примера на рис. 3 представлена оценка статистических параметров атаки flash-crowd. Построены зависимости в трех двухмерных системах координат (К)н, КоЭ), {К/, Кз) и (КоЭ, Ksn) и одной трехмерной (К!н, Кл, КоЭ). Кружочками обозначены значения а то время, когда атака не производилась, крестиками - когда аномалия присутствовала.

•

1 Ыг

........Я k <.....

■■Ж*"*......

......— .......

I (в (1 ив t; ли u IX к »

Рис. 3. Оценка статистических параметров атаки flash-crowd: а) этропийный коэффициент и контрэксцесс; 6) квадрат коэффициента асимметрии и коэффициент эксцесса; г) контрэксцесс и энтропийный коэффициент; д) энтропийный коэффициент, коэффициент асимметрии и контрэксцесс

Информативной системой координат в данном случае является (К,\ К,). Коэффициент асимметрии и коэффициент эксцесса при воздействии аномалии принимают минимальные значения.

Обнаружение аномальных вторжений

статистическими методами

Рассмотрим методику обнаружения изменений дисперсии вызванных аномальными выбросами трафика, основанную на информационном критерии Шварца (SIC) [4, 5].

Пусть {хм} - последовательность независимых и одинаково распределенных случайных чисел с функцией плотности вероятности f(•\в), где f - модель с К параметрами, такая что

Model (к) = {/(. 6):в = в„в2,...,ек), ве®Л,

(17)

где = {©, : вк : вк+1 = вк+2 = ... = вк), к = 1 1

Пусть имеют место две гипотезы: Н|} - нет никаких изменений и Н, - присутствуют единичные изменения.

Алгоритм SIC не требует знания распределения тестируемой выборки.

Статистика SIC [5]

S/C(A:) = -21og£(i9) + p]ogN, \<k<N (18) позволяет определить, существование точки изменения.

Здесь ^^ - функция максимального правдоподобия правильного обнаружения для модели; р - число свободных параметров в модели; N - размер выборки.

В случае Гауссовского распределения наблюдаемых данных, статистика SIC для нулевой гипотезой Н0 будет иметь вид:

SIC(N) = N\og2x + N log а2 + N ■+ logN ,

(19)

(20)

где

Под альтернативной гипотезой Н, будем понимать величину [6]

SIC(k) N1 og2 ¿log 7

(21) (22) (23)

N-kÄ,

Нулевая гипотеза в случае SIC отклоняется исходя из принципа минимизации информационного критерия.

В результате гипотеза отклоняется в случае SIC(N) > min^„_, SIC Qu), а точку изменения к вычисляем как

(N k) log \2 N 21ogN, 1 к N

га*Ъ2=тЬ*г>?)2

SIC(k) = min SIC(к)

2<k<N-2

(22)

Следует обратить внимание, что можно обнаружить точку изменения только на интервале между второй и (N-2) точкой.

Более надежная модификация метода в случаях сильных колебаний данных, предполагает использование наивысшего порогового уровня а и связанного с ней критического уровня Ся. так что нулевая гипотеза отклоняется

в случае 5УС(Ы) £ тт2^„_251С(к) + Са■ Величина Са может быть определена как

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 - а = Р[Б1С(Т) < 2шп^Щк) + С |Н01 С22)

К = \

Численные результаты

Рассмотрим результаты обнаружения аномальных выбросов трафика с помощью статистики SIC на примере конкретных видов аномальных вторжений в компьютерные сети.

Для анализа использовались 7 реализаций flashcrowd_attack, flashcrowd, flashcrowd_cut, Icmpflooding, icmp-flooding, Smurf, udpstorm. Окно анализа определяется размером выборки N, которое выбираем исходя из соотношения (К) размера окна к длительности аномалии.

_ [ размер окна обнаружения^ ^3)

[ длительность аномалии ]

Под [размером окна обнаружения] понимается - количество коэффициентов трафика, захватываемых окном анализа на каждом шаге. Под [длительностью аномалии] - понимается количество коэффициентов трафика, наблюдаемых за период времени равный длительности аномалии.

Анализ осуществлялся для коэффициентов К = 0,8; К = 1,0; К = 1,2. Окна анализа размера N смещались с шагом 10. Пороги ставились для а = 0,01 и а = 0,05.

Задача обнаружения решалась в несколько этапов.

Этап I. Этап обучения. Обучение происходит во время движения окна по участку трассы без аномалии.

Этап 2. После прохождения всего участка обучения мы определяем пороговое значение для 0 =0,01 и а = 0,05, выставляется порог, а также отрисовываем гистограмму распределений.

Этап 3. С этого момента происходит анализ обработанных данных и вычисляется вероятность правильного и ложного обнаружения для коэффициентов, превышающих порог.

Рассмотрим результаты обнаружения аномалий с помощью информационного критерия (5) на примере атаки flashcrowd.

|У с Окю bSO Трасса - Ha^hcrawd_3ttack_cJt 8'V;

jlL

i J i.i tjiiLi liLiiL ii.

L. II 1

KpS/£T(i)

14-

Рис. 4. Исходная трасса АаБЬсгоуус^апаск^ис и график полученных значений. Численные значения вероятностей харакетри-зующих достоверность обнаружения представлены в табл. 2 и 3

Результаты анализа для трассировки с АазЬсгоу^аиаск представлены на рис. 4. Длительность атаки равнялась 650 выборок. При обработке окна были выбраны - 520, 650, 780 выборок соответственно. Работоспособность алгоритма обнаружения иллюстрируется на рис. 4.

Вероятности правильного и ложного обнаружения, характеризующие эффективность рассмотренного алгоритма обнаружения для исследуемых типов атак сведены в табл. 2 и 3.

Таблица 2

Вероятности правильного обнаружения и ложного обнаружения для атак при а =0,01

а =0,01

К = 0,8 К = 1.0 К = 1,2 К = 0.8 K= 1.0 К = 1,2

Flash crowd „attack 0,31 0,38 0,37 0 0 0

Flashcrowd_ attack cut 0,62 0,69 0,65 0,02 0 0

Flashcrowd 0 0 0 0 0 0

Flasher о wdcut 0,68 0,78 0,74 0,36 0,4 0,26

Icmpflooding 0,78 0,72 0,71 0 0 0

Icmpflooding 0,6 0,68 * 0,97 0,99 -

Smurf 0,79 0,84 0,9 0,13 0,16 0,19

Udpstorm 0,09 0,21 0,08 0,02 0.007 0,05

Таблица 3

Вероятности правильного обнаружения и ложного обнаружения для атак при <7=0,05

о =0,05

K= 0.8 K= 1.0 K= 1,2 K= 0,8 K= 1.0 K= 1,2

Flash crowd _attack 0.32 0,39 0,38 0 0 0

Flashcrowd^ attack cut 0.64 0,7 0,66 0,02 0 0,03

Flashcrowd 0 0 0 0 0 0

Flashcrowd_cut 0,76 0,84 0,8 0,41 0,5 0,26

Icmpflooding 0,83 0,78 0,75 0 0 0

icmp-flooding 0,62 0,69 - 0,99 0,99 -

Smurf 0.82 0,86 0,91 0,16 0,17 0,19

Udpstorm 0,16 0,27 0,26 0,05 0,12 0,15

ROC кривые

Для оценки эффективности систем обнаружения вторжений в литературе предлагается использовать ROC кривые [(], характеризующие зависимость вероятности правильного обнаружения аномалии от величины ошибки первого рода. На рисунке 5 представлены данные зависимости для нескольких типов описанных выше атак с помощью рассмотренного выше методики обнаружения изменений дисперсии, основанной на информационном критерии Шварца (SIC). Анализ ROC кривых показывает, что самая высокая эффективность при обнаружении с использованием информационного критерия Шварца наблюдается при аномалии типа Smurf, наихудшая - для атаки типа Udpstorm.

Рис, 5, ROC кривые

Выводы

Анализ представленных статистических характеристик показывает, что ао время возникновения аномалий наблюдается резкий скачок выборочного среднего, выборочной дисперсии, энтропийного коэффициента и контрэксцесса. Из полученных данных видно, что использование 8 задачах обнаружения аномальных вторжений информационного критерия Шварца позволяет обьеспечить высокую достоверность обнаружения атак. Найдено, что максимальная вероятность правильного обнаружения достигается с окном, равным размеру аномалии. При дальнейшем увеличении размера окна увеличивается вероятность правильного обнаружения, но при этом возрастает вероятность ложного обнаружения. Наилучшие результаты при использовании информационного критерия Шварца наблюдаются для трасс - Flashcrowd_attack_œt Flashcrowd_cut, Icmpflooding, Icmp-ftooding, Smurf,

Литература

1. Шелухин О.И,, Сакалема Д.Ж., Фили нова A.C. Обнаружение вторжений в компьютерные сети. Сетевые аномалии. - М.: Горячая линия - Телеком, 2013. - 220 с.

2. Нестеренко ß.A. Статистические методы обнаружения нарушений безопасности в сети. Информационные процессы. Т.6, №3,2006.-С. 208-217.

3. Шелухин О.И. Моделирование информационных систем. -М: Горячая линия - Телеком, 201 I. - 536 с.

4. Jie Chen and Gupta А.К., 1997, Testing and Locating Variance Change Points with Application to Stock Prices II Journal of the American Statistical Association, vol .92(438), pp. 739-747.

5. Schwarz G, 1978, Estimating the dimension of a model II Annals of Statistics, no.6, pp.461 -464.

6. Aka/ke H.A., 1974 New look at the statistical identification model II IEEE Transactions on Automatic Control, no. 19: pp.716-723.

7. Шелухин О.И., Филинова A.C. Сравнительный анализ алгоритмов обнаружения аномалий трафика методами дискретного вейвлет анализа II T-Comm: Телекоммуникации и транспорт, №9, 2014. - С. 89-97.

8. Шелухин О.И., Судариков P.A. Анализ информативных признаков в задачах обнаружения аномалий трафика статистическими методами II T-Comm: Телекоммуникации и транспорт, 2014, №3. - С. 14-18.

9. Шелухин О.И., Совелов A.B. Имитационное моделирование аномалий трафика в локальной компьютерной сети. T-Comm: Телекоммуникации и транспорт, 2013. N® 10. - С. 103-107.

DETECTION OF ANOMALOUS INTRUSIONS INTO COMPUTER NETWORKS STATISTICAL METHODS

Oleg I. Sheluhin, professor, Department of Information Security Moscow Technical University of Communication & Informatics,

Moscow, Russia, sheluhin@mail.ru Anastasia S. Filinova, aspirant, Department of Information Security Moscow Technical University of Communication

& Informatics, Moscow, Russia, schneeglockchen@mail.ru Alina V. Vasina, student, Department of Information Security Moscow Technical University of Communication & Informatics,

Moscow, Russia, alinalina.v@gmail.com

Abstract

To solve the problem of finding network anomalies propose technique generating a set of informative features formalized normal and abnormal behavior system of statistical methods. Statistical analysis relates to behavioral methods of determination disturbances and based on a comparison of the current state of the network with certain pre-defined features characterized the normal state of the network. The biggest problem caused the attack, with the anomalous behavior in the header of the selected packet of telecommunications traffic. Application methods of statistical analysis are the most extended type implementation of the technology to detect anomalous behavior.

For study the statistical characteristics were taken set of data various attacks (ICMP flooding, UDP storm, Fraggle, Smurf, Synflooding, flashcrowd and icmpflooding). For this purpose generated a capture packet traffic that contains attack for several minutes. Describes how to detect changes in the variance based on Schwarz information criterion (SIC). A prerequisite for the establishment of criteria was the task of assessing the quality of the predictions of the model on the test sample with a known as the learning sample, provided that the model we set up according to the method of maximum probability of correct detection. Detection is carried out in two stages. The first instruction is carried out and is performed on the assumption that the observation interval no abnormal emissions. At this stage, the selection of an anomaly detection threshold for a given probability of error of the first kind. It is shown that it is important to properly detect choose the right site learning system, which selects a preset threshold. In the second step, according to the proposed technology by analyzing the data in the analysis window sequentially displaces a decision about the presence or absence of the attack. At each position of the analysis window decision is made on the basis of sequence analysis.

Keywords: System of detection intrusion, statistical analysis, anomalies the network traffic, detection methods, Schwarz information criterion, ROC-curves.

References

1. Sheluhin O.I., D.Zh.Sakalema, Filinova A.S. Intrusion detection in computer networks. Network anomalies / Hotline - Telecom, Moscow, 2013, 220 p. (in Russian)

2. Nesterenko V.A. Statistical methods for the detection of security breaches in the network. Information Processes / vol. 6, 2006, no.3, pp. 208-217. (in Russian)

3. Sheluhin O.I. Modeling of Information Systems. Hotline - Telecom, 2011, 536 p. (in Russian)

4. Jie Chen and Gupta A.K., 1997, 'Testing and Locating Variance Change Points with Application to Stock Prices'. Journal of the American Statistical Association, vol .92(438), pp. 739-747.

5. Schwarz G, 1978, 'Estimating the dimension of a model'. Annals of Statistics, no.6, pp.461-464.

6. Akaike H.A., 1974 'New look at the statistical identification model'. IEEE Transactions on Automatic Control, no. 19: pp.716-723.

7. Sheluhin O.I., Filinova A.S., 2014, 'The comparative analysis of detection algorithms detection of traffic anomalies methods of the discrete wavelet-analysis'. T-Comm, no.9, pp. 89-97. (in Russian)

8. Sheluhin O.I., Sudarikov R.A., 2014, 'Analysis of informative features in problems of detection traffic anomaly statistical methods'. T-Comm, no.3, pp. 14-18. (in Russian)

9. Sheluhin O.I., Savelov A.V., 2013, 'Simulation modeling of traffic anomalies in the local area network'. T-Comm, no. 10, pp. 103-107. (in Russian)

Обнаружение аномальных вторжений в компьютерные сети статистическими методами Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Обнаружение аномальных вторжений в компьютерные сети статистическими методами»