Научная статья на тему 'Выбор параметров статистических методов обнаружения аномальных событий в сети'

Выбор параметров статистических методов обнаружения аномальных событий в сети Текст научной статьи по специальности «Математика»

CC BY
92
16
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Нестеренко В. А., Семизоров А. О.

Рассмотрены некоторые вопросы статистических методов обнаружения аномальных событий в сети. Предлагается набор весовых функций для реализации эффективного метода вычисления локальных статистических характеристик. Обсуждается выбор значений параметров используемых весовых функций, рассматриваются критерии присутствия аномалий и связь между ними при использовании различных статистических характеристик потока пакетов в сети. Полученные результаты могут быть использованы при создании системы реального времени для обнаружения нарушений безопасности в сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In this article we consider some aspects of statistical methods for detection of abnormal events in a network. We offer a set of weight functions for realization of an effective method of calculation of local statistical characteristics; we consider criteria of presence of anomalies for various statistical characteristics of a stream of packages in a network.

Текст научной работы на тему «Выбор параметров статистических методов обнаружения аномальных событий в сети»

УДК 519.254

ВЫБОР ПАРАМЕТРОВ СТАТИСТИЧЕСКИХ МЕТОДОВ ОБНАРУЖЕНИЯ АНОМАЛЬНЫХ СОБЫТИЙ В СЕТИ

© 2007 г. В.А. Нестеренко, А. О. Семизоров

In this article we consider some aspects of statistical methods for detection of abnormal events in a network. We offer a set of weight functions for realization of an effective method of calculation of local statistical characteristics; we consider criteria of presence of anomalies for various statistical characteristics of a stream of packages in a network.

Статистические методы обнаружения аномальных событий в сети могут быть основаны на сравнении текущих, локальных характеристик потока пакетов с усреднёнными за продолжительный промежуток времени, глобальными характеристиками. В качестве статистических характеристик обычно используются выборочные моменты, энтропия,

критерий согласия х2 и т. п. [1—3]. Если локальные характеристики сильно отличаются от соответствующих глобальных, это свидетельствует об аномальном поведении потока пакетов и вполне вероятна попытка сканирования сети или сетевой атаки. Таким образом, возникает задача построения эффективных методов вычислений локальных статистических характеристик в течение некоторого ограниченного интервала времени и задача определения величины этого интервала в зависимости от глобальных статистических характеристик потока в сети на большом промежутке времени. В данной статье предлагается набор весовых функций для реализации эффективного метода вычисления локальных статистических характеристик. Обсуждается выбор значений параметров используемых весовых функций. В качестве статистических характеристик потока пакетов в сети рассматриваются выборочное среднее и критерий согласия Пирсона х2, признаки наличия аномалий и связь между этими признаками при использовании различных статистических характеристик потока пакетов в сети.

Будем считать, что числовая величина Xi, хт;п < Xi < xmax характеризует некоторое событие из потока событий, произошедшее в момент времени ti , 1 < г < N . Весь набор событий характеризуется средним значением х и дисперсией аХ величины X. Разобьём область возможных значений величины X на В частей:

(хтш' хтах] ^ (х0; х1] (хЬ х2] ••• (хВ_Ь хВ],

где хо = хт;п , хв = хтах . Полуинтервал (хь-1, хь ], 1 < Ь < В назовём контейнером.

При нахождении статистических характеристик последовательности событий будем учитывать ко-

личество событий, попадающих в контейнер с номером Ь (величина X, удовлетворяет условию хь-1 < < X, < хь). Для этого определим функцию

Фь (X):

Ф (х) I1 при Х е(хь-1' хь] .. б

Фь (X ) = <! , т и введём набор

[0 при X £(хь_ь хь ]

1 " / \

величин уь, 1 < ь < В : уь(п) = -•2Фь(X,),

п 1=1

В

2 Уь (п) = 1 для учёта доли событий от числа п,

ь=1

попадающих в контейнер с номером ь .

Общее количество событий N определяется интервалом времени, в течение которого ведётся наблюдение за потоком. При увеличении числа событий N частоты уь ^) стремятся к рь - вероятностям попадания события в контейнер с заданным номером - и могут быть использованы в качестве глобальных, долговременных характеристик потока. Для определения локальных характеристик будем учитывать содержимое контейнеров не для всего потока из N событий, а только для п последних. С этой целью введём весовую функцию Р(г), и значения локальных частот Уь будем вычислять по формуле N

Уь(N) =2Р(tN _и)-Фь(X,). (1) г=1

Использование весовой функции подходящего вида позволяет выделить из всей последовательности событий требуемую подпоследовательность. В качестве простого примера такой весовой функции может служить использование тета-функции:

Р(г) = в(пА_ г)/п , где А - среднее значение интервала времени между двумя последовательными событиями А и ti _ ti_1. В этом случае для локальных частотных характеристик событий получаем Уь ^)и - - 2 Фь (X,).

п i=N_n+1

В данной статье предлагается использовать весовую функцию

Fs (z) - 1 ks

(z/т)J

■ ex

p(- z/ т). (2)

Kj (1) -S

нуля:

dm

dzm

-Fs (z)

= 0 при 0 < m < s.

z=0

где

A(b)( N) - —

J TJ

Kj (N) =

N

J! ,-1

N

2 фь (X,) ■ ((n -1,) ■ exp(- ((n -1, )/t) ,

TJ ■ j! ,=1

2((n -1,) exp(-((N -1, )/т).

Выделяя вклад последнего события, получаем рекуррентные соотношения для вычисления вели-

чин А

f (N) и Kj(N): AJ">(1) = Фь(Xi)■Sjо,

(ь)(1)

Ajb)(N) - Фь(Xn) ■Sjo + e~AN/т 2

(An TT

-oo (-1/

-A(b)(N -1)

J 0 =

(5)

1=о Л

Функция ^ (г) локализована вблизи нуля и довольно быстро (экспоненциально) убывает с ростом аргумента г . Параметр т , присутствующий в определении весовой функции, задаёт временной интервал, на котором эффективно вычисляются частоты Уь (1). Результаты, полученные в [4], показывают, что в предположении N ^ ж и А/т << 1 значение параметра ф хорошо аппроксимируется выражением

п А

т =-. (3)

1,15 + 2

Коэффициент к5 в формуле (2) введён для обеспечения правильной нормировки функции

Р,(г): NFS^ - ) = 1.

1 = N - п+1

Выражение (2) представляет семейство функций

(г), различающихся значением параметра 5 , определяющего поведение функции ^ (г) вблизи

К (N) = 8}о + е"А"т ¿(А(/т)) 1К1 (N -1): I=0 у - Ч!

где А N = tN - tN-1 - временной интервал между последним и предпоследним событиями в потоке. Учитывая тот факт, что величины XN ха-

рактеризуют события, происходящие в последовательные моменты времени tN, формулы (5) позволяют реализовать вычисления частотных характеристик Уь (N), Уь (N +1), Уь (N + 2),... в режиме реального времени, по мере поступления новых пакетов и получения числовых характеристик XN, XN+1, XN+2,... потока сети.

В качестве статистических характеристик потока пакетов в сети будем использовать выборочное среднее числовой характеристики X :

£=2 ~ь • Уь, (6)

ъ=1

где ~ь = (хь + хь-1)/2 - середина полуинтервала

(хь-1, хь ], и статистику х1 :

« (Уь - рь )2

ж = n ■ 2-

С увеличением значения 5 функция ^ (г) становится «более похожей» на тета-функцию: выравнивается относительный вклад разных событий на временном интервале Т и пА при вычислении локальных статистических характеристик. В [2] предлагается использовать весовую функцию, аналогичную (1), при значении параметра 5 = 0, однако в некоторых случаях (при определении характеристик, усреднённых в течение продолжительного интервала времени - час, сутки и т. п.) значение 5 > 0 может быть более приемлемым.

Предлагаемый выбор весовой функции ^ (г) обусловлен тем обстоятельством, что формула (2) позволяет использовать простые рекуррентные соотношения для вычисления частот Уь ). Следуя [4], введём обозначения

Уь (N) =2А}ь)( N) 2К1 (N), (4) 1=о / 1=0

ь-1 рь

(7)

Величина х подчиняется хорошо известному

X2-распределению с В -1 степенями свободы.

Признаком аномалии в потоке будем считать чрезмерное отклонение величины £ от её среднего

значения:

(8)

где £ = 2 ~ь ' Рь - математическое ожидание вели-

ь=1

чины £; рь - вероятность попадания события в контейнер с номером ь . Параметр к в формуле (8) задаёт границы интервала £ - ках ,£ + ках ], выход за его пределы воспринимаем как аномалию. При значении параметра к и иа!4п, где иа - а-значение нормального отклонения и п - количество событий, участвующих в формировании локальных статистических характеристик, вероятность отклонения величины £ за пределы (8) составляет а . Если это случится, то с вероятностью 1 -а это отклонение будет вызвано появлением аномалии. Так, например, если мы выберем п = 30 и вероятность а = 0,001, то иа = 3,30 [5] и значение параметра составит к и 0,60 .

Если в качестве статистической характеристики потока событий использовать статистику х2 (7), то в качестве критерия появления аномалии будем использовать факт превышения величиной х2 заданного предела:

1

х2 äX2.

(9)

Критерии (8), (9) аномального поведения потока событий не эквивалентны, факт появления аномалии по одному критерию может соответствовать нормальному поведению потока согласно другому критерию. Это связано с тем обстоятельством, что используемые критерии введены для различных статистических характеристик. В случае (8) мы оцениваем отклонение выборочного среднего от математического ожидания, в другом случае (9) -отклонение плотности локальной функции распределения от плотности глобальной функции распределения величины X.

Для согласования используемых критериев рассмотрим ситуацию, в которой возникновение аномалии приводит к одновременному выполнению условий (8), (9), и установим связь между параметрами к и X2. Будем считать, что в обычном состоянии при отсутствии аномалий частоты попадания событий в контейнеры имеют вид Уъ = ръ + въ , 1 < Ъ < В, а аномалия заключается в том, что частота попадания в первый контейнер возрастает на регулярную величину 8 :

У = Р1 +в +8, (10)

я

Уъ = Ръ + въ - —, 1 <Ъ < В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В — 1

В реальности подобная ситуация может возникнуть при сканировании сети или Аоо^атаке, когда на фоне обычного сетевого трафика появляется множество пакетов с близкими характеристиками. В этом случае из условий (8) и (9), представления (10) для Уъ и свойств вариаций въ М[въ ] = 0,

1 < b < B , M

в ßt

n Y —

b=1 Pb

= B -1, где M [z] - математи-

ческое ожидание величины г , находим связь между параметрами двух разных критериев наличия аномалий в сети:

х2

(в -1).

(

1 + n-

k 2Ч (- ~1)2

Л

(11)

тами: X1 = ^ — ^—1. В приведённом примере средний интервал времени между пакетами и среднеквадратичное отклонение составляют х и 250 мс и сх и 150 мс соответственно. При обработке потока пакетов и нахождении статистических характеристик (6), (7) были выбраны значения В = 5 и п = 30; при нахождении локальных частот Уъ (1) использовалась весовая функция ^ (г) (2) при значении параметров 5 = 5 иг в соответствии с формулой (3). Вдоль горизонтальных осей графиков отложены номера событий в сети (событие - поступление нового пакета), вертикальная ось соответствует промежутку времени между приходом двух пакетов. На

верхнем графике показано поведение величины х2 (7), на нижнем графике приведены значения характеристики Х1 поступающих пакетов и поведение выборочного среднего ^ (6). Пунктирные линии на графиках обозначают границы (8) и (9), выход за указанные границы свидетельствует о наличии ано-

При получении соотношения (11) предполагалось, что ръ и 1/В , 1 < ъ < В . Это допущение обычно используется в математической статистике при применении критерия согласия х2, его легко реализовать посредством подбора границ полуинтервалов (хъ—1, хъ ], 1 < ъ < В таким образом, чтобы вероятности попадания событий в разные контейнеры были равны.

Графики, приведённые на рисунке, иллюстрируют возможность практического использования полученных результатов.

При построении графиков использованы реальные данные, полученные на одном из узлов сети. В качестве числовой характеристики X используется временной интервал между двумя соседними паке-

N

малии в сети. Начиная с пакета номер Nf, график

резко возрастает, средняя частота поступления пакетов увеличивается в 5-7 раз. Из приведённых графиков видно, что в этом случае значения статистических характеристик х2 и выходят за границы «коридора» допустимых значений и используемые критерии указывают на появление аномалии.

Литература

1. Kwitt R. A Statistical Anomaly Detection Approach for Detecting Network Attacks. Salzburg, 2004.

2. Feinstein L., Schnackenberg D. // Statistical Approaches to DDoS Attack Detection and Response: Proceedings of the DARPA Information Survivability Conference and Expostion (DISCEX'03), 2003.

3. Mahadik V.A., Wu X., Reeves D.S. Detection of Denial-

of-QoS Attacks Based On Statistic And EWMA Control

Charts // http://arqos.csc.ncsu.edu/papers/2002-02-usenixsec-diffservattack.pdf. Raleigh.

4. Нестеренко В.А. // Изв. вузов. Сев.-Кавк. регион. Естеств. науки. 2006. Приложение. № 3. С. 18-22.

5. Абрамовиц М., Стиган И. Справочник по специальным функциям. М., 1979.

Ростовский государственный университет_22 мая 2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.