Оценка достоверности обнаружения аномалий сетевого трафика методами дискретного вейвлет-анализа
Ключевые слова: достоверность обнаружения, аномалия, трафик, дискретное вейвлет-преобразование.
Для обнаружения аномалий трафика в компьютерных и телекоммуникационных сетях в режиме "он-лайн" предлагается метод, основанный на дискретном вейвлет-разложении трафика и статистических алгоритмах обработки основанных на критериях Фишера. Используется два скользящих окна с двумя пороговыми значениями, что позволяет обеспечить высокую эффективность обнаружения аномальных выбросов трафика. Показано, что применение разработанного алгоритма на основе дискретного вейвлет-анализа позволяет осуществить уверенное обнаружение аномалии в трафике одновременно на различных уровнях разложения.
Шелухин О.И. Панкрушин А.П., МТУСИ
Постановка задачи
Аномалии трафика, такие как ошибки или атаки являются распространенными в современных компьютерных сетях. Идентификация, диагностика и лечение аномалий -фундаментальная часть повседневных сетевых операций. Без данной возможности сеть не может эффективно и надежно функционировать. Точная идентификация и диагностика аномалий в первую очередь зависит от надежности и своевременности информации, а во-вторых, от используемых методой изолирования аномальных сигналов а этой информации. Ныстрое и точное обнаружение аномалии сетевого трафика - одно из непременных условий гарантирующих эффективную работу сети,
Статистические методы обнаружения нарушений в сети [1-4] основаны на сравнении статистических характеристик потока пакетов, усреднённых за относительно небольшой промежуток времени (локальные характеристики), с соответствующими характеристиками за продолжительный промежуток времени (глобальные характеристики). Если локальные характеристики значительно отличаются от соответствующих глобальных характеристик, то это свидетельствует об аномальном поведении потока пакетов и вполне вероятна попытка сканирования сети или сетевой атаки. Таким образом, возникает задача построения эффективных методов вычислений локальных статистических характеристик в течение некоторого ограниченного интервала времени и определение аномального отклонения локальных характеристик от глобальных статистических характеристик потока.
Достижения прежних исследований значительно способствовали разработке обнаружения аномалии и постоянно улучшали результаты обнаружения. Однако сложность алгоритмов обнаружения аномалии сетевого трафика в реальном времени, а также низкая достоверность обнаружения енбижают производительность сети. Исследования показали, что как правило трафик телекоммуникационной сети, изменяющийся во времени является мультимасштабным [5], а различие между аномаль-
ным и фоновым трафиками отличается в различных полосах частот, В результате в некоторой полосе частот энергия аномальных фрагментов графика довольно высока и аномалия может быть легко обнаружена, С помощью вейвлег-преобразования можно легко оценить характеристики произвольного сигнала в частотной области и отличить аварийное состояние сети от нормального. Поэтому, внимание к вейвлет-анализу в задачах обнаружения аномалий сетевого трафика в последние годы значительно возросло [6,7,8,9,10].
В [6] представлен алгоритм, основанный на дискретном вейвлет-преобразовании и байесовом анализе. Этот алгоритм в состоянии обнаружить и определить местоположение любых изменений в различии и частоты и данном временном ряду, но его масштаб разложения ограничен, и алгоритм усложнен. В [7] представлен \VADeS (Вейвлет-алгоритм, базируемый на Подписи Обнаружения Атаки) механизм, основанный на вейвлет-анализе обнаружения атаки ГЮоЯ. Этот алгоритм вначале выполняет вейвлет-преобразование трафика, а затем для оценки момента атаки вычисляет различие коэффициентов вейвлет-коэффициентов на различных интервалах времени. Недостатком этого метода является высокая вычислительная сложность. В |8] представлен метод основанный па разложении сетевого трафика с помощью дискретного вс й влет-преобразовыв ан и я, с помощью которого на следующем этапе синтезируются Низкочастотные, Средние, и Высокочастотные части анализируемого сигнала. Обнаружение аномалии осуществляется по результатам Отклонения синтрезированных частей от эталона. Алгоритм в состоянии обнаружить переполнение флэш-памяти и краткосрочные аномалии в прошлом, но не решает проблемы адаптивного выбора масштаба и временных окон обнаружения, имеет высокую сложность вычисления.
В [9] предложен метод обнаружения аномалии трафика, основанный на анализе корреляции целевых 1Р-адрееов в исходящем трафике в выходном маршрутизаторе. Этот метод может использоваться для анализа в режиме реального времени исходящего сетевого трафика, однако у него отсутствует возможность обнаружения различных частотных аномалии.
В [10] предложено использовать энергетическое распределение, основанное на вейвлет-анализе для обнаружения ООоБ-атак. Алгоритм рассчитывает энергетические изменения различий в распределении трафика, вызванные порождением аномального выброса из-за влияния £>Оо5-атаки.
Опираясь на недостатки существующих методов обнаружения аномалии сетевого трафика, в статье предлагается адаптивный масштабный метод, основанный на вейвлет-преобразовании обрабатываемого трафика. Для решения задач обнаружения аномалий графика предлагается метод, основанный на дискретном вейвлет-разложении данных трафика и статистическом алгоритме обнаружения использующем различные статистические критерии [11]. Важной характеристикой рассматриваемых алгоритмов обнаружения является оценка их эффективности, сводящаяся к оценке вероятности ошибок первого и второго рода (вероятность пропуска и вероятность ложного обнаружения аномалий).
В качестве анализируемых последовательностей были взяты наборы данных ОАЯРА [12], представляющие собой сетевой трафик, собранный на граничном маршрутизаторе сети.
Алгоритм обнаружения аномалий
Рассмотрим обнаружение аномалий сетевого трафика с Оо8-агакой NерТипе (рис. 1) на основе дискретного вейвлет-преобразования с применением статистических критериев.
При конечном числе уровней разложения М, любую последовательность дискретных отсчетов анализируемого трафика 8(1-.) можно представить в виде упорядоченной совокупности коэффициентов разложения по системе масштабирующих функций и вейвлет-функций: Г-и М 2" и
ФО- X ат,^<Рт,к(^)+ X X ёт,кУ/т,к(10-
к=1 т=1 к=1
т,ке1, (■)
где (р ({) - базисная масштабирующая функция;
и/ (11 ~ базисная вейвлет-функция; а И — зп-т т.г. * ' т,к’ т,к
Проксимирующие и детализирующие коэффициенты; т, к - параметры масшт аба и сдвига в пространстве целых чисел I.
Для адаптации вейвлет-преобразования к анализу графика в реальном времени используется техника двух скользящих окон \У| и 'А;: двигающихся во времени с определенным шагом, фиксируя значения трафика, которые находятся во временных границах каждого окна как это показано на рис. 1. Применение «скользящих окон»
позволяет увеличить надежность обнаружения даже незначительных аномалий.
Будем считать окно XV| — «окном сравнения», а окно V/; - «окном обнаружения». I [усть размер каждого окна \\'!и '.V, выбранных временных единиц соответственно, причем \У|> ХУ^.Тогда в произвольный момент времени ! начало окна будет находиться в точке г, в нем будет «содержаться» у/2 значений трафика от /-и<2 до /. В окне \У| будет содержа ться \¥| значении от 1-у/2-у>1 до г-и*2.
Выполняя БВГ1 для выборок внутри каждого из окон в каждый момент времени и. будем получать на некотором масштабном уровне у набор коэффициентов для окна \У,
- аппроксимации {а^,а2х,а3х...,а11х},и детализации для окна ’А/- “ аппроксимации
К’а2,’Ъу"->“пЛй И детш,изации КАуАу-^у},./-Причем количество коэффициентов п на уровне }Ъ окне
\^1 будет определяться выражением п - , в окне -
2>
т — _ ~ .Эти коэффициенты будут проверяться по ста-
21
тистическим критериям и на основе принятия или отклонения статистических гипотез будет выноситься решение
о кардинальном различии в анализируемых параметрах между окнами \У1 и V/;, а следовательно, наличии аномалии, или же наоборот - их отсутствии.
Анализ статистических характеристик коэффициентов аппроксимации и детализации, представленных на рис. 2 и 3 показывает, что плотность распределения вероятностей (ПРВ) мгновенных значений коэффициентов детализации хорошо описывается гауссовским законом с параметрами Ы(0,Мт1), а ПРВ аппроксимирующих коэффициентов хорошо описывается распределением
/(*) =
-iL.
2 Г(-) Р
>, где 0 < р < +ю параметр формы,
Я- дисперсия распределения, т - среднее значение и Г(г)= | /; 'е '&• г>0- Параметр формы р определяет
вид распределения. При различных р распределение имеет вид при: р = 0 — Дельта-функция Дирака; р = I — Распределение Лапласа; р — 2 - Гауссовское распределение; /> = +оо - Равномерное распределение.
На рис. 4 показаны автокорреляционные функции коэффициентов деталей и аппроксимации на различных уровнях разложения Добешн-6 для двух окон XVI и \У2 соответственно слева и справа.
Рис. I. Сетевой трафике DoS атакой Neptune и положение окоп при «он-лайн» обнаружении
Анализ корреляционных функций свидетельствуют о слабой корреляции коэффициентов детализации и аппроксимации получающихся в результате вейвлет-разложения.
Для обнаружения аномалий, выражающихся в изменении дисперсии предлагается использовать критерий Фишера для дисперсий, обнаружения изменении величины среднего значения - критерий Фишера для средних значений [11].
Для обнаружения изменений в дисперсиях выборок окон \У] и \Уз предложен критерий Фишера. Распределение выборок считается гауссовским. В каждый момент времени (положении окон) 1 на масштабном уровне / выдвигаются две статистические гипотезы о равенстве дисперсий двух выборок и нулевая - нй : щ,т]2 = , И альтернативная -Н1: о] г / *сгад2 ■
Алгоритм обнаружения выбросов в гауссовском процессе на основе анализа аномального изменения дисперсий записывается как
г" '
Введем обозначения:
п 1 м - выборочная дисперсия выборки
последовательности деталей на масштабном уровне / в окне \У1 ;
1 М - вьюорочная дисперсия выборки
последовательности деталей на масштабном уровне ]
в окне \У2;
1
и.У
и*
(2)
Исследуемый сигнал
Ш.
*000 6000 8000 10000 Коэффициенты статистики
Нулевая гипотеза опровергается в пользу альтернативной, в случае если Z>F>(v1,ц) где^^ц) -
р-квантиль распределения Фишера с\,=п-1 и \’2=т-1 степенями свободы. Случайная величина, определяемая отношением (2), имеет распределение Фишера-Снедекора [4].
В случае если статистика анализируемых последовательностей имеет распределение экспоненциального вида для обнаружения аномальных выбросов в средних значениях выборок может быть использован критерию Фишера для выбросов средних значений [4], Рассмотрим применение данного критерия для обнаружения аномальных выбросов среднего значения коэффициентов аппрокси-
мации
{о11,а21и {я[г ,а2> ,а3у...,ощ},
рас-
пределение которых имеет экспоненциальный характер. В каждый момент времени (положении окон) / на масштабном уровне } выдвигаются две статистические гипотезы о равенстве средних значений двух выборок
■%}<,/ и I «Улевая -
н, ■■ И\.,.; = Мг,,; и альтернативная - Я, ^ ■
Сама статистика критерия записывается как:
М =
(3)
57--Е'*
" /=| - выборочное среднее выборок последова-
тельности деталей на масштабном уровне / в окне 1.
- выборочное среднее выборок последовательности деталей на масштабном уровне / в окне и'!. С учетом сделанных обозначений перепишем алгоритм в виде
„2
Нулевая гипотеза опровергается в пользу альтернативной, в случае если м > ^(у,, V,) где -
р-квантиль распределения Фишера с v^ = 2п и V) = 2ш степенями свободы.
Результаты статистической обработки аномально засоренного графика
На рис, 5а,б показан Интерфейс программы анализа, технология выбора порогового уровня, и результаты статистической обработки коэффициентов аппроксимации по критерию Фишера хорошо видно, что аномалия в районе от 4-х до 6x104, представляющая собой типичную ПоЯ-а1аку, хорошо обнаруживается с использованием решающей статистики Фишера для средних уровней аппроксимации. Наблюдается уверенное обнаружение аномалии на всех уровнях разложения.
Исследуемый сигнал
и.
4000 8000 8000 10000
Коэффициенты статистики
100 300 300 400 500 600 700 800 900
I в*?'1 1 1 *^*1 [ 1
Рис. 5. Результат работы программы обнаружения аномалий методом Фишера для Средних Значений при заданных окнах и параметре альфа: А) - I = 1000, Ш = 800; Б) - \¥1 = 1500, Ш = 1200
JlnTepaTypa
]. Roland Kwilt. A Statistical Anomaly Detection Approach for Detecting Network Attacks. 14th December 2004/ 6QM Workshop, Salzburg.
2. L.Feinstein and D.Schnackenberg. Statistical Approaches to DDoS Attack Detection and Response. Proceedings of the DARPA Information Survivability Conference and Expostion (DISCEX’03), April 2003.
3. Vinay A.Mahadik, Xiaoyong Wu and Douglas S.Reeves. Detection of Denialof- QoS Attacks Based On jf 2 Statistic And EWMA Control Charts, http://arqos.csc.ncsu.edu/papers/2002-02-usenixsec-diffservattack.pdf, NC State University, Raleigh,
4. Nong Ye and Oiang Chen, An Anomaly Detection Technique Based on a Chi-Square Statistic for Detecting Intrusions into Information Systems. Quality and Reliability Eng. lnt'l, Vol 17, No. 2, P. 105-112,2001.
5. B. BR, “Multi-scale analysis and modeling using wavelets,” Journal of Chemometrics, vol. 13, 1999,
6. V. Alarcon-Aquino and A. Barria, "Anomaly detection in communication networks using wavelets,” IEEE Proc-Commun, vol. 148, no. 6,2001.
7. A, Ramanathan, “Wades: A tool for distributed denial of service attack detection," TAMU-ECE-2002-02, Master of Science Thesis, 2002.
Measuring of accuracy of detection of network traffic anomalies with methods of Discrete Wavelet Transform analysis
Sheluhin O. I. Pankrushin A.V., MTUCI, Russia
Abstract
In order to solve the task of detection of nelwork traffic anomalies we propose method, based on Discrete Wavelet Transform and statistical algorithm of detection which uses various statistical criteria. One of the important characteristics of these algorithms is measure of their efficiency, which relates to the measure of probability of Type 1 and Type 2 errors (which are probability of false detection and probability of missing anomaly). We used the data from DARPA's datasets which represent network traffic captured on the border router of the network. As an example we provide analysis of network traffic with included Neptune DoS attack. Analysis of statistical characteristics of approxmation and detail coefficients shows that probability density function (PDF) of detail coefficients has representation of PDF of Gaussian distribution and PDF of approxmation coefficients is close to PDF of exponential distribution. We propose to use Fisher's criterion for variance in case of anomalies detection, which represented with changes in variance of data. Also, for detection of anomalies, represented by changes in mean value of data, we propose to use Fisher's criterion for mean values. The results of simulations show that probability of right detections of anomaly strongly increasing with increasing of window size, which is used in analysis. The best results in accuracy of detection can be obtained when size of analysis windows tends to the length of detectable anomaly.
Keywords: accuracy of detection, anomaly, network traffic, discrete wavelet transform.
8. P. Barford, J. Kline, D. Plonka, and A. Ron, “A signal analysis of network traffic nomalics,” intcrnctMcasuremcnt Workshop, 2002.
9. S. Kim and A. Reddy, 'Detecting traffic anomalies at the source through aggregate analysis of packet header data,” Proceedings of Networking, 2004.
10. L. Lan and L. Gyungho, “Ddos attack detection and wavelets,” Telecommunication Systems, pp. 435-451, 2005.
I [, Кобзарь А,И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006.
12. hltp://www.ll.mit.cdu/mission/communications/ist/corpora/ ideval/data/index.html,
13. S. Mallat. A wavelet tour of signal processing 3 ed.: The Sparse Way, 2005.
14. Шелухии О.И,, Гармашев А,В, Обнаружение DoS и DDoS атак методом дискретного вейвлет анализа // T-Comm: Телекоммуникации и транспорт. Спецвыпуск по информационной безопасности, 2011. — С. 44-47.
15. Шелухин О.И., Гармашев А.В. Обнаружение аномальных выбросов телекоммуникационного трафика методами дискретною вейвлет-анализа И Электромагнитные волны и электронные системы, 2012. №2. -С. 15-26.