Научная статья на тему 'ОБНАРУЖЕНИЕ СЕТЕВЫХ АНОМАЛИЙ В ТРАФИКЕ ПРОТОКОЛА УДАЛЕННЫХ РАБОЧИХ СТОЛОВ В ЧАСТОТНОЙ ОБЛАСТИ'

ОБНАРУЖЕНИЕ СЕТЕВЫХ АНОМАЛИЙ В ТРАФИКЕ ПРОТОКОЛА УДАЛЕННЫХ РАБОЧИХ СТОЛОВ В ЧАСТОТНОЙ ОБЛАСТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРАФИК УДАЛЕННЫХ РАБОЧИХ СТОЛОВ / ИНФОРМАЦИОННЫЙ ПРОЦЕСС / БЫСТРОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ / КРИТЕРИЙ ХИ-КВАДРАТ ПИРСОНА / СИСТЕМА ОБНАРУЖЕНИЯ АНОМАЛИЙ / REMOTE DESKTOP TRAFFIC / INFORMATION PROCESS / FAST FOURIER TRANSFORM / PEARSON CHI-SQUARE TEST / ANOMALY DETECTION SYSTEM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Меньших Валерий Владимирович, Телков Александр Юрьевич

Рассмотрена задача обнаружения сетевых аномалий в трафике протокола удаленных рабочих столов в частотной области. Использована модель представления трафика в виде тригонометрического ряда Фурье. Предложен алгоритм выявления сетевых аномалий, включающий этап обучения (подготовительный этап) и этап анализа и принятия решений на основе поступающих данных с учетом определенных на подготовительном этапе статистических закономерностей

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Меньших Валерий Владимирович, Телков Александр Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETECTION OF NETWORK ANOMALIES IN THE TRAFFIC OF THE REMOTЕ DESKTOP PROTOCOL IN THE FREQUENCY DOMAIN

The problem of detecting network anomalies in the traffic of remote desktops in the frequency domain is considered. The model of presentation traffic in the form of a trigonometric Fourier series is used. An algorithm is proposed for identifying network anomalies, including the training stage (preparatory stage) and the stage of analysis and decision-making based on incoming data, taking into account the statistical patterns determined at the preparatory stage.

Текст научной работы на тему «ОБНАРУЖЕНИЕ СЕТЕВЫХ АНОМАЛИЙ В ТРАФИКЕ ПРОТОКОЛА УДАЛЕННЫХ РАБОЧИХ СТОЛОВ В ЧАСТОТНОЙ ОБЛАСТИ»

В. В. Меньших,

доктор физико-математических наук, профессор

А. Ю. Телков,

кандидат физико-математических наук, доцент, Воронежский государственный университет

ОБНАРУЖЕНИЕ СЕТЕВЫХ АНОМАЛИЙ В ТРАФИКЕ ПРОТОКОЛА УДАЛЕННЫХ РАБОЧИХ СТОЛОВ

В ЧАСТОТНОЙ ОБЛАСТИ

DETECTION OF NETWORK ANOMALIES

IN THE TRAFFIC OF THE REMOTE DESKTOP PROTOCOL IN THE FREQUENCY DOMAIN

Рассмотрена задача обнаружения сетевых аномалий в трафике протокола удаленных рабочих столов в частотной области. Использована модель представления трафика в виде тригонометрического ряда Фурье. Предложен алгоритм выявления сетевых аномалий, включающий этап обучения (подготовительный этап) и этап анализа и принятия решений на основе поступающих данных с учетом определенных на подготовительном этапе статистических закономерностей.

The problem of detecting network anomalies in the traffic of remote desktops in the frequency domain is considered. The model ofpresentation traffic in the form of a trigonometric Fourier series is used. An algorithm is proposed for identifying network anomalies, including the training stage (preparatory stage) and the stage of analysis and decision-making based on incoming data, taking into account the statistical patterns determined at the preparatory stage.

Введение. В настоящее время существует широкий спектр задач, требующих проведения анализа сетевого трафика. Примером могут служить задачи обнаружения сетевых аномалий с целью предотвращения вторжений, задачи анализа трафика корпоративных сетей, задачи контроля сетевого трафика компаний, имеющих территориально-рас-пределенную структуру и применяющих для передачи данных сети общего пользования.

Актуальной проблемой является поиск эффективных методов выявления аномалий в работе сетей, являющихся следствием технических сбоев или несанкционированных воздействий. Основным требованием к этим методам является возможность обнаружения произвольных типов аномалий, в том числе новых, а также воздействий, распределенных во времени [1, 2].

В некоторых задачах обнаружения особый интерес представляют спектральные и спектрально-временные алгоритмы анализа сетевого трафика [3 — 5]. В данной работе исследовался вопрос нормального поведения трафика пользовательских терминалов, с которых в рабочее время в рабочие дни недели велась по протоколу удаленных рабочих столов работа с системой 1С:Предприятие через сервер терминалов. Типовые временные суточные зависимости объема входящего (на терминалы) трафика от времени представляли собой возрастающие от нулевого значения функции с момента времени, соответствующего началу рабочего дня, и затухающие до нуля к моменту времени, соответствующему окончанию рабочего дня.

Целью работы являлось изучение в частотной области закономерностей в трафике терминалов, работающих на сервере по протоколу удаленных рабочих столов, а на нем — с системой 1С:Предприятие, и разработка алгоритма, позволяющего выявить сетевые аномалии в подобном трафике. С практической точки зрения интерес представляют, как минимум, два случая — определение аномального поведения, соответствующего отсутствию сетевой активности — терминал не работает в нормальном режиме; и избыточный входящий трафик, соответствующий факту несанкционированной загрузки данных с сервера терминалов на работающий удаленный терминал. Последнее может соответствовать, например, фактам компрометации удаленного терминала и попыткам выгрузки на него информации из баз данных системы 1С:Предприятие.

1. Выявление закономерностей в спектре трафика удаленных рабочих столов. Под анализом сетевого трафика мы понимали анализ загрузки канала передачи данных (объем переданной информации в байтах либо количество переданных пакетов) за определенный интервал времени между системами «сервер терминалов» и «клиент сервера терминалов». Трафик рассматривался как цифровой массив данных в виде одномерного числового ряда (последовательности), заданной в дискретные моменты времени. Информацию о трафике получали с помощью ipcad — эмулятора механизма Cisco Net-Flow для Linux систем, записывая ее в базу данных PostgreSQL [6], выгружая затем необходимые для обработки массивы.

Схема распределенной сети приведена на рис. 1.

Аккумулировались данные о трафике между одним источником и разными получателями. IPv4 адрес источника: 192.168.155.29. Порт источника: 3389. IPv4 адреса получателей: 192.168.53.37, 192.168.53.40, 192.168.53.79, 192.168.53.43, 192.168.53.65, 192.168.53.61, 192.168.53.48, 192.168.53.76, 192.168.53.59, 192.168.53.50, 192.168.53.72, 192.168.53.60, 192.168.53.58, 192.168.53.44, 192.168.53.47, 192.168.53.66, 192.168.53.55, 192.168.53.68, 192.168.53.56, 192.168.53.250, 192.168.53.49, 192.168.53.77, 192.168.53.53, 192.168.53.41, 192.168.53.51, 192.168.53.52, 192.168.53.57.

С целью исключения нехарактерных зависимостей в суточных трендах к собранным данным сетевого трафика применялась дополнительная фильтрация. Для дневного трафика каждого хоста высчитывалось количество «рабочих» часов, т.е. определялись те часы, где значение трафика было больше нуля, и сравнивалось с пороговым значением.

Рис. 1. Схема распределенной сети

Анализ характеристик сетевого трафика (рис. 2) свидетельствует о том, что на суточном интервале информационные процессы носят случайный характер с явными циклическими периодами, а на больших интервалах в дополнении к циклам добавляется тренд [2, 5].

8x10

6x10

6

4x10

2x10

— 192.168.53.37 192.168.53.40 192.168.53.79 192.168.53.250

— Traffic (median)

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Time, h

Рис. 2. Зависимости объема сетевого трафика (в байтах) от длительности (в часах). Толстой линией показано среднее значение трафика

Эффективным средством идентификации модели сетевого трафика является гармонический анализ, математической основой которого является преобразование Фурье.

Для определения скрытых закономерностей в сетевом трафике использована модель в виде тригонометрического ряда Фурье [2]:

а0 V/ 2Ш 2пЦ (1)

Уt = у + ^(аксо^— + Ьк$1п—),

к

где ао — средний уровень ряда, k — номер гармоники, ! — длина волны (1 = n/k).

Для перехода из временной в частотную область применялось быстрое преобразование Фурье. Получены семейства гармоник для каждой из 17 частот, для каждого анализируемого дня, для каждой пары «источник — получатель».

Для каждой из 17 гармоник соответственно получены выборки, состоящие из 350 значений. При анализе гистограмм была выдвинута гипотеза Ш, что анализируемые величины подчиняются гауссовому (нормальному) закону распределения случайной величины. Для каждой гармоники были рассчитаны статистические характеристики (примеры приведены на рис. 3, 4).

Рис. 3. Гипотетическое и реальное распределение вероятностей для третьей гармоники

Рис. 4. Гипотетическое и реальное распределение вероятностей для девятой гармоники

Чтобы оценить статистическую значимость различий между фактическим (выявленным в результате исследования) количеством исходов, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы Но, применялся критерий хи-квадрат Пирсона.

Для проверки гипотезы Но было вычислено значение критерия хи-квадрат Пирсона для 30 степеней свободы для каждой из 17 гармоник (табл. 1). При любом уровне значимости полученное значение меньше порогового (табл. 2), что свидетельствует о том, что полученные зависимости являются статистически значимыми. Гипотеза Но была принята за основную.

Таблица 1

Значения критерия хи-квадрат Пирсона для 17 гармоник

Harmonic 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

х2 VO 00 m 0 0 Э,28 2 3 VO 0 m 4 4 vo 6 6 m 4 5 vo 3 3 6 4 m 4 0 (N 4 5 41 m 3 5 8 5 00

On (N (N о о о о о (N о О о о

Значения квантилей

Таблица 2

Число степеней свободы Уровень значимости а

0,01 0,05 0,1 0,90 0,95 0,99

1 6,6 3,8 2,71 0,02 0,004 0,0002

2 9,2 6,0 4,61 0,21 0,1 0,02

3 11,3 7,8 6,25 0,58 0,35 0,12

30 50,9 43,8 40,3 20,6 18,5 15,0

2. Описание алгоритма обнаружения сетевых аномалий. Вследствие того что не отвергнута гипотеза о подчинении каждой гармоники нормальному (гауссовому) закону распределения случайных величин, для разработки алгоритма обнаружения аномалий были применены элементы теории статистических решений.

Предлагаемый алгоритм предполагает оценку нормированного среднеквадратичного отклонения (НСКО) каждой гармоники из спектра входящего трафика терминалов. При наличии в тренде трафика какого-либо типа сетевой аномалии значение НСКО одной или нескольких гармоник с заданной точность будет лежать за пределами диапазона, определяемого правилом трех сигм.

Алгоритм обнаружения аномалий состоит из 2 этапов (рис. 5). На первом этапе происходит подготовка системы к работе. Сбор данных представляет сохранение в единую базу зависимостей объемов трафика протокола удаленных рабочих столов от времени в количестве, достаточном для объективной оценки статистических параметров спектра этого трафика. Учитывая особенности времени работы терминалов в течение суток и недели в целом (отсутствие или искажение трафика в выходные и праздничные дни), производится отбор полученных зависимостей для повышения достоверности вычисления значений математического ожидания и НСКО.

Для перехода в частотную область затем используется БПФ.

В завершении подготовительного этапа происходит формирование статистических параметров для каждой гармоники.

В начале второго этапа (этапа анализа текущего трафика) формируется массив, заполненный средними значениями объема данных, прошедших между соответствующим портом 1Ру4 отправителя и портом 1Ру4 получателя. В моменты времени, определяемые шагом дискретизации, соответствующие значения в массиве заменяются данными, полученными с сетевого сенсора и с помощью БПФ для каждой гармоники определяется отклонение от среднего значения и вычисляется НСКО. Полученное значение сравнивается с пороговым, в результате чего система принимает решение о присутствии (отсутствии) аномалии.

Рис. 5. К пояснению алгоритма обнаружения сетевых аномалий

При уменьшении шага дискретизации вместе с количеством гармоник будет повышаться точность полученной системы обнаружения, однако будет возрастать вычислительная нагрузка. Таким образом, каждая проектируемая система обнаружения требует индивидуального анализа, требования к точности такой системы определяются характером аномалий и вычислительной мощностью системы.

Исследование алгоритма обнаружения сетвых аномалий. Для исследования зависимости значения НСКО от длительности и объема сетевой аномалии и обнаружения порога срабатывания описанного метода на основе среднесуточного значения тренда трафика удаленных рабочих столов были смоделированы аномалии с различной продолжительностью и объемом (рис. 6—9).

m

<s

Traffic (median) • • Traffic with anomaly

/ A

\ i

/ \ \J / \

> ш V \ ■ •

m

cT

Traffic (median)

• T ra: fic V h an om nal r • •

\

md / \ 1 w

/ 9 •

012345678 9 1011121314151617181920212223 Time, h

Рис. 6. Объем аномалии 21% от объема трафика

012345678 9 1011121314151617181920212223 Time, h

Рис. 7. Объем аномалии 53% от объема трафика

1x10

6.4x10

4.8x10

3.2x10

1.6x10

2x10

m

сТ

Traffic (median) Traffic with anomaly

m

О*

012345678 9 1011121314151617181920212223 Time, h

Рис. 8. Объем аномалии 39% от объема трафика

Traffic (median)

Tr af fic w it h anomal y \

Л- 1

i А/ \

> 1 \

012345678 9 1011121314151617181920212223 T ime, h

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 9. Объем аномалии — 14% от объема трафика

Критерием срабатывания тревоги было принято событие отклонения хотя бы одной гармоники спектра на значение большее, чем 3 а (где а — среднеквадратическое отклонение) от экспериментально рассчитанного среднего значения. В результате были получены семейства зависимостей от объема и длительности аномалии для каждой гармоники (рис. 10—11).

о

(Л 2

NSKO(duration) Threshold

О

W „

И 2

/ NSKO(volume) Threshold

1

• t t • • ....... .......

6.4x10

6.4x10

4.8x10

4.8x10

3.2x10

3.2x10

.6x10

.6x10

4

4

0 2 4 6 8 10

Anomaly duration, h

Рис. 10. Зависимость величины НСКО нулевой гармоники от длительности аномалии при фиксированной скорости (111 Кб/с)

о о о о о

0 2х108 4х108 6x10" 8x10" 1х109

Anomaly volume, B Рис. 11. Зависимость величины НСКО нулевой гармоники от объема аномалии при фиксированной длительности (1 час)

Проверка работоспособности алгоритма была произведена на сгенерированных с помощью ftp протокола сетевых аномалиях заданных длительностей и скоростей. В экспериментах наиболее значимыми оказались отклонения на гармониках с номерами от 0 до 6. Наличие отклонений на нулевой частоте соответствовало случаям длительных аномалий различной интенсивности, отклонений на более высоких частотах — случаям кратковременных аномалий.

Заключение. Частотное представление сетевого трафика с целью выявления сетевых аномалий является информативным и позволяет расширить возможности существующих систем обнаружения, но требуют больших размерностей для представления результатов и приводит к большей вычислительной сложности алгоритмов.

В результате исследования закономерностей в трафике терминалов, взаимодействующих с сервером по протоколу удаленных рабочих столов, была выдвинута гипотеза о нормальном распределении гармоник в спектрах этого трафика. Гипотеза была проверена с помощью критерия хи-квадрат Пирсона. На основе этого для системы обнаружения аномалий был предложен алгоритм, оперирующий вероятностными характеристиками спектра.

В результате моделирования сетевых аномалий (увеличение скорости и времени обмена данными между хостами) были получены частные результаты применения алгоритма. Например, при загрузке данных с сервера терминалов на работающий терминал с ограничением по скорости в 111 Кб/с распознать сетевую аномалию удалось через 6 часов. При отсутствии ограничений по скорости загрузки данных детектирование аномалии происходит при скорости 330 Кб/с. Отдельный интерес представляет поиск решения задачи по оптимизации соотношения чувствительности системы (уменьшение шага дискретизации) к вычислительным нагрузкам.

Полученные в работе результаты могут найти свое применение в системах обнаружения сетевых аномалий и сетевых злоупотреблений реального времени, не только для рассмотренного случая трафика протокола удаленных рабочих столов, но и для трафика протоколов других типов. В интересах снижения времени обнаружения сетевых аномалий с момента их возникновения частота получения информации из базы данных сетевого трафика может быть повышена.

ЛИТЕРАТУРА

1. Шелухин О. И. Сетевые аномалии. Обнаружение, локализация, прогнозирование. — М.: Горячая линия — Телеком, 2019. — 448 с.

2. Шелухин О. И., Сакалема Д. Ж., Филинова А. С. Обнаружение вторжений в компьютерные сети (сетевые аномалии). — М. : Горячая линия — Телеком, 2013. — 220 с.

3. Басараб М. А., Строганов И. С. Обнаружение аномалий в информационных процессах на основе мультифрактального анализа // Вопросы кибербезопасности. — 2014. — №4 (7). — С. 30—40.

4. Методы спектрального анализа в задаче обнаружения аномалий информационных процессов телекоммуникационных сетей : монография / Н.А. Соловьев [и др.]. — Оренбург : ОГУ, 2013. — 171 с.

5. Юркевская Л.А. Теоретико-экспериментальное обоснование системы автоматического выявления аномальной активности субъектов сети передачи данных // Управлением, созданием и развитием систем, сетей и устройств телекоммуникаций. — СПб., 2008. — С. 83—88.

6. Телков А. Ю., Крохин Е. А. Операторное представление процедуры извлечения данных о сессиях трафика по данным сервера удаленного взаимодействия (RSH) и симу-лятора счетчика пакетов IP ACCOUNTING (IPCAD) на транзитном LINUX маршрутизаторе // Вестник ВГУ. Серия: Системный анализ и информационные технологии. — 2017. — № 2. — С. 54—56.

REFERENCES

1. Sheluhin O. I. Setevyie anomalii. Obnaruzhenie, lokalizatsiya, prognozirovanie. — M. : Goryachaya liniya — Telekom, 2019. — 448 s.

2. Sheluhin O. I., Sakalema D. Zh., Filinova A. S. Obnaruzhenie vtorzheniy v kompyuternyie seti (setevyie anomalii). — M. : Goryachaya liniya — Telekom, 2013. — 220 s.

3. Basarab M. A., Stroganov I. S. Obnaruzhenie anomaliy v informatsionnyih protsessah na osnove multifraktalnogo analiza // Voprosyi kiberbezopasnosti. — 2014. — # 4(7). — S. 30—40.

4. Metodyi spektralnogo analiza v zadache obnaruzheniya anomaliy informatsionnyih protsessov telekommunikatsionnyih setey : monografiya / N.A. Solovev [i dr.]. — Orenburg : OGU, 2013. — 171 s.

5. Yurkevskaya L. A. Teoretiko-eksperimentalnoe obosnovanie sistemyi avtomaticheskogo vyiyavleniya anomalnoy aktivnosti sub'ektov seti peredachi dannyih // Upravleniem, sozdaniem i razvitiem sistem, setey i ustroystv telekommunikatsiy. — SPb., 2008. — S. 83—88.

6. Telkov A. Yu., Krohin E. A. Operatornoe predstavlenie protseduryi izvlecheniya dannyih o sessiyah trafika po dannyim servera udalennogo vzaimodeystviya (RSH) i simulyatora schetchika paketov IP ACCOUNTING (IPCAD) na tranzitnom LINUX marshrutizatore // Vestnik VGU. Ser-iya: Sistemnyiy analiz i informatsionnyie tehnologii. — 2017. — # 2. — S. 54—56.

СВЕДЕНИЯ ОБ АВТОРАХ

Меньших Валерий Владимирович. Профессор кафедры математики и моделирования систем. Доктор физико-математических наук, профессор.

Воронежский институт МВД России.

E-mail: menshikh@list.ru

Россия, 394065, проспект Патриотов, 53. Тел. (473) 227-72-87.

Телков Александр Юрьевич. Доцент кафедры электроники. Кандидат физико-математических наук, доцент.

Воронежский государственный университет.

E-mail: telkov@dpo-it.ru

Россия, 394006, Воронеж, Университетская пл., 1. Тел. (473) 220-82-84.

Menshikh Valery Vladimirovich. Professor of the chair of Mathematics and System Modeling. Doctor of Physical and Mathematical Sciences, Professor.

Voronezh Institute of the Ministry of the Interior of Russia.

E-mail: menshikh@list.ru

Work address: Russia, 394065, Prospect Patriotov, 53. Tel. (473) 227-72-87.

Telkov Alexander Yuryevich. Associate Professor of the chair of Electronics. Candidate of Physical and Mathematical Sciences, Associate Professor.

Voronezh State University.

E-mail: telkov@dpo-it.ru

Work address: Russia, 394006, Voronezh, Universitetskaya Square, 1. Tel. (473) 220-82-84.

Ключевые слова: трафик удаленных рабочих столов; информационный процесс; быстрое преобразование Фурье; критерий хи-квадрат Пирсона; система обнаружения аномалий.

Key words: remote desktop traffic; information process; fast Fourier transform; Pearson chi-square test; anomaly detection system.

УДК 621.391.01

i Надоели баннеры? Вы всегда можете отключить рекламу.