Научная статья на тему 'Подготовка данных для использования в обучении и тестировании нейросетей при обнаружении сетевых атак'

Подготовка данных для использования в обучении и тестировании нейросетей при обнаружении сетевых атак Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
384
91
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подготовка данных для использования в обучении и тестировании нейросетей при обнаружении сетевых атак»

(свой < 0.3) И (чужой > 0.7) = чужой (НЕ свой) И (НЕ чужой) =

((свой < 0.7) ИЛИ (чужой > 0.3)) И ((свой > 0.3) ИЛИ (чужой < 0.7)) = не классифицирован

_________________________________________________________________Таблица 2

Пользователь Число векторов

Artem 2

Igor 8

Juic 12

Max 11

Stas 5

Итого 38

Результаты тестирования приведены в табл. 3.

Таблица 3

Тест Предъявлено Правильно классиф. Неверно классиф. Не классиф.

Всего 190 177 5 8

Свой пользователь 38 34 2 2

Чужой пользователь 152 143 3 6

По данным табл. 3 можно оценить вероятность ошибки первого рода (ложная тревога) диапазоном 6-10%, вероятность ошибки второго рода диапазоном 2-6%.

Таким образом, предложенный метод позволяет достаточно эффективно сигнализировать о нестандартном поведении пользователей при работе с компьютерами на базе Windows. Такое нестандартное поведение нельзя однозначно ассоциировать с вторжением. Однако при проявлении других признаков атаки, данные такой системы могут ускорить поиск её источника или получить о ней дополнительную информацию.

Библиографический список

1. Denning D. E. An intrnsion-detection model // Proc. IEEE Symposium on Security and Privacy. 1986. PP. 118-131.

2.Lane T., Brodley C. E. An application of machine learning to anomaly detection // Proc. 20th NIST-NCSC National Information Systems Security Conference. 1997. PP. 366-380.

3. Ryan J., Lin M.-J., Miikkulainen R. Intrusion Detection with Neural Networks // Advances in Neural Information Processing Systems. The MIT Press. Vol.10. 1998.

4. Marin J. A., Ragsdale D., Surdu J. A Hybrid Approach to Profile Creation and Intrusion Detection // Proc. of DARPA Information Survivability Conference and Exposition. - 2001.

5. Riedmiller M., Braun H. A direct adaptive method for faster backpropagation learning: The RPROP algorithm // Proc. of the IEEE International Conference on Neural Networks. 1993. PP. 586-591.

Е.С. Абрамов, М. В. Аникеев, О. Б. Макаревич

Россия, г. Таганрог, ТРТУ

ПОДГОТОВКА ДАННЫХ ДЛЯ ИСПОЛЬЗОВАНИЯ В ОБУЧЕНИИ И ТЕСТИРОВАНИИ НЕЙРОСЕТЕЙ ПРИ ОБНАРУЖЕНИИ СЕТЕВЫХ АТАК

Большинство современных подходов к проблеме обнаружения вторжений [1] подразумевают использование анализа, основанного на жестких правилах. Такой анализ основан на наборах правил, которые либо заранее встраиваются в систему разработчиками, либо создаются самой системой или системным администратором в процессе эксплуатации. Наиболее традиционной формой систем обнаружения атак (СОА), основанных на правилах, считаются экспертные системы [6]. Экспертные системы успешно используют внесённые в них знания специалистов в области защиты информации для выявления сетевой активности с признаками

злоупотреблений или атак. Однако экспертные системы требуют постоянных обновлений собственной базы знаний для возможности обнаружения новых классов атак. Системы, основанные на правилах, также испытывают существенные затруднения при обнаружении атак, распределённых во времени.

Для нормального функционирования СОА должна получать входные данные непосредственно из потока сетевых данных. При этом могут использоваться два метода анализа трафика [2].

Первый метод заключается в следующем: захватывается Ethernet- кадр; начиная с первого байта производится сравнение с сигнатурой атаки; затем переходят к 2-у байту и так до конца кадра; при достижении конца кадра сравнение начинается сначала с новой сигнатурой и так до конца базы сигнатур.

Во втором методе происходит разбор захваченного Ethernet-кадра для анализа типа протокола. СОА использует аппарат нейросетей для обнаружения атак, то данные заголовков дейтаграммы и пакета являются входными данными для нейросети. Поле данных протокола сравнивается с сигнатурами, присущими только этому протоколу. В отличие от экспертной системы, информирующей о признаках известных видов атак в вычислительной сети, нейронная сеть проводит анализ данных и пытается определить, насколько похожи признаки текущей сетевой активности на образцы атак из обучающей выборки. Поскольку нейронные сети обладают способностью к обобщению, можно предположить, что при достаточном объёме и представительности обучающей выборки нейронная сеть сможет экстраполировать свои знания об известных видах сетевых атак на неизвестные виды. Рассмотрим процесс формирования данных для СОА на основе нейронной сети.

Для первого метода характерна более низкая производительность по сравнению со вторым методом, но он позволяет обнаруживать атаки на нестандартные сервисы, пропускаемые при использовании второго метода.

Второй метод даёт значительный выигрыш в быстродействии за счёт анализа только определённых полей для выявления атак, специфичных для этого протокола, и дополнительный выигрыш за счёт отсутствия операции перебора сигнатур. Таким образом, достигается возможность анализа каждого поля данных всех протоколов стека TCP/IP и запас быстродействия при увеличении интенсивности трафика. Процесс подготовки данных для нейросети разбит на три этапа. На первом для представления сетевого события были выбраны десять элементов, как правило, представляющих в сети пакеты данных, а также представляющих полное описание данных в пакете [3,4,5]:

- Protocol ID - протокол, связанный с событием (TCP = 0, UDP = 1, ICMP = 2 и Unknown = 3);

- Исходный порт - номер порта источника;

- Порт назначения - номер порта хоста назначения;

- Исходный адрес - признак IP-адреса источника (0, если IP-адрес источника принадлежит интрасети и 1 в противоположном случае);

- Адрес назначения - признак IP-адреса получателя (0, если IP-адрес получателя принадлежит интрасети и 1 в противоположном случае);

- ICMP Type - тип ICMP пакета (Echo Request или Null);

- ICMP Code - кодовое поле из ICMP пакета (None или Null);

- Raw Data Length - длина данных в пакете;

- IP флаги - поле флагов IP-дейтаграммы (сочетание флагов MF и DF как двухбитовое целое);

- TCP флаги - шесть битовых параметров, соответствующих флагам TCP-пакета (SYN, ACK, PUSH, RESET, FIN и URG).

На втором этапе производится конвертирование элементов в стандартизированное числовое представление. Также к описанию сетевого события добавляется одиннадцатый элемент - Атака (требуемый выход нейросети), принимающий положительное или отрицательное значение на основе определения, было ли это событие частью атаки в сети (табл.1). Этот элемент используется в процессе обучения в качестве выбранных выходных данных нейросети для каждой записи.

Наиболее трудный компонент анализа сетевого трафика при помощи нейросети - это способность эффективно анализировать информацию в порциях данных 1Р-дейтаграммы. Различные команды, передающиеся в данных, часто представляют наиболее важный элемент в процессе определения того, имела ли место атака. На данном этапе исследований данные анализируются при помощи алгоритмов нечеткого поиска.

Использование для анализа заголовков и данных пакетов аппарата нейросетей и алгоритмов нечёткого поиска позволет преодолеть недостаток, присущий выбранному методу анализа трафика и связанный с худшей способностью определять атаки на нестандартные сервисы и позволит определять новые, ранее неизвестные атаки, не включённые в базу сигнатур.

Таблица 1

Пример описаний предварительно обработанных событий

Protocol ID Src. Port Dest. Port Source Addr Dest. Addr. ICMP Type ID ICMP Code ID Raw Data IP flags TCP flags

0 2314 80 0 0 0 0 401 0 0 1 1 0 0 0 0

0 0 0 1 0 10 0 0 1 0 0 0 0 0 0 0

На третьем этапе предварительной обработки описания преобразовывались в формат, который может быть использован нейросетью. Это так называемый ASCII comma-delimited формат (табл. 2).

Таблица 2

Пример ASCII comma-delimited входных строк (последовательностей)

0; 2314; 80; 0; 0; 0; 0; 401; 0; 0; 1; 1; 0; 0; 0; 0

0; 0; 0; 1; 0; 10; 0; 0; 1; 0; 0; 0; 0; 0; 0; 0

В итоге получился набор данных для загрузки в нейросеть при обучении и тестировании СОА (табл. 3).

Таблица 3

Пример входных данных для нейросети

Input 1 Input 2 Input 3 Input 4 Input 5 Input 6 In- put 7 Input 8 Input 910 Input 11-16 4.2.1. utput 1

0 2314 80 0 0 0 0 401 0 0 0 1 1 0 0 0 0

0 0 0 1 0 10 0 0 1 0 1 0 0 0 0 0 1

Библиографический список

1. “Insertion, Evasion, and Denial of Service: Eluding Network Intrusion Detection”, Thomas H. Pta-cek, Timothy N. Newsham, Secure Networks, Inc.

2. “Live Traffic Analysis of TCP/IP Gateways”, P. A. Porras and A. Valdes

3. RFC 791 Протокол IP.

4. RFC 793 Протокол TCP.

5. RFC 1825 Security Architecture for the Internet Protocol.

6. Denning, D. An Intrusion-Detection Model. IEEE Transactions on Software Engineering, Vol. SE-13, No. 2, 1987.

i Надоели баннеры? Вы всегда можете отключить рекламу.