Научная статья на тему 'Определение протокола информационного обмена прикладного уровня на основе классификации сетевых пакетов с применением нейронных сетей и алгоритмов нечеткой логики в системах анализа трафика'

Определение протокола информационного обмена прикладного уровня на основе классификации сетевых пакетов с применением нейронных сетей и алгоритмов нечеткой логики в системах анализа трафика Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
281
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБНАРУЖЕНИЕ СЕТЕВЫХ ПРОТОКОЛОВ / ГЛУБОКИЙ АНАЛИЗ ПАКЕТОВ / ТЕОРИЯ НЕЧЕТКИХ МНОЖЕСТВ / НЕЧЕТКАЯ ЛОГИКА / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / АНАЛИЗ СЕТЕВОГО ТРАФИКА / NETWORK PROTOCOL DETECTION / DEEP ANALYSIS OF PACKETS / FUZZY SETS THEORY / FUZZY LOGIC / ARTIFICIAL NEURAL NETWORKS / NETWORK TRAFFIC ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ермаков Р. Н., Кравцов А. О., Привалов А. А., Заугольный Н. П., Скуднева Е. В.

Цель: Рассмотреть вопросы, связанные с эффективным распознаванием сетевых протоколов в высокоскоростных системах анализа трафика, в максимальной степени обеспечивающим высокую верность классификации и обобщение на новых пакетных данных. Разработать двухступенчатую схему классификации сетевых протоколов с уменьшением размерности факторного пространства с применением многомодельного подхода, в котором задействованы методы машинного обучения и алгоритмы нечеткой логики. На основе двух предложенных способов показать обоснованность предлагаемого подхода. Сформулировать задачи, являющиеся развитием этого подхода. Методы: Используются в процедурах предобработки исходных данных сетевых пакетов теория нечетких множеств и алгоритмы нечеткой логики. Применяются следующие методы: классификация на основе искусственных нейронных сетей, а именно с применением логистической регрессии, а также задействованием алгоритма нечеткого вывода Мамдани. Результаты: Разработан алгоритм определения сетевых протоколов прикладного уровня, в максимальной степени обеспечивающий выполнение требований, предъявляемых к современным высокоскоростным системам анализа трафика. Приведены результаты практических экспериментов (тестирования), показывающие возможность эффективной классификации сетевых протоколов информационного обмена посредством описанного подхода. Предложены новые задачи, позволяющие реализовать построение надежного высокоскоростного классификатора сетевых протоколов информационного обмена в подсистемах углубленного анализа сетевого трафика в межсетевых экранах и системах обнаружения вторжений. Практическая значимость: Сформулированная и решенная задача обеспечивает возможность надежного распознавания сетевых приложений прикладного уровня, что, в свою очередь, способствует эффективному выявлению сетевых угроз.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ермаков Р. Н., Кравцов А. О., Привалов А. А., Заугольный Н. П., Скуднева Е. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Attribution of application-level data communications protocol on the basis of classification of network packets using neural networks and fuzzy-logic algorithms in traffic analysis systems

Objective: Consider issues related to efficient recognizing of network protocols in high-speed traffic analysis systems ensuring highest possible classification correctness and generalization for new data packets. Develop two-level circuit for attribution of network protocols with reduction of dimensionality of factor space with application of multi-model approach deploying machine learning and fuzzy-logic algorithms. Demonstrate feasibility of the proposed approach on the basis of two proposed methods. Formulate problems constituting its development. Methods: Fuzzy sets theory and fuzzy logic algorithms are used in pre-processing network packets’ input data. Classification on the basis of artificial neural networks is applied, specifically using logistic regression and involving Mamdani fuzzy-inference algorithm. Results: An algorithm for attribution of application-level network protocols was developed, ensuring highest possible degree of fulfillment of requirements for modern high-speed traffic analysis systems. Results of practical experiments (testing) are outlined, indicating possibility of efficient attribution of network data communications protocols by the approach described. New problems are proposed allowing implementation of designing a reliable high-speed data exchange network protocol classifier in network traffic deep analysis subsystems in network firewalls and intruder detection systems. Practical importance: Formulated and solved problem ensures reliable detection of application-level network application which in its turn contributes to efficient identification of network threats.

Текст научной работы на тему «Определение протокола информационного обмена прикладного уровня на основе классификации сетевых пакетов с применением нейронных сетей и алгоритмов нечеткой логики в системах анализа трафика»

УДК 004.8

Определение протокола информационного обмена прикладного уровня на основе классификации сетевых пакетов с применением нейронных сетей и алгоритмов нечеткой логики в системах анализа трафика

Р Н. Ермаков 1, А. О. Кравцов 2, А. А. Привалов 2, Н. П. Заугольный 1, Е. В. Скуднева 2

1 АО «НИИ «Масштаб», Российская Федерация, 194100, Санкт-Петербург, ул. Кантемировская, 5, лит. А

2 Петербургский государственный университет путей сообщения Императора Александра I, Российская Федерация, 190031, Санкт-Петербург, Московский пр., 9

Для цитирования: Ермаков Р. Н., Кравцов А. О., Привалов А. А., Заугольный Н. П., Скуднева Е. В. Определение протокола информационного обмена прикладного уровня на основе классификации сетевых пакетов с применением нейронных сетей и алгоритмов нечеткой логики в системах анализа трафика // Известия Петербургского университета путей сообщения. - СПб.: ПГУПС, 2019. -Т. 16, вып. 4. - С. 677-690. Б01: 10.20295/1815-588Х-2019-3-677-690

Аннотация

Цель: Рассмотреть вопросы, связанные с эффективным распознаванием сетевых протоколов в высокоскоростных системах анализа трафика, в максимальной степени обеспечивающим высокую верность классификации и обобщение на новых пакетных данных. Разработать двухступенчатую схему классификации сетевых протоколов с уменьшением размерности факторного пространства с применением многомодельного подхода, в котором задействованы методы машинного обучения и алгоритмы нечеткой логики. На основе двух предложенных способов показать обоснованность предлагаемого подхода. Сформулировать задачи, являющиеся развитием этого подхода. Методы: Используются в процедурах предобработки исходных данных сетевых пакетов теория нечетких множеств и алгоритмы нечеткой логики. Применяются следующие методы: классификация на основе искусственных нейронных сетей, а именно с применением логистической регрессии, а также задействованием алгоритма нечеткого вывода Мамдани. Результаты: Разработан алгоритм определения сетевых протоколов прикладного уровня, в максимальной степени обеспечивающий выполнение требований, предъявляемых к современным высокоскоростным системам анализа трафика. Приведены результаты практических экспериментов (тестирования), показывающие возможность эффективной классификации сетевых протоколов информационного обмена посредством описанного подхода. Предложены новые задачи, позволяющие реализовать построение надежного высокоскоростного классификатора сетевых протоколов информационного обмена в подсистемах углубленного анализа сетевого трафика в межсетевых экранах и системах обнаружения вторжений. Практическая значимость: Сформулированная и решенная задача обеспечивает возможность надежного распознавания сетевых приложений прикладного уровня, что, в свою очередь, способствует эффективному выявлению сетевых угроз.

Ключевые слова: Обнаружение сетевых протоколов, глубокий анализ пакетов, теория нечетких множеств, нечеткая логика, искусственные нейронные сети, анализ сетевого трафика.

Введение

В связи с продолжающейся в России программой импортозамещения, в том числе с повсеместным переходом государственных предприятий на использование отечественных процессоров, таких как «Эльбрус» [1], наблюдается тенденция отказов в государственном секторе от:

1) применения современных импортных Deep Packet Inspection (Глубокий анализ пакетов - DPI) - систем соответствующих библиотек от лидеров мировой индустрии (Cisco и др.);

2) известных открытых решений, таких как nDPI.

Это обусловлено тем, что нет полной уверенности в том, во-первых, что такое ресурсо-потребляемое программное обеспечение (ПО) будет установлено без излишних сложностей, во-вторых, что будет должным образом выполняться весь заявленный функционал. В соответствии с вышеизложенным считаем, что собственная разработка тех или иных функциональных элементов DPI-системы, в том числе и глубокого анализатора сетевых пакетов, и доведение таких элементов до промышленного уровня являются значимым направлением развития межсетевого экранирования в аспекте нужд отечественных потребителей [2].

В данной работе описан начальный этап проектирования классификатора сетевых пакетов (КСП) приложений прикладного уровня с применением элементов искусственного интеллекта (нейронные сети [3, 4] и алгоритмы fuzzy logic [5-9]). Рассматриваются основные методы DPI и особое внимание уделяется поведенческому анализу сетевого трафика, как наиболее востребованному способу в условиях преобладания шифрованного трафика.

Проектирование и разработка КСП

Они состоят из следующих основных этапов: 1) мониторинг и сбор пакетной статистической информации наиболее известных

и часто встречающихся протоколов сетевого трафика; 2) предобработка входного трафика; 3) выбор подходящей архитектуры нейронной сети, проведение тестовых проверок, выбранных нейросетевых решений, разработка и тестирование программной реализации КСП.

Наполнение созданного нейросетевого КСП классифицирующими моделями предусмотрено на стадии после разработки КСП.

Рассмотрим этапы построения нейросете-вого КСП более подробно.

Этап 1. Мониторинг и сбор пакетной статистической информации наиболее известных и часто встречающихся протоколов сетевого трафика (TLSvl, TLSv1.2, SSHv2, HTTP, FTP и др.) с использованием ПО Wireshark [10]. Для выполнения данного этапа требовалось решить ряд подзадач:

а) выбор входных наиболее подходящих предикторов для построения модели классификации сетевых пакетов;

б) формирование первичных репрезентативных выборок (DUMP в Wireshark-формате) с пакетной информацией по указанным выше протоколам с использованием ПО Wireshark (объем трафика примерно 1 Гб);

в) автоматическое формирование вторичных выборок для анализа.

Этап 2. Выделение наиболее подходящих признаков для построения классификации сетевых пакетов является сложной задачей. С учетом данных, полученных из исследований [11, 12], был выделен следующий набор признаков:

- EtherType (тип стандарта протокола Ethernet);

- Source IP Address (IP-адрес отправителя);

- Destination IP Address (IP-адрес получателя);

- Multicast (принимает значение 1, если multicast, в противном случае - 0);

- IP Protocol (тип транспортного уровня);

- PacketLength (длина сетевого пакета в байтах);

- SourcePort (порт [TCP/UDP] отправителя);

- DestinationPort (порт [TCP/UDP] получателя);

- hex_length (количество байт в строковом контенте [часть payload] протокола верхнего уровня);

- payload_hex (передаваемая строка в контенте протокола верхнего уровня [часть pay-load]).

Также был включен дополнительный параметр - маркировка класса payload type, чтобы иметь возможность обучения моделей классификации сетевых пакетов по схеме с учителем.

Предобработка первичной пакетной информации состоит из трех последовательно выполняющихся блоков, которые представлены на рис. 1.

В первом блоке предобработки задействован такой функционал:

• проверка payload на предмет шифрованной контентной информации (потребовало реализации отдельного специального технологического ПО на языке Python);

• обработка payload для лучшего визуального восприятия и возможности эвристического (поведенческого) анализа;

• разделение полученных классифицируемых сетевых пакетов на однородные группы (A, B, C, D) на основе значений некоторых входных признаков (тип стандарта протокола Ethernet, Multicast и тип транспортного уровня), а также формирование тестовых и тренировочных наборов.

Тестовый плоский файл в csv-формате с пакетной статистической информацией может иметь содержание, как показано в табл. 1.

Разделение классифицируемых сетевых пакетов по принадлежности к известным протоколам (DHCPv6, DNS, FTP, HTTP и др.) на 4 группы (A, B, C, D) производится на основе следующих логических правил:

1) IF (EtherType==IPv4) AND (Multicast==0) AND (IP_PROTO==TCP) THEN GROUP = A;

2) IF (EtherType==IPv4) AND (Multicast==0) AND (IP_PROTO==UDP) THEN GROUP = B;

3) IF (EtherType==IPv4) AND (Multicast==1) AND (IP_PROTO==UDP) THEN GROUP = C;

4) IF (EtherType==IPv6) AND (Multicast==1) AND (IP_PROTO==UDP) THEN GROUP = D.

Таким образом, произошло такое распределение классифицируемых протоколов первой фазы реализации по группам:

группа А (TLSv1, TLSv1.2, TCP, SSHv2, HTTP),

группа B (UDP, STUN, QUIC, NBNS, DNS, BROWSER),

группа С (SSDP, MDNS, LLMNR),

группа D (SSDP, MDNS, LLMNR, DHCP v6).

Попавшие в одну группу протоколы будем считать во многом схожими, а общую выборку в группе - однородной.

На современном этапе развития математического моделирования принято считать, что репрезентативные исходные наборы данных во многом обеспечивают конечный успех всего моделирования - получение адекватных моделей. Как правило, проводятся статистические проверки исходных данных, выявляются и исключаются из тренировочных выборок

Предобработка первичной пакетной информации

Рис. 1. Интеллектуальная автоматизированная предобработка первичных пакетных данных

ТАБЛИЦА 1. Представление варианта последовательности пакетов в сетевом трафике

№ Ethernet Type Source IP Address Destination IP Address Multicast IP proto Packet length Src port Dst port Type proto Hex length Hex stream

0 0x800 172.16.0.1 172.16.0.10 0 6 73 53986 21 FTP 7 504153

1 0x800 172.16.0.1 172.16.0.10 0 6 72 53986 21 FTP 6 4c4953

2 0x800 172.16.0.1 172.16.0.10 0 6 90 53986 21 FTP 24 504f52

3 0x800 192.168.10.3 192.168.10.8 0 6 91 443 61983 TLSv1 37 150301

4 0x800 13.79.241.1 192.168.10.1 0 6 459 443 61867 TLSv1 405 170303

5 0x800 192.168.10.3 192.168.10.8 0 6 91 443 61986 TLSv1 37 150301

6 0x800 94.100.181.5 192.168.10.5 0 6 491 443 61662 TLSv1 437 170301

7 0x800 192.168.10.3 192.168.10.8 0 6 199 443 61993 TLSv1 145 170303

8 0x800 192.168.10.3 192.168.10.8 0 6 113 62544 443 TLSv1 59 170303

9 0x800 192.168.10.1 13.79.241.1 0 6 267 61988 443 TLSv1.2 213 d2a6ea

10 0x800 13.79.241.1 192.168.10.1 0 6 571 443 61990 TLSv1.2 517 6edb93

11 0x800 13.79.241.1 192.168.10.1 0 6 731 443 61988 TLSv1.2 677 170303

12 0x800 192.168.10.7 40.115.1.4 0 6 305 61991 443 TLSv1.2 251 170303

сильно зашумленные или избыточные исходные данные.

В методах машинного обучения, как правило, используются следующие процедуры предобработки данных:

1) обработка категориальных данных;

2) масштабирование признаков, которое включает в себя приведение разных признаков к одинаковой шкале (на практике существуют два общих подхода к приведению различных признаков к одинаковой шкале:

- нормализация,

- стандартизация (использовалась в данной работе);

3) отбор содержательных признаков.

Этап 3. Делается попытка перехода от простого логического КСП на правилах, главными недостатками которого являются трудоемкость и рутинность формирования правил, к современному высокотехнологичному нейросетево-му классификатору, базирующемуся на методах машинного обучения и интеллектуальной обработке данных. В настоящее время идея совместного использования нейросетевого подхода классификации сетевых пакетов и DPI, NTA обсуждается в [13].

Следует отметить, что ряд входных признаков из числа выделенных и представленных выше являются категориальными. Учитывая значительное количество анализируемых данных, для оптимизации вычислений требуется использовать декомпозицию (свертку). Для этой цели специалисты машинного обучения часто применяют линейный дис-криминантный анализ (LDA) [14]. В настоящей работе для такой цели используются модели на основе логических правил и алгоритмов нечеткой логики (fuzzy logic, применялся алгоритм нечеткого вывода Мамдани [1519]), что позволяет пользоваться накопленными знаниями об объекте исследования, например RFC-описаниями сетевых протоколов.

Алгоритм нечеткого вывода Мамдани

Этот алгоритм был задействован в общей схеме классификации сетевых пакетов. Рассмотрим основные особенности данного алгоритма.

Целевой функцией будем считать выполнение такого отображения своих входов (вектор X) в выход Y, которое обеспечивало бы как можно более точную аппроксимацию реальной системы, например в смысле средней абсолютной погрешности. Указанное отображение предполагает существование некоторой геометрической поверхности, которую принято называть поверхностью отображения в пространстве, задаваемым декартовым произведением Х^ [20].

Алгоритм Мамдани представляет собой множество правил, где каждое правило задает в указанном пространстве некоторую нечеткую точку. На основе множества нечетких точек формируется нечеткий график, механизм интерполяции между точками, который зависит от используемого аппарата нечеткой логики.

Формально алгоритм Мамдани может быть определен следующим образом:

• формирование базы правил систем нечеткого вывода;

• фаззификация входных переменных;

• агрегирование подусловий в нечетких правилах продукций, при этом для нахождения степени истинности каждого из правил нечетких продукций проводятся парные нечеткие логические операции, те правила, степень истинности которых отлична от нуля, считаются активными и используются для дальнейших расчетов;

• активизация подзаключений в нечетких правилах продукций, которую также часто называют выводом на правилах, выполняется с использованием операторами нечеткой импликации, например, если вывод следует осуществлять в соответствии с правилом: ЕСЛИ (х = А1) ТО (у = B1); применяя импликацию Мамдани, можно определить активизированную функцию принадлежности импликации А ^ В, которая представляет собой некоторое нечеткое отношение

R Я У) = (цA Б (У))

R : А ^ Б на декартово произведение X хУ;

• аккумуляция заключений (процесс определения общего вывода) нечетких правил продукций наиболее часто выполняется так, как показано на следующем примере, пусть дана нечеткая модель с базой правил вида

Ш:ЕСЛИ(х=A1) ТО( y=B1), R 2 :ЕСЛИ(х = А2) ТО(у = B 2).

При этом требуется определить результирующую функцию принадлежности p,res (y) вывода из всей базы правил, тогда все правила, входящие в базу, можно объединить в одно составное правило:

R: ЕСЛИ (х=А1)ТО(y=B1) ИЛИ

ЕСЛИ (х=А2)ТО (y = B 2).

Это означает, что правило R состоит из двух простых правил R1 и R2, объединенных логической связкой ИЛИ, которое может быть представлено и так:

R=R1UR 2.

Поскольку каждое правило представляет собой нечеткое отношение двух аргументов (импликацию), результирующее отношение R можно найти с использованием одной из 5-норм, например оператора MAX, его функцию принадлежности p,R (х, y) можно получить на основе функций принадлежности составляющих его отношений (импликаций) по формуле

Vr (^y) = MAX(vR1 (хy),ЦR2 (х,y));

• дефазификация входных переменных, которая, как правило, задействует популярный метод центра тяжести, однако мы применили также очень эффективный метод де-фаззификации, называемый методом высот

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 2. Замена нечетких множеств Bj одноэлементными множествами (синглетонами)

(рис. 2), расчеты по которому производятся по уравнению

т

Е ур?( у)

* 7 =1

у* = —-,

(у)

7=1

где т - число правил.

Структурная схема алгоритма классификации сетевых пакетов

На принадлежность протоколам ТЬ8у1 и ТЬ8у1.2 она представлена на рис. 3, где входные показатели Х1-Х11 характеризуют:

XI - номер порта [ТСР/иБР] отправителя;

Х2 - номер порта [ТСР/иБР] получателя;

Х3 - значение первого байта в строковом контенте (часть рау1оаё) протокола верхнего уровня;

Х4 - степень принадлежности малому значению длины пакета (нечеткому множеству);

Х5 - степень принадлежности большому значению длины пакета (нечеткому множеству);

Х6 - степень принадлежности среднему значению длины пакета (нечеткому множеству);

X7 - степень принадлежности малому значению номера порта [TCP/UDP] отправителя (нечеткому множеству);

X8 - степень принадлежности большому значению номера порта [TCP/UDP] отправителя (нечеткому множеству);

X9 - степень принадлежности малому значению номера порта [TCP/UDP] получателя (нечеткому множеству);

X10 - степень принадлежности большому значению номера порта [TCP/UDP] получателя (нечеткому множеству);

X11 - принадлежность определенному в RFC интервалу целых чисел ContentType для протоколов TLSv1 и TLSv1.2.

Обозначим результирующий показатель:

Y1 - вероятность принадлежности к классу TLSv1;

Y2 - вероятность принадлежности к классу TLSv1.2;

Y3 - код внутреннего состояния наиболее вероятного класса.

В первой ступени расчетов, например в блоке проверки несоответствия используемых номеров портов требованиям RFC, на основе несложных логических правил проверяются номера портов для исследуемых протоколов TLSv1 и TLSv1.2, как правило, для передающей и принимающей сторон используется порт 443.

Таким образом, был построен двухступенчатый нейронечеткий алгоритм классифика-

Рис. 3. Структурная схема двухступенчатого алгоритма классификации сетевых пакетов

ции сетевых пакетов прикладного уровня на предмет принадлежности протоколам TLSv1 и TLSv1.2. Не следует забывать, что наиболее эффективное применение логистической регрессии возможно при слабой зависимости (корреляции) между входными признаками. В табл. 2 представлены результаты расчетов коэффициентов парной корреляции входных признаков модели второй ступени. Для подобных расчетов, как правило, используются различные математические пакеты. В работе применялся IBM SPSS Statistics 19, с

подробным описанием можно ознакомиться

в [21].

Таким образом, становится очевидно, что входные признаки для модели второй ступени являются независимыми и могут эффективно использоваться в модели на основе логистической регрессии [22].

Вместе с тем интерес представляет значимость входных синтетических признаков, поступающих на вторую ступень расчетов. Используя количество ошибок классификации, в которой применяется каждый из входных

ТАБЛИЦА 2. Результаты расчетов коэффициентов парной корреляции

Коэффициенты PORTS X11 length SOST

PORTS 1 0,211 0,11 0,073

X11 0,211 1 0,397 0,176

LENGTH 0,11 0,397 1 0,188

SOST 0,073 0,176 0,188 1

признаков в отдельности, а также метод анализа иерархий [23, 24] и наши экспертные знания о сетевых протоколах прикладного уровня, были определены весовые коэффициенты для признаков модели второй ступени по степени значимости для протоколов ТЬ8у1 и ТЬ8У1.2:

W

' ' Тн

= 0,1267; WX11 = 0,566;

W = 0 0398' W = 0 2674

"length u'uj7°' sost

Таким образом, наиболее значимым признаком модели второй ступени расчетов является принадлежность определенному в RFC интервалу целых чисел ContentType для исследуемых протоколов TLSv1 и TLSv1.2. На втором месте определяемое в МЛП1 внутреннее состояние протокола. Следует также отметить высокую полезность итогового внутрен-

него состояния исследуемых протоколов - Y3. Данный результирующий показатель очень полезен для дальнейшей оптимизации созданного КСП прикладного уровня, о чем свидетельствуют результаты проведенных тестов (табл. 3).

Вторая ступень алгоритма производит расчеты с использованием искусственных нейронных сетей (ИНС).

Тестирование КСП прикладного уровня

Оно проводилось с помощью специально разработанного на языке программирования С/С++ программного модуля, который может использоваться в межсетевых экранах, БР1-системах, СОВ и др., для операционных си-

ТАБЛИЦА 3. Результаты тестирования программного модуля

Тестовая выборка Не TLSv1и TLSv1.2 TLSv1 TLSv1.2 Общий результат тестирования

Логист. регрессия НМ Логист. регрессия НМ Логист. регрессия НМ Логист. регрессия НМ

Количество пакетов 881 881 104 104 269 269 1254 1254

Ложное срабатыв. 5 5 75 17 10 18 90 40

Верность, % 99 99 28 84 96 93 93 97

П р и м е ч а н и е. Синим обозначен требуемый результат, зеленым - средний, красным -неудовлетворительный.

стем LINUX и операционных систем линейки Windows.

Результаты тестирования представлены в табл. 3.

В табл. 4 приведены характеристики применяемой при проведенном тестировании аппаратной платформы, в табл. 5 - результаты вычислительной производительности вариантов моделей на второй ступени расчетов.

Основные преимущества созданного решения:

- высокая вычислительная производительность классификации с использованием ИНС и алгоритмов нечеткой логики;

- возможность применения параллельных вычислений;

- высокая верность классификации;

- совместимость с доверенными аппаратными платформами, такими, как Эльбрус, и переносимость на различные операционные системы.

На рис. 4 представлена компонентная структура в БР1-системе потенциально возможного межсетевого экрана.

Далее планируется совершенствовать построенный КСП путем его наполнения классифицирующими моделями. Еще одной важной количественной характеристикой КСП являет-

ТАБЛИЦА 4. Характеристики используемой аппаратной платформы

Ресурсы Аппаратная платформа

Центральный процессор Intel Core i5-6400 2,7 ГГц

Оперативная память 8 Гб

Установленное ПО ОС MS Windows 10 Pro 64 бит

ТАБЛИЦА 5. Результаты вычислительной производительности

Метод Логистическая регрессия С использованием нечетких множеств

Среднее время классификации пакета, мс 0,657097 0,658692

Классификатор сгте вы* пакетов

Арки в конфигураций с

моделями классификатора

Рис. 4. Компонентная структура в БР1-системе потенциально возможного межсетевого экрана

ся число распознаваемых протоколов и сетевых приложений. Наиболее известные системы DPI способны детектировать до 6000 протоколов и приложений. OpenSource-решения в среднем обеспечивают классификацию до 200 протоколов и приложений.

Заключение

Представленная в работе методика предобработки первичных пакетных данных и построения классифицирующих нейросетевых моделей иллюстрирует развитие систем анализа трафика, в частности, в отечественном межсетевом экранировании в условиях действия программ импортозамещения.

Применение нового подхода к анализу сетевого трафика, в основе которого лежит использование алгоритмов машинного обучения, алгоритмов нечеткой логики и интеллектуальной обработки данных, позволяет классифицировать сетевые пакеты приложений прикладного уровня [25].

Существует перспектива появления нейро-сетевого КСП промышленного уровня с показателями, не уступающими известным DPI-решениям, но работающего на совершенно другом уровне.

Парадигма нейросетевого КСП и архитектура платформы «Эльбрус» основаны на параллельных вычислениях, что позволит получить наиболее высокую производительность на доверенной аппаратной платформе. Создаваемый КСП обеспечит возможности оперативного реагирования на различные сетевые угрозы (СОВ, IPS/IDS, SAEM).

Библиографический список

1. Бычков И. Н. Доверенная программно-аппаратная платформа «Эльбрус». Отечественное решение для АСУ ТП КВО / И. Н. Бычков, В. И. Глухов, К. А. Трушкин // ИСУП. - 2002. - № 1 (49). - 824 c.

2. Евглевская Н. В. Методика комплексной оценки информационной безопасности инфокоммуни-

кационных сетей единого диспетчерского центра управления перевозками Октябрьской железной дороги ОАО «РЖД» / Н. В. Евглевская // Между-нар. науч.-технич. и науч.-метод. конференция «Актуальные проблемы инфотелекоммуникаций в науке и образовании» : сб. науч. статей : в 2 т. / под ред. С. В. Бачевского, сост. А. Г. Владыко, Е. А. Аникевич, Л. М. Минаков. - СПб. : Изд-во С.-Петерб. гос. ун-та телекоммуникаций им. проф. М. А. Бонч-Бруевича, 2015. - С. 1193-1197.

3. Rumelhart D. E. Learning representations by backpropagating error / D. E. Rumelhart, G. E. Hinton, R. J. Williams // LETTERS TO NATURE. - 1986. -Vol. 323. - P. 533-536.

4. Bishop C. M. Neural networks for pattern recognition / C. M. Bishop. - Birmingham, UK : Department of Computer Science and Applied Mathematics Aston University, 1995. - 479 p.

5. Zadeh L. A. Fuzzy sets / L. A. Zadeh // Information and Control. - 1965. - Vol. 8 (3). - P. 338-353.

6. Zadeh L.A. Fuzzy algorithms / L. A. Zadeh // Information and Control. - 1965. - Vol. 12 (2). - P. 94102.

7. Jager R. Fuzzy logic in control : Thesis Technische Universitet Delft / R. Jager. - Delft : Techniscke Universitet, 1995. - 313 p.

8. Wang Y. On fuzzy multiattribute decision-making models and methods with incomplete preference information / Y. Wang // Fuzzy Sets and System. - 2005. -Vol. 151. - Р. 285-301.

9. Ермаков Р. Н. Прогнозирование лояльности клиента к услуге широкополосного доступа в интернет с использованием алгоритмов нечеткой логики / Р. Н. Ермаков // Экономика и качество систем связи. - 2019. - № 2 (12). - C. 31-49.

10. Sanders C. C. Practical packet analysis. - 2nd ed. / C. C. Sanders. - San Francisco, CA 94103 : No Starch Press Inc., 2011.

11. Елагин В. С. Эффективность DPI-системы для идентификации трафика и обеспечения качества обслуживания OTT-сервисов / В. С. Елагин, А. А. Зарубин, А. В. Онуфриенко // Наукоемкие технологии в космических исследованиях Земли. -2018. - T. 10, № 3. - C. 40-53.

12. Бабенко Г. В. Анализ современных угроз информации, возникающих при сетевом взаимодействии / Г. В. Бабенко // Вестн. АГТУ Сер. Управление,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вычислительная техника и информатика. - 2010. -№ 2. - URL : http://www.cosmos.ru/earth/trudi/1-28. pdf (дата обращения : 15.11.2019 г.).

13. Lim Y. Internet traffic classification demystified : On the sources of the discriminative power / Y. Lim, H. Kim, J. Jeong, C. Kim, T. Kwon, Y. Choi. - 2010. -URL : http://conferences.sigcomm.org/co-next/2010/ CoNEXT_papers/09-Lim.pdf (дата обращения : 15.11.2019 г.).

14. Евглевская Н. В. Марковская модель конфликта автоматизированных систем обработки информации и управления с системой деструктивных воздействий нарушителя / Н. В. Евглевская, А. А. Привалов, Е. В. Скуднева // Изв. Петерб. унта путей сообщения. - СПб. : ПГУПС, 2015. - Т. 15, вып. 1. - С. 78-84.

15. Izenman A. J. Linear discriminant analysis. Modern Multivariate Statistical Techniques / A. J. Izenman. -New York : Springer Textsin Statistics, 2013. - 733 р.

16. Mamdani E. H. An experiment in linguistic synthesis thesis with a fuzzy logic controller / E. H. Mam-dani, S. Assilian // International Journal of Man-Machine Studies. - 1975. - Vol. 7, N 1. - Р. 1-13.

17. Mamdani E. H. Advances in the linguistic synthesis of fuzzy controllers / E. H. Mamdani // International Journal of Man-Machine Studies. - 1976. -Vol. 8. - Р. 669-678.

18. Ageev S. A. Method of operational monitoring of technical condition of multiservice communication network on the basis of hierarchical fuzzy inference / S. A. Ageev, A. A. Gladkikh, D. V. Mishin, A. A. Pri-valov // Fuzzy technologies in the industry. Proceedings of the II International Scientific and Practical Conference. - 2018. - P. 211-221.

19. Mamdani E. H. Applications of fuzzy logic to approximate reasoning using linguistic synthesis / E. H. Mamdani // IEEE Transactions on Computers. -1977. - Vol. 26, N 12. - P. 1182-1191.

20. Пегат А. Нечеткое моделирование и управление / А. Пегат ; пер. с англ. А. Г. Подвесовского, Ю. И. Тюменцова. - М. : БИНОМ. Лаборатория зна-

ний, 2009. - 698 с. - (Адаптивные и интеллектуальные системы).

21. Наследов А. SPSS 19 : профессиональный статистический анализ данных / А. Наследов. -СПб. : Питер, 2011. - 400 с.

22. Kornienko A. A. Methodology of conflict detection and resolution in cyber attacks protection software on railway transport / A.A. Kornienko, M. A. Po-lyanichko // Интеллектуальные технологии на транспорте. - 2015. - № 1. - С. 18-21.

23. Саати Т. Л. Взаимодействие в иерархических системах / Т. Л. Саати // Техническая кибернетика. -1979. - № 1. - C. 68-84.

24. Кравцов А. О. Методика выбора приоритетных элементов информационно-телекоммуникационной системы, функционирующей в условиях применения организованным нарушителем тар-гетированных атак / А. О. Кравцов, А. А. Привалов // Изв. Петерб. ун-та путей сообщения. - СПб. : ПГУПС, 2017. - Т. 14, вып. 1. - С. 137-148.

25. Канаев А. К. Имитационная модель процесса контроля состояния и управления доменами сети СarrierEthernet / А. К. Канаев, Э. В. Логин // Интернет вещей и 5g (inthiten 2017) : 3-я Междунар. науч.-технич. конференция студентов, аспирантов и молодых ученых / под ред. А. Е. Кучерявого. - СПб. : Гос. ун-т телекоммуникаций им. проф. М. А. Бонч-Бруевича, 2017. - С. 21-27.

Дата поступления: 08.10.2019 Решение о публикации: 14.10.2019

Контактная информация:

ЕРМАКОВ Роман Николаевич - канд. биол. наук, ведущий инженер; [email protected] КРАВЦОВ Антон Олегович - аспирант; [email protected]

ПРИВАЛОВ Андрей Андреевич - д-р воен. наук, профессор; [email protected] ЗАУГОЛЬНЫЙ Николай Петрович - менеджер; [email protected]

СКУДНЕВА Екатерина Валентиновна - ст. преподаватель; [email protected]

Attribution of application-level data communications protocol on the basis of classification of network packets using neural networks and fuzzy-logic algorithms in traffic analysis systems

R. N. Ermakov 1, A. O. Kravtsov 2, A. A. Privalov 2, N. R Zaugol'nyi 1, E. V. Skudneva 2

1 JSC Research Institute "Masshtab", 5, lit. A, Kantemirovskaya ul., Saint Petersburg, 194100, Russian Federation

2 Emperor Alexander I Petersburg State Transport University, 9, Moskovsky pr., Saint Petersburg, 190031, Russian Federation

For citation: Ermakov R. N., Kravtsov A. O., Privalov A.A., Zaugol'nyi N. P., Skudneva E. V. Attribution of application-level data communications protocol on the basis of classification of network packets using neural networks and fuzzy-logic algorithms in traffic analysis systems. Proceedings of Petersburg Transport University, 2019, vol. 16, iss. 4, pp. 677-690. (In Russian) DOI: 10.20295/1815-588X-2019-3-677-690

Summary

Objective: Consider issues related to efficient recognizing of network protocols in high-speed traffic analysis systems ensuring highest possible classification correctness and generalization for new data packets. Develop two-level circuit for attribution of network protocols with reduction of dimensionality of factor space with application of multi-model approach deploying machine learning and fuzzy-logic algorithms. Demonstrate feasibility of the proposed approach on the basis of two proposed methods. Formulate problems constituting its development. Methods: Fuzzy sets theory and fuzzy logic algorithms are used in pre-processing network packets' input data. Classification on the basis of artificial neural networks is applied, specifically using logistic regression and involving Mamdani fuzzy-inference algorithm. Results: An algorithm for attribution of application-level network protocols was developed, ensuring highest possible degree of fulfillment of requirements for modern high-speed traffic analysis systems. Results of practical experiments (testing) are outlined, indicating possibility of efficient attribution of network data communications protocols by the approach described. New problems are proposed allowing implementation of designing a reliable high-speed data exchange network protocol classifier in network traffic deep analysis subsystems in network firewalls and intruder detection systems. Practical importance: Formulated and solved problem ensures reliable detection of application-level network application which in its turn contributes to efficient identification of network threats.

Keywords: Network protocol detection, deep analysis of packets, fuzzy sets theory, fuzzy logic, artificial neural networks, network traffic analysis.

References

1. Bychkov I. N., Glukhov V. I. & Trushkin K. A. Doverennaia programmno-apparatnaia platforma "El'brus". Otechestvennoe reshenie dlia ASU TP KVO [Elbrus proxy hardware and software platform. Russian solution for industrial control system for boiler associated equipment]. ISUP [Informatization and Control Systems], 2002, no. 1 (49), 824 p. (In Russian)

2. Evglevskaia N. V. Metodika kompleksnoi otsen-ki informatsionnoi bezopasnosti infokommunikatsion-nykh setei edinogo dispetcherskogo tsentra upravleniia perevozkami Oktiabr'skoi zheleznoi dorogi OAO "RZhD" [Method for total evaluation of information security of information and communication networks of the centralized traffic control centre of the Oktyabr-skaya railway of the Russian Railways JSC]. Mezh-dunarodnaia nauchno-tekhnicheskaia i nauchno-me-

todicheskaia konferentsiia "Aktual'nyeproblemy in-fotelekommunikatsii v nauke i obrazovanii". Sbornik nauchnykh statei [International research, technology and methodological conference "Current problems of infotelecommunications in science and education". Coll. papers]. 2 vols. Ed. by S. V. Bachevskii. Saint Petersburg, Sankt-Peterburgskii gosudarstvennyi univer-sitet telekommunikatsii im. prof. M.A. Bonch-Bruevi-cha [Bonch-Bruevich Saint Petersburg State University of Telecommunications] Publ., 2015, pp. 1193-1197. (In Russian)

3. Rumelhart D. E., Hinton G. E. & Williams R. J. Learning representations by backpropagating error. LETTERS TO NATURE, 1986, vol. 323, pp. 533-536.

4. Bishop C. M. Neural networks for pattern recognition. Birmingham, UK, Department of Computer Science and Applied Mathematics Aston University Publ., 1995, 479 p.

5. Zadeh L.A. Fuzzy sets. Information and Control, 1965, vol. 8 (3), pp. 338-353.

6. Zadeh L. A. Fuzzy algorithms. Information and Control, 1965, vol. 12 (2), pp. 94-102.

7. Jager R. Fuzzy logic in control. Thesis, Technische Universitet Delft. Delft, Technische Universitet Publ., 1995, 313 p.

8. Wang Y. On fuzzy multiattribute decision-making models and methods with incomplete preference information. Fuzzy Sets and System, 2005, vol. 151, pp. 285-301.

9. Ermakov R. N. Prognozirovanie loial'nosti klienta k usluge shirokopolosnogo dostupa v internet s ispol'zovaniem algoritmov nechetkoi logiki [Forecasting client loyalty for broadband internet access service using fuzzy logic algorithms]. Ekonomika i kachestvo sistem sviazi [Economy and quality of communication systems], 2019, no. 2 (12), pp. 31-49. (In Russian)

10. Sanders C. C. Practical packet analysis. 2nd ed. San Francisco, CA 94103, N Starch Press Inc., 2011.

11. Elagin V. S., Zarubin A. A. & Onufrienko A. V. Effektivnost' DPI-sistemy dlia identifikatsii trafika i obespecheniia kachestva obsluzhivaniia OTT-servisov [Efficiency of DPI-system for identification of traffic and ensuring service quality of customer care]. Nau-koemkie tekhnologii v kosmicheskikh issledovaniiakh Zemli [High-end technologies in space research of the Earth], 2018, vol. 10, no. 3, pp. 40-53. (In Russian)

12. Babenko G. V. Analiz sovremennykh ugroz in-formatsii, voznikaiushchikh pri setevom vzaimodeist-vii [Analysis of modern information threats occurring in networking]. Vestnik AGTU. Seriia Upravle-nie, vychislitel'naia tekhnika i informatika [Vestnik of Astrakhan State Technical University. Series Management, Computer Science and Informatics], 2010, no. 2. Available at: http://www.cosmos.ru/earth/trudi/1-28. pdf. (accessed: 15.11.2019). (In Russian)

13. Lim Y., Kim H., Jeong J., Kim C., Kwon T. & Choi Y. Internet traffic classification demystified: On the sources of the discriminative power. Available at: http://conferences.sigcomm.org/co-next/2010/CoN-EXT_papers/09-Lim.pdf (accessed: 15.11.2019).

14. Evglevskaia N. V., Privalov A.A. & Skudne-va E. V. Markovskaia model' konflikta avtomatiziro-vannykh system obrabotki informatsii i upravleniia s sistemoi destruktivnykh vozdeistvii narushitelia [Mar-kovian model of conflict of automated data processing and control systems with a violator's ravages system]. Izvestiia Peterburgskogo universitetaputei soob-shcheniia [Proceedings of Petersburg Transport University]. Saint Petersburg, PGUPS [Petersburg State Transport University] Publ., 2015, vol. 15, iss. 1, pp. 78-84. (In Russian)

15. Izenman A. J. Linear discriminant analysis. Modern multivariate statistical techniques. New York, Springer Texts in Statistics Publ., 2013, 733 p.

16. Mamdani E. H. & Assilian S. An experiment in linguistic synthesis thesis with a fuzzy logic controller. International Journal of Man-Machine Studies, 1975, vol. 7, no. 1, pp. 1-13.

17. Mamdani E. H. Advances in the linguistic synthesis of fuzzy controllers. International Journal of Man-Machine Studies, 1976, vol. 8, pp. 669678.

18. Ageev S.A., Gladkikh A.A., Mishin D. V. & Privalov A.A. Method of operational monitoring of technical condition of multiservice communication network on the basis of hierarchical fuzzy inference/fuzzy technologies in the industry. Proceedings of the II International Scientific and Practical Conference, 2018, pp. 211-221.

19. Mamdani E. H. Applications of fuzzy logic to approximate reasoning using linguistic synthesis. IEEE Transactions on Computers, 1997, vol. 26, no. 12, pp. 1182-1191.

20. Piegat A. Nechetkoe modelirovanie i upravlenie [Fuzzy modeling and control]. Per. s angl. A. G. Podve-sovskii and Iu. V. Tiumentsev. Moscow, BINOM - La-boratoriia znanii Publ., 2009, 698 p. (In Russian)

21. Nasledov A. SPSS 19: professional'nyi statis-ticheskii analiz dannykh [SPSS 19: professional statistical data analysis]. Saint Petersburg, Piter Publ., 2011, 400 p. (In Russian)

22. Kornienko A. A. & Polyanichko M. A. Methodology of conflict detection and resolution in cyber attacks protection software on railway transport. Intel-lektual'nye tekhnologii na transporte [Intelligent systems in transport], 2015, no. 1, pp. 18-21.

23. Saati T. L. Vzaimodeistvie v ierarkhicheskikh sistemakh [Interoperability in hierarchical systems]. Tekhnicheskaia kibernetika [Technical cybernetics], 1979, no.1, pp. 68-84. (In Russian)

24. Kravtsov A. O. & Privalov A. A. Metodika vy-bora prioritetnykh elementov informatsionno-telekom-munikatsionnoi sistemy, funktsioniruiushchei v uslo-viiakh primeneniia organizovannym narushitelem tar-getirovannykh atak [Method for selecting priority elements of information and telecommunications system functioning under conditions of applying targeted attacks by an organized violator]. Izvestiia Peterburg-skogo universiteta putei soobshcheniia [Proceedings of Petersburg Transport University]. Saint Petersburg, PGUPS [Petersburg State Transport University] Publ., 2017, vol. 14, iss. 1, pp. 137-148. (In Russian)

25. Kanaev A. K. & Login E. V. Imitatsionnaia model' protsessa kontrolia sostoianiia upravleniia domenami seti CarrierEthernet. Internet veshchei i 5g (inthiten 2017) [Simulation model of the process of control monitoring and domain management in CarrierEthernet network. Internet of things and 5G (inthiten 2017)]. 3-ia Mezhdunarodnaia nauchno-tekhnicheskaia konferen-tsiia studentov, aspirantov i molodykh uchenykh [3rd International research and engineering conference of students, PhD students and young researchers]. Ed. by A. E. Kucheriavyi. Saint Petersburg, Sankt-Peterburg-skii gosudarstvennyi universitet telekommunikatsii im. prof. M. A. Bonch-Bruevicha [Bonch-Bruevich Saint Petersburg State University of Telecommunications] Publ., 2017, pp. 21-27. (In Russian)

Received: October 08, 2019 Accepted: October 14, 2019

Author's information:

Roman N. ERMAKOV - PhD in Biology, Lead

Engineer; [email protected]

Anton O. KRAVTSOV - Postgraduate Student;

[email protected]

Andrey A. PRIVALOV - D. Sci. in Military, Professor; [email protected] Nikolai P. ZAUGOL'NYI - Manager; nkzgln@ gmail.com

Ekaterina V. SKUDNEVA - Senior Lecturer; [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.