Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
Анализ трафика сети с применением алгоритмов машинного обучения в автоматизированной информационной системе быстрого реагирования на инциденты информационной
безопасности и фильтрации трафика сети
Керимов Комил Фикратович
D.Sc., профессор, заведующий кафедрой "Системное и прикладного программирование", Ташкентский университет информационных технологий имени Мухаммада ал-Хоразмий , 100084, проспект Амира Темура, 108, E-mail:[email protected]
Азизова Зарина Ильдаровна
докторант 2 курса, кафедра "Информационная безопасность", Ташкентский университет информационных технологий имени Мухаммада
ал-Хоразмий , 100084, проспект Амира Темура, 108, E-mail: [email protected]
Аннотация. Данная статья описывает модуль фильтрации сетевого трафика в автоматизированной информационной системе быстрого реагирования на инциденты информационной безопасности и фильтрации трафика сети (АИС БР ИИБ и ФТС). Модуль использует методы машинного обучения на основе нейронных сетей для анализа и классификации сетевого трафика с целью обнаружения вредоносной активности. В ней также приведено описание процесса работы модуля, который включает подготовку исходного набора данных, предварительную обработку данных, определение архитектуры нейронной сети, процесс обучения, валидацию и тестирование модели, развертывание и применение модели. Основной метод обнаружения вредоносного трафика основан на извлечении и анализе содержимого пакетов данных. Предлагаемый подход позволяет улучшить обнаружение вредоносного трафика и эффективно фильтровать сетевой поток.
Ключевые слова: автоматизированная информационная система, анализ, классификация, модуль фильтрации, вредоносная активность, обнаружение вредоносного трафика, инциденты информационной безопасности
Введение
За последние десятилетия информационная безопасность стала одним из наиболее важных аспектов в сфере информационных технологий. В связи с развитием сетевых технологий и распространением интернета, возросла не только возможность обмена информацией, но и угрозы, связанные с нарушением конфиденциальности, целостности и доступности данных. Одним из ключевых аспектов обеспечения информационной безопасности является эффективная фильтрация трафика в сети. В современных сетевых системах
для обеспечения безопасности и защиты от вредоносной активности широко применяются методы машинного обучения. Однако, при использовании методов, основанных на формировании и анализе сетевых потоков, возникает проблема необходимости захвата всех пакетов сетевого потока, что усложняет анализ данных в режиме реального времени.
В автоматизированной информационной системе быстрого реагирования на инциденты информационной безопасности и фильтрации трафика сети (АИС БР ИИБ и ФТС) модуль
281
"Descendants of Al-Farghani" electronic scientific Электронный научный журнал "Потомки Аль-
journal of Fergana branch of TATU named after Фаргани" Ферганского филиала ТАТУ имени
Muhammad al-Khorazmi. ISSN 2181-4252 Мухаммада аль-Хоразми ISSN 2181-4252
Vol: 1 | Iss: 2 | 2024 year Том: 1 | Выпуск: 2 | 2024 год
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
фильтрации сетевого трафика с применением методов машинного обучения на основе нейронных сетей представляет собой систему, которая использует нейронные сети для анализа и классификации сетевого трафика с целью фильтрации вредоносной активности. В этом подходе нейронные сети играют роль классификаторов, которые обучаются на большом объеме размеченных данных. Процесс обучения включает в себя подачу сети входных данных (например, характеристики пакетов, метаданные и т.д.) и соответствующих меток классов (например, "вредоносный" или "легитимный" трафик) для обучения сети на основе этих примеров.
Как отмечается в [1], для проведения классификации на основе формирования и анализа сетевых потоков, обычно требуется захватить все пакеты, принадлежащие к данному потоку. Однако, этот подход может усложнить анализ данных в режиме реального времени.
В свою очередь, [2] отметили, что машинное обучение может использоваться для решения проблемы выявления нелегитимной и вредоносной активности с помощью алгоритмов классификации, алгоритмов аномалий или алгоритмов глубокого обучения. В разработанном модуле фильтрации сетевого трафика применена одна из распространенных архитектур нейронных сетей - сверточные нейронные сети (Convolutional Neural Networks, CNN). CNN хорошо подходят для анализа данных с пространственной структурой, такой как изображения или последовательности сигналов, что делает их эффективными для обработки пакетов сетевого трафика.
Предлагаемый подход позволяет устранить недостатки в текущем режиме обнаружения полного потока и предлагает алгоритм фильтрации сетевого потока при слиянии нескольких моделей, который помогает быстро проанализировать, какой поток является нормальным, а подозрительный поток требует дальнейшего анализа, восстановления и сравнения характеристик.
Модуль фильтрации в АИС БР и ФТС
Модуль фильтрации в АИС БР и ФТС представляет собой компонент системы, ответственный за анализ и обработку сетевого трафика с целью обнаружения и фильтрации вредоносной активности. Основная задача модуля фильтрации состоит в том, чтобы предотвратить проникновение нелегитимного трафика в сеть организации и защитить информационные ресурсы от возможных угроз, в частности, для защиты персональных данных от угроз безопасности типа SQL-инъекции и XSS-атаки.
Модуль использует методы машинного обучения на основе нейронных сетей, чтобы обучиться классифицировать сетевой трафик на нормальный и подозрительный. Процесс работы модуля фильтрации включает несколько этапов. Сначала необходимо подготовить размеченный набор данных, который используется для обучения модели. Этот набор данных содержит примеры нормального трафика и известных вредоносных активностей. Затем модуль фильтрации производит предварительную обработку данных, включающую фильтрацию, преобразование и нормализацию признаков. После этого определяется архитектура нейронной сети, которая будет использоваться для классификации трафика. Следующий этап - обучение модели. Модель проходит процесс оптимизации весов и параметров на основе тренировочного набора данных. Цель состоит в том, чтобы модель научилась точно классифицировать сетевой трафик и обнаруживать вредоносные активности. После обучения модель проходит валидацию на отдельном наборе данных, который не использовался в процессе обучения. Это позволяет оценить производительность модели и настроить гиперпараметры для достижения оптимальных результатов. После успешной валидации модель готова к применению в реальном времени. Модуль фильтрации анализирует входящий сетевой трафик, идентифицирует подозрительные пакеты и принимает решение о блокировке или фильтрации этого трафика в
282
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
соответствии с заданными правилами безопасности.
Процесс работы модуля фильтрации включает следующие шаги:
1. Подготовка исходного набора данных. Для этого необходимо собрать и предварительно обработать данные сетевого трафика, так как нейронную сеть нужно обучить. Данный процесс включает в себя извлечение характеристик пакетов, создание разметки классов и разделение данных на обучающий и тестовый наборы.
Рисунок 1. Схема подготовки исходного набора данных
В настоящее время искусственный интеллект все еще находится на стадии развития слабого искусственного интеллекта. Развитие искусственного интеллекта основывается на изучении правил, закономерностей, характеристик и опыта на основе массивных данных. В процессе использования машинного обучения для реализации искусственного интеллекта
наибольшее улучшение производительности обычно достигается за счет более качественных данных, а не более сложных алгоритмов, поэтому получение достоверных данных является
необходимым условием для проведения исследований.
Источниками данных стали в основном наборы данных, собранные самостоятельно, и наборы данных с открытым исходным кодом, которые моделируют реальные условия в Интернете, охватывая HTTP, DNS, видеотрафик и т. д. Наборы данных с открытым исходным кодом в основном включают сам набор данных и часть набора данных являющегося вредоносным трафиком. Данные содержат широкий спектр атак, включая веб-атаки, атаки с использованием SQL-инъекций, XSS-атаки, ботнеты и т.д. Были использованы наборы сетевых данных с открытым исходным кодом в основном включают набор данных CICIDS2017/2018 и часть набора данных CSIC2010, содержащего вредоносный трафик.
2. Предварительная обработка данных и определение архитектуры нейронной сети.
Выбор признаков и их извлечение. Для выбора признаков применяется программное средство для сбора данных о сетевом трафике. Модуль работает на транспортном уровне и извлекает статистическую информацию из TCP/UDP-потоков, при этом размерность извлекаемых признаков составляет 82 измерения.
Исследование основывается на
оригинальном инструменте для вторичного развития, увеличивая извлечение информации прикладного уровня, а затем расширяя область применения конечной системы для идентификации атак. Итоговый инструмент может извлекать 95-мерные признаки из TCP/UDP-потоков. Затем необходимо определить архитектуру нейронной сети, которая будет использоваться для фильтрации трафика. Это может быть сверточная нейронная сеть с несколькими слоями свертки, пулинга и полносвязанными слоями.
На рисунке 2 представлен алгоритм, описывающий предварительную обработку данных, выбор и извлечение признаков для фильтрации сетевого трафика. Он подразумевает использование программного средства для сбора
283
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
данных, расширения извлечения признаков и определения архитектуры нейронной сети для фильтрации трафика.
Рисунок 2. Алгоритм предварительной обработки данных, выбора и извлечения признаков
3. Процесс обучения, построение и оптимизация моделей.
В качестве моделей машинного обучения на двух этапах были использованы интегрированные модели обучения LightGBM и XGBoost.
Рисунок 3. Алгоритм процесса обучения, построения и оптимизация модели анализа трафика сети в АИС БР ИИБ и ФТС
После определения архитектуры сети, нейронная сеть обучается на обучающем наборе данных. В процессе обучения сети веса и параметры модели настраиваются с использованием методов оптимизации, таких как стохастический градиентный спуск или его модификациях.
4. Валидация и тестирование.
После завершения обучения производится валидация модели на тестовом наборе данных для оценки ее производительности и точности фильтрации трафика. Это позволяет оценить эффективность модели и внести необходимые корректировки.
5. Развертывание и применение.
После успешного обучения и валидации модель может быть развернута для реального
284
Muhammad al-Xorazmiy nomidagi TATU Farg'ona filiali "Al-Farg'oniy avlodlari" elektron ilmiy jurnali ISSN 2181-4252 Tom: 1 | Son: 2 | 2024-yil
"Descendants of Al-Farghani" electronic scientific journal of Fergana branch of TATU named after Muhammad al-Khorazmi. ISSN 2181-4252 Vol: 1 | Iss: 2 | 2024 year
Электронный научный журнал "Потомки Аль-Фаргани" Ферганского филиала ТАТУ имени Мухаммада аль-Хоразми ISSN 2181-4252 Том: 1 | Выпуск: 2 | 2024 год
применения в системе фильтрации сетевого трафика. Модель используется для классификации входящего трафика и принятия решений о блокировке или пропуске определенных пакетов.
Метод обнаружения на основе содержимого трафика в основном включает в себя извлечение и обнаружение поля содержимого пакета данных. Соответствующая информация о вредоносном трафике генерируется путем извлечения из вредоносного трафика информации в трех полях: url path, url query и user agent. Вычислив сходство между обнаруживаемым HTTP-трафиком и характеристиками сгенерированного вредоносного трафика, можно определить, вызван ли он вредоносным трафиком, сгенерированным вредоносным ПО. Во избежание необработанного HTML необходимо экранировать все динамическое содержимое, поступаемое из хранилища данных [3], чтобы браузер знал, что его следует рассматривать как содержимое HTML-тегов.
Заключение
Представленный в данной статье модуль фильтрации в АИС БР ИИБ и ФТС является ключевым компонентом системы,
обеспечивающим эффективную защиту от вредоносной активности. Применение методов машинного обучения на основе нейронных сетей для анализа и классификации сетевого трафика привело к разбиению всего процесса на этапы, включая подготовку размеченных данных, предварительную обработку, определение архитектуры нейронной сети, обучение модели, валидацию и тестирование.
В результате успешного обучения и валидации модель готова к применению в режиме реального времени. Он анализирует содержимое сетевых пакетов, включая HTTP-трафик, и ищет характеристики, свойственные вредоносному ПО. При обнаружении подозрительной активности модуль принимает меры для фильтрации и блокировки этого трафика. Применение предлагаемого модуля фильтрации позволит повысить уровень информационной безопасности
организации, способствуя раннему обнаружению и предотвращению вредоносной активности, защищает информационные ресурсы от угроз и сокращает потенциальные риски потери персональных данных для организации.
Список литературы:
1. Костин Д.В., Шелухин О.И., "Сравнительный анализ алгоритмов машинного обучения для проведения классификации сетевого зашифрованного трафика" // "Т-Сотт" -Телекоммуникации и Транспорт, №10 (9), 2016, С. 43-52.
2. Шайдулин И.К., Гнутов М.С., Забугин С.П., Исследование проблем выявления вредоносного программного обеспечения в составе трафика со скоростью более 10 Гбит/с на центры обработки данных // Электронный сетевой политематический журнал «Научные труды КубГТУ», №3, 2023, С.66-79.
3. Керимов К.Ф., Толипов Д.А., Азизова З.И., Методы защиты от межсайтового скриптинга на стороне клиента, Сборник докладов республиканской научно-технической конференции "Современное состояние и перспективы развития цифровых технологий и искусственного интеллекта", Самарканд, 26-27 октября 2022 г., С.310-312.
285