Научная статья на тему 'РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТЫХ УГРОЗ В СЕТЕВОМ ТРАФИКЕ'

РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТЫХ УГРОЗ В СЕТЕВОМ ТРАФИКЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
алгоритмы обучения / скрытые угрозы / сетевой трафик / многоуровневое обнаружение / аномальное поведение / машинное обучение / искусственный интеллект / learning algorithms / hidden threats / network traffic / anomalous behavior / machine learning / artificial intelligence

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Закирьяева Л.А.

Скрытые угрозы в сетевом трафике в настоящее время широко используются злоумышленниками, которые применяют передовые методы и инструменты, что создает множество трудностей для систем информационной безопасности. Фактически, для обнаружения скрытых угроз в сетевом трафике нельзя полагаться на один метод, а необходимо использовать их комбинацию. Разработка алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике предполагает проведение многоуровневого анализа для обнаружения и синтеза аномальных признаков и поведения, чтобы сделать выводы о наличии скрытых угроз в сетевом трафике. Для повышения точности обнаружения скрытых угроз в сетевом трафике необходимо разрабатывать алгоритмы машинного обучения, основанного на синтезе различных передовых методов и инструментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Закирьяева Л.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF ALGORITHMS FOR MACHINE TRAINING FOR DETECTION HIDDEN THREATS IN NETWORK TRAFFIC

Hidden threats in network traffic are currently widely used by attackers who use advanced methods and tools, which creates many difficulties for information security systems. In fact, to detect hidden threats in network traffic, you cannot rely on one method, but rather use a combination of them. Developing machine learning algorithms to detect hidden threats in network traffic involves conducting multi-layered analysis to detect and synthesize anomalous features and behavior in order to draw conclusions about the presence of hidden threats in network traffic. To increase the accuracy of detecting hidden threats in network traffic, it is necessary to develop machine learning algorithms based on the synthesis of various advanced methods and tools.

Текст научной работы на тему «РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТЫХ УГРОЗ В СЕТЕВОМ ТРАФИКЕ»

УДК 004.8

Закирьяева Л.А.

студент кафедры вычислительные системы и информационная безопасность Донской государственный технический университет (г. Ростов-на-Дону, Россия)

РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОБНАРУЖЕНИЯ СКРЫТЫХ УГРОЗ В СЕТЕВОМ ТРАФИКЕ

Аннотация: скрытые угрозы в сетевом трафике в настоящее время широко используются злоумышленниками, которые применяют передовые методы и инструменты, что создает множество трудностей для систем информационной безопасности. Фактически, для обнаружения скрытых угроз в сетевом трафике нельзя полагаться на один метод, а необходимо использовать их комбинацию. Разработка алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике предполагает проведение многоуровневого анализа для обнаружения и синтеза аномальных признаков и поведения, чтобы сделать выводы о наличии скрытых угроз в сетевом трафике. Для повышения точности обнаружения скрытых угроз в сетевом трафике необходимо разрабатывать алгоритмы машинного обучения, основанного на синтезе различных передовых методов и инструментов.

Ключевые слова: алгоритмы обучения, скрытые угрозы, сетевой трафик, многоуровневое обнаружение, аномальное поведение, машинное обучение, искусственный интеллект.

В последние годы искусственный интеллект вызывает большой интерес во многих сферах человеческой деятельности. Искусственный интеллект человеческого уровня, известный также как символьный искусственный интеллект, существует с 1950-х годов и помогает человеку справляться со сложными задачами во многих сферах деятельности [3, С. 159]. Однако в 1990-е годы символьный искусственный интеллект столкнулся с трудностями при

решении более сложных задач. Тогда в качестве нового подхода в использовании искусственного интеллекта появилось машинное обучение.

Появление машинного обучения вводит новую парадигму в программировании. В парадигме символьного ИИ человек-агент вводит правила (программу) и данные, которыми нужно манипулировать в соответствии с этими правилами, и получает готовый результат. В машинном обучении человек-агент вводит данные и ожидаемые на их основе результаты, а модель обучения выдает правила. Затем эти правила применяются к новым данным для достижения первоначальных результатов. Системы машинного обучения подвергаются именно обучению, а не программированию в явном виде. Это означает, что в эти системы поступает огромное количество данных для поиска в них значимых функций [2, С. 27].

В качестве общего определения можно утверждать, что машинное обучение - это сопоставление входных данных с целями, что достигается путем предоставления модели множества экземпляров входных данных и целей [1, С. 348].

В области искусственного интеллекта разработано множество мощных методов машинного обучения, которые широко используются в интеллектуальном анализе данных. В методику машинного обучения в основном включены две фазы: фаза обучения и фаза принятия решения.

Существует несколько типов алгоритмов машинного обучения: обучение с учителем, обучение с подкреплением, обучение без учителя и обучение с частичным участием учителя (полунеконтролируемое обучение), глубинное обучение [4, С. 898].

Разработка алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике включает ряд этапов:

1. Выбор набора данных для обучения системы обнаружения компьютерных атак.

2. Предварительная обработка данных.

3. Сэмплирование против дисбаланса классов.

4. Оценка значимости и отбор признаков.

5. Сокращение признакового пространства.

6. Выбор модели.

7. Настройка и обучение модели.

8. Тестирование и апробация [5].

Для обучения системы обнаружения скрытых угроз в сетевом трафике используются наборы данных, которые могут быть как открытыми, так и конфиденциальными. Подбор оптимальных данных является необходимым условием для разработки эффективного классификатора. Обучающая выборка фокусируется на классах атак, в данном случае на скрытых угрозах в сетевом трафике. Набор данных содержит записи, относящиеся как к скрытым угрозам, так и к нормальному трафику. Это приводит к тому, что многоклассовая классификация превращается в бинарную, что существенно сокращает размер обучающей выборки.

Подготовленная подвыборка в случае дисбаланса классов подвергается сэмплированию методом случайного сэмплирования.

Предварительно из признакового пространства исключаются признаки, соответствующие статистикам сетевого трафика, которые являются более значимыми для общего случая. Исключаемые признаки не должны учитываться при обучении.

Для сокращения признакового пространства формируется корреляционная матрица с линейными коэффициентами корреляции (коэффициентами корреляции Пирсона), рассчитанными для всех пар наиболее значимых признаков. По результатам корреляционного анализа из признакового пространства исключаются признаки, имеющие низкую корреляцию между собой.

Затем осуществляется выбор модели машинного обучения.

1. Обучение под наблюдением или обучение с учителем.

Чтобы предвидеть неизвестные случаи, алгоритмы извлекают представления из помеченных входных данных в процессе контролируемого

обучения. Примеры такого обучения включают метод опорных векторов и метод случайного леса, где метод опорных векторов используется для задач, связанных с классификацией, а проблемы, связанные с классификацией и регрессией, решаются методом случайного леса.

В исследованиях обнаружения скрытых угроз в сетевом трафике наиболее часто используется алгоритм метода опорных векторов, поскольку он практичен в вычислениях и обладает мощными возможностями классификации. В случае многомерных данных в основном подходят алгоритмы метода опорных векторов.

В методе к-ближайших соседей выборка данных классифицируется в терминах к ближайших соседей (к-ЫЫ) несекретной выборки. Классификация выполняется на основе числа к-МЫ, например, если в выборке больше связанных к-ЫЫ, выборка будет отнесена к даному классу.

Метод бустинга основан на идее создания сильного классификатора на основе слабых: каждая последующая модель учится на ошибках предыдущей. То есть постепенно добавляются новые модели, которые корректируют ошибки своих предшественников. Этот процесс продолжается до тех пор, пока прогнозы не станут безошибочными или не будет достигнут лимит на количество моделей.

Метод бустинга подходит для широкого спектра задач и часто обеспечивает неожиданно точные и ценные результаты. Однако модели могут быть очень объемными, так как в методе бустинга используются наборы из других моделей, что усложняет построение итоговой системы.

2. Обучение без учителя.

Алгоритмы извлекают представления из немаркированных входных данных при обучении без учителя. Цель алгоритма обучения без учителя -предвидеть неизвестные случаи посредством распределения или моделирования фундаментальных структур в данных. Обнаружение аномалий выполняется с использованием алгоритмов кластеризации, включая к-средние значения, и других алгоритмов, основанных на расстоянии.

3. Обучение с частичным участием учителя (полунеконтролируемое обучение).

Немаркированные данные используются в этом типе контролируемого обучения. Небольшой набор помеченных данных включен в набор обучающих данных, но в основном он состоит из немаркированных данных. Этот тип обучения больше подходит, когда недоступны большие объемы помеченных данных, например, когда изображения в архиве в основном немаркированы и помечены только некоторые.

Точность машинного обучения повышается за счет использования полуконтролируемого обучения. Неизвестные атаки обнаруживаются с помощью двух методов классификации полууправляемого обучения: метода гауссовых полей и преобразователя спектральных графиков.

Эффективным и очень простым методом обучения под наблюдением является псевдомаркировка. Базовая концепция псевдомаркировки также очень проста и понятна. Первоначально модель обучается с использованием помеченных данных. Затем псевдомодель данных, которые не помечены, прогнозируется с использованием обученной модели. В конце модель снова обучается с использованием новых псевдомаркированных данных и уже помеченных данных.

4. Обучение с подкреплением.

Обучение с подкреплением отличается от обучения под наблюдением тем, что не требует представления помеченных пар ввода-вывода и не требует явной коррекции неоптимальных действий. Вместо этого основное внимание уделяется поиску баланса между исследованием (неизведанной территории) и использованием (текущих знаний) с целью максимизации долгосрочного вознаграждения, обратная связь с которым может быть неполной или запоздалой.

В выбранной модели выбираются гиперпараметры модели, проводится их оценка. Каждая следующая модель обучается на ошибках предыдущей, так можно сильно повысить точность прогнозов. Проводится тестирование и

апробация алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике.

Таким образом, нами был рассмотрен процесс разработки алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике. Алгоритмы машинного обучения на практике применяются для обнаружения скрытых угроз в сетевом трафике. Разработка алгоритмов машинного обучения для обнаружения скрытых угроз в сетевом трафике включает ряд этапов. Существует несколько типов алгоритмов машинного обучения: обучение с учителем, обучение с подкреплением, обучение без учителя и обучение с частичным участием учителя (полунеконтролируемое обучение), глубинное обучение.

СПИСОК ЛИТЕРАТУРЫ:

1. Акжолов Р.К. Машинное обучение // Вестник науки. - 2019. - Т. 3, № 6 (15). - С. 348-351;

2. Боброва М.В., Мастилин А.Е. Машинное обучение в кибербезопасности // Научные междисциплинарные исследования. - 2021. - № 2. - С. 24-29;

3. Горохов А.В., Мартынов В.А., Гаврин В.А. Искусственный интеллект // Скиф. Вопросы студенческой науки. - 2022. - № 4 (68). - С. 159-162;

4. Макаров Д.А., Шибанова А.Д. Алгоритмы машинного обучения // Теория и практика современной науки. - 2018. - № 6 (36). - С. 897-900;

5. Fisher 85 Как самому разработать систему обнаружения компьютерных атак на основе машинного обучения [Электронная версия] - URL: https://habr.com/ru/articles/538296/ (дата обращения: 09.05.2024)

Zakiryaeva L.A.

Don State Technical University (Rostov-on-Don, Russia)

DEVELOPMENT OF ALGORITHMS FOR MACHINE TRAINING FOR DETECTION HIDDEN THREATS IN NETWORK TRAFFIC

Abstract: hidden threats in network traffic are currently widely used by attackers who use advanced methods and tools, which creates many difficulties for information security systems. In fact, to detect hidden threats in network traffic, you cannot rely on one method, but rather use a combination of them. Developing machine learning algorithms to detect hidden threats in network traffic involves conducting multi-layered analysis to detect and synthesize anomalous features and behavior in order to draw conclusions about the presence of hidden threats in network traffic. To increase the accuracy of detecting hidden threats in network traffic, it is necessary to develop machine learning algorithms based on the synthesis of various advanced methods and tools

Keywords: learning algorithms, hidden threats, network traffic, anomalous behavior, machine learning, artificial intelligence.

i Надоели баннеры? Вы всегда можете отключить рекламу.