Научная статья на тему 'МНОГОУРОВНЕВАЯ ФИЛЬТРАЦИИ СПАМА НА ОСНОВЕ ИСКУССТВЕННОЙ ИММУННОЙ СИСТЕМЫ'

МНОГОУРОВНЕВАЯ ФИЛЬТРАЦИИ СПАМА НА ОСНОВЕ ИСКУССТВЕННОЙ ИММУННОЙ СИСТЕМЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
101
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Word-based filter / rule-based filter / k-nearest neighbors / support vector machines / random forest / naive Bayesian classifier / artificial immune system

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ганиев Салим Каримович, Хамидов Шерзод Жалолдин Угли

In this paper, presents an overview of the spam filtering process and various spam filtering methods, including their advantages and disadvantages. A multilevel method of spam filtering based on artificial immune system is considered.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МНОГОУРОВНЕВАЯ ФИЛЬТРАЦИИ СПАМА НА ОСНОВЕ ИСКУССТВЕННОЙ ИММУННОЙ СИСТЕМЫ»

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

МНОГОУРОВНЕВАЯ ФИЛЬТРАЦИИ СПАМА НА ОСНОВЕ ИСКУССТВЕННОЙ

ИММУННОЙ СИСТЕМЫ Ганиев Салим Каримович 1, Хамидов Шерзод Жалолдин угли 2

1 Ташкентский университет информационных технологий имени Мухаммада ал-

Хоразмий, профессор

2 Ташкентский университет информационных технологий имени Мухаммада ал-

Хоразмий, докторант https://doi.org/10.5281/zenodo.7857603 Abstract. In this paper, presents an overview of the spam filtering process and various spam filtering methods, including their advantages and disadvantages. A multilevel method of spam filtering based on artificial immune system is considered.

Keywords: Word-based filter, rule-based filter, k-nearest neighbors, support vector machines, random forest, naive Bayesian classifier, artificial immune system.

ВВЕДЕНИЕ

Электронная почта является одним из наиболее широко используемых инструментов коммуникации и обмена документами во всем мире. Несмотря на появление других решений для обмена сообщениями и онлайн-файлами, он остается незаменимым средством для передачи и получения конфиденциальных данных в организациях. Однако вместе с многочисленными преимуществами электронной почты возникают и значительные риски безопасности. Стандартные почтовые системы, как правило, небезопасны для обмена конфиденциальными данными. Электронная почта становится все более уязвимой мишенью как для внешних злоумышленников, так и для внутренних угроз.

Электронная почта также может использоваться киберпреступниками в преступных целях. Среди наиболее распространенных способов использования электронной почты для совершения преступлений можно отметить рассылки спам писем и распространение вредоносного программного обеспечения, целью которого является получение доступа к личной или конфиденциальной информации пользователей. Фильтрация спама - это актуальная задача во многих областях, включая электронную почту, социальные сети и онлайн-сервисы. Для фильтрации сообщений существуют различные подходы, которые автоматически обнаруживают и удаляют эти нежелательные сообщения.

ТЕХНОЛОГИИ ФИЛЬТРАЦИИ СПАМА

Сообщение электронной почты обычно состоит из двух основных частей:

- заголовка (header), содержащего служебную информацию, управляющую доставкой и обработкой сообщения;

- тела (body), содержащего непосредственно пользовательское сообщение: текст и прикрепленные данные (графические, видео, звуковые файлы и т.п.).

Фильтрация осуществляется на основе этих параметров. Фильтрация спама - это процесс выявления и блокирования нежелательных сообщений электронной почты от попадания в почтовый ящик получателя. Процесс фильтрации спама включает следующие этапы:

- получение электронной почты - первый этап процесса фильтрации спама (получение писем с сервера электронной почты).

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

- предварительная обработка - на этом этапе текст письма подвергается предварительной обработке для извлечения релевантных характеристик, таких как адрес электронной почты отправителя, тема и содержание.

- извлечение признаков - после предварительной обработки из текста электронной почты извлекаются соответствующие признаки с помощью таких методов, как множества слов или частота терминов.

- классификация - на этом этапе извлеченные признаки используются для классификации писем как спам или легитимных. Для классификации могут использоваться различные методы, такие как классификация на основе правил, байесовский классификатор и алгоритмы машинного обучения.

- фильтрация - после классификации писем спам отфильтровывается и перемещается в папку спама, а легитимные письма перемещаются в папку входящих сообщений. Фильтрация спама может осуществляться с помощью различных методов, включая фильтры на основе содержания и фильтры на основе машинного обучения.

Фильтрация на основе заголовка

Эффективный и легкий подход фильтрации путем анализа информации заголовков писем электронной почты для определения того, является ли оно спамом или легитимным. Заголовок письма содержит такую информацию, как отправитель, получатель, дата, тема и другие метаданные. Эта информация может быть проанализирована для выявления закономерностей, которые обычно ассоциируются со спамом [1].

Фильтрация на основе содержания

Фильтрация на основе содержания включает анализ содержимого электронной почты для выявления спам слов, фраз и шаблонов. Подходы на основе содержания, напротив, позволяют фильтрам автоматически перечислять признаки спам писем из собранных образцов. Этот подход обычно использует алгоритмы машинного обучения для анализа содержимого письма и определения признаков спама, поэтому его также называют подходом, основанным на обучении. Фильтры на основе содержания включают в себя фильтр ключевых слов и эвристический фильтр.

1. Фильтр ключевых слов - это простой тип фильтра спама на основе содержимого, который работает путем поиска определенных слов или фраз в сообщении электронной почты. Фильтр проверяет содержимое письма по списку известных ключевых слов или фраз, если любое из этих ключевых слов найдено, сообщение помечается как спам. Список ключевых слов может быть составлен вручную или автоматически на основе известных спам-сообщений. Эффективность фильтра на основе слов зависит от качества списка ключевых слов.

2. Фильтр на основе правил (эвристический) - это более продвинутый фильтр спама на основе содержания, который использует набор взвешенных правил для анализа содержания сообщения электронной почты. Каждое правило соответствует одной конкретной характеристике электронного письма. При фильтрации входящего сообщения электронной почты фильтр последовательно проходит через каждое правило. Когда правило срабатывает, вес этого правила добавляется к оценке входящего письма. Если суммарный вес письма превышает заданный порог, письмо идентифицируется как спам. Подходы на основе правил, когда они хорошо настроены, показывают очень точные

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

результаты фильтрации. В настоящее время проведено большое количество исследований, направленных на повышение точности фильтра спама на основе содержания.

Фильтрация на основе машинного обучения

Методы фильтрации спама на основе машинного обучения используют алгоритмы, которые могут обучаться на основе данных для идентификации и классификации спама. Эти алгоритмы используют статистические и математические модели для выявления закономерностей в содержимом электронной почты и метаданных, которые отличают спам от законных писем. Наиболее распространенные подходы машинного обучения: K-ближайших соседей (kNN - k-Nearest Neighbor), метод опорных векторов (SVM - support vector machines), случайный лес (Random Forest) и Наивный байесовский классификатор (Naive Bayes).

1. Алгоритм k-NN основан на идее, что похожие объекты принадлежат к одному классу. В контексте фильтрации спама это означает, что электронные письма, имеющие сходные черты с известными спамовыми письмами, также, скорее всего, являются спамом. Алгоритм работает путем вычисления расстояния между характеристиками классифицируемого письма и характеристиками обучающего набора данных. Затем алгоритм k-NN выбирает k ближайших писем на основе их расстояния и присваивает классифицируемому письму класс большинства k ближайших писем.

2. Метод опорных векторов является одним из наиболее популярных и универсальных алгоритмов машинного обучения. Классификация методом опорных векторов сводится к отысканию гиперплоскости в многомерном пространстве, которая оптимальным образом разделяет точки из обучающей выборки разных классов. На основе выбранных признаков точки данных будут отнесены к одному классу, а другие признаки будут отнесены к другой группе класса.

3. Случайный лес используется в алгоритмах классификации и регрессии. Используется ансамбль решающих деревьев для классификации сообщений на спам и легитимный. Алгоритм случайного леса обучается на размеченном наборе данных, где каждый объект сообщения имеет набор признаков, таких как слова, символы, длина сообщения и т.д. Каждое дерево дает классификацию и вносит свой вклад в составление окончательной классификации путем голосования.

4. Метод Наивного Байеса является одним из наиболее распространенных вероятностных алгоритмов машинного обучения для фильтрации спама. Он основан на теореме Байеса, которая позволяет оценить вероятность принадлежности объекта к определенному классу на основе его признаков. В фильтрации спама теореме используется для определения вероятность того, что письмо является спамом, исходя из вероятностей того, что определенные слова встречаются в спам или легитимных письмах.

5. Логистическая регрессия алгоритм машинного обучения, который в основном используется для задач классификации, где целью является предсказание вероятности принадлежности объекта к заданному классу или нет. Это вид статистического алгоритма, который анализирует связь между набором независимых переменных и зависимыми двоичными переменными.

6. Нейронная сеть алгоритм машинного обучения, моделирующий работу нейронов в человеческом мозге. Нейронные сети состоят из множества соединенных между собой

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

узлов, которые обрабатывают входные данные и генерируют выходные данные. При обучении нейронная сеть анализирует большой набор данных и настраивает веса между узлами, чтобы минимизировать ошибку при предсказании выходных данных. Существует несколько типов нейронных сетей, которые могут быть использованы для спам-фильтрации, включая перцептрон, рекуррентные и сверточные нейронные сети. [2]

Таблица 1

Сравнительный анализ методов машинного обучения

Метод Описание Преимущества Недостатки

^ближайших соседей метод классификации, основанный на определении класса нового объекта на основе класса к ближайших к нему объектов простота алгоритма, возможность обработки неструктурированных данных, возможность обработки многомерных данных низкая точность в задачах с большим количеством признаков, требуется хранить всю выборку для классификации новых объектов

Метод опорных векторов метод, находящий оптимальное разделение данных гиперплоскостью в многомерном пространстве высокая точность, эффективность при обработке данных в многомерном пространстве требуется тщательный подбор параметров, высокое время обучения на больших объемах данных

Случайный лес метод, основанный на создании множества деревьев решений высокая точность классификации, способность обрабатывать большие объемы данных, устойчивость к переобучению требуется большой объем данных для обучения, большое время обучения, не учитывает семантические особенности текста

Наивный Байес вероятностный алгоритм, основанный на теореме Байеса простота и быстрота работы, хорошая производительность при большом объеме данных не учитывает взаимодействия между признаками, может давать неверные результаты, требует большого количества данных для точной классификации

Логистическая регрессия линейный алгоритм, использующий логистическую функцию для классификации точность классификации при правильно подобранных параметрах, работы с большими объемами данных проблемы с переобучением при большом количестве признаков, низкая эффективность если входные данные не имеют линейной зависимости

Нейронные сети система, состоящая из множества взаимосвязанных высокая точность, обработки большого количества данных, сложность обучения, сложность требуется

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

нейронов, которые возможность большое количество

обрабатывают выявления сложных данных для обучения

входные данные и закономерностей

выдают результаты

Однако, все эти методы имеют свои недостатки и ограничения, поэтому для достижения наилучшей эффективности фильтрации, предлагается использовать многоуровневую фильтрацию на основе искусственной иммунной системы.

Многоуровневая фильтрация спама на основе искусственной иммунной системы (ИИС)- это подход, который использует концепции и принципы иммунной системы человека, чтобы определить и фильтровать спам-сообщения. Метод состоит из нескольких уровней, каждый из которых выполняет определенную задачу [3]:

- первый уровень фильтрации осуществляет предварительную обработку входящих писем. Он анализирует заголовки и содержание писем, удаляет нежелательные символы и слова, а также преобразует текст в стандартный формат.

- второй уровень фильтрации использует алгоритмы машинного обучения для классификации писем. Для этого он использует обучающую выборку и строит модель, которая может предсказывать, является ли новое письмо спамом или нет.

- третий уровень фильтрации на основе ИИС использует иммунные алгоритмы для распознавания и борьбы со спамом. Он создает набор антител, которые могут распознавать спам-сообщения на основе их характеристик, таких как наличие определенных слов или фраз в тексте. Когда антитела обнаруживают спам, они помечают его как нежелательное и отправляют на удаление.

- четвертый уровень фильтрации осуществляет финальную проверку и отправку письма в соответствующую папку, в зависимости от результата всех предыдущих уровней. Если письмо было отмечено как спам в одном из уровней, оно будет удалено или отправлено в специальную папку для спама. Если же письмо не было отмечено как спам во всех уровнях, оно будет отправлено в папку входящие.

Таким образом, многоуровневая фильтрация спама на основе искусственной иммунной системы представляет собой эффективный метод борьбы со спамом, который позволяет достигнуть высокой точности и скорости фильтрации. Метод позволяет повысить точность распознавания спама и снизить количество ложных срабатываний, может быть эффективным инструментом в борьбе со спамом, особенно в случае большого объема данных.

REFERENCES

1. Omar Y. Al-Jarrah, I. Khater, B. Al-Duwairi. Identifying potentially useful email header features for email spam filtering. // ICDS 2012 : The Sixth International Conference on Digital Society, з. 140-145.

2. Salim K. Ganiev; Sherzod J. Khamidov. Artificial Intelligence-Based Methods for Filtering Spam Messages in Email Services. // 2021 International Conference on Information Science and Communications Technologies (ICISCT).

3. J.Yaping, T.Yuexia, M.Xiao. A spam filtering model based on immune agent // Computer Applications and Software - 2016. Vol. 33. No.3. pp. 294-313.

i Надоели баннеры? Вы всегда можете отключить рекламу.