Научная статья на тему 'Применение двухуровневой модели для фильтрации спам-сообщений в электронной почте'

Применение двухуровневой модели для фильтрации спам-сообщений в электронной почте Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
133
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / ДВУХУРОВНЕВАЯ МОДЕЛЬ ЗАЩИТЫ ОТ СПАМА / CAPTCHA / ХЕШ-СУММА / БАЙЕСОВСКАЯ ФИЛЬТРАЦИЯ / SPAM / TWO-LEVEL SPAM PROTECTION MODEL / HASH SUM / BAYESIAN FILTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гафаров Рустам Игоревич, Акбархужаев Султонхужа Акбархужа Угли

Современные методы борьбы со спамом на сегодняшний день имеют очень много недостатков, поэтому необходимы более сложные алгоритмы в решении поставленной задачи. В данной статье рассмотрена проблема спама, оказывающего негативное влияние на электронную почту, и предложена двухуровневая модель фильтрации нежелательной корреспонденции, включающая в себя фильтрацию адресов на этапе получения сообщения сервером и фильтрацию сообщения после получения сервером, что позволяет в комплексе методов предложить наилучший вариант решения проблемы электронной почты.Nowadays, modern methods of fighting with spam have a lot of drawbacks that persists to use complex algorithms to solve the problem. This article discusses the problem of spam, which has a negative factor on email and proposes a two-level model for filtering unwanted correspondence, which includes filtering addresses at the stage of receiving messages by the server and filtering messages after receiving by the server, which allows using a set of methods to offer the best solution to the problem of email.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение двухуровневой модели для фильтрации спам-сообщений в электронной почте»

ЭКОНОМИЧЕСКИЕ НАУКИ

ПРИМЕНЕНИЕ ДВУХУРОВНЕВОЙ МОДЕЛИ

ДЛЯ ФИЛЬТРАЦИИ СПАМ-СООБЩЕНИЙ

В ЭЛЕКТРОННОЙ ПОЧТЕ

1 2 Гафаров Р.И. , Акбархужаев С.А.

Email: Gafarov689@scientifictext.ru

1Гафаров Рустам Игоревич - магистрант, факультет информационной безопасности;

2Акбархужаев Султонхужа Акбархужа угли - магистрант, факультет программной инженерии, Ташкентский университет информационных технологий им. Мухаммада аль-Хорезми, г. Ташкент, Республика Узбекистан

Аннотация: современные методы борьбы со спамом на сегодняшний день имеют очень много недостатков, поэтому необходимы более сложные алгоритмы в решении поставленной задачи. В данной статье рассмотрена проблема спама, оказывающего негативное влияние на электронную почту, и предложена двухуровневая модель фильтрации нежелательной корреспонденции, включающая в себя фильтрацию адресов на этапе получения сообщения сервером и фильтрацию сообщения после получения сервером, что позволяет в комплексе методов предложить наилучший вариант решения проблемы электронной почты. Ключевые слова: спам, двухуровневая модель защиты от спама, CAPTCHA, Хеш-сумма, Байесовская фильтрация.

APPLYING TWO-LEVEL MODEL FOR FILTRATION OF SPAM

MESSAGES IN E-MAIL

12 Gafarov R.I. , Akbarkhujaev S.A.

1Gafarov Rustam Igorevich - Master Student, INFORMATION SECURITY FACULTY;

2Akbarkhujaev Sultonkhuja Akbarkhuja ogli - Master Student, SOFTWARE ENGINEERING FACULTY, TASHKENT UNIVERSITY OF INFORMATION TECHNOLOGIES NAMED AFTER MUHAMMAD AL-KHWARIZMI, TASHKENT, REPUBLIC OF UZBEKISTAN

Abstract: nowadays, modern methods of fighting with spam have a lot of drawbacks that persists to use complex algorithms to solve the problem. This article discusses the problem of spam, which has a negative factor on email and proposes a two-level model for filtering unwanted correspondence, which includes filtering addresses at the stage of receiving messages by the server and filtering messages after receiving by the server, which allows using a set of methods to offer the best solution to the problem of email. Keywords: Spam, Two-level spam protection model, CAPTCHA, Hash Sum, Bayesian filtering.

УДК 004.021

1. Введение

Статистические данные, предоставленные securelist.ru свидетельствуют, что в мировом масштабе на почтовый трафик приходится более 50% спама (см. Рис. 1) [1].

Рис. 1. Рассылка спама в мировом масштабе

Причиняемый вред от спам-сообщений в электронной почте оказывает влияние на:

- Нагрузку на коммуникации;

- Потерю времени;

- Раздражение и недовольство;

- Случайную потерю нужного письма в пачке спама;

- Криминализацию спама [8].

В настоящее время борьбе со спам-сообщениями уделяется недостаточно внимания в связи с недооценкой опасности и причинения вреда спам-сообщениями. Создание модели фильтрации «спама», которая позволила бы снизить ошибочные срабатывания фильтра, представляет собой самую трудную часть фильтрации. Проектировать модель фильтрации «спама», которая позволила бы достичь минимизации ошибок, непросто, хотя в этом случае можно положиться на большой объем академических исследований.

2. Постановка задачи

Основные моменты качественной фильтрации должны включать в себя отличимые друг от друга методы, а именно отборные по специальным критериям, которые должны удовлетворять признаки (широта спектра фильтрации, скорость, непересекаемость с другим методом фильтрации, статичность или динамичность алгоритма функции решения и т.д.).

3. Построение двухуровневой модели фильтрации спам-сообщений

Двухуровневая модель защиты от спам-сообщений представляет собой комплекс

методов, позволяющих фильтровать адреса, текст и не нагружать систему сервера в целом. Такой комплекс модели позволит системе повысить коэффициент отсеивания спама даже на начальных этапах. Каждый из уровней защиты включает в себя совокупность методов, позволяющих своеобразно выявить отправителя, отсеивая ненадежных и фильтруя внутренний контент письма на наличие в нём нежелательной корреспонденции.

Два уровня защиты представляют собой двухслойную оболочку, через которую пройти спам-сообщению будет очень сложно. Эти уровни включают в себя (см. Рис. 2):

- Фильтрацию адресов на этапе получения сообщения сервером;

- Фильтрацию сообщения после получения сервером [2].

Рис. 2. Двухуровневая модель защиты электронной почты от спама

В предложенной модели фильтрации спам сообщений в электронной почте входит ряд методов:

1) Черный и Белый листы адресов;

2) Контрольная сумма сообщения;

3) Наивный Байесовский классификатор;

4) Контрольная сумма (Хеш-сумма);

5) Автоматизированный алгоритм теста Тьюринга (САРТСНА).

Этапы фильтрации «белого», «черного» списками, а также временная задержка с помощью алгоритма САРТСНА включены в уровень «защиты на этапе получения сообщения сервером».

Действия фильтрации проводятся на стороне сервера и используют его производительные мощности.

Данный метод обладает двумя ключевыми качествами, характеризующими эффективность работы любого метода фильтрации электронной почты. Это полнота и точность фильтрации. Под полнотой подразумевается процент обнаруженного спама, а точность - количество ложных срабатываний.

В методе фильтрации на этапе принятия сообщения сервером имеется папка «карантин», которая используется для задержки сообщений. Также имеется список адресов электронной почты доверенных пользователей, т.е. «белый» список, который на начальном этапе формируется самостоятельно, и «черный» список, изначально пустой. В качестве величины времени задержки сообщения на «карантине», а также коэффициента порога веса для отклонения сообщения Байесовской фильтрацией указывается самостоятельно организатором почтового сервера.

Для данного метода распознавания спама важны поля «обратный адрес» и «уникальный идентификатор сообщения». Проверяется вхождение адреса отправителя в «черный» список. Если он найден, то сообщение является спамом, и оно удаляется [3], если нет, то проверяется по «белому» списку [4]. Если адреса нет в списке, то сообщение копируется в папку «карантин» и определяется его «уникальный идентификатор сообщения», указанный в заголовке. По шаблону

формируется ответное сообщение, содержащее просьбу о подтверждении отправителя, что он является человеком. На этом этапе отправителю необходимо будет ответить на сообщение пройдя тест Тьюринга. Данный тест, именуемый CAPTCHA включает в себя ряд сложных логических решений и действий, которые на сегодняшний день невозможны для компьютерного вычисления, включая искусственный интеллект [5]. Если отправитель не сможет пройти этот тест в заданный промежуток времени, то его адрес помещается в «черный» список и сообщение будет удалено.

От каждого нового отправителя, адрес которого не находится в «белом» списке присваивается контрольная сумма (хеш-сумма) отправленного сообщения. Хеш-сумма этого сообщения сравнивается с множеством хеш-сумм, хранящихся в базе спам-сообщений от предыдущих отправителей [6]. При условии совпадения хеш-суммы сообщения адрес отправителя попадает в «черный» список, а сообщение удаляется. В противном случае сообщение поступает на следующий этап Байесовской фильтрации сообщения.

Уровень «фильтрации сообщения после получения сервером письма» включает в себя основной фильтр вложения письма, который проводит фильтрацию текста внутри письма.

Фильтрация текста внутри письма охватывает 2 алгоритма фильтрации сообщения:

1) Фильтрация хеш-суммой;

2) Байесовская фильтрация.

Входящему сообщению присваивается коэффициент веса. В качестве оценки веса во входящем сообщении используется частота появлений слов с базы «спам-слов» к частоте появлений всех слов в этом сообщении. Если коэффициент веса превысит установленную метку, то сообщение будет удалено, и адрес отправителя попадает в раздел «черного» списка.

Так как словарь разных языков имеет фиксированное количество слов, следовательно, он является статичным. Исходя из этого применения фильтрации на основе Байесовского классификатора будет актуальным [7].

Если антиспамовая фильтрация письма прошла успешно и классификатор Байеса не выявил в нем наличие спама, то письмо может быть прочтено получателем, в противоположном случае оно будет удалено.

4. Заключение

Предложенный метод, комбинируя в себе несколько уже знакомых нам способов защиты, гарантирует наилучший результат. Разработанная мною двухуровневая модель позволит отсечь нежелательную корреспонденцию на любом из уровней, так как описанные уровни защиты учитывают критерии каждого метода фильтрации.

Следует отметить, что практическая ценность проделанной работы несет в себе положительные особенности:

- Для более качественной фильтрации требуется комбинация методов, использующих различные алгоритмы и анализирующих по различным критериям;

- В дополнение фильтрации необходимы уровни защиты, позволяющие классифицировать по группам различные рассылки, при этом разделение их даст возможность снизить нагрузки на аппаратную часть серверного оборудования.

Список литературы /References

1. Спам и фишинг в 2019 году. [Электронный ресурс]. Режим доступа:

https://securelist.ru/spam-report-2019/95727/ (дата обращения: 04.06.2020).

2. Смирнов Ф.О. Спам как объект лингвистического анализа. [Электронный ресурс].

Режим доступа: http://www.dialog-21.ru/media/2568/smimov.pdf/ (дата обращения:

04.06.2020).

3. О черном и белом списках адресов электронной почты. [Электронный ресурс]. Режим доступа: https://help.kaspersky.com/KS4Exchange/9.4/ru-RU/112993.htm/ (дата обращения: 04.06.2020).

4. Защита на серверах от спама. [Электронный ресурс]. Режим доступа: https://habr.com/ru/company/ispsystem/blog/155043/ (дата обращения: 04.06.2020).

5. Капча. [Электронный ресурс]. Режим доступа: https://ru.wikipedia.org/wiki/Капча/ (дата обращения: 04.06.2020).

6. HashCash: еще одна защита от спама. [Электронный ресурс]. Режим доступа: https://xakep.ru/2004/07/28/23222/ (дата обращения: 04.06.2020).

7. Metsis Vangelis, Androutsopoulos Ion, Paliouras Georgios. Spam Filtering with Naive Bayes - Which Naive Bayes? // Third Conference on Email and Anti-Spam (CEAS), 2006. 9 p.

8. Вред от спама. Access link: https://encyclopedia.kaspersky.ru/knowledge/damage-caused-by-spam/ (дата обращения: 04.06.2020).

i Надоели баннеры? Вы всегда можете отключить рекламу.