Научная статья на тему 'Современные методы защиты от нежелательных почтовых рассылок'

Современные методы защиты от нежелательных почтовых рассылок Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2596
385
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / МЕТОДЫ ЗАЩИТЫ ОТ РАССЫЛОК / SPAM / PROTECTION AGAINST MAILINGS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковалёв Сергей Сергеевич, Шишаев Максим Геннадьевич

Приведен обзор используемых в настоящее время методов защиты пользователей электронной почты от нежелательных почтовых рассылок (спама), дана характеристика принципов их работы и недостатков, предложены принципы построения нового метода защиты от спама, решающего проблемы существующих методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN METHODS OF ANTI-SPAM PROTECTION

Modern methods of protection of E-mail users from undesirable post mailings (spam) are observed. The principles of given methods and their lacks is given. Principles of a new method of protection against spam solving problems of existing methods are offered.

Текст научной работы на тему «Современные методы защиты от нежелательных почтовых рассылок»

УДК 004.7, 004.45

1 9

С.С. Ковалёв М.Г. Шишаев СОВРЕМЕННЫЕ МЕТОДЫ ЗАЩИТЫ ОТ НЕЖЕЛАТЕЛЬНЫХ ПОЧТОВЫХ РАССЫЛОК

Аннотация

Приведен обзор используемых в настоящее время методов защиты пользователей электронной почты от нежелательных почтовых рассылок (спама), дана характеристика принципов их работы и недостатков, предложены принципы построения нового метода защиты от спама, решающего проблемы существующих методов.

Ключевые слова

спам, методы защиты от рассылок.

S.S. Kovalev, M.G. Shishaev MODERN METHODS OF ANTI-SPAM PROTECTION

Abstract

Modern methods of protection of E-mail users from undesirable post mailings (spam) are observed. The principles of given methods and their lacks is given. Principles of a new method of protection against spam solving problems of existing methods are offered.

Keywords:

spam, protection against mailings.

Введение

Нежелательные почтовые рассылки (так называемый спам) в нынешнее время стали серьёзной проблемой для пользователей электронной почты. По различным данным, доля спама в мировом Интернет-трафике составляет от 60 до 90%. Естественно, что это не может не сказываться на эффективности работы систем электронной почты, поэтому администратор любой почтовой системы желает получить наиболее эффективный и дешёвый способ защиты от спама.

В этой работе предложен краткий обзор ныне существующих методов защиты от спама, дана характеристика этих методов, описание их сильных и слабых сторон, а также определена потребность в разработке нового, более эффективного средства защиты.

Существующие в настоящее время методы борьбы со спамом можно разделить по способу их организации на две категории: распределённые и локальные. В отдельную категорию можно выделить закрытые методы, в том числе коммерческие.

Распределённые методы предполагают участие в сборе информации о спаме от большого числа независимых почтовых систем, которые обмениваются данными между собой. Каждая из систем-участниц предоставляет необходимую

1

ИТ ОАО «Апатит» 2 ИИММ КНЦ РАН

(специфичную для каждого метода) информацию о проходящем через неё почтовом трафике, тем самым пополняя базу данных информации о спаме. Качество фильтрации достигается привлечением как можно большего числа участников и совершенствованием механизмов сбора и анализа информации о спаме. Чем больше точек сети предоставляют информацию о спаме и чем качественнее эта информация, тем полнее становится картина действий спамеров и тем эффективнее можно с ними бороться. Однако в рамках распределённых методов фильтрации спама отсутствует возможность тонкой настройки фильтра в отдельно взятой почтовой системе.

Локальные методы работают в рамках одной почтовой системы и не используют для работы внешних ресурсов. Так как эти методы не предполагают получения информации о спаме из внешних источников, то каждый раз при изменении вида входящих писем или тактики спамеров, приводящих к большому числу ошибок фильтра, настройка фильтра под характер почтового трафика и работа по повышению качества фильтрации полностью ложится на администратора. Но, в отличие от распределённых методов фильтрации, локальные методы изначально имеют возможность тонкой адаптации под конкретную почтовую систему.

Локальные методы

Локальные методы можно разделить по принципу, лежащему в основе их работы, на несколько семейств:

- байесовская фильтрация;

- методы на основе формальных протокольных правил;

- процедурные методы;

- проверка подлинности отправителя.

Байесовская фильтрация

Так как спам - это нежелательные письма рекламного характера, рассылаемые массово, то справедливым будет предположить, что эти письма будут содержать одни и те же слова, речевые обороты, названия торговых марок, контактные данные и прочие «атрибуты» рекламы, или даже идентичные фрагменты текста. Именно по наличию этих элементов в теле письма можно сделать вывод о том, является ли письмо спамом или нет.

Метод Байесовской фильтрации и позволяет классифицировать письма путём нахождения в теле письма признаков спама - заранее определённых строк и/или их комбинаций. В основе метода лежит использование наивного байесовского классификатора - классификатора, использующего теорему Байеса для определения принадлежности рассматриваемого элемента (в данном случае сообщения электронной почты) к одному из классов.

Общий алгоритм работы этого метода состоит из двух фаз:

1. Обучение фильтра - на этой фазе анализируется множество писем, про которые заранее достоверно известно, являются ли они спамом. Для каждого слова из этих писем вычисляется вес - вероятность того, что письмо, содержащее это слово, является спамом. Общая формула этого вычисления имеет вид:

где Р(Ж\8) - условная вероятность того, что определённое слово появляется в сообщении, которое является спамом. Это число приближённо равно частоте определённого слова в сообщении, идентифицированном как спам, используемом во время фазы обучения;

Р@\ Ж) - условная вероятность того, что сообщение является спамом при условии, что определённое слово находится в нём;

Р(Ж\Н) - условная вероятность того, что определённое слово появляется в сообщениях, которые не являются спамом. Это число приближённо равно относительной частоте определённого слова в сообщении, идентифицированном как не спам, используемом во время фазы обучения.

2. Анализ сообщений - на этой фазе входящее почтовое сообщение сканируется на предмет наличия слов, для которых известен вес. Далее делается «наивное» предположение, что все эти слова являются независимыми событиями, то есть частота появления одного слова никак не зависит от частоты появления других. С учётом этого предположения из теоремы Байеса можно получить формулу, по которой будет рассчитываться вероятность того, что анализируемое сообщение - спам:

где р - вероятность, что рассматриваемое сообщение - спам; р1(р2 и т.д.) - вес первого (второго и т.д.) слова.

После расчёта этой вероятности результат сравнивается с некоторым заранее определённым пороговым значением и принимается решение, к какому классу отнести сообщение.

Этот метод обладает рядом преимуществ, которые делают системы, построенные на его основе, самыми популярными на сегодняшний день решениями для защиты от спама. Они просты во внедрении и удобны в использовании, при качественном обучении отсекают до 98% спама [1] и дают возможность дополнительно обучить фильтр в случае ложных срабатываний.

Однако такой метод имеет два фундаментальных недостатка, которые широко используются отправителями спама, и могут свести эффективность фильтрации практически к нулю:

- Он ориентирован только на работу с текстом. Спамеры помещают информацию, которую хотят донести до получателей, в документ, который не может быть проанализирован как простой текст, например в изображение или документ формата РББ. А этот документ, в свою очередь, вставляют в тело письма. Фильтр не может классифицировать такое сообщение как спам, поэтому пропускает его.

- Метод основан на предположении, что в спаме чаще содержатся одни слова, а в нормальных письмах другие. Если это предположение оказывается неверным, то метод утрачивает свою эффективность. Для обхода фильтра используется метод «Байесовского отравления» - в письмо добавляется специально подобранный лишний текст, обманывающий фильтр и заставляющий его считать сообщение нормальным.

На базе этого метода реализованы системы SpamAssassin [2] и DSPAM [3].

Методы на основе формальных правил

Для передачи электронной почты в сети Интернет используется так называемый «простой протокол передачи почты» (Simple Mail Transfer Protocol -SMTP), который описан в документе RFC 5321 [4]. Этот протокол описывает процедуру передачи почтовых сообщений от клиента к серверу, формат почтовых сообщений, описывает команды, которыми могут обмениваться клиент и сервер, и определяет синтаксис этих команд. Также в протоколе SMTP определены коды ответов на команды и действий, которые должны быть предприняты при получении этих кодов. Основными командами протокола SMTP являются:

- HELO - служит для инициализации диалога между клиентом и сервером;

- MAIL - указывает адрес отправителя;

- RCPT - указывает адреса получателей;

- DATA - указывает на начало передачи данных (тела письма).

Коды ответа представляют собой трёхзначные числа, каждому из которых, соответствует определённый статус выполнения команды. Эти числа трактуются следующим образом:

- 2хх - команда выполнена успешно;

- Зхх - ожидаются дополнительные данные от клиента;

- 4хх - временная ошибка, клиент должен произвести повторную доставку позднее;

- 5хх - постоянная (неустранимая) ошибка.

В основе метода фильтрации спама по формальным правилам лежит предположение, что современные способы рассылки спама не могут гарантировать стопроцентное соблюдение протокола SMTP, и при поступлении письма, содержащего спам, формальные требования этого протокола неизбежно будут нарушены. Следовательно, любого отправителя, нарушающего SMTP-протокол, можно считать спамером и не принимать письма от него.

В настоящее время для рассылки спама крайне неэффективно использовать легитимные почтовые сервера, письма с которых будут приниматься любым получателем. Владелец сервера или Интернет-провайдер, обслуживающий этот сервер, быстро заметят аномальный поток исходящего почтового трафика и оперативно заблокируют его. Поэтому для рассылки спама злоумышленники применяют так называемые ботнеты - компьютеры по всему миру, заражённые вирусом, который скрытно объединяет их в одну логическую сеть и даёт возможность управлять этими компьютерами и выполнять на них определённые задачи, в том числе рассылку спама. Но, в отличие от легитимного почтового сервера, эти компьютеры изначально не подготовлены для рассылки электронной почты. Поэтому когда с них начинается рассылка спама, они соблюдают SMTP-протокол лишь частично: нарушают очерёдность и синтаксис команд SMTP, подставляют в качестве их аргументов неверные данные или не выполняют требуемых для отправки письма действий. Например, не посылают команду инициализации сессии HELO и не дожидаются синхронизации с сервером получателя, как того требует протокол SMTP, а сразу

пытаются передать данные письма. Такие нарушения протокола дают возможность определять и блокировать источники рассылки спама.

Существует большое количество формальных правил, которые должны быть соблюдены при отправке электронной почты. При использовании метода фильтрации спама по формальным правилам конкретный набор используемых правил определяется администратором почтовой системы.

Одним из самых распространённых методов проверки по формальным правилам является метод серых списков ^шу^й^). Суть метода состоит в том, что по требованию протокола SMTP, сервер-отправитель почтового сообщения должен в случае возникновения у сервера-получателя временной ошибки повторить попытку пересылки сообщения спустя некоторое время. Однако есть некоторые технические аспекты реализации ботнетов, которые не позволяют выполнить это требование:

- в ботнетах для отправки почтовых сообщений используется облегчённое программное обеспечение, которое лишено большинства функций полноценного почтового сервера, в том числе полноценной очереди сообщений с механизмами повторения доставки;

- при проведении спам-рассылки при неудачной доставке отправка сообщения намеренно не повторяется либо повторяется без какой-либо существенной задержки между попытками, чтобы не замедлять процесс рассылки другим получателям и успеть за минимальное время разослать максимум сообщений.

Общая схема работы метода серых списков такова:

1. Для каждого поступающего сообщения из базы данных запрашивается информация об отправителе (в общем случае его Ш-адрес и адрес электронной почты). Если эта информация отсутствует, она берётся из входящего письма, заносится в базу данных и письмо отклоняется с кодом временной ошибки на сервере;

2. Если информация об отправителе найдена, то делается вывод, что письмо пересылается повторно и отправитель выполняет требования протокола SMTP. Далее отправитель помечается как «белый» и письма от него больше не отклоняются. На практике же практически во всех реализациях этого метода после занесения в базу данных информации о получателе устанавливается определённый временной интервал, который должен пройти до того, как письмо от этого отправителя будет принято. Если попытка повторной пересылки будет принята до истечения установленного интервала, то сообщение опять будет отклонено с временной ошибкой.

Таким образом, отправители, которые выполнили требование протокола SMTP и повторили попытку пересылки письма, признаются нормальными, и письма от них принимаются. Спамеры же, напротив, не повторяют пересылку писем, и они до конечных получателей не доходят.

Другим популярным методом фильтрации по формальным правилам является проверка соответствия синтаксиса аргументов SMTP-команд тому, который описан в Например, аргумент команды HELO/EHELO должен

являться либо полным доменным именем хоста, либо Ш-литералом. Если предоставленный отправителем аргумент не является ни тем, ни другим, то письмо отклоняется как спам.

Проверки по формальным правилам могут быть довольно эффективны, однако они допускают большой процент ложных срабатываний фильтра, так как нет возможности отличить хост, рассылающий спам, от легитимного сервера, не исполнившего формальное требование в силу ошибок конфигурации или системного сбоя.

Процедурные методы

Эти методы направлены на повышение издержек при рассылке спама, чтобы сделать спам-рассылку невыгодной. Их суть заключается в том, чтобы перед приёмом письма от неизвестного ранее отправителя автоматически отправить ему ответ, в котором потребовать выполнить какое-то действие. Это действие выбирается таким образом, что для его выполнения однократно требуется приложить минимум усилий, тогда как при массовой рассылке, и, соответственно, многократном его выполнении усилий требуется очень много. Примерами таких действий могут служить:

- отправить в ответ на запрос пустое письмо;

- открыть в браузере ссылку, находящуюся в письме;

- прочитать приложенную в письме инструкцию, выполнить её и отправить в ответ результат выполнения;

- пройти полностью автоматизированный публичный тест Тьюринга для различия компьютеров и людей [5].

Такой подход может эффективно противостоять спаму, однако требование выполнить какое-либо действие может вызвать затруднения у пользователя, и, как следствие, нежелательные задержки в доставке письма, что критично в бизнес-среде, где переписка ведётся с множеством ранее неизвестных адресатов.

Проверка подлинности отправителя

В соответствии с протоколом SMTP, для того, чтобы почтовый сервер мог отправлять и принимать почту, он должен быть зарегистрирован в Системе доменных имён (Domain Name System - DNS). Система доменных имён представляет собой распределённую иерархическую базу данных, используемую для определения соответствия доменного имени узла сети и его IP-адреса, указания почтовых маршрутов и размещения служебной информации о доменах (записей типа SRV и TXT). Для указания сервера, который обслуживает данный почтовый домен, используется специальная запись типа MX (Mail eXchange). В ней хранится адрес сервера, отвечающего за доставку почты для этого домена. Для того чтобы выполнить доставку писем для адресата в определённом домене, отправитель запрашивает из DNS запись MX для этого домена, соединяется с полученным IP-адресом и производит отправку сообщения используя команды протокола SMTP.

Так как рассылка спама с помощью ботнетов происходит с хостов, которые не обслуживают ни один почтовый домен и не настроены как полноценный SMTP-сервер (в том числе не имеют необходимых для функционирования почтового сервера MX-записей в системе DNS), то данные отправителя в спам-письмах практически всегда оказываются поддельными. Этим фактом и оперируют методы фильтрации, построенные на проверке

подлинности отправителя. Под проверкой подлинности отправителя подразумеваются следующие виды проверок:

1. Хост-отправитель действительно тот, за кого он себя выдаёт;

2. Этот хост действительно обслуживает почтовый домен, в котором находится отправитель письма и имеет право отправлять почту этого домена;

3. Указанный в качестве отправителя почтовый адрес действительно существует в этом домене.

Первая проверка позволяет убедиться, что при отправке письма не использовано поддельное имя хоста или IP-адрес отправителя. Она осуществляется проверкой взаимного совпадения результатов прямого и обратного разрешения данных отправителя через систему DNS. Для этого используются имя хоста или IP-адрес отправителя, с которых происходит соединение или которые указаны в качестве аргумента команды HELO/EHELO.

Второй вид проверки также осуществляется через систему DNS. Владельцем доменной зоны в системе DNS размещается служебная запись типа TXT, содержащая описание того, какие серверы имеют право отправлять почту для этой зоны. Формат этого описания зависит от конкретной используемой технологии проверки. Например, для технологии Sender Policy Framework [6] запись обозначающая, что почту для домена может отправлять только сервер с IP-адресом 192.168.0.1, будет выглядеть следующим образом: v=spf1

ip4:192.168.0.1/32 -all.

Получатель может запросить эту информацию из системы DNS и с её учётом решить принимать ли почту от конкретного сервера или нет. Другой популярной технологией осуществления подобных проверок является DomainKeys Identified Mail [7].

Для выполнения третьей проверки почтовый сервер получателя пробует произвести отправку возвращённого сообщения (так называемого Delivery Status Notification) на адрес отправителя. Для того чтобы осуществить эту процедуру первым делом из системы DNS получается MX-запись, содержащая IP-адрес почтового сервера, обслуживающего домен отправителя. Если такая запись найдена и по указанному в ней адресу действительно работает SMTP-сервер, то делается попытка установить связь с этим сервером и отправить на проверяемый почтовый адрес письмо. Если этот адрес будет принят сервером отправителя, делается вывод, что он реально существует и проверка считается пройденной.

Методы проверки подлинности отправителя позволяют отсечь большинство поступающего спама. Однако они имеют тот же недостаток, что и методы формальных проверок: невозможно отличить хост, рассылающий спам, от нормального сервера с системным сбоем или ошибкой конфигурирования, что приводит к большому числу ложных срабатываний фильтра.

Распределённые методы

Разработанные на данный момент распределённые методы борьбы со спамом можно разделить на две категории:

- контрольные суммы - сигнатуры (в данном случае выполняют идентифицирующую функцию);

- списки блокировки.

Методы на основе сигнатур

Данные методы основаны на том факте, что любая спам-рассылка является массовой и число адресатов очень велико, иначе она будет экономически неэффективной и нецелесообразной. Рассылка спама на миллионы адресов может занимать довольно длительное время, вплоть до нескольких суток. Следовательно, если идентифицировать на начальном этапе рассылки тот факт, что отдельно взятое сообщение является массовым, то можно заблокировать рассылку, и это сообщение получит только небольшой процент пользователей, адреса которых оказались в начале списка получателей.

Общий алгоритм определения массовости письма с использованием контрольных сумм выглядит так:

1. Для каждого вновь пришедшего письма вычисляется контрольная сумма, которая сохраняется в базе данных. К каждой контрольной сумме привязывается счётчик повторений;

2. Если для контрольной суммы входящего письма уже имеется запись в базе данных, то её счётчик увеличивается на 1 и сравнивается с пороговым значением. Если значение счётчика превышает пороговое, то сообщение считается массовым, и его отклоняют как спам.

На практике при массовых рассылках для обхода фильтров в каждое письмо вносятся незначительные изменения, делающие его отличным от остальных, но не влияющие на читаемость письма человеком. Например, буква заменяется похожей по начертанию цифрой или буквой из другого алфавита, либо в письмо добавляется произвольный фрагмент текста. Таким образом, одно и то же письмо существует в огромном множестве вариантов. Такая «персонализация» спама является большой проблемой, так как алгоритмы вычисления чётких контрольных сумм (например, MD5), в которых любое изменение входных данных сильно отражается на результате, в данном случае не годятся. Для решения этой проблемы используются алгоритмы вычисления нечётких контрольных сумм - своего рода «слепков» письма, имеющих небольшую длину, но достаточно точно идентифицирующих этот вид писем и не чувствительных к небольшим изменениям. Существуют различные алгоритмы вычисления нечётких контрольных сумм, например:

- Winnowing [8];

- Nilsimsa [9];

- Rabin signature algorithm [10].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Также в некоторых системах, реализующих метод фильтрации спама на основе контрольных сумм, например Cloudmark Anti-spam [11], используются собственные закрытые алгоритмы вычисления нечётких контрольных сумм.

Проблему обнаружения «массовости» почтового сообщения невозможно решить в рамках отдельной почтовой системы, так как этой системе видна лишь малая часть общей картины рассылки - спам может приходить слишком малому числу получателей или рассылка может продолжаться короткое время. Поэтому система, реализующая описанный выше метод, на практике будет представлять собой большую базу данных, к которой имеет доступ множество почтовых серверов. Чем больше почтовых систем будет вносить данные о полученных письмах в эту базу данных, тем полнее будет картина происходящих рассылок и тем эффективнее будет фильтрация.

К достоинствам этого метода можно отнести отсутствие необходимости регулярного «обучения» и самостоятельной настройки фильтра - необходима только связь с базой данных контрольных сумм и клиент этой базы данных. Качество фильтрации при этом будет напрямую зависеть от количества различных контрольных сумм, хранящихся в базе данных, оперативности её обновления и от характера спама, поступающего в конкретную почтовую систему. Эффективность фильтрации спама существующими в настоящее время системами, использующими подобные методы, доходит до 95%.

Главные проблемы методов на основе сигнатур это:

- «персонализация» спама - хоть математический аппарат метода постоянно совершенствуется, проблема обнаружения нечётких дубликатов писем ещё не решена до конца, вследствие чего качество фильтрации снижается;

- невозможность отличить легальные массовые рассылки от спамерских.

Описанный выше метод фильтрации спама используют сервисы DCC

[12], Vipul's Razor [13], Pyzor [14].

Списки блокировки

Списки блокировки (RBL - Real-time Block Lists), или «черные списки», представляют собой глобальные, коллективно обновляемые базы данных хостов, доменов или сетей, являющихся источниками спама. Принцип работы этих баз данных заключается в том, что каждый получатель сообщений электронной почты может добавить в базу данных информацию об определённом отправителе, что он является источником спама или наоборот. Другие пользователи могут воспользоваться информацией о репутации этого отправителя для принятия решения: принимать почту от него или нет.

Качество работы системы фильтрации, основанной на списках блокировки, прямо зависит от полноты, актуальности и достоверности информации, содержащейся в чёрном списке. А это, в свою очередь, прямо зависит от количества пользователей, наполняющих базу данных, от их оперативности и качества работы. На практике же использование списков блокировки эффективно только при использовании совместно с какими-либо из методов, описанных выше.

Одни из самых популярных на сегодняшний день реализаций такого подхода это сервисы SpamCop [15] и SORBS [16].

Прочие методы

Существует также ряд закрытых коммерческих методов для защиты почтовых систем от нежелательных рассылок. Одни реализованы в виде программно-аппаратных комплексов, например, Barracuda Spam & Virus Firewall [17], другие в виде онлайн-сервисов, например, SpamExperts [18]. Принцип функционирования этих решений не разглашается и является коммерческой тайной их владельцев. Главные недостатки коммерческих систем это:

- продукты, которые хорошо справляются со своей задачей и обеспечивают высокое качество фильтрации, довольно дороги и не многие организации могут себе их позволить;

- в силу закрытой архитектуры коммерческих решений невозможно гарантировать, что почта организации не предоставляется третьим лицам.

В настоящее время спам является не только технической проблемой, но и социологической. Спам - самый простой и доступный вид рекламы и распространения информации, следовательно, и самый востребованный. Если взглянуть на динамику рынка рассылок спама, то можно увидеть, что, несмотря на все предпринимаемые против рассылок меры, за последние годы он только вырос: от 200 миллионов долларов в 2008 году [19] до почти миллиарда в 2010 [20]. А это свидетельствует только о росте спроса на услуги спамеров. А раз есть спрос, будет и предложение, и, следовательно, технологии рассылок спама будут развиваться вместе с развитием методов защиты от них.

Все существующие на данный момент методы защиты от спама отстают от методов рассылки спама и развиваются «вслед» за ними. Сначала появляется новый вид или механизм рассылок, затем против него создаётся защита. Но как только эта защита внедряется повсеместно, появляются новые виды рассылок, которые с большой долей успеха обходят существующие фильтры. Достигнуть паритета в этой «гонке вооружений» возможно только разработав метод, который позволит отслеживать и анализировать динамику поведения спамеров, прогнозировать их дальнейшие действия и по результатам этого прогноза максимально быстро принимать ответные меры. Такой подход значительно повысит издержки отправителей спама на обход фильтров, и, следовательно, на услуги по рассылке спама, что сделает их неактуальными и сократит их популярность.

Первой и главной проблемой, которую предстоит решить для разработки этого метода, является определение сущности, которая в рамках метода будет рассматриваться в качестве источника спама. Иными словами эту задачу можно определить так: необходимо выбрать из всех наблюдений некоторое

подмножество, которое однозначно идентифицировало бы искомую сущность, в данном случае - источник спама. Причём эта сущность должна быть устойчивой во времени, чтобы проанализировав ряд её состояний можно было сделать прогноз будущих состояний.

Для определения подмножества наблюдений, которые могли бы идентифицировать источник спама, можно использовать совокупность существующих методов защиты от спама и имеющиеся знания о методах рассылки спама. Можно сделать следующие предположения:

1. Известно, что на данный момент большинство спама рассылается ботнетами [21]. Раз ботнет - это совокупность компьютеров, заражённых однотипным вредоносным программным обеспечением, то вполне логично будет предположить, что все машины-участники ботнета будут рассылать спам по сходному алгоритму.

2. Из предыдущего предположения можно сделать вывод, что на спаме, рассылаемом участниками одного ботнета, будут срабатывать одни и те же правила фильтрации одних и тех же методов. Например, во всех письмах, отправленных из одного ботнета, будет подделан адрес отправителя, и они не будут проходить проверку подлинности отправителя.

3. Следовательно, можно выделить устойчивые группы отправителей (хостов, персон, подсетей и т.п.), допускающих однотипные ошибки при отправке, то есть подходящие под один «шаблон» поведения.

Далее можно детально анализировать поведение и почтовый трафик выделенных таким образом сущностей с целью выявления ранее неизвестных закономерностей в их поведении и строить прогноз действий этих сущностей.

Стоит отметить, что проведение описанных выше наблюдений невозможно в рамках отдельно взятого почтового домена, так как в этом случае картина действий отправителей спама будет не полной - одной почтовой системе видна лишь малая часть того, что происходит. Необходимо наблюдение за почтовым трафиком сотен или тысяч почтовых доменов, чтобы выявить отправителей спама по описанной выше схеме.

Заключение

Проблема защиты от спама является сложной, многоаспектной и, увы, обещает быть «вечной» в размерности времени жизни современного Интернета. Это обусловлено высокой степенью неопределенности задачи и динамичностью развития Интернет-технологий и Интернет-сообщества. Неопределенность проявляется уже в самом определении спама. «Нежелательная почтовая корреспонденция»: что является критерием «нежелательности» - рекламный характер письма, его массовость, или неизвестность для его получателя автора корреспонденции? Однозначные ответы на эти вопросы дать практически невозможно. Защищаясь от спама, пользователь Интернета вынужден постоянно искать компромисс между собственной информационной открытостью и подверженностью нежелательным почтовым рассылкам. Полностью автоматизировать данный процесс вряд ли возможно, однако ряд подходов к автоматической фильтрации спама, все же, существуют. Вместе с тем, все рассмотренные в статье подходы не являются стопроцентно надежными и, как правило, снижают свою эффективность с течением времени за счет появления новых, более изощренных с точки зрения толерантности к спам-фильтрам способов рассылки массовой нежелательной корреспонденции. Перспективным направлением развития существующих методов борьбы со спамом, на наш взгляд, является их комплексное использование, направленное на «упреждающее» противодействие нежелательным рассылкам за счет предсказания поведения их источников.

Литература

1. Независимое тестирование различных антиспам решений. Режим доступа: http://habrahabr.ru/blogs/spam/56779

2. The Apache SpamAssassin Project. - Режим доступа: http://spamassassin.apache.org

3. Dspam - Community Driven Antispam Filter. - Режим доступа: http://www.nuclearelephant.com

4. Simple Mail Transfer Protocol.- Режим доступа: http://tools.ietf.org/html/rfc5321

5. CAPTCHA. - Режим доступа: http://ru.wikipedia.org/wiki/CAPTCHA

6. Sender Policy Framework. - Режим доступа: http://www.openspf.org

7. DomainKeys Identified Mail. -Режим доступа: http://www.dkim.org

8. Winnowing: Local Algorithms for Document Fingerprinting. - Режим доступа: http://theory.stanford.edu/~aiken/publications/papers/sigmod03.pdf

9. http://lexx.shinn.net/cmeclax/nilsimsa.html

10. Rabin signature algorithm. - Режим доступа: http://en.wikipedia.org/wiki/Rabin_signature_algorithm

11. Cloudmark. - Режим доступа: http://www.cloudmark.com

12. Distributed Checksum Clearinghouses. - Режим доступа: www.rhyolite.com/anti-spam/dcc/

13. Vipul's Razor. - Режим доступа: http://razor.sourceforge.net

14. Pyzor. Режим доступа: http://pyzor.sourceforge.net

15. SpamCop. -Режим доступа: http://www.spamcop.net

16. Spam and Open Relay Blocking System. - Режим доступа: http://www.sorbs.net

17. Barracuda Spam & Virus Firewall. - Режим доступа: http://www.barracudanetworks.com/ns/products/spam_overview.php

18. Spam Experts. - Режим доступа: http://www.spamexperts.com

19. Лаборатория Касперского оценила российский рынок спам-услуг в 2008 г.

- Режим доступа: http://www.itbestsellers.ru/news/detail.php?ID=14741

20. Вредоносная Россия. - Режим доступа: http://www.finmarket.ru/z/nws/hotnews.asp?id=2056281

21. Ботнеты. - Режим доступа: http://www.kaspersky.ru/reading room?chapter=207367651

Сведения об авторах Ковалев Сергей Сергеевич

аспирант. Учреждение Российской академии наук Институт информатики и математического моделирования КНЦ РАН, ведущий инженер службы программно -технического сопровождения дирекции ИТ ОАО «Апатит».

Россия, 184209, г. Апатиты Мурманской обл., ул. Ферсмана, д. 24А. e-mail: [email protected]

Sergey S. Kovalev

post-graduate. Institution of Russian Academy of Sciences, Institute for Informatics and Mathematical Modeling of Technological Processes, Kola Science Center оf RAS.

Russia, 184209, Apatity Murmansk region, Fersman St. 24А.

Шишаев Максим Геннадьевич

д.т.н., зав. лабораторией. Учреждение Российской академии наук Институт информатики и математического моделирования технологических процессов Кольского научного центра РАН.

Россия, 184209, г. Апатиты Мурманской обл., ул. Ферсмана, д. 24А. e-mail: [email protected]

Maksim G. Shishaev

Dr. of Sci (Tech.) head of Laboratory. Institution of Russian Academy of Sciences, Institute for Informatics and Mathematical Modeling of Technological Processes, Kola Science Center оf RAS. Russia, 184209, Apatity Murmansk region, Fersman St. 24А.

i Надоели баннеры? Вы всегда можете отключить рекламу.