Радиофизика
Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 4 (1), с. 101-104
УДК 621.391, 004.056
ИДЕНТИФИКАЦИЯ ТЕКСТОВОГО СПАМА МЕТОДОМ ГЕНЕТИЧЕСКИХ КАРТ
© 2012 г. С.В. Корелов, Л.Ю. Ротков
Нижегородский госуниверситет им. Н.И. Лобачевского
korsvik@rf.unn.ru
Поступила в редакцию 30.01.2012
Анализируется применимость метода генетических карт текстов для идентификации текстового спама. Исследовались генетические карты спам-текстов и легальных рассылок. По рассчитанным генетическим картам принималось решение о принадлежности письма к спаму.
Ключевые слова: информационная безопасность, спам, идентификация.
Введение
В настоящее время самым ценным и востребованным товаром является информация. Функционирование любой организации в значительной степени зависит от того, насколько эффективно и устойчиво функционирует ее информационная система (ИС), насколько надежно защищены ее информационные ресурсы от возможных внешних и внутренних угроз.
В настоящее время спектр угроз информационной безопасности значителен. Аналитической службой ООО «Код Безопасности» в 3 и 4 кварталах 2010 года были проведены опросы специалистов в области информационной безопасности 140 российских государственных и коммерческих организаций. В соответствии с составленным по результатам опросов рейтингом одной из наиболее распространенных проблем информационной безопасности является массовая рассылка рекламы или иного вида сообщений лицам, не выражавшим желания их получать. Такая угроза составляет 31% от общего числа угроз информационной безопасности [1] и называется спамом.
Средняя доля спама в почтовом трафике в 2010 году составила 82.2% [2]. В середине марта 2011 года вследствие отключения командных центров перестал рассылать спам ботнет1 Rustock. В связи с этим количество спама, рассылаемого во всем мире, уменьшилось на 15% [3]. Однако несмотря на это доля спама в мировом почтовом трафике остается достаточно высокой. Так, в мае 2011 года доля спама в среднем составила 82.9% [4].
1 Ботнет (англ. botnet от robot и network) - это компьютерная сеть, состоящая из некоторого количества хостов, с запущенными ботами - автономным программным обеспечением.
Блок контент-анализа антиспам-системы на основе метода генетических карт
В [5] антиспам-система была предложена в виде следующих основных блоков:
1. Блок анализа адреса отправителя.
2. Блок анализа содержимого.
3. Блок сигнатурного анализа.
4. Блок контент-анализа.
В указанной работе для работы блока контент-анализа был предложен метод генетических карт и проведена оценка возможности его применения для обнаружения текстового спама.
В работе предложена схема работы блока контент-анализа антиспам-системы на основе метода генетических карт [6] применительно к группам писем (рассылкам). Метод генетических карт - это алгоритм идентификации и выделения генов последовательности данных, основанный на последовательном кусочном представлении исходной последовательности данных определенным числом подпоследовательностей [6, 7].
Изменим предложенную в [5] схему работы блока контент-анализа антиспам-системы на основе метода генетических карт и представим ее в виде, показанном на рис. 1.
Ключевым моментом в работе блока контент-анализа на основе метода генетических карт является построение генетической карты, то есть создание генов текстов писем [6, 7].
Исходное текстовое письмо (источник машинного текста) должно быть преобразовано в числовой вектор у = (у0,У1,---Уи-1,Уи,---Ум-2,Ум-1), проквантованный по уровню и по времени, где М - количество символов в письме.
Выбирая в качестве состояния математической модели текстового письма вектор С)с = = У+1, Уk+2,■■■■Уk+n), а в качестве начального (при t = 0) состояния - вектор С = (У0,У1,У2,...,Уп-1), можно восстановить по квантованным экспери-
-Письмо
Образцы -сообщений-Рассылки 1
Образцы -сообщений-Рассылки 2
Образцы -сообщений -Рассылки N
Образцы - спам- -сообщений
-ГК-
Построение ГК —ГК—► Формирование цифрового образца ГК сообщений Рассылки 1
Построение ГК —ГК—► Формирование цифрового образца ГК сообщений Рассылки 2
Построение ГК —ГК—► Формирование цифрового образца ГК сообщений Рассылки N
Построение ГК —ГК—► Формирование цифрового образца ГК спам-сообщений
ГК
-сообщений-Рассылки 1
ГК
-сообщений-Рассылки 2
ГК
—сообщений -Рассылки N
ГК
- спам- -сообщений
Сравнение ГК письма и ГК рассылок и спам-сообщений
Ki,
К.2,
Kn,
Kspam
Решение
спам/нсспам
Рис. 1. Схема работы блока контент-анализа
ментальным данным ук, к = 0,1,2,.,.,т(1), фазовую траекторию (ФТ) в фазовом пространстве (ФП) дискретной динамической системы (ДДС) до её самопересечения. Тем самым определяется 1-й участок данных длиной т(1), который может быть порождён ДДС участка № 1 по начальному состоянию, расположенному в начале (или внутри) участка. Далее с (т(1) + 1)-й точки текста осуществляется аналогичная процедура
(2) о
определения длины т и границ 2-го участка. Таким образом, реализуется программно адаптивная процедура последовательной разбивки данных (текста) на участки разной длины (т(г)), порождённые генераторами участков генетических текстов [6]. В результате этой процедуры получаем генетическую карту (набор генов) текстового письма.
Важно отметить два алгоритма определения правых границ участков гена - алгоритм разбиения ФТ на участки стационарности Щ и алгоритм разбиения ФТ на участки стационарности H1 [6]. В случае алгоритма H0 правая граница участка - это предпоследняя точка до первого зацикливания ФТ, а в случае H1 - предпоследняя точка до первого выхода с возможного цикла восстанавливаемой ФТ ДДС. В работе авторами использован алгоритм определения правых границ участков гена H1.
Критерием оценки применимости данного метода для выявления спама являются вероятности ошибок пропуска спама и принятия легальных писем за спам.
Экспериментальная часть
Способ обнаружения спама, основанный на построении генетических карт текстовых писем, был реализован в виде программы. Для проведения эксперимента определим следующие значения базовых параметров алгоритма построения генетических карт текстов:
- q = 256 (соответствует количеству символов в кодировке Windows-1251);
- n = 2...20.
В эксперименте в качестве анализируемых текстов были использованы следующие четыре группы писем (три группы легальных рассылок - Legal и одна группа спам-писем - Spam):
- группа № 1: 518 писем информационной рассылки портала www.securitylab.ru, полученных за период с 28.04.2009 по 04.03.2011;
- группа № 2: 374 письма информационной рассылки сайта www.security.nnov.ru, полученных за период с 27.04.2009 по 04.03.2011;
- группа № 3: 350 писем информационной рассылки сайта www.xakep.ru, полученных за период с 28.04.2009 по 04.03.2011;
- группа № 4: 1881 спам-письмо, поступившее на действующий почтовый домен в зоне .ru за период с 14:48 до 15:54 02.03.2011.
Все письма были ранжированы в порядке временного поступления.
Для каждой группы писем были созданы базы генов и рассчитаны коэффициенты принадлежности каждого письма к каждой из групп.
База генов Gens[J) соответствующей группы представляет собой объединение множеств генов писем данной группы
Gens1'/ ) = U genst, (2)
i = 1
где s - номер группы писем; j - количество писем, содержащихся в группе s; gensi - множество генов i-го письма s-й группы.
Определим коэффициент принадлежности письма к заданной группе писем
М
K
(s)(Genssj)) - коэффициент принадлежности i-го
K(s)(Gensij))= , (3)
K(s)(Gens(-1)) = , (6)
письма ко всем 5-м группам легальных писем.
Применительно к проводимому эксперименту принадлежность /-го письма к группе спам-писем или легальных рассылок определяется условием:
(^)>;
Text е
(8)
Gi
где / - порядковый номер письма; 5 - номер
группы, на принадлежность к которой проверя-
ется /-е письмо (для проводимого эксперимента 5 Е [1,4]) ; Ог - суммарное количество генов в г-м
и)
письме; gi ’ - количество генов г-го письма, содержащихся в базе генов 5-й группы
g) = \gen5 1 ^ Оеп5^^ , (4)
g(^ О. (5)
В ходе проведения эксперимента коэффициент принадлежности -го письма к своей (априорно известной) группе рассчитывался по базе генов, созданной на основе генов г - 1 писем, то есть
(5 )
а коэффициент принадлежности к другим группам - по базе генов, созданной на основе всех писем соответствующих групп. Таким образом, в эксперименте были смоделированы условия для расчета наименьшего значения коэффициента принадлежности письма к той или иной группе (полная база генов писем чужих групп при учете генов только предыдущих по времени писем своей группы).
Решение о принадлежности письма к спаму или легальной рассылке принимается следующим образом:
ТЩ JSPam приK^Oen^^К«(Genti)), (y) [Legal в противном случае,
где KSpam (oensspOm) - коэффициент принадлежности -го письма к группе спам-писем;
Spam приK(4)(Geni4' 1))>K®(pen&i))a
л K4 (Geni4i4)) >> K(2) (Gen2)) A a K4) (Gen^4‘"1)) >> K(l) (pen$)),
Legal в противном случае.
Строгое неравенство использовано для определения нижней границы количества писем, отнесенных к спаму.
В результате проверки программой писем указанных четырех групп были получены результаты, приведенные в таблице.
По результатам анализа трех групп легальных рассылок 100% писем каждой группы были отнесены к легальным рассылкам.
Предварительный «ручной» анализ спам-писем, отнесенных к группам легальных рассылок, показал, что письма были отнесены к таковым при выполнении одного из следующих условий:
1. Кр(4) = 0 при Кр Ф 0, или Кр(2) Ф 0, или К1 Ф 0 (как правило, совпадение 1-2 генов из одной из Legal).
2. К(4 = К(3 = К,(2) = К1.
Выводы
Таким образом, блок контент-анализа, функционирующий на основе метода генетических карт, позволил выявить от 91% до 98% спам-писем, пришедших на почтовый домен.
Преимуществом использования метода генетических карт при решении задачи обнаружения спама является отсутствие ограничений на возможность его модификации и создания новых объектов, соответствующих спаму. Нет ограничений у метода также и на накопление, отслеживание, постоянное обновление и оптимизацию генетических карт спам-писем.
Таблица
Результаты анализа спам-писем группы Spam на принадлежность к спаму
Значения п 2 3 4 5 6 7 8 9 10 11
Кол-во писем, отнесенных к спаму, % 98.72 98.88 98.56 97.77 96.33 95.69 94.95 95.11 95.27 95.22
Значения п 12 13 14 15 16 17 18 19 20
Кол-во писем, отнесенных к спаму, % 94.21 94.15 94.05 93.51 93.04 92.56 92.24 91.92 91.55
Список литературы
1. «Код Безопасности» ранжировал ИБ-инциденты 3 и 4 квартала 2010 г. и проанализировал тенденции серверной виртуализации [электронный ресурс]. Режим доступа: http://www.securitycode.ru/ company/news/204/, свободный (дата обращения:
11.05.2011).
2. Гудкова Д., Наместникова М., Бондаренко Е. Kaspersky Security Bulletin 2010. Спам в 2010 году [электронный ресурс]. Режим доступа: http://www.se-curelist.com/ru/analysis/208050680/ Kaspersky_ Securi-ty_Bulletin_2010_Spam_v_2010_godu, свободный (дата обращения: 12.12.2010).
3. Наместников Ю. Развитие информационных угроз в первом квартале 2011 года [электронный ресурс]. Режим доступа: http://www.securelist.com/ru/ analysis/208050695/ Razvitie_informatsionnykh_ugroz
_v_pervom_kvartale_2011_goda, свободный (дата обращения: 11.05.2011).
4. Спам в мае 2011 года [электронный ресурс]. Режим доступа: http://www.securelist.com/ru/analysis/ 208050700/Spam_v_mae_2011_goda, свободный (дата обращения: 20.06.2011).
5. Корелов С.В., Ротков Л.Ю. Метод генетических карт в задаче идентификации спама // Информационно-измерительные и управляющие системы. 2011. № 3.
6. Кирьянов К.Г. Генетический код и тексты: динамические и информационные модели сложных систем / Ред. Л.Ю. Ротков, А.В. Якимов. Нижний Новгород: ТАЛАМ, 2002. 100 с.
7. Кирьянов К.Г. Выбор оптимальных базовых параметров источников экспериментальных данных при их идентификации // Труды III Междунар. конф. «Идентификация систем и задачи управления SICPRO’04». М.: ИПУ РАН, 2004. С. 187-208.
TEXT SPAM IDENTIFICATION BY THE GENETIC MAPPING METHOD
S. V. Korelov, L. Yu Rotkov
The applicability of the genetic mapping method to text spam identification is analyzed. Genetic maps of spam texts and legal mailings are studied. The decision whether a message belongs to spam has been made on the basis of calculated genetic maps.
Keywords: information security, spam, identification.