DOI: 10.24143/2072-9502-2018-3-38-48 УДК 004.89
М. П. Малыхина, В. А. Частикова, А. А. Биктимиров
МЕТОДИКА ОБНАРУЖЕНИЯ СПАМА НА ОСНОВЕ ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ
Задача разработки средств борьбы со спамом в настоящее время сосредоточена на создании таких методик детектирования спама, которые наделены навыками и качествами, присущими человеку, чья работа не сводится к шаблонам и потому высокоэффективна. Человек обладает способностью обнаружения признаков спама, основанной на собственных знаниях, опыте и предпочтениях. Обоснована необходимость разработки нового подхода к решению задачи обнаружения спам-сообщений, базирующегося на эвристических методах оптимизации, эффективного на начальной стадии обучения и имеющего малую частоту ложных срабатываний. Такой постановке задачи в полной мере соответствует моделирование механизмов иммунных систем живых организмов, обеспечивающих их выживание, где указанные механизмы представляются, исследуются и используются программным путем. Выделены и описаны основные предполагаемые к использованию механизмы искусственных иммунных систем, предложены идеи их применения для решения задачи детектирования спама, а также программного, системного взаимодействия. Определены основополагающие концепции построения искусственной иммунной системы для сформулированной выше цели: класс детекторов, представление рецепторов и патогенов, - а также разработана модель связей между ними. Предложена методика обнаружения спама на основе работы искусственной иммунной системы, разработан алгоритм ее реализации, описана специфика входящих в его состав операторов для выделения спам-сообщений. Создан программный комплекс, обладающий расширенными возможностями проведения исследований; проведено тестирование и анализ результатов с целью определения оптимальных значений параметров работы системы.
Ключевые слова: антиспам, аффинность, детектор, искусственная иммунная система, спам.
Введение
В современном обществе электронная почта стала незаменимым средством практически моментального обмена информацией в деловой и личной сферах. Однако при таком большом преимуществе в этом процессе есть и ряд негативных моментов, решению одного из которых и посвящена данная статья. Речь идет о спаме - массовой неперсонифицированной рассылке коммерческой, политической и иной рекламы или иного вида сообщений лицам, не выражавшим желания их получать, которая не только вызывает раздражение и недовольство получателей полезной информации, потерю их личного времени, отвлекает от выполнения служебных обязанностей, но и значительно увеличивает нагрузку на коммуникации, повышает трафик, снижает эффективность работы серверов [1-6]. Для обхода антиспам-фильтров отдельные пользователи или организации, заинтересованные в увеличении, например, рекламной рассылки, пытаются использовать любую возможность. Поэтому так актуальна потребность в разработке новых подходов, позволяющих повысить эффективность выделения нежелательной и очень часто вредоносной корреспонденции и исключить ее из потоков входящих сообщений.
Постановка задачи и предлагаемый метод ее решения
К технологиям, позволяющим получить высокоэффективные решения, превосходящие по своей результативности прочие часто используемые подходы, относятся те, которые реализованы в рамках систем искусственного интеллекта (СИИ). Человек как средство борьбы со спамом обладает способностью обнаружения его признаков, основываясь на собственном опыте и предпочтениях, знаниях о добровольных новостных и рекламных подписках, обучаемостью, его работа не сводится к шаблонам и потому высокоэффективна. Именно поэтому задача разработки средств борьбы со спамом в настоящее время сосредоточена на наделении их навыками и качествами, присущими человеку, с одной стороны, а с другой стороны - на использовании оптимизационных механизмов. Подобный вывод основан на результатах сравнительного анализа работы ряда существующих методов обнаружения спама по различным параметрам. Исследования показали, что целесообразно разработать новый, базирующийся на эвристических методах
оптимизации, подход к решению поставленной задачи обнаружения спама, который бы имел малую частоту ложных срабатываний, но к тому же обладал большой эффективностью на начальной стадии обучения. Среди разнообразных компонент СИИ, моделирующих различные процессы живой природы, одним из наиболее перспективных методов обнаружения спама является создание искусственных иммунных систем (ИИС, или Artificial Immune Systems, AIS), где программным путем представлены, исследуются и используются свойства и механизмы живых организмов, обеспечивающих их выживание. В данной постановке описанная выше задача требует обеспечения выживания в потоке электронной почты полезной информации и отсеивания нежелательной.
Биологическим прототипом ИИС является иммунная система человека, а точнее обработка информации в ней молекулами белков. Эта система представляет собой сложную адаптивную структуру, использующую комбинацию различных механизмов защиты от внешних и внутренних патогенов, в том числе любых микроорганизмов, способных вызывать патологическое состояние (болезнь) человека [7-9].
Основные современные методы борьбы со спамом можно разделить на следующие категории: методы, основанные на анализе содержимого письма; «белые» и «черные» списки; детекторы массовых рассылок; методы, основанные на верификации обратного адреса отправителя и его домена и др. В то же время следует отметить, что методы борьбы со спамом, основанные на лингвистических сигнатурах, правилах фильтрации сообщений, становятся все менее эффективными, т. к. требуют значительного увеличения трудозатрат специалистов на поддержание базы сигнатур и правил в актуальном состоянии.
Некоторые из перечисленных выше методов борьбы со спамом были введены в разработанный программный комплекс для проведения сравнительного анализа их результатов с результатами функционирования предлагаемого подхода на основе ИИС.
Эвристический подход к определению спама
Структура иммунной системы. Защитная система человека имеет иерархическую многоуровневую структуру. Первый физический барьер на пути бактерий и вирусов - это кожный покров. Второй уровень защиты - биохимический, реализуется посредством продуктов потовых, слюнных и других желез. Третий и четвертый уровни представлены врожденным и приобретенным иммунитетом [10].
Иммунитет - способность специальных клеток организма опознавать, связывать и выводить из него вещества и структуры, происходящие из клеток других организмов или потерявшие сходство с клетками собственного тела, - чужеродных агентов (патогенов). Врожденный и приобретенный иммунитет работают именно в указанной последовательности. Вначале неспецифическую реакцию на патоген осуществляет врожденная иммунная система. Если же врожденная иммунная система с патогеном не справляется, то в схватку с ним вступает приобретенная иммунная система.
В иммунном ответе организма участвуют два типа клеток - фагоциты и лимфоциты.
Фагоциты - это клетки иммунной системы, основной функцией которых является поглощение антител (а также мертвых или погибающих клеток организма). Основная роль фагоцитов -осуществление функции врожденной иммунной системы.
В наибольшей степени для использования в интеллектуальных системах (ИС) подходит приобретенный иммунитет, реализуемый предназначенными для этой цели клетками - лимфоцитами. Человек, ИС которого является биологическим прототипом ИИС, сохраняет свое здоровье до тех пор, пока уровень активности лимфоцитов, а значит и его иммунитет, достаточно высоки.
Для поддержания этой способности на желательном для организма уровне требуется также сохранение определенного уровня активности некоторых видов клеток. Поддержка же иммунитета человека на необходимом уровне, в свою очередь, достигается благодаря непрерывным воздействиям на его организм патогенов, называемых антигенами. Если человека освободить от подобных воздействий, создать ему стерильную среду обитания, его иммунитет ослабнет.
Антигены - макромолекулярные соединения с жесткой структурой (белки, пептиды, полисахариды, нуклеиновые кислоты, комплексные соединения и пр.), вызывающие иммунный ответ организма - иммунные реакции, поддерживающие активность лимфоцитов. Можно сказать, что антигены - это агенты, в ответ на появление которых в организме иммунная система образует специальные реагирующие с ними антитела.
По функциональным признакам различают несколько типов лимфоцитов, главными из которых являются В-лимфоциты, осуществляющие распознавание антигенов и выработку антител. Среди В-лимфоцитов выделяют клетки «памяти», живущие относительно долго и хранящие в себе информацию о встреченных ранее организмом чужеродных белках. Распознавание антигенов В-лейкоцитами основано на комплементарности между рецепторами этих клеток и активными участками антигена, образующими его область сцепления. Комплементарностью называют пространственную взаимодополняемость молекул или их частей, приводящую к образованию связей между ними. У антител может быть только один рецептор, в то время как антигены могут иметь их большое число. При распознавании В-лимфоцитами антигенов совпадение образа антигена в рецепторах и встреченного антигена может быть неполным.
Весьма важной характеристикой обсуждаемых процессов взаимодействия в ИИС антигена и антитела является значение функции аффинности (лат. affinitas - родственность), количественно описывающей силу взаимодействия веществ. Значение функции аффинности можно определить по закону действующих масс как отношение концентрации комплекса «антиген -антитело» к произведению концентраций компонентов.
Искусственная иммунная система. Для создания ИИС необходимо выделить ее основные компоненты и определить математическую модель их функционирования. Перед ИИС обнаружения спама стоит задача создания механизма определения принадлежности сообщения к одному из двух подмножеств: «спам» - «не спам», т. е. задача классификации.
С точки зрения решаемой задачи выделим следующие свойства ИС:
1. Распознавание своего и чужого - одна из основных задач ИС.
2. Выделение особенностей. Каждая антиген-клетка служит фильтром, фокусирующим внимание лимфоцитов-рецепторов.
3. Разнообразие. Иммунная система использует комбинаторный механизм для образования множества различных рецепторов лимфоцитов, гарантируя, что хотя бы один лимфоцит из всей совокупности сможет взаимодействовать с любым известным или неизвестным антигеном.
Обучение состоит в изменении концентрации лимфоцитов, которое происходит при первичном ответе и заложено в механизме пополнения клонов с учетом текущего состояния системы.
Память - это небольшая часть лимфоцитов, находящихся в активированном состоянии.
1. Распределенный поиск. По своей сути ИС - это распределенная система.
2. Саморегуляция. В зависимости от свойств антигена, регуляция иммунного ответа может быть как локальной, так и системной.
3. Пороговый механизм. Иммунный ответ и клонирование клеток происходит лишь после преодоления некоторого порога, зависящего от силы химических связей.
4. Совместная стимуляция. Активация В-лимфоцитов жестко регулируется при помощи дополнительного стимулирующего сигнала от хелперных Т-лимфоцитов, что помогает проводить различие между опасными и неопасными антигенами.
5. Вероятностное обнаружение. Перекрестные реакции в ходе иммунного ответа - это процесс стохастический. Лимфоцит может взаимодействовать с несколькими структурно сходными антигенами.
Наиболее известной из теорий, объясняющих механизм производства антител ИС, является клонально-селекционная теория Бернета, в соответствии с которой при распознавании В-клетками антигена они стимулируются и начинают синтезировать антитела с той же специфичностью путем клонирования. При этом число клонов, произведенных В-лимфоцитом, пропорционально уровню его стимуляции. Процесс, который вызывает клонирование только тех В-клеток, которые синтезируют нужный тип антител, называют клональным отбором. Можно сказать, что клональный отбор создает подпопуляцию В-клеток, предназначенную для борьбы с соответствующим антигеном. После подавления проникновения в организм данного антигена большая часть клонированных В-клеток разрушается. Оставшиеся клетки реализуют функцию иммунной памяти, так что последующее воздействие похожего антигена приводит к более быстрой иммунной реакции.
Данный подход лег в основу предлагаемой методики детектирования спама. Следует отметить, что в настоящее время для генерации и отбора клона разработан целый ряд алгоритмов, и это направление продолжает постоянно развиваться. Движением этого процесса, естественно, управляют те подлежащие решению прикладные задачи, где необходима оптимизация, и предпочтительно с помощью оптимизационных механизмов живой природы [10, 11]. Известны, например, алгоритмы адаптивного клонирования, предлагающие некоторые изменения
на основе анализа операторов для выбора количества мутаций и количества клонов; алгоритмы, интегрирующие локальный поиск с глобальным поиском и многие другие.
Детектирование спама на основе ИИС
Лимфоциты на своей поверхности содержат множество рецепторов, связанных с определенной частью патогена. Лимфоцит может помечать в качестве «чужого» объекта тот патоген, на который среагировал его рецептор [11, 12]. В активное состояние лимфоцит переходит после того, как определенное количество его рецепторов среагирует на патоген. После этого происходит ряд химических реакций, которые в итоге уничтожают патоген.
Используемая в работе модель обнаружения спама включает только один класс детекторов. Рецептор и патоген изначально представлены в виде строк, а химическая связь между ними смоделирована на основе соответствия этих строк. Степень соответствия двух строк может вычисляться различными методами. Одним из них является метод вычисления степени соответствия строк с применением модифицированного фонетического алгоритма Soundex. Принцип данного алгоритма основан на приведении текста к нижнему регистру, исключении пробелов, знаков препинания, гласных букв, мягкого и твердого знаков и разбиении согласных букв на группы с порядковыми номерами (табл. 1).
Таблица 1
Соответствие букв и цифр-замены
Буквы Цифра-замена
Б, П 1
В, Ф 2
Г, К 3
Д, т 4
З, С 5
Ж, Ш, Щ 6
Х, Ц, Ч 7
Л, М, Н 8
Р, Й 9
Для определения степени соответствия двух строк целесообразно применить коэффициент Танимото:
к =
c
a + b -c’
где к - коэффициент Танимото от 0 до 1; а, b - количество элементов в первом и во втором множествах; c - количество общих элементов в двух подмножествах.
Основная цель эволюционных методов оптимизации вообще и генетических алгоритмов (ГА) в частности состоит в определении лучших представителей своей популяции, наиболее приспособленных к текущим условиям, и передаче генов будущим поколениям [13, 14].
Для интеллектуальной системы детектирования спама определен ряд следующих операторов: формирование начальной популяции и обучение лимфоцитов, оператор мутации (ОМ), оператор рекомбинации или кроссовера (ОК), оператор репродукции (ОР), - которые играют важную роль в работе ИИС. Такая система при своем запуске нуждается в предварительном обучении.
Иммунологическое обучение клеток. Рассмотрим механизм обучения с точки зрения ИИС. В начале работы моделируется детектор, который будет реагировать на спам: определяется длина строки детектора и происходит ее генерация случайным образом на основе генератора псевдослучайных чисел. На этом этапе обучения детекторы реагируют и на «спам», и на «не спам». Активированные детекторы на этой стадии процесса обучения программа уничтожает.
Для начального обучения детекторов в ИИС задается период обучения T. Во время иммунологического обучения детекторы должны взаимодействовать с «легальной» корреспонденцией. После завершения периода обучения в случае активации детектора ИИС получит сигнал о том, что была распознана чужеродная клетка - спам.
Специфические особенности операторов ИИС. В повышении точности детектирования нежелательной корреспонденции незаменимую роль играет ОМ. Мутация - стойкое изменение ге-
нотипа, происходящее под влиянием внешней или внутренней среды. Оператор мутации, включая в процесс поиска хромосомы с новыми свойствами, способствует расширению области поиска, позволяя системе выйти за пределы локального экстремума. Считается, что ОМ реализует «бесполое» размножение и является основным поисковым оператором эволюционных алгоритмов.
Для осуществления мутации строк могут быть применены различные виды ОМ. Простейшим ОМ является одноточечный. При его реализации случайно выбирают ген в родительской хромосоме и, обменивая его на рядом расположенный ген, получают хромосому потомка. При использовании двухточечного ОМ случайным образом выбираются две точки разреза с последующей перестановкой генов. Пример такой мутации приведен в табл. 2.
Таблица 2
Пример использования двухточечного оператора мутации
До мутации A B C D E F
После мутации A E C D B F
В многоточечном ОМ происходит последовательный обмен генов, расположенных правее точек разреза друг с другом в порядке их расположения. Ген, расположенный правее последней точки разреза, переходит на место первого.
Репродукция (селекция) - это процесс, посредством которого хромосомы, имеющие более высокое значение целевой функции, получают большую возможность для воспроизводства потомков, чем «худшие» хромосомы; элементы, выбранные для репродукции, обмениваются генетическим материалом. Различают несколько видов ОР.
Наиболее простой и широко используемый метод селекции - это селекция на основе рулетки, или метод пропорционального отбора (рис. 1).
Рис. 1. Колесо рулетки
При его реализации вероятность того, что данный детектор попадет в итоговую выборку, определяется по формуле
P = f (i)
“Z f (i У
где fi) - значение функции аффинности для данного детектора; ХЛО - сумма значений функций аффинности для всех детекторов.
Число копий детектора, переходящее в следующее поколение, можно определить так:
Ni=f(x)/f (x),
где f (x) - среднее значение целевой функции анализируемого детектора.
Таким образом, лучшие детекторы дают большее число копий, средние просто остаются, а плохие вымирают.
При элитной селекции в итоговую выборку попадают образцы с наибольшим значением функции аффинности.
Турнирная селекция также отбирает образцы с наибольшей функцией аффинности, но уже из некоторой случайной выборки. Под функцией аффинности будем понимать отношение вида
K =
R (-)
Z R (i) ’
где R(i) - количество различных символов в соответствующих позициях детектора и патогена; ^R(i) - количество символов у патогена.
Оператору кроссовера в ИИС, так же как и в ГА, отводится весьма важная роль. Работоспособность подобных алгоритмов существенно зависит от выбора типа ОК, где комбинируются элементы родительских решений при построении решений-потомков. Задача оптимальной рекомбинации состоит в поиске наилучшего возможного результата ОК при заданных двух родительских решениях. Оператор кроссовера способствует образованию из уже имеющегося генетического материала новых свойств у потомков. Существует ряд модификаций оператора: двухточечный ОК (ДОК), многоточечный ОК (МОК), равномерный ОК (РОК) и др. Многие исследователи предлагают использовать случайный выбор возможных вариантов реализации ОК для конкретной прикладной задачи, в результате чего улучшить показатели среднего ожидаемого результата (рис. 2).
Рис. 2. Случайный выбор оператора кроссовера
Функционирование детектора после обучения. Последовательность действий на данном и последующих этапах функционирования ИИС сводится к следующему.
Подается возможное спам-сообщение. В том случае, если пороговое значение детектора превышено не было, сообщение определяется как «не спам». Иначе, при превышении порогового значения, сообщение помечается как «спам» и детектор начинает создавать клоны, цикл жизни которых закончится, если те не попадут в выборку детекторов с максимальной функцией аффинности.
Попавшие в выборку детекторы заносятся в базу данных ИИС, которую можно рассматривать в качестве базы прецедентов.
Как было показано выше, ИИС, прошедшая обучение, должна обеспечивать выполнение следующих функций:
- формирование выборки детекторов для применения оператора кроссовера;
- получение новой выборки детекторов для применения оператора мутации;
- поддержание постоянной численности популяции детекторов путем уничтожения детекторов с низким показателем функции аффинности;
- занесение эффективных детекторов в память.
Для реализации и исследования разработанной методики детектирования спама был создан программный комплекс [15, 16], обладающий расширенными возможностями, в их числе:
- работа с базой данных «черных» и «белых» списков;
- подключение к почтовому ящику с использованием логина и пароля;
- возможность подключения различных модулей оптимизации;
- получение и отправка сообщений.
Определение оптимальных параметров системы детектирования спама
Метод репродукции. На рис. 3 представлена зависимость точности определения спама от количества используемых детекторов и выбранного метода репродукции.
W>0W>0W>0W>0W>0 -н -н ГЧ ГЧ "-t "-t in
----На основе рулетки
----Элитная
----Турнирная
Количество используемых детекторов
Рис. 3. Определение спама с использованием различных методов репродукции: на основе рулетки, элитной селекции, турнирной селекции
Коэффициент соответствия детектора и патогена. При увеличении значения коэффициента соответствия строки детектора строке патогена увеличивается и процент неложных срабатываний, но, в свою очередь, уменьшается точность распознавания спама. В результате поиска точки пересечения двух графиков установлено, что оптимальное значение коэффициента соответствия строки детектора строке патогена составляет 0,723.
Количество символов строки детектора. В результате использования готового списка стоп-слов сайта antispamsniper.com было выяснено, что средняя длина слов и фраз, содержащихся в нежелательной корреспонденции, составляет порядка 8-12 символов. Так как детекторы в памяти системы содержатся в приведенном программном виде, то в результате преобразования готового списка стоп-слов сайта antispamsniper.com с использованием модифицированного алгоритма Soundex была определена эффективная длина детектора, равная 6 символам.
Функционирование искусственной эволюционной системы при использовании оптимальных параметров. Таким образом, оптимальными значениями параметров функционирования эволюционной системы на базе механизмов ИИС для обнаружения спама являются:
- коэффициент соответствия строки детектора строке патогена 0,723;
- мутация строки детектора на основе одноточечного оператора;
- репродукция на основе использования рулетки;
- количество символов в детекторе 6.
Процент ложных срабатываний при использовании выбранных параметров представлен на рис. 4.
lOOlOOlOOlOOlOO
чЧчЧгмгмгот^^ьл
— Ложные
срабатывания
Количество используемых детекторов
Рис. 4. Процент ложных срабатываний
Подводя итоги проведенных экспериментов, можно сделать вывод, что с целью построения интеллектуальной системы, где в качестве базиса рассматривается ИИС, могут быть использованы и другие адаптированные к решаемой задаче механизмы и операторы эволюционных интеллектуальных подходов. Особенно интересны в этом плане обоснованные модификации таких механизмов, которые точнее и полнее учитывают специфику решаемой проблемы, а следовательно, создают условия для повышения эффективности построенной системы.
Заключение
В данной публикации изложен новый подход к решению задачи детектирования спама в рамках создания методики, интегрирующей в себе функции искусственной иммунной системы, биологическим прототипом которой является иммунная система человека, а точнее обработка информации в ней молекулами белков, и эвристических методов оптимизации, эффективных на начальной стадии обучения ИИС и имеющих малую частоту ложных срабатываний.
Для реализации и исследования разработанной методики детектирования спама был создан программный комплекс, на основе которого проведен ряд экспериментов, позволивших оценить работоспособность данной методики и определить оптимальные значения базовых параметров полученной комбинированной интеллектуальной системы.
СПИСОК ЛИТЕРА ТУРЫ
1. Астахов А. Как победить спамеров и умерить пыл «Борцов со спамом»? // Защита информации. Инсайд. 2010. № 1 (31). С. 71-73.
2. НаместниковаМ. Экономическое спам-зеркало // Защита информации. Инсайд. 2010. № 1 (31). С. 12-14.
3. Полудина В. П. Информационный шум в интернете как проблема потребления коммуникации // Журнал социологии и социальной антропологии. 2011. Т. XIV. № 5. С. 386-394.
4. Мироненко А. Н. Метод распознавания спам-сообщений на основе анализа заголовка письма // Математические структуры и моделирование. 2010. № 1. С. 133-140.
5. Abu-Nimeh S., Chen T. M. Proliferation and detection of blog spam // IEEE Security and Privacy. 2010. Vol. 8. No. 5. С. 42-47.
6. Adamov A. Internet Technologies in Depth. The Technique of Spam Recognition Based on Header Investigating // 5th International Conference on Application of Information and Communication Technologies (Azerbaijan, Baku, 12-14 Oktober 2011). URL: www.adamov.net.ru (дата обращения: 21.01.18).
7. Искусственные иммунные системы и их применение: сб. ст. / под ред. Д. Дасгупты. М.: Физматлит, 2016. 344 с.
8. Частикова В. А., Березов М. Ю. Методика обнаружения полиморфных вирусов на основе искусственных иммунных систем и генетических алгоритмов // Политемат. сетевой электрон. науч. журн. Кубан. гос. аграр. ун-та. 2016. № 124. С. 744-755.
9. Коромыслов Н. А. О применении искусственных иммунных систем для обнаружения инцидентов информационной безопасности в системах со многими параметрами // Решетневские чтения. 2013. Т. 2. № 17. С. 299-301.
10. Карпенко А. П. Современные алгоритмы поисковой оптимизации. Алгоритмы, вдохновленные природой: учеб. пособ. М.: Изд-во МГТУ им. Баумана, 2014. 448 с.
11. Частикова В. А. Идентификация механизмов реализации операторов генетического алгоритма в экспертных системах продукционного типа // Политемат. сетевой электрон. науч. журн. Кубан. гос. аграр. ун-та. 2012. № 75. С. 308-320.
12. Емельянов В. В., Курейчик В. В., Курейчик В. М. Теория и практика эволюционного моделирования. М.: Физматлит, 2013. 432 с.
13. Белов Д. Л., Антипова О. Ю., Частикова В. А. Методы решения задач с конфликтными ситуациями в системах принятия решений // Тр. Кубан. гос. технолог. ун-та. 2000. Т. 7. № 1. С. 153-159.
14. Малыхина М. П., Частикова В. А., Власов К. А. Исследование эффективности работы модифицированного генетического алгоритма в задачах комбинаторики // Современные проблемы науки и образования. 2013. № 3. С. 32.
15. Малыхина М. П., Частикова В. А. Программирование на языке высокого уровня C#: учеб. пособ. Краснодар: Изд-во КубГТУ, 2011. 250 с.
16. Частикова В. А., Берёзов М. Ю. Определение оптимальных параметров функционирования искусственной иммунной системы для решения задачи обнаружения полиморфных вирусов // Политемат. сетевой электрон. науч. журн. Кубан. гос. аграр. ун-та. 2017. № 128. С. 430-440.
Статья поступила в редакцию 22.03.2018
ИНФОРМАЦИЯ ОБ АВТОРАХ
Малыхина Мария Петровна — Россия, 350072, Краснодар; Кубанский государственный технологический университет; канд. техн. наук, профессор; профессор кафедры информационных систем и программирования; malpema@mail.ru.
Частикова Вера Аркадьевна — Россия, 350072, Краснодар; Кубанский государственный технологический университет; канд. техн. наук, доцент; доцент кафедры компьютерных технологий и информационной безопасности; chastikova_va@mail.ru.
Биктимиров Александр Александрович — Россия, 350072, Краснодар; Кубанский государственный технологический университет; студент, специальность «Информационная безопасность автоматизированных систем»; alexbik@mail.ru.
M. P. Malykhina, V. A. Chastikova, A. A. Biktimirov
METHOD OF SPAM DETECTION BASED ON ARTIFICIAL IMMUNE SYSTEMS
Abstract. The task of developing tools to combat spam is currently focused on creating such techniques for detecting spam, which are endowed with the skills and qualities inherent in a person whose work is not limited to patterns and therefore highly effective. Man has the ability to detect spam signs, which is based on his own knowledge, experience and preferences. There has been substantiated the need to develop a new approach to solving the problem of detecting spam mes-
sages, which is based on heuristic methods of optimization, is effective at the initial stage of training and has a low frequency of false operations. This formulation of the problem fully corresponds to modeling mechanisms of the immune systems of living organisms that ensure their survival, these mechanisms being represented, investigated and used by software. There have been identified and described main mechanisms of artificial immune systems intended for solving the problem of spam detection, as well as software and system interacting. The basic concepts of constructing an artificial immune system for the purpose formulated above are determined: class of detectors, presentation of receptors and pathogens. A model of the relationships between them has been worked out. A technique for detecting spam based on the work of an artificial immune system is proposed, an algorithm for its implementation is developed, and the specifics of its members to identify spam messages are described. A software package with advanced research capabilities has been created. Testing and analysis of the results to determine the optimum values of the system operation parameters have been conducted.
Key words: antispam, affinity, detector, artificial immune system, spam.
REFERENCES
1. Astakhov A. Kak pobedit' spamerov i umerit' pyl «Bortsov so spamom»? [How to beat spammers and to restrain spam fighters’ ardour?]. Zashchita informatsii. Insaid, 2010, no. 1 (31), pp. 71-73.
2. Namestnikova M. Ekonomicheskoe spam-zerkalo [Economic spam-mirror]. Zashchita informatsii. Insaid, 2010, no. 1 (31), pp. 12-14.
3. Poludina V. P. Informatsionnyi shum v internete kak problema potrebleniia kommunikatsii [Information noise in the Internet as a problem of data consumption]. Zhurnal sotsiologii i sotsial’noi antropologii, 2011, vol. XIV, no. 5, pp. 386-394.
4. Mironenko A. N. Metod raspoznavaniia spam-soobshchenii na osnove analiza zagolovka pis'ma [Method of detecting spam-messages by analyzing the headings]. Matematicheskie struktury i modelirovanie, 2010, no. 1, pp. 133-140.
5. Abu-Nimeh S., Chen T. M. Proliferation and detection of blog spam. IEEE Security and Privacy, 2010, vol. 8, no. 5, pp. 42-47.
6. Adamov A. Internet technologies in depth. The technique of spam recognition based on header investigating. 5th International Conference on Application of Information and Communication Technologies (Azerbaijan, Baku, 12-14 Oktober 2011). Available at: www.adamov.net.ru (accessed: 21.01.18).
7. Iskusstvennye immunnye sistemy i ikh primenenie: sbornik statei [Artificial immune systems and their application: collection of articles]. Pod redaktsiei D. Dasgupty Moscow, Fizmatlit Publ., 2016. 344 p.
8. Chastikova V. A., Berezov M. Iu. Metodika obnaruzheniia polimorfnykh virusov na osnove is-kusstvennykh immunnykh sistem i geneticheskikh algoritmov [Technics of detecting polymorphic viruses based on artificial immune systems and genetic algorithms]. Politematicheskii setevoi elektronnyi nauchnyi zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta, 2016, no. 124, pp. 744-755.
9. Koromyslov N. A. O primenenii iskusstvennykh immunnykh sistem dlia obnaruzheniia intsidentov in-formatsionnoi bezopasnosti v sistemakh so mnogimi parametrami [On using artificial immune systems to detect information security incidents in systems with multiple parameters]. Reshetnevskie chteniia, 2013, vol. 2, no. 17, pp. 299-301.
10. Karpenko A. P. Sovremennye algoritmy poiskovoi optimizatsii. Algoritmy, vdokhnovlennye prirodoi: uchebnoe posobie [Modern algorithms of search optimization. Algorithms energized by nature: teaching aid]. Moscow, Izd-vo MGTU im. Baumana, 2014. 448 p.
11. Chastikova V. A. Identifikatsiia mekhanizmov realizatsii operatorov geneticheskogo algoritma v ek-spertnykh sistemakh produktsionnogo tipa [Identification of mechanisms of realization of genetic algorithm operators in expert systems of production type]. Politematicheskii setevoi elektronnyi nauchnyi zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta, 2012, no. 75, pp. 308-320.
12. Emel'ianov V. V., Kureichik V. V., Kureichik V. M. Teoriia ipraktika evoliutsionnogo modelirovaniia [Theory and practice of evolutionary modelling]. Moscow, Fizmatlit Publ., 2013. 432 p.
13. Belov D. L., Antipova O. Iu., Chastikova V. A. Metody resheniia zadach s konfliktnymi situatsiiami v sistemakh priniatiia reshenii [Methods of solving problems with conflict situations in decision-making systems]. Trudy Kubanskogo gosudarstvennogo tekhnologicheskogo universiteta, 2000, vol. 7, no. 1, pp. 153-159.
14. Malykhina M. P., Chastikova V. A., Vlasov K. A. Issledovanie effektivnosti raboty modifitsirovannogo geneticheskogo algoritma v zadachakh kombinatoriki [Research of the efficiency of the modified genetic algorithm in problems of combinatorics]. Sovremennye problemy nauki i obrazovaniia, 2013, no. 3, pp. 32.
15. Malykhina M. P., Chastikova V. A. Programmirovanie na iazyke vysokogo urovnia C#: uchebnoe posobie [Programming using high-level language C#: teaching guide]. Krasnodar, Izd-vo KubGTU, 2011. 250 p.
16. Chastikova V. A., Berezov M. Iu. Opredelenie optimal'nykh parametrov funktsionirovaniia iskusstven-noi immunnoi sistemy dlia resheniia zadachi obnaruzheniia polimorfnykh virusov [Determining optimal parameters of functioning artificial immune system for solving problems of detecting polymorphic viruses]. Poli-tematicheskii setevoi elektronnyi nauchnyi zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta, 2017, no. 128, pp. 430-440.
The article submitted to the editors 22.03.2018
INFORMATION ABOUT THE AUTHORS
Malykhina Marla Petrovna — Russia, 350072, Krasnodar; Kuban State Technological University; Candidate of Technical Sciences, Professor; Professor of the Department of Information Systems and Programming; malpema@mail.ru.
Chastikova Vera Arkadyevna — Russia, 350072, Krasnodar; Kuban State Technological University; Candidate of Technical Sciences, Assistant Professor; Assistant Professor of the Department of Computer Technologies and Information Security; chastikova_va@mail.ru.
Biktimirov Alexandr Aleksandrovich — Russia, 350072, Krasnodar; Kuban State T echnological University; Student, specialty "Information Security of Automated Systems"; alexbik@mail.ru.