Научная статья на тему 'О применении искусственных иммунных систем в задаче обнаружения нежелательной электронной корреспонденции'

О применении искусственных иммунных систем в задаче обнаружения нежелательной электронной корреспонденции Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
56
14
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хеирхабаров Т.С., Жуков В.Г.

Рассматривается применение модели искусственной иммунной системы для фильтрации нежелательной электронной корреспонденции. Приводится описание основных механизмов, заложенных в данной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE APPLICATION OF Artificial IMMUNE Systems FOR SOLVING SPAM DETECTION PROBLEM .

The application of artificial immune system for unsolicited E-mail filtering is discussed. The description of the main procedures included into the system is carried out.

Текст научной работы на тему «О применении искусственных иммунных систем в задаче обнаружения нежелательной электронной корреспонденции»

Методы и средства защиты информации

УДК 004.056

Т. С. Хеирхабаров, В. Г. Жуков

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

О ПРИМЕНЕНИИ ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ В ЗАДАЧЕ ОБНАРУЖЕНИЯ НЕЖЕЛАТЕЛЬНОЙ ЭЛЕКТРОННОЙ КОРРЕСПОНДЕНЦИИ

Рассматривается применение модели искусственной иммунной системы для фильтрации нежелательной электронной корреспонденции. Приводится описание основных механизмов, заложенных в данной модели.

Иммунная система предоставляет организму человека очень эффективные механизмы защиты, позволяющие отличать свои клетки от чужеродных. Это свойство иммунных систем привело к созданию ее искусственной модели для решения различных прикладных задач [1]. Одной из таких задач может быть обнаружение нежелательной электронной корреспонденции. Прежде чем приступить к описанию данной системы, вкратце рассмотрим, каким образом функционирует иммунная система человека.

Главным принципом действия человеческой иммунной системы является сравнение определенных «шаблонов» с находящимися внутри организма телами и выявление таким способом инородных тел, называемых антигенами. Роль упомянутых шаблонов выполняют лимфоциты, постоянно генерируемые спинным мозгом и тимусом с учетом информации, содержащейся в ДНК (такая информация все время накапливается, и процесс этот называется эволюцией генной библиотеки). Каждый тип лимфоцита отвечает за обнаружение какого-то ограниченного числа антигенов. Лимфоциты способны обнаруживать только ту информацию, которая внутри организма отсутствует, и если какое-то тело подходит под данный шаблон, значит, оно явно чужое. В случае обнаружения лимфоцитами антигена на основании соответствующего шаблона вырабатываются антитела, которые и уничтожают его.

В модели искусственной иммунной системы для обнаружения нежелательной электронной корреспонденции в качестве антигенов выступают входящие электронные письма. Цифровые лимфоциты образуются путем случайной рекомбинации элементов генной библиотеки, представляющих собой шаблоны, описанные специальным мета языком. Шаблон содержит некоторую информацию, характерную для нежелательной электронной корреспонденции. Можно использовать несколько генных библиотек, содержащих разные типы шаблонов, например, отдельно для русского и английского языка. Каждый цифровой лимфоцит помимо комбинации элементов генной библиотеки содержит два числовых показате-ля(msg_count, spam_detected). Данные счетчики инициализируются в процессе первоначального обучения системы. На этапе обучения подготавливается набор писем. Для каждого письма из этого набора заранее известно, к какой категории оно принадлежит: легитимная почта или нежелательная. Далее каждое из этих писем вводится в систему. Для всех лимфоцитов,

которые соответствовали письму, показатель msg_count увеличивается на 1. В случае же, если письмо является нежелательным, также увеличивается показатель spam_detected.

В процессе нормального функционирования системы при поступлении нового письма оно анализируется всеми лимфоцитами. Если лимфоцит соответствует письму, то его показатель msg_count увеличивается на 1, и этот лимфоцит заносится в специальный список, который назовет matched_list. Далее посчитаем величины Dum_msg_count и Dum_spam_detected, представляющие собой сумму показателей msg_count и spam_detected лимфоцитов из списка matched_list. Данные суммы используются для расчета взвешенной оценки, показывающей вероятность того, что письмо является нежелательным. Эта оценка сравнивается с заданной пользователем границей. Если оценка меньше этой величины, то письмо считается легитимным, если же больше - нежелательным. От выбора границы во многом зависит эффективность работы системы, поэтому оптимальное значение данного параметра может быть подобрано автоматически с использованием генетических алгоритмов или нейронной сети. Если письмо было классифицировано как нежелательное, то показатель spam_detected у всех лимфоцитов из списка matched_list увеличивается на 1.

Также присутствует механизм выработки новых и уничтожения неиспользуемых лимфоцитов. Лимфоциты, которые долгое время не участвовали в обнаружении нежелательной почты, уничтожаются и заменяются новыми. Для эффективности работы системы должна присутствовать возможность изменения и пополнения генной библиотеки. Предполагается, что весьма эффективным методом построения генной библиотеки будет использование базы данных обученного байесовского фильтра, применяемого для фильтрации нежелательной электронной почты.

Прежде чем письмо поступит на вход иммунной системы, оно должно пройти предварительную обработку. Обработка состоит из нескольких этапов:

1. Целью данного этапа является перевод содержимого письма в текстовую форму, если оно изначально не является таковым. Определяется тип содержимого в теле письма. Если это html, то необходимо удалить все html теги. Если же картинка, то необходимо подключить механизм распознавания текста.

2. На данном этапе из полученного текста удаляются так называемые стоп-слова. К таким словам относятся предлоги, союзы, частицы, а также другие

Решетневск.ие чтения

слова, не несущие никакой смысловой нагрузки. Также удаляются знаки препинания.

3. Одним из методов обхода фильтров, применяемых рассылщиками нежелательной электронной корреспонденции - замена букв в словах похожими по начертанию символами. Так, например, русская буква «о» может быть заменена латинской «о» или нулем. Также слова заведомо могу писаться с грамматическими ошибками. На данном этапе необходимо исправить как можно больше таких замен и ошибок.

4. На последнем этапе предварительной обработки каждое слово в тексте приводится к своей словообразовательной единице. Например, прилагательное «рекламный» будет приведено к существительному «реклама». Данная операция позволяет значительно сократить количество детекторов, так как для всей

группы однокоренных слов будет всего один детектор, а не на каждую форму слова отдельный детектор.

На основании предложенной идеи разрабатывается программное средство для автоматического обнаружения нежелательной электронной корреспонденции. Целью разработки программы является проверка эффективности обнаружения нежелательной электронной корреспонденции, а также сравнение данного метода с распространенными механизмами фильтрации.

Библиографическая ссылка

1. Искусственные иммунные системы и их применение / под ред. Д. Дасгупты ; пер. с англ. под ред. А. А. Романюхи. М. : Физматлит, 2006.

T. S. Heirkhabarov, V. G. Ghukov Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

THE APPLICATION OF ARTIFICIAL IMMUNE SYSTEMS FOR SOLVING SPAM DETECTION PROBLEM.

The application of artificial immune system for unsolicited E-mail filtering is discussed. The description of the main procedures included into the system is carried out.

© Хеирхабаров Т. С., Жуков В. Г., 2010

УДК 004.056

А. С. Хохоля, В. В. Золотарев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

АНАЛИЗ ЭФФЕКТИВНОСТИ СРЕДСТВ ЗАЩИТЫ ИНФОРМАЦИИ МЕТОДОМ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

Рассмотрены наиболее важные моменты, необходимые для реализации проекта. Поставлены цель и задачи работы, сформулированы проблемы, актуальность и область применения результатов работы.

В настоящее время многие информационные системы развиваются стихийно по мере роста потребностей организации, что приводит к неэффективному использованию системы, появлению уязвимых мест и, как следствие, экономическим потерям и не рациональному использованию средств.

Целью работы является разработка методики и алгоритмов построения математических моделей информационных систем и анализа их. Это позволит повысить эффективность работы информационной системы; обнаружить уязвимые места в информационной системе; устранить уязвимости в информационной системе; повысить эффективность расходования средств.

В ходе выполнения работы необходимо выполнить следующие задачи:

1) выбрать факторы, воздействующие на информационную систему, и свойства, показывающие состояние информационной системы;

2) собрать информацию и сделать анализ структур систем;

3) выявить скрытые закономерности в моделях;

4) прогнозировать состояние информационной системы, основываясь на поведении модели системы.

Результаты данной работы найдут широкое применение при анализе существующих информационных систем. С помощью данной методики можно будет оценить эффективность и уязвимость информационной системы по различным факторам, в том числе не рассмотренным в работе.

Для объективной оценки информационной системы необходимо задать факторы, влияющие на систему, с помощью которых можно оценить ее состояние. Факторы делятся на количественные и качественные [1]. Также критично правильно описать интересующие для изучения свойства системы, такие как, например, время работы отдельных элементов или экономические затраты.

i Надоели баннеры? Вы всегда можете отключить рекламу.