УДК 004.891.3
А. С. Катасёв, Д. В. Катасёва, А. П. Кирпичников, Я. Е. Семёнов
СПАМ-ФИЛЬТРАЦИЯ ЭЛЕКТРОННЫХ ПОЧТОВЫХ СООБЩЕНИЙ НА ОСНОВЕ НЕЙРОСЕТЕВОЙ И НЕЙРОНЕЧЕТКОЙ МОДЕЛЕЙ
Ключевые слова: нейронная сеть, нейронечеткая модель, спам-фильтрация, информационная безопасность.
Данная работа посвящена анализу технологий спам-фильтрации электронных почтовых сообщений на основе нейросетевой и нейронечеткой моделей. Модели спам-фильтрации реализованы на основе значений числовых параметров, полученных из пользовательской электронной почты. Предлагается структура моделей, производится обучение нейронной и нечеткой нейронной сетей, а также производится экспериментальное исследование посредством Бутстрэп-оценок.
Keywords: neural network, neural fuzzy model, spam-filtering, information security.
This work is devoted to the analysis of technologies spam filtering electronic mail messages based on neural network and neural fuzzy models. Model spam filtering are implemented on the basis of the numerical values of the parameters obtained from the user's email. The structure of the models, the training of the neural and fuzzy neural networks, and experimental study is performed by means of a Bootstrap-estimates.
В настоящее время в повседневную жизнь человека все больше внедряются электронные сервисы и технологии, такие как электронная почта. Этот телекоммуникационный инструмент удобен в использовании, однако, порождает дополнительные угрозы безопасности и стабильной работы компьютерных систем, связанные с различными внешними воздействиями, такими как спам, вирусы и др. Эти нежелательные воздействия могут привести к нарушению работоспособности как всей системы обработки информации, так и отдельных ее компонент, что, в любом случае, отразится на производительности труда конечных пользователей [3].
Известно, что по стоимость рассылки одного спамового сообщения чрезвычайно мала, что позволяет недобросовестным пользователям осуществлять массовую не персонифицированную рассылку сообщений - спам. Очевидно, что в больших количествах спам вреден получателям. Во-первых, он может привести к угрозам информационной безопасности, а, во-вторых, спам однозначно приводит к уменьшению работоспособности пользователей.
Как правило, спамовые почтовые сообщений приводят к нарушению доступности других информационных ресурсов, которые требуются пользователям. Кроме того, спам может стать причиной нарушения целостности информации или ее полной утраты. Следовательно, в сфере информационной безопасности задача эффективной защиты от спама является своевременной и актуальной.
По своему содержанию спам отличается от обычных электронных почтовых сообщений. Поэтому для борьбы с ним выполняют его фильтрацию из входящего почтового потока [3]. Данную задачу можно свести к задаче классификации на две категории: обычное и спамовое электронное сообщение.
Поскольку электронные почтовые сообщения представляют собой набор данных, то эффективное решение задачи спам-фильтрации можно найти в рамках использования адаптивных самообучающихся систем искусственного интеллекта [9,14], например, нейросетевых и нейронечетких моделей [1,2,5].
Для этого каждое электронного почтовое сообщение, как спам, так и не спам, необходимо закодировать набором признаков, по значению которых можно решать задачу классификации [4,6,11].
Основным достоинством использования нейронной и нечеткой нейронной сетей для решения поставленной задачи заключается в их способности на основе обучения приобретать обобщающую способность [7,13,15]. Данная способность заключается в возможности распознавать не только те электронные почтовые сообщения, на которых проводилось обучение, но и эффективно решать поставленную задачу для новых писем [8].
Для построения эффективных моделей спам-фильтрации на основе нечеткой и нейронечеткой моделей следует решить следующие задачи [18]:
1) получить исходные данные электронных писем (как спам, так и не спам);
2) предобработать данные и сформировать обучающую выборку для построения моделей;
3) разработать структуру нейронной и нечеткой нейронной сетей: задать входы, выходы, число слоев сети и нейронов в каждом слое;
4) обучить нейронную и нечеткую нейронную сети для построения моделей спам-фильтрации;
5) произвести тестирование и оценку эффективности построенных моделей фильтрации электронных почтовых сообщений.
Исходные электронные письма представляют собой текстовые документы, из которых требуется получить набор признаков, однозначно характеризующих каждый документ, и позволяющих решать задачу их классификации.
В работах [7,10,12] предлагается использовать следующие информативные признаки электронных писем, однозначно позволяющих выделять категории «спам» и «не спам»:
- относительная частота появления в тексте сообщения слов верхнего регистра:
Р1 = 1 N.
где п - число слов верхнего регистра, N - объем слов в текстовом сообщении;
- относительная частота появления цифр в тексте сообщения:
п2
P2 =
N2
где п2 - число цифр, N2 - объем символов в текстовом сообщении;
- число различных цветов, используемых в тексте электронного почтового сообщения:
Р = N •
- объем текстового сообщения:
Р=^
4 1024'
- число пустых строк в сообщении:
Р = N
4 •
На основании используемых параметров требуется создание набора исходных данных, на основе которых возможно обучение нейронной и нечеткой нейронной сетей для решения поставленной задачи.
В таблице 1 представлен фрагмент сформированной выборки данных, характеризующих спамо-вые и обычные электронные сообщения.
Таблица 1 - Фрагмент таблицы исходных данных
Pl P2 P3 P4 P5 Type
0 0,057 2 152 2 0
0 0,1 1 41 2 0
0,1 0,1 1 723 2 0
0 0 1 247 3 0
0,04 0,01 1 48 3 0
0 0,01 1 923 5 0
0,03 0,01 1 11 6 0
0 0,033 2 196 6 0
0 0 2 1 0 1
0,4 0 1 2 0 1
0 0 3 2 0 1
0 0 2 2 0 1
0,04 0 2 2 0 1
0,14 0 2 2 0 1
0,25 0 2 2 0 1
0,07 0 2 2 0 1
Первый столбец в таблице содержит значения относительной частоты появления в электронных сообщениях слов верхнего регистра, второй столбец - частоту появления цифр, третий - число разных цветов в тексте электронного сообщениия, четвертый - размер сообщения, пятый - число пустых строк в исходном сообщении. Выходной столбец в таблице определяет тип электронного почтового сообщения. При этом, условно, «1» характеризует спамовое письмо, «0» - обычное письмо.
Все этапы построения нейросетевой модели классификации электронных почтовых сообщений проводились на базе аналитической платформы Deductor Studio 5.3 [17]. В качестве инструмента анализа использован мастер обработки «Нейросеть», позволяющий загружать данные для обучения, выбирать входные и выходные параметры, определять параметры обучения, производить обучение ней-
ронной сети, а также отображать полученные результаты в графическом и табличном виде.
На рисунке 1 представлена структура разработанной нейросетевой модели спам-фильтрации.
Рис. 1 - Структура нейросетевой модели
Как видно из рисунка, сеть содержит входной распределительный слой, состоящий, в соответствие с данными из обучающей выборки, из пяти нейронов. Также имеется скрытый слой, состоящий из десяти обрабатывающих нейронов, и выходной слой, состоящий из единственного нейрона.
Для построения нейронечеткой модели спам-фильтрации использован конструктор нечетких нейронных сетей АОТК в пакете Ма1ЬаЪ [16]. В данном конструкторе необходимо выбирать алгоритм обучения сети, установить уровень ошибки обучения, задать максимальное число циклов обучения, выбрать тип функции принадлежности, а также количество нечетких градаций входных лингвистических переменных. Обучение нечеткой нейронной сети производилось на тех же данных из обучающей выборки. Результатом обучения является нейронечет-кая модель классификации электронных почтовых сообщений.
Структура разработанной нечеткой нейронной сети представлена на рисунке 2.
Рис. 2 - Структура нечеткой нейронной сети
Как видно из представленного рисунка, нечеткая нейронная сеть состоит из пяти входных нейронов,
моделирующих значение входных лингвистических переменных из обучающей выборки. Каждый входной нейрон имеет по три градации, соответствующих нечетким категориям «малый», «средний», «большой». Сочетание числа входных нейронов и их градаций определяет количество нейронов двух следующих слоев нечеткой нейронной сети, равное 243. Единственный выходной нейрон определяет выходную активность сети, соответствующую результату классификации входного образа.
Для оценки эффективности построенных моделей спам-классификации использовалась методика бутстрэпирования [17]. Получение Бутстрэп-оценок основано на процедуре сэмплинга с замещением. В обычном сэмплинге каждая запись исходного множества данных отбирается только один раз. Сэм-плинг с замещением позволяет выбирать одни и те же наблюдения несколько раз.
Рассмотрим частный случай построения Бутст-рэп-оценок, называемый 0,632-бутстрэпом [17]. Множество данных из п наблюдений выбирается с замещением, чтобы сформировать другое множество данных, также состоящее из п наблюдений. Поскольку некоторые элементы во втором множестве будут повторяться, а исходное и полученное множества содержат одинаковое число примеров, то окажется, что некоторые примеры не будут отобраны во второе множество. Они и будут использоваться как тестовые.
Вероятность выбора наблюдения равна 1/п. Соответственно вероятность того, что наблюдение не будет выбрано, 1-1/п. Умножив эти вероятности друг на друга п раз, получим (1-1/п) 11 ~ е-1 = 0,368. Это дает оценку вероятности, того, что определенное наблюдение вообще не будет выбрано. Таким образом, если исходное множество данных достаточно большое, тестовое множество будет содержать примерно 36,8 % наблюдений, а обучающее -оставшиеся 63,2 %. Некоторые примеры в обучающем множестве будут повторяться, благодаря чему результирующее множество будет равно исходному.
Результаты, полученные в процессе обучения модели на обучающем множестве и вычисления ошибки на тестовом, дадут пессимистическую оценку, поскольку обучающее множество, хотя и имеет размер п, содержит только 63 % наблюдений. Чтобы компенсировать это, можно комбинировать ошибку на тестовом множестве Е^ с ошибкой обучения Егат. С помощью бутстрэпирования получаем итоговую ошибку Е:
Е = 0,632 ■ Е^+ 0,368 ■ Е4га1П.
Затем процедура бутстрэпа повторяется несколько раз при различных выборках с замещением, и полученные ошибки усредняются.
В таблице 2 представлены результаты тестирования построенной нейросетевой модели классификации электронных почтовых сообщений.
Из табл. 2 видно, что процедура сэмплинга с замещением производилась три раза. Таким образом, при тестировании нейросетевой модели классификации электронных почтовых сообщений средняя ошибка составила 5,3%.
Таблица 2 - Таблица показателей для оценки адекватности нейросетевой модели
Выборка с замещением 1 Тга1п / ТеБ1 2 Тгаш / ТеБ1 3 Тгаш / ТеБ1
Классифицировано верно 500 / 184 500 / 184 500 / 184
Классифицировано неверно 0 / 16 5 / 13 11 / 15
Общая ошибка 0% / 8,6% 1% / 7% 2,2% / 8%
Ошибка 1-го рода (пропуск спама) 0% / 6,6% 0,4% / 4,4% 1,5% / 5,6%
Ошибка 2-го рода (ложный спам) 0% / 10,6% 1,5% / 9,4% 2,8% / 10,5%
Итоговая ошибка (бутстрэпирование) 5,4% 4,8% 5,8%
Результаты тестирования нейронечеткой модели классификации электронных почтовых сообщений представлены в таблице 3.
Таблица 3 - Таблица показателей для оценки адекватности нейронечеткой модели
Вычборка с замещением 1 Тга1п / ТеБ1 2 Тга1п / ТеБ1 3 Тга1п / ТеБ1
Классифицировано верно 500 / 184 500 / 184 500 / 184
Классифицировано неверно 22 / 12 27 / 14 19 / 11
Общая ошибка 4,4% / 6,5% 5,4% / 7,6% 3,8% / 5,6%
Ошибка 1-го рода (пропуск спама) 1,1% / 5,3% 3,2% / 7,4% 1% / 4,2%
Ошибка 2-го рода (ложный спам) 7,6% / 7,7% 7,5% / 7,6% 6,6% / 7,7%
Итоговая ошибка (бутстрэпирование) 5,2% 6,2% 4,5%
При тестировании нейронечеткой модели классификации электронных почтовых сообщений показатель средней ошибки составил 5,3%.
Таким образом, экспериментальные исследования показали, что разработанные нейросетевая и нейронечеткая модели является адекватными и их можно эффективно использовать для классификации электронных почтовых сообщений. Оценка построенных моделей показала высокую эффективность использования интеллектуальных систем в задаче фильтрации спама. Практическая значимость полученных результатов заключается в повышении эффективности систем фильтрации электронных почтовых сообщений.
Литература
1. Глова В.И., Аникин И.В., Катасёв А.С. Система предупреждения аварий оборудования в процессах поддержания пластового давления // Вестник Казанского государственного технического университета им. А.Н. Туполева.
- 2006. - № 2. - С. 46-49.
2. Глова В.И., Аникин И.В., Катасёв А.С., Кривилёв М.А., Насыров Р.И. Мягкие вычисления: учебное пособие. Казань: Изд-во Каз. гос. технич. университета им. А.Н. Туполева, 2010. - 206 с.
3. Гуров В.В. Спам-фильтры для предприятий // Сети и системы связи. - 2007. - № 6. - С. 80-89.
4. Емалетдинова Л.Ю., Катасёв А.С., Кирпичников А.П. Нейронечеткая модель аппроксимации сложных объектов с дискретным выходом // Вестник Казанского технологического университета. - 2014. - Т. 17, № 1. - С. 295-299.
5. Катасёв А.С. Математическое и программное обеспечение формирования баз знаний мягких экспертных систем диагностики состояния сложных объектов: монография. -Казань: ГБУ «Республиканский центр мониторинга качества образования», 2013. - 200 с., ил.
6. Катасёв А. С. Математическое обеспечение и программный комплекс формирования нечетко-продукционных баз знаний для экспертных диагностических систем // Фундаментальные исследования. - 2013. - № 10 (часть 9). - С. 1922-1927.
7. Катасёв А.С. Формирование базы знаний системы фильтрации электронных почтовых сообщений // Научно-технический вестник Поволжья. - 2013. - № 5. - С. 191194.
8. Катасёв А.С., Ахатова Ч.Ф. Нейронечеткая система обнаружения продукционных зависимостей в базах данных // Программные продукты и системы. - 2011. - № 3.С. 26-32.
9. Катасёв А.С., Газимова Д.Р. Инвариантная нечетко-продукционная модель представления знаний в экспертных системах // Вестник КГТУ им. А.Н. Туполева.
- 2011. - № 1. - С. 142-148.
10. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1 (25). - С. 68-78.
11. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая диагностика аномальной сетевой активности // Вестник технологического университета. -2015. - Т. 18. № 6. - С. 163-167.
12. Катасёв А. С., Катасёва Д. В., Кирпичников А. П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18. № 5. - С. 180-183.
13. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. № 9. - С. 215-218.
14. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Оценка стойкости шифрующих преобразований моноалфавитной замены с использованием генетического алгоритма // Вестник технологического университета. - 2015. - Т. 18. № 7. - С. 255-259.
15. Катасёв А.С., Катасёва Д.В., Кирпичников А.П., Кос-тюжов С.Г. Нейросетевая модель распознавания пользователей в системах дистанционного обучения // Вестник технологического университета. - 2015. - Т. 18. № 13. - С. 160-163.
16. Леоненков А.В. Нечеткое моделирование в среде MATLAB и Fuzzy Tech. - СПб.: БХВ-Петербург, 2005. -736 с.
17. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: учебное пособие. - 2-е изд., испр. -СПб.: Питер, 2013. - 704 с.: ил.
18. Семенова М.А., Семенов В.А. Метод автоматической фильтрации при борьбе со «спамом» // Известие вузов. «Приборостроение». - 2009. Т. 52, - № 9. - С. 32-34.
© А. С. Катасёв - д-р. техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: kat_726@mail.ru; Д. В. Катасёва - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: 415pisarevadv@mail.ru; А. П. Кирпичников - д-р. физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, e-mail: kirpichnikov@kstu.ru; Я. Е. Семёнов - магистрант кафедры прикладной математики и информатики КНИТУ-КАИ, e-mail: gooodfeeling@yandex.ru.
© A. S. Katasev - Dr. Sci, Associate Professor the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: kat_726@mail.ru; D. V. Kataseva - Postgraduate Student the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: 415pisarevadv@mail.ru; А. P. Kirpichnikov - Dr. Sci, Prof, Head of the Department of Intelligent Systems & Information Systems Control, KNRTU, e-mail: kirpichnikov@kstu.ru; J. E. Semenov - Master Student of Applied Mathematics and Computer Science Department, KNRTU named after A.N. Tupolev, e-mail: gooodfeeling@yandex.ru.