Модификация метода байесовской классификации для решения задачи фильтрации нежелательной электронной рассылки
Скляренко Н.С., МГТУ им. Н.Э. Баумана nikolay.skliarenko@gmail.com
Аннотация
На основе критериев аккуратности, точности, полноты, времени классификации одного сообщения и времени обучения выполнена оценка метода «не столь наивной» байесовской классификации в контексте задачи фильтрации паразитной рассылки. Проведено экспериментальное сравнение указанного метода с классическим «наивным» классификатором при использовании различных подходов к извлечению терминов из текста сообщения. Предложена модификация алгоритма обучения, обладающего более высокой скоростью обучения.
1 Введение
Согласно статистике, предоставленной «Лабораторией Касперского» [1], доля нежелательной рассылки за первый и второй квартал 2017 года составляет порядка 56% от всего почтового трафика в мире и 61% в России. В связи с этим разработка эффективных методов фильтрации подобного вида рассылки и улучшение существующих остаётся актуальной.
На данный момент существует множество подходов к решению данной задачи: введение ограничения на круг отправителей (т.е. ведение чёрных или белых списков) [2], идентификация ботов [3], использованием подходов машинного обучения [4].
В работе рассмотрен плохо изученный метод «не столь наивной» байесовской классификации [5].
2 Модифицированный метод классификации и алгоритм его реализации
В классификации текста сообщения можно выделить два основных этапа: извлечение терминов и собственно классификация. Если производится обучение, к ним добавляется статистическая обработка полученных результатов.
Данный этап был реализован двумя подходами: использованием символьных п-грамм
(character n-grams) и ортогональных разреженных биграмм (orthogonal sparse bigrams).
При первом подходе термином будет являться цепочка из последовательно идущих n символов. Главное преимущество - малый размер словаря при высоком качестве классификации, нет зависимости от исходного языка сообщения.
При втором термин - пара токенов, разделённых не более чем k токенами. В этом случае при классификации учитывается связь между словами в предложении, что увеличивает точность.
В методы «не столь наивной» байесовской классификации является то, что в критерий принадлежности добавляется некоторый множитель 6, называемый коэффициентом уверенности (confidence factor), который используется для грубой аппроксимации статистической зависимости между терминами.
При этом введена следующая статистика:
P(m,sp
= (|ХЬЛ|
N(noii-s
am)
(
где Pi.m.spam) - вероятность принадлежности сообщения m классу нежелательной рассылки,
- мультимножество терминов сообщения
Г.'.,
Ni riori-q:-.!!"..: - количество сообщений, классифицированных как «легитимная почта», X i q.vu".'.: - количество сообщений, классифицированных как «паразитная рассылка», X . i : - количество сообщений, содержащих термин х, классифицированных как «паразитная рассылка»,
Х,:1 non-q.vu".'.: - количество сообщений, содержащих термин х, классифицированных как «легитимная почта», 6S - коэффициент уверенности для термина х.
С учётом этого можно использовать следующий критерий:
claSS( m) = fSÍ>am' еСЛИ P(m'Spam) >l, (2'
{ non-spam, иначе 4 ■
где te [ОД) - граничное значение.
В настоящей работе на основе подхода
TUNE [6], при котором обучение на заданном
учебном наборе производится, пока на нём не будет достигнута 100% точность, либо пока не будет превышен заданный максимум итераций.
На каждом шаге обучения производится коррекция коэффициента уверенности путём умножения или деления на константу для всех терминов некорректно классифицированного сообщения.
На этом этапе можно производить коррекцию не всех терминов сообщения, а лишь тех, которые внесли наибольший вклад при формировании ошибочного результата. Это предположение является основой предложенной модификации.
В настоящей работе для нормализации результата используется сигмоида:
сг(ш) -
1 + (
-Pim.Epia.e3i)
Рассмотрим вклад отдельного термина в результат классификации:
i
иЫ) =
. . ^spflcni^non-spflcn'ex
ц. N'DDD-spaml- Wj¡iQDa-apamitf1 зрат!
При возникновении ошибки первого рода, если вклад данного термина в общую вероятность выше некоторого граничного значения , требуется произвести следующую коррекцию коэффициента 8К:
где гс е (0; 1] - некоторая константа.
В случае ошибки второго рода, если вклад данного термина в общую вероятность ниже некоторого граничного значения требуется произвести следующую коррекцию коэффициента 6К:
е,
6 V = -Г а
где /? е (0; 1] - некоторая константа.
От выбора значений аи ¡3 зависит скорость и качество обучения.
3 Экспериментальное сравнение методов
Для оценки качества бинарной классификации были выбраны следующие статистики
[7]:
• аккуратность (accuracy) - отношение общего числа корректно классифицированных сообщений к общему числу сообщений;
• точность (precision) - отношение количества сообщений, действительно принадлежащих некоторому заданному классу, к общему числу сообщений, отнесённых к данному классу;
• полнота (recall) - отношение количества сообщений, действительно принадлежащих некоторому заданному классу, к общему числу сообщений, принадлежащих данному классу.
Для оценки времени классификации была использована скорость классификации, то есть количество классифицированных сообщений в секунду, а для времени обучения -общее время, затраченное на обучение в секундах.
Для оценки классификатора были взяты две выборки, являющиеся стандартными для проверки качества:
• публичный корпус для обучения и тестирования классификатора SpamAssassin [8] - содержит 9349 сообщений;
• публичный корпус конференции TREC 2007 [9] - содержит 75419 сообщений. Особенность первой выборки - наличие
двух видов легитимных сообщений: «легкой» (soft ham) и «сложной» (hard ham). Первая категория сообщений легко различима, вторая имеет много общего с нежелательной рассылкой и тяжела для классификации. Из-за этой особенности данная выборка считается хорошей для обучения и тестирования фильтров спама [4, 6, 10]. Результаты эксперимента представлены в таблице 1.
Вторая выборка использовалась для оценки качества классификаторов, участвовавших в конференции по электронной почте и защите от спама (CEAS). Результаты эксперимента представлены в таблице 2.
4 Выводы
В результате работы были реализованы методы «не столь наивной» байесовской классификации, классического байесовского классификатора и предложенной модификации, проведена их экспериментальная оценка
Таблица 1. Результаты эксперимента на выборке SpamAssassin
Критерий Метод
«наи байесс классш 1вный» вский шкатор «не столь наивный» байесовский классификатор Модифицированный «не столь наивный» байесовский классификатор
OSB CNG OSB CNG OSB CNG
Аккуратность, % 98.09 98.85 98.42 98.24 98.07 98.72
Точность, % 94.57 97.31 96.59 97.51 95.05 97.32
Полнота, % 98.20 98.24 97.30 95.60 97.56 97.70
Скорость классификации, сообщ./сек. 81.76 80.28 85.24 79.22 83.47 79.67
Время обучения, сек. 102.33 108.33 105.33 121.33 87.66 119.00
Таблица 2. Результаты эксперимента на выборке TREC2007
Метод
Критерий «наивный» байесовский классификатор «не столь наивный» байесовский классификатор Модифицированный «не столь наивный» байесовский классификатор
OSB CNG OSB CNG OSB CNG
Аккуратность, % 99.5 1 99.46 99.72 99.62 99.61 99.28
Точность, % 99.8 6 99.80 99.87 99.78 99.87 99.86
Полнота, % 99.3 8 99.40 99.72 99.65 99.54 99.05
Скорость классификации, сообщ./сек. 75.3 6 68.60 64.02 63.69 64.57 69.44
Время обучения, сек. 1477 .66 11080.00 1178.00 1184.00 1086.00 11838.66
на стандартных выборках. Проведённое исследование показало, что рассмотренный классификатор действительно выигрывает в качестве. Предложенная модификация показывает меньшее время обучения, но при этом уступает по другим характеристикам (аккуратности, точности и полноте). Интересной особенностью является чрезвычайно высокое время обучения при извлечении терминов символьными п-граммами на выборке ТКЕС2007 у «наивного» байесовского классификатора и предложенной модификации. Данный метод не подходит для решения задачи идентификации нежелательной электронной рассылки.
Список литературы
[1] Спам и фишинг во втором квартале 2017. [Электронный ресурс]. Режим доступа: https://securelist.ru/spam-and-phishing-in-q2-2017/80137/ (дата обращения: 29.10.2017)
[2] Kanich C. Spamalytics: An empirical analysis of spam marketing conversion //Proceedings of the 15th ACM conference on Computer and communications security. -2008. - Pp. 3-14.
[3] Ehrlich W. K. Bot-network detection based on simple mail transfer protocol (SMTP) characteristics of e-mail senders within IP address aggregates : пат. 9055012 США. -2015.
[4] Better Bayesian Filtering. [Электронный ресурс]. Режим доступа http://www.paulgraham.com/better.html (Дата обращения: 29.10.17)
[5] Su B., Xu C. Not So Naive Online Bayesian Spam Filter //Proceedings of the Twenty-First Innovative Applications of Artificial Intelligence Conference. - 2009.
[6] Yerazunis W. S. The spam-filtering accuracy plateau at 99.9% accuracy and how to get past it //Proceedings of the 2004 MIT Spam Conference. - 2004.
[7] Fawcett T. An introduction to ROC analysis //Pattern recognition letters. - 2006. - Vol. 27. - №. 8. - Pp. 861-874.
[8] SpamAssassin public spam corpus [Электронный ресурс]. Режим доступа http://spamassassin.apache.org/old/publiccor pus/ (дата обращения: 29.10.17)
[9] 2007 TREC Public Spam Corpus [Электронный ресурс]. Режим доступа http ://plg. uwaterloo .ca/~gvcormac/treccorpu s07/ (дата обращения: 29.10.17)
[10] CRM114 Notes for the TREC 2005 Spam Track [Электронный ресурс]. Режим доступа
http://crm114.sourceforge.net/docs/NIST T REC 2005 paper.html (дата обращения: 29.10