Научная статья на тему 'Эффективность методов интеллектуального анализа даннных при распознавании спама'

Эффективность методов интеллектуального анализа даннных при распознавании спама Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
235
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / КЛАССИФИКАЦИЯ / СЛУЧАЙНЫЙ ЛЕС / НЕЙРОННАЯ СЕТЬ / МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ / ИНДУКЦИЯ ПРАВИЛ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / SPAM / CLASSIFICATION / RANDOM FOREST / NEURAL NETWORK / K-NEAREST NEIGHBORS ALGORITHM / RULE INDUCTION / SUPPORT VECTOR MACHINE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дресвянский Д. В.

Рассматривается решение задачи классификации электронных писем на наличие спама с использованием системы RapidMiner. Проведено сравнение эффективности используемых методов классификации. Представлено сравнение показателей точности использованных методов классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING TECHNIQUES EFFECTIVENESS IN SPAM RECOGNITION

The problem of spam recognition is solved with the RapidMiner system. A comparison of the effectiveness of the data mining tools is fulfilled. The statistical estimation of results is given.

Текст научной работы на тему «Эффективность методов интеллектуального анализа даннных при распознавании спама»

УДК 519.87

ЭФФЕКТИВНОСТЬ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАНННЫХ

ПРИ РАСПОЗНАВАНИИ СПАМА

Д. В. Дресвянский Научный руководитель - Е. С. Семенкин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Рассматривается решение задачи классификации электронных писем на наличие спама с использованием системы RapidMiner. Проведено сравнение эффективности используемых методов классификации. Представлено сравнение показателей точности использованных методов классификации.

Ключевые слова: спам, классификация, случайный лес, нейронная сеть, метод k-ближайших соседей, индукция правил, метод опорных векторов.

DATA MINING TECHNIQUES EFFECTIVENESS IN SPAM RECOGNITION

D. V. Dresvyanskiy Scientific supervisor - E. S. Semenkin

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The problem of spam recognition is solved with the RapidMiner system. A comparison of the effectiveness of the data mining tools is fulfilled. The statistical estimation of results is given.

Keywords: spam, classification, random forest, neural network, k-nearest neighbors algorithm, rule induction, support vector machine.

Спам - это массовая рассылка любой рекламы или иного вида сообщений лицам, которые не давали согласие на ее получение.

Следует отличать спам от легальных почтовых рассылок, которые, хотя и во многом повторяют многие черты спама, являются запрошенными пользователем и должны доставляться ему. Большое количество рекламной корреспонденции может привести к излишней нагрузке на каналы и почтовые серверы провайдера, из-за чего обычная почта будет проходить значительно медленнее. Кроме материальных затрат, отделение непрошенной информации от той, которая действительно нужна, и ее удаление требует временных затрат. К тому же, спам зачастую используется совместно с различными вирусными технологиями.

Очевидно, что со спамом надо бороться. Современные анти-спамовые фильтры хоть и сокращают спам, но не так эффективно, как хотелось бы. Поэтому требуются исследования различных новых способов обнаружения спама, в том числе методов интеллектуального анализа данных.

В данной работе были проведены исследования эффективности методов автоматической классификации для выявления спама в письмах, что может дать возможность внедрить их в спам-фильтры для повышения эффективности.

Для обучения системы распознаванию электронных писем как спам (1) или не спам (0) с помощью программы RapidMiner [1] были применены 5 методов классификации объектов:

1. Нейронная сеть (Neural Net, ANN) [2].

2. Метод k-ближайших соседей (k-NN) [3].

3. Случайный лес (Random Forest, RF) [4].

4. Индуктивный вывод правил (Rule Induction, RI) [3].

5. Метод опорных векторов (Support Vector Machine, SVM) [3].

Секция «Математические методы моделирования, управления и анализа данных»

База данных [5], с помощью которой обучается система, содержит 4601 экземпляра. Каждый экземпляр описывается 57 атрибутами:

1. Первые 48 атрибутов типа real [0100] - это 100* (количество появлений слова в письме) / (общее количество слов в письме). «Слово» в этом случае - любой ряд алфавитно-цифровых символов, ограниченных не алфавитно-цифровыми символами или концом последовательности символов. Т. е. каждый из 48 атрибутов - это процент содержания в письме слов, наиболее часто встречаемых в спам-письмах.

2. 6 атрибутов типа real [0..100] - процент повторений символов в электронной почте, т. е. 100* (количество повторений символа) / (количество всех символов в электронной почте).

3. 1 атрибут непрерывного типа real [1...] - средняя длина последовательностей заглавных букв.

4. 1 атрибут типа integer [1...] - длина самой длинной последовательности заглавных букв.

5. 1 атрибут типа integer [1...] - общее количество заглавных букв в электронном письме.

6. 1 атрибут номинального типа {0,1} - обозначает, считается ли данное письмо электронной почты спамом (1) или нет (0).

Для всех методов была применена кросс-валидация, которая разбивает набор данных на 10 блоков. Из 10 блоков один используется для тестирования модели, а остальные 9 блоков служат обучающей выборкой. Процесс повторяется 10 раз, каждый из блоков используется один раз как тестовый набор. Получаются 10 результатов, по одному на каждый блок, они усредняются и дают одну оценку. Был также проведен /-test по критерию Стюдента, чтобы узнать, обладают ли значимыми различиями значения эффективности методов. Уровень значимости был выбран равным 0,05, т. е. если значение в таблице меньше 0,05, то эффективности соответствующих методов обладают значимыми различиями.

Эффективность каждого метода (усредненная по 10 экспериментам доля правильно классифицированных событий и ее разброс), полученная описанным способом в ходе численных экспериментов с системой RapidMiner, а также результаты /-test представлены в таблице.

Эффективность различных методов в задаче распознавания спама

ANN RI SVM k-NN RF

0,910±0,029 0,903±0,019 0,904±0,010 0,826±0,018 0,769±0,073

ANN 0,534 0,583 0.000 0.000

RI 0,823 0.000 0.000

SVM 0.000 0.000

k-NN 0.031

По результатам Г-Test три наиболее эффективных метода - Neural Net, Rule Induction и Support Vector Machine - обладают значимыми различиями со всеми остальными методами.

Тем не менее, между собой Neural Net, Rule Induction и Support Vector Machine не имеют значимых различий, а значит, их можно использовать для классифицирования писем с одинаковой эффективностью.

Из доступных для использования технологий интеллектуального анализа данных в системе RapidMiner для решения задачи распознавания спама наиболее эффективными являются три метода -Neural Net, Rule Induction и Support Vector Machine.

В то же время, нельзя не отметить, что пропуск до 10 % спама не является приемлемым результатом. Это означает, что имеющимися средствами пакета RapidMiner невозможно построить высокоэффективные спам-фильтры, а значит необходимо разрабатывать более мощные интеллектуальные системы с применением самонастраивающихся адаптивных алгоритмов оптимизации и моделирования [6; 7] для автоматизированного проектирования машин опорных векторов [8], нейронных сетей [9; 10], классификаторов на нечеткой логике [11; 12], а также других средств анализа данных.

Библиографические ссылки

1. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 23.12.2014).

2. Hinton G., Deng L., Yu D., Dahl G., Mohamed A., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T. and Kingsbury B. Deep Neural Networks for Acoustic Modeling in Speech Recognition, IEEE Signal Processing Magazine, Vol. 29, No. 6, 2012, p. 82-97.

3. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

4. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach for model diagnostic // Expert Systems with Applications. 2012. Vol. 39. No. 2. P. 1772-1778.

5. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ ml/datasets.html (дата обращения: 21.12.2014).

6. Akhmedova S., Semenkin E. Co-operation of biology related algorithms // 2013 IEEE Congress on Evolutionary Computation, CEC 2013; Cancun; Mexico. P. 2207-2214.

7. Semenkin E. S., Semenkina M. E. Self-configuring Genetic Algorithm with Modified Uniform Crossover Operator // Advances in Swarm Intelligence. Lecture Notes in Computer Science 7331. SpringerVerlag, Berlin Heidelberg, 2012. P. 414-421.

8. Akhmedova Sh., Semenkin E., Gasanova T. and Minker W. Co-operation of biology related algorithms for support vector machine automated design // International Conference on Engineering and Applied Sciences Optimization (OPT-i), Kos Island, Greece, June 2014

9. Brester K., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Вестник СибГАУ. 2013. Вып. 4 (50). С. 99-103.

10. Akhmedova Sh., Semenkin E. Co-operation of Biology Related Algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the IEEE Congress on Evolutionary Computation 2014. P. 867-872.

11. Semenkin, E., Stanovov, V. Fuzzy Rule Bases Automated Design with Self-configuring Evolutionary Algorithm // Informatics in Control, Automation and Robotics (ICINCO), 11th International Conference on. INSTICC, 2014. Vol. 1. P. 318-323.

12. Stanovov V., Semenkin E. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. Вып. 4 (50). С. 148-152.

© Дресвянский Д. В., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.