Научная статья на тему 'Исследование интеллектуальных информационных технологий анализа коммуникативной корреспонденции'

Исследование интеллектуальных информационных технологий анализа коммуникативной корреспонденции Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
75
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / SPAM / ФИШИНГ / РАСПОЗНАВАНИЕ / КЛАССИФИКАЦИЯ / CLASSIFICATION / АНСАМБЛИ / ENSEMBLES / БУСТИНГ / BOOSTING / FISHING / IDENTIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дресвянский Д. В.

Рассматривается решение задач анализа коммуникативной корреспонденции. Проведено сравнение эффективности известных методов классификации и ансамблей из этих методов. К некоторым методам классификации применен бустинг. Выбраны наилучшие варианты решения каждой задачи стандартными алгоритмами системы RapidMiner.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INVESTIGATION OF INTELLIGENT INFORMATION TECHNOLOGIES OF COMMUNICATIVE CORRESPONDENCE ANALYSIS

We consider the problem of communicative correspondence analysis. A comparison of the effectiveness of known classification methods with their ensembles is fulfilled. Boosting is applied for some of classification methods. The best variants solving each problem with standard algorithms of RapidMiner are chosen.

Текст научной работы на тему «Исследование интеллектуальных информационных технологий анализа коммуникативной корреспонденции»

Решетнеескцие чтения. 2015

References

1. Spirina A. V., Semenkin E. S., Schmitt A., Minker W. [Interaction Quality in Human-Human Conversations: Problems and Possible Solutions] // Journal of SFU Mathematics & Physics. 2015. No. 8, pp. 217-223.

2. Altman N. S. [An introduction to kernel and nearest-neighbor nonparametric regression] // The American Statistician. 1992. No. 46, pp. 175-185.

3. Domingos P., Pazzani M. [On the optimality of the simple Bayesian classifier under zero-one loss] // Machine Learning. 1997. No. 29, pp. 103-137.

4. Quinlan J. R. [Simplifying decision trees] // International Journal of Man-Machine Studies. 1987. No. 27, pp. 221-234.

5. Cortes C., Vapnik V. [Support-vector networks] // Machine Learning. 1995. No. 20, pp. 273-297.

6. Hay kin S. Neural networks: a complete course. M. : Williams, 2006. 1104 p.

7. Zaentsev I. V. Neural networks: basic models. Voronezh, 1999. 76 p.

8. Vaskovskaya O. A. [Performance evaluation of adaptive evolutionary algorithms]. Electronic Collection of papers of the XIV-th International Scientific Conference "Youth. Society. Modern science, technologies & innovations". Krasnoyarsk, 2015, pp. 197-199.

9. Mühlenbein H., Schlierkamp-Voosen D. [Strategy Adaptation by Competing Subpopulations] // Parallel Problem Solving from Nature III. 1994, pp. 199-208.

© Васьковская О. А., Спирина А. В., 2015

УДК 519.87

ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ АНАЛИЗА КОММУНИКАТИВНОЙ КОРРЕСПОНДЕНЦИИ*

Д. В. Дресвянский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: ecodenis@sibsau.ru

Рассматривается решение задач анализа коммуникативной корреспонденции. Проведено сравнение эффективности известных методов классификации и ансамблей из этих методов. К некоторым методам классификации применен бустинг. Выбраны наилучшие варианты решения каждой задачи стандартными алгоритмами системы RapidMiner.

Ключевые слова: спам, фишинг, распознавание, классификация, ансамбли, бустинг.

INVESTIGATION OF INTELLIGENT INFORMATION TECHNOLOGIES OF COMMUNICATIVE CORRESPONDENCE ANALYSIS

D. V. Dresvyanskiy

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: ecodenis@sibsau.ru

We consider the problem of communicative correspondence analysis. A comparison of the effectiveness of known classification methods with their ensembles is fulfilled. Boosting is applied for some of classification methods. The best variants solving each problem with standard algorithms of RapidMiner are chosen.

Keywords: spam, fishing, identification, classification, ensembles, boosting.

Спам - это массовая рассылка любой рекламы или иного вида сообщений лицам, которые не давали согласие на ее получение. Следует отличать спам от легальных почтовых рассылок, которые, хотя и во многом повторяют многие черты спама, являются запрошенными пользователем и должны доставляться ему. Однако, помимо спама, в электроном письме от якобы знакомого человека может содержаться ссылка на какой-нибудь сайт. Этот сайт может быть фишин-говым. Фишинг - вид интернет-мошенничества, це-

лью которого является получение доступа к конфиденциальным данным пользователей - логинам и паролям, номерам кредитных карт, электронной почте и т. д. С помощью таких конфиденциальных данных пользователя мошенник может нанести пользователю серьезный ущерб, как моральный, так и материальный.

* Работа выполнена при поддержке Министерства образования и науки Российской Федерации в рамках проекта М'МЕЕ157414Х0037.

Математические методы моделирования, управления и анализа данных

Защита пользователя от такого рода покушений является важной проблемой, а разработка и исследование соответствующих интеллектуальных информационных технологий анализа коммуникативной корреспонденции представляет собой серьезную научную задачу.

При выполнении исследований использовались 2 базы данных, с помощью которых система обучалась распознавать, является ли спамом электронное письмо и является ли сайт, ссылка на который содержится в письме, фишинговым.

Для обучения системы были применены 8 методов классификации объектов, реализованные с помощью программы RapidMiner [1]: нейронная сеть (Neural Net) [2], метод к ближайших соседей (k-NN) [3], деревья решений (Decision Tree) [4], индуктивный вывод правил (Rule Induction) [3], метод опорных векторов (Support Vector Machine) [3], многослойный персеп-трон (Multilayer Perceptron) [4], наивный байесовский классификатор (Naive Bayes) [3], метод логистической регрессии (Logistic Regression) [3].

Результаты каждого метода были сравнены по Т-критерию Стьюдента.

Для решения упомянутых задач определялись три самых эффективных метода, которые по критерию Стьюдента (/-test) не обладают значимыми статистическими различиями между собой, но имеют их в сравнении с остальными используемыми методами.

Эти лучшие методы, а также их эффективность (процент правильно распознанных ситуаций) представлены в табл. 1.

Для того чтобы улучшить точность классификации, было решено создать ансамбли из лучших

методов в каждой задаче и сравнить их с ансамблями, состоящими из всех используемых методов. Кроме того, для повышения эффективности был применен бустинг по алгоритму AdaBoost (сокращение от Adaptive Boosting). Методы, подвергшиеся бустингу, были собраны в ансамбли с остальными методами, указанными в данной работе. Результаты приведены в табл. 2.

Как оказалось, ансамбли из наилучших методов справляются с классифицированием немногим более эффективно, чем сами методы по отдельности, т. е. смысла в применении таких ансамблей для повышения эффективности нет.

В то же время, эффективность ансамбля, состоящего из всех методов, в задаче распознавания спама ощутимо увеличилась, а в задаче распознавания фи-шинговых сайтов, наоборот, снизилась. Добавление в ансамбль методов, подвергшихся бустингу, дает аналогичный эффект.

Таким образом, результаты оказались неоднозначными, что не позволяет однозначно выбрать наилучший подход в задачах анализа коммуникативной корреспонденции. Это значит, что необходимо строить более мощные и лучше адаптивные методы, которые смогут автоматически настраиваться на решаемую задачу. Сделать это в рамках используемой системы RapidMiner не представляется возможным, поэтому следует использовать другие подходы. Примером такого подхода является генетическое программирование [5; 6], особенно в самоадаптивном варианте [7].

Таблица 1

Эффективность наилучших методов в каждой задаче классификации

Задача классификации Наилучшие методы

Распознавание спама Neural Net: 91,8 ± 1,4 % Multilayer Perceptron: 91,8 ± 1,2 % Rule Induction: 90,6 ± 2,5 %

Распознавание фишинговых сайтов Neural Net: 95,9 ± 0,6 % Multilayer Perceptron: 96,2 ± 0,7 % k-NN: 96,1 ± 0,7 %

Эффективность ансамблей

Таблица 2

Задача классификации Эффективность ансамбля, состоящего из наилучших методов, % Эффективность ансамбля, состоящего из всех имеющихся методов, % Методы, подвергшиеся бустингу, и эффективность ансамбля, %

Распознавание спама 92,0 93,8 Neural Net, Rule Induction, 95,22

Распознавание фишинговых сайтов 97,4 94,5 Neural Net, 94,75

Библиографические ссылки

1. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 23.06.2015).

2. Hinton G. [et al.]. Deep Neural Networks for Acoustic Modeling in Speech Recognition // IEEE Signal Processing Magazine. 2012. Vol. 29, № 6. Р. 82-97.

3. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

4. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach

Решетнееские чтения. 2015

for model diagnostic // Expert Systems with Applications. 2012. Vol. 39, № 2. P. 1772-1778.

5. Семенкин Е. С., Шабалов А. А., Ефимов С. Н. Автоматизированное проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3(36). С. 77-81.

6. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3(16). С. 27-33.

7. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC. 2012. С. 6256587.

References

1. RapidMiner [Electronic resource]. URL: https:// rapidminer.com/ (accessed: 23.06.2015).

2. Hinton G., Deng L., Yu D., Dahl G., Mohamed A., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T. and Kingsbury B. Deep Neural Networks for Acoustic Modeling in Speech Recognition // IEEE Signal Processing Magazine, 2012. Vol. 29, no. 6, pp. 82-97.

3. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

4. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach for model diagnostic // Expert Systems with Applications. 2012. Vol. 39, no. 20, pp. 1772-1778.

5. Semenkin E. S., Shabalov A. A., Efimov S. N. Automated design of intelligent information technologies with genetic programming method // Vestnik SibGAU. 2011. No. 3(36), pp. 77-81.

6. Semenkin E. S., Semenkina M. E. Application of genetic programming algorithm with modified uniform crossover operator for automated design of intelligent information technologies // Vestnik SibGAU. 2007. No. 3(16). C. 27-33.

7. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC, 2012. C. 6256587.

© Дресвянский Д. В., 2015

УДК 004.932:94, 001.891.57, 004.413.5, 004.415.5:532

МОДИФИКАЦИЯ КОЛИЧЕСТВЕННОЙ ОЦЕНКИ ДЕТЕКТОРОВ ГРАНИЦ ПРЭТТА-ЯСКОРСКОГО

Д. В. Дубинин1, А. И. Кочегуров2, В. Е. Лаевский3 (V. Geringer)

1Томский государственный университет систем управления и радиоэлектроники Российская Федерация, 634050, г. Томск, просп. Ленина, 40

■Национальный исследовательский Томский политехнический университет Российская Федерация, 634050, г. Томск, просп. Ленина 30

3Государственный объединённый университет Баден-Вюртемберга, инженерный факультет Германия, 88045, г. Фридрихсхафен, Фалленбрунен, 2 Е-mail: 3geringer@dhbw-ravensburg.de

В результате исследования комплексного метода, предложенного в работе I. Boaventura и A. Gonzaga, были отмечены завышенные значения критерия Прэтта (Pratt's Figure of Merit) при малых отношениях с/ш (PSNR -Peak Signal-to-Noise Ratio). В связи с этим в работе представлены результаты количественной оценки детекторов границ с использованием классического критерия Прэтта, предложений по модификации Яскорского и необходимым обобщением и доработкой обоих подходов с точки зрения интеграции в среду программного комплекса стохастического моделирования «КИМ СП». Аппроксимация эталонных изображений произведена с использованием двумерного точечного потока восстановления, обладающего свойствами стационарности, отсутствием последствий, ординарности. Эффективность предлагаемой метрики приведена для трех алгоритмов оконтуривания (Marr-Hildreth, ISEF и Canny) при различных уровнях аддитивного нормального шума. Приведены оценки ошибок первого и второго рода. Результаты стохастического моделирования показывают эффективность предлагаемого подхода.

Ключевые слова: стохастическое моделирование, эталонное изображение, оконтуривание, критерий качества, оценки эффективности, сравнение алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.