Научная статья на тему 'Эффективность методов интеллектуального анализа данных при решении задачи кредитного скоринга'

Эффективность методов интеллектуального анализа данных при решении задачи кредитного скоринга Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
217
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАНКОВСКИЙ СКОРИНГ / ДЕРЕВО РЕШЕНИЙ / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ / МАШИНА ОПОРНЫХ ВЕКТОРОВ / БИОНИЧЕСКИЕ АЛГОРИТМЫ / COBRA / BANK SCORING / DECISION TREE / NAIVE BAYES CLASSIFIER / ARTIFICIAL NEURAL NETWORKS / K-NEAREST NEIGHBORS / SUPPORT VECTOR MACHINE / BIONIC ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Афанасьев В.Ю., Полякова О.С.

Задача кредитного скоринга решается различными алгоритмами анализа данных из системы RapidMiner, а также машинами опорных векторов, настроенными бионическим методом оптимизации COBRA. Проводится сравнение эффективности применяемых методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING TECNIQUES EFFECTIVNESS FOR CREDIT SCORING PROBLEM SOLVING

In this paper, the scoring problem is solved by different data mining algorithms from RapidMiner system as well as with support vector machines configured by bio-inspired optimization method COBRA. Comparison of used methods effectiveness is fulfilled.

Текст научной работы на тему «Эффективность методов интеллектуального анализа данных при решении задачи кредитного скоринга»

УДК 519.87

ЭФФЕКТИВНОСТЬ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ РЕШЕНИИ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА

В. Ю. Афанасьев, О. С. Полякова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: afanasyev.vik@gmail.com

Задача кредитного скоринга решается различными алгоритмами анализа данных из системы RapidMiner, а также машинами опорных векторов, настроенными бионическим методом оптимизации COBRA. Проводится сравнение эффективности применяемых методов.

Ключевые слова: банковский скоринг, дерево решений, наивный байесовский классификатор, искусственные нейронные сети, метод k-ближайших соседей, машина опорных векторов, бионические алгоритмы, COBRA.

DATA MINING TECNIQUES EFFECTIVNESS FOR CREDIT SCORING PROBLEM SOLVING

V. Yu. Afanasyev, O. S. Polyakova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: afanasyev.vik@gmail.com

In this paper, the scoring problem is solved by different data mining algorithms from RapidMiner system as well as with support vector machines configured by bio-inspired optimization method COBRA. Comparison of used methods effectiveness is fulfilled.

Keywords: bank scoring, decision tree, naive Bayes classifier, artificial neural networks, k-nearest neighbors, support vector machine, bionic algorithms, COBRA.

В современном мире решающую роль в рыночной экономике играют кредитные отношения между физическими или юридическими лицами и банками, которые решают, кто может получить финансирование, и на каких условиях, кому можно сделать перерыв для оплаты, а кому предложить реструктуризацию кредитования.

На сегодняшний день банки всё чаще используют алгоритмы кредитного скоринга, которые позволяют рассчитать вероятность дефолта компании или клиента. Данная технология позволяет определить, следует ли выдать кредит и на каких условиях. От того, насколько качественно и достоверно алгоритмы обрабатывают данные, зависит вся дальнейшая специфика принятия одобрения выдачи кредита. В связи с усложнением социальных и экономических ситуаций возрастают требования к используемым методам интеллектуального анализа данных, объективно возникает необходимость в сравнительном анализе эффективности этих методов при решении различных задач.

Чтобы алгоритмы кредитного скоринга работали успешно, необходимо предсказывать вероятность того, будет ли клиент испытывать финансовые трудности в течение ближайших двух лет. В связи с этим надо определить алгоритмы, которые решают задачу лучшим образом.

В данной работе решение задачи скоринга осуществлялось с помощью алгоритмов программной системы RapidMiner [1] и машин опорных векторов (SVM), генерируемых коллективным стайным бионическим алгоритмом «COBRA» [2], на примере базы данных «Give me some credit» [3].

В RapidMiner задача была решена с помощью 5 методов классификации: наивный байесовский классификатор (NB, [4]); метод k-ближайших соседей (k-NN, [5]); деревья решений (DT, [6]); модификация метода опорных векторов (W-SMO, [7]); нейронная сеть (NN, [5]). К базе данных был применен метод кросс-валидации, т. е. производилось разделение базы данных на 10 частей, каждая из которых поочередно становилась тестовой, а 9 оставшихся объединялись в обучающую выборку.

Секция «Математические методы моделирования, управления и анализа данных»

Алгоритм COBRA [8] основан на коллективной работе следующих бионических алгоритмов: метод роя частиц (PSO), алгоритм поиска стаей волков (WPS), алгоритм светлячков (FFA), алгоритм поиска кукушек (CSA) и алгоритм летучих мышей (BA). Его основная идея состоит в создании 5 популяций, взаимодействующих друг с другом.

Алгоритм COBRA является самонастраивающимся в отличие методов, включенных в программное обеспечение RapidMiner, поэтому нет необходимости выбирать размер популяции и настраивать параметры. Число особей в популяции каждого алгоритма может увеличиваться или уменьшаться в зависимости от того, улучшается ли значение пригодности: если значения пригодности не улучшаются в течение определенного числа поколений, то размер всех 5 популяций увеличивается, и наоборот. Кроме того, на каждом поколении определяется алгоритм-«победитель», среднее значение пригодностей у которого больше, чем у остальных. Популяция алгоритма-«победителя» растет, принимая индивидов, удаленных из других популяций. Оператор миграции данного подхода заключается в замене худших особей каждой популяции лучшими особями других популяций.

Точность классификации каждого из алгоритмов интеллектуального анализа данных в процентном соотношении при решении задачи скоринга представлена в табл. 1.

Таблица 1

Точность классификации

SVM + COBRA 93,53 %

NN 93,34 %

DT 93,25 %

W-SMO 93,06 %

NB 92,92 %

k-NN 89,70 %

Как видно из таблицы, наименьшую точность классификации показал метод k-ближайших соседей из программного пакета RapidMiner, наибольшую - машины опорных векторов, построенные с помощью алгоритма COBRA.

Также было проведено попарное сравнение использованных метод по критерию Стьюдента, результаты которого представлены в табл. 2.

Таблица 2

T-Test

k-NN DT W-SMO NB SVM+COBRA

NN 0,000 0,008 0,000 0,000 0,000

k-NN 0,000 0,000 0,000 0,000

DT 0,000 0,000 0,000

W-SMO 0,000 0,000

NB 0,000

Из табл. 2 видно, что все различия в результатах, несмотря на их малость, статистически значимы. На это указывают значения t-теста, которые меньше 0,05.

В результате проведенного исследования выявлено, что методы интеллектуального анализа данных, включенные в программное обеспечение RapidMiner позволяют проектировать системы оценки не всегда эффективно. Даже относительно простой SVM, настроенный с помощью алгоритма адаптивной оптимизации позволяет реализовать более эффективную систему. Поэтому целесообразно использовать адаптивные системы интеллектуального анализа данных, автоматически разработанных с помощью COBRA [9] или других аналогичных алгоритмов [10; 11].

Библиографические ссылки

1. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 10.02.2016).

2. Co-operation of biology related algorithms for support vector machine automated design / Sh. Akhmedova, E., Semenkin T. Gasanova, W. Minker // OPT-i 2014 - 1st International Conference on Engineering and Applied Sciences Optimization, Proceedings 1. 2014. С. 1831-1837.

3. Kaggle.com [Электронный ресурс]. URL: https://www.kaggle.com/c/GiveMeSomeCredit (дата обращения: 27.01.2016).

4. An analysis of Bayesian classifiers / P. Langley, W. Iba, & K. Thompson // Proceedings of the Tenth National Conference on Artificial Intelligence. 1992. Pp. 223-228. San Jose, CA: AAAI.

5. Advances in Knowledge Discovery and Data Mining / U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy // The AAAI Press, 1996.

6. Quinlan J. R. Generating production rules from decision trees. In: McDermott, John. Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). Milan, Italy. 1987. Pp.304-307.

7. Durgesh K. Srivastava, Lekha Bhambhu. Data classification using support vector Machine. Journal of theoretical and applied information technology. 2009. Рp. 67-74.

8. Akhmedova Sh., Semenkin E. Co-Operation of Biology Related Algorithms. In: IEEE Congress on Evolutionary Computation (CEC 2013). Pp. 2207--2214. Cancún (México) (2013).

9. Akhmedova Sh., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC'2014. 2014. С. 867-872.

10. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm. In: ICINCO 2014 // Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.

11. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления / С. С. Бежитский, Е. С. Семенкин, О. Э. Семенкина // Автоматизация. Современные технологии. 2005. № 11. С. 24.

© Афанасьев В. Ю., Полякова О. С., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.