Научная статья на тему 'СТРАТЕГИЯ ПОИСКА ЭФФЕКТИВНОГО АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ НА ПРИМЕРЕ КРЕДИТНОГО СКОРИНГА'

СТРАТЕГИЯ ПОИСКА ЭФФЕКТИВНОГО АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ НА ПРИМЕРЕ КРЕДИТНОГО СКОРИНГА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
262
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРИНГ / МАШИННОЕ ОБУЧЕНИЕ / ОТБОР ПРИЗНАКОВ / АНСАМБЛЬ МОДЕЛЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Исаев Денис Вадимович

Для многих компаний проблема поиска оптимальных стратегий прогнозирования целевых событий на сегодняшний день является актуальной. Целью данной работы является разработка метода прогнозирования на основе машинного обучения, позволяющего решить проблемы, связанные с выбором наиболее эффективного алгоритма. В рамках текущей работы поиск такого алгоритма проводится на данных клиентов коммерческого банка, которым был выдан кредит, где целевым событием является факт возникновения кредитного дефолта. Кредитный скоринг является популярным объектов исследования, поэтому для многих исследователей проблематика и особенности задачи являются знакомыми. В статье кроме базовых моделей машинного обучения, таких как наивный байесовский классификатор, логистическая регрессия, дискриминантный анализ, метод ближайших соседей, метод опорных векторов и деревья решений, также анализируются алгоритмы, занимающие на соревнованиях первые места, такие как ансамбли над решающими деревьями и нейронные сети. Для построения модели с хорошей обобщающей способностью необходимо выбирать наиболее значимые с точки зрения целевого события входные предикторы - в нашей статье это данные, описывающие потенциального заемщика. Поэтому перед обучением моделей классификации проводится сравнительный анализ следующих методов отбора объясняющих признаков: статистические, итеративные, методы отбора признаков на основе модели градиентного бустинга и набирающий в последнее время популярность генетический алгоритм. Результаты проведенных исследований показали, что для задачи кредитного скоринга на рассматриваемом наборе данных наилучшим методом отбора признаков является отбор на основе показателя ratio gain, а наиболее эффективными классификаторами оказались ансамбли решающих деревьев: случайный лес и градиентный бустинг. Практический вклад проведенного исследования заключается в предложенной стратегии поиска наиболее эффективной модели бинарной классификации. Разработанный подход последовательной оценки методов отбора предикторов и классификаторов с помощью нескольких метрик точности представляет научную новизну.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STRATEGY FOR FINDING AN EFFECTIVE MACHINE LEARNING METHOD BASED ON THE EXAMPLE OF CREDIT SCORING

For many companies, the problem of finding optimal strategies for predicting target events is currently relevant. The aim of this work is to develop a prediction method based on machine learning, which allows solving problems related to the choice of the most effective algorithm. As part of the current work, the search for such an algorithm is carried out on the data of commercial Bank customers who have been issued a loan, where the target event is the fact of a credit default. Credit scoring is a popular subject of research, so for many researchers, the problems and features of the problem are familiar. In addition to basic machine learning models, such as naive Bayesian classifier, logistic regression, discriminant analysis, nearest neighbor method, support vector method, and decision trees, the article also analyzes algorithms that take first place in competitions, such as ensembles over decision trees and neural networks. To build a model with a good generalizing ability, it is necessary to choose the most significant input predictors from the point of view of the target event - in our article, these are data describing a potential borrower. Therefore, before training classification models, a comparative analysis of the following methods for selecting explanatory features is carried out: statistical, iterative, feature selection methods based on the gradient boosting model and the genetic algorithm that is gaining popularity recently. The results of the conducted studies showed that for the problem of credit scoring on the data set under consideration, the best method of feature selection is selection based on the ratio gain indicator, and the most effective classifiers were ensembles of decision trees: random forest and gradient boosting. The practical contribution of the study is the proposed strategy for finding the most effective binary classification model. The developed approach of sequential evaluation of methods for selecting predictors and classifiers using several accuracy metrics is a scientific novelty.

Текст научной работы на тему «СТРАТЕГИЯ ПОИСКА ЭФФЕКТИВНОГО АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ НА ПРИМЕРЕ КРЕДИТНОГО СКОРИНГА»

4.2. Стратегия поиска эффективного алгоритма машинного обучения на примере кредитного скоринга

©Исаев Д. В.

Финансовый университет при Правительстве Российской Федерации, г. Москва, Российская Федерация

e-mail: [email protected]

Аннотация. Для многих компаний проблема поиска оптимальных стратегий прогнозирования целевых событий на сегодняшний день является актуальной. Целью данной работы является разработка метода прогнозирования на основе машинного обучения, позволяющего решить проблемы, связанные с выбором наиболее эффективного алгоритма. В рамках текущей работы поиск такого алгоритма проводится на данных клиентов коммерческого банка, которым был выдан кредит, где целевым событием является факт возникновения кредитного дефолта. Кредитный скоринг является популярным объектов исследования, поэтому для многих исследователей проблематика и особенности задачи являются знакомыми. В статье кроме базовых моделей машинного обучения, таких как наивный байесовский классификатор, логистическая регрессия, дискриминантный анализ, метод ближайших соседей, метод опорных векторов и деревья решений, также анализируются алгоритмы, занимающие на соревнованиях первые места, такие как ансамбли над решающими деревьями и нейронные сети. Для построения модели с хорошей обобщающей способностью необходимо выбирать наиболее значимые с точки зрения целевого события входные предикторы - в нашей статье это данные, описывающие потенциального заемщика. Поэтому перед обучением моделей классификации проводится сравнительный анализ следующих методов отбора объясняющих признаков: статистические, итеративные, методы отбора признаков на основе модели градиентного бустинга и набирающий в последнее время популярность генетический алгоритм. Результаты проведенных исследований показали, что для задачи кредитного скоринга на рассматриваемом наборе данных наилучшим методом отбора признаков является отбор на основе показателя ratio gain, а наиболее эффективными классификаторами оказались ансамбли решающих деревьев: случайный лес и градиентный бустинг. Практический вклад проведенного исследования заключается в предложенной стратегии поиска наиболее эффективной модели бинарной классификации. Разработанный подход последовательной оценки методов отбора предикторов и классификаторов с помощью нескольких метрик точности представляет научную новизну.

Ключевые слова: кредитный скоринг, машинное обучение, отбор признаков, ансамбль моделей.

Для цитирования: Исаев Д. В. Стратегия поиска эффективного алгоритма машинного обучения на примере кредитного скоринга // Проблемы экономики и юридической практики. 2020. Т. 16. № 6. С. 132-138.

Strategy for finding an effective machine learning method based on the example of credit scoring

©D. V. Isaev

Financial University under the Government of the Russian Federation, Moscow, Russian Federation

e-mail: [email protected]

Abstract. For many companies, the problem of finding optimal strategies for predicting target events is currently relevant. The aim of this work is to develop a prediction method based on machine learning, which allows solving problems related to the choice of the most effective algorithm. As part of the current work, the search for such an algorithm is carried out on the data of commercial Bank customers who have been issued a loan, where the target event is the fact of a credit default. Credit scoring is a popular subject of research, so for many researchers, the problems and features of the problem are familiar. In addition to basic machine learning models, such as naive Bayesian classifier, logistic regression, discriminant analysis, nearest neighbor method, support vector method, and decision trees, the article also analyzes algorithms that take first place in competitions, such as ensembles over decision trees and neural networks. To build a model with a good generalizing ability, it is necessary to choose the most significant input predictors from the point of view of the target event - in our article, these are data describing a potential borrower. Therefore, before training classification models, a comparative analysis of the following methods for selecting explanatory features is carried out: statistical, iterative, feature selection methods based on the gradient boosting model and the genetic algorithm that is gaining popularity recently. The results of the conducted studies showed that for the problem of credit scoring on the data set under consideration, the best method of feature selection is selection based on the ratio gain indicator, and the most effective classifiers were ensembles of decision trees: random forest and gradient boosting. The practical contribution of the study is the proposed strategy for finding the most effective binary classification model. The developed approach of sequential evaluation of methods for selecting predictors and classifiers using several accuracy metrics is a scientific novelty.

Keywords: credit scoring, machine learning, feature selection, random forest, ensemble of models.

For citation: Isaev D. V. Strategy for finding an effective machine learning method based on the example of credit scoring // Economic problems and legal practice. 2020. Vol. 16. № 6. P. 132-138.

ВВЕДЕНИЕ

В последнее десятилетие наблюдается растущий интерес к потенциальным приложениям больших данных в различных областях. То же касается и банковского сектора. В статье [1] подробно освещается вопрос внедрения больших данных для оценки кредитных рисков. На ряду с возможными рисками, которые могут возникать при использовании такой технологии, отмечается снижение затрат и рост эффективности банковских систем.

Для принятия решений о кредитовании клиентов используются модели кредитного скоринга, построенные на эмпирических исторических данных. Они дают на выходе вероятность того, что заемщик в будущем не оплатит кредит - прогнозируется наступление дефолта.

В текущей работе будет проведен анализ методов отбора объясняющих признаков, по которым модели будут учиться предсказывать целевую переменную - наступление кредитного дефолта, также будет произведено сравнение различных моделей классификации.

Исследование [2] является одним из первых, в котором был произведен сравнительный анализ классификаторов в рамках задачи кредитного скоринга. В нем сравнивались следующие модели: логистическая регрессия, дискриминантный анализ, метод опорных векторов, нейронные сети, наивный байесовский классификатор, деревья решений и метод ^ближайших соседей. Прогнозная точность моделей проверялась на 9 различных наборах данных. По результатам исследования можно сделать вывод, что нельзя выделить какую-то одну модель, которая показывала бы наилучший результат на всех данных. Для каждой выборки нужно искать свою наиболее эффективную стратегию построения модели. В обновленной работе [3], являющейся дополнением к [2], в сравнительный анализ были добавлены новые классификационные модели, в том числе и модельные ансамбли.

При построении моделей часто возникает проблема дисбаланса целевой переменной. Так в работе [4] перед тем, как сравнивать классификаторы, выборку различными способами преобразовывали, чтобы уменьшить имеющийся классовый дисбаланс.

Примером классического поиска наиболее эффективной модели может быть работа [5]. Проведенное в ней исследование на данных китайского банка показало эффективность использования моделей машинного обучения для принятия решений о выдаче кредита физическим лицам. Наилучшей моделью с точки зрения точности целевой метрики в данной статье, а также в статье [6], была признана модель случайного леса.

Стоит отметить, что проводились отдельные исследования эффективности моделей глубокого обучения, примером такой работы может быть [7]. Архитектуры таких моделей могут быть разнообразны: рекуррентные, сверточные, с подкреплением [8]. Однако в рамках нашей работы будут рассмотрены только классические нейронные сети.

Обширный систематический обзор литературы [9] статистических моделей и моделей машинного обучения в кредитном скоринге подтверждает то, что ансамбли классификаторов работают лучше других моделей. В этом же исследовании отмечается, что пока модели глубокого обучения

не нашли широкого применения в рамках задачи оценки кредитного скоринга.

Важным этапом в построении эффективной модели является отбор признаков. В работе [10] были изучены такие методы отбора признаков как information gain, gain ration и Хи-квадрат. Их разбор будет представлен ниже. Помимо статистических методов в сравнительном анализе также будут исследованы итерационные методы отбора признаков.

Перед нами стоит задача среди представленных исследований прошлых лет выделить основные методики решения и проанализировать, какое решение является наиболее эффективным для наших данных.

Сначала будут проанализированы основные методы отбора признаков, существующих на данный момент. Среди них: статистические методы, итерационные методы и внутренние, на основе важности признака для используемой модели.

Далее будут представлены модели классификации, тестируемые в рамках текущей работы. Для проведения исследования будут использоваться такие показатели точности, как коэффициент Gini и F-мера.

В качестве данных будет использоваться закрытая выборка коммерческого банка. Программирование прогнозных моделей будет осуществляться на языке Python.

НАБОРДАННЫХ

Для разработки модели кредитного скоринга были взяты клиентские данные крупного коммерческого банка, закрытые для общего доступа.

Всего в обучающую выборку вошло более двух миллионов наблюдений. Каждое наблюдение представляет собой финансовое описание клиента. Объясняющих переменных по клиентам собрано более 500, они брались на момент подачи заявки на кредит, чтобы обучающая выборка была максимально близка к реальным данным - главным образом интересует момент принятия решения о выдаче кредита. Целевым действием по каждому наблюдению является факт наступления дефолта или его отсутствие. В собранных данных присутствует дисбаланс целевого события - 13%.

МЕТОДЫ ОТБОРА ОБЪЯСНЯЮЩИХ ПЕРЕМЕННЫХ

Важным этапом в машинном обучении является отбор признаков. Большое количество объясняющих переменных часто ведет к переобучению моделей, многие переменные могут являться шумовыми относительно целевой переменной и не оказывать на нее никакого влияния.

Для нахождения оптимального метода отбора признаков, рассмотрим следующие методы: статистические, итеративные, а также генетический алгоритм.

В качестве статистических методов воспользуемся такими показателями, как information gain (IG), gain ratio (GR) и статистика Хи-квадрат (/2).

Величина information gain основана на энтропии информации. Она вычисляет информационный прирост входных объектов: насколько более упорядоченной становится целевая величина у; в i-ом наблюдении, если мы знаем значение признака x. Чем она выше, тем корреляция между у; и сильнее.

ISSN 2541-8025 (print) Том 16, №6,2020 Проблемы экономики и юридической практики 133

ISSN 2712-7605 (online)

Information gain является пропорциональной сбалансированной мерой: ее значение для у после наблюдения х такое же, как для х после наблюдения у.

Gain ratio является расширением меры information gain. Минусом Information gain является то, что она показывает склонность к выбору признака с более высокими числовыми значениями даже в условиях, когда мы получаем от него меньше информации. GR является несимметричной мерой, он используется для компенсации смещения IG. При предсказании переменной у; информационный выигрыш IG нормализуется путем деления на общую энтропию X. Благодаря нормализации GR принимает значения от 0 до 1, где 1 говорит о том, что информация в х; будет предсказывать у;, а если она равна 0, то х; и у; не будут иметь никакого влияния друг на друга. Gain ration отличается от IG тем, что он лучше работает с более низкими числовыми значениями признаков.

Анализируя статистику хи-квадрат (/2), получаем оценки признаков для определенного класса. В этом методе проводится проверка исходной гипотезы, в которой предполагается, что два признака различны.

Большое значение /2 говорит о более значимом подтверждении альтернативной гипотезы против исходной, т.е. признаки различны (не влияют друг на друга).

Статистические методы отбора объясняющих переменных имеют низкую стоимость вычислений, работают хорошо даже тогда, когда количество признаков превышает количество наблюдений. Однако их главным недостатком является то, что признаки рассматриваются изолированно.

Итеративный отбор признаков напротив, рассматривает объясняющие переменные в группах. Выделяют два подхода: метод последовательного включения и последовательного исключения признаков. В первом методе начинают с пустого подмножества, добавляя на каждом шаге наиболее оптимальный признак с точки зрения строящегося классификатора. Во втором подходе наоборот: начинают с исходного множества признаков, на каждом следующем шаге признаки удаляются -такой подход называется RFE (recursive feature elimination). В итерационных методах для оценки значимости добавления или исключения признаков требуется выбрать классификатор.

Несмотря на то, что подобный метод позволяет отслеживает взаимосвязи между признаками, он требует много вычислительных ресурсов. Если признаков много, а обучающая выборка мала, то появляется склонность к переобучению.

Генетический алгоритм (GA) отбора признаков является хорошей альтернативой итеративным алгоритмам: с одной стороны, он анализирует вклад группы признаков, с другой стороны он совершает меньшее количество переборов. За его основу взят биологический процессе естественного отбора: отбор генов, их скрещивание и мутация [11]. Формирование признаков и отбор лучших из них происходит в цикле смены поколений.

КЛАССИФИКАТОРЫ МАШИННОГО ОБУЧЕНИЯ

Первая модель, которая будет участвовать в нашем сравнительном анализе - наивный байесовский классификатор (NB). В основе наивного байесовского классификатора лежит упрощающее предположение о том, что входные признаки, учитывая метку класса, являются условно независимыми.

Несмотря на свою простоту, данный классификатор на практике часто показывает хорошую точность классификации. Сре-

ди его преимуществ стоит отметить: быструю обучаемость и понятную логику принятия решения.

За счет своей интерпретируемости классической моделью оценки скоринга по-прежнему является логистическая регрессия (LR). Она относится к линейным моделям, для которых характерно:

- быстрая обучаемость;

- восстанавливают только простые зависимости;

- могут восстанавливать нелинейные зависимости за счет перехода к спрямляющим пространствам. Однако такой переход является довольно сложной операцией.

Подробно модель логистической регрессии была разобрана в исследовании [12]. В нем оценка кредитного скоринга производилась с помощью тонкой настройки логистической регрессии, а именно с помощью L1-регуляризации (модель Lasso).

Кроме логистической регрессии для сравнения возьмем модели дискриминантного анализа. Они основаны на теореме Байеса, они присваивают наблюдению с параметрами x класс у, имеющий наибольшую апостериорную вероятность р(у|х). Выделяют две модели дискриминантного анализа: квадратичную (QDA) и линейную (LDA) - вторая является упрощением первой.

Помимо линейных моделей проанализируем эффективность метрических алгоритмов, которые подразумевает, что в пространстве признаков введены понятия расстояния, т.е. определена метрика.

Одним из таких алгоритмов является метод k-ближайших соседей (KNN), который классифицирует объекты, рассматривая k ближайших объектов в известном наборе данных. Метка класса присваивается в соответствии с классом большинства k ближайших соседей. Обычно в качестве меры подобия выбирается Евклидово расстояние.

Метод KNN быстро обучается и относительно хорошо интерпретируется. Однако плохо работает при большом количестве признаков, данная особенность называется «проклятием размерности». Оптимальное количество соседей подбирается опытным путем. В качестве первичной прикидки нами будут исследоваться модели с 5 и 50 ближайшими соседями.

Следующая рассматриваемая модель, анализируемая в рамках исследования, метод опорных векторов (SVM). Она классифицирует объекты с помощью построения гиперплоскости в пространстве признаков, разделяющей объекты таким образом, что расстояние между ближайшими объектами различных классов является максимальным.

Метод опорных векторов может выполнять нелинейную классификацию. С этой целью используются ядра для проецирования входных данных в нелинейное пространство признаков. Наиболее часто используемые ядра: линейное (li), полиномиальное (poly) и радиальное (rbf). Однако он плохо подходит для больших данных, так как обучение занимает много времени. Модель SVM хорошо работает с данными небольшого размера и большим количеством признаков. Еще одним недостатком алгоритма является его неустойчивость к выбросам в обучающей выборке, которые учитываются алгоритмом при построении разделяющей гиперплоскости. Ввиду описанных особенностей метод опорных векторов плохо подходит для наших данных. Чтобы наглядно продемонстрировать вышеописанные недостатки, включим его в общий анализ моделей.

В рамках нашего исследования также будет рассмотрены модели семейства алгоритмов решающих деревьев, которые относятся к непараметрическим методам обучения. Целевая

переменная выводится путем простых правил условий больше-меньше по признакам. Преимуществами деревьев решения являются:

- способность восстанавливать сложные закономерности,

- возможность визуализации,

- не требуют трудоемкой подготовки данных,

- способны обрабатывать категориальные данные,

- высокая скорость построения.

Одним из наиболее популярных алгоритмов решающих деревьев является CART (classification and regression tree). Он строит бинарное дерево решений: узлы дерева имеют только два потомка.

При всех своих удобствах деревья решений легко переобучаются: слишком легко подгоняются под обучающую выборку. Эту проблему решают ансамбли деревьев, которые будут рассмотрены далее.

Одним из решений проблемы переобучения деревьев решений является случайный лес (RF) - набор деревьев решений, строящихся независимо друг от друга. Усреднение результатов множества деревьев, каждое из которых хорошо работает, уменьшает переобучение с сохранением прогнозной силы.

Недостатком случайного леса является то, что обучения множества глубоких деревьев требует много вычислительных ресурсов. Если ограничить их глубину, то это приведет к большему смещению. Вторая проблема в ненаправленности алгоритма случайного леса, что требует построения большого количества деревьев.

Градиентный бустинг напротив, является направленным алгоритмом: каждый последующий алгоритм обучается на исправлении ошибок уже построенной композиции предыдущих деревьев. В градиентном бустинге используются деревья небольшой глубины, что ускоряет вычисление прогнозов. Данный метод классификации часто занимает первые места в соревнованиях. В нашем исследовании будет использоваться одна из реализаций градиентного бустинга

- Light Gradient Boosting (LGB).

В статьях [13, 14] оценка кредитного скоринга производилась с помощью нейронных сетей ELM. Экстремальные обучающие машины (ELM) - это однослойные нейронные сети с прямой связью, способные обучаться быстрее по сравнению с градиентными методами обучения. Этот вид нейронной сети не выполняет итерационную настройку, что делает ее более быстрой с лучшей обобщающей способностью, чем сети, обу-

ченные с использованием метода обратного распространения ошибки. Поэтому для полноценного исследования в набор моделей, которые будем сравнивать между собой, включим модель классической нейронной сети и сеть ELM.

СРАВНИТЕЛЬНЫЙ АНАЛИЗ

Для сравнения методов отбора объясняющих признаков нам понадобятся различные модели классификации. В качестве таких моделей возьмем: наивный байесовский классификатор, логистическую регрессию, квадратичный дискриминантный анализ, случайный лес и градиентный бустинг. Такой выбор моделей обусловлен скоростью обучения и прогнозной мощностью моделей.

Достигаемая моделями точность при отборе признаков разными способами представлена в таблице ниже (таб. 2). В качестве метрики оценки точности использовался коэффициент Gini: Gini = 2 * AUCROC — 1 (1). Данную метрику чаще всего используют на практике различные компании.

Таблица 1

Сравнение методов отбора признаков

information gain gain ratio Хи-квадрат RFE GA

NB 0,529 0,546 0,536 0,543 0,541

LR 0,398 0,418 0,395 0,413 0,421

QDA 0,524 0,543 0,516 0,536 0,544

RF 0,868 0,886 0,867 0,888 0,885

LGB 0,847 0,865 0,852 0,858 0,862

Отбор признаков на основе статистики Хи-квадрат и отбор с помощью показателя information gain показали результат слабее, чем остальные методы отбора.

Итеративный метод RFE и генетический алгоритм показали высокий результат, однако отбор предикторов с помощью gain ratio, продемонстрировавший схожую точность, показал большую стабильность для всех моделях, поэтому для отбора признаков будем использовать именно его.

После выбора метода отбора объясняющих переменных, необходимо установить количество наиболее значимых признаков, которые будет передаваться в модели.

На основе gain ration и модели градиентного бустинга определим оптимальное количество признаков, необходимое для построения моделей. Для этого сначала построим график зависимости коэффициента Gini от количества признаков (рис. 3).

features count Рисунок 1. Зависимость Gini от количества признаков.

Проблемы экономики и юридической практики

135

Как мы можем наблюдать на представленном выше графике, начиная с 11 признаков точность модели на обучающей и тестовой выборках перестает меняться.

В литературе для оценки моделей кредитного скоринга встречаются и другие методы оценки эффективности моделей. Так в работе [15] исследователи кроме меры ЛЫС использовали тест Колмогорова-Смирнова и непараметрический критерий Вилкоксона.

Мы проведем анализ оптимального количества признаков по Р-мере. Для этого на каждом наборе признаков строим кросс-валидацию из 10 фолдов, по которой будет высчиты-ваться среднее и отклонение данного показателя.

Р-мера является среднегармоническим показателем между точностью и полнотой, т.е. он полностью характеризует то, на сколько хорошо определяется наступление целевого события.

Коэффициента СЫ недостаточно для оценки качества моделей, так как при дисбалансе целевого события, как в наших данных, модель хорошо обучается предсказывать негативные целевые события. Нас же интересует наступление дефолта, а не его отсутствие, поэтому в рамках нашего исследования модели будут сравниваться по Р-мере.

Результат проведенного анализа представлен на графике ниже (рис. 2).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ U Y\ и M M: « M M M X X X X X >4 X X: X X

Y

10 11 12 13 14 15 16 17 13 19 20 21 22 23 24 25 26 27 23 29

features count

Рисунок 2. Зависимость F-меры от количества признаков.

Зависимость F-меры от количества предикторов так же продемонстрировало, что оптимальное количество признаков для нашей задачи - 11.

Перейдем к сравнительному анализу моделей. На графике ниже (рис. 3) представлены «ящики с усами» по каждой моде-

ли. С их помощью мы можем увидеть медиану и разброс прогнозов моделей на кросс-валидации. Именно процедура кросс-валидации позволяет наилучшим образом оценивать обобщающую способность моделей.

Models

Рисунок 3. Сравнение моделей.

По графику можно увидеть, что наилучший результат по F-мере показал случайный лес. Он продемонстрировал наибольшую точность в совокупности с маленьким разбросом. Более подробны результаты прогнозирования моделей, а также время обучения моделей представлены на рис. 4.

136 Economic problems and legal practice Vol. 16, №6,2020 ISSN 2541-8025(print)

ISSN 2712-7605(online)

NB: а E57414 {0.005504} 1 time: 0 00 00

LR: S 422615 {0.008738} 1 tima: 0 00 02

LDA: 5.34S634 (0.009002) 1 tima: 0 00 01

QDA: 5.56083S (0.005225) 1 tima: 0 00 00

KNN5: 0.821370 (0.005071} 1 tima: 0 01 13

KNN50 0.784843 (0.005782} 1 tima: 0 01 47

SVM-li: 0.375817 (0.008127) 1 tima: 0 52 57

SVM-poly: @.528204 (0.011518) I tima: S 32 28

SVM-rbf: 0.779349 (0.004607) 1 tima: 0 26 24

CART: 0.840415 (0.004976} 1 tima: 0 00 05

RF: 0 909175 {0.003903} 1 tima: 0 01 46

LGB: .901448 (0.004037) 1 tima: 0 00 03

NW: 0 866S23 {0.006937} 1 tima: 0 12 17

ELM: 5.813058 (0.009261) 1 tima: 0 06 17

Рисунок 4. Результаты сравнения моделей.

Как мы видим опасения относительно моделей опорных векторов подтвердились, время их обучения гораздо больше, чем у других моделей. Модель с полиномиальным ядром обучается дольше всех, время, затраченное на ее построение - 8,5 часов. Модель с линейным ядром обучалась почти час. Из трех моделей опорных векторов хорошую точность показала только модель с радиальным ядром, но и ее время обучения делает ее использование нерациональным.

Наиболее слабыми моделями оказались логистическая регрессия и линейный дискриминантный анализ. Наивный байесовский классификатор и квадратичный дискрими-нантный анализ имеют наименьшее время обучения, и они показали точность, близкую к средней точности рассматриваемых моделей.

Классический метод ближайших соседей показал высокий результат. В нашем анализе участвовало две модели, строящих свой прогноз на разном количестве ближайших соседей. Выбор количества соседей, по которым будет строиться прогноз, исследуется отдельно, поэтому в рамках нашего исследования для приблизительной оценки классификатора KNN были взяты модели с значительной разницей количества соседей.

Точность нейронных сетей оказалась сравнима с деревом решений, однако время обучения даже упрощенной нейронной сети ELM значительно выше, чем у дерева CART - 12 минут против 5 секунд. Сложная архитектура нейронных сетей в рамках нашей задачи себя не оправдала.

Наилучший результат продемонстрировала модель случайного леса: показатель GINI = 91%. Почти такой же результат показал другой ансамбль деревьев - градиентный бустинг. За счет того, что градиентный бустинг имеет направленное обучение, скорость обучения модели значительно меньше. В зависимости от бизнес-требований случайный лес можно выбрать, как наиболее точную модель, а градиентный бустинг, как наиболее быстро обучающуюся.

ЗАКЛЮЧЕНИЕ

В данной работе были проанализированы различные методы отбора объясняющих переменных, а также различные модели бинарной классификации. Исследование проводилось на данных кредитных дефолтов клиентов коммерческого банка. В ходе сравнительного анализа были выбраны наиболее оптимальные методы отбора предикторов и классификаторы наступления целевого события.

В ходе проведенного исследования была разработана стратегия, которая позволяет выстроить под любую задачу прогнозирования наиболее эффективный алгоритм машинного обучения.

Найденная нами стратегия прогнозирования дефолта по кредитам не является универсальной для всех банков, так как каждый банк имеет свою специфику клиентов, однако предложения в данном исследовании стратегия метода прогнозирования может стать отправной точкой для моделирования любого целевого события.

Для нашего набора данных отбор признаков с помощью показателя gain ratio, посчитанного с помощь модели градиентного бустинга, оказался наиболее оптимальным вариантом. Ансамблевые модели над решающими деревьями, такие как случайный лес и градиентный бустинг, показали наилучший результат в сравнении с другими моделями машинного обучения.

Одним из вариантов по улучшению результата прогнозирования кредитного скоринга является включение дополнительных предикторов. Так, например, в работе [16] использовались альтернативные предикторы: содержание электронной почты и психометрические данные. Помимо сбора и формирования новых признаков можно включить мета-признаки, полученные с помощью кластеризации клиентов. Подобные исследования на данных кредитного скоринга уже проводились в работах [17] и [18], результат показал повышение эффективности оценки кредитного риски. Также работая с данными, можно отдельно поработать с отказами, поделить выборку отказов на три группы в зависимости от степени отказа [19].

В дальнейшем нами планируется исследовать несколько стратегий улучшения модели кредитного скоринга. Первое исследование будет направлено на транзакционную активность клиентов. Так по карточным транзакциям можно обучить модель оценки вероятности того, что клиент выйдет в дефолт. Для построения такой модели необходимо будет рассмотреть такие модели, как рекуррентную нейронная сеть, а также свер-точную нейронную сеть, которая, несмотря на свое предназначение, иногда демонстрирует лучшую точность для последовательности событий. Кроме того, что построенную модель можно будет рассматривать, как альтернативу построению моделей, рассмотренных в данной статье, ее также можно использовать в качестве метапризнака для оценки кредитного рейтинга классическими моделями.

Другой стратегией развития прогнозирования кредитных дефолтов является исследование на обогащение объясняющих переменных показателем нахождения в кризисное время. В рамках такого исследования необходимо будет решить, что определяет кризисное время, что является его временными границами, а также оценить, является ли созданный признак значимым с точки зрения оценки кредитного скоринга.

Рыночные условия постоянно меняются, как и поведение клиентов, поэтому модель кредитного скоринга, как и любая модель в целом, должна регулярно переобучаться на новых данных [20].

Статья проверена программой «Антиплагиат». Оригинальность 85,17%.

Рецензент: доцент Департамента анализа данных и машинного обучения, кандидат экономических наук, доцент Н.В. Гринева

ISSN 2541-8025 (print) Том 16, №6,2020 Проблемы экономики и юридической практики 137

ISSN 2712-7605 (online)

Список литературы / Reference list:

1. D. Guegan, B. Hassani Regulatory learning: How to supervise machine learning models? An application to credit scoring // The Journal of Finance and Data Science. 2018. №4.

2. Baesens B., Van Gestel T., Viaene S., Stepanova M., Suykens J., Vanthienen J. Benchmarking state-of-the-art classification algorithms for credit scoring // Journal of the Operational Research Society. 2003. №54.

3. S. Lessmann, B. Baesens, H-V. Seow, L. C.Thomas Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research // European Journal of Operational Research. 2015. №247.

4. V. Moscato, A. Picariello, G. Sperli A benchmark of machine learning approaches for credit score prediction // Expert Systems With Applications. 2020. №165.

5. Yuelin Wang, Yihan Zhang, Yan Lu, Xinran Yu A Comparative Assessment of Credit Risk Model Based on Machine Learning - a case study of bank loan data // Procedia Computer Science. 2020. №174.

6. P. Ziemba, A. Radomska-Zalas, J. Becker Client evaluation decision models in the credit scoring tasks // Procedia Computer Science. 2020. №176.

7. Cuicui Luo, Desheng Wu, Dexiang Wu A deep learning approach for credit scoring using credit default swaps // Engineering Applications of Artificial Intelligence. 2017. №65.

8. M. Herasymovych, K. Marka, O. Lukason Using reinforcement learning to optimize the acceptance threshold of a credit scoring model // Applied Soft Computing Journal. 2019. №84.

9. X. Dastile, T. Celik, M. Potsane Statistical and machine learning models in credit scoring: A systematic literature survey // Applied Soft Computing Journal. 2020. №91.

10. S. K. Trivedi A study on credit scoring modeling with different feature selection and machine learning approaches // Technology in Society. 2020. №63.

11. A. Gumus, M. E. Tenekeci, A. V. Bilgili Estimation of wheat planting date using machine learning algorithms based on available climate data // Sustainable Computing: Informatics and Systems. 2020.

12. H. Chena, Y. Xiang The Study of Credit Scoring Model Based on Group Lasso // Procedia Computer Science. 2017. №122.

13. A. Beque, S. Lessmann Extreme learning machines for credit scoring: An empirical evaluation // Expert Systems With Applications. 2017. №86.

14. D. Tripathi, D. R. Edla, V. Kuppili, A. Bablani Evolutionary Extreme Learning Machine with novel activation function for credit scoring // Engineering Applications of Artificial Intelligence. 2020. №96.

15. F. Shen, X. Zhao, G. Kou, F. E. Alsaadi A new deep learning ensemble credit risk evaluation model with an improved synthetic minority oversampling technique // Applied Soft Computing. 2020.

16. V. B. Djeundje, J. Crook, R. Calabrese, M. Hamid Enhancing credit scoring with alternative data // Expert Systems with Applications. 2020. №163.

17. Wang Bao, Ning Lianju, Kong Yue Integration of unsupervised and supervised machine learning algorithms for credit risk assessment // Expert Systems With Applications. 2019. №128.

18. Haoting Zhang, Hongliang He, Wenyu Zhang Classifier selection and clustering with fuzzy assignment in ensemble model for credit scoring // Neurocomputing. 2018. №316.

19. Feng Shena, Xingchao Zhao, Gang Kou Three-stage reject inference learning framework for credit scoring using unsupervised transfer learning and three-way decision theory // Decision Support Systems. 2020. №137.

20. J. P. Barddal, L. Loezer, F. Enembreck, R. Lanzuolo Lessons learned from data stream classification applied to credit scoring // Expert Systems With Applications. 2020. №162.

Статья поступила в редакцию 11.11.2020, принята к публикации 02.12.2020 The article was received on 11.11.2020, accepted for publication 02.12.2020

ИНФОРМАЦИЯ ОБ АВТОРЕ

Исаев Денис Вадимович, аспирант, Финансовый университет при Правительстве Российской Федерации, г. Москва, Российская Федерация, e-mail: [email protected]

INFORMATION ABOUT THE AUTHOR

Denis V. Isaev, graduate student, Financial University under the Government of the Russian Federation, Moscow, Russian Federation, e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.