Научная статья на тему 'ОЦЕНКА КРЕДИТНОГО СКОРИНГА НА ОСНОВЕ КАРТОЧНЫХ ТРАНЗАКЦИЙ'

ОЦЕНКА КРЕДИТНОГО СКОРИНГА НА ОСНОВЕ КАРТОЧНЫХ ТРАНЗАКЦИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
584
110
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРИНГ / КАРТОЧНЫЕ ТРАНЗАКЦИИ / ВРЕМЕННОЙ РЯД / МАШИННОЕ ОБУЧЕНИЕ / ГРАДИЕНТНЫЙ БУСТИНГ / ФОРМИРОВАНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ / ОТБОР ПРИЗНАКОВ / ГЛУБОКОЕ ОБУЧЕНИЕ / РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ / АРХИТЕКТУРА НЕЙРОННОЙ СЕТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Исаев Д.В.

Разработка моделей кредитного скоринга стала одним из основных направлений деятельности финансовых учреждений. Для решения этой задачи исследовались различные алгоритмы классификации, однако в литературе слабо освещен вопрос, посвященный использованию для оценки клиентской кредитоспособности таких больших данных, как карточные транзакции. За последние десятилетия банки собрали множество информации, описывающей поведение своих клиентов по умолчанию. Поскольку истории карточных транзакций накапливаются по каждому клиенту, то их использование в оценке кредитного риска могло бы дать существенный прирост информации и, как следствие, повысить прогнозную точность моделей. Главной задачей данного исследования является установление целесообразности использования карточных транзакций для оценки кредитного скоринга. С этой целью построены различные архитектуры глубокого обучения, основанные на рекуррентных нейронных сетях, также для сравнения была построена модель градиентного бустинга. Построенные модели сравнивались между собой по метрике Gini, как наиболее популярной метрике оценки моделей машинного обучения. По результатам проведенных исследований можно сделать вывод, что карточные транзакции можно использовать для оценки кредитного скоринга, и нейронные сети справляются с этой задачей лучше, чем такой ансамбль деревьев, как градиентный бустинг. Подготовка данных и предложенные архитектуры нейронных сетей имеют научную новизну. На практике прогнозы моделей, обученных на транзакционных данных, могут использоваться в качестве мета-признаков внутри основных моделей кредитного скоринга, что может повысить их прогнозную точность и, как следствие, принести экономическую выгоду финансовым учреждениям.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Исаев Д.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CREDIT SCORING SCORE BASED ON CARD TRANSACTIONS

The development of credit scoring models has become one of the main activities of financial institutions. To solve this problem, various classification algorithms have been studied, but the literature does not cover the issue of using big data such as card transactions to assess customer creditworthiness. Over the past decades, banks have collected a wealth of information describing the default behavior of their customers. Since the history of card transactions is accumulated for each client, their use in the assessment of credit risk could give a significant increase in information and, as a result, increase the predictive accuracy of the models. The main objective of this study is to establish the feasibility of using card transactions to evaluate credit scoring. For this purpose, various deep learning architectures based on recurrent neural networks were built, and a gradient boosting model was also built for comparison. The constructed models were compared using the Gini metric, which is the most popular metric for evaluating machine learning models. According to the results of the conducted research, it can be concluded that card transactions can be used to evaluate credit scoring, and neural networks cope with this task better than such an ensemble of trees as gradient boosting. Data preparation and the proposed neural network architectures are of scientific novelty. In practice, forecasts of models trained on transactional data can be used as meta-features within the main credit scoring models, which can increase their predictive accuracy and, as a result, bring economic benefits to financial institutions.

Текст научной работы на тему «ОЦЕНКА КРЕДИТНОГО СКОРИНГА НА ОСНОВЕ КАРТОЧНЫХ ТРАНЗАКЦИЙ»

Оценка кредитного скоринга на основе карточных транзакций

Исаев Денис Вадимович

аспирант, Финансовый университет при Правительстве Российской Федерации, denis-isaev173@mail.ru

Разработка моделей кредитного скоринга стала одним из основных направлений деятельности финансовых учреждений. Для решения этой задачи исследовались различные алгоритмы классификации, однако в литературе слабо освещен вопрос, посвященный использованию для оценки клиентской кредитоспособности таких больших данных, как карточные транзакции. За последние десятилетия банки собрали множество информации, описывающей поведение своих клиентов по умолчанию. Поскольку истории карточных транзакций накапливаются по каждому клиенту, то их использование в оценке кредитного риска могло бы дать существенный прирост информации и, как следствие, повысить прогнозную точность моделей. Главной задачей данного исследования является установление целесообразности использования карточных транзакций для оценки кредитного скоринга. С этой целью построены различные архитектуры глубокого обучения, основанные на рекуррентных нейронных сетях, также для сравнения была построена модель градиентного бустинга. Построенные модели сравнивались между собой по метрике Gini, как наиболее популярной метрике оценки моделей машинного обучения. По результатам проведенных исследований можно сделать вывод, что карточные транзакции можно использовать для оценки кредитного скоринга, и нейронные сети справляются с этой задачей лучше, чем такой ансамбль деревьев, как градиентный бустинг.

Подготовка данных и предложенные архитектуры нейронных сетей имеют научную новизну.

На практике прогнозы моделей, обученных на транзакционных данных, могут использоваться в качестве мета-признаков внутри основных моделей кредитного скоринга, что может повысить их прогнозную точность и, как следствие, принести экономическую выгоду финансовым учреждениям. Ключевые слова: кредитный скоринг, карточные транзакции, временной ряд, машинное обучение, градиентный бустинг, формирование обучающей выборки, отбор признаков, глубокое обучение, рекуррентные нейронные сети, архитектура нейронной сети.

Введение

Для принятия решения о предоставлении кредита за последние десятилетия разработаны различные количественные методы, которые также называются моделями кредитного скоринга. Их цель состоит в том, чтобы разделить претендентов на получение кредита на две группы: первая группа - это те, кто наиболее вероятно сможет погасить свои финансовые обязательства в будущем, вторая - те, кому стоит отказать в кредите, так как велика вероятность того, что будут не выполнены финансовые обязательства.

Результат кредитного скоринга обычно представлен в баллах, и количество баллов позволяет отнести клиента к соответствующей категории риска (например, надежные клиенты или клиенты, у которых могут возникнуть проблемы с погашением кредита). Кредитный скоринг, независимо от того, как он рассчитывается и какие характеристики учитывает, устраняет человеческий фактор и обеспечивает объективность процесса, что снижает риски и ускоряет кредитный процесс.

На ряду с развитием кредитной индустрии и управляемыми кредитными портфелями, разрабатываются более точные скоринговые модели. Увеличение точности данных моделей даже на долю процента приносит значительную финансовую выгоду и большую стабильность. Все это ведет к исследованию множества моделей: классификационных деревьев решений, статистических методов и нейросетевых технологий с приложением к кредитному скорингу.

Существует множество работ, посвященных поиску наилучшего алгоритма, дающего наилучшую точность в задаче клиентского скоринга на предмет дефолтных кредитов в будущем [1, 2].

Однако применительно к скорингу клиентов мало освещен вопрос использования таких больших данных, как карточные транзакции. Большинство банков хранит внушительные объемы транзакционных данных по каждому клиенту и их использование может значительно повысить точность скоринговых моделей. Примером работ, в которых предметом исследования являлись тран-закционные данные, могут быть [3,4,5].

Во многих исследованиях, посвященных кредитному скорингу, нейронные сети были представлены многослойными перцептронами [6,7,8]. Для работы с временными рядами лучше подходят рекуррентные сети, поскольку их архитектура наилучшим образом подходит для работы с последовательностью данных.

Методы глубокого обучения не всегда превосходят классические методы машинного обучения. В работе [9] поднимался вопрос о том, стоит ли использовать алгоритмы глубокого обучения для кредитного скоринга. Выводы, сделанные в данном исследовании: градиентный бустинг является наиболее эффективным методом кредитного скоринга из всех рассмотренных там методов. Глубокие нейронные сети не превосходят более простые аналоги и значительно дороже в вычислительном

X X

о

го А с.

X

го т

о

ю

2 О

м

сч

0 сч

ю

01

о ш m

X

<

m О X X

отношении. Однако стоит заметить, что специфика данных очень важна при выборе модели.

Поэтому для более полной оценки карточных транзакций в рамках нашей задачи включим в сравнительный анализ моделей одну из наиболее популярных моделей классического машинного обучения - градиентный бустинг.

В рамках текущей работы планируется выяснить, можно ли использовать транзакционные данные для моделирования возникновения кредитных дефолтов в будущем.

В качестве метрики оценки модельной точности будем использовать наиболее часто использующуюся на практике меру - коэффициент в/л/.

Сбор и подготовка данных

В качестве данных, на которых будет проводиться исследования, были взяты закрытые для общего доступа клиентские данные крупного коммерческого банка. Всего в обучающую выборку вошло 15 признаков, в которые входят: время, тип, тсс-код, валюта, страна и сумма транзакции. Глубина выборки - год.

Целевым действием по каждому наблюдению является факт наступления дефолта или его отсутствие. В собранной выборке наблюдается дисбаланс целевого события - 13%.

Перед дальнейшей подготовкой данных было произведено преобразование категориальных полей с помощью метода LabelEncoding, заключающийся в создании словаря соответствия категориальных значений порядковым номерам. Данный метод был доработан: преобразование данных полей допускает получение на вход ранее не встречавшихся категориальных значений, в таком случае таким значениям присваивался общий порядковый номер.

Подготовка транзакционных данных для бустинга и нейронных сетей проводилась двумя разными способами.

Для модели градиентного бустинга первоначально требуется сформировать большое количество признаков с последующим отбором наиболее значимых из них. Такие признаки создаются на основе статистических агрегаций: суммы, минимума, максимума, среднего и медианы. Группировки производятся по всем полям, кроме суммы транзакции.

Следующий подход формирования обучающей выборки необходим для обучения нейронных сетей. Изначально мы имеем дело с данными вида дата-клиент-транзакция, нам же нужно преобразовать данные к виду дата-клиент-[последовательность транзакций, предшествующих текущей дате]. Под транзакцией следует понимать ее полное описание: тип, категория и т.п. По каждому клиенту мы будем иметь разную длину транзакци-онной истории, поэтому необходим паддинг - заполнение последовательности нулям (можно выбрать другое значение) до одинаковой длины во всех наблюдениях. В [10] рекомендуется использовать частотный паддинг:

1) задается словарь соответствия, где для последовательности каждой длины указывается, до какой максимальной длины нужно делать паддинг;

2) транзакции группируются по бакетам на основе их длины

3) в каждой группе производится паддинг на основе заданного словаря.

В результате получаем набор данных разбитый для обучения нейронной сети на батчи. Один батч представляет собой тензон вида: [кол-во наблюдений]х[кол-во признаков]х[длина паддинга текущего батча].

После того, как мы подготовили данные, переходим к моделированию кредитных дефолтов. Первая модель, с которой мы начнем - градиентый бустинг.

Градиентный бустинг

Лидерами большинства соревнований являются ансамблевые методы, а также генеративные методы создания дополнительных объясняющих переменных. В сравнении с созданием новых признаков использование ансамблевых методов несколько проще, в связи с чем они имеют большую популярность среди исследователей данных. Существует несколько ансамблевых методов, которые, как показала практика, в совокупности с передовыми алгоритмами машинного обучения повышают точность. Одним из таких методов является градиентный бустинг. Несмотря на то, что градиентный бустинг часто фигурирует, как черный ящик, принцип его работы можно точно описать.

Как следует из названия, обучение в ансамбле включает в себя построение сильной модели с использованием набора простых моделей. Градиентный бустинг относится к категории методов бустинга, которые итеративно учатся по каждой простой модели, чтобы построить одну сильную.

В качестве модели градиентного бустинга будем использовать LightGBM. Это фреймворк, созданный группой исследователей и разработчиков из Microsoft. Он представляет собой градиентный бустинг над деревьями принятия решений. В первую очередь LightGBM известен своей прогнозной точностью и высокой скоростью обучения.

Чтобы избежать переобучения модели, параллельно ее обучению будет производиться оценка точности модели на валидационной выборке.

Для улучшения обобщающей способности также необходим отбор входных признаков. Их выбор представляет собой процесс сокращения числа переменных, подаваемых на вход модели для обучения прогнозирования целевого события.

Существует множество методов для решения этой задачи, от простых до абсурдно сложных, и некоторые алгоритмы выбора признаков, вероятно, сами по себе квалифицируются как модели машинного обучения. В нашем исследовании будут тестироваться три метода отбора ключевых признаков:

1) на основе значимости признаков с точки зрения самой модели,

2) на основе показателя Gini, полученному по каждому признаку отдельно,

3) метод перестановок.

Поскольку в качестве модели мы используем модель Lightgbm, то следует обратиться к ее документации, чтобы определить, как ранжируются объясняющие переменные внутри модели. В [11] указано, что для расчета значимости признаков (featurejmportance), есть параметр importance_type, который принимает одно из двух допустимых значений: по умолчанию параметр равен "split", его можно изменить на "gain". Если используется параметр "split", то значимость признака рассчитывается, как количество раз, когда рассматриваемый признак используется в модели, если "gain", то она рассчитывается, как общий выигрыш разбиений, в которых он использовался. Включим в сравнительный анализ результаты отработки модели с признаками, отобранными с помощью обоих методов.

В статье [12] для измерения индивидуальной важности каждого входного признака было предложено использовать площадь под ROC-кривой, обозначаемой, как ЛиО-ИОО. Для бинарной классификации ROC-кри-вая представляет собой графическое отображение доли истинно положительных предсказаний в сравнении с долей ложно предсказанных целевых событий. Поскольку в рамках нашего исследования целевой метрикой моделей выбран коэффициент в/л/, являющийся линейной преобразованием от ЛиО-ИОО: ат = 2*А11С1ЮС-1 (1), то для отбора ключевых признаков будем использовать в/п/. Таким образом модель обучается отдельно по каждому признаку, и в зависимости от получаемого коэффициента От^ производится ранжирование признаков.

Третий метод, который мы используем для сравнительного анализа отбора предикторов, - метод перестановок [13]. Согласно данной методике значение каждого признака определяется, как уменьшение точности модели при случайном перемешивании одного из них. Сравнение точности происходит с исходной моделью, где признаки не перемешены. Этот метод разрывает связь между объясняющими переменными и целевым событием. Таким образом, падение точности модели указывает на то, на сколько модель зависит от перемешанного признака. Точность модели до и после перестановки будет оцениваться так же с помощью коэффициента в/п/.

Точность модели с тремя различными способами отбора объясняющих переменных приведена ниже:

Таблица 1

Точность градиентного бустинга с различными методами

В начале нашей сети будем векторизовать категориальные признаки в пространство заранее заданной величины. После этого они будут объединяться с непрерывными признаками. Данный процесс представлен на схеме рис. 1:

Метод оценки значимости признака Точность модели (Gini)

Модельная значимость (split) 0,615

Модельная значимость (gain) 0,622

Gini 0,597

Метод перестановок 0,611

Наибольшую точность показала модель градиентного бустинга, обученного по признакам, которые были отобраны с помощью модельной значимости по методу gain.

Теперь можно перейти к разработке модели нейронной сети.

Нейронные сети

Общее эмпирическое правило выбора структуры нейронной сети заключается в том, чтобы начинать с простых архитектур и усложнять их по мере необходимости. Не рекомендуется сразу начинать с огромных новейших сетей, которые показывают в какой-то области наилучший результат, так как проблематика рассматриваемой задачи может быть решена с помощью более легкой сети. Данная логика похожа на то, что если мы хотим приготовить торт, не обязательно использовать блендер - можно обойтись и без него.

Однако если решаемая проблема имеет сходство по своей сути с работами других исследователей стоит пробовать их успешные решения переносить на свою задачу.

При разработке нейронной сети важно учитывать имеющиеся ресурсные ограничения: могут быть ограничения по оперативной памяти, может отсутствовать графический процесс.

Рисунок 1. Обработка входных данных в нейронной сети

Главным элементом нашей нейронной сети будет выступать рекуррентная нейронная сеть. Данный вид сети устроен таким образом, что, имея подобие внутренней памяти, она может применяться к обработке последовательностей, таких как тексты, или, как в нашем случае, к временным рядам транзакций.

Первоначально, рекуррентные сети не могли запоминать предыдущие значения последовательности на длительное время. Для решения данной проблемы были разработаны сети с более сложными архитектурами ячеек. Наиболее распространенными архитектурами ячеек рекуррентных сетей стали: LSTM (Long short-term memory - «долгая долгосрочная память») и GRU (Gated Recurrent Units - «управляемые рекуррентные блоки»).

Архитектура LSTM позволяет побороть проблему затухающего градиента, которая поражает все рекуррентные нейронные сети, позволяя создавать очень большие и глубокие сети [14]. В ячейке данного типа есть три основных вида узла, которые называются гейтами: входной, забывающий и выходной [15]. Помимо перечисленных гейтов ячейка обладаем скрытым состоянием. Структура подобной ячейки дает возможность запоминать информацию на долгое время. С появлением подобных структурных ячеек рекуррентные сети получили большое развитие и применение.

В GRU-архитектура имеет меньшее количество параметров, поскольку выходной гейт совместили с забывающим гейтом, а его значение выхода ячейки совмещено со скрытым состоянием. Как следствие, модель, построенная на GRU-ячейках, обучается быстрее моделей на основе LSTM. Результаты GRU-сетей близки к LSTM.

Глубокие нейронные сети имеют проблему переобучения: хорошо объясняют только наблюдения, по которым она обучалась, а на новых данных точность модели значительно ниже. Одним из решений данной проблемы является использование метода прореживания -Dropout. Его идея отчасти напоминает алгоритм случайного леса: обучается ансамбль нейронных сетей, а их результаты усредняются. Нейроны сети исключаются из

X X

о

го А с.

X

го m

о

ю

2 О

м

CS

0

CS

in

01

О Ш

m x

<

m о x

X

нее с заданной вероятностью, за счет этого и образуется ансамбль сетей. Нейрон, который был исключен, всегда возвращает значение 0 и не оказывает влияние на обратное распространение ошибки при обучении сети, поэтому подобные исключения формируют новые сети.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для улучшения рекуррентных сетей часто применяют подход Внимания (Attention), имитирующий когнитивное внимание. Его главной задачей является выделение наиболее важных входных данных.

В некоторых случаях стоит попробовать двунаправленные рекуррентные сети, их архитектура представляет собой два рекуррентных слоя направленные в противоположных направлениях, т.к. обработка последовательности проводится и в прямом направлении, и в обратном.

В качестве базовой архитектуры нейронной сети возьмем сеть с рекуррентным слоем, состоящим из GRU ячеек, после него поставим два полносвязных слоя: один на обработку выходов предыдущего слоя с функцией активации relu, другой, предназначенный для итогового скор-балла, с сигмоидной функцией активации.

Типы архитектур нейронных сетей, рассмотренные нами в данном исследовании представлены на рис. 2.

Рисунок 2. Сравниваемые архитектуры нейронный сетей

Точность моделей, которую мы получили представлена ниже:

Таблица 2

№ архитектуры Точность модели (Gini) Delta с арх. №1

1 0,6477 0

2 0,6486 +0,0009

3 0,6641 +0,0164

4 0,6516 +0,0039

5 0,6673 +0,0196

Заключение

Транзакционные данные в данной работе были рассмотрены с точки зрения прогнозирования кредитного скоринга. С этой целью для прогнозирования целевого события использовались два типа моделей: градиентный бустинг и рекуррентная нейронная сеть.

Градиентный бустинг, обученный на входных признаках, отобранных с помощью внутреннего gain метода, показал наибольшую точность по сравнению с другими методиками отбора объясняющих признаков.

Рекуррентные нейронные сети превзошли результат градиентного бустинга. В ходе перебора архитектурных решений стало ясно, что предел прогнозной точности не достигнут. Видоизменяя структуру сети и изменяя ее слои, можно добиться лучшего качества. Однако цель текущего исследования была иная.

В ходе моделирования кредитного дефолта на тран-закционных данных стало ясно, что это возможно. Однако точность данных моделей значительно ниже, чем у моделей, обученных на общих клиентских данных [16], где точность наиболее сильной модели была равна 0,91.

Главный вывод проделанной работы - транзакцион-ные данные стоит включить в модель кредитного ско-ринга. Как один и вариантов: обучить рекуррентную нейронную сеть на транзакционных данных, а результат модели передать в основную скоринговую модель в качестве мета-признака.

Помимо перебора архитектурных решений возможный вариант по улучшению транзакционной модели -попробовать другие типы нейронных сетей. Например, сверточные сети, несмотря на то, что их основное назначение - работа с картинками, иногда показывает хороший результат на последовательностях данных, таких как тексты или временные ряды.

Изучая работы других исследований можно найти новые идеи для тестирования на своих данных: нейро-нечеткие модели [17], гибридные модели [18,19].

Групповое сравнивание клиентов или кластеризация также может стать новым ветвлением по улучшению прогнозирования целевого события [20].

Литература

1. Golbayani, P., I. Florescu and R. Chatterjee A comparative study of forecasting corporate credit ratings using neural networks, support vector machines, and decision tree // North Amercan Journal of Economics and Finance. 2020. №54.

2. A. Blanco, R. Pino-Mejias, J. Lara, S. Rayo Credit scoring models for the microfinance industry using neural networks: Evidence from Peru // Expert Systems with Applications. 2013. №40.

3. G. Wenyou, S. Chang Analysis on block chain financial transaction under artificial neural network of deep learning // Journal of Computational and Applied Mathematics. 2020. №380.

4. N.D. Vaishnavi, S. Geetha Credit Card Fraud Detection using Machine Learning Algorithms // Procedia Computer Science. 2019. №165.

5. D.P. Jaiswala, K. Srishti, P. Mukherjee Customer Transaction Prediction System // Procedia Computer Science. 2020. №68.

6. D. West Neural network credit scoring models // Computers & Operations Research. 2000. №27.

7. Z. Zongyuan, X. Shuxiang, B.H. Byeong, M.J. Kabir, L. Yunling Investigation and improvement of multi-layer perceptron neural networks for credit scoring // Expert Systems with Applications. 2015. №42.

8. R.B. Asha, K.R. Suresh Credit card fraud detection using artificial neural network // Global Transitions Proceedings. 2021. №2.

9. B.R. Gunnarsson, S.V. Broucke, B. Baesens, M. Oskarsdottir, W. Lemahieu Deep learning for credit scoring: Do or don't? // European Journal of Operational Research. 2021.

10. Нейросетевой подход к моделированию карточных транзакций. Дата обращения: 03.05.2021 habr.com/ru/company/alfa/blog/551130/.

11. lightgbm.LGBMClassifier. Дата обращения: 05.05.2021

lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGB MClassifier.html#lightgbm.LGBMClassifier.

12. A.J. Serrano, E. Soria, J.D. Martin, R. Magdalena, J. Gomez Feature selection using ROC curves on classification problems // ResearchGate. 2020.

13. Интерпретируемая модель машинного обучения. Дата обращения: 05.05.2021 habr.com/ru/company/otus/blog/464695/.

14. B. Lindemann, T. Muller, H. Vietz, N. Jazdi and M. Weyrich, 2021. A survey on long short-term memory networks for time series prediction // Procedia CIRP. 2021. №99.

15. A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs). Дата обращения: 05.05.2021 blog.statsbot.co/time-series-prediction-using-recurrent-neural-networks-lstms-807fa6ca7f.

16. Исаев, Д.В. Стратегия поиска эффективного алгоритма машинного обучения на примере кредитного скоринга // Проблемы экономики и юридической практики. 2021. №6: 132-139.

17. S. Akkog An empirical comparison of conventional techniques, neural networks and the three stage hybrid Adaptive Neuro Fuzzy Inference System (ANFIS) model for credit scoring analysis: The case of Turkish credit card data // European Journal of Operational Research. 2012. №222.

18. L. Tian-Shyug, C. I-Fei A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines // Expert Systems with Applications. 2005. №28.

19. J.J. Rocha-Salazar, M.J. Segovia-Vargas, M.M. Camacho-Minano Money laundering and terrorism financing detection using neural networks and an abnormality indicator // Expert Systems With Applications. 2021. №169.

20. K. Eunji, L. Jehyuk, S. Hunsik, Y. Hoseong and C. Sungzoon, 2019. Champion-challenger analysis for credit card fraud detection: Hybrid ensemble and deep learning // Expert Systems With Applications, 128.

Credit scoring score based on card transactions Isaev D.V.

Financial University under the Government of the Russian Federation JEL classification: G20, G24, G28, H25, H30, H60, H72, H81, K22, K34 The development of credit scoring models has become one of the main activities of financial institutions. To solve this problem, various classification algorithms have been studied, but the literature does not cover the issue of using big data such as card transactions to assess customer creditworthiness. Over the past decades, banks have collected a wealth of information describing the default behavior of their customers. Since the history of card transactions is accumulated for each client, their use in the assessment of credit risk could give a significant increase in information and, as a result, increase the predictive accuracy of the models.

The main objective of this study is to establish the feasibility of using card transactions to evaluate credit scoring. For this purpose, various deep learning architectures based on recurrent neural networks were built, and a gradient boosting model was also built for comparison. The constructed models were compared using the Gini metric, which is the most popular metric for evaluating machine learning models.

According to the results of the conducted research, it can be concluded that card transactions can be used to evaluate credit scoring, and neural networks cope with this task better than such an ensemble of trees as gradient boosting.

Data preparation and the proposed neural network architectures are of scientific novelty.

In practice, forecasts of models trained on transactional data can be used as meta-features within the main credit scoring models, which can increase their predictive accuracy and, as a result, bring economic benefits to financial institutions. Keywords: credit scoring, card transactions, time series, machine learning, gradient boosting, training sample generation, feature selection, deep learning, recurrent neural networks, neural network architecture. References

1. Golbayani, P., I. Florescu and R. Chatterjee A comparative study of

forecasting corporate credit ratings using neural networks, support vector machines, and decision tree // North Amercan Journal of Economics and Finance. 2020. No. 54.

2. A. Blanco, R. Pino-Mejias, J. Lara, S. Rayo Credit scoring models for the

micro-finance industry using neural networks: Evidence from Peru // Expert Systems with Applications. 2013. No. 40.

3. G. Wenyou, S. Chang Analysis on block chain financial transaction under

artifi-cial neural network of deep learning // Journal of Computational and Applied Mathematics. 2020. No. 380.

4. N.D. Vaishnavi, S. Geetha Credit Card Fraud Detection using Machine

Learning Algorithms // Procedia Computer Science. 2019. No. 165.

5. D.P. Jaiswala, K. Srishti, P. Mukherjee Customer Transaction Prediction

System // Procedia Computer Science. 2020. No. 68.

6.D. West Neural network credit scoring models // Computers & Operations Re-search. 2000. No. 27.

7. Z. Zongyuan, X. Shuxiang, B.H. Byeong, M.J. Kabir, L. Yunling

Investigation and improvement of multi-layer perceptron neural networks for credit scoring // Expert Systems with Applications. 2015. No. 42.

8. R.B. Asha, K.R. Suresh Credit card fraud detection using artificial neural

network // Global Transitions Proceedings. 2021. No. 2.

9. B.R. Gunnarsson, S.V. Broucke, B. Baesens, M. Oskarsdottir, W.

Lemahieu Deep learning for credit scoring: Do or don't? // European Journal of Operational Re-search. 2021.

10. A neural network approach to modeling card transactions. Date of access:

05/03/2021 habr.com/ru/company/alfa/blog/551130/. 11.lightgbm.LGBMClassifier. Date accessed: 05/05/2021 lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMClassifier.ht ml#lightgbm.LGBMClassifier.

12. A.J. Serrano, E. Soria, J.D. Martin, R. Magdalena, J. Gomez Feature selection using ROC curves on classification problems // ResearchGate. 2020.

13. An interpretable machine learning model. Date of access: 05/05/2021 habr.com/ru/company/otus/blog/464695/.

14. B. Lindemann, T. Muller, H. Vietz, N. Jazdi and M. Weyrich, 2021. A survey on long short-term memory networks for time series prediction // Procedia CIRP. 2021. No. 99.

15. A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs). Date accessed: 05.05.2021 blog.statsbot.co/time-series-prediction-using-recurrent-neural-networks-lstms-807fa6ca7f.

16. Isaev, D.V. Search strategy for an effective machine learning algorithm on the example of credit scoring // Problems of Economics and Legal Practice. 2021. No. 6: 132-139.

17. S. Akkog An empirical comparison of conventional techniques, neural networks and the three stage hybrid Adaptive Neuro Fuzzy Inference System (ANFIS) model for credit scoring analysis: The case of Turkish credit card data // European Journal of Operational Research. 2012. No. 222.

18. L. Tian-Shyug, C. I-Fei A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines // Expert Systems with Applications. 2005. No. 28.

19. J.J. Rocha-Salazar, M.J. Segovia-Vargas, M.M. Camacho-Minano Money

laun-dering and terrorism financing detection using neural networks and an abnormali-ty indicator // Expert Systems With Applications. 2021. No. 169.

20. K. Eunji, L. Jehyuk, S. Hunsik, Y. Hoseong and C. Sungzoon, 2019. Champion-challenger analysis for credit card fraud detection: Hybrid ensemble and deep learning // Expert Systems With Applications, 128.

X X О го А С.

X

го m

о

ю

2 О

м

i Надоели баннеры? Вы всегда можете отключить рекламу.