Научная статья на тему 'СРАВНЕНИЕ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГА НА БАЗЕ МЕТОДОВ РЕШАЮЩИХ ДЕРЕВЕВ'

СРАВНЕНИЕ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГА НА БАЗЕ МЕТОДОВ РЕШАЮЩИХ ДЕРЕВЕВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
420
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРИНГ / МАШИННОЕ ОБУЧЕНИЕ / КЛАССИФИКАЦИЯ / ДЕРЕВЬЯ РЕШЕНИЙ / ГРАДИЕНТНЫЙ БУСТИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стадников А. О.

Приведены результаты исследовательской работы по построению моделей оценки платежеспособности заемщика (кредитного скоринга) на основе методов решающих деревьев и их ансамблей. Произведена оценка этих моделей и их сравнение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF CREDIT SCORING MODELS BASED ON DECISION TREE METHODS

The results of research work on the construction of models for assessing the solvency of the borrower (credit scoring) based on the methods of decision trees and their ensembles are presented. These models were evaluated and compared.

Текст научной работы на тему «СРАВНЕНИЕ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГА НА БАЗЕ МЕТОДОВ РЕШАЮЩИХ ДЕРЕВЕВ»

Заключение

Технология уплотнения спектральных каналов постепенно внедряется в оптические системы передачи информации, а вместе с тем и совершает толчок в их развитии. Если на протяжении долгого времени беспроводные оптические линии связи продолжали оставаться позади традиционной передачи сигнала через оптоволокно, то возможность уплотнения спектральной линии, а следовательно увеличение скорости и объема передаваемых данных, помогут АООСПИ выйти из тени и закрепиться на мировом рынке телекоммуникационных услуг. Рассмотренные методы спектрального мультиплексирования имеют свои особенности, поэтому выбор конкретного метода зависит исключительно от заданных параметров АООСПИ и условий ее работы. Список использованной литературы:

1. Чудо техники. -URL: https://chudo.tech/2021/07/14/rekordnaya-skorost-peredachi-dannyh-po-optovoloknu/ (дата обращения 26.05.2022).

2. Санджинетти, Б. Однофотонные детекторы для атмосферных оптических линий связи [Электронный ресурс] / Б. Санджинетти, Э. Амри, Ф. Ричоу// Фотоника. - 2017. -№3/63.- С. 56-68.

3. Связь по лазерному лучу через атмосферу. -URL: https://rostec.ru/news/4514901/ (дата обращения: 25.04.2022).

4. Пресленев Л.Н. Системы передачи информации по волокну и открытому каналу: Учебное пособие [Электронный ресурс] / Л.Н. Пресленев. -СПБ.: Изд-во ГУАП, 2017.-34 с.

5. Проектирование лазерных систем: учебное пособие/Т. П. Мишура, О. Ю. Платонов; ГУАП. — СПб., 2006.-98 с.

6. Наний. О.Е. Основы технологий спектрального мультиплексирования каналов передачи (WDM) [Электронный ресурс]/О.Е. Наний/Aightwave Russian Edition. -2004.-№2.-С.47-52. C. 48

7. Оптические фильтры. Терминология фильтра. -URL: https://www.edmundoptics.com/knowledge-center/application-notes/optics/optical-filters/ (дата обращения 26.05.2022).

8. Пресленев Л.Н. Компоненты волоконно-оптических систем передач информации: Учебное пособие [Электронный ресурс] / Л.Н. Пресленев. - СПБ.: Изд-во ГУАП,2016.-91 с. C-41.

9. Джордж М. Поляризационные светоделители [Электронный ресурс]/М. Джордж // Фотоника. -2014. -№5/47.- С. 42-49.

10.Светоделители. -URL: https://www.edmundoptics.com/knowledge-center/application-notes/optics/what-are-beamsplitters.-(дата обращения: 28.05.2022).

© Солодовникова М.П., Казаков В.И., 2022

УДК 519.248

Стадников А.О.

магистрант 2 курса СГАУ, г. Самара, РФ

Научный руководитель: Белоусов А.А.,

Кандидат физико-математических наук, СГАУ

г. Самара, РФ

СРАВНЕНИЕ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГА НА БАЗЕ МЕТОДОВ РЕШАЮЩИХ ДЕРЕВЕВ

Аннотация

Приведены результаты исследовательской работы по построению моделей оценки

платежеспособности заемщика (кредитного скоринга) на основе методов решающих деревьев и их ансамблей. Произведена оценка этих моделей и их сравнение.

Ключевые слова

Кредитный скоринг, машинное обучение, классификация, деревья решений, градиентный бустинг.

Stadnikov A.A.

2nd-year master's student of SSAU, Samara, Russia Scientific supervisor: Belousov A. A.,

Ph.D. in Physics and Mathematics, SSAU

Samara, Russia

COMPARISON OF CREDIT SCORING MODELS BASED ON DECISION TREE METHODS

Annotation

The results of research work on the construction of models for assessing the solvency of the borrower (credit scoring) based on the methods of decision trees and their ensembles are presented. These models were evaluated and compared.

Keywords

Credit scoring, machine learning, classification, decision trees, gradient-based boosting. Введение

Использование кредитного скоринга и его разнообразие в последние годы значительно возросли благодаря увеличению доступа к более широкому спектру данных, росту вычислительных мощностей, а также запросу на улучшения показателей по возврату кредитов. Методы, используемые для кредитного скоринга, с каждым годом продолжают совершенствоваться. Они эволюционировали от традиционных статистических методов до инновационных методов, таких как искусственный интеллект, включая алгоритмы машинного обучения, такие как случайные леса, градиентный бустинг и глубокие нейронные сети. В некоторых случаях применение инновационных методов также расширило диапазон данных, которые могут считаться релевантными для кредитного скоринга моделей и решений. Возможности использования инновационных методов для кредитного скоринга позволяют увеличить финансовую доступность и доступа к кредитам. Эти возможности ведут к повышению точности базовых моделей, повышению эффективности за счет автоматизации процессов, а также к улучшению клиентского опыта. Таким образом, несмотря на то, что кредитный скоринг существует уже несколько десятилетий, с каждым годом он только продолжает увеличивать свою актуальность.

Кредитный скоринг представляет собой систему, которая изучает ряд показателей (возраст, работа, дети, имущество, кредитная история) и выставляет балл (рейтинг). После проверки кредитор принимает решение, как действовать дальше — сотрудничать с заемщиком или не выдавать ему кредит. Пользу автоматизированной системы трудно переоценить, ведь она помогает изучить клиента и дать быстрый ответ по выдаче займа.

Деревья решений

Дерево решений - это способ представления решающих правил (правила вида «если, то», определяющие принадлежность объекта к заданному классу) в иерархической структуре. Дерево решений состоит из узлов с решающими правилами и листьев.

Процесс построения дерева решений выглядит следующим образом. Множество примеров, попавших в узел, разбивается на два подмножества: удовлетворяющие условию и не удовлетворяющие.

Это процедура рекурсивно повторяется для каждого последующего под-узла до тех пор, пока не будет достигнуто некоторое условие остановки алгоритма. После чего узел прекращает своё разделение. Такой узел называется листом или терминальным узлом, что является синонимом. Лист определяет решение для каждого попавшего в него примера. Для дерева классификации - это класс, ассоциируемый с узлом, а для дерева регрессии - соответствующий листу модальный интервал целевой переменной.

Бустинг является общим методом для повышения производительности любого алгоритма машинного обучения. Суть его заключается в обучении каждой последующей модели с использованием данных об ошибках предыдущих моделей и дальнейшем снижении ошибок. Данный метод теоретически можно использовать для любого слабого алгоритма в целях снижения ошибки обучения [1].

Градиентный бустинг деревьев решений позволяет строить аддитивную функцию в виде суммы деревьев решений итерационно, по аналогии с методом градиентного спуска [2]. Так, на рис. 1 представлены ансамбль из 2 деревьев и принцип минимизации ошибки Егг.

Рисунок 1 - Минимизация ошибки обучения при использовании алгоритма градиентного бустинга деревьев решений

Представленный командой Яндекса в 2017 г. CatBoost представляет собой алгоритм машинного обучения, который также основан на градиентном бустинге. Данная разработка является библиотекой с открытым исходным кодом и поддерживает работу на Python, R и из командной строки [3]. Особенностью алгоритма является построение симметричных деревьев, возможность работы с категориальными признаками, кроме того, он позволяет обучаться на относительно небольшом количестве неоднородных данных. CatBoost способен решать такие задачи машинного обучения, как регрессия, классификация, мультиклассификация и ранжирование.

LightGBM — это реализация градиентного бустинга с открытым исходным кодом, разработанная для того, чтобы быть эффективной и даже, возможно, более эффективной, чем другие реализации. Как таковой LightGBM — это проект с открытым исходным кодом, библиотека программного обеспечения и алгоритм машинного обучения. То есть проект очень похож на Extreme Gradient Boosting или XGBoost technique.

LightGBM была описана Голинь К. и соавторами в статье 2017 года под названием «LightGBM: A Highly Efficient Gradient Boosting Decision Tree» [4]. Реализация вводит две ключевые идеи: GOSS и EFB.

Градиентная односторонняя выборка (GOSS) является модификацией градиентного бустинга, который фокусирует внимание на тех учебных примерах, которые приводят к большему градиенту, в свою очередь, ускоряя обучение и уменьшая вычислительную сложность метода. Exclusive Feature Bundling (объединение взаимоисключающих признаков), или EFB, — это подход объединения разрежённых (в основном нулевых) взаимоисключающих признаков, таких как категориальные переменные входных данных, закодированные унитарным кодированием. Таким образом, это тип автоматического подбора признаков.

Программные средства

В рамках работы был использован язык программирования Python 3 и среда программирования Jupyter Notebook.

Дополнительно были использованы такие библиотеки для Python как Scikit-learn (для построения моделей и получения метрик качества), MatPlotLib и SeaBorn (для визуализаций), а также XGBoost,

issn 2410-6070

международный научный журнал «инновационная наука»

№ 6-1 / 2022

LightGBM и CatBoost для построения одноимённых моделей градиентного бустинга.

Описание эксперимента

Было использовано два набора данных: «Default of Credit Card Clients» [5] с дисбалансом классов и категориальными признаками, а также «Credit Card Approval Prediction» [6] с отсутствием целевой переменной, категориальными переменными и высоким дисбалансом классов.

Эти данные были исследованы на наличие выбросов, пропущенных значений, зависимостей, дисбаланс классов. Для каждого из наборов данных была произведена их очистка. Для второго набора данных был применен метод сэмплинга SMOTE [7], чтобы устранить дисбаланс классов и уравнять их.

Сравнение моделей

Для сравнения была построена таблица (таб. 1) со значениями Accuracy, Precision, Recall, F1-Score, ROC-AUC и времени работы алгоритма в секундах для каждой из построенных моделей кредитного скоринга по каждому набору данных.

Таблица 1

Сравнение моделей

Credit Card Default

Credit Approval

Источник: разработано автором

Алгоритм Accuracy Precision Recall F1-Score ROC-AUC Время, сек.

SVM 0.767 0.47 0.5 0.45 0.603 1.16E+01

Logistic Reg 0.779 0.39 0.5 0.44 0.635 1.27E+01

CART 0.797 0.7 0.64 0.66 0.709 1.10E+00

Random Forest 0.813 0.74 0.65 0.68 0.755 8.24E+00

AdaBoost 0.817 0.75 0.65 0.67 0.77 1.36E+01

CatBoost 0.818 0.75 0.66 0.68 0.782 1.14E+02

XGBoost 0.817 0.75 0.66 0.68 0.778 3.14E+02

LightGBM 0.819 0.75 0.66 0.68 0.785 2.26E+02

SVM 0.837 0.84 0.84 0.84 0.907 5.54E+02

Logistic Reg 0.643 0.65 0.64 0.64 0.708 9.98E+00

CART 0.797 0.8 0.8 0.8 0.893 5.10E-01

Random Forest 0.836 0.84 0.84 0.84 0.929 1.20E+01

AdaBoost 0.722 0.72 0.72 0.72 0.806 1.13E+01

CatBoost 0.898 0.9 0.9 0.9 0.964 9.00E+02

XGBoost 0.898 0.9 0.9 0.9 0.964 3.59E+01

LightGBM 0.9 0.9 0.9 0.9 0.965 5.39E+00

Если сравнивать модели по показателю ROC-AUC, то для построения модели кредитного скоринга по первому набору данных лучше всего себя показал LightGBM с результатом 0,785, против CatBoost'а с результатом в 0,782 и XGBoost'а с показателем в 0,778. Это можно увидеть на диаграмме (рис. 2) со значениями ROC-AUC для алгоритмов и наборов данных. При этом самым быстрым среди них оказался CatBoost. LightGBM работал вдвое дольше, а XGBoost втрое дольше, чем CatBoost.

SVM LR CART RF AdaB CatB XGBM LGBM

Рисунок 2 - Диаграмма значений ROC-AUC для каждого алгоритма и набора данных

Для второго набора данных лучшим оказался LightGBM c небольшим преимуществом по показателю ROC-AUC (0,965) в одну тысячную пункта. Однако в сравнении с другими алгоритмами, эти алгоритмы градиентного бустинга показали заметно лучший результат.

: Positive I

Рисунок 3 - Кривая ROC-AUC для модели кредитного скоринга, построенной при помощи алгоритма LightGBM.

Результаты

В ходе работы была произведена предварительная обработка данных, исследование данных на взаимосвязь между различными признаками, построение моделей кредитного скоринга при помощи таких ансамблей деревьев решений как Random Forest, Adaptive Boost, Cat Boost, XGBoost, LightGBM, а также таких алгоритмов классификации как логистическая регрессия и метод опорных векторов.

Для построения модели кредитного скоринга по первому набору данных лучше всего себя показал LightGBM с результатом AUC = 0,785, против CatBoost^ с результатом в 0,782 Для второго набора данных LightGBM так же оказался лучшим c небольшим преимуществом по показателю ROC-AUC в одну тысячную пункта. LightGBM оказался не только самым лучшим по качеству модели, но так же показал почти лучшее время (быстрее его оказалось только обычное дерево решений CART). Список использованной литературы:

1. Freund, Y., Schapire R. Experiments with a new boosting algorithm // Proc. 13th Int. Conf. on Machine Learning. Bari. - 1996. - P. 148-156.

2. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений // Вестник ЮУрГУ. - 2011. - № 37(254). - С. 82-89.

3. CatBoost // GitHub : [сайт]. - URL: https://github.com/catboost (дата обращения 29.04.2022).

4. LightGBM: A Highly Efficient Gradient Boosting Decision Tree / Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu // Advances in Neural Information Processing Systems 30. - 2017. - ISBN: 9781510860964.

5. Yeh, I. C. Default Of Credit Card Clients Data Set / I. C. Yeh, C. H. Lien // UCI Machine Learning Repository : [сайт] / D. Dua, C. Graff. - [Б.м.], 2016. - URL: https://archive.ics.uci.edu/ml/datasets/ default+of+credit+card+clients (дата обращения: 25.04.2022).

6. Xiao, S. Credit Card Approval Prediction / Xiao Song // Kaggle : [сайт] / Kaggle Inc. - [Б.м.], 2020. - URL: https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction/code?select=credit_record.csv (дата обращения: 12.05.2022).

7. SMOTE // Imbalanced learn: [сайт]. - URL: https://imbalanced-learn.org/stable/references/generated/ imblearn.over_sampling.SMOTE.html (дата обращения: 12.05.2022).

© Стадников А.О., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.