Научная статья на тему 'ДИНАМИЧЕСКОЕ АНСАМБЛЕВОЕ ОБУЧЕНИЕ ДЛЯ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ'

ДИНАМИЧЕСКОЕ АНСАМБЛЕВОЕ ОБУЧЕНИЕ ДЛЯ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
159
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРИНГ / ПЛАТФОРМА КРЕДИТОВАНИЯ / ДИНАМИЧЕСКОЕ ОБУЧЕНИЕ В АНСАМБЛЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Исаев Д. В.

Машинное обучение сильно проникло в сложные бизнес-процессы во многих отраслях промышленности в большинстве стран. От кредитования до оценки кредитоспособности и управления роботами до дистанционного зондирования - тысячи приложений машинного обучения уже глубоко внедрены в сложные бизнес-процессы. Это всего лишь несколько примеров, и это только начало. Банки обычно предоставляют кредиты на основе модели кредитного скоринга, которая сочетает в себе качественный и количественный анализ. Кредитный скоринг основан на статистических методах, благодаря которым можно предсказать вероятность наступления определенного события в будущем - в данном случае дефолта по кредиту. Автоматический кредитный скоринг, который оценивает вероятность дефолта заявителей на получение кредита в рамках кредитных платформ, играет жизненно важную роль в снижении рисков кредиторов. Основным требованием к моделям кредитного скоринга является обеспечение максимально точного прогнозирования рисков. При оценке кредитоспособности по-прежнему широко используются очень простые прогностические модели. Таким образом, упускается значительный потенциал, что приводит к увеличению резервов или увеличению числа дефолтов по кредитам. Несмотря на то, что методы динамического отбора демонстрируют высокую эффективность для задач классификации, эффективность этих методов для оценки кредитоспособности еще не определена. В данном исследовании предпринята попытка систематически сопоставить различные подходы к динамическому отбору ансамблевых моделей обучения для точной оценки задачи оценки кредитоспособности на большом многомерном наборе данных с реальными кредитными рейтингами. Результаты этого исследования показывают, что методы динамического отбора способны повысить производительность ансамблевых моделей, особенно в несбалансированных условиях обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DYNAMIC ENSEMBLE LEARNING FOR ASSESSING CREDITWORTHINESS

Machine learning has made deep inroads into complex business processes in many industries in most countries. From lending to credit ratings and robot control to remote sensing, thousands of machine learning applications are already deeply embedded in complex business processes. These are just a few examples and this is just the beginning. Banks typically grant loans based on a credit scoring model that combines qualitative and quantitative analysis. Credit scoring is based on statistical methods that can predict the likelihood of a particular event occurring in the future - in this case, a default on a loan. Automatic credit scoring, which assesses the likelihood of default by loan applicants within lending platforms, plays a vital role in reducing lender risk. The main requirement for credit scoring models is to provide the most accurate risk prediction. Very simple predictive models are still widely used in credit assessment. Thus, significant potential is being missed, leading to an increase in reserves or an increase in the number of loan defaults. Although dynamic selection methods show high performance for classification problems, the effectiveness of these methods for assessing creditworthiness has not yet been determined. This study attempts to systematically compare different approaches to dynamic selection of ensemble learning models for accurately assessing the credit rating problem on a large multivariate dataset with real credit ratings. The results of this study show that dynamic selection methods are able to improve the performance of ensemble models, especially in unbalanced learning environments.

Текст научной работы на тему «ДИНАМИЧЕСКОЕ АНСАМБЛЕВОЕ ОБУЧЕНИЕ ДЛЯ ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ»

Динамическое ансамблевое обучение для оценки кредитоспособности

сч сч о сч

со

о ш т

X

<

т о х

X

Исаев Денис Вадимович

аспирант, факультет информационных технологий и анализа больших данных, Финансовый университет при Правительстве Российской Федерации, [email protected]

Машинное обучение сильно проникло в сложные бизнес-процессы во многих отраслях промышленности в большинстве стран. От кредитования до оценки кредитоспособности и управления роботами до дистанционного зондирования - тысячи приложений машинного обучения уже глубоко внедрены в сложные бизнес-процессы. Это всего лишь несколько примеров, и это только начало. Банки обычно предоставляют кредиты на основе модели кредитного скоринга, которая сочетает в себе качественный и количественный анализ. Кредитный скоринг основан на статистических методах, благодаря которым можно предсказать вероятность наступления определенного события в будущем - в данном случае дефолта по кредиту. Автоматический кредитный скоринг, который оценивает вероятность дефолта заявителей на получение кредита в рамках кредитных платформ, играет жизненно важную роль в снижении рисков кредиторов. Основным требованием к моделям кредитного ско-ринга является обеспечение максимально точного прогнозирования рисков. При оценке кредитоспособности по-прежнему широко используются очень простые прогностические модели. Таким образом, упускается значительный потенциал, что приводит к увеличению резервов или увеличению числа дефолтов по кредитам. Несмотря на то, что методы динамического отбора демонстрируют высокую эффективность для задач классификации, эффективность этих методов для оценки кредитоспособности еще не определена. В данном исследовании предпринята попытка систематически сопоставить различные подходы к динамическому отбору ансамблевых моделей обучения для точной оценки задачи оценки кредитоспособности на большом многомерном наборе данных с реальными кредитными рейтингами. Результаты этого исследования показывают, что методы динамического отбора способны повысить производительность ансамблевых моделей, особенно в несбалансированных условиях обучения.

Ключевые слова: кредитный скоринг, платформа кредитования, динамическое обучение в ансамбле

Введение

Необходимость в кредитном скоринге восходит к началу заимствования и кредитования. Кредиторы часто пытаются собрать информацию о заявителях на получение кредита, чтобы отличить надежных клиентов от ненадежных, основываясь на вероятности списания средств [1]. Целью кредитного скоринга является оценка вероятности того, что заемщик проявит какое-либо нежелательное поведение в будущее. Финансовые учреждения используют системы показателей, которые представляют собой прогностические модели, разработанные с помощью алгоритмов классификации для оценки вероятности дефолта заявителями на получение кредита [2].

С появлением цифровых технологий кредитование становится альтернативой традиционному процессу предоставления кредитов, при котором физические лица предоставляют и занимают деньги через онлайн-платформу, которая соединяет заемщиков с кредиторами.

Заемщики могут запрашивать кредиты непосредственно у кредиторов с более низкой процентной ставкой и более быстрым временем обработки. Кредиторы могут получать более высокие нормы прибыли при меньших административных сборах по сравнению с традиционными сберегательными счетами. На традиционных рынках кредитования банки и финансовые учреждения могут использовать залоговое обеспечение в качестве инструмента повышения доверия кредиторов к заемщикам. Такие действия по повышению доверия между заемщиками и кредиторами не могут быть реализованы в онлайн-среде. В таком контексте автоматизированный скоринг клиентов играет жизненно важную роль в оценке кредитного риска [3].

В связи с расширением кредитных портфелей финансовых учреждений, а также появлением платформ кредитования классификация клиентов на основе их персональных данных имеет решающее значение для поддержки принятия решений. В литературе по кредитному скорингу хорошо известно, что незначительное улучшение точности кредитного скоринга может привести к значительной экономии в будущем [4]. Таким образом, различные модели кредитного скоринга используются банками, финансовыми учреждениями и онлайн-платформами кредитования для принятия обоснованных решений относительно риска дефолта заемщиков. Таким образом, доступные данные о клиентах, такие как кредитная история, демогра-

фическая информация, финансовые и образовательные данные, используются для построения модели машинного обучения, которая затем используется для разработки системы поддержки принятия решений для группировки кредитных заявок на надежные и ненадежные.

Несмотря на важность кредитного скоринга для снижения рисков и затрат кредиторов и финансовых учреждений, эффективность моделей кредитного скоринга пока не удовлетворяет практическому применению в реальной жизни из-за следующих проблем. Во-первых, количество доступных наборов данных для оценки кредитоспособности ограничено из-за сложности получения кредитных данных клиентов. Поэтому в исследованиях кредитного скоринга используются различные публичные и частные наборы данных. Общедоступные наборы данных, используемые для оценки кредитоспособности, часто невелики или содержат зашифрованные переменные из-за соображений конфиденциальности. С другой стороны, частные наборы данных не могут быть обнародованы [1]. В таком контексте новые подходы к классификации оцениваются в различных наборах данных и/или условиях. Эффективность различных подходов неясна из-за отсутствия систематического эталона различных моделей кредитного скоринга. Следовательно, сравнение моделей, обученных на разных наборах данных это очень важно.

Во-вторых, несколько статистических методов и подходов к машинному обучению на протяжении многих лет предлагалось улучшить классификационные характеристики кредитного скоринга, такие как Логистическая регрессия [5], Метод опорных векторов (SVM) [6], Нейронные сети ^^ [7] и др. В дополнение к отдельным классификаторам, в последнее время большое внимание уделяется ансамблевым моделям, которые объединяют классификационную способность отдельных классификаторов (базовых классификаторов) для улучшения конечного результата [8, 9, 10, 11]. Одна из проблем внедрения моделей кредитного скоринга в реальной жизни заключается в том, что, несмотря на широкий спектр предлагаемых методов классификации в литературе по кредитному скорингу, наиболее эффективные методы для различных наборов данных, особенно реальных наборов данных, еще не определены. Поэтому будущие исследования должны быть сосредоточены на сравнении возможностей различных классификационных подходов.

Наконец, как и во многих других реальных проблемах классификации, наборы данных кредитного скоринга сильно несбалансированы [12]. Большинство выборок в наборах данных кредитного скоринга относятся к негативному классу (т.е. кредиты, которые были полностью выплачены). Поэтому для повышения эффективности класси-

фикации следует разработать надежные алгоритмы, способные обрабатывать несбалансированные данные.

Хотя для повышения производительности моделей кредитного скоринга было использовано несколько подходов к машинному обучению, недавно [2] продемонстрировали, что система множественных классификаторов (также известная как ансамблевые модели) способна превосходить отдельные классификаторы.

Основываясь на идее о том, что создание единого классификатора для охвата всех внутренних наборов данных не может использовать всю доступную информацию в наборе данных, были введены системы множественных классификаторов (MCSS). MCSS используют решения нескольких классификаторов для создания более надежной и эффективной модели для прогнозирования класса выборки [13]. MCSS можно разделить на две категории: Статический выбор (SS) и Динамический выбор (DS). При статическом отборе стратегия выбора наилучших базовых классификаторов определяется в обучающем наборе, который затем применяется ко всем тестовым выборкам, независимо от компетентности базового классификатора в локальном регионе, окружающем тестовую выборку. При динамическом отборе наиболее компетентные классификаторы в локальном регионе тестовой выборки отбираются на основе критерия компетентности для каждой тестовой выборки "на лету". Поэтому каждое тестовое наблюдение классифицируется одним классификатором или набором классификаторов, которые обладают высокой производительностью на части данных тестового наблюдения. Обоснование стратегий динамического отбора заключается в том, что каждый базовый классификатор в пуле классификаторов является экспертом в определенной локальной области пространства объектов. Поэтому для классификации каждого тестового образца из пула классификаторов следует выбрать наиболее эффективные классификаторы [14].

Эффективность использования динамического отбора в задаче классификации была проверена в [13] и [14]. В их исследованиях производительность DS оценивалась по нескольким сравнительным наборам данных. Исследователи пришли к выводу, что использование DS может повысить производительность пула слабых классификаторов. Они утверждают, что, поскольку методы динамического отбора работают локально, конечные результаты классификации не смещены в сторону класса большинства, что будет подтверждено в данном исследовании экспериментально. Исследователи [2] использовали два алгоритма динамического отбора в своем тесте для оценки их эффективности в наборах данных кредитного скоринга. В [15] использовали четыре метода динамического отбора для оценки эффективности оценки

х

X

о

го А с.

X

го т

о

2 О

м м

сч сч о сч

fO

о ш

В

X

<

В

О X X

кредитоспособности. Однако, насколько нам известно, не проводилось комплексного исследования для оценки других методов динамического отбора по проблеме кредитного скоринга, конкретно на основе набора данных реального мира.

В этом исследовании для построения пула классификаторов используются четыре классификатора, а именно метод опорных векторов (SVM), многослойный персептрон (MLP), k ближайших соседей (k-NN) и гауссовский наивный Байес (GNB). В дополнение к отдельным классификаторам, методы DS также применяются к случайному лесу (RF) для оценки их эффективности для повышения производительности классификации. Классификаторы оцениваются на основе набора данных Lending Club, который представляет собой набор реальных данных в области кредитного скоринга и социального кредитования. Кроме того, оценивается способность динамического отбора классифицировать тестовые образцы, обученные на наборах данных с различными коэффициентами дисбаланса. Пять наборов данных с различными коэффициентами дисбаланса, созданных в результате недостаточной выборки класса большинства, а также исходного набора данных, используются для исследования влияния несбалансированных данных на надежность классификации.

Несколько систем классификаторов

Чтобы справиться с неопределенностью и шумом в данных, на протяжении многих лет разрабатывались различные методы классификации для устранения ограничений и повышения эффективности классификации. Из-за внутренних характеристик различных моделей классификации неправильно классифицированные выборки различными классификаторами не обязательно пересекаются. Таким образом, различные модели классификации потенциально предоставляют дополнительную информацию для классификации различных тестовых образцов. Таким образом, объединение нескольких классификаторов часто приводит к повышению эффективности классификации, поскольку каждый классификатор предоставляет дополнительную информацию для различных аспектов данного образца (Киттлер и др., 1998). Поэтому ожидается, что решения MCS повысят точность классификации за счет объединения решений различных классификаторов, обученных на обучающем наборе (Диттерих, 2000).

Системы множественных классификаторов состоят из трех этапов: I) формирование пула, II) выбор, III) комбинация. На первом этапе создается пул точных и разнообразных классификаторов для классификации образцов. Необходимость в разнообразных классификаторах обусловлена тем фактом, что созданные классификаторы должны демонстрировать некоторую степень взаимодопол-

няемости. Пакетирование (Брейман, 1996), повышение (Фрейнд и др., 1996) и случайное подпространство (Хо, 1998) являются одними из наиболее часто используемых стратегий для создания пула классификаторов.

На втором этапе, который является необязательным этапом, сгенерированные классификаторы выбираются на основе показателя компетентности для классификации неизвестных образцов. На втором этапе существует два типа выбора базового классификатора: статический и динамический выбор. При статическом отборе компетентность классификаторов определяется на этапе обучения путем вычисления компетентности базовых классификаторов на основе критерия отбора. После выбора классификатора все выбранные базовые классификаторы используются для классификации неизвестных выборок независимо от индивидуальных характеристик выборки запроса при выборе базовых классификаторов.

При динамическом отборе выбирается один или подмножество обученных классификаторов для классификации каждой неизвестной выборки исключительно в отношении ее окружающего локального региона. В зависимости от количества классификаторов, выбранных в методах DS, они подразделяются на две категории: I) Динамический выбор классификатора (DCS), который выбирает только наиболее компетентный классификатор из пула классификаторов. II) Динамический выбор ансамбля (DES), который выбирает подмножество классификаторов из пула.

Третий этап MCSs связан с агрегированием решений, принятых выбранными классификациями. Выходные данные классификаторов агрегируются в соответствии с правилом комбинирования. Одним из самых основных правил комбинирования, которые можно назвать, является голосование большинством голосов (т.е. Объединение прогнозов базовых классификаторов и выбор прогноза с наибольшим количеством голосов).

Динамический выбор

При динамическом отборе классификация неизвестной выборки состоит из следующих этапов: во-первых, набор динамического отбора (DSEL), представляющий собой набор размеченных наблюдений из набора для обучения или проверки, выделяется для определения области компетенции. Здесь областью компетенции является локальная область, окружающая тестовую выборку запроса, которая определяется наиболее похожими или ближайшими выборками из DSEL. Область компетенции тестовой выборки может быть получена путем применения метода K-бли-жайших соседей, кластеризации и карты компетенций к DSEL. Метод k-ближайших и методы кластеризации находят ближайшие и наиболее похожие выборки в DSEL к выборке запроса, которые затем

используются для оценки компетентности базовых классификаторов. Карта компетенций использует все выборки в DSEL в качестве области компетенции. Затем, применяя гауссову потенциальную функцию, вычисляется влияние каждой выборки DSEL на прогнозную точность классификаторов.

Во-вторых, определяются критерии отбора для расчета прогнозной точности каждого классификатора в области компетенции. Эти критерии могут быть рассчитаны с помощью точности базового классификатора, их ранга среди всех классификаторов, присутствующих в нашем наборе моделей.

Наконец, одна модель или набор классификаторов выбираются на основе уровня прогнозной точности классификаторов на определенном срезе данных. Для классификации выборки запроса окончательный результат классификации достигается путем объединения выбранных компетентных классификаторов с использованием метода комбинированного голосования, такого как голосование большинством голосов.

Для всестороннего объяснения и обзора методов выбора динамических классификаторов мы обращаемся к [13] и [14].

Оценка методов DS

Методы динамического отбора отбирают наиболее компетентные классификаторы для каждой выборки запросов в своей области данных. Основываясь на этом определении, для создания пула классификаторов мы использовали агрегацию начальной загрузки (пакетирование) с использованием k-ближайших соседей, метода опорных векторов, наивного Байеса и многослойного пер-септрона в качестве базовых классификаторов. Мы также внедрили DS в случайном лесу из-за его высокой эффективности в классификации кредитных баллов [2]. В дополнение к пулам однородных классификаторов мы также создали гетерогенный пул, используя все ранее упомянутые базовые классификаторы, а также случайный лес. Количество базовых классификаторов в пуле, а также количество деревьев в случайном лесу были определены путем поиска по сетке (значения от 10 до 200). Мы отложили двадцать пять процентов тренировочного набора для DSEL. Область компетенции для каждого тестового образца была рассчитана на основе образцов в DSEL. Все эксперименты проводились с использованием библиотеки scikit-learn на python для обучения базовых классификаторов. Также использовалась библиотека DESLIB на python [14] для реализации методов DS в созданном пуле классификаторов. Гиперпараметры базовых классификаторов и методов DS были установлены на значения по умолчанию.

Производительность DS при несбалансированных данных

Коэффициент дисбаланса набора данных определяется как количество выборок в классе большинства, деленное на количество выборок класса меньшинства. Наборы данных кредитного скоринга часто имеют высокий коэффициент дисбаланса, что делает классификацию сложной задачей. В работе [14] исследователи утверждают, что, поскольку методы динамического отбора выполняются локально, классификаторы, выбранные для классификации каждой выборки запроса, не зависят от всех выборок в наборе данных и учитывают только локальные выборки запроса. Это понятие предполагает, что методы динамического отбора могут быть устойчивы к несбалансированным наборам данных, которые мы проверим с помощью следующих экспериментов.

Чтобы оценить надежность методов динамического отбора при классификации несбалансированных наборов данных, мы изменяем коэффициент несбалансированности нашего набора данных, используя класс большинства с недостаточной выборкой. Коэффициент дисбаланса для исходного тренировочного набора составляет 5,8. Мы отбираем обучающие выборки мажоритарного класса для создания наборов данных с различной степенью дисбаланса от полностью сбалансированного набора данных (т.е. коэффициент дисбаланса = 1) до исходного набора данных. Коэффициент дисбаланса и количество образцов в каждом наборе данных показаны в таблице 4. Для каждого измененного набора данных рассматривалась одна и та же структура пулов классификаторов, таким образом, все эксперименты с исходным набором данных были повторены на измененных наборах данных. Количество классификаторов в пулах было задано как оптимизированное количество классификаторов для исходного набора данных со значениями гиперпараметров по умолчанию для каждого базового классификатора.

Таблица 1

Коэффициент дисбаланса и количество выборок в измененных наборах данных, созданных в результате понижения

Баланс со- Количество мажори- Количество минори-

бытий тарных событий тарных событий

1 45 456 45 456

2 90 912 45 456

3 136 368 45 456

4 181 828 45 457

5 227 285 45 457

5,3 240 922 45 457

Результаты

Результаты проведенных экспериментов в предыдущих представлены в таблицах 12-15 (три лучших метода DS выделены жирным шрифтом по всем показателям оценки). Основываясь на полученных результатах, резюмируем выводы относительно следующих аспектов:

О влиянии динамического отбора

х

X

о

го А с.

X

го m

о

ю

2 О

м м

сч сч

0 сч

01

о ш Ш X

<

m о х

X

Гипотеза, лежащая в основе использования методов динамического отбора для ансамблевых моделей, заключается в повышении их способности к классификации путем выбора наиболее подходящих классификаторов для каждой тестовой выборки. Из результатов наших экспериментов с реальными кредитными данными клиентов Lending Club. Можно сделать вывод, что методы DS способны улучшить производительность набора классификаторов. В таблице 5 показана средняя производительность 3 лучших методов DS по различным показателям в сравнении с производительностью классификаторов на исходном наборе данных. Полученные результаты демонстрируют, что методы DS могут повысить производительность ансамблей. Улучшения особенно заметны в показателях G-среднего и F1, которые отражают способность классификаторов к классификации при наличии несбалансированных обучающих наборов данных. Этот результат указывает на то, что мы можем подтвердить утверждение о том, что методы динамического отбора являются отличными кандидатами для классификации несбалансированных наборов данных, особенно в контексте проблем с высокой несбалансированностью кредитного рейтинга [14].

Таблица 2

Средняя производительность 3 лучших методов DS по срав-

Классификатор Мера эффективности Классификационная подвы-борка Среднее top-3 DS-техник

GB Acc 0,76 0,81

AUC 0,64 0,69

F1 0,29 0,23

G-среднее 0,52 0,49

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

RF Acc 0,81 0,8

AUC 0,63 0,63

F1 0,06 0,19

G-среднее 0,17 0,37

MLP Acc 0,82 0,83

AUC 0,66 0,66

F1 0,03 0,14

G-среднее 0,19 0,31

Выводы

В данной работе была осуществлена попытка выяснить эффективность методов динамического отбора для улучшения способности классификации как однородных, так и гетерогенных ансамблевых моделей в кредитном скоринге. Методы динамического отбора применяются к пулу классификаторов и отбирают наиболее эффективные классификаторы для каждого тестового запроса индивидуально на основе заранее заданного показателя эффективности.

Мы обучили 14 различных методов динамического отбора, обучение проводилось на реальном наборе данных кредитного скоринга. Кроме того, чтобы проверить надежность методов DS в несба-

лансированных средах, мы сформировали обучающие наборы, отличные от исходного обучающего набора, путем уменьшения выборки наблюдений мажоритарного класса. Затем методы DS были обучены на каждом из наборов данных и использованы для классификации тестового набора.

Основываясь на результатах наших экспериментов, мы можем сделать вывод, что методы динамического отбора способны повысить производительность ансамблевых моделей. Методы DS в основном эффективны для увеличения среднего значения G и показателя F1, которые определяют способность классификаторов хорошо учиться на несбалансированных наборах данных. Наши эксперименты подтверждают предположение выдвинутое в (14) о надежности методов динамического отбора при работе с несбалансированными наборами данных.

Основываясь на результатах измерения F1, мы можем сделать вывод, что менее сложные методы динамического отбора, такие как апостериорный, объединение Knora и Устранение, способны работать лучше, в отличие от сложных методов, таких как производительность Meta-DES и DES. Это может быть связано с тем фактом, что в кредитном скоринге используются большие и объемные наборы данных.

Большинство методов DS используют алгоритм k-NN для получения области компетенции для каждой тестовой выборки, поэтому методы динамического отбора имеют более высокую сложность по сравнению с пулом классификаторов. Одним из ограничений данного исследования является то, что из-за вычислительной мощности мы использовали значение гиперпараметров по умолчанию как в наших классификаторах, так и в методах DS из-за вычислительных ограничений. За счет оптимизации гиперпараметров результаты методов динамического отбора могут значительно улучшить классификацию.

Высокая сложность методов DS может являться одним из недостатков применения этих методов, особенно в массивах данных большой размерности. Проведенные эксперименты в данной работе с большим и многомерным набором данных могут быть использованы в качестве отправной точки для других исследований как в контексте кредитного скоринга, так и в других задачах классификации с большими наборами данных.

Литература

1. Louzada, F., Ara, A., & Fernandes, G. B. (2016). Classification methods applied to credit scoring: Systematic review and overall comparison. Surveys in Operations Research and Management Science, 21(2), 117-134.

2. Lessmann, S., Baesens, B., Seow, H.-V., & Thomas, L. C. (2015). Benchmark- ing state-of-the-art classification algorithms for credit scoring: An update

of research. European Journal of Operational Research, 247(1), 124-136.

3. Emekter, R., Tu, Y., Jirasakuldech, B., & Lu, M. (2015). Evaluating credit risk and loan performance in online peer-to-peer (p2p) lending. Applied Economics, 47(1), 54-70.

4. Baesens, B., Van Gestel, T., Viaene, S., Ste-panova, M., Suykens, J., & Van- thienen, J. (2003). Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the operational research society , 54 (6), 627- 635.

5. Hand, D. J., & Kelly, M. G. (2002). Superscore-cards. IMA Journal of Management Mathematics, 13(4), 273-281.

6. Huang, Z., Chen, H., Hsu, C.-J., Chen, W.-H., & Wu, S. (2004). Credit rat- ing analysis with support vector machines and neural networks: a market comparative study. Decision support systems, 37(4), 543558.

7. Bastani, K., Asgari, E., & Namavari, H. (2019). Wide and deep learning for peer-to-peer lending. Expert Systems with Applications, 134, 209-224.

8. Xia, Y., Liu, C., Da, B., & Xie, F. (2018). A novel heterogeneous ensemble credit scoring model based on bstacking approach. Expert Systems with Applications, 93, 182-199.

9. He, H., Zhang, W., & Zhang, S. (2018). A novel ensemble method for credit scor- ing: Adaption of different imbalance ratios. Expert Systems with Applications, 98, 105-117.

10.Yu, L., Zhou, R., Tang, L., & Chen, R. (2018). A dbn-based resampling svm ensemble learning paradigm for credit classification with imbalanced data. Applied Soft Computing, 69, 192-202.

11.Ala'raj, M., & Abbod, M. F. (2016a). Classifiers consensus system approach for credit scoring. Knowledge-Based Systems, 104, 89-105.

12. Brown, I., & Mues, C. (2012). An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Ap- plications, 39(3), 3446-3453.

13. Britto Jr, A. S., Sabourin, R., & Oliveira, L. E. (2014). Dynamic selection of classifiers—a comprehensive review. Pattern recognition, 47(11), 36653680.

14.Cruz, R. M., Hafemann, L. G., Sabourin, R., & Cavalcanti, G. D. (2018). Deslib: A dynamic ensemble selection library in python. arXiv preprint arXiv:1802.04967 .

15.Junior, L. M., Nardini, F. M., Renso, C., Trani, R., & Macedo, J. A. (2020). A novel approach to define the local region of dynamic selection techniques in imbalanced credit scoring problems. Expert Systems with Applications.

Dynamic Ensemble Learning for assessing creditworthiness Isaev D.V.

Financial University under the Government of the Russian Federation JEL classification: G20, G24, G28, H25, H30, H60, H72, H81, K22, K34

Machine learning has made deep inroads into complex business processes in many industries in most countries. From lending to credit ratings and robot control to remote sensing, thousands of machine learning applications are already deeply embedded in complex business processes. These are just a few examples and this is just the beginning. Banks typically grant loans based on a credit scoring model that combines qualitative and quantitative analysis. Credit scoring is based on statistical methods that can predict the likelihood of a particular event occurring in the future - in this case, a default on a loan. Automatic credit scoring, which assesses the likelihood of default by loan applicants within lending platforms, plays a vital role in reducing lender risk. The main requirement for credit scoring models is to provide the most accurate risk prediction. Very simple predictive models are still widely used in credit assessment. Thus, significant potential is being missed, leading to an increase in reserves or an increase in the number of loan defaults. Although dynamic selection methods show high performance for classification problems, the effectiveness of these methods for assessing creditworthiness has not yet been determined. This study attempts to systematically compare different approaches to dynamic selection of ensemble learning models for accurately assessing the credit rating problem on a large multivariate dataset with real credit ratings. The results of this study show that dynamic selection methods are able to improve the performance of ensemble models, especially in unbalanced learning environments. Keywords: credit scoring, lending platform, dynamic learning in an ensemble References

1. Louzada, F., Ara, A., & Fernandes, G. B. (2016). Classification methods

applied to credit scoring: Systematic review and overall comparison. Surveys in Operations Research and Management Science, 21(2), 117134.

2. Lessmann, S., Baesens, B., Seow, H.-V., & Thomas, L. C. (2015). Bench-

marking state-of-the-art classification algorithms for credit scoring: An update of research. European Journal of Operational Research, 247(1), 124-136.

3. Emekter, R., Tu, Y., Jirasakuldech, B., & Lu, M. (2015). Evaluating credit

risk and loan performance in online peer-to-peer (p2p) lending. Applied Economics, 47(1), 54-70.

4. Baesens, B., Van Gestel, T., Viaene, S., Stepanova, M., Suykens, J., &

Vanthienen, J. (2003). Benchmarking state-of-the-art classification algorithms for credit scoring. Journal of the operational research society, 54(6), 627-635.

5 Hand, D. J., & Kelly, M. G. (2002). superscorecards. IMA Journal of Management Mathematics, 13(4), 273-281.

6. Huang, Z., Chen, H., Hsu, C.-J., Chen, W.-H., & Wu, S. (2004). Credit rating

analysis with support vector machines and neural networks: a market comparative study. Decision support systems, 37(4), 543-558.

7. Bastani, K., Asgari, E., & Namavari, H. (2019). Wide and deep learning for

peer-to-peer lending. Expert Systems with Applications, 134, 209-224.

8. Xia, Y., Liu, C., Da, B., & Xie, F. (2018). A novel heterogeneous ensemble

credit scoring model based on bstacking approach. Expert Systems with Applications, 93, 182-199.

9. He, H., Zhang, W., & Zhang, S. (2018). A novel ensemble method for credit

scoring: Adaption of different imbalance ratios. Expert Systems with Applications, 98, 105-117.

10. Yu, L., Zhou, R., Tang, L., & Chen, R. (2018). A dbn-based resampling svm ensemble learning paradigm for credit classification with imbalanced data. Applied Soft Computing, 69, 192-202.

11. Ala'raj, M., & Abbod, M. F. (2016a). Classifiers consensus system approach for credit scoring. Knowledge-Based Systems, 104, 89-105.

12. Brown, I., & Mues, C. (2012). An experimental comparison of classification algorithms for imbalanced credit scoring data sets. Expert Systems with Applications, 39(3), 3446-3453.

13. Britto Jr, A. S., Sabourin, R., & Oliveira, L. E. (2014). Dynamic selection of classifiers—a comprehensive review. Pattern recognition, 47(11), 3665-3680.

14. Cruz, R. M., Hafemann, L. G., Sabourin, R., & Cavalcanti, G. D. (2018). Deslib: A dynamic ensemble selection library in python. arXiv preprint arXiv:1802.04967 .

15. Junior, L. M., Nardini, F. M., Renso, C., Trani, R., & Macedo, J. A. (2020). A novel approach to define the local region of dynamic selection techniques in imbalanced credit scoring problems. Expert Systems with Applications.

X X

o 00 A c.

X

00 m

o

2 O

ho ho

i Надоели баннеры? Вы всегда можете отключить рекламу.