Научная статья на тему 'ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ ДЕФОЛТА ЗАЕМЩИКА'

ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ ДЕФОЛТА ЗАЕМЩИКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
320
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕФОЛТ ЗАЕМЩИКА / ОБРАБОТАННЫХ ДАННЫХ / ДИСБАЛАНС КЛАССОВ / МАШИННОЕ ОБУЧЕНИЕ / КРЕДИТНЫЙ СКОРИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гринева Н.В., Михайлова С.С.

Управление рисками кредитного портфеля уже много лет является одной из важнейших задач участников финансового рынка. Клиентская аналитика, которая позволяет оценить вероятность дефолта потенциального заемщика, всегда находилась в центре внимания руководства кредитных организаций. Отсутствие общей теории в этой области знаний повышает значимость эмпирических исследований и практического опыта отдельных организаций. Применение методов машинного обучения для больших данных и для быстрого принятия решений является актуальной задачей. Целью исследования является моделирование дефолта заемщика методами машинного обучение. Задачи, решаемые в работе, можно разделить на анализ области, формирование источников исследования, в основе которых лежит методология и теория, применяемые в работе. Материалы и методы: при моделировании применялись методы анализа данных, статистический анализ, методы машинного обучения. Выводы: проведено исследование статистических характеристик заемщиков по различным признакам, таких как возраст, целевое назначение кредита, наличие финансового обеспечения и др. Проведено заполнение пропусков и выявлен наилучший метод для каждого из признаков. Повышена точность прогнозирования модели, по сравнению с результатами до применения методов и после.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLYING MACHINE LEARNING TO SIMULATE BORROWER DEFAULT

Loan portfolio risk management has been one of the most important tasks for financial market participants for many years. Client analytics, which allows assessing the probability of default by a potential borrower, has always been in the focus of attention of the management of credit institutions. The lack of a general theory in this field of knowledge increases the importance of empirical research and practical experience of individual organizations. The application of machine learning methods for big data and for quick decision making is an urgent task. The aim of the study is to model the borrower's default using machine learning methods. The tasks solved in the work can be divided into the analysis of the field, the formation of research sources, which are based on the methodology and theory used in the work. Materials and methods. When modeling, data analysis methods, statistical analysis, and machine learning methods were used. Conclusions. A study was made of the statistical characteristics of borrowers according to various characteristics, such as age, purpose of the loan, availability of financial security, etc. The gaps were filled in and the best method for each of the characteristics was identified. Improved model prediction accuracy compared to the results before and after applying the methods.

Текст научной работы на тему «ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ ДЕФОЛТА ЗАЕМЩИКА»

Применение машинного обучения для моделирования дефолта заемщика

fO

es о es

Гринева Наталья Владимировна

к.э.н., доцент, доцент Департамента анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации, NGrineva@fa.ru

Михайлова Светлана Сергеевна

д.э.н., профессор, профессор Департамента анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации, SSMihajlova@fa.ru

Управление рисками кредитного портфеля уже много лет является одной из важнейших задач участников финансового рынка. Клиентская аналитика, которая позволяет оценить вероятность дефолта потенциального заемщика, всегда находилась в центре внимания руководства кредитных организаций. Отсутствие общей теории в этой области знаний повышает значимость эмпирических исследований и практического опыта отдельных организаций. Применение методов машинного обучения для больших данных и для быстрого принятия решений является актуальной задачей. Целью исследования является моделирование дефолта заемщика методами машинного обучение. Задачи, решаемые в работе, можно разделить на анализ области, формирование источников исследования, в основе которых лежит методология и теория, применяемые в работе. Материалы и методы: при моделировании применялись методы анализа данных, статистический анализ, методы машинного обучения. Выводы: проведено исследование статистических характеристик заемщиков по различным признакам, таких как возраст, целевое назначение кредита, наличие финансового обеспечения и др. Проведено заполнение пропусков и выявлен наилучший метод для каждого из признаков. Повышена точность прогнозирования модели, по сравнению с результатами до применения методов и после.

Ключевые слова: дефолт заемщика, обработанных данных, дисбаланс классов, машинное обучение, кредитный скоринг.

Первую модель кредитного скоринга разработала компания «Fair Isaac Corporation» в 1989 году. Компания работает на рынке США и Канады с подавляющим числом банков и кредиторов, используя данный трех национальных кредит бюро: «Experian», «Equifax» и «TransUnion». В основе расчетов используется машинное обучение. По результатам расчетов, корпорация предоставляет клиенту «FlCO Score» - метрику оценки потенциального заемщика [1].

«Классический FICO Score» принимает диапазон значений от 380 до 850. В условиях, развивающегося рынка кредитных услуг, компания предоставляет оценку заемщика основываясь и учитывая множество факторов. Например, расчет метрик одного и того же потенциального заемщика может зависеть от бюро, которое предоставило данные для оценки, а также, отчет формируется на основе целей кредитования. Согласно данным [2], компания предоставляет различные версии расчетов, основываясь на изменении поведенческих особенностей заемщиков и рынка.

Несмотря на то, что точные формулы расчетов являются коммерческой тайной, «FICO» раскрыла влияния компонентов на итоговый отчет (рис. 1) [3]:

- История платежей (Payment History) (35%). Учитывает просрочки по платежам, типы и количество счетов, сумма денег, все еще причитающаяся по просроченным счетам. судебные процессы, банкротство и так далее.

- Долговая нагрузка (Amounts Owed) (30%). Учитывает отношение долга к кредиту, количество счетов с остатком, сумма задолженности по различным счетам и сумму, выплаченную по кредитам в рассрочку.

- Продолжительность кредитной истории (Length of Credit History) (15%). Учитывает возраст первой учетной записи, возраст последней учетной записи и средний возраст учетных записей. Как давно был использован последний раз тот или иной счет.

- Заявки на новый кредит и открытие новых счетов (New Credit) (10%). Рейтинг FlCO учитывает запросы только за последние 12. С учетом непродолжительной кредитной историй большое количество заявок на открытие нового счета или получение нового кредита может отрицательно сказаться на итоговую оценку. Однако, не все заявки учитываются при расчете оценки.

- Кредитный «микс» (Credit Mix) (10%). Учитывает «разнообразие» кредитной истории. То есть в расчет берется как много раз был взят кредит на ту или иную цель, типы рассрочек.

О ш m х

<

m о х

X

?*Т ^ 1 Ю

Payment Hist«

Рисунок 1. Влияние компонентов на кредитный рейтинг FlCO Score

«Vantage Score» это модель для оценки займа потребительского характера, использующая в основе расчетов машинное обучение. Аналогично «FICO Score», для расчетов и оценки используются данные трех национальных кредит бюро: «Experian», «Equifax» и «TransUnion». Модель была разработано ранее перечисленными бюро и также работает на рынке кредитных услуг США и Канады с 2006 года. В результате совокупностей расчетов, «Vantage Score», начиная с актуальной версии «Vantage Score 4.0», выдает трехзначную оценку от 300 до 850 единиц [4].

Аналогично сопернику, в зависимости от цели кредитования и иным факторам модель так же является гибкой к различным данным. Согласно политике компании, формулы и методы расчеты являются конфиденциальными и срыты для общественного доступа, однако «Vantage Score» раскрывает влияние совокупности факторов, влияющие на формирование метрики в версии «Vantage Score 4.0» (рис.2) [5]:

- История платежей (Payment History) (41%). Учитывает просрочки по платежам. Согласно вкладу в оценку, которую вносит данный фактор, просрочки по платежам может оказаться одной из основных причин заниженного отчета по заемщику.

- Использование кредита (Credit Utilization) (20%). Данная статья учитывает отношение долга к кредиту. Меньшая величина кредитного лимита благоприятно влияет на кредитный рейтинг.

- Глубина кредита (Depth of Credit (Age/Mix)) (20%). На формирование вклада данного пункта влияет возраст и сочетание используемых кредитов. Использование кредитных карт и кредитов в рассрочку демонстрирует финансовую стабильность и демонстрирует надежность.

- Новый кредит (New Credit) (11%). Учитывает количество счетов, которые были открыты недавно и количество совершенных попыток. Отрицательно влияет на кредитный рейтинг.

- Баланс (Balance) (6%). Учитывает долги по всем кредитным продуктам. Несмотря на то, что заемщик отвечает финансовые обязательствам в срок, большой остаток способен отрицательно сказаться на «Vintage Score 4.0».

- Текущие счета и кредиты (Available Credit) (2%). Наименьший, но положительный вклад в формирование рейтинга вносит количество текущих кредитных счетов и кредитов в рассрочку. Чем больше, тем лучше.

Behavioral contribution to score

General prédictive contribution of the primary credit behavior factors to the credit score.

i Available Credit Balance New Credit i Utilization I Age/Mix Payment History

Рисунок 2 - Влияние компонентов на кредитный рейтинг VantageScore 4.0.

Ранее указывалось, что расчеты метрик «FICO Score» и «VantageScore 4.0» скрыты для третьих лиц. Поэтому, провести анализ методологии расчета, весов каждой величины и

взаимодействующих моделей машинного обучения для данных метрик не удастся. Однако, есть возможность обратиться к различным источникам для сравнения метрик по иным параметрам. «Fmancejar» на момент 17 апреля 2022 года представляет следующий сравнительный анализ (табл. 1) [6]:

Таблица 1

Категория VantageScore 4.0 FICO Score

Оцениваемое население (человек) 252 000 000 190 000 000

Минимальный кредитный опыт для оценки (месяц) 1 6

Буффер перед тем, как повлиять на кредитный рейтинг (дни) 0 30

Период дедублика-ции данных (дни) 14 45

Период дедублика-ции применяется Всем заявкам на получение кредитных карт и заемных средств Всем заявкам на выдачу кредитных средств

Способ дедублика-ции Группирует все заявки в 1 целое Группирует запросы по типу кредита: студенческий, авто и ипотека

Штрафы за просрочку по платежам Обеспеченные долги (по ипотечному кредитование и автокредитам) штрафуются сильнее всего Одинаковый штраф ко всем видам займа

Коллекторский счет Сумма просрочек по платежам на коллекторском счету игнорируется Игнорируются, если сумма просрочки на коллекторскому счету меньше 100$

На основе анализа, можно выдвинуть предположение, что использование «VantageScore 4.0» банками и кредитным организациям в качестве дополнительной оценки заемщика является более оправданным, так как данная метрика способна дать оценку большему количеству населения с меньшей кредитной историей. Тем самым, организации могут охватить и в дальнейшем привлечь к финансовой услуге или продукту большую часть рынка, при этом комплексно предлагая свои услуги клиентам, которые потенциально могут воспользоваться услугой в первый раз и остаться потребителями.

Так же, «VantageScore 4.0» потенциально может быть более привлекательным из-за более короткого периода метрик дедубликации данных и буффера перед тем, как клиент сможет повлиять на кредитный рейтинг. Организациям придется меньше ждать расчет метрики и тем самым, банк сможет быстрее принять решение по заявке и потенциально сохранить клиента, которому другой банк смог предоставить положительное решение ранее.

«Experian» выделяет схожие отличиями двух кредитных рейтингов [7]. Однако в отличие от источника «Financejar», «Experian» подчеркивает, что «VantageScore» создает единую модель трех бюро, которую можно использовать с кредитным отчетом от «Experian», «Equifax» или «TransUnion». «FICO Score» создает скоринговые модели для конкретных бюро. Таким образом, в то время как последний «FICO Score» может иметь одно имя, на самом деле есть три немного разные модели «FICO Score» по одной для каждого из основных агентств кредитной отчетности.

Предобработка и анализ данных.

В качестве данных, используемые для моделирования дефолта заемщика были выбраны анонимизированные дата-сеты с информацией по клиентам, которым была выдана ссуда

X X

о го А с.

X

го m

о

ю

2 О M

со

to сч о сч

О Ш 00

<

00 о

банком Home Credit [8]. Рассматриваемые данные состоят из таблиц application_train, application_test и HomeCredit_columns_description.

HomeCredit_columns_description - это таблица, которая хранит описание каждого признака из таблиц application_train (далее для удобства train) и application_test (далее для удобства test). Train - это данные, на которых будет обучаться модель машинного обучения. Таблица 2 содержит информацию о клиентах и выданных им кредитах.

Таблица 2

Признаки таблицы train.

bK_ID_CURR TARGET NM_GCMTRACT_TVPE COOEJENDER FLAGJMKAR FLAG_0WN_REALTV CNTJHILDKEN ffl_INGH1E_T0TAL AMT_GREDIT AMT_ANNUITV

0 100002 1 Cash loans M N Y 0 2020.00.0 406597.0 24700 0

1 100000 0 Cash loans FN NO 270000.0 1290002.5 05690 5

2 100004 0 Revolving loans MY Y 0 67500.0 130000.0 6750.0 ...

3 100006 0 Cash loans FN Y 0 135000.0 312662.5 20636.5 ...

4 100007 0 Cash loans M N Y 0 121500.0 .513000.0 21665.5 ...

Таблица состоит 307 511 строчек, где каждая строка - это кредит, и 122 столбцов, таких как тип кредита, объём заемной ссуды, цена товара, который планируется приобрести за заемные средства, количество членов семьи, информация о наличие автомобиля, частной собственности и в том числе более специфичной информации, как предоставление и наличие тех или иных официальных документов, информация о том, сколько раз клиент терял документ, удостоверяющий личность и так далее. Так же, train содержит бинарный столбец, в котором хранится информация о дефолте или хотя бы одной просрочке по кредиту (значение 1) и выплаченном кредите без просрочек (значение 0).

Test - это таблица, которая будет использована в исследование в качестве данных, для которых будет предоставлен прогноз и интерпретация обученной модели. Данный датасет содержит все те же самые признаки, что и train, однако без целевого столбца, так как каждая строка является заявкой на получение денежных средств.

Перед тем, как перейти к обработке и подготовке данных к обучению рассмотрим несколько распределений двух видов заемщиков по различным признакам (рис. 3).

Распределение заемщиков

Нет просрочек

Будет просрочка или не возрат

Рисунок 3 - Распределение заемщиков по целевому признаку.

Из рисунка 3 видно, что почти из всех заемщиков 92% составляют ответственные клиенты, которые в полной мере отвечали по финансовым обязательствам перед банком и 8%, которые не выполняли все условия договора. Соотношение классов говорит о дисбалонсированости выборки, что в последствии может привести к проблеме прогнозирования класса моделями машинного обучения. В дальнейшем будут применены и проанализированы методы машинного обучения, предназначенные для борьбы с дисбалансом классов. Необходимость применение этих процедур обуславливается целью

прогнозировать оба класса с равной и высокой долью точности.

Рассмотрим график распределение заемщиков по возрасту (рис.4).

Распределение заемщиков по возрасту

- Нет просрочек

d он'

Возраст

Рисунок 4 - Распределение заемщиков по возрасту.

Анализ рисунка 4 показывает, что среди дефолтных заемщиков больше всего клиентов в возрасте от 28-31 года, чем больше возраст клиентов после 32 лет, тем меньше по ним просрочек или дефолтов. Однако, это может обуславливаться тем, что люди в возрасте от 28 до 31 года составляют больший кластер, чем люди от 32-70 лет.

Среди заемщиков другого класса явно выделяются 3 кластера:

- Первый кластер состоит из клиентов возрасте от 18 до 28, которые составляет примерно 15% от всех платежеспособных заемщиков.

- Второй кластер состоит из клиентов в возрасте от 29 до 54 лет, что составляет примерно 67% от всех платежеспособных заемщиков.

- Третий кластер состоит из клиентов в возрасте от 55 до 70 лет, что составляет примерно 18% от всех платежеспособных заемщиков.

Так, можно выдвинуть предположение, что второй кластер заемщиков гораздо чаще отвечает по финансовым обязательствам, чем в первый и третьи кластер, однако это может объясняться тем, что среди выданных кредитов данным банков больше всего заемщиков возрастом от 29 до 54 лет.

Рассмотрим соотношение по типам выданных кредитов и долю дефолтов по каждому из них рис. 5.

s 150000

I

Рисунок 5 - Распределение заемщиков по видам выданных кредитов.

Таким образом, выданные револьверные кредита составляют 10% от всех, однако, процент невозврата по ним гораздо больше. Такое наблюдение может служить возможным сигналом к изменению условиям для выдачи данного типа кредита или во все отказа от данного типа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Дальнейший анализ показал, что владеющих автомобилем почти в 2 раза меньше, чем тех, кто без личного транспорта. Можно выдвинуть предположение, что люди, которые могут позволить себе приобрести транспортное средство и способны его обслуживать являются более платежеспособными заемщиками, так как после закрытия основных жизненных потребностей у них остаются денежные средства на покрытие второстепенных потребности в виде личного транспорта. Или, не обладая излишними средствами, люди обладают финансовой грамотностью и способны грамотно распределять доходы на первостепенные и второстепенные нужды. Тем самым, данному классу потенциальных заемщиков можно дать больший вес в принятие положительного решения о выдаче кредита. Однако среди дефолтных заемщиков не замечается такого отличного различия между классами, следовательно, риск дефолта заемщиков без автомобиля не столь отличен от заемщиков без авто и не стоит давать более существенного веса в принятие положительного решения по выдаче ссуды потенциальным заемщикам с личным транспортом.

Заемщиков, не имеющих недвижимость меньше более чем в 2 раза. Можно выдвинуть предположение схожее предположению выше, о финансовой грамотности и благополучие заемщиков с недвижимостью и соотношению весов в принятие решения.

Заемщики в семейном статусе вдвое реже всех не отвечают по финансовым обязательствам, но и их количество среди всех заемщиков уступает всем остальным классам и возможно не стоит им присваивать самый высокий вес в принятие решения о выдаче заемных средств, так как женатые заемщики занимают доминирующие позиции по количеству одобренных кредитов, обгоняя в сумме все другие классы и при таком количестве стоят на предпоследнем месте среди дефолтных заемщиков. Возможно, именно этому классу стоит присвоить наибольший вес в принятие решения о заключение договора о выдаче средств с банком.

Меньше всего дефолтных заемщиков у класса людей, имеющие выше высшего образования, однако этот класс составляет минорное количество кредитованных клиентов. Более примечательно то, что класс заемщиков, имеющие образование lower secondary education (школьная программа), едва отличаясь от минорного класса в большую сторону по количеству всех заемщиков, имеет сопоставимое количество де-фолтных клиентов с клиентами, имеющие уровень образования secondary/secondary special (среднее образование), хотя заемщиков со средним образованием больше, чем в 10 раз. Исходя из этого можно выдвинуть предположение, что потенциальным заемщикам, освоившие в качестве образования только школьную программу стоит присвоить наименьший вес в принятие решения о выдаче ссуды.

Проанализируем распределение заработной платы за год по всем выданным кредитам среди дефолтных и не дефолт-ных клиентов (рис. 6).

2.0

а,.

Недефолтные Дефолтн!

100000 150000

Зароботная плата за 1 год (в $)

Рисунок 6 - Распределение заработной платы классов заемщиков за год.

Исходя из данных на рисунке 6 видно, что больше всех за заемными средствами обращаются заемщики, с доходом ниже 50 000 долларов в год. Распределение заработной платы за год у классов дефолтных и не дефолтных клиентов почти одинаковое, однако можно зафиксировать, что дефолтные заемщики с заработком от 24 000 до 26 000 долларов в год не соответствуют финансовым обязательствам чаще остальных и не дефолтный заемщики чаще всего не пропускают платежи и полностью выплачивают долг перед банком имея годовой заработок в районе 24 000 и 26 000 долларов.

Перед тем, как отправить данные в модель для прогнозирования дефолта или не дефолта по кредиту от конкретного заемщика, необходимо провести разведочный анализ данных.

В ходе проведения анализа было выявлено, что в 67 из 122 признаков содержатся пропущенные значения. В контексте исследования, пропущенные значения в признаках нуждаются в обработке по причине того, что ряд алгоритмов для обработки данных и модель машинного обучения не принимают данные на входе с пропусками. На практике существует множество подходов в рамках задачи обработки пропущенных значений [9]. В зависимости от процента пропусков, в данной работе будут применены 3 подхода:

Во - первых. Удаление столбцов, содержащие более 40% пропусков. Хоть и не существует канонического значения процента пропусков в признаке, которое служило бы порогом срабатывания для принятия решения об исключения того или иного признака из исследования, однако принято удалять признаки, содержащие более 30-50% пропусков, так как заполнение такого количество пропусков в каждом столбце может привести к критичным искажениям природы распределения данных. Так, заполнив такие столбцы медианным, средним значением по признаку или модой, модель получает на входе признаки не отражающие реальное распределение данных, так, модель научиться обобщать и прогнозировать решение о выдаче или отказе в кредите на данных, которые не будут подаваться модели после обучения и в производственном применение модель будет чаще принимать не верные решения, чем при обучении.

Во - вторых. Заполнение признаков, содержащие менее 40% пропусков медианным, средним значением признака или модой. Заполнение признаков рассматриваемым способом, при таком проценте пропусков способен не критично повлиять на природу распределения исходных данных, однако не всегда является панацеей. Чтобы принять решением о том, каким из 3-х ранее указанном значением заполнить пропуски, необходимо взглянуть на распределение признака до заполнения и после заполнения рассматриваемыми значениями и остановиться на той статистике, которая наименьшим образом вносит правки в исходное распределение величины.

На примере признака EXT_SOURCE_2 (рис. 7) видно, что заполнение любой из 3-х статистик практически полностью сохраняет исходное распределение и мы можем выбрать любой из 3 способов заполнения и не исключать признак из исследования.

Однако, так бывает не всегда, даже с учетом того, что процент пропусков у признака менее 40% (рис. 8).

На рисунке 8 видно, что заполнение пропущенных значений в столбце EXT_SOURCE_3 каждой статистикой ведет к существенному искажению данных. Чтобы попытаться в меньшей степени исказить исходное распределение и не исключать признак из исследования, для таких признаков существует следующий подход.

В-третьих. Заполнение признаков, содержащие менее 40% пропусков при помощи алгоритмов машинного обучения. Если стоит задача не удалять столбец и заполнение пропусков ста-

X X

О

го >

п.

X

го m

о

N3 О N3

a

fO

сч о cs

о ш m

X

3

<

m О X X

тистиками приводит к недопустимым изменениям в распределение, то сохранить исходную природу данных может помочь заполнение пропусков при помощи модели машинного обучения КИИ. Заполнение признаков только одной статистикой, а и спрогнозированными значениями модели может помочь снизить влияние искусственных данных на исходное распределение.

EXT SOURCE 2

Рисунок 7 - Распределения признака ЕХТ_80иИСЕ_2, в зависимости от метода заполнения пропущенных значений.

В результате применения подходов работы с пропущенными значениями, для каждого признака был применен один из трех подходов и таким образом удалось сохранить исходное распределение признаков, не сильно исказив природу данных. Тем самым, удалось не исключать из исследования потенциально полезные для модели данные, которые могут помочь модели сделать точный и верный прогноз по каждому потенциальному заемщику.

Затем, необходимо проверить каждый признак на наличие аномальных значений и выбросов. Выброс (outlier) - это элемент маломощного подмножества выборки, существенно отличающегося от остальных элементов выборки [10]. Необходимость проведения ряд процедур по обнаружению и работы с выбросами и аномалиями обуславливается негативным влиянием подобных значений на построение модели и в результате провоцирует отрицательное влияние на качество предсказательной способности модели.

При помощи построения графика boxplot для каждого признака, можно зафиксировать наличие аномальных значений или выбросов. Если на графике присутствует визуализация в виде точек или иной фигуры за пределами ящиками с коробкой и «усами», то можно зафиксировать наличие аномальных значений у рассматриваемого признака.

Построение графика boxplot построено на межквартиль-ном размахе. Предельными значения выше указанных диапазонов называются «усы» графика boxplot (рис. 10). Так, анализируя график boxplot признака можно зафиксировать наличие аномальных значений и подтвердить их наличие при помощи анализа графика распределения величины, зафиксировав явные хвосты, но концах графика.

HOUR_APPR_PROCESS_5TART: уник, знач : 2Л

Рисунок 8 - Распределения признака ЕХТ_ЭОиНСЕ_3, в зависимости от метода заполнения пропущенных значений.

Так, на примере ранее продемонстрированного признака EXT_SOURCE_3 (рис. 9) видно, что использование значений, спрогнозированные моделью КИИ в качестве значений для заполнения пропусков не создают ярко выраженные «купола» на графике распределения величины.

Рисунок 9 - Сравнение распределений исходных и заполненных методом машинного обучения данных

Рисунок 10 - Пример построения графика Ьохр1о1

Проведя подобный анализ, для каждого признака был собран список столбцов, для которых необходима обработка аномальных значений. В результате проведения процедур по обнаружение и обработки выбросов и аномальных значений для всех признаков, где значения были обнаружены, был применен метод замены нежелательных значений на пределы межквартильного размаха. Влияние на качество модели, оказываемое применением данного метода.

В задаче машинного обучения анализ корреляции между признаками помогает ответить на вопрос о степени взаимосвязи между признаками и о принятие решения об исключение того или иного признака из исследования, с целью не «перенасытить» модель машинного обучения значениями сильно или слабо коррелирующими столбцами и сократив количество признаков в данных ускорить время обучения модели, а также сократить скорость прогнозирования. В задачах машинного обучения нет канонического значения коэффициента корреляции для принятия решение об исключение признака из исследования, поэтому в данном исследование в качестве порога

принятия решения об исключения признака в связи высокой коэффициентом корреляции по модулю было выбрано значение 0.8.

В результате проведения ряда процедур были удалены несколько признаков. Влияние на качество модели, оказываемое применением данной процедуры, будет рассмотрено в следующей главе работы.

С целью улучшить предсказательную способность модели, к исходным данным были применены алгоритмы масштабирования данных. В ходе проведения предварительного анализа было выявлено, что ряд признаков хранится в строчном формате и необходимо преобразовать их к числовому формату, так большинство моделей машинного обучения и ряд рассматриваемых алгоритмов обработки данных не принимает на выход признаки в категориальном формате данных. В качестве алгоритма преобразования категориальных признаков был выбран алгоритм OneHotEncoder.

В конце проведения этапа обработки данных были созданы дополнительные признаки на основе существующих. Создание подобных признаков, в частности столбцов, созданные как отношение одной величины на другую, может помочь алгоритмам модели машинного обучения увидеть больше закономерностей в данных и поспособствовать поднятию точности прогнозирования моделью. Дополнительные признаки, которые были созданы в рамках этого этапа работы, можно разделить на 2 группы:

Первая группа. Признаки, хранящие значения соотношений исходных признаков. Новые столбцы были созданы на основе следующих соотношений (табл. 3):

Таблица 3

Признак Расчетная формула

DAYS_EMPLOYED_PERC DAYS_EMPLOYED DAYS BIRTH

INCOME_CREDIT_PERC AMTJNCOME TOTAL AMT CREDIT

INCOME_PER_PERSON AMTJNCOMETOTAL CNT CHILDREN

ANNUITY_INCOME_PERC AMT_ANNUITY AMT INCOME TOTAL

PAYMENT_RATE AMT_ANNUITY AMT CREDIT

вания по данному классу. Не редко в основе нескольких алгоритмов может использоваться одна модель машинного обучения или один принцип. Порой, алгоритм может являться улучшенной версией того алгоритма, на котором был основан. Именно из-за этого существует не так много принципиально отличных алгоритмов.

Применение и оценка алгоритмов модели машинного обучения.

В качестве способа обучения модели машинного обучения был выбран подход обучение с учителем. Подход подразумевает наличие известных значений признака, для которого модель машинного обучения будет прогнозировать значения. Ранее было зафиксировано наличие дисбаланса между классами, поэтому необходимо, чтобы тренировочные и тестовые данные сохраняли соотношение классов согласно соотношению в генеральной совокупности. Сохранить это соотношение можно при помощи функции train_test_split, указав в параметре stratify целевой столбец.

В качестве метрик для оценки качества модели выли выбраны F1-Score и матрица ошибок. F-Score - это средне гармоническое между метрикой recall и precision.

Prescision * Recall

F= 2-

Prescision + Recall

Для того, чтобы отслеживать предсказательную способность модели по каждому классу была выбрана метрика матрица ошибок (confusion matrix) (табл.4).

Таблица 4

y = 1 y = 0

У= 1 True Positive (TP) False Positive (FP)

У = 0 False Negative (FN) True Negative (TN)

Вторая группа. Полиномиальные признаки. Подход обработки данных, подразумевающий создание полиномов, в задачах машинного обучения не является распространенным, однако сравнение метрик качества модели с новыми признаки и без них не займет много времени и по итогу может оказать положительный результат на прогнозирующую способность модели. Дополнительные признаки (полнимы) были созданы на основе признаков EXT_SOURCE_2, EXT_SOURCE 3 и DAYS_BIRHT.

Алгоритмы OverSampling нацелены на создание новых экземпляров интересующего класса на основе существующих данных с учетом особенности алгоритмов каждого. Таким образом, в модели будут предоставлены искусственные строки, созданные на основе алгоритмов машинного обучения или копии существующих объектов. Однако, такие данные нельзя в полной мере оценивать как реальные объекты и факты окружающего мира, но в условиях, когда модели на вход поступает мизерное количество одного из классов и необходимо повысить точность прогнозирования минорного класса, данные методы способны сделать акцент модели машинного обучения на наличие минорного класса и поднять точность прогнозиро-

В качестве обучаемого классификатора была выбрана модель CatBoostClassifier, основанная на градиентном бустинге. Подход использования ансамбля моделей, согласно соревнованиям на Кадд1е гораздо чаще приводит к более высоким значениям метрик и более точным предсказаниям целевой метрики. В качестве алгоритма, способствующему решения проблемы дисбаланса класса будет использован метод compute_class_weight из библиотеки skleam. Метод принимает на вход исходные данные и возвращает список весов для каждого класса. Затем, данные веса подаются модели в качестве аргумента, служащего для классификатора указанием на необходимость присвоить тот или иной вес каждому классу. В этом случае, минорному классу будет присваиваться больший вес, нежели мажорному с целью увеличить предсказательную способность минорного класса.

Все алгоритмы применялись поэтапно и оценивалась влияние совокупностей алгоритмов. Ниже приведена таблица 5 с результатами применения алгоритмов OverSampling и метода compute_dass_weight:

Таблица 5

Алгоритм Метрика

F-SCORE TP (верно FP (не FN (верно TN (не

класс 0) верно класс 0) класс 1) верно класс 1)

Без алгоритмов 0.038 56 446 92 4 865 100

Compute class weight 0.265 39 726 16 812 1 625 3 340

Sklearn.Unils.Resample 0.149 5 56 533 1 4964

SMOTE 0.255 38 002 18 536 1 528 3 437

Borderline - SMOTE 0.037 56 443 95 4 867 98

SVM-SMOTE 0.048 56 421 117 4 838 127

KmeanSMOTE 0.043 56 432 106 4 852 113

ADASYN 0.038 56 443 95 4 865 100

X X

о

го А с.

X

го m

о

ю

2 О M

со

fO CS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

CS

01

о ш m

X

<

m О X X

Сперва, стоит уделить внимание тому, что выводы об анализе данных оказались верны и дисбаланс классов действительно присутствует. Мажорный класс прогнозируется моделью практически идеально, однако обобщение моделью минорного класса не приемлемо, так как минорный класс - это класс дефолтных клиентов. Фактически, модель без предварительной обработки «выдаст» заемные средства почти всем подряд, не разделяя клиентов на рассматриваемые классы. Возможно, это связано с низким объемом экземпляров минорного класса, поэтому для того, чтобы у модели было достаточно данных для обобщения класса дефолтных заемщиков были проведены процедуры по обработки данных с использование алгоритмов Over и Under Sampling.

Практически идентичные результаты, равные результатам обученной модели без применения алгоритмов обработки данных, показало использование алгоритмов SVM-SMOTE, KmeanSMOTE, ADASYN и Borderline - SMOTE. Значимых отличий обнаружено не было. Данный алгоритмы не подходят к исследуемым данным. Если опустить описание результатов при использование других алгоритмов Over Sampling по отдельности можно сделать обобщенный, с учетом дополнительных тестов, которые не вошли в пояснительную записку вывод. Если изменять параметры каждого алгоритма, который не был указан в начале данного параграфа, то можно добиться двух ярко выраженных результатов. Модель либо идеально обобщает мажорный класс, при этом не «видя» минорный, либо наоборот. Так как результаты являются неприемлемыми в рамках работы, поэтому было принято решение применить к исходным данным алгоритмы Under Sampling.

Ниже приведена таблица 6 с результатами применения алгоритмов UnderSampling:

Таблица 6

Алгоритм Метрика

F-SCORE TP (верно FP (не FN (верно TN (не

класс 0) верно класс 0) класс 1) верно класс 1)

RandomUnderSample 0.262 38 902 17 636 1 551 3 414

Condensed Nearest Очень дол- - - - -

Neighbours гий алгоритм

Tomek Links 0.053 56 404 134 4 825 140

One Sided Selection 0.054 56 420 118 4 822 143

Edited Nearest Neighbours 0.15 56 760 778 4 484 481

Edited Nearest Neighbours 0.277 47 177 9 361 2 659 2 306

ver 2

Repeated Edited Nearest Очень дол- - - - -

Neighbours гий алгоритм

AllKNN 0.127 56 030 508 4 593 372

AllKNN ver 2 0.177 22 306 34 232 1 138 3 827

Neighbourhood Cleaning Rule 0.099 56 205 333 4 687 278

Instance Hardness 0.194 22 642 33 896 784 4 181

Threshold

Instance Hardness 0.175 12 450 44 088 236 4 729

Threshold ver2

Instance Hardness 0.258 48 457 10 166 2 710 2 255

Threshold ver3

Threshold при более кропотливой настройке параметров, способен в половине случае правильно прогнозировать минорный класс, что уже является неплохим результатам в решение проблемы низкой точности предсказания данного класса, но при этом сокращая количество верных прогноз мажорного класса. Но стоит подчеркнуть, что модель начала получать хоть и не исчерпывающий, но результат, от которого стоит отталкиваться и проводить ряд иных процедур по обработке данных, с цель повысить точность прогнозирования каждого класса.

В таблице 7 представлены результаты применения алгоритмов вместе с методом Instance Hardness Threshold:

Таблица 7

Алгоритм Метрика

F-SCORE TP (верно класс 0) FP (не верно класс 0) FN (верно класс 0) TN (не верно класс 0)

1 0.278 47 572 8 966 2 710 2 225

1, 2 0.276 46 951 9 587 2 629 2 336

1, 2, 3 0.272 45 249 11 289 2 404 2 561

1, 2, 3, 4 0.298 50 577 5 961 3 049 1 916

где 1 - удаление аномальных значений, 2 - удаление сильно коррелирующих столбцов, 3 - масштабирование числовых признаков, 4 -Создание дополнительных признаков

Исходя из результатов анализа таблицы 7. можно сделать вывод, что использование всех алгоритмов, является оправданным и качество прогнозирования каждого класса увеличилось, однако высокой точности предсказания по каждому классу пока что не удалось добиться методами предобработки данных, но положительный результат есть. Модель еще лучше обобщает клиентов, которые не смогут отвечать по финансовым обязательствам.

Чтобы поднять точность прогнозирования каждого класса еще выше, был применен алгоритм машинного обучения Grid Search, который по результату выполнения работы выдает оптимальное значения каждого рассматриваемого параметра по результатам модели, чья метрика среди всех комбинация параметров оказалась наивысшей.

Процедура данного алгоритма:

- Выбор параметров модели и возможных значений каждого параметра.

- Выбор метрики для оценивания и ранжирования.

- Обучение модели N раз, где N - количество комбинаций всех параметров.

В результате проведения процедуры удалось добиться следующих результатов (табл. 8):

Таблица 8

Результаты применения алгоритмов Grid Search.

Процедура F-SCORE TP FP TN FN

До применения 0.283 49 507 7 031 3 049 1 916

После 0.302 48 249 8 599 3 187 1 738

Исходя из результатов таблицы 6 было принято решение использовать алгоритм Instance Hardness Threshold, потому что, как и при использовании алгоритмов Over Sampling, методы Under Sampling демонстрируют такой же результат, при смене параметров алгоритмов или при использование стандартных параметров, результаты разнятся либо в сторону высокой точностью прогнозирование мажорного класса и не удовлетворительной точностью прогнозирования минорного и с точностью наоборот. Однако алгоритм Instance Hardness

Предсказательная способность минорного класса выросла, но при этом упала точность прогнозирования у мажорного класса. Однако, теперь модели удается еще лучше идентифицировать заемщиков, которые не смогут отвечать по финансовым обязательствам.

Чтобы убедиться в достоверной обобщающей способности модели прогнозировать с такими же или близкими к таким результатам, но на других данных, так же отражающих природные свойства исходных данных, необходимо провести процедуру Cross Validation. По результатам проведения процедуры можно приблизительно ответить на вопрос, на сколько точно

модель машинного обучения будет прогнозировать на данных, по новым заявкам на получение кредита. И если результаты проведения процедуры перекрестной проверке будут близки к результатам обученной и оптимизированной модели, то можно с высокой долей вероятности утверждать, что и в производственном применение модель будет прогнозировать с точностью, которой удалось добиться на этапе применения предобработки данных и алгоритмов машинного обучения.

В результате проведения процедуры Cross Validation среднее значение метрик F-Score = 0.293, на всех разбиениях, на которых проводилась данная процедура. Значение метрики на перекрестной проверке показало близкий результат к предоб-работанной и оптимизированной модели. Следовательно, результат можно зафиксировать как достоверный.

На этом проведение ряда процедур по улучшению предсказательной способности модели заканчивается, так как были применены все рассматриваемые алгоритмы и процедуры. Хоть и результаты до применения всех алгоритмов и после не столь внушительные, однако от данной стадии работы можно отталкиваться в сторону проведения процедур для улучшения точности прогнозирования модели в следующих работах и проектах.

Результаты и выводы.

В результате проведения всех интересующих процедур и применения алгоритмов получаем обученную модель, с помощью которой можно прогнозировать решение о выдаче или в отказе в займе потенциальному заемщику. В 51 436 случаев из 61 733 модель верно прогнозирует класс заемщиков.

Из рисунка 11 видно, что кластер заемщиков в возрасте от 29 до 40 лет составляет наибольшую часть среди всех де-фолтных заемщиков, согласно прогнозирование обученной модели машинного обучения. Можно предположить, что заемщики в этой группе являются наименее надежными, однако это может обуславливаться тем, что среди всех заемщиков, попавшие в исследуемые кластер людей сосредоточил наибольшую часть заемщиков. Так же можно выдвинуть предположение, что наиболее надежными заемщиками являются клиенты в возрасте от 37 до 42 лет.

Распределе!

Рисунок 11 - Распределение классов заемщиков по возрасту.

0.16 0.14

о 0.08 ё

Распределение заемщиков стажу

—- Нет просрочек - Есть

Из рисунка 12 видно, что согласно результатам предсказания модели, наиболее надежными заемщиками является кластер работников со стажем от 9 до 10.5 лет. Кластер самых ненадежных заемщиков сосредоточен в границах от 2 до 4 лет стажа работы.

Из рисунка 13 можно выдвинуть предположение, что по результатам прогноза модели, что чем больше у заемщика детей, тем менее он является надежным. Однако из данной парадигмы выбивается кластер клиентов, у которых 4 ребенка. В данном кластере гораздо меньше проблемных клиентов, чем в кластере заемщиков без детей.

I.

II..

Ill

Рисунок 13 - Распределение дефолтных заемщиков по количеству детей.

Исходя из рисунка 14. видно, что за распределения де-фолтных и не дефолтных клиентов по уровню годового заработка не сильно отличается, однако модель машинного обучения обобщила, что среди заемщиков с годовой заработной платой от 65 000 до 66 500 тысяч надежных заемщиков больше, чем ненадежных.

Не дефолтмые kj Дефолтные клиенты

2-

а"

20000 30000 40000 50000

Зароботная плата за 1 год (в $)

Стаж работы (в годах

Рисунок 12- Распределение заемщиков по стажу работы

Рисунок 14 - Распределение заемщиков по уровню ЗП в год.

В результате решения проблемы дисбаланса класса удалось выяснить, что среди рассматриваемых алгоритмов Over Sampling самым эффективным оказался метод SMOTE, так как применение этого метода к исходным данным позволило модели начать прогнозировать минорный класс, то есть дефолтных заемщиков. Однако наиболее эффективным алгоритмом оказался метод Under Sampling - Instance Hardness Threshold, так как показал лучшие значения метрик среди рассматриваемых алгоритмов Under Sampling и Over Sampling.

Также результаты работы подтверждают предпосылки об эффективности заполнения пропущенных значений в данных с использование различных методов и алгоритмов машинного обучения, а также практической значимости использования методов и алгоритмов для предобработки в виде повышение точность прогнозирования модели, по сравнению с результатами до применения методов и после.

В рамках выполнения задач по предобработке данных удалось повысить точность прогнозирования дефолтных клиентов со 100 из 4985 рассматриваемых, до 3 187 из 4 985, что

X X

о

го А с.

X

го m

о

м о м со

еще раз подтверждает о практической значимости используемых алгоритмов.

Литература

1. Credit score in the United States [Электронный ресурс] -Режим доступа: https://en.wikipedia.org/wiki/Credit_score_in_the_United_States# FICO_score (дата обращения 02.03.2022)

2. FICO Scores Versions [Электронный ресурс] - Режим доступа: https://www.myfico.com/credit-education/credit-scores/fico-score-versions (дата обращения 02.03.2022)

3. What's in my FICO Scores? [Электронный ресурс] - Режим доступа: https://www.myfico.com/credit-education/whats-in-your-credit-score (дата обращения 05.03.2022)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Vantage Score [Электронный ресурс] - Режим доступа: https://en.wikipedia.org/wiki/VantageScore (дата обращения 15.03.2022)

5. VantageScore 4.0: How It Works and What Your Credit Score Means [Электронный ресурс] - Режим доступа: https://financejar.com/credit-scores/vantagescore-4-0/ (дата обращения 12.03.2022)

6. What is VantageScore 4.0? [Электронный ресурс] - Режим доступа: https://financejar.com/credit-scores/vantagescore-4-0/ (дата обращения 12.02.2022)

7. Difference between Vantage Scores and FICO Scores [Электронный ресурс] - Режим доступа: https://www.experian.com/blogs/ask-experian/the-difference-between-vantage-scores-and-fico-scores/ (дата обращения 02.02.2022)

8. Home Credit Default Risk [Электронный ресурс] - Режим доступа: https://www.kaggle.com/c/home-credit-default-risk (дата обращения 02.02.2022)

9. Обработка пропущенных значений в задаче машинного обучения [Электронный ресурс] - Режим доступа: https://www.youtube.com/watch?v=eqHi93E-vXk&ab_channel=%D0%AE%D1%80%D0%B8%D0%B9%D0%9 3%D0%B0%D0%BF%D0%B0%D0%BD%D1%8E%D0%BA (дата обращения 04.02.2022)

10. Выброс (статистика) [Электронный ресурс] - Режим доступа:

https://ru.wikipedia.org/wiki/%D0%92%D1 %8B%D0%B1%D1 %80 %D0%BE%D1 %81_(%D1 %81%D1%82%D0%B0%D1 %82%D0 %B8%D1 %81%D1%82%D0%B8%D0%BA%D0%B0) (дата обращения 06.02.2022)

Applying machine learning to simulate borrower default

Grineva N.V., Mikhailova S.S.

Financial University under the Government of the Russian Federation

JEL classification: G20, G24, G28, H25, H30, H60, H72, H81, K22, K34

Loan portfolio risk management has been one of the most important tasks for financial market participants for many years. Client analytics, which allows assessing the probability of default by a potential borrower, has always been in the focus of attention of the management of credit institutions. The lack of a general theory in this field of knowledge increases the importance of empirical research and practical experience of individual organizations. The application of machine learning methods for big data and for quick decision making is an urgent task. The aim of the study is to model the borrower's default using machine learning methods. The tasks solved in the work can be divided into the analysis of the field, the formation of research sources, which are based on the methodology and theory used in the work. Materials and methods. When modeling, data analysis methods, statistical analysis, and machine learning methods were used. Conclusions. A study was made of the statistical characteristics of borrowers according to various characteristics, such as age, purpose of the loan, availability of financial security, etc. The gaps were filled in and the best method for each of the characteristics was identified. Improved model prediction accuracy compared to the results before and after applying the methods.

Keywords: borrower default, processed data, class imbalance, machine learning, credit scoring.

References

1. Credit score in the United States [Electronic resource] - Access mode: https://en.wikipedia.org/wiki/Credit_score_in_the_United_States#FICO_score (accessed 03/02/2022)

2. FICO Scores Versions [Electronic resource] - Access mode: https://www.myfico.com/credit-education/credit-scores/fico-score-versions (Accessed 03/02/2022)

3. What's in my FICO Scores? [Electronic resource] - Access mode: https://www.myfico.com/credit-education/whats-in-your-credit-score (accessed 03/05/2022)

4. Vantage Score [Electronic resource] - Access mode: https://en.wikipedia.org/wiki/VantageScore (Accessed 03/15/2022)

5. VantageScore 4.0: How It Works and What Your Credit Score Means [Electronic resource] - Access mode: https://financejar.com/credit-scores/vantagescore-4-0/ (Accessed 03/12/2022)

6. What is VantageScore 4.0? [Electronic resource] - Access mode: https://financejar.com/credit-scores/vantagescore-4-0/ (Accessed 02/12/2022)

7. Difference between Vantage Scores and FICO Scores [Electronic resource] -Access mode: https://www.experian.com/blogs/ask-experian/the-difference-between-vantage-scores-and-fico-scores/ ( accessed 02.02.2022)

8. Home Credit Default Risk [Electronic resource] - Access mode: https://www.kaggle.com/c/home-credit-default-risk (accessed 02.02.2022)

9. Handling missing values in a machine learning problem [Electronic resource] -Access mode: https://www.youtube.com/watch?v=eqHi93E-vXk&ab_channel=%D0%AE%D1%80%D0%B8%D0% B9%D0%93%D0%B0%D0%BF%D0%B0%D0%BD%D1%8E%D0%BA (accessed 02/04/2022)

10. Emission (statistics) [Electronic resource] - Access mode: https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D 1%81_

(%D1 %81 %D1%82%D0%B0%D1%82%D0%B8%D1%81%D1 %82%D0%B8% D0%BA%D0%B0) (accessed 06.02.2022)

fO СЧ

о

СЧ

о ш m

X

<

m О X X

i Надоели баннеры? Вы всегда можете отключить рекламу.