Научная статья на тему 'Прогнозирование платежеспособности клиентов банка на основе методов машинного обучения и марковских цепей'

Прогнозирование платежеспособности клиентов банка на основе методов машинного обучения и марковских цепей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1203
366
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кредитоспособность / платежеспособность / методы машинного обучения / марковские цепи / прогнозирование / creditworthiness / solvency / machine learning methods / Markov chains / forecasting

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ю С. Шунина, В Н. Клячкин

Кредитование клиентов является одним из приоритетных направлений банковской деятельности: за счет доходов от кредитования формируется основная часть чистой прибыли банка. Однако ориентация на прибыльность операций всегда связана с различными видами рисков, которые могут привести к убыткам. С целью предотвращения потерь предлагается система для поддержки принятия решений в процессе кредитования клиентов банками, начиная с процесса выдачи кредита и до последующего погашения по текущим кредитным платежам. При принятии решения о выдаче кредита система прогнозирует кредитоспособность потенциального заемщика банка с помощью агрегированных классификаторов, которые представляют собой результаты использования нескольких независимых методов машинного обучения, объединенных по среднему значению, по медиане, а также с помощью процедуры голосования. Входными данными являются сведения о клиенте, указанные в заявке, поданной на получение кредита. При погашении текущих кредитных платежей система анализирует динамику погашения отдельного заемщика с учетом условий кредита, информации о самом заемщике, его кредитной истории и прогнозирует изменение платежеспособности заемщика в следующем месяце. В качестве моделей предлагается использовать марковские цепи 1-го и 2-го порядков, а также методы машинного обучения. Более того, система предусматривает предварительный анализ и обработку исходных данных, включая кодирование нечисловых данных, дискретизацию непрерывных данных, отбор наиболее информативных признаков, а также восстановление пропущенных данных кредитной истории. Эффективность предложенных методов и алгоритмов показана на примере.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BANK CLIENTS’ SOLVENCY FORECASTING BASED ON MACHINE LEARNING METHODS AND MARKOV CHAINS

Customer financing is one of the banking priorities. The greater part of a banking net profit is formed due to income from credit financing. However, the commitment to profitability of these operations is always related to various types of risks, which can lead to losses. In order to prevent the losses the article proposes the system for decision-making support of credit financing, starting from granting of credit to the subsequent repayment of current loan payments. When making a decision about granting a loan the system forecasts the creditworthiness of a potential borrower using aggregated classifiers. These classifiers are the results of using several independent machine learning methods that are united by a mean value, as well as by a voting procedure. The input data are client’s records specified in the application for a loan. During the repayments of the current loan the system analyzes the dynamics of an individual borrower's repayment taking into account credit terms, information about a borrower and his credit history. The system then predicts changes in the borrower’s solvency for the next month. The article proposes using Markov chains of 1st and 2nd order, as well as machine learning methods as models. Moreover, the system provides a preliminary analysis and input data processing including non-numeric data coding, continuous data sampling, selection of the most informative features, as well as the recovery of missing data of credit history. The article includes the example showing the effectiveness of the proposed methods and algorithms.

Текст научной работы на тему «Прогнозирование платежеспособности клиентов банка на основе методов машинного обучения и марковских цепей»

УДК 519.676:336.77 Дата подачи статьи: 14.09.15

Б01: 10.15827/0236-235Х.114.105-112

ПРОГНОЗИРОВАНИЕ ПЛАТЕЖЕСПОСОБНОСТИ КЛИЕНТОВ БАНКА НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И МАРКОВСКИХ ЦЕПЕЙ

Ю.С. Шунина, аспирант, [email protected]; В.Н. Клячкин, д.т.н., профессор, [email protected] (Ульяновский государственный технический университет, ул. Северный Венец, 32, г. Ульяновск, 432027, Россия)

Кредитование клиентов является одним из приоритетных направлений банковской деятельности: за счет доходов от кредитования формируется основная часть чистой прибыли банка. Однако ориентация на прибыльность операций всегда связана с различными видами рисков, которые могут привести к убыткам. С целью предотвращения потерь предлагается система для поддержки принятия решений в процессе кредитования клиентов банками, начиная с процесса выдачи кредита и до последующего погашения по текущим кредитным платежам. При принятии решения о выдаче кредита система прогнозирует кредитоспособность потенциального заемщика банка с помощью агрегированных классификаторов, которые представляют собой результаты использования нескольких независимых методов машинного обучения, объединенных по среднему значению, по медиане, а также с помощью процедуры голосования. Входными данными являются сведения о клиенте, указанные в заявке, поданной на получение кредита. При погашении текущих кредитных платежей система анализирует динамику погашения отдельного заемщика с учетом условий кредита, информации о самом заемщике, его кредитной истории и прогнозирует изменение платежеспособности заемщика в следующем месяце. В качестве моделей предлагается использовать марковские цепи 1-го и 2-го порядков, а также методы машинного обучения. Более того, система предусматривает предварительный анализ и обработку исходных данных, включая кодирование нечисловых данных, дискретизацию непрерывных данных, отбор наиболее информативных признаков, а также восстановление пропущенных данных кредитной истории. Эффективность предложенных методов и алгоритмов показана на примере.

Ключевые слова: кредитоспособность, платежеспособность, методы машинного обучения, марковские цепи, прогнозирование.

В связи с увеличением объемов выдачи кредитов банками появились так называемые системы кредитного скоринга - автоматизированные системы, основанные на применении математического аппарата и направленные на минимизацию кредитных рисков при кредитовании клиентов. Основными задачами этих систем являются оценка или прогноз кредитоспособности и платежеспособности клиентов банка на основе анкетных данных, сведений, запрашиваемых из бюро кредитных историй, а также любой другой информации, которую может иметь банк [1, 2]. Однако, как показывает практика, рост задолженностей и невозврата по кредитам, а также конкуренция на рынке кредитных услуг требуют совершенствования существующих методов и алгоритмов прогнозирования.

Предлагается система прогнозирования платежеспособности клиентов банка, состоящая из двух подсистем: подсистемы прогнозирования кредитоспособности клиентов (анкетный скоринг) и подсистемы прогнозирования изменения платежеспособности заемщиков (поведенческий скоринг). Первая подсистема реализует процедуру моделирования и прогнозирования выдачи кредита с использованием агрегированных классификаторов (АК), полученных на основе методов машинного обучения [3], вторая - процедуру моделирования и прогнозирования погашения кредита с использованием марковских цепей 1 -го и 2-го порядков, а также методов машинного обучения. На рисунке 1 представ-

лена структурная схема системы прогнозирования платежеспособности клиентов банка.

АК на основе методов машинного обучения

Для прогнозирования кредитоспособности клиентов применяются АК, представляющие собой объединенные результаты следующих методов машинного обучения [4]: нейронная сеть (НС), логистическая регрессия (ЛР), дискриминантный анализ (ДА), наивный байесовский классификатор (НБК), метод опорных векторов (МОВ), деревья решений (ДР) и бэггинг деревьев решений (БДР).

Для нахождения оптимальных АК используется метод полного перебора всевозможных наборов перечисленных выше базовых моделей. Таким образом, первый АК состоит из всех семи базовых классификаторов, второй - из шести различных базовых классификаторов и т.д., последний АК состоит из двух различных базовых классификаторов.

Для формирования единого решения о кредитоспособности клиента на основе отдельных методов классификации осуществляется объединение результатов одним из трех способов: по среднему значению, по медиане, а также с помощью процедуры голосования.

Пусть Р(УГК) - вероятность кредитоспособности г-го клиента, найденная с помощью К-го базо-

Рис. 1. Структурная схема системы прогнозирования платежеспособности клиентов банка Fig. 1. A block diagram of the bank clients' solvency forecasting system

вого классификатора, причем г=1, ..., ^ ..., H, где l - количество клиентов, H - количество базовых классификаторов в наборе. Тогда получим следующие АК.

АК по среднему значению: н

Е РУК)

Р{УгАК -теап) = К=1-, где Р(УГАК -теап) - веро-

н

ятность кредитоспособности г-го клиента, найденная с помощью АК по среднему значению.

АК по медиане: для начала следует ранжировать ряд, содержащий результаты базовых классификаторов в каждом наборе. В случае нечетного числа базовых классификаторов вероятность кредитоспособности г-го клиента, полученная с помощью АК по медиане Р(УГЖ - теЛап), находится сле-

н+1

дующим образом: Р(УгАК -теаап) = Р(У^).

В случае четного числа базовых классификаторов вероятность кредитоспособности г-го клиента находится путем вычисления половины суммы результатов срединных базовых классификаторов.

Результат АК по голосованию представляет собой среднее значение результатов базовых классификаторов, которые определили кредитоспособность клиента с вероятностью P(YK)>0,L В противном случае вероятность кредитоспособности клиента равна нулю (Р(УГАК _т,е) = 0).

Совместное использование нескольких методов классификации позволяет выделить следующие преимущества: при рассмотрении каждого классификатора как процедуры поиска наилучшей гипотезы о распределении клиентов на классы кредитоспособности объединение результатов нескольких классификаторов по среднему значению позволяет усреднить ошибку каждой отдельной гипотезы; при использовании нескольких методов классификации происходит расширение множества возможных гипотез и уменьшение влияния различных случайностей при определении гипотез; при использовании таких методов классификации, как НС и ДР,

есть вероятность «застрять» в локальном минимуме, а при использовании агрегирования результатов существует больше возможностей для нахождения глобального минимума.

Подсистема оценки кредитоспособности клиентов

При принятии решения о выдаче кредита данная подсистема прогнозирует кредитоспособность потенциального заемщика банка с помощью АК на основе анкетных данных клиента (возраст, пол, семейное положение, сумма кредита, информация о доходах и расходах и т.д.), а также визуализирует полученные результаты и сохраняет их в файл электронных таблиц Excel.

Поскольку в реальных статистических данных приходится сталкиваться с рядом проблем [5], перед моделированием проводятся предварительный анализ и обработка исходных данных по клиентам: кодирование нечисловых данных, дискретизация непрерывных данных методом биннинга [6], а также отбор наиболее информативных признаков с помощью пошаговой регрессии [7].

Далее исходная выборка, представляющая собой анкетные данные по «старым» заемщикам, а также класс кредитоспособности, делится на обучающую и тестовую части. Обучающая выборка предназначена, как правило, для построения различных классификаторов, а тестовая используется для прогнозирования и оценки качества классификаторов. При этом для получения более адекватных и несмещенных оценок процедура разделения исходной выборки на обучающую и тестовую части повторяется 10 раз в произвольном порядке. Затем результаты прогнозирования, полученные на контрольных выборках, усредняются. Данная процедура называется 10-кратной перекрестной проверкой [8].

Критерием качества работы классификаторов является дисперсия ошибки прогнозирования ст2, показывающая отклонение фактической вероятно-

сти принадлежности к классу кредитоспособности r-го клиента P(Yr) от прогнозируемой вероятности принадлежности к классу кредитоспособности r-го клиента P(Yr), которая стремится к минимальному значению для заданного числа клиентов l: 1 '

CT2 = -Z(P(Yr)-P(Yr))2 ^min.

l r=1

Для каждой модели предлагается оптимальный порог классификации клиентов на классы кредитоспособности, который находится с помощью решения задачи минимизации ошибок первого и второго рода (ошибок построения моделей).

Ошибка первого рода возникает, когда интересующее нас событие ошибочно не обнаружилось, то есть это количество кредитоспособных клиентов, классифицированных как некредитоспособные (lgb). По сути ошибка первого рода характеризует коммерческий риск /1, связанный с отказом

кредитоспособным клиентам: ^ =

gb

L, + L

где lgg

- количество верно классифицированных кредитоспособных клиентов.

Ошибка второго рода возникает, когда при отсутствии события ошибочно выносится решение о его присутствии, то есть это количество некредитоспособных клиентов, классифицированных как кредитоспособные (/%). Ошибка второго рода характеризует так называемый кредитный риск /2:

Ж2 =

bg

lbb + lbg

где lbb - количество верно класси-

фицированных некредитоспособных клиентов.

С помощью наилучшей модели и оптимального порога классификации осуществляется прогноз кредитоспособности «новых» клиентов. На рисунке 2 показан алгоритм работы подсистемы оценки кредитоспособности клиентов.

Марковские цепи и методы машинного обучения

Математические модели для описания динамики погашения по кредитам на основе марковских цепей 1-го и 2-го порядков, позволяющие учитывать прошлые состояния кредитной истории [9], имеют следующий вид:

vJ (/ +1) = к р^ ($),

1=1

ф* с+1)=к кр* (V,. ц-1), ^ с»,

,=1 ]=1

где - вероятность того, что кредитный счет окажется в состоянии в момент времени /; р//(() -вероятность перехода счета из состояния в момент времени t в состояние 8/ за один шаг; V - количество состояний; - вероятность того, что счет окажется в состоянии 8к в момент времени ^ если предыдущими состояниями были и Р?/к(0

- вероятность перехода счета в состояние 8к, если предыдущими состояниями были в момент времени - и 8/ в момент времени t.

При этом в качестве состояний 81, ..., используется информация о просроченной задолженности по кредитным счетам заемщиков.

Для оценки переходных вероятностей предложено использовать различные методы машинного обучения, которые позволяют учитывать признаки, предположительно, влияющие на платежеспособность заемщика (условия кредита и информацию о самом заемщике). Например, зависимости между оценками переходных вероятностей для марковской цепи 1 -го и 2-го порядков р и р , а также

признаками X = (хX) на основе дискрими-

нантного анализа имеют следующий вид:

„ »_Р(8\ — )_

рк Р(8 — 8 (X)+Р(5 —• 8 )&, (X),

„ —_Р(8 — 8 — 8 №( X)_

Рт крР(5 —8^ —8*)G1(X) + Р(5, —8} —8*)G2(X),

где Р8— 8/), Р^—З'—Зк) - априорные вероятности перехода счета из состояния в состояние 8/ и из состояния в состояние 8к соответственно; Р(8 — 5), Р(8 — 5 — 5) - априорные вероятности отсутствия перехода счета из состояния в состояние 8/ и из состояния в состояние 8к соответственно; С1(Х), 02(Х) - плотности распределения признаков X, подчиняющиеся нормальному закону распределения.

На основе ДР для каждого перехода 8,—8/' и строится свое ДР (рис. 3).

Поскольку зависимости между оценками переходных вероятностей, а также признаками, предположительно, влияющими на платежеспособность заемщиков, предназначены для конкретного перехода из одного состояния кредитного счета в другое, предлагается выбор наилучшей модели для каждого перехода, что повышает общую точность прогнозирования по всем переходам.

Подсистема прогнозирования изменения платежеспособности заемщиков

При погашении кредита заемщиком данная подсистема прогнозирует изменение платежеспособности заемщика с помощью марковских цепей и методов машинного обучения на основе анкетных данных клиента, кредитной истории, а также условий взятия кредита.

Перед моделированием также проводятся предварительный анализ и обработка исходных данных по клиентам, в том числе восстановление пропущенных данных кредитной истории с использованием условного распределения по присутствующим параметрам [10].

Оценка качества прогнозирования моделей осуществляется на тестовой выборке, содержащей

Получение АК

Рис. 2. Алгоритм работы подсистемы прогнозирования кредитоспособности клиентов Fig. 2. The algorithm of the clients' creditworthiness forecasting subsystem

данные по заемщикам в момент времени (/+1), которые не участвовали в процессе построения моделей. Основным критерием качества прогнозирования является доля верных прогнозов, усредненная

1 ™

по всем состояниям е: е= — Е ,--, где

™ <1 + ... + ¿ж

- количество верных прогнозов для кредитных

Признаки: х1, x2

I

х1 < 0,38

I

х1 < 32

*_

х1 > 32

V

Р SS = 0

1

I

£

x2 > 0,38

I

1

Х2 < 105

г

Р ВД =0

Рзд = 0,89

Рис. 3. Пример ДР для перехода Si^Si с учетом признаков xi и Х2 Fig. 3. An example of a decision tree for Sl ^Sl transition considering the features xi and X2

Х2 > 105

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

> Г

Р ЗД = = 0,17

счетов, находящихся в состоянии Sa, a=1, ..., w; dai+ ...+ daw - общее количество прогнозов для кредитных счетов, находящихся в состоянии Sa.

На рисунке 4 показан алгоритм работы подсистемы прогнозирования изменения платежеспособности заемщиков.

Численное исследование

Для проверки разработанной системы проведен эксперимент, в котором в качестве исходных данных использовались данные по российским клиентам (данные предоставлены международной компанией по анализу и обработке данных АлгоМост в 2015 г. и находятся в открытом доступе: http ://algo most.co m/ru/tasks/uploadfiles/5 8/train_utf_ noid.sas7bdat, а также банком Тинькофф в 2013 г. и находятся в открытом доступе: https://static.tcsbank. ru/documents/olymp/SAMPLE_CUSTOMERS.csv).

С помощью подсистемы прогнозирования кредитоспособности клиентов были построены базовые классификаторы и АК, а также найдены наилучшие классификаторы для трех случаев: на полном наборе исходных данных, при отборе информативных признаков, а также при отборе информативных признаков совместно с процедурой дискретизации. В качестве примера на рисунке 5 представлены результаты построения моделей прогнозирования кредитоспособности клиентов при отборе информативных признаков.

В таблице 1 показаны усредненные результаты расчета дисперсии ошибок прогнозирования классификаторов для всех трех случаев.

Согласно результатам расчета дисперсии ошибок прогнозирования кредитоспособности российских заемщиков, а также результатам прогнозирования при нахождении оптимального порога классификации, использование АК увеличивает точность прогнозирования во всех трех случаях: на полном наборе исходных данных, при отборе информативных признаков, а также при отборе

информативных признаков совместно с процедурой дискретизации. При этом наилучший результат достигается с использованием АК при отборе информативных признаков и представляет собой объединение результатов по голосованию ЛР и БДР (табл. 2).

Таблица 1

Значения дисперсии ошибок прогнозирования

Table 1

The values of a forecasting mean square error

Классификатор Полная исходная выборка Информативные признаки Дискретизация и информативные признаки

НС 0,2523 0,2469 0,2513

ДА 0,2533 0,2435 0,2445

БК 0,3671 0,3121 0,2955

МОВ 0,2466 0,2449 0,2448

ДР 0,3796 0,3544 0,3290

ЛР 0,2457 0,2431 0,2439

БДР 0,2278 0,2206 0,2595

АК 0,22721 0,21872 0,24363

Таблица 2

Максимальные значения дисперсии ошибок

Table 2

The maximum values of forecasting error mean square

АК Способ объединения результатов Состав АК

0,2272' По медиане ДР + ЛР + БДР

0,21872 По голосованию ЛР + БДР

0,24363 По медиане ДА + ЛР + БДР

В случае оптимального порога классификации, который равен 0,499, наилучший АК представляет собой объединение результатов по голосованию НС и БДР. При этом сумма ошибок I и II рода АК по сравнению с отдельными базовыми классификаторами уменьшилась на 0,8-22,2 %.

Для прогнозирования кредитоспособности «новых» клиентов имеет смысл использовать один из

Признаки заемщиков,

= Xcg ).

Кредитная история,

Кодирование нечисловых данных

Дискретизация h}, h = 1,...,g < » u

K\ß = i,...,n

Восстановление пропусков кредитной истории

I

Формирование обучающей и тестовой выборок

I

4 1

Обучающая Тестовая

выборка для выборка для

моделирования, \ л,..,/м \/ прогнозирования,

1 1

Построение моделей на основе марковских цепей 1-го и 2-го порядков и методов машинного обучения Построение прогноза

на тестовой выборке

Подсчет верного прогноза, усредненного по всем состояниям кредитного счета

Выбор наилучшей модели для каждого перехода из одного состояния кредитного счета в другое

Построение прогноза с помощью наилучших

моделей +

Выходные данные по заемщикам:

- распределение вероятностей переходов;

- состояние платежеспособности заемщика

I

Принятие соответствующих мер с различными группами задолженности

Рис. 4. Алгоритм работы подсистемы прогнозирования изменения платежеспособности заемщиков Fig. 4. The algorithm of the borrowers' solvency changes forecasting subsystem

наилучших классификаторов, выбор которого зависит от политики кредитования банка.

С использованием подсистемы прогнозирования изменения платежеспособности заемщиков

Таблица 3

Процент верных прогнозов по всем возможным переходам из состояния Si в другие состояния

Table 3

The percentage of correct predictions for all possible transitions from the state Si to other states

Состояние Марковская цепь 1-го порядка Марковская цепь 2-го порядка Макс.

Si ЛР ДА НБК ДР МОВ НС ЛР ДА НБК ДР МОВ НС

Si 33,3 0 0 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3 33,3

S2 94,1 92,1 17 95,9 11,9 94,5 96,1 94,3 13,6 95,5 29,4 96,4 96,4

S3 4,2 1,4 1,4 25,4 0 0 5,6 11,3 50,7 28,2 2,8 2,8 50,7

S4 79,1 68,6 1,2 50 20,9 86 63,9 61,6 8,1 38,4 20,9 74,4 86

S5 53,3 43,3 10 31,7 3,3 56,7 43,3 46,7 16,7 25 33,3 51,7 56,7

S6 98,2 97,1 30,6 92,6 55 98,5 97,1 95,9 52,6 89 10,6 98,2 98,5

Si 94,7 94,7 5,3 31,6 0 73,7 89,5 89,5 0 31,6 0 68,4 94,7

S8 94,9 93,8 3,6 94,9 0,3 94,9 94,9 93,8 5,4 94,6 10,7 94,9 94,9

S9 36,9 41,1 20,1 19,6 50 38,3 17,3 24,8 15,9 18,2 38,8 20,1 50

Ср. 65,4 59,1 9,9 52,8 19,4 64 60,1 61,2 21,8 50,4 20 60 73,5

Наилучшие модели для прогнозирования изменения платежеспособности заемщиков The best models for the borrowers' solvency changes forecasting

Таблица 4

Table 4

Текущее состояние It Прогнозируемое состояние It+i

S1 1 S2 1 S3 1 S4 S5 1 S6 1 S7 1 S8 1 S9

Si Марковская цепь 1 -го порядка и ЛР

S2 Марковская цепь 2-го порядка и НС

S3 Марковская цепь 2-го порядка и Байесовский классификатор

S4 Марковская цепь 1 -го порядка и НС

S5

S6

Si Марковская цепь 1 -го порядка и ЛР

S8

S9 Марковская цепь 1 -го порядка и МОВ

были построены модели описания динамики погашения кредитов, а также найдены наилучшие модели для конкретного перехода из одного состояния кредитного счета в другое (рис. 6). В таблице 3 представлены результаты верных прогнозов для каждой модели и марковской цепи 1-го и 2-го порядков по всем возможным переходам из отдельного состояния в другие состояния, средний результат (Ср.) по всем состояниям, а также макси-

мальные значения (Макс.) для каждого состояния, выраженные в процентах.

Результаты исследования показали, что нет единой модели, наилучшим образом прогнозирующей все переходы из состояния & в другие состояния. Для прогнозирования изменения платежеспособности заемщиков в следующем периоде оптимальным вариантом является выбор наилучшей марковской цепи и модели для каждого перехода, что в

Рис. 5. Подсистема анкетного скоринга: построение моделей прогнозирования кредитоспособности при отборе информативных признаков

Fig. 5. The application scoring subsystem: creditworthiness forecasting models development when selecting informative features

Рис. 6. Подсистема поведенческого скоринга Fig. 6. A behavior scoring subsystem

среднем улучшает результаты отдельных моделей от 7,6 до 63 % (табл. 4).

Таким образом, как показывает проведенное численное исследование, предложенные методы и алгоритмы улучшают качество прогнозирования кредитоспособности и изменения платежеспособности заемщиков. Следовательно, разработанная система может быть использована для поддержки принятия решений в процессе кредитования клиентов банками, начиная с процесса выдачи кредита и до последующего погашения по текущим кредитным платежам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

1. Литвинова С.А. Скоринговые системы как средство минимизации кредитного риска банка // Аудит и финансовый анализ. 2010. № 2. С. 396-397.

2. Глинкина Е.В. Кредитный скоринг как инструмент эффективной оценки кредитоспособности // Финансы и кредит. 2011. № 16 (448). С. 43-47.

3. Шунина Ю.С., Алексеева В.А., Клячкин В.Н. Прогнозирование кредитоспособности клиентов банка на основе мето-

дов машинного обучения // Финансы и кредит. 2015. № 27 (651). С. 2-12.

4. Мерков А.Б. Распознавание образов: введение в методы статистического обучения. М.: URSS, 2010. 254 с.

5. Гринь Н.В. Методологические аспекты построения ско-ринговых моделей // Экономика, моделирование, прогнозирование: сб. науч. тр. Вып. 6. Минск: Изд-во НИЭИ Минэкономики РБ, 2012. С. 174-180.

6. Сорокин А.С. Построение скоринговых карт с использованием модели логистической регрессии // Науковедение. 2014. № 2 (21). URL: http://naukovedenie.ru/PDF/180EVN214.pdf (дата обращения: 12.09.2015).

7. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. М.: Диалектика, 2007. 912 с.

8. Вежневец В. Оценка качества работы классификаторов // Компьютерная графика и мультимедиа. 2006. № 4. URL: http://cgm.computergraphics.ru/content/view/106 (дата обращения: 12.09.2015).

9. Соколов Г.А., Чистякова Н.А. Теория вероятностей. Управляемые цепи Маркова в экономике. М.: Физматлит, 2005. 248 с.

10. Алексеева В.А., Донцова Ю.С., Клячкин В.Н. Восстановление пропущенных наблюдений при классификации объектов // Изв. Самарского науч. центра РАН. 2014. Т. 16. № 6 (2). С. 357-359.

DOI: 10.15827/0236-235X.114.105-112 Received 14.09.15

BANK CLIENTS' SOLVENCY FORECASTING BASED ON MACHINE LEARNING METHODS

AND MARKOV CHAINS Shunina Yu.S., Postgraduate Student, [email protected]$ Klyachkin V.N., Dr.Sc. (Engineering), Professor, [email protected] (UlyanovskState Technical University, Severny Venets St. 32, Ulyanovsk, 432027, Russian Federation) Abstract. Customer financing is one of the banking priorities. The greater part of a banking net profit is formed due to income from credit financing. However, the commitment to profitability of these operations is always related to various types of risks, which can lead to losses. In order to prevent the losses the article proposes the system for decision-making support of credit financing, starting from granting of credit to the subsequent repayment of current loan payments. When making a decision about granting a loan the system forecasts the creditworthiness of a potential borrower using aggregated classifiers. These classifiers are the results of using several independent machine learning methods that are united by a mean value, as well as by a voting procedure. The input data are client's records specified in the application for a loan. During the repayments of the current loan the system analyzes the dynamics of an individual borrower's repayment taking into account credit terms, information about a borrower and his credit history. The system then predicts changes in the borrower's solvency for the next month. The article proposes using Markov chains of 1st and 2nd order, as well as machine learning methods as models. Moreover, the system provides a preliminary analysis and input data processing including non-numeric data coding, continuous data sampling, selection of the most informative features, as well as the recovery of missing data of credit history. The article includes the example showing the effectiveness of the proposed methods and algorithms.

Keywords: creditworthiness, solvency, machine learning methods, Markov chains, forecasting.

References

1. Litvinova S.A. Scoring systems as a tool for minimizing a credit risk. Audit i finansovy analiz [Audit and Financial Analysis].

2010, no. 2, pp. 396-397 (in Russ.).

2. Glinkina E.V. Credit scoring as a tool for effectivy evaluation of credit capacity. Finansy i kredit [Finances and a Credit].

2011, no. 16 (448), pp. 43-47 (in Russ.).

3. Shunina Yu.S., Alekseeva V.A., Klyachkin V.N. Forcasting bank client's creditworthiness based on computer-aided learning. Finansy i kredit [Finances and a Credit]. 2015, no. 27 (651), pp. 2-12 (in Russ.).

4. Merkov A.B. Raspoznavanie obrazov: vvedenie v metody statisticheskogo obucheniya [Pattern Recognition: Introduction to Statistical Learning]. Moscow, URSS, 2010, 254 p.

5. Grin N.V. Methodological aspects of constructing scoring models. Ekonomika, modelirovanie, prognozirovanie: sb. nauch. tr. [Proc. of the Economy, modeling, forecasting], iss. 6, Minsk, NIEI Minekonomiki RB, 2012, pp. 174-180 (in Russ.).

6. Sorokin A.S. Development of scoring maps using a logistic regression model. Naukovedenie [Science Studies]. 2014, no. 2 (21). Available at: http://naukovedenie.ru/PDF/180EVN214.pdf (in Russ.).

7. Drejper N., Smit G. Prikladnoj regressionnyj analiz [Applied Regression Analysis]. Moscow, Dialektika Publ., 2007, 912 p.

8. Vezhnevets V. Classifiers' performance evaluation. Kompyuternaya grafka i multimedia [Computer Graphics and Multimedia]. 2006, no. 4. Available at: http://cgm.computergraphics.ru/content/view/106 (accessed September 12, 2015) (in Russ.).

9. Sokolov G.A., Chistyakova N.A. Teoriya veroyatnostey. Upravlyaemye tsepi Markova v ekonomike [The Theory of Probability. Managed Markov Chains in the Economics]. Moscow, Fizmatlit Publ., 2005, 248 p.

10. Alekseeva V.A., Dontsova Yu.S., Klyachkin V.N. Reconstruction of missed observations when classifying objects. Izvestiya Samarskogo nauchnogo centraRossiyskoy akademii nauk [Bulletin of Samara Scientific Center of the Russian Academy of Sciences]. 2014, t. 16, no. 6 (2), pp. 357-359 (in Russ.).

i Надоели баннеры? Вы всегда можете отключить рекламу.