Научная статья на тему 'Адаптация моделей прогнозирования кредитоспособности с учетом вновь поступающей информации о клиентах'

Адаптация моделей прогнозирования кредитоспособности с учетом вновь поступающей информации о клиентах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
281
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВОЗВРАТ КРЕДИТА / МЕТОД ПРОГНОЗИРОВАНИЯ / МАШИННОЕ ОБУЧЕНИЕ / ПСЕВДОГРАДИЕНТНАЯ ПРОЦЕДУРА / СТРУКТУРА МОДЕЛИ / LOAN REPAYMENT / FORECASTING APPROACH / MACHINE LEARNING / PSEUDO-GRADIENT PROCEDURE / MODEL STRUCTURE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Крашенинников В.Р., Клячкин В.Н., Шунина Ю.С.

Тема. Для прогнозирования возврата кредитов заемщиками используются методы машинного обучения. В последнее время широко распространено применение различных видов агрегации этих методов. Актуальной задачей является обновление структуры агрегированного метода прогнозирования по истечении некоторого времени для адаптации к особенностям характеристик вновь поступивших клиентов, а также получения более точного прогноза. Цели. Разработка способа обновления структуры названного метода для повышения точности прогнозирования. Методология. Использовались методы машинного обучения с агрегированием различных классификаторов на основе нейронной сети, логистической регрессии, дискриминантного анализа, наивного байесовского классификатора, метода опорных векторов и др. Для корректировки параметров моделей используется псевдоградиентная процедура. Качество полученной структуры модели с обновленными параметрами оценивается по среднему квадрату ошибки на контрольной выборке. Результаты. Разработан способ обновления структуры модели прогнозирования возврата кредитов, эффективность которого подтверждена практическими испытаниями на данных российских заемщиков. Выводы. Использование псевдоградиентной процедуры корректировки параметров выбранной модели позволяет получить приемлемую точность прогнозирования на некоторый период. Однако при значительных изменениях кредитной ситуации эта модель не в состоянии обеспечить достаточную точность прогноза ни при каких значениях своих параметров. Поэтому время от времени нужно менять структуру модели, чтобы она в новых условиях обеспечивала достаточную точность прогнозирования и получение более обоснованных решений о выдаче кредита новым клиентам. Применение. Предложенный способ может быть применен в автоматизированных системах для поддержки принятия решений о выдаче кредитов в банковской сфере.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Adaptation of models predicting customers'' creditworthiness in line with new incoming data on clients

Importance Machine learning methods are used to predict repayment of loans by borrowers. It is an acute task to update the structure of the aggregate forecast after some time in order to adapt to new clients' characteristics as well as to provide sufficient prediction accuracy. Objectives The aim is to provide the structure updating of the aggregate forecasting method to improve the prediction accuracy. Methods In this paper, we used the machine learning methods with different classifiers based on a neural network, logistic regression, discriminant analysis, naive Bayes classifier, Support Vector Machines, etc. To adjust parameters of the models, pseudo-gradient procedure is used. The quality of the model structure obtained with updated parameters is assessed by the average square error in the control sample. Results We developed a model structure updating method for forecasting customers' loan repayment, the effectiveness of which has been confirmed by practical tests based on the data according to Russian borrowers. Conclusions and Relevance Using the pseudo-gradient procedure of adjusting the parameters of the chosen model provides an accurate prediction for a certain period of time. However, after significant changes in the credit situation, this model is not able to provide a sufficient accuracy of forecast for any values of its parameters. Therefore, from time to time it is needed to change the structure of the model to provide sufficient prediction accuracy to get more justified decisions about granting credits to new customers on the new terms. The proposed method can be applied in automated systems to support decision-making about granting loans in the banking sector.

Текст научной работы на тему «Адаптация моделей прогнозирования кредитоспособности с учетом вновь поступающей информации о клиентах»

ISSN 2311-8768 (Online) Мониторинг и прогнозирование банковских рисков

ISSN 2073-4484 (Print)

АДАПТАЦИЯ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ КРЕДИТОСПОСОБНОСТИ С УЧЕТОМ ВНОВЬ ПОСТУПАЮЩЕЙ ИНФОРМАЦИИ О КЛИЕНТАХ

Виктор Ростиславович КРАШЕНИННИКОВ3, Владимир Николаевич КЛЯЧКИНЬ, Юлия Сергеевна ШУНИНАс'

а доктор технических наук, профессор, заведующий кафедрой прикладной математики и информатики, Ульяновский государственный технический университет, Ульяновск, Российская Федерация kvrulstu@mail.ru

ь доктор технических наук, профессор кафедры прикладной математики и информатики, Ульяновский государственный технический университет, Ульяновск, Российская Федерация v_kl@mail.ru

с кандидат технических наук, инженер-программист Ульяновского конструкторского бюро приборостроения,

Ульяновск, Российская Федерация

ydoncova@yandex.ru

• Ответственный автор

История статьи:

Получена 20.12.2016 Получена в доработанном виде 17.03.2017 Одобрена 24.03.2017 Доступна онлайн 15.06.2017

УДК 336.77 JEL: С02, С53, G21

https://doi.org/10.24891/fa.10 . 6 . 663

Ключевые слова: возврат

кредита, метод

прогнозирования,

машинное обучение,

псевдоградиентная

процедура,

структура модели

Аннотация

Тема. Для прогнозирования возврата кредитов заемщиками используются методы машинного обучения. В последнее время широко распространено применение различных видов агрегации этих методов. Актуальной задачей является обновление структуры агрегированного метода прогнозирования по истечении некоторого времени для адаптации к особенностям характеристик вновь поступивших клиентов, а также получения более точного прогноза.

Цели. Разработка способа обновления структуры названного метода для повышения точности прогнозирования.

Методология. Использовались методы машинного обучения с агрегированием различных классификаторов на основе нейронной сети, логистической регрессии, дискриминантного анализа, наивного байесовского классификатора, метода опорных векторов и др. Для корректировки параметров моделей используется псевдоградиентная процедура. Качество полученной структуры модели с обновленными параметрами оценивается по среднему квадрату ошибки на контрольной выборке.

Результаты. Разработан способ обновления структуры модели прогнозирования возврата кредитов, эффективность которого подтверждена практическими испытаниями на данных российских заемщиков.

Выводы. Использование псевдоградиентной процедуры корректировки параметров выбранной модели позволяет получить приемлемую точность прогнозирования на некоторый период. Однако при значительных изменениях кредитной ситуации эта модель не в состоянии обеспечить достаточную точность прогноза ни при каких значениях своих параметров. Поэтому время от времени нужно менять структуру модели, чтобы она в новых условиях обеспечивала достаточную точность прогнозирования и получение более обоснованных решений о выдаче кредита новым клиентам.

Применение. Предложенный способ может быть применен в автоматизированных системах для поддержки принятия решений о выдаче кредитов в банковской сфере.

© Издательский дом ФИНАНСЫ и КРЕДИТ, 2016

Постановка задачи

Рассматривается задача прогнозирования возврата кредитов в банковской сфере. Имеется множество заемщиков Z1...Zm,

которым банк выдал кредиты. По каждому заемщику Z известен набор анкетных данных (возраст, пол, семейное положение, размер и срок кредита и пр.), характеризующийся и-мерным вектором Хг = (хг1.. .х).

663

По прошествии некоторого времени проясняется информация о возврате кредита: заемщик вернул его или имеется задолженность. Таким образом, заемщики оказываются разделенными на два класса: Ср состоящий из выплативших

кредит, и С2 - из имеющих задолженность.

По этой информации требуется построить классификатор, с помощью которого можно было бы с наибольшей точностью отнести новых клиентов к одному из двух классов в случае выдачи им кредитов. При этом следует учесть возможность того, что кредитная ситуация и характеристики новых клиентов со временем могут изменяться.

Таким образом, искомый классификатор по вектору признаков X = (х . .х ) нового клиента

S 51 ЗП

Ks должен отнести его к классу Ср (выплатит кредит) или к С2 (будет иметь задолженность).

Подходы к решению задачи

Введем функцию, определенную на составе заемщиков [1]:

, если заемщик Zr вернул кредит,

р (Zr)41,1f

0, если заемщик Zr имеет задолженность.

(1)

По существу, Р(Хг) есть апостериорная (по факту) вероятность возврата кредита заемщиком Zr. Построим оценку Р( X 3) вероятности возврата кредита новым клиентом К в виде функции его вектора параметров Хз.

Естественно, построение этой оценки проводится по данным о заемщиках (1). Разобьем эти сведения на обучающую и контрольную выборки. Возьмем некоторую модель, то есть функцию Р (Хг) , параметры которой определим так, чтобы на обучающей выборке средний квадрат

1 i

![ P (Xr)-р( X,)]2

l r =1

Классификация, то есть отнесение клиента Кз к тому или иному классу, будет производиться исходя из значения Р(Хг). Но, естественно, классификация будет тем лучше, чем точнее Р( Хг) оценивает Р(ХГ). Таким образом, сначала требуется построить функцию (оценку) Р (Хг) с минимальным средним квадратом отклонения от Р(Хг).

Существует множество способов решения поставленной задачи. Методы кластерного анализа могут быть применимы для задачи кластеризации, то есть обучения без учителя, когда изначально в исходных данных класс кредитоспособности не известен и требуется искать зависимость между объектами, чтобы сгруппировать их в кластеры.

Однако используемые авторами исходные данные содержат информацию о клиенте, а также класс кредитоспособности, то есть налицо задача обучения с учителем.

Классический метод такой учебы -дискриминантный анализ, но в методах машинного обучения этот вид анализа рассматривается как один из нескольких.

Действительно, этот метод не всегда дает лучший результат. Поэтому в данном случае применяются методы машинного обучения, которые в процессе построения учатся верно сопоставлять набору признаков о клиенте определенный класс кредитоспособности.

После построения методов, имея информацию о новых клиентах, можно определить их класс, но вместо этого мы определяем вероятность возврата кредита, чтобы можно было не просто выдать или не выдать его, а предложить на разных условиях.

Известен целый ряд классификаторов на основах [2-8]1:

• нейронной сети (НС);

ошибки оценки был минимален. Качество полученной оценки определяется средним квадратом ошибки а2 на контрольной выборке.

1 Шунина Ю.С., Алексеева В.А., Клячкин В.Н. Прогнозирование кредитоспособности клиентов банка

на основе методов машинного обучения // Финансы и кредит. 2015. № 27. С. 2-12; Вагин В.Н, Головина ЕЮ., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах / под ред. В.Н. Вагина, Д.А. Поспелова. М.: Физматлит, 2004. 704 с.

• логистической регрессии (ЛР);

• дискриминантного анализа (ДА);

• наивного байесовского классификатора (НБК);

• метода опорных векторов (МОВ);

• дерева решений (ДР);

• бэггинга деревьев решений (БДР) [9].

В качестве нейронной сети будем использовать трехслойную сеть прямого распространения, архитектура которой представлена на рис. 1.

Узел (нейрон) сети состоит из трех логических блоков: входы, функция преобразования и выход. Блок функции преобразования включает в свою очередь синаптические веса qj...qn, суммирующую функцию и одну из

функций нелинейного преобразования (гиперболический тангенс или логарифм) (рис. 2).

Количество нейронов во входном слое определяется количеством признаков заемщика, а в скрытом слое - по теореме Колмогорова.

Выходной слой представлен одним нейроном, содержащим вероятность возврата кредита.

Для обучения нейронной сети используется самый популярный метод обучения многослойной сети - метод обратного распространения ошибки, в процессе которого сеть учится верно классифицировать заемщиков по анкетным данным на группы кредитоспособности.

Логистическая регрессия основана на предположении о том, что вероятность кредитоспособного клиента P[C^ \X} равна

ААz = q0 + qixi +.••+ qnxn,

где f(z) - логистическая функция:

Метод опорных векторов заключается в переводе исходных векторов в пространство более высокой размерности, а также поиске оптимальной гиперплоскости, разделяющей классы клиентов наилучшим образом. Классифицирующая функция имеет следующий вид:

f (X)=sign((a,X> + в),

где (a,X> - скалярное произведение;

а - нормальный вектор к разделяющей гиперплоскости;

в - параметр, который определяется кратчайшим расстоянием между гиперплоскостью и началом координат.

Дискриминантный анализ основан на применении формулы Байеса:

P( X )=P (С JX )=

P (С G X)

P (С JGX( X)+P (С 2 )G 2( X)'

где Р(С^ | X) - условная вероятность возврата кредита клиентом при наборе признаков Х;

Р(Сц), Р(С2) - априорные вероятности

принадлежности заемщиков к классам ^ и С2

соответственно, а также предположение о нормальном распределении входных данных с математическими ожиданиями ^ и ^ и

ковариационными матрицами ^ и

Gi( X )=

G2( X )=

1

(2 я|21|)

1/2

exi

p[-1/2( X)T 2-1( X

(2 я^)

1 /2

ex

p [-1/2( X-ф/ 2-1( X-^2)].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

f (z )=1 /(1+e-2).

(2)

Наивный байесовский классификатор основан также на применении формулы Байеса и предположении об условной независимости входных данных:

Р( X )=Р (С ^Х ) =

п

Р(СШ Р (хи|С!)

__и = 1_

пп

Р(С 1)ПР(Хи|С 1)+Р(С2)П Р(Хи|С2)

и =1

u= 1

1

где P(xM | СД P(xM | C2) - вероятности наличия

М 1 ii 2

признаков соответственно.

Х1---Хя

в классах С

и

С

В качестве дерева решений используется дерево классификации (рис. 3).

Вероятность возврата кредита есть вероятность принадлежности заемщика классу Ср которая определяется как доля заемщиков

данного класса в конечном узле, содержащем общее количество заемщиков для двух классов.

Для построения оптимального дерева решений применяется индекс Джини:

Gini(L)=1 -I d2т,

т= 1

где L - узел дерева;

dm - доля заемщиков класса т в конечном узле.

Бэггинг деревьев решений основан на применении нескольких деревьев решений на разных частях обучающей выборки. Общий результат метода находится с помощью процедуры голосования, то есть клиенту присваивается тот класс, которому отдает предпочтение большинство деревьев.

Каждый из перечисленных методов имеет свои преимущества и недостатки, поэтому сложно говорить о рейтинговой значимости. Например, логистическая регрессия учитывает ограничения на значения вероятности, которые не могут выходить за рамки 0 и 1, а также построение модели на основе не измененной начальной выборки и реальной пропорции между количеством кредитоспособных и некредитоспособных клиентов. Однако модель чувствительна к корреляции между факторами.

Дискриминантный анализ удобен в использовании при наличии нескольких классов кредитоспособности заемщиков.

Нейронные сети наилучшим образом проявили себя при прогнозировании возврата кредитов юридическими лицами.

К преимуществам деревьев решений относится быстрая обработка больших объемов данных, работа с пропущенными, числовыми и нечисловыми типами данных, а также отсутствие ограничений на коррелируемость между входными переменными.

К преимуществам байесовского подхода также относится возможность вывода по отсутствующим данным, однако необходимо обязательное выполнение предположения о независимости данных о заемщике.

В статье предлагается совместное использование некоторых методов путем агрегирования результатов по среднему значению, что позволяет компенсировать недостатки одних моделей при помощи других и повысить точность прогнозирования [10-12].

Агрегированный классификатор по среднему значению имеет следующий вид:

H

P AKср( ):

I Pk (Xr)

K=1

H

где Рк (Хг) - вероятность возврата кредита г-м клиентом, найденная с помощью К-го метода, причем г = 1 ... I и К = 1 ... Н, где Н -количество методов в наборе.

Обновление модели классификатора

В связи с изменением внешней среды компании, использующие в своей практике методы прогнозирования, нуждаются в периодическом обновлении последних. Поскольку новые данные являются самыми значимыми, особенно для краткосрочного прогноза, они вводятся в обучающую выборку. На ее основе можно заново построить классификатор, но это может оказаться трудоемким процессом.

После построения классификатора возникает необходимость в учете новых клиентов, данные о

которых со временем могут существенно меняться в зависимости от социально-экономической ситуации, условий кредитования, а также характеристик самих клиентов.

Предлагается обновление параметров моделей на основе численного метода, заключающегося в корректировке коэффициентов моделей, входящих в состав агрегированного метода, с применением псевдоградиента [13-15]2.

Эта процедура позволяет учитывать сведения о новых клиентах без пересчета данных о старых клиентах. Другие методы адаптации математических моделей к вновь поступающей информации рассмотрены в трудах российских и зарубежных специалистов [16, 17]3.

Оптимизация модели состоит в нахождении вектора ее параметров Ц, минимизирующих средний квадрат ошибок:

Q(q)=![P ()-P(Xr,q)]2,

(3)

r = 1

где Р (Хг,Ц) - оценка вероятности возврата кредита, зависящая от признаков Х клиента и вектора параметров модели Ц .

Суть псевдоградиентной процедуры заключается в постоянной корректировке вектора параметров модели при поступлении информации о каждом новом клиенте на основе следующей формулы:

41+1 = Ц/- vl V J (Ц1),

где Ц1+1 - следующее за оптимального вектора Ц ;

VI - коэффициенты, влияющие на величину шага;

V J (Ц )=?[ Р (Yl)-Р (Х1,д1 )]2

Корректировка параметров модели достигается путем добавления к старому вектору параметров Ц поправки, получаемой в результате умножения числа VI на псевдоградиент V J (41) .

При этом важно, что эта процедура способна отслеживать меняющуюся ситуацию, так как текущий вектор Ц постоянно на нее реагирует в соответствии с характеристиками новых клиентов.

Однако по истечении некоторого периода структура агрегированного метода прогнозирования может устареть, и применение псевдоградиентной процедуры (которая оптимизирует только параметры модели) может показать далеко не самый лучший результат. В таком случае предлагается произвести обновление структуры агрегированного классификатора.

Обновление структуры классификатора

Рассмотрим имеющиеся данные по российским заемщикам за 2006-2011 гг.4 Примем в качестве обучающей выборки данные за 20062009 гг. Оценим прогнозирование отдельных и агрегированных методов классификации на данных клиентов за 2010 г. (табл. 1) по среднему квадрату ошибки.

Согласно результатам табл. 1, начальной оптимальной структурой является

агрегированный метод классификации.

I)-Р (х 1,41)] - градиент отдельного слагаемого из формулы (3), который является псевдоградиентом функции Ц).

41 приближение Пусть имеется множество новых клиентов (2010-2011 гг.), данные о которых поступают последовательно. С помощью псевдоградиентной процедуры обновим параметры модели логистической регрессии. Тогда Р (Х1,Ц1) находится по следующей формуле:

P (Xtq ) = f (z (q )), z (q)=qi о+qi 1 x 1+••• +qin*in,

2 Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. М.: Финансы и статистика, 2003. 416 с.

3Айвазян С.А., Мхитарян В.С. Прикладная статистика

и основы эконометрики. М.: ЮНИТИ, 1998. 1024 с.

4 Данные предоставлены международной компанией по анализу и обработке данных АлгоМост в 2015 г. и находятся в открытом доступе: URL: http://algomost. com/ru/tasks/uploadfiles/58/train_utf_noid.sas7bdat

где f (z (q) - логистическая функция:

f (z (q ))=1 /[ 1 +e-z(qj)].

По определению

d dqt

V J (P Y)-P( Xj, q )]2,

поэтому преобразуем выражение (2) к следующему виду:

qj+i = qj - vl V J (q ) =

d

q-vldqr [ P (Jj)-P( X„q, )]2-

q+2vj[P (Jj)-P(X^q)] —

_^dP( X j,q~j)

= 5+П[Р(71)-Р(Х„ъ)]Х1,41),

а 5

где п, = 2у1 - новый параметр шага процедуры.

Тогда корректировка коэффициентов логистической регрессии выполняется по формуле

qj+1=q+n [ p (Yj)-p (Xj,qj)]

,dP (X^q)

dql

где производные принимают следующий вид: j-P(X„4,)=j- f (z(q)) =

d

1

йщ 1+е-(5 0+ Чп Хп +...+ 5'пх'п)

-(Я10 +51 х11+... +51пх1п)

=_е_(1 х х )

[ 1 +е-(«»+51 х, 1+...+г,пХп)]2 ( ' 1 ^ >■

Оценим качество методов прогнозирования отдельно для трех различных контрольных выборок (табл. 2).

По результатам рассмотрения приведенных данных можно заметить, что для последней контрольной выборки результат агрегированного метода хуже итогов, полученных на основе нейронной сети и дискриминантного анализа. Это может свидетельствовать о том, что рассмотренная структура агрегированного классификатора устарела, и требуется ее пересмотр.

Добавим в обучающую выборку информацию о новых клиентах, кроме данных третьей контрольной выборки, и оценим качество (табл. 3). При этом агрегированный классификатор резко изменяет структуру.

Таким образом, результат классификации с использованием новой структуры агрегированного метода на 24% превосходит старый вариант. Следовательно, с появлением новых клиентов целесообразно производить обновление не только параметров классификатора, но и его структуру.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выводы

В работе предложен способ обновления структуры агрегированного классификатора для улучшения прогнозирования возврата кредитов в банковской сфере. На протяжении краткосрочного периода возможно использование псевдоградиентной процедуры обновления параметров моделей, которая позволяет учитывать информацию о новых клиентах без пересчета моделей на старых клиентах.

Предложенный способ обновления структуры метода обеспечивает адаптацию к меняющимся со временем условиям кредитования, что существенно повышает точность прогнозирования.

Таблица 1

Средний квадрат ошибок методов прогнозирования на клиентах 2010 г.

Table 1

The average squared error of forecasting techniques in relation to clients, 2010

Метод Средний квадрат ошибки

НС 0,249

ДА 0,258

НБК 0,323

МОВ 0,241

ДР 0,427

ЛР 0,239

БДР 0,237

АК* 0,231

* Здесь АК - метод, агрегирующий результаты логистической регрессии и бэггинга деревьев решений по среднему значению: АК = ЛР + БДР.

Источник: авторская разработка Source: Authoring

Таблица 2

Средний квадрат ошибок методов прогнозирования для трех выборок

Table 2

The average squared error of forecasting techniques for the three samples

№ выборки Метод прогнозирования

НС ДА НБК МОВ ДР ЛР БДР АК

1 0,251 0,277 0,357 0,259 0,418 0,263 0,277 0,249

2 0,249 0,257 0,44 0,313 0,445 0,324 0,252 0,249

3 0,256 0,26 0.441 0,305 0,416 0,313 0,31 0,28

Источник: авторская разработка

Source: Authoring Таблица 3

Средний квадрат ошибок методов прогнозирования для контрольной выборки № 3

Table 3

The average squared error of forecasting techniques for test sample no. 3

Метод Средний квадрат ошибки

НС 0,249

ДА 0,247

НБК 0,278

МОВ 0,242

ДР 0,461

ЛР 0,247

БДР 0,27

АК* 0,226

* Здесь АК - метод, агрегирующий результаты нейронной сети, наивного байесовского классификатора, метода опорных векторов, дерева решений и бэггинга деревьев решений по среднему значению:

АК = НС + НБК + МОВ + ДР + БДР.

Источник: авторская разработка Source: Authoring

Рисунок 1

Архитектура нейронной сети Figure 1

Architecture of the neural network

Входной Скрытый

Источник: авторская разработка Source: Authoring

Рисунок 2

Узел нейронной сети Figure 2

Neural network node

Источник: авторская разработка Source: Authoring

Рисунок 3

Дерево классификации Figure 3

A classification tree

Примечание. xr > Z - условие (проверка) для отнесения заемщика к классу С1, либо к классу С2 на основе

признаков Х; Z1, Z2, Z3 - пороговые константы, значения которых находятся при «обучении дерева».

Источник: авторская разработка

Note. xr > Z - a condition (check) for assigning a borrower to class C1, or to class C2 based on characteristics X; Z1, Z2,

Z3 - threshold constants, the values of which are in the training the tree.

Source: Authoring

Список литературы

1. Айвазян С.А., Бухштабер В.М., Енюков И.С. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

2. Васильев Н.П., Егоров А.А. Опыт расчета параметров логистической регрессии методом Ньютона - Рафсона для оценки зимостойкости растений // Математическая биология и биоинформатика. 2011. Т. 6. № 2. С. 190-199.

3. Бидюк П.И., Терентьев А.Н., Гасанов А.С. Построение и методы обучения байесовских сетей // Информатика и кибернетика. 2004. № 2. С. 140-154.

4. Сорокин А.С. Построение скоринговых карт с использованием модели логистической регрессии // Интернет-журнал Науковедение. 2014. № 2. URL: http://naukovedenie.ru/PDF/ 180EVN214.pdf

5. Уоссермен Ф. Нейрокомпьютерная техника: теория и практика / перевод Ю.А. Зуева, В.А. Точенова. М.: Мир, 1992. 240 с.

6. Якупов А.И. Применение деревьев решений для моделирования кредитоспособности клиентов коммерческого банка // Искусственный интеллект. 2008. № 4. С. 208-213.

7. Мерков А.Б. Распознавание образов: введение в методы статистического обучения. М.: URSS, 2010. 254 с.

8. Breiman L. Random Forests. Machine Learning, 2001, vol. 45, iss. 1, pp. 5-32. doi: 10.1023/A:1010933404324

9. Клячкин В.Н., Шунина Ю.С. Система оценки кредитоспособности заемщиков и прогнозирования возврата кредитов // Вестник компьютерных и информационных технологий. 2015. № 11. С. 45-51.

10. Breiman L. Bagging predictors. Machine Learning, 1996, vol. 24, no. 2, pp. 123-140. doi: 10.1023/A:1018054314350

11. Ghodselahi A., Amirmadhi A. Application of Artificial Intelligence Techniques for Credit Risk Evaluation. International Journal of Modeling and Optimization, 2011, vol. 1, no. 3, pp. 243-249.

12. Крашенинников В.Р., Клячкин В.Н., Шунина Ю.С. Обновление агрегированных классификаторов на основе псевдоградиентной процедуры // Вестник компьютерных и информационных технологий. 2016. № 10. С. 36-40.

13. Васильев К.К., Крашенинников В.Р. Статистический анализ изображений. Ульяновск: УлГТУ, 2014. 214 с.

14.Montgomery D.C. A Note on Forecasting with Adaptive Filtering. Oper. Res. Quart., 1977, vol. 28, no. 11, pp. 87-91.

15. Поляк Б.Т., Цыпкин Я.З. Псевдоградиентные алгоритмы адаптации и обучения // Автоматика и телемеханика. 1973. № 3. С. 45-68.

16. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. М.: Мир, 1974. 242 с.

17. Льюис К.Д. Методы прогнозирования экономических показателей. М.: Финансы и статистика, 1986. 133 с.

Информация о конфликте интересов

Мы, авторы данной статьи, со всей ответственностью заявляем о частичном и полном

отсутствии фактического или потенциального конфликта интересов с какой бы то ни было

третьей стороной, который может возникнуть вследствие публикации данной статьи.

Настоящее заявление относится к проведению научной работы, сбору и обработке информации,

написанию и подготовке статьи, принятию решения о публикации рукописи.

ISSN 2311-8768 (Online) ISSN 2073-4484 (Print)

Monitoring and Prediction of Banking Risks

ADAPTATION OF MODELS PREDICTING CUSTOMERS' CREDITWORTHINESS IN LINE WITH NEW INCOMING DATA ON CLIENTS

Viktor R. KRASHENINNIKOVa, Vladimir N. KLYACHKINb, Yuliya S. SHUNINA^

a Ulyanovsk State Technical University, Ulyanovsk, Russian Federation kvrulstu@mail.ru

b Ulyanovsk State Technical University, Ulyanovsk, Russian Federation v_kl@mail.ru

c JSC Ulyanovsk Instrument Manufacturing Design Bureau, Ulyanovsk, Russian Federation mamaeva_29_12@mail.ru

• Corresponding author

Article history:

Received 20 December 2016 Received in revised form 17 March 2017 Accepted 24 March 2017 Available online 15 June 2017

JEL classification: C02, C53, G21

https://doi.org/10.24891/fa.10 . 6 . 663

Keywords: loan repayment, forecasting approach, machine learning, pseudo-gradient procedure, model structure

Abstract

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Importance Machine learning methods are used to predict repayment of loans by borrowers. It is an acute task to update the structure of the aggregate forecast after some time in order to adapt to new clients' characteristics as well as to provide sufficient prediction accuracy.

Objectives The aim is to provide the structure updating of the aggregate forecasting method to improve the prediction accuracy.

Methods In this paper, we used the machine learning methods with different classifiers based on a neural network, logistic regression, discriminant analysis, naive Bayes classifier, Support Vector Machines, etc. To adjust parameters of the models, pseudogradient procedure is used. The quality of the model structure obtained with updated parameters is assessed by the average square error in the control sample. Results We developed a model structure updating method for forecasting customers' loan repayment, the effectiveness of which has been confirmed by practical tests based on the data according to Russian borrowers.

Conclusions and Relevance Using the pseudo-gradient procedure of adjusting the parameters of the chosen model provides an accurate prediction for a certain period of time. However, after significant changes in the credit situation, this model is not able to provide a sufficient accuracy of forecast for any values of its parameters. Therefore, from time to time it is needed to change the structure of the model to provide sufficient prediction accuracy to get more justified decisions about granting credits to new customers on the new terms. The proposed method can be applied in automated systems to support decision-making about granting loans in the banking sector.

© Publishing house FINANCE and CREDIT, 2016

References

1. Aivazyan S.A., Bukhshtaber V.M., Enyukov I.S. Prikladnaya statistika: Klassifikatsiya i snizhenie razmernosti [Applied Statistics: Classification and Dimensionality Reduction]. Moscow, Finansy i Statistika Publ., 1989, 607 p.

2. Vasil'ev N.P., Egorov A.A. [Experience of logistic regression parameters calculation by Newton-Rafson method to estimation resistance to cold of plants]. Matematicheskaya biologiya i bioinformatika = Mathematical Biology and Bioinformatics, 2011, vol. 6, no. 2, pp. 190-199. (In Russ.)

3. Bidyuk P.I., Terent'yev A.N., Gasanov A.S. Construction and Methods of Learning of Bayesian Networks. Cybernetic and System Analysis, 2005, vol. 41, no. 4, pp. 587-598.

4. Sorokin A.S. [Building of scoring cards using logistic regression]. Naukovedenie, 2014, iss. 2. (In Russ.) Available at: http://naukovedenie.ru/PDF/180EVN214.pdf

5. Wasserman P. Neirokomp'yuternaya tekhnika: teoriya i praktika [Neural Computer Technics: Theory and Practice]. Moscow, Mir Publ., 1992, 240 p.

6. Yakupov A.I. [The decision tree's adaptation for modeling of commercial bank clients solvency]. Iskusstvennyi intellekt = Artificial Intelligence, 2008, no. 4, pp. 208-213. (In Russ.)

7. Merkov A.B. Raspoznavanie obrazov: vvedenie v metody statisticheskogo obucheniya: monografiya [Image recognition: An introduction into statistical learning methods: a monograph]. Moscow, Editorial URSS Publ., 2010, 254 p. (In Russ.)

8. Breiman L. Random Forests. Machine Learning, 2001, vol. 45, iss. 1, pp. 5-32. doi: 10.1023/A:1010933404324

9. Klyachkin V.N., Shunina Yu.S. [System for borrowers' creditworthiness assessment and repayment of loans forecasting]. Vestnik komp'yuternykh i informatsionnykh tekhnologii = Herald of Computer and Information Technologies. Scientific, Technical and Production Monthly Journal, 2015, no. 11, pp. 45-51. (In Russ.)

10. Breiman L. Bagging Predictors. Machine Learning, 1996, vol. 24, iss. 2, pp. 123-140. doi: 10.1023/A:1018054314350

11. Ghodselahi A., Amirmadhi A. Application of Artificial Intelligence Techniques for Credit Risk Evaluation. International Journal of Modeling and Optimization, 2011, vol. 1, iss. 3, pp. 243-249.

12. Krasheninnikov V. R., Klyachkin V. N., Shunina Yu. S. [Pseudo-gradient Procedure as a Method of aggregated Classifiers Updating]. Vestnik komp'yuternykh i informatsionnykh tekhnologii = Herald of Computer and Information Technologies. Scientific, Technical and Production Monthly Journal, 2016, no. 10, pp. 36-40. (In Russ.)

13. Vasil'ev K.K., Krasheninnikov V.R. Statisticheskii analiz izobrazhenii: monografiya [Statistic analysis of images: a monograph]. Ulyanovsk, Ulyanovsk State Technical University Publ., 2014, 214 p.

14. Montgomery D.C. A Note on Forecasting with Adaptive Filtering. Operational Research Quarterly, 1977, vol. 28, no. 11, pp. 87-91.

15.Polyak B.T., Tsypkin Ya.Z. [Pseudogradient adaptation and training algorithms]. Avtomatika i telemekhanika = Automation and Remote Control, 1973, no. 3, pp. 45-68. (In Russ.)

16. Box G., Jenkins G.M., Reinsel G. Analiz vremennykh ryadov. Prognoz i upravlenie [Time Series Analysis: Forecasting & Control]. Moscow, Mir Publ., 1974, 242 p.

17. Lewis C.D. Metody prognozirovaniya ekonomicheskikh pokazatelei [Industrial and Business Forecasting Methods]. Moscow, Finansy i Statistika Publ., 1986, 133 p.

Conflict-of-interest notification

We, the authors of this article, bindingly and explicitly declare of the partial and total lack of actual or

potential conflict of interest with any other third party whatsoever, which may arise as a result of the

publication of this article. This statement relates to the study, data collection and interpretation,

writing and preparation of the article, and the decision to submit the manuscript for publication.

i Надоели баннеры? Вы всегда можете отключить рекламу.