Научная статья на тему 'Прогнозирование кредитоспособности клиентов на основе методов машинного обучения'

Прогнозирование кредитоспособности клиентов на основе методов машинного обучения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3217
965
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТОСПОСОБНОСТЬ / CREDITWORTHINESS / МАШИННОЕ ОБУЧЕНИЕ / MACHINE LEARNING / ДИСКРИМИНАНТНЫЙ АНАЛИЗ / DISCRIMINANT ANALYSIS / ОПОРНЫЕ ВЕКТОРЫ / SUPPORT VECTORS / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / LOGISTIC REGRESSION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шунина Ю.С., Алексеева В.А., Клячкин В.Н.

Предмет и тема. В статье рассматривается процесс прогнозирования кредитоспособности клиентов банка. В связи с ростом конкуренции на рынке кредитных услуг разработка новых элементов этого процесса и более точной оценки кредитного риска является актуальной задачей. Цели и задачи. Целями работы являются совершенствование методики прогнозирования кредитоспособности клиентов на основе использования современных методов машинного обучения и формирование оптимального решения о выдаче кредита. Методология. Предложен алгоритм прогнозирования кредитоспособности по известным характеристикам заемщика на основе методов машинного обучения (кластеризации, регрессионного анализа, классификации). Данный алгоритм позволяет использовать как отдельные модели, так и все возможные их комбинации. В рассматриваемом подходе также предлагается провести предварительный анализ данных (дискретизация, поиск статистически значимых характеристик заемщика) и использовать различные критерии качества для выбора оптимальной структуры. На основе полученных результатов клиенты банка по уровню кредитоспособности делятся на заданное число классов k. Результаты. На основе разработанного алгоритма получен эффективный метод прогнозирования кредитоспособности, позволяющий оценивать вероятность выплаты кредита по известным характеристикам заемщика. Эффективность этого метода показана на примере. На основе 20 характеристик заемщика были построены различные модели классификации (как по отдельности, так и в виде различных их комбинаций), и среди них была выявлена структура с наименьшей среднеквадратической ошибкой прогнозирования. Разделение клиентов на более чем два класса позволяет оптимизировать процесс принятия решения по выдаче кредита в связи с уменьшением риска невозврата. Выводы/значимость. Комбинация моделей с использованием машинного обучения улучшает результативность прогнозирования кредитоспособности, позволяет повысить качество оценки риска и оптимизировать процесс выдачи кредита.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Forecasting the customers'' creditworthiness through machine learning methods

Importance The article reviews the process of forecasting the creditworthiness of the bank’s customers. As competition in the lending market gains momentum, it would be reasonable to forge new components of the process and assess the credit risk more accurately. Objectives The objective of the research is to improve methods for forecasting the customers’ creditworthiness by using contemporary machine learning methods and taking optimal decisions on granting loans. Methods We propose an algorithm for forecasting the creditworthiness using the customer’s profile and machine learning methods (clustering, regression analysis, and classification). The algorithm enables researchers to use separate models and their possible combinations. As for the approach proposed in the article, we suggest performing a preliminary analysis of data (discretization, search for statistically significant features of the borrower) and applying various quality criteria to choose an optimal structure. Based on the results, the bank’s customers are divided by the given number of classes k. Results Based on the algorithm, we generated an effective method for forecasting the creditworthiness to assess the probability of loan repayment in line with the available profile of the customer. The efficiency of this method is proved with the case study. Based on 20 features of the borrower, we built various classification models (both separately and in various combinations). We found a structure with the least mean square error of forecasting. When customers are split into more than two classes, it streamlines the process of making loan decisions since the default risk decreases. Conclusions and Relevance A combination of models and machine learning improves creditworthiness forecasts, enhances the quality of risk assessment and streamlines the lending process.

Текст научной работы на тему «Прогнозирование кредитоспособности клиентов на основе методов машинного обучения»

ISSN 2311-8709 (Online) ISSN 2071-4688 (Print)

Банковское дело

ПРОГНОЗИРОВАНИЕ КРЕДИТОСПОСОБНОСТИ КЛИЕНТОВ НА ОСНОВЕ МЕТОДОВ МАшИННОГО ОБУЧЕНИЯ

Юлия Сергеевна шУНИНАа, Венера Арифзяновна АЛЕКСЕЕВА^*, Владимир Николаевич КЛЯЧКИНС

a аспирант кафедры прикладной математики и информатики, Ульяновский государственный технический университет,

Ульяновск, Российская Федерация

ydoncova@yandex.ru

b кандидат технических наук, доцент кафедры прикладной математики и информатики, Ульяновский государственный

технический университет, Ульяновск, Российская Федерация

v.a.alekseeva@bk.ru

c доктор технических наук, профессор кафедры прикладной математики и информатики, Ульяновский государственный

технический университет, Ульяновск, Российская Федерация

v_kl@mail.ru

"Ответственный автор

История статьи:

Принята 01.12.2014 Одобрена 17.02.2015

УДК 336.77

Ключевые слова:

кредитоспособность, машинное обучение, дискриминантный анализ, опорные векторы, логистическая регрессия

Аннотация

Предмет и тема. В статье рассматривается процесс прогнозирования кредитоспособности клиентов банка. В связи с ростом конкуренции на рынке кредитных услуг разработка новых элементов этого процесса и более точной оценки кредитного риска является актуальной задачей.

Цели и задачи. Целями работы являются совершенствование методики прогнозирования кредитоспособности клиентов на основе использования современных методов машинного обучения и формирование оптимального решения о выдаче кредита. Методология. Предложен алгоритм прогнозирования кредитоспособности по известным характеристикам заемщика на основе методов машинного обучения (кластеризации, регрессионного анализа, классификации). Данный алгоритм позволяет использовать как отдельные модели, так и все возможные их комбинации. В рассматриваемом подходе также предлагается провести предварительный анализ данных (дискретизация, поиск статистически значимых характеристик заемщика) и использовать различные критерии качества для выбора оптимальной структуры. На основе полученных результатов клиенты банка по уровню кредитоспособности делятся на заданное число классов к. Результаты. На основе разработанного алгоритма получен эффективный метод прогнозирования кредитоспособности, позволяющий оценивать вероятность выплаты кредита по известным характеристикам заемщика. Эффективность этого метода показана на примере. На основе 20 характеристик заемщика были построены различные модели классификации (как по отдельности, так и в виде различных их комбинаций), и среди них была выявлена структура с наименьшей среднеквадратической ошибкой прогнозирования. Разделение клиентов на более чем два класса позволяет оптимизировать процесс принятия решения по выдаче кредита в связи с уменьшением риска невозврата. Выводы и значимость. Комбинация моделей с использованием машинного обучения улучшает результативность прогнозирования кредитоспособности, позволяет повысить качество оценки риска и оптимизировать процесс выдачи кредита.

© Издательский дом «ФИНАНСЫ и КРЕДИТ», 2015

Постановка задачи

Задачу прогнозирования кредитоспособности с точки зрения статистической теории принятия решений можно рассматривать как задачу классификации новых клиентов на основе информации о прошлых клиентах [1]. В области кредитования эта задача решается в рамках анкетного скоринга [2-5].

Формальная постановка данной задачи заключается в следующем. Пусть имеется множество клиентов банка }, 7 = 1,...,п , каждый из которых характеризуется р-мерным вектором признаков

X = (X

й^.^Х1Р) . Известна также принадлежность каждого клиента к одному из двух классов кредитоспособности:

Y =

fy = 1 - клиент кредитоспособен; I y = 0 -клиент некредитоспособен.

Соответствующая выборка является обучающей: на ее основе необходимо описать процедуры, с помощью которых можно было бы с наибольшей точностью отнести новых клиентов { Wj }, / = 1,..., т к одному из классов k > 2, имея в качестве входной информации только наборы признаков X^ = (х]1,...,Хрр)Т , описывающих новых клиентов. Поскольку клиенты могут характеризоваться как количественными, так и качественными признаками, возникает задача классификации клиентов в пространстве разнотипных признаков.

Набор признаков х1,..., хр, как правило, представляет собой данные из анкет, которые заполняются при подаче заявки на кредит. Поскольку в положении Банка России1 приводится лишь примерный перечень информации для анализа финансового положения заемщика, существуют различные формы анкет. Основной набор признаков: ФИО, дата рождения, паспортные данные, образование, адрес, семейное положение, ФИО и дата рождения родственников, сведения об основной работе, ежемесячные доходы и расходы, информация об имеющемся имуществе, информация об имеющихся долгах и обязательствах, информация об инвалидности, запрашиваемая сумма и т.д.

Помимо данных из анкеты, если клиент уже брал кредит в прошлом или имеет кредит в настоящее время, в качестве признаков могут также выступать данные о кредитной истории, полученные из кредитного бюро посредством запроса. Возможно несколько вариантов представления информации о кредитной истории. В первом случае это может быть обобщенное решение: кредитная история — положительная либо отрицательная. Отрицательной историей обычно считается история при задержке платежей сроком на три и более месяца. В другом случае в качестве признаков могут использоваться данные, полученные из кредитного бюро2.

следует отметить, что один и тот же набор признаков может быть дан как кредитоспособным, так и некредитоспособным клиентом, поэтому принципиально невозможно достигнуть абсолютно точной классификации.

1 Положение Банка России от 26.03.2004 № 254-П «О порядке формирования кредитными организациями резервов на возможные потери по ссудам, по ссудной и приравненной к ней задолженности».

2 URL: https://www.tcsbank.ru/tournament.

Согласно положению Банка России от 26.03.2004 № 254-П «О порядке формирования кредитными организациями резервов на возможные потери по ссудам, по ссудной и приравненной к ней задолженности» финансовое положение заемщика может быть оценено как хорошее, среднее или плохое. При этом нет четких определений данной градации. Среди исследовательских работ в качестве выходной информации в основном используются два класса кредитоспособности. Однако столь жесткое разделение может привести к потере клиентов, которым можно было бы предложить другие условия кредитования, например меньший срок, более высокий процент и т.п. Поэтому в данной статье в качестве выходной информации предлагается использовать не только класс кредитоспособности, но и апостериорное распределение.

Апостериорное распределение указывает для каждого класса вероятность принадлежности клиента к этому классу. Например, в случае двух классов при распределениях 90%/10% и 55%/45% клиент будет кредитоспособен в обоих случаях, однако с очевидной разницей.

Обзор методов и моделей для решения поставленной задачи

Для решения поставленной задачи применим ряд моделей классификации.

Дискриминантный анализ [6] — наиболее распространенный метод классификации при наличии обучающей выборки и заключается в использовании линейных скоринговых функций для определения вероятности принадлежности клиента к одному из к классов:

х) = ^ + +... + ч\хр; ^2( х) = ?р + <?12 х1 +...+ч2рхр;

, , к к к ¿к(х) = Чо + <?1х1 +... + Чрхр,

где х1,..., хр — набор признаков;

д0,..., др — параметры регрессии;

•(х) — «счет», который содержит достаточное количество информации для того, чтобы различать класс клиента.

Выбирается тот класс, которому соответствует больший счет. В случае двух классов получается тот же результат, что и при линейной регрессии. При этом каждая переменная из класса должна быть

подчинена нормальному закону распределения.

Логистическая регрессия [7]. Делается предположение о том, что вероятность наступления события у = 1 (клиент кредитоспособен) равна

Рг{ у = 11X} = Д (г);

г = 0Тх = д0 + д х1 +... + дрхр,

где X — вектор-столбец независимых переменных Х1,...,Хр;

Q — вектор-столбец параметров регрессии д0,...,Чр ; Дг) — логистическая функция:

Д (г) = 1

1 + в~

Поскольку У принимает лишь значения 0 и 1, то вероятность второго возможного значения (клиент некредитоспособен) равна

Рг{ у = 01X} = 1 - Д (г) = 1 - Д (QTX).

Таким образом, логистическая регрессия заменяет вероятность наступления события логарифмом шансов:

Рг{ у = 1| X} = Д (г) =

ёРг{ У = 01X} 1 - Д (г)

= Ч + Ч1X +... + Чрхр = х).

Для нахождения параметров Ч0,...,Чр необходимо составить обучающую выборку, состоящую из множества пар {(X,.,У1),7 = 1,...,п} (обучающих примеров). Обычно используется метод максимального правдоподобия, согласно которому выбираются параметры д, максимизирующие значение функции правдоподобия на обучающей выборке. Применяется метод градиентного спуска или метод Ньютона-Рафсона [8].

Для двух классов задача классификации решается следующим образом: новый клиент является кредитоспособным (у = 1), если предсказанная моделью вероятность Рг{у = 1| Х]} > 0,5, иначе клиент является некредитоспособным (у = 0). Граничное значение может быть отлично от 0,5. Логистическая регрессия является также адекватным математическим инструментом для оценки переходных вероятностей состояний марковских цепей3.

Недостатком как дискриминантного анализа, так и

3 КлячкинВ.Н., ДонцоваЮ.С. Сравнительный анализ точности нелинейных моделей при прогнозировании состояния системы на основе марковской цепи // Известия Самарского научного центра Российской академии наук. 2013. Т. 15. № 4. С. 924927.

логистической регрессии является чувствительность к корреляции между факторами, поэтому в моделях недопустимо наличие сильнокоррелированных зависимых переменных. Кроме того, оба подхода не могут использоваться для нелинейных процессов. К их преимуществам можно отнести возможность проведения исследования и взвешивания факторов, влияющих на результат. Более того, логистическая регрессия учитывает ограничения на значения вероятности, которые не могут выходить за рамки 0 и 1.

Метод нейронных сетей. Нейронные сети представляют собой систему соединенных и взаимодействующих между собой искусственных нейронов [9]. Каждый нейрон состоит из трех основных компонентов — синапсов (умножителей), сумматора, нелинейного преобразователя. С помощью синапсов происходят передача сигнала и умножение его на весовой коэффициент, который определяет силу связи. Сумматор складывает сигналы, поступающие от синапсов, а последний компонент производит преобразование просуммированного сигнала согласно некоторой функции активации нейрона.

Математическая модель нейрона имеет следующий вид:

5 = ^Ягхг + Ь , У = ^(5),

г =1

где 5 — результат суммирования; Чг — вес г-го синапса; хг — входной сигнал; Ь — значение смещения; У — выходной сигнал; р — число входов нейрона; ^ — функция активации.

С математической точки зрения обучение нейронных сетей — это многопараметрическая задача нелинейной оптимизации, которая заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании как отсутствующих, так и неполных, а также частично искаженных данных.

Нейронные сети чаще применяются для скоринга юридических лиц, чем для физических. Также

нейронные сети наилучшим образом проявили себя при выявлении мошенничества с кредитными карточками, поскольку они способны указывать на нестандартные ситуации [10].

К преимуществам нейронной сети, помимо возможности ее применения на неполных исходных данных, относятся способность устанавливать нелинейные связи между прогнозными и фактическими значениями процессов, а также возможность быстрой адаптации к изменяющимся внешним условиям. Главным недостатком сети является то, что веса связей, определенные в результате обучения, не имеют никакой интерпретации в терминах кредитного риска. Следовательно, практически невозможно объяснить предсказание, а также провести анализ чувствительности, чтобы выделить наиболее значимые параметры. При этом выбор количества входных факторов существенно влияет на время обучения.

Деревья принятия решений [11] последовательно разделяют клиентов на классы по одной из переменных так, чтобы эти классы максимально возможно отличались по величине кредитного риска. При этом на первом шаге разделение производится по самому значимому фактору. Далее процесс продолжается до того момента, пока оставшиеся классы не становятся настолько малы, что следующее разбиение не приведет к статистически значимому различию на уровне риска. Количество классов на каждом шаге процедуры построения дерева решений выбирается автоматически.

К преимуществам деревьев решений относятся быстрая обработка больших объемов данных, легкая интерпретируемость результатов, работа с пропущенными, числовыми и нечисловыми типами данных, а также отсутствие ограничений на коррелируемость между зависимыми переменными. К недостаткам метода можно отнести неоднозначность алгоритма построения структуры дерева, а также вопрос о том, когда стоит прекратить дальнейшее разделение на классы.

Метод опорных векторов [12]. Основная идея метода заключается в переводе исходных векторов в пространство более высокой размерности, а также в поиске оптимальной гиперплоскости, разделяющей классы клиентов наилучшим образом. На обучающей выборке {(Х{,У{),/ = 1,...,п} метод опорных векторов строит классифицирующую функцию, которая имеет следующий вид:

F (X) = sign(( V, X) + Ь),

где (,) — скалярное произведение;

v — нормальный вектор к разделяющей гиперплоскости;

X — вектор-столбец признаков;

b — вспомогательный параметр.

Поскольку расстояние от оптимальной гиперплоскости до класса должно быть максимально, для нахождения v и b возникает задача оптимизации:

arg min ||v||2;

v,b

Y■ ((v, Xt)+b) > 1, i = 1,..., n.

Данная задача решается, как правило, методом множителей Лагранжа [13].

Результат классификации новых клиентов находится следующим образом: при F(X) = 1 клиент считается кредитоспособным, при F(X) = 0 — некредитоспособным.

Преимущество метода заключается в том, что оптимизация здесь является задачей квадратичного программирования в выпуклой области, которая всегда имеет единственное решение. При этом ищется разделяющая полоса максимальной ширины, что позволяет в дальнейшем уверенно классифицировать новых клиентов. Недостатком можно назвать то, что метод чувствителен к шумам и стандартизации данных, а также отсутствует общий подход к автоматическому выбору ядра в случае линейной неразделимости классов.

Наивный байесовский классификатор [14] представляет собой граф, который можно условно разделить на две части. Первая часть представляет собой вершину класса кредитоспособности клиента K, а вторая часть — вершины независимых переменных Xj,..., х p, к которым проведены стрелки из вершины класса.

Обучение классификатора означает оценку условных вероятностей P(X | K), а классификация на k классов производится простым применением формулы Байеса: P(K = k | X = х) =

P(K = к)П P(Xr = xr | K = к)

X P( K = к ')П P( Xr = Xr|K = к ')

К преимуществам модели относятся работа с пропущенными данными, возможность естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде. Метод также позволяет избежать проблемы переучивания (оуегййт§), т.е. избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей). К недостаткам модели относятся предположение о статистической независимости исходных признаков, непосредственная обработка непрерывных переменных — требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными. Однако подобные преобразования иногда могут приводить к потере значимых закономерностей.

Таким образом, каждый из перечисленных методов имеет свои преимущества и недостатки: нет универсальной модели, с помощью которой можно было бы оценить кредитоспособность того или иного клиента с явным преимуществом. Представляет интерес использование особенностей всех перечисленных выше моделей по отдельности и во всевозможных комбинациях, поскольку комбинированный подход дает возможность компенсировать недостатки одних моделей при помощи других, следовательно, он направлен на повышение точности прогнозирования.

Подготовка исходных данных

Прежде чем приступить к построению моделей, необходимо подготовить исходные данные к анализу, поскольку в реальных статистических данных приходится сталкиваться с рядом проблем

[15, 16].

Признаки могут иметь как числовую, так и нечисловую природу. Для удобства анализа и построения моделей классификации нечисловые признаки обычно кодируются определенным образом.

Различают также дискретные признаки (пол клиента, образование, семейное положение и т.д.) и непрерывные признаки (возраст, стаж работы, ежемесячные доходы и расходы и т.д.). В том случае, если модель требует непрерывных данных, необходимо заменить дискретные переменные большим числом переменных, которые будут принимать значение 0 либо 1. То есть вместо набора дискретных признаков {X;},7 = 1,...,п ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

каждый из которых принимает от 1 до г. значений, получим новый набор непрерывных признаков {X/}, 7 = 1,...,п ,] = 1,...,г .

Для таких моделей, как деревья классификации и байесовский классификатор, имеет смысл использовать дискретные переменные. В этом случае область значений каждой непрерывной переменной разбивается на отрезки, номера которых представляют значения новой дискретной переменной: этот процесс называется дискретизацией.

На практике часто исходные данные содержат пропущенные значения, которые могут быть как случайными, так и неслучайными. В первом случае информация может быть просто не введена в базу данных, либо данные получены из разных источников, например собраны из различных кредитных бюро, а также в результате появления новых вопросов в анкете. Неполная априорная информация, во-первых, усложняет процесс построения и применения моделей классификации, а во-вторых, может повлиять на ухудшение качества оценки параметров. Если отсутствующих данных относительно немного, то можно просто удалить данные случаи. Напротив, при больших объемах отсутствующих значений, чтобы не потерять важную информацию, прибегают к методам восстановления [13].

Эффект мультиколлинеарности означает наличие линейной зависимости между независимыми переменными (признаками), которая в конечном счете может привести к неустойчивости и смещенности оценок параметров регрессионной модели и, как следствие, к плохой прогнозируемости модели в целом. Для устранения мультиколлинеарности исключают коррелирующие признаки или используют метод главных компонент [17], который заключается в уменьшении размерности исходных данных X. = (х71,...,Хр)т при наименьшей потере количества информации.

Далеко не все факторы из исходного набора данных влияют на результат кредитоспособности клиента4. При отборе информативных признаков можно использовать метод пошаговой регрессии [18], алгоритм которого заключается в последовательном включении факторов в уравнение регрессии, на основе серии ^-тестов и г-тестов. В качестве

4 Клячкин В.Н., Донцова Ю.С. Анализ инновационных механизмов в области кредитования физических лиц // Региональная экономика: актуальные вопросы и новые тенденции: сборник научных трудов Международной заочной научно-практической конференции. В 2 т. Ульяновск: УлГТУ, 2014. Т. 2. С. 105-111.

альтернативы можно использовать процедуру редукции (сокращения) из теории приближенных множеств [19], согласно которой удаляются излишние факторы, не вносящие вклад в вариацию зависимой переменной.

На результат принятия решений и на качество построенных моделей влияет соотношение числа клиентов в разных классах. Так, превышение числа кредитоспособных клиентов увеличивает долю решений в пользу доминирующего класса наблюдений. Поэтому, например, для линейной регрессии предпочтительно использование равных соотношений кредитоспособных и некредитоспособных клиентов. Однако для таких моделей, как деревья классификации и байесовский классификатор желательно использование реальных долей между разнотипными клиентами.

Стоит отметить отдельно требования к кредитной истории. Обычно она берется за определенный период, составляющий 1-2 года, поскольку при меньшем сроке есть возможность недооценить вероятность дефолта, а за больший период могут произойти серьезные социально-экономические изменения, в результате которых характеристики новых клиентов будут резко выделяться на фоне старых.

Чтобы проверить точность и адекватность моделей классификации на этапе разработки, исходную выборку, как правило, разбивают на обучающую и на контрольную (тестовую) части. Обучающая выборка используется для построения модели, а контрольная — для оценки точности построенных моделей, т.е. для прогнозирования кредитоспособности новых клиентов и сравнения результатов прогнозирования с реальными значениями. Формирование обучающей и контрольной выборки производится случайным образом. При этом размер контрольной выборки обычно составляет не более 30% от всех данных.

Предлагаемый алгоритм прогнозирования кредитоспособности клиентов на основе методов машинного обучения

В целях оптимизации процессов управления кредитными рисками предлагается новый алгоритм прогнозирования кредитоспособности клиентов, который заключается в использовании комбинаций моделей машинного обучения и формировании оптимального решения на их основе. Основные этапы алгоритма:

1) формирование и обработка исходных данных;

2) построение на обучающей выборке параллельно всех семи описанных моделей классификации;

3) составление всевозможных комбинаций из семи моделей. Например, можно комбинировать нейронные сети и логистическую регрессию, а всего таких комбинаций, состоящих из двух моделей, будет С72. Таким образом, в случае семи моделей общее количество различных комбинаций, начиная с двух и заканчивая всеми семью моделями, составит: С72 + С73 + С74 + С75 + С76 + С77 = 120 . На обучающей выборке дополнительно к семи отдельным моделям будет построено еще 120 комбинаций моделей;

4) прогнозирование на контрольной выборке Ь с помощью всех построенных моделей кредитоспособности новых клиентов;

5) получение результата прогнозирования кредитоспособности 7-го клиента. В каждой комбинации моделей он будет представлять собой среднее значение вероятностей всех моделей, входящих в состав;

6) расчет для каждой модели/комбинации показателя среднеквадратичной ошибки прогнозирования MSE и выбор наилучшей модели. В случае представления выходной информации в виде вероятностей У е [0;1], для оценки качества моделей применяется вычисление среднеквадратичной ошибки прогнозирования:

1 т

ИБЕ = -X(У - У)2,

т ,=1

где У{ — фактический класс кредитоспособности 7-го клиента (7=0 или Y= 1);

У — прогнозируемый класс кредитоспособности 7-го клиента;

т — количество клиентов;

7) в целях оптимизации принятия решений

0 выдаче кредитов формирование на основе вероятностей кредитоспособности клиентов к классов кредитоспособности. Например, при к = 4:

1 класс — клиент некредитоспособен с вероятностью р е [0;0,25), II класс — клиент некредитоспособен с вероятностью р е [0,25 ;0,5), III класс — клиент кредитоспособен с вероятностью р е[0,5;0,75) и IV класс — клиент кредитоспособен с вероятностью р е [0,75;1]. Поскольку на практике принято, что при р=0,5 клиент считается кредитоспособным, с III класса начинаются классы кредитоспособных клиентов.

В случае двух классов кредитоспособности наиболее распространенным критерием точности модели является доля верных прогнозов среди всех прогнозов [20]:

Accuracy =

Ng + Nbb

N + N + N + N

где N — количество верно предсказанных кредитоспособных клиентов;

ЫЬЬ — количество верно предсказанных некредитоспособных клиентов;

N— количество неверно предсказанных кредитоспособных клиентов;

— количество неверно предсказанных некредитоспособных клиентов.

Однако для данной метрики важно, чтобы классы по количеству клиентов были сбалансированными, иначе этот метод может привести к неадекватным результатам. По результатам прогнозирования также можно определить кредитный риск, показывающий процент некредитоспособных клиентов, классифицированных как кредитоспособные, и коммерческий риск, связанный с отказом кредитоспособным клиентам:

N

Кредитный риск = - Ь

Nbb + Ng

Коммерческий риск =

N

gb

Nggg + Ngb

Пример

В качестве примера рассмотрены данные по немецким заемщикам5. Зависимая переменная представлена кредитоспособностью клиентов — бинарная переменная, принимающая значение 1 в случае кредитоспособности клиента и 0 — в противном случае. Независимые переменные представлены 20 факторами, описывающими каждого заемщика: статус текущего чекового счета; кредитная история; цель кредита; срок кредита в месяцах; сумма кредита; средний баланс на накопительном счете; стаж работы на последнем месте; обязательства/доход в процентах, семейное положение; созаемщики/поручители; постоянное проживание на последнем месте; данные об имуществе; возраст; имеющиеся кредиты; вид жилья; количество предыдущих кредитов в этом

5 URL: http://www.stat.uni-muenchen.de/service/datenarchiv/kredit/ kredit e.html.

банке; вид деятельности; количество иждивенцев; наличие телефона; гражданство заемщика.

На основе данной выборки был осуществлен прогноз кредитоспособности. В качестве среды программирования был использован Matlab, поскольку в нем содержатся все рассмотренные модели классификации, а также критерии оценки точности и качества полученных результатов.

1. Исходная выборка, содержащая 1 000 заемщиков, была случайным образом разделена на 10 выборок объемом по 100 заемщиков. Последовательно каждая из 10 выборок участвовала в роли контрольной выборки, а все остальные части — в роли обучающей выборки. Всего было 10 итераций.

2. Проведена операция дискретизации. Непрерывные независимые переменные — срок кредита, сумма кредита, а также возраст заемщика были заменены на соответствующие дискретные данные путем разбиения на равномерные группы (каждый фактор разбит на шесть групп).

3. Среди исходного набора факторов с помощью метода пошаговой регрессии и редукции были отобраны значимые факторы.

4. На каждой итерации было построено 127 моделей (семь отдельных моделей и 120 сформированных комбинаций).

5. В табл. 1 представлены усредненные по всем 10 контрольным выборкам показатели среднеквадратичной ошибки прогнозирования отдельных моделей, а также наилучшей комбинации моделей. Также показаны результаты классификации без этапа дискретизации непрерывных исходных факторов и с учетом полного набора факторов, т.е. без метода пошаговой регрессии и редукции.

6. В табл. 2 представлены результаты прогнозирования кредитоспособности первых десяти клиентов одной из контрольных выборок на основе наилучшей комбинации моделей. Реальный класс клиента представляет собой бинарную переменную. Будем считать, что значение 0 соответствует прогнозируемым классам I—II, а значение 1 — классам III-IV.

Поскольку с I по II класс клиент считается некредитоспособным, а с III по IV — кредитоспособным, сформируем кросс-таблицу, отражающую реальные и прогнозируемые

Таблица 1

Значение среднеквадратичной ошибки прогнозирования

Полная исходная Значимые факторы Значимые факторы Модель _выборка_(МПР)_(Редукция)

БД Д БД Д БД Д

Нейросети 0,181 0,178 0,179 0,177 0,193 0,195

Дискриминантный анализ 0,17 0,171 0,172 0,17 0,19 0,188

Байесовский классификатор 0,196 0,198 0,192 0,183 0,201 0,196

Метод опорных векторов 0,164 0,165 0,169 0,17 0,191 0,187

Деревья решений 0,246 0,237 0,248 0,238 0,287 0,25

Логистическая регрессия 0,164 0,166 0,169 0,169 0,188 0,185

Множество деревьев решений 0,164 0,163 0,174 0,181 0,204 0,194

Наилучшая комбинация моделей 0,159*! 0,16*2 0,166*3 0,167*4 0,185*5 0,181*6

Примечание. БД — без дискретизации, Д — применен процесс дискретизации данных, МПР — метод пошаговой регрессии. * 0,1587 — дискриминантный анализ + метод опорных векторов + деревья решений + логистическая регрессия + множество деревьев решений.

*2 0,1596 — метод опорных векторов + множество деревьев решений.

*3 0,1661 — дискриминантный анализ + метод опорных векторов + множество деревьев решений. *4 0,1673 — нейросети + дискриминантный анализ + метод опорных векторов + множество деревьев решений. *5 0,1853 — нейросети + байесовский классификатор + логистическая регрессия + множество деревьев решений. *6 0,181 — метод опорных векторов + логистическая регрессия + множество деревьев решений.

Таблица 2

Результаты прогнозирования кредитоспособности первых 10 клиентов

Клиент банка Прогнозируемая вероятность кредитоспособности Прогнозируемый класс кредитоспособности Реальный класс клиента

1 0,8432 IV I

2 0,8569 IV I

3 0,9769 IV I

4 0,4630 II I

5 0,9078 IV I

6 0,8559 IV I

7 0,9668 IV I

8 0,8604 IV I

9 0,7015 III I

10 0,7418 III I

отдельных моделей машинного обучения, так и различных их комбинаций. Этот алгоритм позволяет построить на конкретных данных классификатор, наилучшим образом разделяющий клиентов на заданное количество классов. На рассмотренной выборке наилучший результат прогнозирования достигается при использовании полного набора исходных факторов и без процедуры дискретизации непрерывных факторов. Наименьший показатель среднеквадратичной ошибки имеет комбинация моделей, состоящая из дискриминантного анализа, метода опорных векторов, деревьев решений, логистической регрессии и множества Таблица 3

Реальные и прогнозируемые результаты классификации на основе одной из контрольных выборок

Реальные данные Результаты классификации

Кредитоспособный клиент Некредитоспособный клиент

Кредитоспособный клиент 66 7

Некредитоспособный клиент 13 14

результаты классификации на основе одной из контрольных выборок (табл. 3).

Из данных табл. 3 можно рассчитать для этой контрольной выборки долю верно классифицированных клиентов:

Accuracy =-66 +14-= 80%.

66 +14 +13 + 7

Выводы

В работе предложен алгоритм прогнозирования кредитоспособности клиентов банка на основе как

деревьев решений, которая улучшает качество прогнозирования и результативность отдельных моделей.

Представление выходной информации в виде вероятностей кредитоспособности клиентов

несет в себе больше информации, нежели четкое разделение на два класса кредитоспособности, что способствует оптимизации принятия решений по выдаче кредита.

Список литературы

1. Айвазян С.А., Бухштабер В.М., Енюков И. С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Готовкин И. Комплексная скоринговая модель оценки дефолта клиента // Банковские технологии.

2006. № 1. С. 27-35.

3. Литвинова С.А. Скоринговые системы как средство минимизации кредитного риска банка // Аудит и финансовый анализ. 2010. № 2. С. 396-397.

4. Черный И.М. Кредитный скоринг: российский вариант развития // Банковские услуги. 2006. № 4. С.12-17.

5. Ишина И.В., Сазонова М.Н. Скоринг — модель оценки кредитного риска // Аудит и финансовый анализ. 2007. № 4. С. 297-304.

6. Дубров А.М., Мхитарян В.С., ТрошинЛ.И. Многомерные статистические методы: учеб. М.: Финансы и статистика, 2003. 352 с.

7. Сорокин А.С. Построение скоринговых карт с использованием модели логистической регрессии // Науковедение. URL: http://naukovedenie.ru/PDF/180EVN214.pdf.

8. Васильев Н.П., Егоров А.А. Опыт расчета параметров логистической регрессии методом Ньютона — Рафсона для оценки зимостойкости растений // Математическая биология и биоинформатика. 2011. Т. 6. № 2. С. 190-199.

9. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992. 184 с.

10. Андреева Г.В. Скоринг как метод оценки кредитного риска // Банковские технологии. 2000. № 6. С.14-19.

11. Якупов А.И. Применение деревьев решений для моделирования кредитоспособности клиентов коммерческого банка // Искусственный интеллект. 2008. № 4. С. 208-213.

12. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 448 с.

13. Айвазян С.А., Енюков И. С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 471 с.

14. Вагин В.Н., Головина Е.Ю., Загорянская А.А., ФоминаМ.В. Достоверный и правдоподобный вывод в интеллектуальных системах / под ред. В.Н. Вагина, Д.А. Поспелова. М.: ФИЗМАТЛИТ, 2004. 704 с.

15. Малюгин В.И., Гринь Н.В. Об эффективности статистических алгоритмов кредитного скоринга // Банкаусю веснк. № 31. 2010. С. 39-46.

16. ЛиттлР.Дж. А., РубинД.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990. 336 с.

17. Валеев С.Г. Регрессионное моделирование при обработке данных. Казань: ФЭН, 2001. 296 с.

18. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия. М.: Диалектика,

2007. 912 с.

19. Dingyu Xue, Yangquan Chen. Solving applied mathematical Problems with MATLAB. London: Taylor & Francis Group, 2009. 418 p.

20. PowersD.M.W. Evaluation: from Precision, Recall and F-measure to ROC, Informedness, Markedness and Correlation // Journal of Machine Learning Technologies. 2011. Vol. 2. Iss. 1. P. 37-63.

ISSN 2311-8709 (Online) ISSN 2071-4688 (Print)

Banking

FORECASTING THE CUSTOMERS' CREDITWORTHINESS THROUGH MACHINE LEARNING METHODS

Yuliya S. SHUNINV, Venera A. ALEKSEEVAb*, Vladimir N. KLYACHKINc

aUlyanovsk State Technical University, Ulyanovsk, Russian Federation ydoncova@yandex.ru

bUlyanovsk State Technical University, Ulyanovsk, Russian Federation v.a.alekseeva@bk.ru

cUlyanovsk State Technical University, Ulyanovsk, Russian Federation v_kl@mail.ru

"Corresponding author

Article history:

Received 1 December 2014 Accepted 17 February 2015

Keywords: creditworthiness, machine learning, discriminant analysis, support vectors, logistic regression

Abstract

Importance The article reviews the process of forecasting the creditworthiness of the bank's customers. As competition in the lending market gains momentum, it would be reasonable to forge new components of the process and assess the credit risk more accurately. Objectives The objective of the research is to improve methods for forecasting the customers' creditworthiness by using contemporary machine learning methods and taking optimal decisions on granting loans.

Methods We propose an algorithm for forecasting the creditworthiness using the customer's profile and machine learning methods (clustering, regression analysis, and classification). The algorithm enables researchers to use separate models and their possible combinations. As for the approach proposed in the article, we suggest performing a preliminary analysis of data (discretization, search for statistically significant features of the borrower) and applying various quality criteria to choose an optimal structure. Based on the results, the bank's customers are divided by the given number of classes k.

Results Based on the algorithm, we generated an effective method for forecasting the creditworthiness to assess the probability of loan repayment in line with the available profile of the customer. The efficiency of this method is proved with the case study. Based on 20 features of the borrower, we built various classification models (both separately and in various combinations). We found a structure with the least mean square error of forecasting. When customers are split into more than two classes, it streamlines the process of making loan decisions since the default risk decreases.

Conclusions and Relevance A combination of models and machine learning improves creditworthiness forecasts, enhances the quality of risk assessment and streamlines the lending process.

© Publishing house FINANCE and CREDIT, 2015

References

1. Aivazyan S.A., Bukhshtaber V.M., Enyukov I.S., Meshalkin L.D. Prikladnaya statistika: Klassifikatsiya i snizhenie razmernosti [Applied statistics: Classification and reduction of dimensions]. Moscow, Finansy i statistika Publ., 1989, 607 p.

2. Gotovkin I. Kompleksnaya skoringovaya model' otsenki defolta klienta [A comprehensive scoring model for assessing the customer's default]. Bankovskie tekhnologii = Banking Technologies, 2006, no. 1, pp.27-35.

3. Litvinova S.A. Skoringovye sistemy kak sredstvo minimizatsii kreditnogo riska banka [Scoring systems as a tool to mitigate the credit risk of the bank]. Audit i finansovyi analiz = Audit and Financial Analysis, 2010, no. 2, pp. 396-397.

4. Chernyi I.M. Kreditnyi skoring: rossiiskii variant razvitiya [Credit score: the Russian version of development].

Bankovskie uslugi = Banking Services, 2006, no. 4, pp. 12-17.

5. Ishina I.V., Sazonova M.N. Skoring — model' otsenki kreditnogo riska [Score is a model for credit risk assessment]. Audit i finansovyi analiz = Audit and Financial Analysis, 2007, no. 4, pp. 297-304.

6. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Mnogomernye statisticheskie metody [Multivariate statistical methods]. Moscow, Finansy i statistika Publ., 2003, 352 p.

7. Sorokin A.S. Postroenie skoringovykh kart s ispol'zovaniem modeli logisticheskoi regressii [Building scorecards by using a logistic regression model]. Available at: http://naukovedenie.ru/PDF/180EVN214. pdf. (In Russ.)

8. Vasil'ev N.P., Egorov A.A. Opyt rascheta parametrov logisticheskoi regressii metodom N'yutona—Rafsona dlya otsenki zimostoikosti rastenii [Experience of calculating logistic regression parameters by the Newton — Rafson method to assess cold resistance of plants]. Matematicheskaya biologiya i bioinformatika = Mathematical Biology and Bioinformatics, 2011, vol. 6, no. 2, pp. 190-199.

9. Wasserman Ph. Neirokomp 'yuternaya tekhnika: Teoriya ipraktika [Neural Computing: Theory and Practice]. Moscow, Mir Publ., 1992, 184 p.

10. Andreeva G.V. Skoring kak metod otsenki kreditnogo riska [Scoring as a method for assessing the credit risk]. Bankovskie tekhnologii = Banking Technologies, 2000, no. 6, pp. 14-19.

11. Yakupov A.I. Primenenie derev'ev reshenii dlya modelirovaniya kreditosposobnosti klientov kommercheskogo banka [The use of decision trees for modeling the creditworthiness of the commercial bank's customers].

Iskusstvennyi intellekt = Artificial Intelligence, 2008, no. 4, pp. 208-213.

12. Vapnik V.N. Vosstanovlenie zavisimostei po empiricheskim dannym [Restoring the dependency based on empirical data]. Moscow, Nauka Publ., 1979, 448 p.

13. Aivazyan S.A., Enyukov I.S., Meshalkin L.D. Prikladnaya statistika. Osnovy modelirovaniya ipervichnaya obrabotka dannykh [Applied statistics. Fundamentals of modeling and primary processing of data]. Moscow, Finansy i statistika Publ., 1983, 471 p.

14. Vagin V.N., Golovina E.Yu., Zagoryanskaya A.A., Fomina M.V. Dostovernyi i pravdopodobnyi vyvod v intellektual'nykh sistemakh [Credible and plausible inference in intelligent systems]. Moscow, FIZMATLIT Publ., 2004, 704 p.

15. Malyugin V.I., Grin' N.V. Ob effektivnosti statisticheskikh algoritmov kreditnogo skoringa [On the effectiveness of statistical algorithms for credit score]. EanmycK eecniK, 2010, no. 31, pp. 39-46.

16. Little R.J.A., Rubin D.B. Statisticheskii analiz dannykh s propuskami [Statistical Analysis with Missing Data]. Moscow, Finansy i statistika Publ., 1990, 336 p.

17. Valeev S.G. Regressionnoe modelirovaniepri obrabotke dannykh [Regression modeling in data processing]. Kazan, FEN Publ., 2001, 296 p.

18. Draper N., Smith H. Prikladnoi regressionnyi analiz. Mnozhestvennaya regressiya [Applied Regression Analysis]. Moscow, Dialektika Publ., 2007, 912 p.

19. Dingyu Xue, Yangquan Chen. Solving Applied Mathematical Problems with MATLAB. London, Taylor & Francis Group, 2009, 418 p.

20. Powers D.M.W. Evaluation: from Precision, Recall and F-measure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies, 2011, vol. 2, iss. 1, pp. 37-63.

i Надоели баннеры? Вы всегда можете отключить рекламу.