УДК 004.67,004.62
А. В. Моисеев, Е. А. Поправко, Н. Г. Федотов
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МОДЕЛЕЙ РАСПОЗНАВАНИЯ РИСКА
Аннотация. Актуальность и цели. Интерес к моделям распознавания риска связан с желанием автоматизировать принятие управленческих решений в условиях риска, в которых учета только осредненного конечного результата не достаточно. На настоящий момент имеется несколько подходов к оценке риска. В каждом конкретном случае требуется сравнение моделей по качеству распознавания. Целью данной работы является рассмотрение процедуры сравнения моделей. В работе процедура сравнения различных моделей распознавания проводится для конкретных результатов, полученных на основе реальной статистики банка с использованием алгоритма, построенного авторами. Материалы и методы. Построение моделей проведено с применением статистических пакетов прикладных программ SPSS и Statistica. Рассматривается модель дискриминантного анализа, логит-модель и пробит-модель. Для характеристики качества распознавания определяются оценки вероятности ошибок второго и первого рода. Для сравнения моделей привлекается ROC-кривая. Для окончательного вывода о качестве построенных моделей используется экзаменующая выборка. Результаты. Совокупный анализ построенных моделей и на обучающей, и на экзаменующей выборке показал высокую степень эффективности модели дискриминантного анализа в целях отнесения потенциальных заемщиков к одной из двух групп. Данная модель характеризуется высокой степенью прогнозирования кредитоспособных клиентов, а также высоким качеством распознавания дефолта заемщика. Применение результатов дискриминантного анализа в алгоритме изучения дает возможность прогнозировать некредитоспособность заемщика и может служить критерием для формирования групп высокого риска по определенным клиентам банка. Выводы. Рассмотренная процедура сравнения качества моделей распознавания позволяет повысить качество информационного обеспечения принятия решений в условиях риска.
Ключевые слова: система распознавания риска, кредитный риск, дискриминантный анализ, логит-модель, пробит-модель.
A. V. Moiseev, E. A. Popravko, N. G. Fedotov COMPARATIVE ANALYSIS OF RISK IDENTIFICATION MODELS
Abstract. Background. The interest to models of risk identification relates to the desire to automate management decision making inconditions of risks when the account of the averaged end result is insufficient. At the present time there are several approaches to risk assessment. In every particular case it requires comparison of models by quality of identification. The study is aimed at consideration of model comparison procedure. In the work the comparison of various models is carried out for concrete results obtained on the basis of real statistics of a bank using the algorithm suggested by the authors. Materials and methods. Model building was carried out using SPSS and Statistica applied programs. The article considers models of discriminant analysis, logit model and probit model. To characterize the quality of identification the authors determine the values of first and second type errors proba-
bility. To compare the models the ROC-curve is involved. To form the final conclusion about the built model quality the researchers apply examining sample. Results. Combined analysis of the built models on training and examining samples showed high efficiency of the model of discriminant analysis for placing potential borrowers into either of two groups. The given model is characterized by high level of client’s creditworthiness forecasting, as well as by high quality of borrower’s default identification. The application of results of the discriminant analysis in the study algorithm allows forecasting insolvency of borrowers and may serve as a criterion for high risk group formation of bank’s certain clients. Conclusions. The considered procedure of identification model quality comparison enables to increase quality of information support for decision making inconditions of risks.
Key words: Recognition System Risk, Credit risk, discriminant analysis, logit model, probit model.
Введение
Для построения эффективной системы управления кредитными рисками следует автоматизировать систему распознавания риска. На данный момент существует множество подходов для получения прогноза вероятности возврата кредита [1-3]. В статье предлагается алгоритм построения модели (рис. 1) распознавания риска с учетом многообразия выбора базовых моделей.
Для окончательного выбора конкретной модели требуется сравнение качества распознавания риска. Данный этап в литературе мало освещен. Целью работы является восполнение этого пробела. В статье на основе разработанной системы проводится сравнение различных моделей распознавания риска.
В последнее время для оценки кредитных рисков и дефолта заемщиков получила распространение логистическая регрессия. С помощью метода бинарной логистической регрессии исследуют зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы. Как правило, в случае с дихотомическими переменными речь идет о некотором событии, которое может произойти или не произойти.
В моделях логистической регрессии, а также в пробит-моделях зависимая переменная Y принимает фиксированные значения из некоторого заранее предопределенного набора, т.е. моделируемому объекту приписывается выбор между двумя и более возможными альтернативами. В частности, модель с бинарной переменной включает отклик, принимающий два значения (0 и 1), а также регрессоры X, которые содержат факторы, определяющие альтернативный выбор.
Бинарная регрессия рассчитывает вероятность наступления события в зависимости от значений независимых переменных, например, вероятность дефолта того или иного заемщика. Рассматриваемые логит- и пробит-модели [1] имеют логистическое и нормально распределенное отклонение.
По построенной выборке заемщиков в качестве отклика Y примем альтернативу 0 («кредит не вернули») и 1 («кредит вернули»). Обучающая выборка, используемая для построения модели, состоит из 55 наблюдений, из них 32 заемщика имеют положительную кредитную историю (вернули кредит - 1), а 23 - отрицательную (кредит не вернули - 0). Оценивание коэффициентов происходит путем их «подбора» с минимацией дисперсии остатков.
Любые отклонения наблюдаемых величин от предсказанных означают некоторые потери в точности предсказаний, например из-за случайного шума.
Рис. 1. Блок-схема алгоритма построения модели распознавания
Дискриминантный анализ при оценке кредитных рисков и определении дефолта заемщика используется в целях принятия решения о том, какие переменные различают (дискриминируют) совокупности (группы). То есть целью такого анализа в области кредитного скоринга является отнесение того или иного потенциального клиента банка к одной из двух категорий (кредитоспособный (группа 1) или некредитоспособный заемщик (группа 0)) и определение того, какие переменные дают наилучшее предсказание его дефолта.
Ядром дискриминантного анализа является построение так называемой дискриминантной функции, по значениям коэффициентов которой можно с максимальной четкостью провести разделение по группам. Процедура дискриминантного анализа разбивается на две группы: первая группа позволяет интерпретировать различия между имеющимися группами, вторая - проводить классификацию новых объектов в тех случаях, когда неизвестно заранее, к какому из существующих классов они принадлежат.
1. Логит-модель и пробит-модель
Реализация логистической регрессии в пакете прикладных программ (далее ППП) 8Р88 позволяет получить коэффициенты рассматриваемой модели:
Z = -3,95 + 1,44л} -5,3X2 +16,8xз +3,4X4 -1,43X5 -1,48Хб +
+1,76 Ху — 4,3x8 + 0,23x9 + 0,82 Хю + 3,16 Хц —1,9 Х12 — 3,35 Х13, (1)
Х1,... хп - множество независимых переменных (также называемых признаками, предикторами или регрессорами), на основе значений которых требуется вычислить вероятность принятия того или иного значения зависимой переменной.
Регрессор Z является логитом, используемым в дальнейшем для вычисления вероятности дефолта заемщика.
Существенной стороной анализа является проверка пригодности модели в целом. В табл. 1 представлена информация, касающаяся построенной модели и результатов оценивания ее параметров.
Таблица 1
Статистическая информация логит-модели
Характеристики Значение 2 статистики % Число степеней свободы, Df Значимость коэффициента, Sig
Шаг 1 Шаг 46,129 13 0,000
Блок 46,129 13 0,000
Модель 46,129 13 0,000
Для проверки значимости построенной модели используют представленные значения статистики хи-квадрат и ^-уровень значимости. Исходя из представленных в табл. 1 данных, можно утверждать, что все параметры модели статистически значимы, поскольку значение статистики хи-квадрат для разницы между текущей моделью и моделью, где параметры равны нулю, высоко значимо (р < 5 %).
Качество приближения регрессионной модели оценивается при помощи функции подобия. Мерой правдоподобия служит отрицательное удвоенное значение логарифма этой функции. В качестве начального значения для -2ЬЬ применяется значение, получаемое для регрессионной модели, содержащей только константы. После добавления переменных значение -2ЬЬ составило 28,6; это значение на 46,13 меньше, чем начальное. Подобное снижение величины означает улучшение; разность обозначается как величина хи-квадрат и является очень значимой.
Два других полученных показателя (Я (модель Кокса - Шелла) =
= 0,568 и Я (модель Наделькеркеса) = 0,764) являются мерами определенности, указывающими на ту часть дисперсии, которую можно объяснить с помощью логистической регрессии. Мера определенности по Коксу и Шеллу имеет свой недостаток (значение, равное 1, является теоретически недостижимым), однако он устраняется благодаря модификации данной меры по методу Наделькеркеса. Часть дисперсии, объяснимой с помощью логистической регрессии, в данном примере составляет 76,4 %.
При построении бинарных моделей имеет значение проведение анализа качества прогнозирования модели (табл. 2), в которой наблюдаемые показатели принадлежности к группе противопоставляются предсказанным на основе рассчитанной модели.
Таблица 2
Качество классификации логит-модели
Наблюдаемые значения Предсказанные значения
Y Процент правильных
0 1
0 19 4 82,6
1 2 30 93,9
Общий процент 89,1
Построенная модель имеет высокое качество распознавания кредитоспособных и некредитоспособных заемщиков - 93,8 и 82,6 % соответственно. Однако вероятность ошибок 2-го рода (0,6) значительно больше вероятности ошибок 1-го рода (0,4). Естественно, что с точки зрения кредитного риска ошибки 2-го рода являются наиболее фатальными по сравнению с ошибками 1-го рода, характеризующими лишь упущенные возможности банка, в то время как ошибки 2-го рода приводят к убыткам кредитной организации.
Модель логистической регрессии с исключением малоинформативных факторов отличается гораздо меньшим качеством прогнозирования. В результате пошагового анализа в модель были включены только три фактора (семейное положение, возраст заемщика и кредитная история в банке), описывающие состояние потенциального клиента.
Модель логистической регрессии с отобранными переменными имеет следующий вид:
Z = 10,85 -2,18х5 -2,53х8 -1,09х13. (2)
Качество построенной модели представлено в табл. 3. Очевидно, что включение столь малого числа факторов не может обеспечить высокую точность прогнозирования, тем более что проведение многомерного шкалирования показало выделение наиболее инфомативных четырех факторов, а не трех. Качество прогноза модели, построенной в результате пошагового анализа, по сравнению с моделью с включением всех факторов, ниже на 12,7 % (табл. 3).
Таблица 3
Качество классификации логит-модели с исключением незначимых факторов
Наблюдаемые значения Предсказанные значения
Y Процент правильных
0 1
Шаг 1 У 0 16 7 69,6
1 3 29 90,6
Общий процент 81,8
Шаг 2 У 0 17 6 73,9
1 6 26 81,3
Общий процент 78,2
Шаг 3 У 0 14 9 60,9
1 4 28 87,5
Общий процент 76,4
Реализация пробит-модели в ППП 81ай8йса осуществляется аналогичным образом, при этом построенная модель имеет следующий вид:
% = -2,43 - 0,79x1 + 2,9x2 - 4,85x3 - 1,83x4 + 0,85x5 + 0,8x6 --1,07X7 + 2,52x8 -0,14X9 -0,46Xlo -1,82Xll +1,07Xl2 + 1,93x13 . (3)
Информация, касающаяся построенной модели и результатов оценивания ее параметров, представлена на рис. 2.
Мо del is: Р е гр е с сия пр о бит N о. of 0 ' s: 32,0 0 000 (58,18182% )
Подчиненная ПеременнТ Несвязанные переменные:13
Loss function is: Наксимальная вероя Final value: 14,212044410
-2*log(Likelihood): for this model = 28,42409 intercept only: 74,76682
Рис. 2. Статистическая информация пробит-модели
По характеристикам модели можно судить о высокой значимости всех параметров модели. Однако качество прогноза пробит-модели (табл. 4) ниже результатов построенной логит-модели. Процент распознавания кредитоспособных заемщиков оказался меньше на 3 %, составив 90,6 % по сравнению с 93,8 % логит-модели.
Таблица 4
Качество классификации пробит-модели
Группа заемщиков Предсказанное 1 Предсказанное 0 Процент правильных
1 29 3 90,62500
0 4 19 82,60870
Вероятность ошибки 2-го рода совпадает с предыдущей моделью, что с точки зрения риска говорит о приемлемости построенной пробит-модели, но отличие в 3 % приведет к упущенной прибыли банка.
2. Дискриминантный анализ для оценки кредитных рисков банка
Для представленной выборки из 55 заемщиков дискриминантный анализ проведен в ППП 8Р88. Модель содержит 13 факторов, влияющих на бинарную переменную У, образующую две группы.
Дискриминантный анализ позволяет определить, насколько значимо различаются между собой переменные в обеих группах, т.е. какие из переменных вносят свой вклад в дискриминацию между совокупностями. Для этого наряду с тестовой величиной, в качестве которой служит Лямбда Уилкса, применяется также и простой дисперсионный анализ (табл. 5).
Таблица 5
Статистическая информация дискриминантной функции
Лямбда Уилкса, 1 Значение статистики, F Число степеней свободы, df1 Число степеней свободы, df2 Значимость коэффициента, Sig
X1 0,997 0,165 1 53 0,687
X2 1,000 0,004 1 53 0,947
X3 0,973 1,478 1 53 0,230
X4 0,943 3,228 1 53 0,078
X5 0,712 21,489 1 53 0,000
X6 0,887 6,728 1 53 0,012
X7 0,952 2,654 1 53 0,109
X8 0,931 3,929 1 53 0,053
X9 0,972 1,552 1 53 0,218
X10 0,902 5,789 1 53 0,020
X11 0,864 8,343 1 53 0,006
X12 0,971 1,611 1 53 0,210
X13 0,858 8,804 1 53 0,005
Очевидно, что некоторые переменные в модели не отвечают необходимому уровню значимости, и в дальнейшем, применяя пошаговый дискриминантный анализ, предикторы, вносящие наименьший вклад, должны быть исключены.
Значения дискриминантной функции должны как можно отчетливее разделять обе группы. Мерой удачности этого разделения служит корреляци-
онный коэффициент между рассчитанными значениями дискриминантной функции и показателем принадлежности к группе.
Прежде чем интерпретировать и применять результаты дискриминантного анализа, следует убедиться в статистической значимости функции. Для этого проверяют нулевую гипотезу о равенстве средних во всех группах. Эта гипотеза проверяется с помощью коэффициента Лямбда Уилкса, собственных значений (eigenvalues) дискриминантной функции (отношение суммы квадратов между группами к сумме квадратов внутри групп) и канонической корреляции, квадрат которой показывает, какая доля вариации зависимой переменной объясняется моделью.
Судя по значению коэффициента, равному 0,75, корреляция удовлетворительная, большое собственное значение указывает на высокое качество построенной модели. Уровень значимости р < 0,001 говорит о том, что в обеих группах значимо отличаются друг от друга средние значения дискриминантной функции.
Для оценки относительной важности переменных в установлении различий между группами также используются стандартизированные (нормированные) коэффициенты дискриминантной функции. Одной из предпосылок данного анализа является отсутствие связи (слабая корреляция) между переменными x1, x2, ..., xn, т.е. отсутствие мультиколлинеарности. При наличии мультиколлинеарности между предсказывающими переменными не существует однозначной меры относительной важности переменных.
В результате проведения дискриминантного анализа получены параметры функции:
y = -5,3-2,64xi +1,28x2 -0,87x3 -0,65x4 +0,84x5 +0,43x6 +
+0,15x7 +1,04x8 + 0,12xg + 0,1xi0 — 0,88xn + 0,46xi2 + 0,8x13 . (4)
На основании полученных коэффициентов канонической функции дискриминации вычисляется интегральный показатель (сумма произведений значений признаков на соответствующие коэффициенты этих признаков). Введение константы -5,301 позволило использовать знак интегрального показателя как указатель группы, к которой относится индивидуум. Знаки групп определяются знаком соответствующих центроидов, которые представляют собой средние значения дискриминантной функции в обеих группах.
3. Сравнительный анализ моделей распознавания кредитного риска
Построение различных моделей прогнозирования кредитоспособности заемщиков с помощью дискриминантной функции и логит-, пробит-моделей показало, что при данной выборке из 55 наблюдений целесообразнее включать в модель все независимые переменные (факторы), поскольку исключение некоторых предикторов ведет к ухудшению качества моделей.
Модель логистической регрессии показала лучшие результаты по сравнению с результатами пробит-модели. Качество прогноза логит-модели составляет 89,1 %, при этом величина кредитоспособных заемщиков, квалифицированных правильно, достигает 93,8 % (30 заемщиков из 32), а некредитоспособных - 82,6 % (19 заемщиков из 23). Эффективность построенной моде-
ли может быть оценена с позиции вероятности ошибок 1-го и 2-го рода. Вероятность отнесения моделью кредитоспособного заемщика в группу некредитоспособных клиентов (ошибка 1-го рода) составляет 0,33, а вероятность отнесения некредитоспособного клиента к классу кредитоспособных равна
0,67 (ошибка 2-го рода). Очевидно, что ошибка 2-го рода является более фатальной для банка и желательно достижение ее минимума.
Зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров для бинарной модели можно представить с помощью ЯОС-кривой.
В данном случае доля истинно положительных примеров принимает значение 0,88, представляющее собой чувствительность модели, а истинно отрицательных - 0,9, характеризующее ее специфичность. Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры).
Для идеального классификатора график ЯОС-кривой проходит через верхний левый угол, где доля истинно положительных случаев составляет 100 %, или 1,0 (идеальная чувствительность), а доля ложно положительных примеров равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше предсказательная способность модели. Наоборот, чем меньше изгиб кривой и чем ближе она расположена к диагональной прямой, тем менее эффективна модель. Диагональная линия соответствует «бесполезному» классификатору, т.е. полной неразличимости двух классов. Модель логистической регрессии обладает в данном случае достаточно высокой чувствительностью и эффективностью (рис. 3).
0,0 0,2 0,4 0,6 0,8 1,0
Специфичность
Рис. 3. ЯОС-кривая логит-модели (здесь и далее значение 1.0 - «идеальная» модель, или 100 %)
Модель оценки кредитных рисков для банка, построенная с помощью дискриминантного анализа, дает самые наилучшие результаты из всего набора представленных моделей. Доля кредитоспособных заемщиков, квалифицированных правильно, и для дискриминантной функции, и для логит-модели одинакова - 93,8 %, а доля некредитоспособных клиентов, выявленных правильно, для дискриминантной модели выше на 4,4 % и составляет 87 %. Так как для банка большое значение имеет уменьшение ошибок 2-го рода в модели, то именно модель дискриминатного анализа является более приемлемой, поскольку ошибка 2-го рода в данном случае равна 0,6, что ниже ошибки логит-модели на 0,07. При этом чувствительность модели равна 0,94 %, а специфичность - 91 %. Анализ ЯОС-кривой показывает высокое качество и эффективность модели дискриминантного анализа (рис. 4).
Рис. 4. ROC - кривая дискриминантной функции
Визуальное сравнение кривых ROC позволяет выявить наиболее эффективную модель (рис. 5).
Таким образом, судя по графику, наибольшей чувствительностью и эффективностью обладает модель дискриминантного анализа. Своеобразным методом сравнения ROC-кривых также является оценка площади под кривыми. Теоретически она изменяется от 0 до 1.0, но поскольку модель всегда характеризуется кривой, расположенной выше положительной диагонали, то обычно говорят об изменениях от 0.5 («бесполезный» классификатор) до 1.0 («идеальная» модель).
Оценка площади кривой модели дискриминатного анализа (94 %) выше аналогичной оценки кривой логит-модели.
.0
I—
О
0
1 -О Ц 0 I-
СО
I—
о
со
>ч
Т
и модели дискриминантного анализа Заключение
Полученные модели прогнозирования и оценки кредитоспособности заемщиков для успешного применения их на практике следует проверить на качество с помощью экзаменующей выборки, состоящей из 20 заемщиков, с известными значениями их принадлежности к той или иной группе, из них 11 являются кредитоспособными клиентами, а 9 - некредитоспособными.
Проверка качества построенной логит-модели происходит на основании вычисления вероятности кредитоспособности заемщика. Подставляя значения логита в модель, получаем следующие показатели: из 11 кредитоспособных заемщиков моделью правильно были идентифицированы 6, а из 9 некредитоспособных - 8. Таким образом, логит-модель на экзаменующей выборке показала высокое качество распознавания некредитоспособных заемщиков, составив 88 % точности, однако качество распознавания кредитоспособных клиентов заметно ниже - 54 %. При этом вероятность ошибки 2-го рода составила 0,25, а 1-го рода - 0,75.
Проверка качества дискриминантной функции осуществляется путем подстановки новых параметров экзаменующей выборки в модель дискриминантного анализа с включением всех факторов, и на основании значений линейного прогностического правила тот или иной заемщик относится к одной из двух групп, характеризующей его кредитоспособность. Тестирование модели показало 100 % качество распознавания некредитоспособных заемщиков, при этом соответственно ошибка 2-го рода равна нулю, а качество прогноза кредитоспособных заемщиков составило 64 %.
Рис. 5. Совмещение ИОС-кривых для логит-модели
Совокупный анализ построенных моделей и на обучающей, и на экзаменующей выборке показал высокую степень эффективности модели дискриминантного анализа в целях отнесения потенциальных заемщиков к одной из двух групп. Данная модель характеризуется высокой степенью прогнозирования кредитоспособных клиентов, а также высоким качеством распознавания дефолта заемщика. Применение результатов дискриминантного анализа в алгоритме изучения дает возможность прогнозировать некредитоспособность заемщика и может служить критерием для формирования групп высокого риска по определенным клиентам банка.
Рассмотренная процедура сравнения качества моделей распознавания позволяет повысить качество информационного обеспечения принятия решений в условиях риска
Список литературы
1. Айвазян, С. А. Прикладная статистика. Основы эконометрики : учебник для вузов : в 2 т. / С. А. Айвазян, B. C. Мхитарян. - 2-е изд., испр. - М. : ЮНИТИ, 2001. - 1008 с.
2. Банковские риски : учеб. пособие / под ред. д-ра экон. наук, проф. О. И. Лавру-шина и д-ра экон. наук, проф. Н. И. Валенцевой. - М. : КНОРУС, 2007. - 232 с.
3. Fries, C. Mathematical finance: theory, modeling, implementation / Christian Fries. -New Jersey : Wiley, 2007. - 520 p.
References
1. Ayvazyan S. A., Mkhitaryan B. C. Prikladnaya statistika. Osnovy ekonometriki: uchebnik dlya vuzov: v 2 t. [Applied statistics. Basic econometrics: textbook fro universities: in 2 volumes]. Moscow: YuNITI, 2001, 1008 p.
2. Bankovskie riski: ucheb. posobie [Bank risks: tutorial]. Ed. O. I. Lavrushin, N. I. Valentseva. Moscow: KNORUS, 2007, 232 p.
3. Fries C. Mathematical finance: theory, modeling, implementation. New Jersey: Wiley, 2007, 520 p.
Моисеев Александр Владимирович
кандидат физико-математических наук, заведующий кафедрой прикладной математики и исследования операций в экономике, Пензенский государственный технологический университет (Россия, г. Пенза, проезд Байдукова, 1а)
E-mail: [email protected]
Поправко Евгений Александрович аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: [email protected]
Moiseev Aleksandr Vladimirovich Candidate of physical and mathematical sciences, head of sub-department of applied mathematics and operations research in economics, Penza State Technological University (1a Baydukova passage,
Penza, Russia)
Popravko Evgeniy Aleksandrovich Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)
Федотов Николай Гаврилович
доктор технических наук, профессор, заведующий кафедрой экономической кибернетики, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)
E-mail: [email protected]
УДК 004.67,004.62 Моисеев, А. В.
Сравнительный анализ моделей распознавания риска / А. В. Моисеев, Е. А. Поправко, Н. Г. Федотов // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2013. - № 4 (28). - С. 19-31.
Fedotov Nikolay Gavrilovich Doctor of engineering sciences, professor, head of sub-department of economic cybernetics, Penza State University (40 Krasnaya street, Penza, Russia)