УДК 336.7
Н.С. Лукашевич
ОЦЕНКА ПАРАМЕТРОВ КРЕДИТ-СКОРИНГОВОЙ МОДЕЛИ НА ОСНОВЕ ROC-АНАЛИЗА
В современных условиях задача управления кредитным риском становится все более актуальной. Требования к надежности банковской системы, предъявляемые со стороны различных регулирующих органов, постоянно возрастают, увеличиваются сроки кредитования, растет доля проводимых операций, успех которых напрямую связан с экономическим положением заемщиков. В соответствии с Базельским соглашением о капитале, известным как Базель II, для оценки заемщиков рекомендуется использовать подход, основанный на внутренних рейтингах. В соответствии с ним требуется разработать математическую модель для оценки вероятности дефолта заемщика. Можно использовать сокращенные, структурные и кре-дит-скоринговые модели, которые обладают наибольшим практическим интересом и позволяют оценивать кредитный рейтинг заемщиков [2].
Кредит-скоринговую модель в общем виде можно представить следующим образом:
< То (О, Ь, Ф, А) >,
где 1о - кредитный рейтинг, мера кредитоспособности заемщика; О - набор факторов кредитоспособности заемщика; Ь - набор оценок каждого фактора из набора О; Ф - набор весов, задающих значимость каждого фактора из набора О; А -подход (метод), заложенный в основу расчета То.
В работе [1] изложены многочисленные подходы к разработке кредит-скоринговых моделей, среди которых на практике традиционно используются статистические и нейросетевые методы, реализованные в большинстве современных банковских программных продуктов. Подробные рекомендации по выбору подхода приведены в работе [3]. Практические кредит-скоринговые модели, полученные на основе статистических, нейросетевых и нечетко-множественных описаний, а также содержательная интерпретация особенностей применения подобных моделей для анализа кредитных рисков представлены в работах [1-3].
Независимо от используемого подхода важным условием эффективного применения кре-дит-скоринговых моделей является обоснованный выбор их параметров, необходимых для принятия управленческих решений о кредитовании, а также оценка прогностических свойств моделей, под которыми понимается точность классификации заемщиков. Для решения данной проблемы возможно применение ROC-анализа [4].
Цель исследования - апробация применения ROC-анализа при оценке параметров и качества кредит-скоринговых моделей. Информационной базой исследования служит обезличенная выборка заемщиков - физических лиц. Выбор такого сегмента заемщиков обусловлен резким увеличением количества дефолтов по кредитным сделкам в кризисный период. На базе выборки, используя логистическую регрессию как традиционный статистический инструмент для оценки вероятности дефолта, предлагается построить кредит-скоринговую модель, на которой апробируется подход.
ROC-анализ (receiver operator characteristic) широко применяется в различных областях, таких как теория обнаружения сигналов [7], проведение диагностических тестов в медицине [10], сравнение моделей и алгоритмов в теории принятия управленческих решений [4, 8, 9]. Пути усовершенствования анализа для выбора классификатора с точки зрения ожидаемых потерь от принятия ошибочного решения рассмотрены в [6].
Несмотря на то, что подход ориентирован в основном на применение в медицине и технике, существует опыт применения ROC-анализа в отечественной банковской практике. В работе [5] исследуется немаловажная проблема отбора переменных в скоринговые карты на основе логистической регрессии. Представлен подход к отбору в модель переменных в зависимости от рассчитанного значения площади под ROC-кривой, и проведены эксперименты на кредитных
историях российского банка. Алгоритм ROC-анализа заложен в некоторых программных продуктах по автоматизации управления кредитными рисками, например, «Scorto™ Model Maestro» и «SAS Credit Scoring Solution», активно используемых в кредитных отделах банков.
ROC-анализ основан на использовании параметрической кривой, которая показывает результаты бинарной классификации, когда модель предсказывает вероятность того, что наблюдение относится к одному из двух классов. В таком случае важен выбор точки отсечения, т. е. порога отсечения, разделяющего классы. Бинарный классификатор может быть получен на основе логистической регрессии, нейронных сетей, деревьев классификации, байесовской сети. ROC-кривая позволяет построить зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров [4].
Охарактеризуем основные параметры кре-дит-скоринговых моделей с точки зрения ROC-анализа. Бинарный классификатор предполагает два класса, один из них называется классом с положительными исходами, второй - с отрицательными исходами. В контексте решаемой задачи положительным исходом является успешное погашение кредита (благонадежный заемщик), а отрицательным - дефолт по кредиту (неблагонадежный заемщик). Доля истинно положительных исходов TPR (true positives rate), доля ложно положительных исходов FPR (false positives rate), доля истинно отрицательных исходов TNR (true negative rate) и доля ложно отрицательных исходов FNR (false negative rate) рассчитываются соответственно следующим образом:
TPR = ■
TP
FPR =
TNR =
FNR =
TP + FN FP ; TN + FP ' TN ; TN + FP '
FN FN + TP '
где TP (true positives) - верно классифицированные положительные исходы (истинно положительные исходы); TN (true negatives) - верно классифицированные отрицательные исходы
(истинно отрицательные исходы); FN (false negatives) - положительные исходы, классифицированные как отрицательные (ложно отрицательные исходы); FP (false positives) - отрицательные исходы, классифицированные как положительные (ложно положительные исходы).
Параметр TPR определяет чувствительность кредит-скоринговой модели (sensitivity). Модель, обладающая высокой чувствительностью, обеспечивает большую вероятность правильного распознавания для положительных исходов. Параметр TNR определяет специфичность кредит-скоринговой модели (specificity). Модель, обладающая высокой специфичностью, обеспечивает большую вероятность правильного распознавания для отрицательных исходов. Можно сделать вывод в контексте решаемой задачи, что кредит-скоринговая модель с высокой специфичностью соответствует консервативной кредитной политике (высокая доля отклоненных кредитных заявок), а с высокой чувствительностью - высокорисковой кредитной политике (высокая доля одобренных заявок). В первом случае минимизируются потери от кредитного риска, а во втором - упущенная экономическая выгода. Последним важным параметром кредит-скоринговых моделей является пороговое значение C (cut off point). Порог отсечения нужен для того, чтобы применять модель на практике, т. е. относить новые исходы к одному из двух классов. Выбирая пороговое значение, можно управлять вероятностью правильного распознавания положительных и отрицательных исходов. При уменьшении порога увеличивается вероятность ошибочного распознавания положительных исходов (ложно положительных исходов), а при увеличении возрастает вероятность неправильного распознавания отрицательных исходов (ложно отрицательных исходов).
ROC-кривая представляет собой совокупность координат, заданных параметрами TPR и (1 - TNR) при различных значениях С. Для идеального классификатора график ROC-кривой проходит через верхний левый угол, где доля ложно положительных исходов равна нулю. Поэтому чем ближе кривая к верхнему левому углу, тем выше прогностические свойства модели. Диагональная линия соответствует бесполезному классификатору. Параметр AUC рассчитывается как площадь под ROC-кривой с помощью, например, правила трапеций [4] и принимает зна-
чение в интервале [0; 1]. Высокое значение параметра AUC свидетельствует о высоком качестве модели с точки зрения прогностических свойств.
Проблемой является определение приемлемого порогового значения на основе построенной ROC-кривой. Ниже представлены возможные критерии определения приемлемого порогового значения среди k возможных значений:
1. Обеспечение минимально допустимого значения чувствительности модели TPRmin (критерий Ki):
TPRk > TPRmin.
2. Обеспечение минимально допустимого значения специфичности модели TNRmin (критерий K2):
TNRk > TNRmin.
3. Достижение максимального значения суммарной чувствительности и специфичности модели (критерий K3):
max {(TNRk + TPRk)}.
4. Обеспечение баланса между чувствительностью и специфичностью модели (критерий K4):
min {\TPRk - TNRk\}.
5. Достижение максимального значения индекса Юдена (критерий K5) [11]:
max{(TPRk + TNRk _,)}.
6. Достижение максимального значения индекса надежности (критерий K6):
max <
TNk + TPk
v TNk + TPk + FNk + FPk,
7. Достижение минимального значения потерь в стоимостном выражении от ошибок классификации (критерий K7):
min {(SFp • FPk + SFN • FNk)},
где SFP - стоимость ложно положительного исхода, руб.; SFN - стоимость ложно отрицательного исхода, руб.
Наибольший практический интерес представляет именно последний критерий. С одной стороны, он позволяет увязать ошибки классификации с экономическими показателями, но, с другой стороны, определение стоимости ложных исходов является труднорешаемой, требующей отдельного исследования задачей, что существенно ограничивает применение данного критерия на практике. Можно упрощенно рассчитывать стоимость ошибки классификации по каждому ложному исходу на основании данных о просроченной задолженности и условиях кредитования. Для каждого типа исхода можно взять усредненные показатели. Например, стоимость ложно положительных исходов можно рассчитать на основании суммы просроченной задолженности, приходящейся на одного безнадежного заемщика. Стоимость ложно отрицательных исходов можно рассчитать на основании усредненных показателей лимита, срока и ставки кредитования, которые определяют упущенную выгоду банка от кредитования.
На основе логистической регрессии были построены две кредит-скоринговые модели. Фрагмент выборки с некодированными переменными представлен в табл. 1. Необходимо
Таблица 1
Фрагмент исследуемой выборки заемщиков (переменные некодированные)
Обозначение Наименование переменной Заемщики
переменной 1 2 3 4
Z Наличие дефолта Нет Нет Нет Да
Q1 Пол Муж. Муж. Муж. Жен.
Q2 Возраст, лет 24 31 28 23
Q3 Семейное положение Не женат/ Не женат/ Женат/ Женат/
не замужем не замужем замужем замужем
Q4 Стаж на последнем месте работы, лет 4 2 6 1
Q5 Отраслевая принадлежность работодателя Образование Сфера услуг Торговля Маркетинг и продажи
Q6 Кредитная история Нет Нет Нет Нет
Q7 Наличие вкладов в банке Да Да Нет Нет
Q8 Коэффициент финансовой нагрузки 0,67 0,34 0,23 0,45
Q9 Вариация дохода 0,10 0 0,13 0
Q10 Наличие и тип обеспечения Нет Нет Нет Поручительство
Таблица 2
Матрица парных коэффициентов корреляции
(выделены значимые коэффициенты)
0> 01 02 03 04 05 06 07 08 09 010
01 1,000 0,146 0,314 -0,085 -0,189 0,017 -0,050 0,182 0,071 -0,053
02 0,146 1,000 -0,231 0,204 -0,143 0,230 -0,154 0,026 0,021 0,083
03 0,314 -0,231 1,000 -0,280 0,147 -0,117 -0,189 0,199 -0,015 -0,080
04 -0,085 0,204 -0,280 1,000 -0,259 0,092 0,136 -0,115 -0,150 0,054
05 -0,189 -0,143 0,147 -0,259 1,000 0,039 -0,001 0,163 -0,021 -0,084
06 0,017 0,230 -0,117 0,092 0,039 1,000 -0,111 0,025 0,007 -0,075
07 -0,050 -0,154 -0,189 0,136 -0,001 -0,111 1,000 0,081 -0,073 -0,230
08 0,182 0,026 0,199 -0,115 0,163 0,025 0,081 1,000 0,253 -0,179
09 0,071 0,021 -0,015 -0,150 -0,021 0,007 -0,073 0,253 1,000 -0,283
010 -0,052 0,082 -0,080 0,053 -0,084 -0,075 -0,230 -0,179 -0,283 1,000
оценить возможное присутствие мультиколлине-арности в исходной выборке. Из-за корреляции между предикторами параметры полученных моделей могут быть неточными, что приведет к значительному числу ложно определенных исходов. Была сформирована матрица парных коэффициентов корреляции, представленная в табл. 2, и вычислен ее определитель = 0,34. Можно сделать вывод о наличии частичной мультикол-линеарности, поскольку определитель матрицы близок к нулю. В этом случае формально можно получить оценки параметров моделей и их точные показатели, но все они будут неустойчивыми, что ставит под сомнение прогностические свойства моделей. С учетом того, что целью исследования является апробация применения ЯОС-анализа в банковской практике, а не получение адекватных практических кредит-скоринговых моделей, были найдены параметры двух моделей.
Для построения первой модели использовался метод пошагового включения на основе критерия Вальда.
Для второй модели использовались те же параметры логистической регрессии, но с принудительным включением всех факторов.
В математическом виде полученные модели имеют вид:
Хх = -0,1701 - 0,0402 + 1,90з + 0,504 + + 0,305 + 0,5806 + 1,707 + 4,808 + 0,909 + + 0,21010 - 7,2;
г2 = 1,790з + 1,5307 + 4,908 - 6,89.
На основании полученных уравнений были рассчитаны основные параметры двух моделей и критерии (К1 - Кб), необходимые для проведения ЯОС-анализа. Результаты расчетов представлены в табл. 3. Рассчитанные параметры позволили построить ЯОС-кривые для двух моделей (рис. 1) и определить рациональное пороговое значение С.
Несмотря на различные параметры построения логистической регрессии (принудительное включение факторов и включение факторов на основе критерия Вальда), прогностические свойства моделей одинаковы, о чем свидетельствуют практически схожие значения показателя АиС, получаемого суммированием значений в соответствующей строке в табл. 3. Этот факт можно объяснить наличием достаточной корреляции между переменными. При этом кривые расположены ближе к диагонали, соответствующей параметрам бесполезного классификатора, что говорит о недостаточной точности классификации, получаемой на основе моделей. Приемлемое пороговое значение, найденное по критериям К3 , К5 и Кб, совпадает для рассматриваемых моделей и является точкой на ЯОС-кривой, причем длина перпендикулярного отрезка, проведенного из этой точки, характеризуется наибольшей длиной.
Таблица 3
Результаты ИОС-анализа
¡а Параметры Пороговое значение рейтинга (С)
н о § 0 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1
ТР 35 35 35 35 35 32 31 28 25 24 23 22 22 18 15 14 12 9 8 5 0
ТМ 0 0 2 5 9 11 17 19 23 24 28 29 30 30 30 31 33 34 35 35 35
ЕМ 0 0 0 0 0 2 4 7 9 11 12 13 13 17 20 22 23 26 27 30 35
ЕР 35 35 33 30 26 25 18 16 13 8 7 6 5 5 5 3 2 1 0 0 0
ТРЯ 1,00 1,00 0,95 0,88 0,80 0,74 0,65 0,60 0,52 0,50 0,45 0,43 0,42 0,38 0,33 0,31 0,27 0,21 0,19 0,13 0,00
ЕРЯ 1,00 1,00 0,94 0,86 0,74 0,69 0,51 0,46 0,36 0,25 0,20 0,17 0,14 0,14 0,14 0,09 0,06 0,03 0,00 0,00 0,00
ТМЯ 0,00 0,00 0,06 0,14 0,26 0,31 0,49 0,54 0,64 0,75 0,80 0,83 0,86 0,86 0,86 0,91 0,94 0,97 1,00 1,00 1,00
ЕМЯ 0,00 0,00 0,00 0,00 0,00 0,06 0,11 0,20 0,26 0,31 0,34 0,37 0,37 0,49 0,57 0,61 0,66 0,74 0,77 0,86 1,00
К1 1,00 1,00 0,95 0,88 0,80 0,74 0,65 0,60 0,52 0,50 0,45 0,43 0,42 0,38 0,33 0,31 0,27 0,21 0,19 0,13 0,00
К2 0,00 0,00 0,06 0,14 0,26 0,31 0,49 0,54 0,64 0,75 0,80 0,83 0,86 0,86 0,86 0,91 0,94 0,97 1,00 1,00 1,00
К3 1,00 1,00 1,00 1,02 1,05 1,05 1,13 1,14 1,16 1,25 1,25 1,26 1,28 1,23 1,19 1,22 1,21 1,18 1,19 1,13 1,00
К4 1,00 1,00 0,89 0,73 0,54 0,44 0,16 0,05 0,12 0,25 0,35 0,40 0,43 0,48 0,52 0,60 0,68 0,76 0,81 0,88 1,00
К5 0,00 0,00 0,00 0,02 0,05 0,05 0,13 0,14 0,16 0,25 0,25 0,26 0,28 0,23 0,19 0,22 0,21 0,18 0,19 0,13 0,00
К6 0,50 0,50 0,53 0,57 0,63 0,61 0,69 0,67 0,69 0,72 0,73 0,73 0,74 0,69 0,64 0,64 0,64 0,61 0,61 0,57 0,50
АиС 0,00 0,06 0,08 0,09 0,04 0,12 0,03 0,05 0,05 0,02 0,01 0,01 0,00 0,00 0,01 0,00 0,00 0,00 0,00 0,00 0,00
ТР 35 35 35 34 34 32 31 30 27 25 24 23 22 18 16 13 12 7 6 4 0
ТМ 0 1 3 5 10 15 18 21 23 24 25 27 30 31 31 33 34 34 35 35 35
ЕМ 0 0 0 1 1 3 4 6 8 11 11 12 13 17 19 21 23 28 29 31 35
ЕР 35 34 32 30 25 20 17 13 12 10 10 8 5 4 4 3 1 1 0 0 0
ТРЯ 1,00 0,97 0,92 0,87 0,77 0,68 0,63 0,59 0,54 0,51 0,49 0,46 0,42 0,37 0,34 0,28 0,26 0,17 0,15 0,10 0,00
ЕРЯ 1,00 0,97 0,91 0,86 0,71 0,57 0,49 0,38 0,34 0,29 0,29 0,23 0,14 0,11 0,11 0,08 0,03 0,03 0,00 0,00 0,00
ТМЯ 0,00 0,03 0,09 0,14 0,29 0,43 0,51 0,62 0,66 0,71 0,71 0,77 0,86 0,89 0,89 0,92 0,97 0,97 1,00 1,00 1,00
г2 ЕМЯ 0,00 0,00 0,00 0,03 0,03 0,09 0,11 0,17 0,23 0,31 0,31 0,34 0,37 0,49 0,54 0,62 0,66 0,80 0,83 0,89 1,00
К1 1,00 0,97 0,92 0,87 0,77 0,68 0,63 0,59 0,54 0,51 0,49 0,46 0,42 0,37 0,34 0,28 0,26 0,17 0,15 0,10 0,00
К2 0,00 0,03 0,09 0,14 0,29 0,43 0,51 0,62 0,66 0,71 0,71 0,77 0,86 0,89 0,89 0,92 0,97 0,97 1,00 1,00 1,00
К3 1,00 1,00 1,01 1,01 1,06 1,11 1,15 1,21 1,20 1,22 1,20 1,23 1,28 1,25 1,23 1,20 1,23 1,14 1,15 1,10 1,00
К4 1,00 0,94 0,84 0,73 0,49 0,25 0,12 0,03 0,12 0,20 0,22 0,31 0,43 0,52 0,55 0,63 0,71 0,80 0,85 0,90 1,00
К5 0,00 0,00 0,01 0,01 0,06 0,11 0,15 0,21 0,20 0,22 0,20 0,23 0,28 0,25 0,23 0,20 0,23 0,14 0,15 0,10 0,00
К6 0,50 0,51 0,54 0,56 0,63 0,67 0,70 0,73 0,71 0,70 0,70 0,71 0,74 0,70 0,67 0,66 0,66 0,59 0,59 0,56 0,50
АиС 0,03 0,05 0,05 0,11 0,10 0,05 0,06 0,02 0,02 0,00 0,02 0,04 0,01 0,00 0,01 0,01 0,00 0,00 0,00 0,00 0,00
ТРИ
Рис. 1. Полученные ЯОС-кривые
ТРИ TNR
Рис. 2. Баланс между чувствительностью и специфичностью модели Zl
- ТРК; ( ■ ) - ТМК
На практике банки стремятся достичь баланса между специфичностью и чувствительностью или достичь их максимальных значений. Максимум чувствительности и специфичности для модели Zl достигается при пороговом значении рейтинга 0,60. Чувствительность равна 42 %. Это означает, что 42 % благонадежных
заемщиков будут выявлены классификатором. Специфичность равна 86 %, следовательно, 14 % недобросовестных заемщиков получат одобрение в кредитовании. Баланс между чувствительностью и специфичностью для модели Zl достигается при значении рейтинга 0,35, что видно на рис. 2.
С точки зрения управления кредитным риском ЯОС-анализ можно применять для решения следующих задач:
1. Оценка точности классификации заемщиков, а также уровня чувствительности и специфичности кредит-скоринговой модели.
2. Сравнение прогностических свойств моделей, применяемых для оценки кредитного риска.
3. Нахождение приемлемого порогового значения кредитного рейтинга для принятия решения о кредитовании.
4. Параметры кредит-скоринговой модели, оцениваемые на основе ЯОС-анализа, могут стать индикаторами, показывающими необходимость корректировки модели. В качестве таких индикаторов можно рассматривать снижение чувствительности модели, повышение числа ложно положительных исходов.
Таким образом, в статье показана возможность применения ЯОС-анализа в решении практических задач анализа кредитных рисков и оценки прогностических свойств кредит-скоринговых моделей. Направлением дальней-
ших исследований может стать, во-первых, адаптация проведения ЯОС-анализа с точки зрения экономических показателей, а не числа правильно или ложно классифицированных заемщиков. Таким экономическим показателем могут выступать, например, экономические выгоды и потери от правильно и ложно классифицируемых кредитных заявок. Использование экономических показателей при оценке параметров кредит-скоринговых моделей с целью определения приемлемого порогового значения для рационального отбора кредитных заявок сделает анализ более обоснованным и учитывающим результаты финансово-хозяйственной деятельности банка. Во-вторых, областью исследования может стать изучение влияния настраиваемых параметров классификаторов, например размера выборки, метода включения переменных на показатель АиС, что позволит дать рекомендации по настройке классификаторов, обладающих лучшими прогностическими свойствами. В-третьих, возможно применение рассмотренного подхода для оценки более двух классов заемщиков, что предпринято в работе [9].
СПИСОК ЛИТЕРАТУРЫ
1. Дуболазов, В.А. Нечетко-множественный подход к оценке кредитоспособности физических лиц [Текст] / В.А. Дуболазов, Н.С. Лукашевич // Финансы и кредит. - 2009. - № 13(349). - С. 35-45.
2. Ефимова, Ю.В. Оценка заемщиков малого бизнеса с учетом международных требований [Текст] / Ю.В. Ефимова // Банковское кредитование. 2009. -№ 6(28). - С. 55-72.
3. Лукашевич, Н.С. Сравнение нейросетевых и статистических методов оценки кредитного риска [Текст] / Н.С. Лукашевич // Финансы и кредит. - 2011. -№ 1(433). - С. 32-41.
4. Паклин, Н.Б. Бизнес-аналитика: от данных к знаниям: учебное пособие для вузов [Текст] / Н.Б. Паклин, В.И. Орешков. - 2-е изд., доп. и перераб. -СПб.: Питер, 2010. - 701 с.
5. Уланов, С.В. Генетический алгоритм для отбора признаков при разработке скоринговых карт [Текст] / С.В. Уланов, А.И. Якупов // Вестник Ижевского государственного технического университета. -
2010. - № 2 (46). - Q 54-57.
6. Drummond, C. What ROC curves can't do (and cost curves can) [Text] / C. Drummond, R. Holte // ROCAI. - 2004. - P. 19-26.
7. Egan, J.P. Signal detection theory and ROC analysis [Text] / J.P. Egan. - New York: Acad. Press, 1975. -386 p.
8. Fawcett, T. ROC Graphs: Notes and Practical Considerations for Researchers [Text] / T. Fawcett. -Kluwer Acad. Publ., 2004. - 38 p.
9. Hand, D.J. A simple generalization of the area under the ROC curve to multiple class classification problems [Text] / D.J. Hand, R.J. Till // Machine Learning. -2001. - № 45(2). - P. 171-186.
10. Swets, J.A. Measuring the accuracy of diagnostic systems [Text] / J.A. Swets // Science. - 1988. - № 240. -P. 1285-1292.
11. Youden, W.J. Index for rating diagnostic tests [Text] / W.J. Youden // Cancer. - 1950. - № 3. -P. 32-35.