УДК 519.254
Е. В. Стребков, В. С. Желтухин, И. А. Бородаев ОПРЕДЕЛЕНИЕ ПАРАМЕТРОВ И АНАЛИЗ НАДЕЖНОСТИ СКОРИНГОВЫХ АЛГОРИТМОВ
Ключевые слова: обучающая выборка, скоринг, надежность скорингового алгоритма.
В работе изложен метод определения оптимального объема обучающей выборки, основанный на корреляционной связи между количеством верных предсказаний скорингового алгоритма и общим числом испытаний. Все построения ведутся на примере классификатора Байеса. Полученный результат может быть применен к произвольным скоринговым алгоритмам вне зависимости от их природы.
Key worlds: training selection, scoring, reliability of scoring algorithm.
A method of determination of optimum volume of the training selection is developed. Correlation relationship between quantity of right predictions of scoring algorithm and total number of tests is used as a base of the method. Bayes's qualifier is used as an example of mathematical argumentation. The method can be applied to arbitrary scoring algorithms.
Введение
Сложная ситуация, сложившаяся с кредитованием физических лиц, побуждает кредитные организации более ответственно подходить к выдаче кредитов. Для принятия обоснованного решения о выдаче кредитов применяется скоринг (от англ. scoring - подсчет очков), являющийся инструментом классификации клиентской базы на две группы: клиенты, которым можно выдать кредит и клиенты, кредитование которых рискованно [1]. В основе скоринга лежит предположение о наличии связи добросовестности заемщика с его показателями социального статуса и уровня финансовой обеспеченности (наличие детей, уровень образования, место работы, доходы и др.).
На практике скоринг-тест состоит из двух основных частей. Первая часть представляет собой опросник, отражающий социальные характеристики клиента, например: семейное положение; постоянство и уровень дохода; наличие финансовых обязательств; качество кредитной истории и т.п. (табл. 1) [2-4]. Показатели каждой характеристики раздельно ранжируются по их значимости для кредитоспособности заемщика. Вторая часть скоринг-теста включает метод классификации заемщиков на два класса: клиенты, которым можно выдать кредит; и клиенты, кредитование которых рискованно.
Таким образом, задачу скоринга можно рассматривать как задачу дискриминантного анализа, т.е. построения классификатора, с некоторым уровнем гарантии, на основе имеющейся выборки, который позволяет судить о принадлежности объекта x определенному классам Y1 или, Y2.
Построение классификатора
При наличии в кредитной организации достаточной информационной базы по выданным кредитам, для построения скоринговой системы необходимо определиться с алгоритмом классификации. Известно, что ни один из описанных методов не может быть признан «самым лучшим» во всех случаях. Только сопоставление предсказания и факта может дать оценку эффективности скоринговых моделей [5].
Одним из наиболее простых классификаторов является классификатор Байеса [6]. Достоинством наивного байесовского классификатора является малое количество данных для обучения, необходимых для оценки параметров, требуемых для классификации.
Таблица 1 - Пример опросной анкеты банка
Параметр (Количество допустимых значений) Допустимые значения
Семейное положение заемщика (2) Женат (замужем) / одинок(а)
Наличие иждивенцев (2) Есть / нет
Карьерный уровень должности клиента (4) Рабочий / служащий / управленец среднего звена / топ-менеджер
Личный доход, тыс. руб. (6) До 10 / 11-25 / 26-50/ 51-75 / 76-100/ более 100
Семейный доход, тыс. руб. (6) До 10 / 11-25 / 26-50/ 51-75 / 76-100/ более 100
Наличие у клиента платежных обязательств (2) Есть / нет
Кредитная история клиента в данном банке (3) Нет / Положительная / С задержками /
Кредитная история клиента в других банках (3) Нет / Положительная / С задержками /
Имущество (4) Нет / дом / квартира / автомобиль
Клиент Банка (2) Да / нет
Возраст (5) 18-25 / 26-40 / 41-50 / 51-60 / > 60
Своевременный возврат кредита заемщиком (2) Да / нет
Наивный классификатор Байеса (Naive Bayes Classifier) основан на предположении о независимости отдельных компонент вектора x, описывающего социальные характеристики потенциального заемщика (признаки объекта). Для классификации используется формула вычисления апостериорных вероятностей P(Yi\x), Р(У2\х). При этом вероятность Р(У\х) принадлежности объекта x классу
Yj , в силу предположения независимости компонент, вычисляется по формуле
рам = рщхо-раш-...- рым,
где Х1, х2,..., хп - компоненты вектора признаков х. Объект х будет отнесен к тому классу X, для которого выше Р(Ы\х).
Однако, при формальном применении этой формулы для целей кредитного скоринга при незначительном отличии вероятностей Р(Ы1\х), Р(Ы2\х), велика вероятность ошибки ложного отнесения заемщика к категории надежных. Причин этого может быть несколько: отсутствие независимости компонент вектора признаков объекта, статистический характер корреляционной связи, невозможность полного учета всех факторов, влияющих на возврат кредита заемщиком, и др. В связи с этим построим модифицированный классификатор Байеса на основе обучающей выборки, включающей параметры, перечисленные в табл. 1.
В рамках предоставления кредитных продуктов для кредитора оказывается предпочтительнее не выдать кредит платежеспособному клиенту, чем предоставить неблагонадёжному. В этом случае сравнивается отношение апостериорных вероятностей с некоторой эмпирически заданной величиной (постоянная отсечения) С, то есть рассматривается соотношение: Р(Ы1\х)/Р(а2\х)<>С. Например, необходимо, чтобы мера того, что заёмщик благонадежный, в 2 раза превышала меру того, что он неплатежеспособен. Тогда С принимается равной 2.
Качество классификатора зависит от объема выборки. Чем больше объем, тем точнее предсказание. Однако, обработка большой выборки может быть проблематичной с точки зрения объема вычислений. В этой связи встает задача определения минимального объема обучающей выборки и параметра С, при которых достигаются приемлемые результаты классификации.
Анализ надёжности классификатора и подбор параметров
Для оценки качества бинарной классификации день широко применяются ЯОС-кривые - графики в декартовой системе координат хОу, где по оси Ох откладывается показатель специфичности алгоритма классификации, а по оси Оу - показатель чувствительности. Специфичность алгоритма классификации определяется как доля ошибочных положительных классификаций в общем числе отрицательных событий (ложно отрицательное множество), а чувствительность - как доля верно классифицированных положительных событий в общем количестве положительных классификаций (истинно положительное множество). Очевидно, что ЯОС-кривая располагается в единичном квадрате (рис. 1).
ЯОС-кривая, в частности, оценивает качество классификации величиной площади под ней. Чем больше площадь под ЯОС-кривой, тем выше качество классификатора, для которого она построена. С помощью ЯОС-кривых можно визуально оценить качество классификатора.
SensHMTf
Рис. 1 - Пример ROC-кривой, соответствующей Байесовскому классификатору
Построение ROC-кривой производится в программных пакетах, таких, как R, SPSS и др. [7]. В результате этого исследователь лишен понимания механизма влияния параметров классификатора на ROC-кривую. Поэтому для подбора параметров классификатора и определения необходимого для достижения приемлемых результатов классификации объема обучающей выборки, ROC-кривые, на наш взгляд, не являются оптимальным решением.
В этой связи построим метод, позволяющий осуществлять подбор параметров классификатора на основании на корреляционной связи между количеством верных предсказаний скорингового алгоритма и общим числом испытаний,.
Рассмотрим признаки: Х={рекомендация скоринг-теста} с возможными значениями «Х+» и «Х-» соответственно при положительной и отрицательной рекомендации по выдаче кредита; признак Y= {реальный исход кредитной истории} с возможными значениями «Y+» и «Y-» соответственно при положительной и отрицательной ситуации погашения задолженности заемщиком.
Таким образом, исходные результаты для анализа надежности скоринг-теста можно представить в виде следующей таблицы:
Таблица 2 - Результаты анализа обучающей выборки
X\Y Y+ Y-
X+ a b
X- c d
Здесь э+Ь+о+с1=п - объем обучающей выборки, а, б - количество верно проклассифицированных объектов, Ь, о -количество ложно проклассифицированных объектов.
Для анализа корреляционной связи между дихотомическими признаками используются коэффициенты контингенции и ассоциации.
Коэффициент контингенции вычисляется по формуле:
эб - Ьо
кк = I =. (1)
у1(э + Ь)(Ь + б)(э + о)(о + б) v '
Коэффициент ассоциации вычисляется по формуле:
ka =
ad - bc
(2)
эб + Ьс
Пусть к- выборочное, а К- генеральное значение коэффициента ассоциации или контингенции. Статистическая значимость коэффициента к при нулевой (Н0: К=0) и альтернативной (Н1: КФ0) гипотезах проверяется на основе ¿-статистики Стьюден-та с фактическим значением:
Ta,k ka,k
n - 2
1- k2
1 a,k
(3)
Под устойчивостью коэффициентов к соотношению пропорций a, b, c, d будем понимать независимость коэффициента от значений a и d при фиксированной их сумме. Исследуем устойчивость коэффициентов ka,k при изменении параметра a от 0 до 80 и фиксированных значениях n=100, b=c=10, a+d=80.
Из графика зависимостей ka,k и Ta,k от параметра a (рис. 2), видно что:
- при фиксированной сумме a+d изменение соотношения между параметрами a и d приводит к значительным колебаниям коэффициента контин-генции - от -0.1 до 0.6 и коэффициента ассоциации - от -1 до 0.88;
- экспериментальное значение статистики Tk изменяется от 1 до 7.4 и Ta - от - да (при ka=-1) до 18.56.
Для уровня значимости а=0.05 в интервале 5 < a < 75 справедливо неравенство \Tka\>Tcryt=1.99, следовательно, значение генерального коэффициента Kka> 0 и нулевая гипотеза отвергается.
Таким образом, можно сделать вывод, что коэффициенты ассоциации и контингенции являются недостаточно устойчивыми и в реальных задачах затруднительна однозначная их интерпретация и, следовательно, возможны неадекватные выводы об изучаемом явлении.
Рассмотрим коэффициент согласованности, который имеет вид [8, 9]:
ks = a + d , (4)
s a + b + c + d J
и равен доле совпадений показаний признаков X и У.
Для генерального коэффициента согласованности Ks доверительный интервал определяется соотношением:
P(ks -D< Ks < ks + D) = 2F (t) = a, (5)
где предельная ошибка выборки
D = t
ks (1- ks)
(6)
Здесь к3 - выборочный коэффициент согласованности, а - доверительная вероятность, Ф(т) - значение функции Лапласа.
В равенстве (6) аргумент т находится по таблице значений функции Лапласа из условия
Ф(т)= а /2.. (7)
В отличие от коэффициентов контингении и ассоциации, коэффициент согласованности является устойчивым к изменению пропорций параметров э и б. Действительно, нетрудно видеть, что выраже-
ние 1=к5(1-к5) определяет график квадратичной параболы с максимальным значением 2=0,25 при к5=0,5 и, следовательно, из равенства (6) получается оценка
п < т2/ 4А2 (8)
для необходимого объема выборки п, которое обеспечивает доверительный интервал (5) для генерального коэффициента согласованности К5 при заданных доверительной вероятности а и точности А.
Рис. 2 - Зависимость коэффициента ka,k и статистик T a,k от параметра a
Параметры a, b, c, d связаны с C через алгоритм классификации. Максимизация коэффициента согласованности дает условие для подбора оптимального параметра С. Таким образом, задача отыскания оптимального параметра С имеет вид: ks s s® max;
S (9)
Cmin J C J Cmax"
Параметр С может быть определен с помощью компьютерного эксперимента, заключающегося в отыскании значений a, b, c, d и расчете коэффициента согласованности при различных С из интервала (Cmin, Cmax). За оптимальное принимается то значение параметра С, при котором коэффициент согласованности достигает своего максимального значения.
Выводы
По сравнению с существующими методами анализа надежности скоринговых тестов, метод, основанный на применении коэффициента согласованности в качестве доли (процента) совпадений рекомендаций скорингового алгоритма с фактическим результатом погашения кредита, является универсальным и математически обоснованным мето-
n
дом исследования надежности скоринговых алгоритмов. Данный метод обладает рядом существенных преимуществ:
1) простотой вычисления и наглядностью интерпретации надежности к3 в качестве доли (процента) совпадений показаний признаков X и X;
2) устойчивостью при изменении пропорций между параметрами э и сС при постоянстве суммы э+б;
3) наличием доверительного интервала (5) для оценки надежности К на генеральной совокупности и, следовательно, его оценки с необходимыми значениями доверительной вероятности а и точности Л.
4) возможностью однозначного численного сравнения надежности различных скоринговых алгоритмов.
Литература
1. Э. Мэйз. Руководство по кредитному скорингу. Бан-ксис, Москва, 2008. 464 с.
2. А.А. Строев. Расчеты и операционная работа в коммерческом банке. № 6. 28-33. (2004)
3. В.В. Карасев. Риск-менеджмент в кредитной организации, методический журнал. 10. 2. 97-108. (2013).
4. J. Kruppaa, A. Schwarzb, G. Arminger, A. Ziegler Expert Systems with Applications. 40. 5125-5131. (2013).
5. Tom Fawcett. HP Laboratories (2004)
6. С.И. Пшеничный. // Экономические науки. 2010. № 63, С. 306-310.
7. К. В. Воронцов, А.С. Инякин, А. В. Лисица. // Тр. Все-росс. конф. ММРО-13. «МАКС Пресс», Москва, 2007. С. 577-581.
8. Е. В. Стребков В сб. Исследования по прикладной математике. Вып.21. Унипресс, Казань, 1999. С. 228.
9. Стребков Е.В. В сб. материалов международ. научно-практ. конфер. Логистическая интеграция российских регионов: Институциональные инновации. Изд-во «Бриг», Казань, 2012. С. 255 -257.
© Е. В. Стребков - - к.ф.-м.н., доц. каф. мат. статистики КФУ; В. С. Желтухин - д.ф.-м.н., г.н.с. каф. ПНТВМ КНИТУ, [email protected]; И. А. Бородаев - экономист АКБ «Спурт» (ОАО), студ. КФУ.