ЭКОНОМИКА И УПРАВЛЕНИЕ КАЧЕСТВОМ
УДК 004 : 658.516 + 336.71
Ю. С. ШУНИНА, В. А. АЛЕКСЕЕВА, В. Н. КЛЯЧКИН КРИТЕРИИ КАЧЕСТВА РАБОТЫ КЛАССИФИКАТОРОВ
Рассмотрены и проанализированы основные критерии качества работы классификаторов на основе моделей машинного обучения при решении задачи классификации клиентов банка.
Ключевые слова: модели машинного обучения, Accuracy, AUC, чувствительность, специфичность, матрица неточностей, матрица штрафов, ROC-кривая, коэффициент Джини.
Постановка задачи. При решении задачи классификации часто требуется оценить качество разработанных классификаторов с целью сравнения и выявления наилучшего классификатора для дальнейшего применения на новых данных.
В качестве примера рассмотрим классификацию потенциальных заёмщиков банка на классы кредитоспособных и некредитоспособных. Тогда классификатор представляет собой некую функцию, которая по вектору признаков X, характеризующего каждого заёмщика, определяет, какому классу У принадлежит заёмщик: ^: X ^ У .
В зависимости от множества ответов различают задачу бинарной классификации |У| = 2, мультиклассификации |У| = к, восстановление регрессии У = Я и другие.
Обучающая и контрольная выборка. Рассмотрим исходную выборку, которая представляет собой некоторый набор векторов признаков и соответствующую им классовую принадлежность {(X, У1 = 1, ■■■,= п}, где п - объём выборки. Требованием к классификатору является обеспечение качественных предсказаний не только для заёмщиков, входящих в обучающее множество, но и для других заёмщиков. Данная способность классификатора называется обобщающей. Прежде чем приступить к построению классификатора, исходная выборка делится на обучающую (тренировочную) и тестовую (контрольную) выборку. Как правило, после построения классификатора на обучающей выборке возникает необходимость оценки качества полученного классификатора.
© Шунина Ю. С., Алексеева В. А., Клячкин В. Н., 2015
При построении классификатора на обучающей выборке есть опасность подгонки под тренировочные данные. Данный процесс носит также название «переобучение» или «перетренировка» классификатора. Принять решение о качестве классификации на обучающих данных довольно сложно. Более адекватной является оценка качества классификатора на данных тестовой выборки, которая не участвовала в процессе построения классификатора. Для получения несмещённых оценок качества классификаторов можно применить метод 10-кратной перекрёстной проверки [2], заключающийся в разделении исходной выборки на 10 непересекающихся частей, приблизительно равных по объёму. Далее в порядке очереди каждая часть выступает в роли контрольной выборки, а остальные части объединяются в обучающую выборку. Качество классификатора определяется усреднением ошибок по всем контрольным выборкам.
Оценка достоверности классификатора. Работа классификатора может быть охарактеризована его достоверностью, то есть способностью принимать верные решения. Оценку достоверности классификатора, как правило, можно получить экспериментально. Рассмотрим и проанализируем такие критерии качества классификатора, как ошибки первого и второго рода, Accuracy [1], AUC [4], чувствительность и специфичность классификатора [1], матрицу неточностей, матрицу штрафов, ROC-кривые [4] и коэффициент Джини [4].
Ошибка первого рода возникает, когда интересующее нас событие ошибочно не обнаружилось, то есть в нашем примере - это количество кредитоспособных клиентов, классифицированных как некредитоспособные Ngb. По сути, ошибка первого рода характеризует коммерческий риск, связанный с отказом кредитоспособным клиентам:
Коммерческий риск =
N
gb
Ngg + Ngb
где Ngg - количество верно классифицированных кредитоспособных клиентов.
Ошибка второго рода возникает, когда при отсутствии события ошибочно выносится решение о его присутствии, то есть в нашей задаче -это количество некредитоспособных клиентов, классифицированных как кредитоспособные Nbg. Ошибка второго рода характеризует так называемый кредитный риск:
Кредитный риск =
N
bg
Nbb + Nbg
где Nbb - количество верно классифицированных некредитоспособных клиентов.
Показатель Accuracy, определяющий долю верных прогнозов среди всех прогнозов, находится по следующей формуле:
Accuracy =
Ng + Nbb
Ng + Nbb + Nb + Nbg
Соответствующий функционал потерь, показывающий долю ошибочных предсказаний: Error = 1 - Accuracy.
Однако для показателей Accuracy и Error важно, чтобы классы по количеству клиентов были сбалансированными, иначе данный метод может привести к неадекватным результатам. Более того, классификатор с максимальным показателем Accuracy может означать в реальности выдачу кредитов всем желающим, следовательно, данный показатель не является эффективным критерием качества.
Чувствительность R (recall, sensitivity, отзыв) показывает долю верно классифицированных кредитоспособных заёмщиков среди всех заёмщиков, отнесённых решающей функцией к классу кредитоспособных:
R = N"
Ngg + NH
Специфичность S (specificity) показывает долю верно классифицированных некредитоспособных заёмщиков среди всех заёмщиков, отне-
сенных решающей функцией к классу некредитоспособных:
S = -
N,
bb
Ngb + Nbb
Заметим, что отдельное использование таких показателей, как чувствительность и специфичность, в том числе производных показателей, а также ошибок первого и второго рода не является наилучшим критерием эффективности классификатора, поскольку каждый из них преследует свои цели и показывает классификацию клиентов только с одной стороны.
Для наглядности результаты классификации можно представить в виде матрицы неточностей (confusion matrix, таблица классификации), строки которой соответствуют реальным классам клиентов, а столбцы - прогнозным [2]. Таким образом, на диагонали находится общее количество (процент) верно прогнозируемых клиентов, а в остальных ячейках - количество (процент) ошибок первого и второго рода.
Потери в случае выдачи кредита некредитоспособному клиенту и потери в случае отказа кредитоспособному клиенту образуют матрицу штрафов (misclassification costs matrix). Отличие матрицы штрафов от матрицы неточностей заключается в том, что на диагонали находятся нули, то есть за правильно прогнозируемый класс штраф отсутствует, а во всех остальных ячейках проставляется штраф за ошибочно прогнозируемый класс. В случае двух классов кредитоспособности штраф проставляется за ошибки первого и второго рода. При этом штраф может различаться и зависит от цены совершения ошибки. Например, если для кредитора предпочтительнее выявить некредитоспособных клиентов, то за отказ кредитоспособному клиенту можно назначить штраф ценою в 1 единицу, а за выдачу кредита некредитоспособному клиенту -5 единиц.
ROC-кривая (receiver operating characteristic, кривая ошибок) используется для сравнения качества бинарной классификации нескольких классификаторов и показывает зависимость между долей верно классифицированных кредитоспособных клиентов (чувствительности) и долей неверно классифицированных некредитоспособных клиентов (1 - специфичность). Классификатор с высокой чувствительностью максимально предотвращает пропуск некредитоспособных заёмщиков, напротив, классификатор с высокой специфичностью менее тщательно выявляет некредитоспособных клиентов.
Реальные данные Кредитоспособный клиент Некредитоспособный клиент
Кредитоспособный клиент Ngg Ngb
Некредитоспособный клиент Nbg Nbb
Чем выше проходит кривая на графике, тем точнее классификация, независимо от порогового значения.
ЯОС-анализ на основе этой кривой позволяет выбрать оптимальный порог вероятности, который разделяет кредитоспособных и некредитоспособных клиентов для достижения приемлемого уровня чувствительности и специфичности классификатора. При этом может использоваться матрица штрафов:
O =
C N + N
^gb lybb+lygb
Cbg Ngg + Nbg
где Cgb и Cbg - штрафы за ошибки первого и
-bg
второго рода.
Поскольку визуальное сравнение ROC-кривых не всегда позволяет выявить наиболее эффективный классификатор, часто применяют метрику AUC (area under curve), которая представляет собой площадь под ROC-кривой и определяет вероятность того, что классификатор присвоит больший вес случайно выбранному заемщику из класса кредитоспособных, нежели заемщику из класса некредитоспособных.
По значению показателя AUC также можно вычислить другой показатель - индекс Джини, который переводит значение площади под кривой в диапазон от 0 до 1 и находится по формуле
Gini = 2(AUC - 0,5).
Чем выше индекс Джини, тем выше дискриминирующая способность классификатора. Однако вероятностная формулировка показателя AUC не находит адекватной интерпретации с точки зрения решения пользовательских задач и вносит больше неопределённости, чем ясности. Более того, данный показатель не содержит никакой информации по поводу чувствительности и специфичности модели.
В результате краткого обзора основных критериев качества работы классификаторов можно сделать вывод о том, что нет такого показателя, который бы эффективно определял наилучшую модель.
Предлагаемый подход. Рассмотрим выходную информацию классификаторов не в виде класса кредитоспособности, а как вероятность принадлежности к данному классу кредитоспо-
собности Г е[0;1]. Тогда для оценки качества модели можно применить вычисление среднеквадратичной ошибки прогнозирования М8Е:
1 т
ЫБЕ = -X(Г "Г)2,
т г=1
где Уг - фактическая вероятность принадлежности к классу кредитоспособности г'-го клиента (7=0 или 7=1),
Г - прогнозируемая вероятность принадлежности к классу кредитоспособности г-го клиента, т - количество клиентов.
На основе вероятностей принадлежности к классу кредитоспособности задача классификации для двух классов У = {0,1} решается следующим образом: новый клиент является кредитоспособным (у=1), если предсказанная моделью вероятность Рг{у = 1|^} > 0,5, иначе клиент является некредитоспособным (у = 0). Однако при пороговом значении 0,5 возможен перевес в сторону ошибки первого или второго рода. Для определения оптимального порогового значения предлагается найти минимальный разброс между ошибками 1-го и 2-го рода.
В качестве возможных классификаторов рассмотрены следующие модели машинного обучения [3]: нейронная сеть, дискриминантный анализ, наивный байесовский классификатор, метод опорных векторов, деревья решений, логистическая регрессия, а также деревья решений, построенные по методу бэггинг (бэггинг деревьев). Кроме этого, были получены усреднённые прогнозные результаты всех возможных комбинаций классификаторов, состоящих из двух, трёх и т. д. перечисленных выше моделей машинного обучения - агрегированные классификаторы.
Пример расчёта. В качестве исходных данных была использована выборка по немецким заёмщикам, объёмом 1000 клиентов. В табл. 1 представлены результаты работы отдельных классификаторов, а также агрегированного классификатора, наилучшего по значению среднеквадратичной ошибки М8Е. Агрегированный классификатор представляет собой среднее значение следующих моделей: дискриминантный анализ, метод опорных векторов, деревья решений, логистическая регрессия, бэггинг деревьев.
По результатам, представленным в таблице, видно, что агрегированный классификатор имеет наименьшее отклонение от фактических
Таблица 1
Результаты работы классификаторов при пороговом значении 0,5
Классификатор MSE Accuracy, % Коммерч. риск (ош. I р.), % Кредитн. риск, (ош. II р.), % AUC
1. Нейронная сеть 0,1787 72,4 21,1 42,7 0,7407
2. Дискриминантный анализ 0,1727 75,2 14,1 49,7 0,7765
3. Байесовский классификатор 0,1987 72,7 23,1 37 0,7614
4. Метод опорных векторов 0,1654 76.5 10,6 53,7 0,7763
5. Деревья решений 0,2333 72,7 16,4 52,7 0,6937
6. Логистическая регрессия 0,1651 76,2 11,1 53,3 0,7779
7. Бэггинг деревьев 0,1650 75,7 9,9 58 0,7830
8. Наилучший агрегированный классификатор 0,1593 78 9 52,3 0,7932
Таблица 2
Результаты работы классификаторов при оптимальном пороговом значении
Классификатор Порог Accuracy, % Коммерч. риск (ош. I р.), % Кредитн. риск (ош. II р.), %
1. Нейронная сеть 0,5 72,4 21,1 42,7
2. Дискриминантный анализ 0,553 75,2 17,7 41,3
3. Байесовский классификатор 0,5 72,7 23,1 37
4. Метод опорных векторов 0,612 74,8 18 42
5. Деревья решений 0,5560 71,7 20 47,7
6. Логистическая регрессия 0,603 75,5 17,4 41
7. Бэггинг деревьев 0,596 74,4 17,9 43,7
8. Наилучший агрегированный классификатор 0,604 75,6 17,4 40,7
результатов и наибольшую долю правильных прогнозов по сравнению с каждым отдельным классификатором. Более того, классификатор отлично подойдёт для кредиторов, задача которых не упустить кредитоспособных клиентов. Однако это не самый лучший классификатор для тех кредиторов, кто старается максимально предотвратить пропуск некредитоспособных клиентов.
Поскольку наибольший интерес представляет оптимальное пороговое значение, найдём его для каждого классификатора и сравним результаты классификации (табл. 2).
Из таблицы видно, что при оптимальных пороговых значениях по общей доле верных прогнозов и минимальной сумме ошибок 1-го и 2-го рода агрегированный классификатор также превосходит результаты отдельных классификаторов. Следовательно, имеет смысл производить классификацию новых клиентов с помощью агрегированного классификатора с оптимальным пороговым значением, равным 0,604.
СПИСОК ЛИТЕРАТУРЫ
1. Powers D. M. Evaluation: From précision, recall and f-factor to roc, informedness, markedness and correlation. // Technical report, School of In-
formatics and Engineering, Flinders University Adelaide, South Australia. - 2007.
2. Лбов Г. С. Анализ данных и знаний: учебное пособие. - Новосибирск : Издательство НГТУ, 2001. - 90 с.
3. Мерков А. Б. Распознавание образов: введение в методы статистического обучения. -М. : URSS,2010. - 254 с.
4. Сорокин А. С. К вопросу валидации модели логистической регрессии в кредитном скоринге // Интернет-журнал «НАУКОВЕДЕНИЕ». Выпуск 2, март - апрель 2014 г. Режим доступа: http://naukovedenie.ru/ PDF/173EVN214.pdf
Шунина Юлия Сергеевна, аспирант кафедры «Прикладная математика и информатика» УлГТУ.
Алексеева Венера Арифзяновна, кандидат технических наук, доцент кафедры «Прикладная математика и информатика» УлГТУ. Клячкин Владимир Николаевич, доктор технических наук, профессор кафедры «Прикладная математика и информатика» УлГТУ.
Поступила 30.01.2015 г.