Оценка эффективности бинарных классификаторов на основе логистической регрессии методом ROC-анализа

Богданов Л.Ю.

Л.Ю. Богданов

ОЦЕНКА ЭФФЕКТИВНОСТИ БИНАРНЫХ КЛАССИФИКАТОРОВ НА ОСНОВЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ МЕТОДОМ ROC-АНАЛИЗА

Рассматриваются логистические регрессионные модели и их применение в качестве бинарных классификаторов. Предлагается методика оценки предсказательной способности таких классификаторов с помощью аппарата ROC-анализа. Приведены результаты практического использования методики. Показаны пути дальнейшего улучшения представленного метода.

Логистическая регрессия, ROC-анализ, ROC-кривые,

предсказательная способность, точка отсечения

L.Y. Bogdanov THE EVALUATION OF PERFORMANCE OF BINARY CLASSIFIERS BASED ON LOGISTIC REGRESSION USING ROC ANALYSIS

Logistic regression models and their usage as binary classifiers are considered. A technique of performance evaluation of derived classifiers utilizing ROC analysis is proposed. The results of practical use of the technique are given. The ways of further improvement of the technique are mentioned.

Logistic regression, ROC analysis, ROC curves, classifier performance, cutoff value

Регрессионный анализ является одним из основных статистических инструментов, который позволяет определить наличие и характер связи между зависимой переменной (откликом, выходом) и независимыми переменными (факторами, предикторами, входами), предсказывать значения отклика с помощью значений предикторов, вычислить вклад входов в вариацию выхода [2]. Классический регрессионный анализ, основанный на методе наименьших квадратов, требует выполнения слишком многих условий, что иногда ограничивает его применение на практике.

Логистическая регрессия во многом является естественным дополнением классической линейной регрессии. Ее применяют, когда имеется подчиняющаяся биномиальному закону распределения бинарная (дихотомическая) зависимая переменная, например, наличие или отсутствие симптома (заболевания) у пациента, и набор независимых переменных, измеряемых в смешанных шкалах. Поскольку отклик бинарен, то допущения, лежащие в основе линейной регрессии, не выполняются. Более того, нельзя интерпретировать предсказанные значения, которые не равны нулю или единице. Вместо этого прогнозируют вероятность P того, что входная переменная должна быть отнесена к определенному классу. В последние годы модели прогнозирования значений зависимой переменной на основе множественной логистической регрессии получают все большее распространение в различных областях: медицине, финансовой сфере, маркетинге, социологии, управлении и принятии решений и других [1].

Рассмотрим совокупность p независимых переменных, обозначенных вектором x' = (x,,x2,...,xp) и измеряемых, как минимум, в интервальной шкале, Y - бинарная зависимая переменная. Обозначим условную вероятность того, что Y примет значение, равное единице, как P(Y = 11 x) = p(x). Логистическое (логит) преобразование модели множественной логистической регрессии определяется выражением

p(x)

g(x)=ln

1 -p(x) _

а модель логистической регрессии выглядит как

p(x)

= ß0 + ßlxi + ß2x2 + ••• + ßpxp 5

g ( x )

(1)

(2)

1 + eg (x)

Важность преобразования g(x) заключается в том, что ему присущ ряд привлекательных свойств линейной регрессионной модели: g (x) линейно по параметрам, является непрерывным и принимает значения на интервале (-¥+ ¥).

В соответствии с определением вероятности для величины p(x) должно выполняться неравенство 0 < p(x) < 1. Свойства логистической функции (2), график которой приведен на рис. 1, обеспечивают выполнение этого неравенства: при любых значениях аргумента величина функции принадлежит отрезку [0; 1].

Для оценки параметров логистической регрессии используется метод максимума правдоподобия, который заключается в максимизации вероятности появления конкретной выборки при заданных наблюдаемых значениях.

Если определить, какие регрессоры и как влияют на отклик, то уравнение логистической регрессии можно применять для оценки вероятности того, что событие Y наступит для конкретного испытуемого [5].

риа 1. График функции р(х) Логистическая регрессия на выходе

обеспечивает вероятность отнесения входной переменной к некоторому классу. На практике удобнее применять бинарные классификаторы (диагностические тесты). Для преобразования логистической регрессии в такой классификатор необходимо задаться пороговым значением (точкой отсечения, cutoff value) y0 таким образом, что если значение y регрессионного уравнения при заданных величинах параметров Р и входов x

удовлетворяет неравенству y ^ y0, то входной объект относят к одному классу (например, «здоров»), если y < y0 - к другому (к классу «болен»). Варьируя значение точки отсечения y0, каждый раз будем получать новый бинарный классификатор. Отсюда возникает необходимость выбора из множества полученных тестов наиболее эффективного, обладающего наилучшей предсказательной способностью. Для решения этой задачи предлагается использовать аппарат ROC-анализа, который широко применяется для визуализации, упорядочивания и отбора классификаторов на основании их эффективности.

Длительно время ROC-кривые применялись в теории обработки сигналов и радиолокации для описания соотношений между событиями верного обнаружения сигнала (цели) и ложными срабатываниями. Затем их стали широко использовать в теории принятия решений, медицинской диагностике, кредитном скоринге.

Произвольный бинарный классификатор соотносит объект на входе одному из двух классов: «0» или «1», «положительный» или «отрицательный», «болен» или «здоров» и т.д. Таким образом, существует четыре возможных исхода: если «положительный» объект классифицирован как «положительный», то такой исход называется истинно-положительным (true positive, TP), если как «отрицательный» - ложно-отрицательным (false negative, FN). Если «отрицательный» объект отнесен тестом к «отрицательному» классу, такой исход зовется

истинно-отрицательным (true negative, TN), если к «положительному» - ложно-положительным (false positive, FP).

В результате применения диагностического теста к некоторому множеству входных объектов с известными принадлежностями к классам получим следующую матрицу неточностей (таблицу сопряженности) [4].

По данным таблицы рассчитываются операционные характеристики классификатора - чувствительность Se и специфичность Sp:

TP TN

Se =---------, Sp =--------. (3)

TP + FN TN + FP w

Вычислив эти величины, можно представить результаты применения классификатора в двумерном ROC-пространстве, где по оси ординат откладываются значения Se, а по оси абсцисс - значения (1 - Sp).

Матрица неточностей

Предсказанный класс Истинный класс

Р n

Y TP FP

N FN TN

Итого P N

Таким образом, тест с фиксированными операционными характеристиками (3) представляется точкой в ЯОС-пространстве, которое обеспечивает наглядное графическое представление о диагностической ценности классификаторов и позволяет сравнивать их по эффективности.

Рис. 2. Бинарные классификаторы в ROC-пространстве

Идеальный тест (точка D на рис. 2) располагается в точке с координатами (0, 1). Такой

классификатор всегда принимает истинно-положительный результат без ошибок ложной тревоги (например, относит всех больных к классу больных, не причисляя к ним здоровых). Отсюда следует, что диагностически ценные тесты находятся в левом верхнем углу ROC-пространства. Классификаторы,

«расположенные» в левом нижнем углу ROC-пространства,

«консервативны», т.к. при малом проценте ошибок ложной тревоги имеют низкую чувствительность.

Классификаторы, «расположенные» в правом верхнем углу, «либеральны», т.к. при больших значениях истинноположительных результатов дают также большой процент ошибок ложной тревоги.

Тесты, «расположенные» на диагонали Se = (1 - Sp) ROC-пространства (точка C на рис. 2), не дают дополнительную диагностическую информацию о классах, а потому бесполезны. Такие классификаторы эквивалентны классификаторам, использующим стратегию «случайного угадывания» классов. Тесты, «расположенные» ниже диагонали (например, точка E на рис. 2), еще хуже тех, что используют стратегию случайного угадывания. Однако такой тест легко «переводится» в точку, симметричную относительно диагонали и лежащую в левом верхнем углу, заменой стратегии принятия решений на противоположную [3].

В случае логистической регрессии каждому выбранному значению точки отсечения у0 будет соответствовать диагностический тест с присущими ему величинами чувствительности и специфичности. Изменяя величину порогового значения с некоторым шагом и откладывая в ROC-пространстве точки, получим ROC-кривую. ROC-кривая, построенная для непрерывного классификатора, показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.

Для сравнения эффективности различных классификаторов часто удобно применять некоторую интегральную характеристику, в качестве которой часто используют площадь AUC (Area Under Curve), вычисленную под ROC-кривой.

Таким образом, для нахождения оптимального значения точки отсечения у0 при преобразовании классификатора на основе логит-регрессии в диагностический тест можно использовать ROC-анализ. Оптимальное значение у0 зависит от предъявляемых к классификатору требований, т.е. от выбранного критерия оптимальности. Например, оптимальной можно считать точку на ROC-кривой, которая имеет наибольшее значение чувствительности при наименьшем значении доли ложноположительных результатов. Эта точка может быть найдена с помощью индекса Йодена (J - Youden index) как максимальное отличие ординат ROC-кривой и диагонали:

J = max(Se + Sp - 1). (4)

Пример. С помощью логистической регрессии и ROC-анализа решается задача сравнения возможности госпитализации группы больных хронической сердечной недостаточностью (ХСН) в лонгитудинальных исследованиях, проводимых над больными в

Рис. 3. Графики РОС-кривых: А - РОС-кривая для госпитализации через 1 год от начала наблюдений; В - РОС-кривая для госпитализации через 2 года

течение трех лет через определенные интервалы времени. В первом периоде наблюдаются 174 пациента, число которых с каждым периодом уменьшается из-за цензурирования по различным причинам.

Исследуемая выборка содержит 29 комплектных наблюдения со следующими признаками (при поступлении): число сердечных сокращений ЧСС; систолическое артериальное давление САД; фракция выброса ФВ; С-реактивный белок СРБ; пол -мужчины.

Уравнение логистической регрессии имеет вид

е8 (х)

Госпитализация =--------— (5)

1 + е8(х) ’

где 8(х) = -19,48 - 0,16 • ЧСС + 0,13 • САД + 0,30 • ФВ + 0,15 • СРБ + 2,80 • Пол (мужчины) .

Выявлено, что все регрессоры значимо влияют на необходимость госпитализации на уровнер < 0,15.

На рис. 3 представлены графики ЯОС-кривых для госпитализации через год (кривая А) и через два года (кривая В) от начала наблюдений, а также график диагностического теста, не содержащего дополнительной информации о разбиении на классы (кривая С). Значение точки отсечения для кривой А вычислено по формуле (4) и составляет 0,4. При «наивном» подходе, это значение, вероятнее всего, выбрано равным

0,5. Сравнение площадей под кривыми (ЛиСЛ = 9091 кв. ед., ЛиСв = 7917 кв. ед.) позволяет сделать вывод о том, что ранняя госпитализация благоприятнее для больного.

Терапевтическое воздействие на указанные параметры пациента (ЧСС, САД, ФВ, СРБ) дает возможность предотвратить ухудшение течения ХСН и уменьшить экономические затраты по числу госпитализаций таких пациентов.

При использовании ЯОС-кривых для оценивания классификаторов следует быть осторожным, делая выводы о предпочтительности определенного теста. Часто решение принимается на основе КОС-кривых, построенных по единственному множеству входных объектов, что является ошибочным. Для сравнения классификаторов по значениям их эффективности необходима мера вариабельности. Усреднение ЯОС-кривых является простой задачей в случае, когда доступно исходное множество примеров. Пусть имеются тестовые множества Г1, 72,..., Т„, полученные при кросс-валидации или бутстреп-методом, которые объединяются в одно тестовое множество Тт сортировкой слиянием по значениям, получаемым на выходе классификатора для каждого входного объекта. Для полученного множества Тт затем строится ЯОС-кривая. Однако такое простое слияние не решает задачу получения меры вариабельности. Необходимы более мощные методы усреднения нескольких КОС-кривых, построенных для одного диагностического теста, но на разных множествах входных объектов.

ЯОС-пространство является двумерным, а любое усреднение производится по одному измерению. Можно спроецировать ЯОС-кривые на одно измерение и определенным образом усреднить. Возникает вопрос о допустимости такого проецирования, сохранении интересующих характеристик. Ответ зависит от предпосылок усреднения. Перспективными способами усреднения КОС-кривых являются усреднение по значениям чувствительности при фиксированных значениях специфичности, а также - по значениям точек отсечения. Данные подходы требуют дальнейшего исследования свойств и разработки алгоритмов реализации [4].

Таким образом, классификаторы на основе логистической регрессии могут использоваться для прогнозирования событий в тех случаях, когда существуют два варианта их развития. Эти классификаторы являются вероятностными, однако на практике удобнее применять диагностические тесты, непосредственно определяющие принадлежность некоторого входного объекта к одному из двух классов. Чтобы преобразовать уравнение логистической регрессии в диагностический тест, необходимо задаться пороговым значением. Аппарат ЯОС-анализа позволяет выбрать оптимальное

пороговое значение и оценить предсказательную способность получаемого классификатора.

ЛИТЕРАТУРА

1. Каримов Р.Н. Статистика для врачей, биологов и не только... : монография : в 2 ч. / Р.Н. Каримов, Ю.Г. Шварц. Саратов: Сарат. гос. мед. ун-т, 2007, 2010. Ч.1. 200 с. Ч.2. 204 с.

2. Себер Дж. Линейный регрессионный анализ / Дж. Себер. М.: Мир, 1980. 456 с.

3. Файнзильберг Л.С. Гарантированная оценка эффективности диагностических тестов на основе усиленного ROC-анализа / Л.С. Файнзильберг, Т.Н. Жук // Управляющие системы и машины. 2009. № 5. С. 3-13.

4. Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers / T. Fawcett. Kluwer Acad. Publ., 2004. 38 с.

5. Hosmer D.W. Applied Logistic Regression, 2nd ed. / D.W. Hosmer, S. Lemeshow. N.-Y.: Wiley, 2000. 375 с.

Богданов Леонид Юрьевич -

аспирант кафедры «Прикладные информационные технологии» Саратовского

государственного технического университета

Статья поступила в редакцию 04.10.10, принята к опубликованию 20.10.10

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богданов Л. Ю.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Богданов Л. Ю.

THE EVALUATION OF PERFORMANCE OF BINARY CLASSIFIERS BASED ON LOGISTIC REGRESSION USING ROC ANALYSIS

Текст научной работы на тему «Оценка эффективности бинарных классификаторов на основе логистической регрессии методом ROC-анализа»