Научная статья на тему 'Об одном алгоритме классификации с использованием коллективов непараметрических моделей'

Об одном алгоритме классификации с использованием коллективов непараметрических моделей Текст научной статьи по специальности «Математика»

CC BY
127
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / КОЛЛЕКТИВЫ РЕШАЮЩИХ ПРАВИЛ / ОЦЕНКА К БЛИЖАЙШИХ СОСЕДЕЙ / CLASSIFICATION / ENSEMBLE OF DECISION RULES / K-NEAREST NEIGHBORS

Аннотация научной статьи по математике, автор научной работы — Агафонов Евгений Дмитриевич, Мангалова Екатерина Сергеевна

Обсуждается проблема построения непараметрического классификатора. Рассматривается подход к построению модели решающего правила в случае большой размерности вектора признаков и больших объемов выборки. Предлагается алгоритм коллективной оценки к ближайших соседей, позволяющий существенно сократить число требуемых вычислительных операций. Работа алгоритма демонстрируется на прикладной задаче.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A CLASSIFICATION ALGORITHM BASED ON ENSEMBLES OF NONPARAMETRIC MODELS

The paper deals with a classification strategy which utilises nonparametric modeling of a decision rule in a case of large feature vector length and large sample volume. An algorithm of collective assessment of k-nearest neighbors is proposed, which significantly reduces the computational cost. The work of algorithm is demonstrated on one application problem.

Текст научной работы на тему «Об одном алгоритме классификации с использованием коллективов непараметрических моделей»

УДК 519.6

Е. Д. Агафонов, Е. С. Мангалова

ОБ ОДНОМ АЛГОРИТМЕ КЛАССИФИКАЦИИ С ИСПОЛЬЗОВАНИЕМ КОЛЛЕКТИВОВ

НЕПАРАМЕТРИЧЕСКИХ МОДЕЛЕЙ

Обсуждается проблема построения непараметрического классификатора. Рассматривается подход к построению модели решающего правила в случае большой размерности вектора признаков и больших объемов выборки. Предлагается алгоритм коллективной оценки к ближайших соседей, позволяющий существенно сократить число требуемых вычислительных операций. Работа алгоритма демонстрируется на прикладной задаче.

Ключевые слова: классификация, коллективы решающих правил, оценка к ближайших соседей.

В современных теории и практике компьютерного анализа данных классификация занимает важное место. В настоящее время существует множество подходов к решению задачи классификации в случае, когда исследователю доступна случайная выборка измерений классифиционных признаков с указаниями учителя [1; 2]. Многие из этих подходов основаны на использовании байесовой процедуры принятия решения, когда решающее правило можно формировать в классе непараметрических регрессионных моделей. Однако высокая вычислительная сложность при реализации соответствующих алгоритмов затрудняет использование указанного подхода для случаев, когда размерность вектора признаков и объем обучающей выборки достаточно велики. Авторами предложен алгоритм классификации с использованием метода к ближайших соседей, предполагающий декомпозицию задачи с использованием коллективов решающих правил и упорядочиванием выборки.

Рассмотрим алгоритм построения непараметрического классификатора на примере двуальтернативной задачи распознавания образов.

Пусть Хх, уг-), I = 1, п - обучающая выборка, где

X = X хё, ё = 1, Б|, I = 1, п - значения признаков классифицируемых объектов (среди признаков есть как непрерывные, так и дискретные); у - указания учителя об их принадлежности к одному из двух классов:

yi =

1, xi є Q1, -1, xi є Q2;

(xf, y), i = 1, m - экзаменующая выборка. Условные

плотности вероятности распределения значений признаков x для обоих классов неизвестны.

Решающее правило имеет вид

Гx eQ f ( xi С,

{xi f (xi )< С,

где С - порог отсечения, С е [-1, 1]; fx) - решающая функция, f (x) е [-1, 1]. В качестве оценки решающей

функции /(x) будем использовать непараметрическую статистику [3]:

/(x) =

ї Уі Пф

i=1 d=1

ЇПф

i =1 d=1

(1)

где Ф - ядерная функция; сп - параметры размытости, удовлетворяющие следующим свойствам:

сп > 0; Иш сп = 0; Иш п Хсп= да.

п^ад п^ад

Введем следующие обозначения:

- ТР(С) - верно классифицированные положительные примеры, принадлежащие первому классу;

- ТЫ(С) - верно классифицированные отрицательные примеры, принадлежащие второму классу;

- ЕЫ(С) - положительные примеры, классифицированные как отрицательные (ошибка I рода);

- ЕР(С) - отрицательные примеры, классифицированные как положительные (ошибка II рода);

- ТРК(С) - доля истинно положительных примеров:

ТРЯ(С) =------------ТРС-;

ТР(С) + ЕЫ (С)

- ЕРК(С) - доля ложно положительных примеров:

ЕР(С)

FPR(C) =

TN (C) + FP(C)'

Зависимость TPR(C) от FPR(C) образуют кривую ROC (рис. 1).

Рис. 1. Кривая ROC

Оптимизация по параметрам размытости cn происходит в режиме holdout [4] из условия максимума AUC- площади под кривой ROC [5].

Построение решающей функции (1) для неусеченного ядра Ф во всех точках экзаменующей выборки потребует O(nm) вычислительных операций. При использовании усеченных ядер время вычисления сокращается, так как локальное усреднение производится только в окрестности каждой точки экзаменующей выборки.

Однако если учесть, что для оптимизации параметров размытости cn необходимо повторять процедуру оценивания решающей функции (1) несколько раз, то применение этой функции для выборок большого объема потребует значительного количества вычислительных ресурсов [6]. Сократить количество вычислительных операций для построения оценки регрессии возможно за счет применения линейных непараметрических коллективов решающих правил, смысл которых состоит в декомпозиции исходной задачи, построении семейства локальных решающих функций и последующей их организации в едином линейном решающем правиле [1].

Для построения локальных (частных) решающих функций предлагается формировать наборы признаков X(j), j = 1,N из исходных X = (х1,х2,..., xD j ,

причем каждый набор признаков x( j) должен содержать только один непрерывный признак и произвольное число дискретных. Семейство частных решающих функций fj (х(j)) (j = 1, N) строится на основании

обучающих выборок V] = (X (j X У г, г = 1 n) j = 1, N .

Процедуру построения частной модели можно условно разбить на два этапа: упорядочивание выборки Vj и оценку к ближайших соседей.

Зададим процедуру упорядочивания выборки. Пусть сформирован набор признаков

,х1 1 - дискретные

x( j) = ( Xі, x2,..., Xі ) ,

І 2 где x , x ,

признаки; х - непрерывный признак, I < В. На первом шаге производится упорядочивание выборки Vj

по х1, далее - упорядочивание подвыборок с одина-

1 2

ковыми значениями признаков х по х и так до непрерывного признака х1 включительно.

К упорядоченному массиву наблюдений можно применить оценку к ближайших соседей:

v+k

i=v-k i^v

Уі

v+k

Ik Ф

i=v-k i^v

f xl - xl Л

(2)

где V - индекс точки экзаменующей выборки в упорядоченной выборке V/, схп - максимальное расстояние от х1 до х1 такое, что |/ - V ^ к. Таким образом, независимо от числа признаков, включенных в частную

модель, оптимизация критерия ЛПС производится по одному параметру - числу ближайших соседей к.

Предлагаемый алгоритм работает следующим образом (рис. 2). Для построения оценки в точке ц достаточно ближайших соседей, для которых значения

признака х1 1 равны 1. Объем подвыборки, значения признака х1 1 элементов которой равны 3, меньше 2к, и при построении оценки в точке /2 происходит включение в оценку элементов соседней подвыборки.

Рис. 2. Работа алгоритма коллективной оценки к ближайших соседей для упорядоченной выборки

Для построения одной частной решающей функции во всех точках экзаменующей выборки требуется О(кт) вычислительных операций.

Интеграция частных решающих функций

У] (х (])) (] = 1, N) в линейном коллективе решающих

правил /(х) [1] осуществляется в соответствии

с процедурой

Дx) = I wjfj(x( j)),

j=1

где Wj (j = 1, N) - положительные веса, для которых справедливо равенство

N

Z w] =1.

j=1

В силу того что веса Wj оптимизируются после построения частных решающих функций fj (X(j)) (j = 1, N), перестроения моделей с целью

оптимизации не требуется.

Таким образом, сокращение количества вычислительных операций достигается как за счет сокращения количества одновременно настраиваемых параметров, так и за счет экономии вычислительных ресурсов при построении решающих функций.

Численные исследования алгоритма проводились на данных Give Me Some Credit [7], содержащих информацию о кредитной истории 150 000 клиентов банка. Требовалось синтезировать решающее правило, позволяющее отнести клиента к одному из двух классов: заемщикам с наличием или отсутствием

выплат, просроченных на срок более 90 дней за 2 следующих года.

Непрерывные признаки: х1 - общий баланс по кредитным картам, деленный на сумму кредитного лимита; х2 - возраст заемщика; х3 - ежемесячные выплаты долгов, алиментов, расходы на проживание, деленные на ежемесячный доход; х4 - ежемесячный доход.

Дискретные признаки: х5 - количество просроченных выплат на срок от 30 до 59 дней за 2 предыдущих года (7 различных значений для 99,756 % наблюдений, 0,179 % наблюдений - пропуски данных); х6 -количество открытых кредитов (кредиты на покупку автомобиля и ипотека) и кредитных карт (27 значений для 99,4 % наблюдений); х7 - количество просроченных выплат на срок более 90 дней за 2 предыдущих года (7 значений для 99,752 % наблюдений, 0,179 % наблюдений - пропуски данных); х8 - количество ипотечных займов (8 значений для 99,799 % наблюдений); х9 - количество просроченных выплат на срок от 60 до 89 дней за 2 предыдущих года; х10 - число иждивенцев (8 значений для 97,36 % наблюдений, 2,616 % наблюдений - пропуски данных).

По признакам х5, х6, х7, х8, х9, х10 можно производить последовательные сортировки, а по переменным х1, х2, х3, х4 - вычислять оценку к ближайших соседей. В качестве ядерной функции выбрано треугольное ядро [6].

Наборы признаков формировались последовательным добавлением дискретных признаков х5, х6, х7, х8, х9, х10 к непрерывным признакам х1, х2, х3, х4. Значения АиС для частных решающих функций (2), построенных по выборкам Vj со всевозможными наборами из одного и двух признаков, приведены в табл. 1, с наборами из двух и трех признаков - в табл. 2.

Учет признака х6 при построении частной решающей функции по непрерывному признаку х1 и признака х10 при построении частной решающей функции по непрерывному признаку х2 привел к уменьшению критерия качества (см. значения, выделенные курсивом в табл. 1).

В результате была получена убывающая по АиС последовательность наборов признаков. Наибольшему значению АиС соответствует набор признаков (х7, х9, х5, х8, х1), АиС = 0,851 9.

Таблица 1

Значения АиС для частных моделей, построенных с использованием одного или двух признаков

х1 0,782 8 0,819 7 0,779 0 0,818 1 0,785 2 0,810 2 0,786 5

х2 0,633 2 0,754 0 0,652 4 0,733 5 0,651 1 0,713 1 0,632 9

х3 0,578 6 0,723 0 0,638 7 0,715 1 0,641 6 0,677 4 0,587 1

х4 0,580 4 0,723 1 0,605 8 0,695 4 0,605 4 0,672 0 0,595 1

Признак - х5 х6 х7 х8 х9 х10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 2

Значения АиС для частных моделей, построенных с использованием двух или трех признаков

х1 0,819 7 0,816 5 0,841 6 0,827 2 0,836 9 0,821 4

х2 0,754 0 0,769 7 0,798 3 0,761 3 0,779 7 0,753 0

х3 0,723 0 0,759 6 0,786 1 0,752 5 0,760 6 0,726 6

х4 0,723 1 0,747 7 0,774 4 0,739 6 0,755 8 0,730 3

Признак х5 х5 х6 х5 х7 х5 х8 х5 х х5 х10

х1 0,816 6 0,779 0 0,817 3 0,784 5 0,809 6 0,775 4

х2 0,764 7 0,652 4 0,737 3 0,656 7 0,719 4 0,646 8

х3 0,751 8 0,638 7 0,725 8 0,660 7 0,707 1 0,632 6

х4 0,741 5 0,605 8 0,705 2 0,610 8 0,688 6 0,615 3

Признак х6 х5 х6 х6 х7 6 8 х х 6 9 х х х6 х10

х1 0,842 1 0,820 1 0,818 1 0,822 2 0,834 6 0,816 9

х2 0,797 1 0,744 5 0,733 5 0,741 8 0,766 5 0,733 4

х3 0,784 1 0,736 6 0,715 1 0,745 7 0,752 8 0,718 4

х4 0,777 0 0,713 5 0,695 4 0,7144 0,7377 0,705 6

Признак х7 х5 х7 х6 х7 7 8 х х 7 9 х х х7 х10

х1 0,821 3 0,775 2 0,823 2 0,785 2 0,815 6 0,788 2

х2 0,759 8 0,657 9 0,740 5 0,651 1 0,723 3 0,651 9

х3 0,750 3 0,662 4 0,743 1 0,641 6 0,716 9 0,647 6

х4 0,738 5 0,611 2 0,711 4 0,605 4 0,690 2 0,617 1

Признак х8 х5 х со х х8 х7 х8 х8 / 0 8х

Окончание табл. 2

x1 0,832 2 0,807 3 0,831 7 0,813 3 0,810 2 0,808 0

x2 0,779 8 0,727 9 0,766 4 0,724 3 0,713 1 0,712 6

x3 0,760 9 0,716 6 0,753 7 0,719 4 0,677 4 0,680 7

x4 0,756 0 0,694 4 0,732 4 0,694 2 0,672 0 0,684 6

Признак x9 x5 9 6 x x 9 7 x x 9 8 x x x9 x9 x10

x1 0,816 2 0,770 0 0,815 5 0,780 4 0,806 6 0,786 5

x2 0,751 8 0,646 8 0,731 6 0,651 0 0,711 9 0,632 9

x3 0,725 6 0,631 0 0,713 9 0,646 8 0,680 6 0,585 7

x4 0,728 5 0,615 3 0,703 4 0,617 0 0,682 5 0,585 1

Признак x10 x5 x10 x6 x10 x7 x10 x8 x10 x9 x10

На основе анализа результатов построения частных моделей с различными наборами признаков были сделаны выводы о степени влияния каждого признака на отклик относительно других, т. е. было проведено ранжирование непрерывных и дискретных признаков:

12 3 4

X > X > X > X ,

X5 и X7 и X9 > X8 > X6 > X10,

где а > Ь означает, что влияние признака а выше влияния признака Ь; а ~ Ь - однозначное сравнение влияния не может быть произведено.

Объединение частных моделей в линейный коллектив позволяет повысить качество модели: при объединении 5 частных моделей ЛПС = 0,861 1, при объединении 13 частных моделей ЛПС = 0,864 1, дальнейшее же увеличение коллектива к существенному увеличению ЛПС не приводит. Объединение проводилось последовательным добавлением случайно выбранной частной модели к коллективу. В случае отсутствия улучшения качества модели добавленная частная модель удалялась. За первоначальный коллектив была взята частная модель, построенная по набору признаков (X7, X9, X5, X8, X1) и оптимальная в смысле ЛПС. Для решения задачи выбора оптимального набора признаков потребовалось построить 42 частные модели: 4 - для выбора непрерывного признака, 6 - для выбора первого дискретного признака, 5 - для выбора второго дискретного признака, 4 - для выбора третьего дискретного признака, 3 - для выбора четвертого дискретного признака и 24 = 4! для определения порядка дискретных признаков.

Предлагаемый алгоритм сравнивался с алгоритмами, вычислительные затраты которых также линейно зависят от объема выборки и количества элементов в коллективе:

- бинарное дерево регрессии [2] (89 вершин) -AUC = 0,852 4;

- алгоритм Random Forest [8] (500 деревьев) -AUC = 0,864 2.

При равных показателях критерия AUC предлагаемый алгоритм требует меньшее количество вычислительных ресурсов.

Библиографические ссылки

1. Лапко А. В., Лапко В. А. Непараметрические системы обработки неоднородной информации. Новосибирск : Наука, 2007.

2. Classification and Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone. Monterey, Calif. : Wadsworth & Brooks/Cole Advanced Books & Software, 1984.

3. Nadaraya E. A. Nonparametric Estimation of Probability Densities and Regression Curves. Mathematics and its Applications. Dordrecht : Kluwer Academic Publishers Group, 1989/ (Sov. Ser. 20).

4. Kohavi R. A. Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection // Proc. of Intern. Joint Conf. on Artificial Intelligence. Montreal, Quebec, 1995. Р. 1137-1145.

5. Fawcett T. ROC Graphs: Notes and Practical Considerations for Researchers. Dordrecht : Kluwer Academic Publ., 2004.

6. Хардле В. Прикладная непараметрическая регрессия. М. : Мир, 1993.

7. Data Mining Competition: Give Me Some Credit [Electronic resource]. URL: www.kaggle.com/c/Cive-MeSomeCredit (date of visit: 1.04.2012).

8. Breiman L. Random Forests // Machine Learning. 2001. Vol. 45, № 1. P. 5-32.

E. D. Agafonov, E. S. Mangalova A CLASSIFICATION ALGORITHM BASED ON ENSEMBLES OF NONPARAMETRIC MODELS

The paper deals with a classification strategy which utilises nonparametric modeling of a decision rule in a case of large feature vector length and large sample volume. An algorithm of collective assessment of k-nearest neighbors is proposed, which significantly reduces the computational cost. The work of algorithm is demonstrated on one application problem.

Keywords: classification, ensemble of decision rules, k-nearest neighbors.

© Агафонов Е. Д., Мангалова Е. С., 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.