Программная реализация алгоритма градиентного бустинга деревьев решений

Дружков Павел Николаевич; Золотых Николай Юрьевич; Половинкин Алексей Николаевич

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 004.852

ПРОГРАММНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА ГРАДИЕНТНОГО БУСТИНГА ДЕРЕВЬЕВ РЕШЕНИЙ

Нижегородский госуниверситет им. Н.И. Лобачевского nikolai.zolotykh@gmail.com

Поступила в редакцию 06.07.2010

Описана программная реализация алгоритма градиентного бустинга деревьев решений. Приводятся результаты вычислительного эксперимента, показавшего конкурентоспособность предлагаемой программной реализации.

Ключевые слова: машинное обучение, бустинг, градиентный бустинг, деревья решений.

Введение

Одной из задач, изучаемых в машинном обучении, является задача обучения с учителем. В рамках этой задачи дано некоторое множество объектов X. Каждому объекту х е X поставлена в соответствие величина у, называемая выходом, или ответом, принадлежащая множеству допустимых ответов Y. Упорядоченная пара «объект-ответ» ^, у), где х е X, у е У, называется прецедентом. Требуется восстановить зависимость между входом и выходом, основываясь на данных о конечном наборе прецедентов, называемом обучающей

выборкой: {(х^,у!) | х^ е X,у^ е У, 1 = 1,И] . Другими словами, задача состоит в построении модели (функции) f, которая, получив на вход x, предсказала бы значение ответа у. Процесс нахождения f называется обучением, или настройкой, подгонкой модели. В случае конечного Y говорят о задаче классификации, Y = ]& - задаче восстановления регрессии [1].

Основным требованием, предъявляемым к решению, является высокая обобщающая способность, т. е. обученная модель должна выдавать в среднем достаточно точные предсказания на новых (не входящих в обучающую выборку) прецедентах. Таким образом, оптимальное решение задачи индуктивного обучения должно удовлетворять условию:

/ * = а^штМухД у, ^ (х)),

где L(y, F(х)) - неотрицательная функция потерь (штрафа), K - множество допустимых решений. Однако данный критерий неприменим в случае конечного набора известных данных и обычно заменяется на условие:

N

f = argmin^ L( yt, F (х)),

F gK . , i=1

где прецеденты (х1, yl), i = 1, N, составляют обучающую выборку.

Один из общих подходов к решению задач обучения заключается в комбинировании моделей. Две основные конкурирующие идеи данного подхода - бэггинг (bagging от Bootstrap Aggregating) [2] и бустинг (boosting) [3]. Первая из них состоит в построении множества независимых (между собой) моделей с дальнейшим принятием решения путем голосования в случае задачи классификации и усреднения в случае регрессии. Данный подход реализован в алгоритме случайных деревьев (random trees или random forest). Основной сложностью применения этой идеи является обеспечение независимости построенных моделей. Бустинг, в противоположность бэггингу, обучает каждую следующую модель с использованием данных об ошибках предыдущих моделей.

В настоящей работе мы описываем алгоритм градиентного бустинга деревьев решений [4] и предлагаем программную реализацию этого метода. Насколько известно авторам, это первая открытая C/C++-реализация данного метода.

Результаты вычислительного эксперимента свидетельствуют о ее конкурентоспособности.

Алгоритм градиентного бустинга деревьев решений

Основной задачей, которую требуется решить для обучения любой модели, является задача минимизации суммарного штрафа на прецедентах обучающей выборки:

тіпрєК £(Р), (1)

где

N

£(Р) = £ Ц(у, Р(х )) .

І =1

Одним из методов ее приближенного решения служит жадная стратегия [1]. Так как суммарные потери £(Р зависят не от самой функции F(x), а лишь от ее значений в точках обучающей выборки, т. е. ЦР) = -^(Р(хі),

F(x2),..., Р(г^), на задачу (1) можно смотреть как на минимизацию функции N переменных. Для этой задачи существует множество численных итерационных процедур. Все они ищут точку оптимума в виде суммы последовательных приближений Нм = £М_Рт , где Ртє ^, а

Р0 - начальная точка. Принципиальное различие между такими численными методами заключается в способе вычисления очередного слагаемого Рт. Так, метод наискорейшего градиентного спуска делает шаги в направлении антиградиента функции в текущей точке, т.е.

Рт Рт§т , где §т= grad(L(F))р1 =

дЦУ1,Р(*і)) дЦу2,Р(Х2)) дЬ(yN,р(XN))

дF (X1)

дF (X2)

зывала компоненты антиградиента [4]. При этом возможно применение любой функции потерь Y(y, h(x)), весь вопрос в существовании соответствующего алгоритма обучения. Также алгоритм градиентного бустинга допускает использование любой функции регрессии в качестве базовой. Одним из наиболее популярных выборов являются деревья решений. Преимущества их использования заключаются в следующем: они позволяют производить обучение на исходных данных без их дополнительной предобработки, поддерживают наличие пропущенных значений, номинальных и количественных переменных, и, что немаловажно, существуют эффективные алгоритмы их обучения (CART [5], C4.5 [6]). Едва ли не единственным их недостатком является зачастую низкое качество обучения, но в бустинг-методах они хорошо зарекомендовали себя.

Дерево решений разбивает множество допустимых входных векторов X на J непересекаю-

щихся подмножеств Rj, j = 1,J, где J - количество листьев в дереве. Каждой области Rj приписана некоторая константа фу. Формально дерево можно представить в виде

T (x; ©) = Хф j '1(x є Rj ) =

зр (хи) )р=Ъ

± ,1т-1

а рт определяет длину шага и является решением одномерной задачи минимизации по направлению gm:

Рт= Щ£шт Щт-х-РЯ,»)

Р

N

= агдшт^ Ь(у!, Ът-1(хг ) -РЯтг ) •

Р 1=1

После осуществляется переход к следующей

точке Ът = Ът-1 рт^т .

Метод градиентного спуска позволяет произвести минимизацию суммарного штрафа на обучающей выборке для любой дифференцируемой функции потерь, но нашей целью является вычисление функции f=hм в новых точках х, а вектор gm определен только на прецедентах

(хь у), 1 = 1, N. Данную проблему можно решить путем обучения базовой модели таким образом, чтобы она как можно точнее предска-

і=1

где 0 - набор параметров, определяющих конкретное дерево решений: , ф^-),і = 1,3},

а 1(г) - функция, такая, что 1(г) = 1, если г истинно, и 1(г) = 0, если г ложно.

Как правило, 3 является параметром, задаваемым до начала процесса обучения, а 0 подбирается в ходе настройки модели в два этапа: на первом производится разбиение множества X на

Л;, і = 1,3, а на втором вычисляются константы

Ф/

N

Я = (4 В2,...Лз) = а^шіп£ Т( у, Т (х}; ©)),

і=1

фі = argшin £ Т(уі, фу), і = 1,3. ф і Хі єііі

Алгоритм 1 представляет собой частный случай метода градиентного бустинга при использовании деревьев решений в качестве базовых моделей с их обучением с применением квадратичного штрафа.

Алгоритм 1. Градиентный бустинг деревьев решений для задачи восстановления регрессии

[3; 6].

1. Взять оптимальное константное решение за начальное приближение

Ъ0 = р0(х) = Ь(у;, р) .

Р ; = 1

2. Для всех т = 1, ..., М:

а) Вычислить компоненты вектора антиградиента

дЦ у,, Р (х,))

dF (Xi)

i = 1, N .

F=h„

b) Построить регрессионное дерево на выборке {(Xi, ri,m), i =1, N }

Rm (R1,m , R 2,m ,'"’RJm ,m )

N

= argmin^(ri,m - T(xj;©))2 '

i=1

c) Найти оптимальные константы для каждого листа дерева

Фj,m = argmin £L(yt, hm-1(X ) + Ф) , j = 1 Jm ■

Xi eR j, m

d) Обновить модель

Jm Л

hm (X) = hm-1(х) + V • Z^Pj,m ' 1( X G j ) ■

j=1

3. Конечная модель f(x)=hM(x).

Следует отметить, что для деревьев решений вычисление «длины шага» фу,т выполняется независимо для каждого листа, в то время как градиентный спуск предполагает выбор лишь одной константы pm для масштабирования всего вектора антиградиента. Приведенный выше алгоритм имеет несколько параметров: количество бустинг-итераций M и число листьев в

каждом из обучаемых деревьев Jm, m = 1,M . При обучении одиночного дерева решений обычной стратегией является построение большого дерева (с большим числом листьев) с последующим удалением некоторых поддеревьев (pruning). Однако применение такого подхода в рамках бустинг-метода ведет к увеличению вычислительной сложности алгоритма. К тому же использование относительно больших деревьев решений ведет к переобучению и, следовательно, к увеличению обобщающей ошибки модели. В связи с этим было предложено [1] использовать деревья одинакового размера, т.е.

Jm = J, Vm = 1,M, где количество листьев находится в пределах 4 < J < 8. Данные ограничения были предложены из соображений учета взаимосвязанности переменных и являются лишь неплохим приближением, с которого можно начать подбор наилучших параметров для конкретной задачи. Что касается значений параметра М, то основная тенденция заключается в уменьшении тестовой ошибки с ростом

M, однако выбор слишком больших значений ведет к появлению эффекта переобучения. В алгоритме 1 используется еще один параметр v е (0,1] - коэффициент масштабирования

(shrinkage). Использование v<1 позволяет снизить влияние отдельного дерева на результирующую модель, тем самым позволяя добиться более точных предсказаний. Параметры Ми v тесно взаимосвязаны: уменьшение v требует большего количества итераций алгоритма для достижения низкой ошибки. Следовательно, выбор М и v не должен быть независимым. Дополнительной модификацией рассматриваемого алгоритма может служить использование не всей обучающей выборки на каждой итерации, а лишь некоторой ее части. Алгоритм, реализующий подход формирования подвыборок (subsampling) для обучения базовых моделей, носит название стохастического градиентного бустинга [7]. Данная идея используется в бэггинг-алгоритмах, позволяя снизить разброс (variance). Таким образом, стохастический градиентный бустинг позволяет снизить вычислительные затраты на обучение и при этом может также приводить к уменьшению тестовой ошибки.

Алгоритм 1 представляет собой схему градиентного бустинга для решения задачи восстановления регрессии или бинарной классификации. Применение же функций потерь для многоклассовых задач требует, как отмечалось выше, построения не одной, а К = |Г| аддитивных

моделей. Соответствующая схема для функции кросс-энтропии приведена в алгоритме 2.

Алгоритм 2. Градиентный бустинг деревьев решений для задачи классификации [1].

1. Принять начальное приближение для каждой из K аддитивных моделей равным нулю

hk,0 = Fk,c(х) = 0, k = 1,К.

2. Для всех m = 1, ..., М:

а) Для всех к = 1, ., K:

i) Вычислить компоненты вектора антигра-

диента

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ri,k ,m =1( yi,k = k) -:

exphk ,m-1 (xi)

i = 1, N .

£/=1exph/ ,m-1 (xi)

ii) Построить регрессионное дерево на выборке {(Xi, rhk,m ),i = 1, N}

Rk,m = (R1,k,m ,R2,k,m Jm ,k,m ) =

N

= argmin£(ri,k,m - T(Xj ;©))2

i=1

Таблица 1

Выражения для антиградиента различных функций потерь

Функция потерь L( у,, F (xl)) дL( у,, F (^)) ^(x,)

Восстановление регрессии

Квадратичная 1 9 -(у -F(x,))2 У, - F (^)

Абсолютная У - F(x, )| slgn(y - F(xl))

Хьюбер (Huber) 1(у - F(^ ))21(у - F(^ )| < 8)+ + 8^|у, -F(x)|-0(у, -F(^)|>8) Уl - F(xl) при |у - F(x, ^ < 8 8 • slgn (уі - F(x)) при \уі - F(x ) >8

Классификация

Кросс-энтропия K -L1( Уг = к )ln Pk (xl) к=1 1( уі = k) - Pk(x)

iii) Найти оптимальные константы для каждого листа дерева

ф j,k ,m

K -1 K

L

'хіє j,k

L

rl,k,m| • (1 - |rl,k,m

j = 1, Jm • iv) Обновить модель

Jm Л

hk,m (X) = hk, m-1(X) + V • k,m ' 1(X G j.m ) •

j=1

3. Конечная модель

/ (х) = а^шах^, м (х).

к

Метод градиентного бустинга позволяет использовать любую дифференцируемую функцию штрафа и применим как для задачи восстановления регрессии, так и для классификации. В таблице 1 приведены компоненты вектора антиградиента для различных функций потерь.

Программная реализация

Мы предлагаем программную реализацию алгоритма градиентного бустинга деревьев решений. Авторам известна лишь одна открытая реализация этого алгоритма [8]. Данная реализация выполнена в программной среде Я и поэтому не обладает высокой производительно-

стью. Программный код предлагаемой реализации написан на языке C++ с использованием открытой библиотеки компьютерного зрения OpenCV [9]: в качестве реализации деревьев решений используется класс CvDTree. Для обучения базовых моделей применяется алгоритм CART. Программный интерфейс реализации градиентного бустинга соответствует принятому в OpenCV, и, следовательно, данная реализация может быть интегрирована в эту библиотеку. Наша реализация позволяет решать как задачи восстановления регрессии, так и многоклассовой классификации, поддерживает все функции потерь, приведенные в таблице 1, допускает использование механизма формирования подвыборок на каждой итерации (стохастический градиентный бустинг). Программа написана в соответствии c приведенным в данной работе описанием, за исключением способа задания размера деревьев решений: вместо параметра J (количество листьев) используется ограничение на высоту d.

Экспериментальные результаты

Основным способом оценки обобщающей способности алгоритма и его сравнения с другими подходами к решению той же задачи явля-

r

l,k ,m

Таблица 2

Тестовые наборы данных

Название Общее количество прецедентов Число переменных (количественные/ номинальные) Количество классов

Восстановление регрессии

auto-mpg 398 7 (4/3) —

Computer hardware 209 8 (7/1) —

Concrete slump 103 9 (9/0) —

Forestfires 517 12 (10/2) —

Boston housing 50б 13 (13/0) —

imports-85 201 25 (14/11) —

Servo 1б7 4 (0/4) —

Abalone 4177 8 (7/1) —

Классификация

Agaricus lepiota 8124 22 (0/22) 2

Liver disorders 345 б (б/0) 2

Car evaluation 1728 б (0/б) 4

ется проведение экспериментов с реальными или искусственными данными. В данном разделе приведены некоторые экспериментальные результаты, показывающие достоинства и недостатки метода градиентного бустинга. Наряду с подходом, которому посвящена данная работа, были рассмотрены и конкурирующие алгоритмы: одиночные деревья решений, случайные деревья (случайные леса) [10], машина опорных векторов. Программной основой проведенных нами экспериментов является открытая библиотека компьютерного зрения ОрепСУ: все результаты, относящиеся к конкурирующим алгоритмам, были получены непосредственно с помощью ее компонентов: CvDTree, СуЯТгее8, СуБЯТгєє8 и СуБУМ.

Эксперименты проводились на наборах реальных данных, взятых с репозитория иС1 [11]. Их краткие характеристики приведены в таблице 2.

Сравнение различных алгоритмов машинного обучения производилось по результатам 10-кратного перекрестного контроля, с помощью которого осуществлялся выбор наилучших значений параметров для каждой конкретной задачи и каждого алгоритма. Тестовая ошибка считалась при помощи нескольких критериев:

1) средняя абсолютная ошибка (average-aЪsolute-error):

srrk

і i° У

=10 УУ §*

yjki - /(

Jk ,i

En” = 10 §11

Lli (у* і- f (v,

3) для задачи классификации - подсчет частоты неправильной классификации прецедентов тестовой выборки:

р = 1 у ХД ,, Ф ^(хЛк,,))

ЕГ-ттвс1а88 ~ ^ 0 / .

к=1

’к=1 Тк

где Tk - объем k-й тестовой выборки, а (х^ ., yik .) - i-й прецедент k-й тестовой выборки;

2) корень среднеквадратичной ошибки (root-mean-squared error):

Прецеденты с пропущенными значениями удалялись из обучающей и тестовой выборок при использовании CvSVM.

Наименьшие из полученных описанным способом ошибок приведены в таблицах 3 и 4. Из этих данных видно, что алгоритм градиентного бустинга, как правило, дает результат близкий к наилучшему для конкретной задачи, что подтверждает его универсальность и способность подстраиваться под специфику решаемой задачи. В то же время для некоторых из рассматриваемых задач существуют алгоритмы, дающие меньшую тестовую ошибку.

Рисунок 1 иллюстрирует сравнительную динамику изменения тестовой ошибки, полученной методами градиентного бустинга и случайных деревьев, с ростом количества итераций. Для обоих алгоритмов выбраны наилучшие параметры, с точки зрения результатов перекрестного контроля. Как можно видеть, для случайных деревьев ошибка достигает уровня ~1.5 уже после 100 итераций, на котором остается и при дальнейшем обучении. Бустинг, в свою очередь, обеспечивает постепенное снижение ошибки, которая достигает примерно того же уровня, что и для случайного леса, после 400 итераций. Оба метода комбинирования деревьев решений

Таблица З

Корни среднеквадратических ошибок (RMS) и средние абсолютные ошибки (ABS), полученные различными алгоритмами при 10-кратном перекрестном контроле

Название Градиентный бустинг (GBT) Дерево решений (CvDTree) Случайные деревья (CvRTrees) Случайные деревья (CvERTrees) Машина опорных векторов (CvSVM)

RMS ABS RMS ABS RMS ABS RMS ABS RMS ABS

auto-mpg 2.б82 2 3.133 2.238 2.653 1.879 2.955 2.147 4.042 2.981

Computer hardware 23.55 12.б2 30.13 15.б2 2б.02 11.б2 19.12 9.631 50.51 37

Concrete slump 2.524 2.257 3.727 2.923 3.193 2.б 2.945 2.359 2.164 1.767

Forestfires 35.15 18.74 38.09 17.2б 35.22 17.79 34 1б.б4 45.51 12.9

Boston housing 2.914 2.033 3.б53 2.б02 3.042 2.135 3.127 2.19б 5.71 4.049

imports-85 1827 130б 2317 1б49 1821 1290 214б 1487 2583 1787

Servo 0.385 0.238 0.455 0.258 0.418 0.247 0.б8б 0.42 0.884 0.б55

Abalone 2.144 1.47 2.281 1.б04 2.115 1.492 2.124 1.498 2.б44 2.091

Таблица 4

Средние частоты неправильной классификации прецедентов, полученные различными алгоритмами при 10-кратном перекрестном контроле

Название Градиентный бустинг (GBT) Дерево решений (CvDTree) Случайные деревья (CvRTrees) Случайные деревья (CvERTrees) Машина опорных векторов (CvSVM)

Agaricus lepiota 0 0.000123 0 0 0

Liver disorders 0.251357 0.30543 0.227828 0.254299 0.278582

Car evaluation 0 0.0513824 0.03б4987 0.0394574 0.0509819

Рис. 1. Сравнение тестовой ошибки перекрестного контроля алгоритмов градиентного бустинга, случайных деревьев, и одиночного дерева решений на наборе данных АЬа1опе. Для всех методов взяты наилучшие параметры, найденные с помощью 10-кратного перекрестного контроля

превосходят наилучшее из одиночных деревь- Для наборов данных с небольшим числом ев для данной задачи. прецедентов более приемлемым является под-

ход многократного обучения и тестирования алгоритма, в то время как метод перекрестного контроля позволит осуществить подбор значе-

ний параметров. Для некоторых из перечисленных в таблице 2 наборов данных были проведены такие эксперименты. Данные случайным образом разбивались на обучающую и тестовую выборки в соотношении 9:1 для наборов Boston housing, Computer hardware и Servo и 8:2 для Abalone, после чего выполнялось обучение и предсказание. Процесс повторялся 100 раз для каждой задачи. Данный подход также позволяет проследить влияние значений некоторых параметров на обобщающую способность метода и служит методом для сравнения различных алгоритмов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Средние значения ошибок, полученных в результате этих экспериментов, приведены в таблице 5. На рассмотренных нами наборах дан-

ных градиентный бустинг в большинстве случаев превосходит метод случайных деревьев или показывает сравнимый результат.

Рассмотрим результаты некоторых экспериментов подробнее. На рис. 2 изображены бокс-диаграммы, которые показывают разброс результатов эксперимента на наборе данных Servo. Слева находятся диаграммы, соответствующие алгоритму градиентного бустинга с использованием деревьев решений различных размеров: глубина от 1 до 4. Самая правая бокс-диаграмма соответствует методу случайных деревьев. Таким образом можно наблюдать снижение тестовой ошибки бустинга при увеличении глубины используемых деревьев. Также эта диаграмма иллюстрирует небольшое превосходство алгоритма градиентного бустинга над случайными деревьями.

Сравнение средних ошибок алгоритмов градиентного бустинга и случайных деревьев

Таблица 5

Набор данных Тестовая ошибка алгоритма градиентного бустинга Тестовая ошибка алгоритма случайных деревьев

Средняя абсолютная ошибка Средняя квадратичная ошибка Средняя абсолютная ошибка Средняя квадратичная ошибка

Boston housing 1.995 8.234 2.13 9.б89

Computer hardware 10.29 1096.1 13.99б 2047.8

Servo 0.198 0.237 0.24 0.257

Abalone 1.517 4.732 1.514 4.653

Рис. 2. Бокс-диаграммы для результатов тестирования алгоритма градиентного бустинга с использованием деревьев решений различной глубины и метода случайных деревьев на наборе данных Servo

Авторы благодарят И.Б. Меерова за полезные обсуждения.

Работа выполнена при поддержке федеральной целевой программы «Научные и научно-педагогические кадры инновационной России», госкон-тракт 02.740.11.5131.

Список литературы

1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2008.

2. Breiman L. Bagging predictors // Machine Learning. 1996. V. 26, № 2. P. 123-140.

3. Freund Y., Schapire R. Experiments with a New Boosting Algorithm // Machine Learning: Proceedings of the Thirteenth International Conference. 1996.

4. Friedman J.H. Greedy Function Approximation: a Gradient Boosting Machine. Technical Report. Dept. of Statistics, Stanford University, 1999.

5. Breiman L., Friedman J., Olshen R., Stone C. Classification and Regression Trees. Wadsworth, 1983.

6. Quinlan R. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.

7. Friedman J.H. Stochastic Gradient Boosting. Technical Report. Dept. of Statistics, Stanford University, 1999.

8. Ridgeway G. The state of boosting // Computing Science and Statistics. 1999. V. 31. P. 172-181.

9. OpenCV. URL: http://opencv.willowgarage.com. (дата обращения: 10.06.2010).

10. Breiman L. Random Forests // Mach. Learn. 2001. V. 45, № 1. P. 5-32.

11. UCI Machine Learning Repository. URL: http://archive.ics.uci.edu/ml (дата обращения: 10.06.2010).

SOFTWARE IMPLEMENTATION OF THE GRADIENT TREE BOOSTING ALGORITHM

P.N. Druzhkov, N.Yu. Zolotykh, A.N. Polovinkin

Software implementation of the gradient tree boosting algorithm is described and its competitiveness is illustrated by the results of a computing experiment.

Keywords: machine learning, boosting, gradient boosting, decision trees.

Программная реализация алгоритма градиентного бустинга деревьев решений Текст научной статьи по специальности «Компьютерные и информационные науки»

SOFTWARE IMPLEMENTATION OF THE GRADIENT TREE BOOSTING ALGORITHM

Текст научной работы на тему «Программная реализация алгоритма градиентного бустинга деревьев решений»