Обучение многоклассовому распознаванию образов по большим обучающим совокупностям

Маленичев Антон Александрович; Красоткина Ольга Вячеславовна; Моттль Вадим Вячеславович; Середин Олег Сергеевич

Известия Тульского государственного университета Естественные науки. 2015. Вып. 4. С. 31-44

= Математика =

УДК 519.6

Обучение многоклассовому распознаванию образов по большим обучающим совокупностям

А. А. Маленичев, О. В. Красоткина, В. В. Моттль, О. С. Середин

Аннотация. Рассмотрен алгоритм многоклассового обучения. Предложен метод, опирающийся на метод двухклассовой классификации. Для каждой пары классов исходной обучающей выборки выполняется процедура линейной двухклассовой классификации, в качестве которой был использован метод стохастического градиентного спуска для решения задачи БУМ. Каждый объект проходит классификацию по вероятности отнесения к каждому классу из каждой пары классов. Ставится предположение, что существует некоторое истинное распределение вероятностей отнесения данного объекта к каждому из этих классов, а все попарные вероятности — его прямое следствие. Строго говоря, поскольку попарные вероятности отнесения получались независимо друг от друга, наличие «истинного» вектора вероятностей отнесения объектов к каждому из классов не гарантируется, однако в этом случае можно найти наилучшую его аппроксимацию.

Ключевые слова: функция степени достоверности, градиентный метод, метод опорных векторов, многоклассовое обучение, большие массивы данных.

1. Введение

Во многих областях технических и естественно-научных исследований часто возникает проблема многоклассовой классификации данных при условии, что имеется большой или сверхбольшой массив исходных данных. Трудно переоценить важность задачи отнесения некоторого нового объекта к одному из заранее определённых классов. Мы ограничимся так называемым классом задач обучения с учителем. В качестве примера подобных задач можно рассматривать задачи из таких областей науки, как обработка текстов, обработка изображений, исследования в области молекулярной биологии, OCR (автоматическое распознавание текста), физические эксперименты, таксонометрия и так далее. Механизмы для подобного многоклассового

распознавания уже разработаны. Среди наиболее распространенных можно выделить следующие подходы:

• Метод k-ближайших соседей (k-Nearest Neighbor algorithm) [9].

• Многоклассовый метод опорных векторов (SVM for Active Learning) [11].

• Многоклассовая логистическая регрессия [4].

Однако зачастую они имеют достаточно большую вычислительную сложность либо по занимаемой памяти, либо по времени выполнения, и чаще всего эта сложность растёт как с ростом исходной выборки, так и с ростом количества классов, на которые требуется разделить объекты. Кроме того, у вышеописанных методов существуют недостатки.

Метод k-ближайших соседей является достаточно простым в реализации, легко масштабируется, однако для обучения необходимо использовать сразу всю обучающую выборку. Принимая во внимание основной тезис данной работы, а именно применение больших обучающих совокупностей, можно сделать вывод о неприменимости данного метода в силу его большой вычислительной сложности по памяти.

Метод решения SVM с использованием двойственной задачи является чересчур требовательным к ресурсам компьютера: двухклассовый SVM в общем виде имеет алгоритмическую сложность в худшем случае O(N3), в среднем — O(N2). Двухклассовый SVM в линейной постановке имеет сложность, оцениваемую как O(N ln(N)), однако он имеет в своей постановке настроечный параметр, который обычно выводится из довольно длительной процедуры кросс-валидации (скользящего контроля) [1]. Однако SVM имеет очень большое преимущество — в процессе обучения часть объектов может быть вообще выброшена из рассмотрения (так называемые «неопорные» объекты).

Логистическая регрессия, в отличие от SVM, не требует определять заранее никакого параметра, однако обладает таким недостатком, как нестабильность решения в случае линейной разделимости [1]. Однако логистическая регрессия, как и SVM, допускает обобщение на количество классов, большее двух, с использованием так называемой логистической кривой общего вида и алгоритма softmax-регрессии, или множественной логит-регрессии [4].

Однако все эти методы объединяет одно: они требуют в процессе обучения наличия всей обучающей совокупности. Работа посвящена разработке метода стохастического градиента для решения прямой задачи по методу опорных векторов (Stochastic gradient descent Support Vector Machine, SGD SVM), который не требует загрузки всей обучающей выборки в память, а использующий лишь ее часть — в каждый момент времени в память загружена лишь часть объектов обучения.

Для многоклассовой классификации в работе предложен метод, опирающийся на метод двухклассовой классификации [2]. Суть данного метода довольно проста: для каждой пары классов исходной обучающей выборки

выполняется процедура линейной двухклассовой классификации. Какая это процедура — не имеет особенного значения; единственное накладываемое на неё ограничение — результатом её работы должно быть так называемое нечёткое правило классификации — мера отнесения нового объекта к каждому классу из пары.

После того, как поступил новый объект, он проходит классификацию по вероятности отнесения к каждому классу из каждой пары классов. Результат данной классификации — верхнетреугольная матрица вероятностей. Ставится предположение, что существует некоторое истинное распределение вероятностей отнесения данного объекта к каждому из этих классов, а все попарные вероятности — его прямое следствие. В этом случае можно найти истинные вероятности, используя математическую формулу. Строго говоря, поскольку попарные вероятности отнесения получались независимо друг от друга, наличие «истинного» вектора вероятностей отнесения объектов к каждому из классов не гарантируется, однако в этом случае можно найти наилучшую его аппроксимацию.

2. Алгоритм двухклассовой классификации для больших массивов данных: метод опорных векторов

Рассмотрим классическую постановку задачи обучения распознаванию образов. Пусть существует множество объектов реального мира О. Предположим также, что каждый объект и € О может быть охарактеризован числом у € {—1,1} и вектором х £ Еп; иными словами, каждый объект наиболее полно представляется тройкой (иг,Уг, Хг). Число Уг в этом случае принято называть классом объекта иг, вектор хг — его вектором признаков (число п — размерность пространства признаков указывает на длину векторов Хг). Чаще всего для каждого объекта иг известен лишь его вектор признаков хг, но неизвестен его класс у г. Задача распознавания образов заключается в построении некоторой функции, которая по предъявленному ей вектору признаков хг вернёт класс объекта у г, при этом, говоря неформальным языком, «будет как можно реже ошибаться».

Данная задача неразрешима без использования некоторой дополнительной информации об объектах. Предположим, что существует некоторая совокупность объектов (иг), для которых известен как вектор признаков хг, так и их класс уг. Всю совокупность таких объектов будем называть обучающей совокупностью, а количество таких объектов — размером обучающей совокупности N. Оговоримся сразу, что число объектов обучения N в случае анализа больших массивов данных достаточно велико — для ясности ограничимся соображением, что N ^ 10000 > п.

Огромную популярность в мировой литературе получил линейный подход к восстановлению зависимостей, основанный на представлении объектов реального мира как векторов в линейном пространстве со скалярным произведением х(и) € X .В простейшем случае в качестве пространства

наблюдений принимается конечномерное линейное пространство векторов действительных признаков объектов x = (x\.. .xn )T e X = Rn.

Основным понятием линейного подхода является базовая гиперплоскость в линейном пространстве наблюдений:

H(a, b) = {z e Rn : aTz + b = 0} ,a e Rn, b e R.

Другим ключевым понятием линейного подхода является решающая функция (decision score function), понимаемая как евклидово расстояние всякой точки x e Rn до базовой гиперплоскости с учетом знака, точнее, до проекции этой точки на гиперплоскость xh(a,b) e Rn. Нетрудно убедиться, что это расстояние определяется выражением

aT x I b aT x I b d(x\a, b) = ——-— =--j- или d(x\a, b) = aTx + b при ||a || = 1.

II a W (aTa) j

Линейный подход заключается в принятии любых решений о значении скрытой характеристики объекта только на основе евклидова расстояния его образа в линейном пространстве x e Rn от базовой гиперплоскости.

В простейших случаях наблюдатель исходит из предполагаемой функции потерь как штрафа Loss (y, y(x, a)) за несовпадение истинного и оцененного значениях скрытой характеристики объекта (loss function) — рис. 1:

q(x, y, a) = Loss (y, y(x, a)).

Будем выбирать значение направляющего вектора гиперплоскости a таким образом, чтобы минимизировать эмпирический риск:

N

гетр(й) — шт(а е Л), ^ q(xj ,У] , й) — шт(а е Л).

3=1

Используем линейный подход к восстановлению зависимостей. Предположим, что в пространстве существует гиперплоскость, в основном правильно классифицирующая все объекты обучающей выборки (X, У) = = {(х] ,уз), ] = 1,...,М}, т.е. й(х] | а,Ь) = (аТ X] + Ь) для всех ] = 1,...,М.

Функция потерь в общем случае выглядит следующим образом:

q(x, y, a, b) = {max [0, 1 — yd(x, a, b)] }a.

В исходной формулировке метода опорных векторов степень а принимается равной единице. Однако это приводит к излому функции потерь и, как следствие, к ее недифференцируемости в точке излома. В работе мы используем градиентный метод, который подразумевает процедуру дифференцирования исходного критерия и включает в себя сумму функций потерь для всех объектов, лежащих в области между гиперплоскостью и зазором.

Рис. 1. Вид функции потерь при разных значениях а

Это так называемые опорные объекты, а векторы признаков, которыми они описываются, и являются опорными векторами. Для того, чтобы график функции потерь был гладким и, как следствие, дифференцируемым во всех точках, мы примем а = 2:

~ ~ 2 q(x,y, a, b) = {max [0, 1 — yd(x,a,b)]} .

Будем выбирать такую гиперплоскость, для которой зазор между ней и ближайшим вектором обучающей совокупности в смысле евклидовой метрики в Мга является максимальным, т.е. yjd(xj | a,b) = yj(aTXj + b) ^ e, e — max, aTa = 1.

Такая постановка задачи приводит к следующему критерию:

J (a, b) = aT a + C ^ [l — yj (aT Xj + b)]2 — min(a, b, Si, ...5N )■

j'Vj (aTXj

Как правило, задача оптимизации критерия по методу опорных векторов решается в двойственной форме. Это дает точное решение, однако высокая вычислительная сложность и необходимость загрузки в память одновременно всех объектов обучения за один раз запрещают использование метода на больших обучающих выборках. Необходим метод онлайн-обучения, который производил бы корректировку решающего правила с течением времени работы алгоритма на основании одного или нескольких случайно взятых объектов обучения за каждую итерацию. В данной работе мы предлагаем решать прямую оптимизационную задачу с помощью итерационного приближенного метода стохастического градиентного спуска. Это позволяет обучаться, не загружая в память сразу всю обучающую выборку. Кроме того, применение данной техники значительно ускоряет процесс поиска оптимальной разделяющей гиперплоскости.

На сегодняшний день существует несколько реализаций метода стохастического градиентного спуска для решения прямой задачи по методу опорных векторов [3, 5-7, 10]. Однако все они позволяют оценить только направляющий вектор гиперплоскости, игнорируя при этом значение смещения, оценка которого в дальнейшем производится с помощью методов анализа

ИОС-кривых, что существенно влияет на итоговую вычислительную сложность и нивелирует преимущество по быстродействию. В данной работе будет рассмотрен способ оптимизации исходного критерия с квадратичной функцией потерь по методу опорных векторов с помощью метода стохастического градиентного спуска. Этот простой способ сочетает в себе высокое быстродействие, способность к дообучению и одновременную оценку направляющего вектора и коэффициента смещения гиперплоскости.

Перейдем в расширенное пространство признаков, введя новые обозначе-

ния:

А

I

0Т

хз

1

€ Мга+1,

[(п + 1) X (п + 1)]

(1)

€ Мга+1.

Критерий обучения перепишется в следующем виде:

с

ъ

3

3(с € п+1) = сТАс + С ^ (1 - узс)

3'-У] е<1

Очередное приближение с3 = ^ ^ ^ € ^га+1.

На каждом шаге по методу стохастической аппроксимации вычисляется очередное приближение по формуле: с3+1 = с3 — а3д (3(с3)).

Коэффициент а3 выбираем таким образом, чтобы выполнялось условие

Е

а

оо

; Е (а3)2 < ^

Частичный градиент по одному объекту

(1 — уъТс)2,уъТс ^ 1

д (3(с3))= д( сТАс + С 2Ас3 + 2С 2Ас3 + 2С

0,уъТс > 1 (—уъ + уу ъъТс3),уъТс ^ 1

1

0, уъТс > 1

(—уъ + ъъТс3),уъТс ^ 1 = 0,уъТс > 1 =

А+С

ъъТ,уъТс ^ 1

0, уъТс > 1

с3 2С

уъ,уъТс ^ 1 0, уъТс > 1.

Алгоритм останавливается при условии \3(с3+1) — 3(с3)| < где £ заданная точность.

2

3

3= —оо

3 = —оо

В этом случае апостериорная вероятность принадлежности объекта к одному из двух классов выразится следующим образом (рис. 2):

Р

ы

_ <

ехр \-Cil -хТе)2! „

_I_-_ -I 2Т С < _ 1

1+ехр[-С(1 -zTе)2] ' 2 С < 1

ехр —С (1 е)2]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ехр[-С (^Т е)2] + ехр[-С(1 -zТ е)2] 1

, -1 < 2Т С < 1,

р¡к _ 1 _ рЫ

21 С > 1,

(2)

1 0.75 0.5 0.25 >Н(> = 1|*. с, С)' ■—'

С-- 1,7"

0,6

--- у

4 3 2 1 : -л

Рис. 2. Апостериорные вероятности классов для вновь поступившего объекта при разных значениях параметра регуляризации С

3. Алгоритм многоклассовой классификации для больших

массивов данных

3.1. Парадокс Кондорсе. После того, как произведено построение решающих правил, для любого нового поступившего объекта они немедленно указывают, какой класс в каждой паре является доминирующим. К примеру, при ш _ 3 в первой паре из классов 0 и 1 доминирующим может оказаться класс 1, во второй паре из классов 0 и 2 доминирующим может оказаться класс 0, в третьей паре из классов 1 и 2 доминирующим может оказаться класс 1. В этом случае довольно очевидно, что наиболее предпочтительным является класс 1, следующий — класс 0 и наименее предпочтительный — класс 2. Правда, такой однозначный вывод сделать не всегда возможно. К примеру, если при том же ш _ 3 из первой пары класс 0 оказался менее предпочтительным, чем класс 1, из второй пары класс 1 оказался менее предпочтителен, чем класс 2, из третьей же пары класс 2 оказался менее предпочтителен, чем класс 0, то выбрать доминирующий класс невозможно (в теории выбора такая ситуация называется парадоксом Кондорсе).

Существуют различные ухищрения, призванные ликвидировать область непринятия решения (ОНР). Область непринятия решения — это подмножество множества пространства признаков Мга, в котором существует парадокс, при котором выбор сделать невозможно. Мы будем предполагать,

что классифицирующие правила, построенные алгоритмом попарной классификации, являются линейными. В этом случае область неприятия решения можно ликвидировать, перейдя в расширенное пространство признаков Мга+1 в соответствии с формулой (1). Действительно, наиболее наглядно это показывается на рис. 3.

а) Наличие ОНР

б) Отсутствие ОНР в расширенном пространстве Рис. 3. Иллюстрация парадокса Кондорсе

Нетрудно понять, почему в расширенном пространстве признаков не может быть области непринятия решения. В расширенном пространстве признаков все разделяющие гиперплоскости проходят через начало координат.

Потребуем, чтобы алгоритм выдавал размытое обучающее правило, выражающееся в виде функции степени достоверности Р1 (ъ): если Р1 (ъ) > 0.5, то объект должен быть отнесён к первому классу, иначе — к минус первому.

В работе рассматривается применение метода опорных векторов. Функция степени достоверности принимает в этом случае вид (2).

Соответственно функции достоверности, посчитанные для пары классов к,1; к < I, будем называть Рк. В этом случае ставится следующая задача: как по совокупности попарных функций достоверности Рк1 (ъ) определить общую степень достоверности отнесения объекта к каждому из классов п(ъ)? Заметим, что вектор п(ъ) по смыслу является вероятностью отнесения объекта к какому-либо классу, поэтому верно, что

т— 1

Е пк(ъ) = 1•

(3)

к=0

3.2. Формулировка и реализация критерия обучения многоклассового распознавания образов по большим массивам данных. Про-

цедура обучения в этом случае состоит в формировании попарных правил классификации объектов Ры (ъ). Нетрудно посчитать, что при наличии ш различных классов количество различных пар классов

с2 _ Ш(Ш - 1) Ст 2 •

Организация этой процедуры обучения идёт следующим образом. Предположим, нам требуется вычислить функцию Ры (ъ), основываясь на функции (2). Из всей обучающей совокупности выберем все объекты класса к и все объекты класса I: все объекты класса в процедуре обучения к считаются объектами класса 1, все объекты класса I — объектами класса -1, все остальные объекты попросту не учитываются. Требуется вести расчёт лишь для к < I: при к _ I задача не имеет смысла, а при к > I можно провести простой и очевидный переход Р[к _ 1 — Р-Ы.

3.3. Определение степени достоверности принадлежности объекта к одному из многих классов. После получения всех попарных функций классификации Ры (ъ) требуется построить общее классификационное правило п(ъ).

Предположим, что в точке ъ существует искомое распределение п(ъ), что согласовано со всеми попарными вероятностями Р^ (ъ). Вообще, строго говоря, это верно не всегда, поскольку попарные вероятности Ры(ъ) получены независимо друг от друга, плюс ко всему они являются лишь оценками истинных вероятностей: их совокупность может оказаться несовместной. Однако опыт показывает, что, если несовместность и наблюдается, она присутствует лишь в очень малых областях пространства признаков; более того, ниже будет показано, как выбирать наилучшую аппроксимацию в случае несовместности.

Тогда каждая попарная вероятность будет составлять

Р^ъ) _ ПЫ(Ъ)

Р[к (ъ) _ 1 — РЫ1 (ъ) _

Пк(ъ) + П1 (ъ)'

П (ъ)

Пк (ъ) + П1 (ъ)

Путем несложных преобразований получим пк(ъ):

Пк(ъ) _

-

т 1—ры1 (ъ)

+ ¡=1 РЫ1 (ъ)

\ ¡=к )

(4)

Данную формулу можно упростить. Если условно принять, что вероятность отнесения объекта к своему классу или к своему же равна 0.5, то

формула примет вид:

" - Й -

Заметим, что в случае, если хотя бы одна из вероятностей Pk в исходной формуле (4) равна нулю, то соответствующий знаменатель обращается в ноль. Рассмотрим бесконечно малую величину P^ ^ +0, q = k. Тогда формула (4) перепишется в виде предела:

lim nk (zj = lim (—\ = lim (pkq (zj) = 0. pkq pkq pkq (zj J Pkq '

Иными словами, в случае, если хотя бы одна из дихотомических вероятностей Pkl(zj = 0, k = l, то соответствующая вероятность nk(zj = 0. Это может случиться как при использовании в качестве алгоритма двухклассового распознавания SVM, так и при потерях точности при вычислениях по алгоритму логистической регрессии попарных вероятностей, очень близких к нулю или к единице.

Очевидно, что формулы (4)-(5) могут быть посчитаны как в точках z, где попарные вероятности совместны, так и не в этих точках. Несовместность же будет проявляться в том, что не будет выполняться равенство (3), то есть сумма всех вероятностей не будет равна единице.

Для восстановления совместности воспользуемся формулой нормировки вероятностей:

-k(zj nk(zj (6) n (zj = EE^. (6)

дихотомических оценок Pkl(zj следующим образом:

i

- 1 / m \ - i

В результате вектор n(z) можно получить из совокупности попарных

ра

4. Экспериментальное исследование на реальных данных

из базы UCI

4.1. Эксперимент на базе данных Iris. В качестве эксперимента на базе данных с многими классами была использована наиболее хорошо изученная база данных цветков ириса, так называемые «Ирисы Фишера». Данная база доступна в Интернете по адресу http://archive.ics.uci.edu/-ml/datasets/Iris — это база, состоящая из 150 объектов, характеризующих цветки ириса. В базе описано три класса цветков — цветки вида Iris Setosa,

Iris Versicolor и Iris Virginica — им назначены классы 0, 1 и 2 соответственно. Каждый цветок описывается четырьмя признаками:

• Длина чашелистника в сантиметрах.

• Ширина чашелистника в сантиметрах.

• Длина лепестка в сантиметрах.

• Ширина лепестка в сантиметра.

Известно, что класс Iris Setosa является линейно разделимым от классов Iris Versicolor и Iris Virginica, однако классы Iris Versicolor и Iris Virginica линейно неразделимы.

Эксперимент будет поставлен следующим образом. База будет каждый раз разбиваться на 120 объектов, попадающих в обучающую совокупность, и 30 объектов, попадающих в тестовую совокупность. Разделение происходит случайным образом: перед разделением все объекты исходного файла перемешиваются. После того, как произведено обучение на 120 объектах (известно, что в исходной базе данных по 50 объектов каждого класса, поэтому ситуация, когда в исходной базе данных нет представителей одного из класса, невозможна), производится тестирование на оставшихся 30 объектах. Результатом тестирования является число, показывающее, какая доля объектов тестовой совокупности была классифицирована правильно. Это будет повторено 10000 раз, после чего будет произведено усреднение количества корректно классифицированных объектов.

Результат эксперимента: в среднем за 10000 запусков программы корректно классифицировано 98.92 % объектов тестовых совокупностей. Время, потребовавшееся на эксперимент, включая время ввода-вывода с жёсткого диска, составило 8 мин. 9 сек. Это означает, что один эксперимент проводится в среднем за 0.0489 секунды, а в одну секунду компьютер обсчитывал 20 файлов по 120 объектов в каждом и производил тестирование на других 30 объектах.

4.2. Эксперимент на базе данных PUC-rio. В качестве примера испытания корректности работы программы на больших массивах данных с многими классами будет использована база данных PUC-rio (источник: http://archive.ics.uci.edu/ml/datasets/Wearable+Computing%3A+-Classification+of+Body+Postures+and+Movements+%28PUC-Rio%29). База данных состоит из 165634 объектов, каждый из которых классифицирован 17 признаками. Эта база описывает результаты испытаний на четырёх добровольцах, устанавливаемых на тело датчиков, сообщающих координаты четырёх акселлерометров в пространстве (на талии, на левом бедре, на лодыжке правой ноги и на плече правой руки) на протяжении восьми часов. Испытуемый обязан был указывать, когда он сидит, когда он стоит, когда он садится, когда встаёт и когда идёт: это и есть пять классов объектов. Кроме двенадцати координат, каждый объект содержит информацию о поле испытуемого, о его возрасте, о росте, о массе и о его индексе массы тела.

Эксперимент будет проведён следующим образом: из 165634 объектов случайным образом были выделены 1655GG объектов обучающей совокупности, остальные 134 объекта являются объектами тестовой совокупности. Задача осложнена тем, что выборка несбалансирована: к примеру, на 5G59l объект класса «испытуемый сидит» приходится всего 11818 объектов класса «испытуемый садится». Классы «испытуемый сидит», «испытуемый стоит» и «испытуемый идёт» сильно преобладают по количеству объектов над классами «испытуемый встаёт» и «испытуемый садится».

В результате эксперимента было корректно классифицировано 12G объектов из 134, что составляет приблизительно 90%.

5. Заключение

В работе сформулирована постановка задачи многоклассовой классификации, опирающаяся на хорошо изученную и известную двухклассовую классификацию. Сформулированы требования к алгоритму классификации.

Построены алгоритмы двухклассовой и опирающейся на неё многоклассовой классификации, обладающие малой алгоритмической сложностью как по затрачиваемому времени, так и по занимаемой памяти.

Проведены вычислительные эксперименты, которые показали корректность работы алгоритма, его малую вычислительную сложность, быструю работу и высокую точность построения классификатора. Алгоритм способен успешно работать на довольно больших массивах данных с размерами больше чем в миллион различных объектов, и сложность его работы близка к линейной по количеству объектов.

Список литературы

1. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974. 415 p.

2. Двоенко С.Д., Моттль В.В., Середин О.С. Процедура распознавания образов для случая многих классов, опирающая на совокупность функций степени достоверности для пар классов // Известия ТулГУ. Сер. Вычислительная техника, автоматика, управление. 1999. Т. 2. Вып. 2. С. 28-35.

3. Antoine Bordes and Leon Bottou. SGD-QN, LaRank. http://largescale.first.fraunhofer.de/media/slides/bordes.pdf, 2008.

4. David W. Hosmer, Stanley Lemeshow. Applied Logistic Regression. New York, Chichester: Wiley, 2002. 392с.

5. John Duchi and Yoram Singer. Online and Batch Learning using Forward Looking Subgradients, 2008. Manuscript.

6. Jyrki Kivinen, Alexander J. Smola, and Rober C. Williamson. Online learning with kernels. IEEE Transactions on Signal Processing, 52(8), August 2004.

7. Leon Bottou. SVM-SGD. http://leon.bottou.org/ projects/sgd, 2007.

8. Menon, Aditya Krishna. Large-scale support vector machines: algorithms and theory // Research Exam, University of California. San Diego, 2009. P. 1-17.

9. P. Jain, A. Kapoor. Active Learning for Large Multi-class Problems // Proc. the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009.

10. Shai Shalev-Shwartz, Yoram Singer, and Nathan Srebro. Pegasos: Primal Estimated sub-GrAdient SOlver for SVM // ICML 2007: Proceedings of the 24th International Conference on Machine learning, pages 807-814, New York, NY, USA, 2007. ACM.

11. Weston J., Watkins C. Multi-class support vector machines // Technical Report CSD-TR-98-04, Department of Computer Science, Royal Holloway, University of London: May, 1998.

Маленичев Антон Александрович ([email protected]), аспирант, кафедра информационной безопасности, Институт прикладной математики и компьютерных наук, Тульский государственный университет.

Красоткина Ольга Вячеславовна ([email protected]), к. ф.-м. н., доцент, кафедра информационной безопасности, Институт прикладной математики и компьютерных наук, Тульский государственный университет.

Моттль Вадим Вячеславович ([email protected]), д. т. н., профессор, Вычислительный центр им. А. А. Дородницына РАН, Москва.

Середин Олег Сергеевич ([email protected]), к. ф.-м. н., доцент, кафедра информационной безопасности, Институт прикладной математики и компьютерных наук, Тульский государственный университет.

Multiclass object recognition learning procedure on large

datasets

A. A. Malenichev, O.V. Krasotkina, V.V. Mottl, O.S. Seredin

Abstract. The article describes the algorithm of multi-class learning procedure which is based on two-class classification method. The essence of this method is quite simple: for each pair of classes of initial training sample procedure the linear two-class classification is performed. In this paper we using the gradient descent method for SVM solver. Each object passes the two-class classification for each pair of classes. The main hypothesis is: there is a real reference probability distribution of the object to each of m classes, and all pairwise probabilities are the direct consequences of it. Strictly speaking, the pairwise probabilities of classifying obtained independently of each other, the presence of the "true"vector of probabilities of object assignment to each of the classes is not guaranteed, however, in this case, it is possible to find the best approximation.

Keywords: reliability function, stochastic gradient descent, support vector machine, multiclass learning, large datasets.

Malenichev Anton ([email protected]), postgraduate student, department of information security, Institute of applied mathematics and computer science, Tula State University.

Krasotkina Olga ([email protected]), candidate of physical and mathematical sciences, associate professor, department of information security, Institute of applied mathematics and computer science, Tula State University.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Mottl Vadim ([email protected]), doctor of technical sciences, professor, Dorodnicyn Computing Centre of RAS, Moscow.

Seredin Oleg ([email protected]), candidate of physical and mathematical sciences, associate professor, department of information security, Institute of applied mathematics and computer science, Tula State University.

nocmynuAa 15.09.2015

Обучение многоклассовому распознаванию образов по большим обучающим совокупностям Текст научной статьи по специальности «Математика»

Текст научной работы на тему «Обучение многоклассовому распознаванию образов по большим обучающим совокупностям»