Нахождение оптимальной разделяющей гиперплоскости на основе локальной минимизации риска

Галкин Александр Анатольевич

Математическое моделирование. Оптимальное управление Вестник Нижегородского университета им. Н.И. Лобачевского, 2013, № 2 (1), с. 171-176

УДК 519.7

НАХОЖДЕНИЕ ОПТИМАЛЬНОЙ РАЗДЕЛЯЮЩЕЙ ГИПЕРПЛОСКОСТИ НА ОСНОВЕ ЛОКАЛЬНОЙ МИНИМИЗАЦИИ РИСКА

Киевский национальный университет им. Т. Шевченко, Украина

oleksandr.galkin@mail.ru

Поктупила в ридакцие 27.11.2012

Исследована методология применения опорно-векторных машин на основе локальной минимизации риска. Рассмотрена проблема нахождения оптимальной разделяющей гиперплоскости в случае линейно нераздельных данных. Представлены алгоритм слабого поля опорно-векторных машин в виде выпуклой аппроксимации линейной минимизации риска со сферической оценкой Г аусса и методология построения гиперплоскости в многомерном пространстве.

Клечивые клова: локальная минимизация риска, разделяющая гиперплоскость, опорно-векторная машина, пространство характеристик.

Введение

Рассмотрим случай локальной минимизации риска для задачи классификации со сферическими окнами Парцена со стандартным отклонением а и с семейством F линейных функ-

ц™ Л,Ь (X) = мх + Ь .

Предположим, что учебные данные являются линейно раздельными, а это значит, что существует такое (м,Ь), что V/, у , + Ь) > 0.

Отметим, что локальный риск может быть представлен в следующем виде:

1 ...” -

Клок (X Ь) = - X [ 1«я (^Хі + Ь + Є w ) *

7ХТ ✓ Ч 1 ^ І У і ^Хі + Ь)

* У|dNп(вw) =~Хф-' 1 '

а

(1)

В случае, когда а ^ 0, наибольшее влияние на локальный риск (1) имеют термины, отвечающие примерам, расстояние которых до предела решения минимально. Действительно,

1 - |егГ(х)|

ехр(-Х2)

1 4%х

и

Ф(-х) =

1 + егР(-х/л/2) ехр(-х2 / 2)

2 х^+" 42%х

Пусть V , = у / (мх, + Ь) > 0, где (м,Ь) является гиперплоскостью, разделяющей учебные примеры и = шт V, что является расстоянием

от ближайшей точки до гиперплоскости. Оказывается, что

1 П

Клок (^Ь) = - Хф(-У1/ а)

#

#{1, V = ^тт}

ехр( -^тт/ 2а2)

Из предыдущего уравнения видно, что а стремится к нулю, а локальный риск является минимальным, когда vшin является максимальным.

Итак, мотивацией нахождения оптимальной разделяющей гиперплоскости (рис. 1) является:

Найти такую разделяющую гиперплоскость, чтобы расстояние от ближайшей точки до данной гиперплоскости (поля) было максимальным.

Оптимальная разделяющая гиперплоскость

Как уже отмечалось выше, главной целью является нахождение оптимальной разделяющей гиперплоскости (ОРГ), которая определяется как

(м0, Ь0) = а^шах{шт у 1 (мх, + Ь),|| М = 1}.

(м,Ь) 1

Если провести масштабирование (м, Ь) таким

образом, что шin у, (мх, + Ь) = 1, то ОРГ будет

также решением следующей задачи оптимизации: шт м2 (2)

при следующем ограничении:

у 1 (мх/ + Ь) >1. (3)

На рис. 1 учебные примеры разделяются гиперплоскостью правильно. Однако оптимальная разделяющая гиперплоскость на правом рисунке имеет большее поле, а следовательно, и меньший локальный риск. Интуитивно понятно, что этот случай является менее чувствительным к шумам в обучающем множестве.

Поскольку м2 является выпуклым, минимизация уравнения (2) при линейных ограничениях (3) может быть достигнута за счет использо-

|=1

Рис. 1. Разделение учебных примеров с помощью гиперплоскости

вания множителей Лагранжа. Пусть мы имеем п неотрицательных множителей Лагранжа, связанных с ограничениями (3) через а = (а1,..., а п). Для минимизации (2) необходимо отыскание седловой точки функции Лагранжа

1 п'

Ь(м>,Ь,а) =— м!2 -^а,[у,(мх, + Ь) -1].

2

(4)

Для того чтобы найти седловую точку, необходимо минимизировать функцию (4) по м и Ь , а также максимизировать ее по множителям Лагранжа а, > °. Седловая точка должна удовлетворять следующим условиям: дЬ(м, Ь, а)

дЬ дЬ(м, Ь, а ) дм

п 1 п

^(а) = Ха, -2^а,

,= 1 2 ,,] = 1

а,а ]У,У]х,х]

м

=Ха 0 у‘х‘

а

1[у, (м0 х, + Ь0) -1] = 0.

поскольку только они являются точками, которые необходимы в выражении ОРГ. Они называются опорными векторами, что указывает на то, что они «поддерживают» расширение м0.

Проблема классификации новой точки х решается путем учета знака м0 х + Ь0.

С учетом расширения м0 (8) функция решения гиперплоскости может быть записана как

/(х) = а 0 ухх + Ь).

-=Х у,а,=0 (5)

= м -Ха,у,х, = 0. (6)

При подстановке уравнений (5) и (6) в (4) задача оптимизации сводится к максимизации

(7)

с а, > 0 и ограничением (5). Это может быть достигнуто за счет использования стандартных методов квадратичного программирования [1].

Как только вектор решения а0 = (а0,...,а^ задачи максимизации (7) найден, получаем, учитывая (6), что оптимальная разделительная гиперплоскость (м0, Ь0) будет иметь следующее расширение:

(8)

в то время как Ь0 может быть определено из условия Куна-Таккера

(9)

Заметим, что из уравнения (9) следует, что точки, для которых а0 > 0, удовлетворяют (3). Геометрически это означает, что они являются ближайшими точками к оптимальной гиперплоскости (рис. 1). Эти точки играют важную роль,

Несмотря на наличие мотивации максимизации поля с использованием принципа индукции минимизации локального риска (МЛР), стоит обратить внимание, что стандартным способом обоснования оптимальной разделяющей гиперплоскости является использование аргумента размерности Вапника-Червоненкиса (ВЧ). Действительно, для размерности ВЧ гиперплоскости, которая разделяет учебные точки, поле ограничено R2 /М2, где R является радиусом наименьшей сферы, которая содержит учебные точки, а М - полем, полученным на учебных точках [2]. Обобщающие ограничения, зависящие от поля, можно найти в [3, 4].

Случай линейной неразделимости

Если данные не являются линейно раздельными, проблема нахождения оптимальной разделяющей гиперплоскости становится бесцельной. Кроме того, проблема ОРГ была мотивирована минимизацией локального риска (1), когда пропускная способность а стремится к нулю. Когда а не стремится к нулю, соответствующая функция потерь - сигмоидная функция, которая не является выпуклой. Кусочнолинейная функция потерь на рис. 2 представляет собой выпуклую аппроксимацию локальных потерь: в начале она имеет такой же наклон, как и функция потерь ф , а точкой соединения является - л/тс / 2 .

+Ь)

сг

Рис. 2. Функция потерь ЛМР и ее выпуклая аппроксимация

Новой оптимизационной проблемой, соответствующей этой кусочно-линейной функции потерь, является

минимизировать

(11)

V(а) = Ёа, - А

Ёа,а ]У,У]хх

=1

с Ё?,

(10)

Шin

со следующими ограничениями:

?, > 0, у,(мх, +Ь) > Я?

а V 2

м2 = 1.

2

С учетом обозначения А2 =—- эта про-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

тса

блема является эквивалентной минимизации (10) при следующих ограничениях:

у,(мх, + Ь) >1 -?,

м2 < А2.

Задача может быть решена путем введения множителей Лагранжа [5]:

п 1

ЦмЬ,ар,у) = Е?, -2^(а2 - м2) -,=1 2

- Ёа,[ у<(мх,+Ь) -1+?,] - Ёр, ?, >

,=1 ,=1

после чего получаем двойственную проблему

при ограничениях (11) и ?, >0. Первый член сводится к минимуму для того, чтобы контролировать поле, как и в случае раздельности; целью второго члена является контроль количества неправильно классифицированных точек. Параметр С, увеличение значения которого приводит к пенализации ошибок, выбирается пользователем.

По аналогии с тем, что было сделано для случая раздельности, использование множителей Лагранжа приводит к следующей оптимизационной проблеме: максимизировать

п 1 п

V (а) = Еа,- Т Ё

которая должна быть максимизирована при следующих ограничениях:

п

Е у,а,=0

,=1

0 < а, < 1.

Однако эта последняя оптимизационная проблема не является квадратичной и более трудной для решения. По этой причине была введена следующая формулировка задачи обобщенной ОРГ [6]:

а.а у.у.х.х.

2 / 1 1 1 ]

,=1 2,,]=1

при следующих ограничениях:

п

Еа,у,=0 и 0 <а, <С

,=1

Единственным отличием от случая раздельности является то, что теперь а имеет верхнюю границу С .

Заметим, что эти два подхода эквивалентны. Действительно, ограничения (11) являются идентичными в обоих случаях, т.е. как в первом

случае выполняется минимизация Ё?, при

ограничениях м2 < А2, так и во втором случае

выполняется минимизация Ё?, + ^м2 (здесь

^ = 1 / 2С). Первый подход заключается в минимизации эмпирических потерь на ограниченном множестве функций, а второй - в минимизации потерь регуляризации: для каждого значения С существует такое значение А (следовательно, а ), что обе проблемы имеют одинаковые решения, и наоборот.

Пространство

характеристик

Рис. 3. ОВМ отображает пространство входных данных в многомерное пространство характеристик, а затем строит оптимальную гиперплоскость в пространстве характеристик

Мы показали, что алгоритм слабого поля опорно-векторных машин (ОВМ) может рассматриваться как выпуклая аппроксимация ЛМР со сферической оценкой Гаусса. Соответствующая ширина а непосредственно связана со слабым параметром поля С. Например, в случае жесткого поля а ^ 0 и С ^ да .

Нелинейные опорно-векторные машины

Идея опорно-векторных машин заключается в отображении входных данных в многомерное проктранктво характериктик с помощью определенного нелинейного отображения, которое выбирается априорно. Заметим, что в этом пространстве строится оптимальная разделяющая гиперплоскость (рис. 3).

Пример. Для того чтобы построить поверхность решения, отвечающую многочлену степени 2, можно определить следующее простран-

d Ш + 3)

ство характеристик размерности----------:

zi = хі , 1 < і < d,

+і = (хі Д 1 <1 < d,

Z2d+1 = Х1Х2 ,..., ZN = ХаХй-\, где Х = (х1,...,хй) является вектором входных значений, а г = (г1,...,zN) = Ф(х) - образом х с использованием отображения Ф. Разделяющая гиперплоскость, построенная в пространстве характеристик, является полиномом второй степени в пространстве входных данных.

Возникает одна вычислительная проблема: поскольку размерность пространства характеристик может быть очень большой, встает во-

прос, как построить разделяющую гиперплоскость в этом многомерном пространстве.

Ответ на этот вопрос может быть получен из того, что для построения оптимальной разделяющей гиперплоскости в пространстве характеристик отображение г = Ф(х) может явно не выполняться. Действительно, если заменить Х на Ф(х) , уравнение (7) будет иметь вид

п 1 п

Ж (а) = Еаі - 2 Xа!а іУіУі Ф(хі)Ф( Х).

і=1 2 і,ї = 1

Итак, учебный алгоритм будет зависеть только от данных, используемых в скалярных произведениях в пространстве характеристик, т.е. от функций вида Ф( хі )Ф( хі ). Теперь предположим, что у нас есть такая симметричная функция К, что К(хі , х] ) = Ф(хі )Ф(х] ). В учебном алгоритме

необходимо наличие только К , а отображение Ф явно никогда не используется.

Для отображения Ф ядром К является, очевидно, К(х, у) = Ф(х)Ф(у). Однако, при учете ядра Ф , какие существуют условия для неявного отображения? Ответ можно получить из условий Мерсера [2].

Теорема 1. Пукть К(х,у) являеткя нипри-

рывнок киммитричнок функциик в L2(K2). Можно утвирждать, что кущиктвует ото-бражинии Ф и ракширинии

да

К ( х, у) =ХФ( х) і Ф( У )і

і=1

тогда и только тогда, когда для лебого компакта С и g є L2 (С)

ГК(х, у^ (х^(y)dxdy > 0. (12)

СхС

Заметим, что в определенных случаях довольно сложно проверить, удовлетворяется ли условие Мерсера, поскольку уравнение (12) должно выполняться для любого g £ Ь2 (С) . Тем не менее, легко доказать, что условие удовлетворяется для полиномиального ядра К (х, у) = (ху + с)р, с > 0 [7].

Рассмотрим пример. Пусть наши входные данные находятся в R2, а ядро выбирается в виде К(х, у) = (ху)2. В данном случае верным является следующее отображение:

( ,„2 Л

Ф( х) =

Х

л/2х1

Х.

1

ХХ2

2

В такой ситуации пространством характеристик является R3.

После того как ядро К, удовлетворяющее условию Мерсера, является выбранным, учебный алгоритм заключается в максимизации

п 1 п

Ж(а) = Хаі -2ХаіаїУ'УК(х',хі),

і

я

п

/(Х) = sgn( Xа іУіК (Хі,Х) + Ь).

і=1 ^ и=1

где функцией решения является

Идея замены скалярного произведения на положительно определенное ядро К называется «трюком ядра». Данная идея была впервые предложена в [8].

Первыми ядрами, которые были применены к исследованию проблемы распознавания образов, были следующие:

полиномиальное ядро К(х, у) = (ху +1)р ; ядро радиальной базисной функции

II м2 2

К(х, у) = ехр(-||х - у|| / 2а );

ядро нейронной сети К (х, у) =

= tanh(аху - Ь).

В первом случае следствием является классификатор, который имеет полиномиальную функцию решения. Во втором случае следствием является классификатор гауссовой радиальной базисной функции (РБФ). Наконец, в последнем случае имеет место особый вид двуслойной сигмоидальной сети. В случае РБФ число центров (число опорных векторов), сами центры (опорные векторы), веса ( а, ) и порог

(Ь) создаются автоматически посредством обучения ОВМ и дают отличные результаты по сравнению с классической РБФ. Таким же об-

разом для случая нейронных сетей архитектура (число скрытых элементов) определяется обучением ОВМ. Однако ядро гиперболического тангенса удовлетворяет условию Мерсера лишь при некоторых значениях параметров а и Ь .

Результаты экспериментов

В данном разделе представлены экспериментальные результаты использования опорновекторных машин на некоторых тестовых базах данных.

Распознавание рукописных цифр часто используется в качестве стандарта для сравнения классификаторов. С учетом этого факта опорновекторные машины были применены на базе данных USPS [9] и ММКТ [10]. Преимущество последней базы данных в том, что имея 60000 учебных примеров и 10000 тестовых примеров, она обеспечивает точное сравнение между классификаторами. С другой стороны, база данных USPS содержит 9298 рукописных цифр (7291 для обучения и 2007 для тестирования) и используется для быстрого сравнения между алгоритмами. Мы использовали эту базу данных несколько раз в ходе проведения экспериментов. Таблица 1 содержит тестовые ошибки различных алгоритмов обучения на базе данных ММБТ [11].

Результаты с применением ОВМ были получены в [6]. Было использовано мягкое поле ОВМ с полиномиальным ядром степени 4. Включение предварительных знаний заметно улучшает эффективность, но стандартный алгоритм ОВМ дает лучшие результаты среди классификаторов, которые не принимают предварительные знания в расчет.

Исходя из этого сравнения было выведено, что классификатор оптимального поля обладает отличной точностью потому, что в отличие от других классификаторов высокой производительности, он не включает априорных знаний о проблеме [11].

Таблица 1

Тестовые ошибки на базе данных MNIST

Классификатор Тестовая ошибка

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Линейный классификатор 8.4%

Сеть РБФ 3.6%

Нейронная сеть 1.6%

ОВМ 1.1%

CnucoK numepamypbi

1. Bazaraa M., Shetty C.M. Nonlinear programming. New York: John Wiley, 1979.

2. Vapnik V. The Nature of Statistical Learning. Theory. New York: Springer, 1995.

3. Shawe-Taylor J., Bartlett P.L., Wiliamson R.C., Anthony M. Structural risk minimization over data-dependent hierarchies // IEEE Transactions on Information Theory. 1998. V. 44(5). P. 1925-1940.

4. Bartlett P., Shawe-Taylor J. Generalization performance of support vector machines and other pattern classifiers // In: Scholkopf B., Burges C., Smola A., editors. Advances in Kernel Methods - Support Vector Learning. Cambridge, MA: MIT Press, 1999.

5. Vapnik V. Statistical Learning Theory. John Wiley & Sons, 1998.

6. Cortes C., Vapnik V. Support vector network //

Machine learning. 1995. V. 20. P. 1-25.

7. Burges C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery. 1998. V. 2(2). P. 121-167.

8. Aizerman M., Braverman E., Rozonoer L. Theoretical foundations of the potential function method in pattern recognition learning // Automation and Remote Control. 1964. V. 25. P. 821-837.

9. LeCun Y., Boser B., Denker J.S., et al. Back-propagation applied to handwritten zip code recognition // Neural Computation. 1989. V. 1. P. 541-551.

10. LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. P. 2278-2324.

11. LeCun Y., Jackel L.J., Bottou L., et al. Comparison of learning algorithm for handwritten digit recognition // In: International Conference on Artificial Neural Networks. 1995. P. 50-53.

FINDING THE OPTIMAL SEPARATING HYPERPLANE BASED ON VICINAL RISK MINIMIZATION

O.A. Galkin

We investigate the methodology of support-vector machines (SVM) based on the vicinal risk minimization principle. The problem of finding the optimal separating hyperplane in the case of linearly inseparable data is considered. An algorithm of the SVM weak field is presented in the form of a convex approximation of linear risk minimization with a spherical Gaussian assessment. The methodology of constructing hyperplanes in a multidimensional space is presented.

Keywords: vicinal risk minimization, separating hyperplane, support vector machine, feature space.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галкин Александр Анатольевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Галкин Александр Анатольевич

FINDING THE OPTIMAL SEPARATING HYPERPLANE BASED ON VICINAL RISK MINIMIZATION

Текст научной работы на тему «Нахождение оптимальной разделяющей гиперплоскости на основе локальной минимизации риска»