Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах

Середин Олег Сергеевич; Моттль Вадим Вячеславович

Известия Тульского государственного университета Естественные науки. 2015. Вып. 4. С. 49-66 = Математика

УДК 515.124.4; 004.93

Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах *

О. С. Середин, В. В. Моттль

Аннотация. Предложена методология беспризнакового обучения распознаванию образов в множествах объектов, представленных только некоторой числовой функцией парного несходства между ними, обладающей свойствами произвольной метрики. На основе введенных понятий аффинных операций в псевдоевклидовом линейном пространстве, индефинитного скалярного произведения и идеи максимизации зазора между выборками двух классов сформулирован критерий обучения распознавания образов в множествах объектов с произвольной метрикой, существенно обобщающий классический аппарат метода потенциальных функций.

Ключевые слова: беспризнаковое распознавание образов, распознавание образов в произвольных метрических пространствах, аффинные операции в псевдоевклидовом линейном пространстве.

Введение

Введенный в [1] формализм позволяет перейти к рассмотрению задачи обучения распознаванию образов на множестве объектов, представленных только через отношения произвольной метрики. Ключом является погружение метрики в псевдоевклидово линейное пространство; настоящая работа фактически является продолжением статьи [1] и изложение будет отсылаться к её математическим выкладкам. Исследования, связанные с построением классификатора в псевдоевклидовом пространстве, были первоначально представлены в публикациях Л. Гольдфарба. Так, работа [2] значительно опередила свое время, в ней фактически сделано неявное заявление о том, что векторное представление объектов («vector space approach») неизбежная необходимость в силу развития на том этапе методов и алгоритмов распознавания в векторных пространствах. Однако уже есть понимание, что такой путь не единственный, так структурным подходом названы методы

* Работа выполнена при финансовой поддержке РФФИ (проекты № 14-07-00527, № 14-07-00661).

распознавания образов, в которых представление объектов определяется их внутренней структурой. Ещё нет понимания, что можно вообще обойтись без векторного представления. В качестве примера рассматривается задача распознавания хромосом. Выделяются непроизводные элементы образа типа длинных дуг, коротких дуг и полупрямых отрезков, обозначающих границы хромосомы. Объединение таких непроизводных элементов приводит к цепочкам или предложениям, составленным из некоторых символов. Сами символьные цепочки сравниваются на основе расстояния Левенштейна. Предложено векторное представление матрицы расстояний между цепочками на основе неевклидовой метрики (в статье Гольдфарба используется неудачный термин «псевдометрика» под которым обычно понимается полуметрика, т.е. допущение, что различные точки в подлежащем множестве метрического пространства могут находиться на нулевом расстоянии). Рассмотрен численный пример для четырех объектов, продемонстрирован механизм погружения в псевдо-евклидово линейное пространство нового объекта. В качестве классификатора предложен линейный дискриминатор Фишера. Впоследствии Гольдфарб возвращался к этому вопросу [3], но скорее с философских позиций, не предлагая конструктивных математических решений.

Упоминание к возможности построения классификатора в псевдоевклидовом пространстве можно найти в обзорной работе Э Пекальской, П. Па-клика и Р. Дьюина [4], однако алгоритма обучения в таком пространстве не предложено, и решение свелось к обучению в пространстве вторичных признаков, суть расстояний до некоторых, признакообразующих объектов.

В работе Дж. Лауба и К. Мюллера [5] описан подход к проблеме анализа данных в случае неевклидовых метрик с точки зрения теории шкалирования. Используется известное преобразование двойного центрирования (У. Торгер-сон [6])

с = -1 - К1 - 1Т = (11'л) •

являющееся частным случаем теоремы И. Шёнберга [7].

В таком случае матрица С интерпретируется как ковариационная матрица, у которой выделяются соответствующие части спектра для положительных и отрицательных собственных чисел С = Ъ \Н\1/2 J \Н\1/2 ЪТ, J имеет структуру, аналогичную [1, (19)]. к- мерный вектор признаков, ассоциируемый с конкретным объектом, определяется выражением Хд = \Нд \1/2 Ът, где Н — матрица, у которой на диагонали стоят собственные числа, Z — матрица составленная из векторов, соответствующих собственным числам.

Приводятся примеры трех практических задач (распознавания рукописных символов (цифр от «0» до «7»), заданных в виде бинарных растровых изображений, анализ текстов, когнитивной психологии). Анализ ограничивается только визуализацией тестовых наборов данных.

В работе Ч. Онга [8] дается обширный теоретический обзор пространств с индефинитным скалярным произведением, приводятся примеры двухместных функций, не обладающих свойствами неотрицательной определённости матриц попарных отношений объектов, рассмотрена модельная задача восстановления регрессионной зависимости.

В работе Б. Хаасдонка [9] предлагается процедура оптимального разделения выпуклых оболочек в псевдоевклидовом пространстве. Показано, что такая постановка эквивалентна методу опорных векторов, однако задача оптимизации получается невыпуклой. Предлагается оптимизировать критерий стандартными средствами метода опорных векторов (библиотека ЫВБУМ [10]) в надежде, что в реальных прикладных задачах анализа данных достигнутый локальный экстремум обеспечит «хорошее» решающее правило. Стоит отметить, что, и авторы ЫВБУМ [11] подтверждают, что такой подход оправдан на практике.

В более поздней работе Б. Хаасдонка и Э. Пекальской [12] на основе индефинитного скалярного произведения строится дискриминатор Фишера.

Стоит отметить работы О. Хейна, М. Буске и Б. Шолькопфа [13,14] решающие задачу построения классификатора, максимизирующего зазор беду выборками классов в произвольном метрическом пространстве на основе идеи изометрического погружения выборки в банахово и гильбертово пространство. В первом случае получено решение, не приводящее к операциональному алгоритму классификации. Механизм погружения метрик специального типа (мы предлагаем называть их предевклидовыми метриками) в гильбертово пространство приводит к решению, совпадающему с нашими результатами [15].

Таким образом, имеется ряд работ, направленных на построение линейного классификатора для задач распознавания образов в псевдоевклидовом линейном пространстве. В настоящей работе мы демонстрируем более общий способ построения параметрического классификатора на неевклидовых метриках, и механизм псевдоевклидовых линейных пространств является лишь математическим инструментом для получения финальных критериев обучения на метрике.

Пусть О есть множество объектов реального мира с заданной на нем метрикой, и наблюдателю предоставлена конечная обучающая совокупность объектов вместе с известными индексами их принадлежности к одному из двух классов:

{р(и ,иг), з,1 = уз = у{и3) = ±!,з = !,...,N} . (1)

Целью наблюдателя является построение решающего правила распознавания классов новых объектов и € О, не представленных в обучающей совокупности, причем единственным свойством каждого нового объекта, доступным наблюдателю, является совокупность его расстояний до объектов обучающей выборки р(из,и), ] = 1,... N.

Пусть Мм — псевдоевклидово линейное пространство, натянутое на конечное множество объектов реального мира \О\ = М согласно раздела 2 в [1]. Это псевдоевклидово пространство однозначно «привязано» к метрическому пространству О, поскольку в силу теоремы 2 в [1] его сигнатура (р + д) фиксирована и определяется только метрикой р(и', и") : О х О ^ М. Вообще говоря, это пространство может иметь огромную размерность М = \ О \ , но нам нигде далее не придется совершать в нем вычислительные операции, оно нам нужно лишь как математическое понятие для дальнейших построений.

Всякий выбор некоторого элемента ф € О в качестве центрального ставит в соответствие каждому элементу и € О соответствующий ему вектор Хф,ш € Мм, т.е. определяет изометрический образ ММф С Мм метрического пространства в Мм, т.е. т2(хф,Шк, Хф,Ш1) = р2(ид,иг).

1. Понятие диполя в псевдоевклидовом линейном

пространстве

Будем называть дискриминантным диполем упорядоченную пару векторов < a-i,ai > £ RM х RM, а сами векторы a-i, ai £ RM — узлами диполя. Рассмотрим множество всех векторов xc £ RM, соосных паре < a-i,ai > в смысле [1, (34)] со всеми действительными коэффициентами c £ R:

xc = (1 - c)a-i + cai £ RM. (2)

При c = 1/2 вектор

xi/2 = (1/2)(a-i - ai) (3)

будем называть центральной точкой диполя.

Условимся рассматривать только такие диполи, квадрат расстояния между узлами которых является положительным согласно [1]:

r2 (a-i,ai) = (a-i — ai)T Jp (a-i — ai) =

(4)

(ua_! — Uai )T(ua_! — Uai) — (Va— — Vai )T(va_i — Vai) > 0.

Для таких диполей определено метрическое расстояние между узлами r(a-i, ai).

Пусть x £ RM — произвольный вектор в псевдоевклидовом пространстве, например, вектор Хф,ш, соответствующий некоторому объекту реального мира и £ Q согласно идее линейного погружения, изложенной в [1]. Тогда формула [1, (39)] определяет квадрат расстояния между xc и x:

r2(xc, x) = (1 — c)r2(a-i, x) + cr2(ai, x) — c(1 — c)r2(a-i,ai). (5)

В силу предположения (4) r2(a-i,ai) > 0, и эта функция является квадратичной и строго выпуклой функцией действительного коэффициента c £ R, но может принимать, вообще говоря, и отрицательные значения. В частности, отрицательным может быть ее минимальное значение minc£R r2(xc, x).

Тем не менее, пусть eex = arg minceR r2(xc, x) - точка минимума, тогда вектор

(2)

xc = (1 - Cx)a-i + cxai Е RM (6)

естественно называть проекцией точки x е Rm на луч, образованный диполем < a—i, а1 >.

Так как r2(a—1, a1) > 0, то r2(xcx, x1/2|a-1, a1) = (Сх — 1/2)2r2(a—1,a1) ^ ^ 0, т.е. векторы xcx (6) и x^2 (3) характеризуются метрическим расстоянием до центра диполя

r(xcx, x1/2|a-1,«1) = lex — 1/21 r(a-1,a{), (7)

полностью определяемым точкой x и диполем < a—1, a1 > в псевдоевклидовом пространстве RM.

Центральная идея методологии обучения распознаванию образов в произвольных метрических пространствах, предлагаемая в данной работе, заключается в использовании расстояния (7) с учетом знака (ex — 1/2) как параметрического семейства дискриминантных функций, каждая из которых задает некоторое разбиение псевдоевклидова пространства RM на три части, определяемое выбором диполя < a—1, a1 > Е RM х RM:

{> 0 ^ положительная часть, = 0 ^ нейтральная 'часть, (8)

< 0 ^ отрицательная часть.

Следующая теорема придает этой решающей функции конструктивный вид.

Теорема 1. Точка минимума еш = argminc£R r2(xc, x^) функции (5) определяется выражением

С =1 r2(a-1, x) — r2(a1, x) + 1 (Q)

Сх =2 r2(a-1,a1) +2' (9)

Доказательство. Опираясь на формулу (5), запишем

ex = arg min (cr2(x, a—1) + (1 — c)r2(x, a1) — c(1 — c)r2(a-1,a1)).

c

Следовательно, надо обеспечить равенство д

— [cr2(x^ ,a-1) + (1 — c)r2(xw, a1) — c(1 — c)r2(a_1,a1)] = 0,

т.е.

r2(x,a—1) — r2(x, a1) — r2(a-1,a1) + 2c^ r2(a-1,a1) = 0, откуда следует

С r2(a-1,a1) + r2(x, a1) — r2(x, a—1) 1 /r2(x,a1) — r2(x,a—1) 1 x 2r2(a—1 ,a1) 2 \ r2(a-1,a1)

Теорема доказана.

Будем называть нейтральное множество, определяемое согласно (8), дис-криминантной гиперплоскостью в псевдоевклидовом пространстве RM:

H(a-i,ai) = {x £ RM: r2(a-i,x) = r2(ai,x)} =

= {x £ RM: d(x | a-i, ai) = 0}. (10)

Теорема 1 позволяет записать дискриминантную функцию (8) в метрических терминах:

d(x|a-i,ai) =

2í \ 2 í \ ( > 0 => положительная часть,

1 r2(a-i, x) — r2(ai, x)

- --ñ- r(a-i,ai) < =0 ^ нейтральная часть,

„ r ( -1, ai) ,4 v [ < 0 => отрицательная 'часть.

v--.масштаб

безразмерным коэффициент

(11)

Безразмерный коэффициент в (11) определяет величину расстояния между проекцией точки x £ RM на ось диполя и центром диполя в псевдоевклидовом пространстве RM с учетом знака (7)-(8), или, что то же самое, между точкой x и ее проекцией на дискриминантную гиперплоскость (10). Длина диполя является лишь масштабным коэффициентом этой зависимости, никак не влияя на разбиение псевдоевклидова пространства RM на «положительную», «нейтральную» и «отрицательную» области d(x | a—i, ai) ^ 0.

В частности, при конкретном выборе центрального элемента ф £ Q каждому реальному объекту и £ Q соответствует вектор Хф , ш £ RM, поэтому дискриминантная функция в псевдоевклидовом пространстве (11) определяет дискриминантную функцию на множестве объектов реального мира:

, Л 1 r2(a-i, Хф,ш) — r2(ai, Хф,ш) f > 0 ^ класс 1, d(ula-h ai) = 2-r2(a i, ai)-r( a-i, aiH < 0 ^ класс — 1.

(12)

В следующем разделе мы покажем, что такая дискриминантная функция допускает запись в терминах исходной метрики на множестве Q, никак не зависящую от выбора в нем центрального элемента ф £ Q, определяющего общность элементов метрического пространства и, далее, его погружение в псевдоевклидово линейное пространство.

2. Параметрическое семейство дискриминантных функций в псевдоевклидовом линейном пространстве

Для заданной обучающей совокупности (1) задачу обучения естественно понимать как задачу выбора такого диполя < а_1, а! >, который определял бы разбиение множества обучающих объектов на два класса (11), как можно меньше отличающееся от разбиения, заданного «учителем».

Однако в псевдоевклидовом пространстве существует континуум разных диполей, определяющих одну и ту же дискриминантную функцию вида (11).

В частности, достаточно ограничиться диполями фиксированной длины, например, единичной:

^(х | а-г,аг) = 1 [г2(«-Ь х) - т2(аь х)] = 0, (^

т2(а-1,а1) = (а1 — а-1)т Зр(а1 — а-1) = 1.

Расстояние между узлами является не единственной излишней степенью свободы выбора диполя, выражающего желаемую дискриминантную гиперплоскость в Мм, т.е. решающее правило по отношению к объектам реального мира хш. £ Мм, можно еще и «перемещать» диполь «параллельно» дис-криминантной гиперплоскости. Покажем, что дискриминантную функцию ё(х I а-1 ,а1) можно однозначно определить и без строгой фиксации узлов диполя.

Представляется естественным искать дискриминантную функцию, наилучшим образом разделяющую обучающую совокупность (1) в смысле Л(хф,ш. I а-1, «1)^0 (13), выражая узлы дискриминантного диполя как неизвестные аффинные комбинации векторов {хф>Ш1,..., хф,шм }, в которые отображаются объекты самой обучающей совокупности:

1\ М а— 1 = Е?=1 с-1,3 хф,и. , Е с-1,3 = -1,

N (14)

. . О1 х ± .

^iV

3=1 —1>J ;

3 = 1

а1 = Е 1=1 С1,' хф,ш., Е С1,з = 1

3 = 1

Теорема 2. Для всякой точки х е Мм и диполя а-1,а1 е Мм (14)

выполняется равенство

N

т2(а-1, х) — т2(аь х) = Е (с-1,3 — с1,з)т2(хф,ш., х) —

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 = 1

1 NN

— « Е Е(с-1,зс-1,1 —с 1,3°1,1)р2(из)■

(15)

2 3=11=1

Доказательство. Теорема вытекает из следующих выкладок: т2(а-1 ,х) — т2(а1, х) = т2 (^Е 0-1,3, х^ — т2 ^ Е с1,3хш., х^ =

N 1 N N 3 N

= Е С-1,3т2(х^., х) — 2 Е Е С-1,3С-1,1т2(х^1, х^г) — Е С1,3т2(х^, х) + 3=1 2 3=11=1 3=1

1 NN

Е Е 01,3СМт2(х., хШ1) =

2 3=11=1

N 1 NN

= Е(°-1,3 — С1,3)т2(х^, х) — 2 Е Е(°-1,3С-1,1— С1,3°1,1)т2(хш., ) = 3=1 2 3=11=1

N 1 NN

= Е(°-1,3 — С1,3)т2(х^,х) — 2 Е Е(°-1,3С-1,1— С1,3°1,1)р2(и3)■ 3=1 2 3=11=1

В равенстве (15) только первая сумма в правой части зависит от предъявленного объекта и £ Q, являясь линейной комбинацией квадратов его расстояний от объектов обучающей совокупности, причем в качестве коэффициентов выступают разности c-i,j — cij, сумма которых для любого диполя a—i,ai £ RM должна равняться нулю согласно (14):

N

aj = c-i,j— ci,j, Y1 aj = (16)

j=i

Следующая теорема показывает, что длина (4) параметрически заданного диполя (14), которая должна быть фиксирована согласно (8), зависит только от коэффициентов (ai,..., aN).

Теорема 3. Расстояние между узлами диполя зависит только от исходных расстояний между объектами обучающей совокупности p2(uj ,u¡) (1) и коэффициентов (ai,..., aN)■'

1 NN

r2( a-i, ai) = (a i — a-i)TJp(a i — a-i) = - ^^ (—p2(uj ,u¡)) aj a¡. (17)

2

j=i i=i

Доказательство. Имеем

r2( a-i, ai) = (a i — a-i)T Jp(a i — a-i) =

N N \T /N N

= E ci,j x^j — E c-i,j xj Jp X] ci,l x^ — 52 c-i,l x^ Vj=i j=i / Vi=i i=i

= j^-ij — ci,j)x j J^E(c-i)i— ci,i)x^ =

j=i / M=i

N \T ( N \ N N

52 ajx j Jp ( E aix^J ^E (xLjpx^J ajai. j=i / Vi=i J j=i i=i v 7

Здесь x^j Jpx^ = 1 (xjj Jpx^j + x^ JpxШ1 — r2(xUj, xШ1 )), поэтому

1 N N , ч

r2( a-i, ai) x^. Jp xw + x^ Jpx^ — r2(xw, x^) aj ai =

2 j=i i=i v j J 1 J

1 N N 1 N N 1 N N

= 2 52 52 xZj JPx^jajai + 2 E 52 xh jpx^iajai— 2 E 52 r2(x^j, x^i)ajai 2j=i i=i 2j=i i=i 2j=i i=i

1 ( N \ N 1 ( N \ N

2 v 52 x^j JPx^j aj)Yl ai + 2 ( £ x^i Jpx^i ai) 2 aj — \j=i / i=i \i=i / j=i

=0 =0

1 N N 1 N N

—2 52 52r2(x^j,x^i)ajai = — 2 52 52r2(x^j,xщ)aja. 2j=ii=i 2j=ii=i

Теорема доказана.

Значения коэффициентов (а1,.. ■, aN) (16) определяют ориентацию диполя в псевдоевклидовом пространстве относительно образов объектов обучаю-

щей совокупности {хи

х

им

}, оставляя свободными как «параллельный

перенос» диполя, так и его «сдвиг» вдоль своей оси. Именно этот «сдвиг» и характеризует вторая двойная сумма в правой части (15), которая является константой по отношению к предъявленному объекту и е О. Обозначим ее символом

1

N N

Ь = — 2 е 2(с-13 С-и — С1,3 С1,1)Р2(и3, и1)■

(18)

3=11=1

Подставляя обозначения (16), (17) и (18) в (15) и далее в (13), мы получим эквивалентное выражение для дискриминантной функции, которая, как оказалось, полностью определяется N + 1 действительными числами (а1,..., aN, Ь):

((х|а1,..., aN, Ь) = 2

N

Е а3 т2(хш., х) + Ь

N

Е

3=1

1 NN

2

13=1

^0,

Е а3 = 0, (—Р2(и3, и)) а3 а = 1

(19)

3=11=1

В частности, если в качестве вектора х е Мм выступает образ реального объекта хф,и для некоторого центра ф е О, то дискриминантная функция полностью выражается через исходные расстояния этого объекта до объектов обучающей совокупности:

1

((и1а1,..., aN, Ь) = -

N

Е (—Р2(и3,и)) а3 + Ь .3=1

N

^ Е'

0.

(20)

3=1

В результате обучения должны быть найдены только числа (а1, ■ ■ ■, aN) и Ь при двух ограничениях типа равенств (19).

В дальнейшем, в разделе 4, для нас существенное значение будут иметь два факта. Во-первых, параметрическое семейство решающих правил классификации объекта и е О (20) определено непосредственно в исходном метрическом пространстве с произвольной метрикой и никак не зависит от выбора в нем центра ф е О. Во-вторых, для произвольной метрики квад-

ратичная форма Е^ ЕN=1 (—р2(ш3, иг)) а3аг, выражающая квадрат длины диполя (17), не является условно неотрицательно определенной, т.е. может принимать отрицательные значения даже при выполнении равенства

Е7=1 а3 =

3

3. Частный случай предевклидовой метрики: дискриминантная гиперплоскость в евклидовом линейном

пространстве

В случае предевклидовой метрики, когда пространство RM сигнатуры p = M, q = 0, является обычным евклидовым линейным пространством с метрикой: r2(x', x") = (x' — x'')T(x' — x") * 0, r(x', x'') = \/(x' — x'')T(x' — x''), всякий диполь с несовпадающими узлами a—i, а,\ G RM, а—1 = ai, имеет положительный квадрат длины (4)

r2(a—1,a1) = (a—1 — a1)T(a —1 — a1) > 0.

Тогда правило классификации точек евклидова линейного пространства (13) принимает вид обычной смещенной гиперплоскости с направляющим вектором единичной нормы:

d(x| a—1, a1) = (a 1 — a—1)Tx + b = 0,

(a 1 — a—1)T (a 1 — a—1) = 1, b = — 2( aT a1 — a—1 a—1).

После перехода в исходное метрическое пространство (20) специфика евклидовой метрики выражается в том, что в силу условной неотрицательной определенности выполняется неравенство J2f=1 i=1 (—p2(wj,ui)) ajai * 0

для всех J2f=1 aj = 0. Это, казалось бы, небольшое отличие от случая произвольной метрики приведет в разделе 4 к фундаментальному упрощению задачи обучения распознаванию образов.

4. Невыпуклая задача обучения по методу опорных объектов: максимизация зазора между объектами двух

классов

Практически буквальным выражением принципа оптимальной дискри-минантной гиперплоскости, лежащего в основе метода опорных векторов в [16], является критерий обучения в евклидовом метрическом пространстве, требующий максимизации зазора (англ. margin, в терминологии В.Н. Вап-ника)

yjd(uj) * е > 0, е — max, (21)

между объектами двух классов в обучающей совокупности {(uj, yj = ±1), j = = 1,...,N}, в нашем случае, согласно (12) и (15). Мы будем использовать здесь модификацию этого принципа, предложенную в кандидатской диссертации А. И. Татарчука [17], заключающуюся в том, что всякое нарушение неравенства (21) «наказывается» функцией потерь

j = { yjd(Uj> * е' (22)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I 1 — (1/e)yjd(uj), yjd(uj) <е,

в частности, öj = 1 при yjd(uj) = 0, и öj > 1 при yjd(uj) < 0. В качестве критерия обучения естественно искать такую гиперплоскость, которая разделяла бы обучающую выборку на два класса, с одной стороны, с как можно большей величиной зазора 1/е2 — min, а с другой, с как можно меньшей величиной суммарного штрафа для ошибочно классифицированных объектов обучающей выборки ЕN=i öj. Баланс таких требований к процессу обучения

выражается оптимизационным критерием 1/е-2 + СЕN=i öj — min, где С - структурный параметр, определяющий соотношение требований максимизации зазора и минимизации суммы потерь. Поскольку достаточно искать дискриминантную функцию, образуемую диполем единичной длины (20), то такой критерий обучения относительно искомых узлов диполя естественно записать как следующую задачу оптимизации с ограничениями в исходном метрическом пространстве:

N

-2 + . j=l

1

1/е2 + С Е öj — min(al;..., aN, b,e,öl,..., öN),

< —

yj

N

E (-P2(^j,ut)) ai + b

> £(1 - ), (23)

и=1

1 ММ N

53 > 0,3 = 1,...,м, -ЕЕ(-Р2К ,Ш1)) а3 щ = 1, Е а = 0.

21=11=1 1=1

Задача (23) есть задача оптимизации в линейном пространстве независимо от того, является ли метрика в множестве объектов О произвольной или евклидовой. Размерность этого пространства определяется числом объектов в обучающей совокупности.

Обратим внимание на важный факт, вытекающий из самой идеи пороговой функции потерь, выражающей главную сущность метода опорных векторов. Очевидно, что задача обучения инвариантна к изменению масштаба приятой метрики 7р2(ш/,ш"), поскольку в этом случае надо пропорционально изменить также порог функции потерь ^ £ согласно (20), (21) и (22):

1

N

Е

Ll=i

Y {-P2(^j ^ al + b

>Ye(1 - ö3). (24)

Этот факт очевиден в исходной формулировке задачи обучения по методу опорных векторов (23), но потеряет очевидность в ее дальнейших эквивалентных преобразованиях.

В этой задаче переменные (а1,..., ам) подлежат варьированию на границе, вообще говоря, невыпуклой области (1/2)Е/=1Е 1=1 (—р2(шз ,шг)) х ха3щ = 1. Мы применим идею, лежащую в основе БУМ, и заключающуюся в замене исходной задачи на эквивалентную задачу оптимизации внутри этой области (1/2) Ем^ Е= (-Р2(шза1 аг ^ 1, которая, в отличие от классической задачи опорных векторов [16], является невыпуклой.

Разделим обе части ограничений-неравенств во второй строке (23) на е:

N

У3

е ^)) 2е+2е

.1=1

^ 1 -

и выполним замену переменных:

а = аг/2е, Ь = Ь/2е. (25)

С учетом этой замены ограничение-равенство в последней строке примет вид

NN 1

2ЕЕ (-Р2(шз,"'))а3а = е2. (26)

3=1г=1

Заметим, что требование максимизации зазора 1/е2 ^ ш1п в критерии (23) равносильно требованию минимизации этой квадратичной формы, которая в общем случае произвольной метрики не является условно неотрицательно определенной, и может принимать сколь угодно большие по модулю отрицательные значения.

Мы приходим к следующей задаче обучения, эквивалентной задаче (23):

' N N _ N _ _

Е Е (-р2(^3 ,шг)) аза + С Е ¿з ^ шт(аь .. ,Мъ .. ), С = ^,

">3^1 I ^ и3 шш • • • > VI, ■ ■ ■ , ищ )■, ^ — 2

3 = И=1 3=1

N _

^ 1 - , ^ 0, $ = 1,...,М

У3

Е (-р2(ш3,шг)) а1 + Ь

1=1

(27)

Здесь не учтены ограничения на коэффициенты при объектах обучающей совокупности ЕN=1 а3 = 0 (23), однако, как мы увидим ниже, решение задачи (27) будет автоматически удовлетворять этим условиям.

Заметим, что это невыпуклая задача оптимизации в выпуклом множестве, задаваемом линейными ограничениями типа неравенств, поскольку квадратичная форма в целевой функции не является условно неотрицательно определенной при Е3=1 а3 = 0. Задача становится выпуклой, только если заранее известно, что метрика является евклидовой, как это предполагалось в наших предыдущих публикациях [15].

5. Необходимое условие локального решения задачи

обучения

Хотя задача обучения (27) получена из существенно более общего предположения произвольной метрики, формальная запись задачи ничем не отличается от ее прежней формулировки для евклидовой метрики [15]. Задача (27) является задачей минимизации квадратичной целевой функции с двумя совокупностями линейных ограничений типа неравенств,

У3 [£г=1 (-р2К )) а + ь] -1 + ¿3 > 0, $ = 1,...,Ы, и ¿3 > 0, $ = 1,...,Ы.

В силу невыпуклости квадратичной формы, входящей в состав целевой функции, можно говорить лишь о поиске локального минимума с линейными ограничениями-неравенствами. Условием локального минимума является выполнение условия седловой точки функции Лагранжа [18,19]

Ь(а1,... ,ам, Ь,6\,..., 6м; Аь ..., Ам; Цг, ■ ■ ■, Нм) =

1 мм _ м

2

= й Е Е (-р2(из,иг)) аа1 + т Ё 5з-

3=11=1 3=1

м

- Е Аз{ Уз

3 = 1

м _

Е (-Р2(из,шг)) Щ + Ь И=1

м

-1 + 5з\ - Е Нз 5з ^

(28)

3=1

{шш^ь ..., ам, Ь,51,..., 5м),

тах(А1 ^ 0,...,Ам > 0; Н1 > 0,...,нм > 0),

аргументами которой, наряду с целевыми переменными (а1,... ,ам, Ь, ¿1,... ... ,5м), являются также неотрицательные множители Лагранжа, которые обозначим как (А1,..., Ам) для первой группы ограничений и (нь ..., Нм) для второй.

Для поиска седловой точки зафиксируем сначала значения множителей Лагранжа и найдем необходимые условия минимума функции Лагранжа по целевым переменным:

' дЬ(Щ,...,ам ,Ь,А1,.Ам, 51, ...,5м ,Н1,..., Нм) = 0

_ _ даз '

0Ь(а1, ...,ам ,Ь,А1,..., Ам, ¿1,..., 5м ,Н1,..., Нм) = 0

дЬ = ,

дЬ(й1,... ,ам,Ь, А1,..., Ам,51,...,5м,^1,... ,нм)

- дё3

После дифференцирования получим:

дЬ(а1,... ,ам ,Ь, А1,..., Ам ,51,... ,5м, н1,..., Нм)

даз

мм 1

= 2 Е (-Р2(из))аз - Е АзУз (-Р2(из, и1)) = 0 аз = 2 УзАз, з=1 з=1 2

= 0, 3 = 1,...,М.

(29)

дЬ(&, Ь,А1,...,Ам ,¿1,... ,5м ,Н1,..., Нм) = м \ = 0 (30)

дЬ = Уз Аз =0, (30)

з=1

дЬ(а,Ь,А1,...,Ам ,51,...,5м ,Н1,...,Нм) , =п \ , _ -д55~.- = С - Аз - Н = 0, Аз + Н = С,

з _ (31)

т. е. 0 ^ Аз ^ С, поскольку цз ^ 0. (32)

Подстановка этих условий в лагранжиан (25) дает условие седловой точки:

Ь(а1,..., аN Ь, Х\,..., Хм ,5\,... ,5м ) =

N N _ N

(-р2(к ,шг)) щ щ + се 5з-

3=11=1 3=1

N Г Г N

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Е ХА Уз

3=1 I и=1

NN , N

Е (—р (шз,К)) аг + Ь

N

-1 + 5з\ - Е нз 5з =

3=1

= Е Е (-Р2(К))^ ^ + С Е 5з-3=1 г=1 з=1

N

- Е хЛУз Т, (VКТ + Ь - 1 + 5Л - Е Нз5з 3=1 I и=1 ] ) 3=1

1 NN 1 NN

= 4 Е Е (-р2(кз,Кг)) Х3УзХгУг - 2 Е Е (-Р2(кз,Кг)) ХзУзХгУг + Е Хз-4 3=1 г=1 2 3=1 г=1 3=1

N NN N

Ь Е Х3 Уз + С Е 53 - Е Х3 5з - Е Нз 53 =

^ 3=1_^ ^ 3=1_3=1__3=1 ^

=0 =0

N 1 NN

Е Х3 - 4 Е Е (-Р2(кз, Кг)) ХзУзХгУг ^ тах(Х1,.. ). 3=1 4 3=1 г=1

Это условие должно выполняться при ограничениях (30) и (32). В результате мы получим задачу оптимизации, которая, в сущности, играет роль двойственной формы задачи обучения (27):

( N 1 NN

Е Хз - 4 Е Е Уз Уг (-Р2 (кз ,иг)) Хз Хг ^ тах(Хь..., ХN), 3=1 4 3=1 г=1 N _

ЕУзХз =0, 0 < Хз < С,3 = 1,...,М. з=1

(33)

Заметим, что задача (33) есть задача максимизации невогнутой функции в выпуклой области. Эту задачу уместно называть «наивной» двойственной задачей, поскольку согласно (29) ее решение определят искомый вектор коэффициентов диполя (а1,... ,aN), удовлетворяющий необходимым условиям локального решения задачи обучения (27):

а3 = 1 У3 Х3, 3 = 1,...,м.

(34)

Теорема 4. Любое решение (А1,..., А*) задачи (33) полностью определяет параметры решающего правила 'распознавания (25):

3 (1/2) £ р2К)уА1 - С £Уз

_ 1 , - 3-.0<\1<С 1:Х1>0 у.Х1 =С

а

- j:0<Лj<C

j - 2yjXj, = °> b =-^—Yj

J j:0<\j<C

а также значение максимального зазора в (23):

(35)

1 1 3 *

¿2 = 2 Е Е УзУ1 (-Р2(из , ^ Аз А1■ (36)

з=1 1=1

Доказательство теоремы основном повторяет доказательство в статье [15] за исключением того, что рассматриваются лишь необходимые условия минимума функции Лагранжа по переменным (а1,... ,а*)•

Из (35) и ограничения-равенства в двойственной задаче (33) с учетом переобозначения (25) вытекает равенство £.,=1 аз = 0, как мы и обещали выше.

6. Дополнительный квадратичный штраф в виде замещающего (proxy) кернела

Наиболее современная численная реализация метода опорных векторов для работы с индефинитными кернелами представлена в [20]. Предполагается, что матрица значений парных отношений между объектами Ко обучающей выборки - есть шумовая реализация некоторой, неизвестной наблюдателю неотрицательно определенной замещающей матрицы К (proxy kernel). В нашем случае роль матрицы Ко играет матрица, сотавленная из значений (-p2(uj,ui)) в критерии (33). Критерий обучения по методу опорных векторов в [20] предлагается решать в следующем регуляризованном виде:

1 N N

max min£ \j - - £ £ \j \kyjykK (uj ,uk) + Ai,.. . ,An К - j=i k=i

N N 2

< +«EE[K (uj ,Uk) - Ko(uj ,Uk)] , j=i k=i

N

£ Xjyj = 0, 0 ^ Xj ^ C, К ^ 0, j=i

где параметр a > 0 определяет штраф за различие элементов наблюдаемой матрицы от замещающей. Критерий приводит к оптимизационной задаче с недифференцируемой целевой функцией (критерий(5) в [20]), и предложен способ замены исходного критерия его сглаженным аналогом и его оптимизация двумя алгоритмами - методом проекций градиента и методом отсекающих плоскостей. В последующей публикации [21] для оптимизации

предложена версия задачи линейного полубесконечного программирования с квадратичными ограничениями (semi-infinite quadratically constrained linear program, SIQCLP) и итерационный алгоритм ее решения. Вычислительная эффективность процедуры улучшена за счет предложенного способа отсечения неактивных ограничений. В ещё более поздней публикации [22] показано, что критерий является непрерывно дифференцируемым и его градиент может быть явно вычислен. Для оптимизации предлагается процедура градиентного спуска, существенно превосходящая по вычислительной эффективности процедуры, описанные в предыдущих работах.

7. Заключение

Статья является продолжением работы [1]. Предложен механизм построения решающих правил обучения распознаванию образов в ситуации, когда объекты распознавания представлены только парными отношениями в виде произвольной метрики. Основным результатом является применение аппарата аффинной комбинации объектов псевдоевклидова линейного пространства, который служит основой для введения дискриминантной функции в двухклассовой задаче распознавания образов. Предложен критерий, опирающийся только на парные отношения между объектами обучающей совокупности.

Список литературы

1. Середин О.С., Абрамов В.И., Моттль В.В. Аффинные операции в псевдоевклидовом линейном пространстве // Известия Тульского государственного университета. Естественные науки. 2014. Вып. 3. С. 178-196.

2. Goldfarb L. A unified approach to pattern recognition // Pattern Recognition. 1984. V. 17. № 5. P. 575-582.

3. Goldfarb L. What is distance and why do we need the metric model for pattern learning? // Pattern Recognition. 1992. V. 25. № 4. P. 431-438.

4. Pekalska E., Paclik P., Duin R. P. W. A generalized kernel approach to dissimilarity-based classification // The Journal of Machine Learning Research. 2002. V. 2. P. 175-211.

5. Laub J., MUller K. R. Feature discovery in non-metric pairwise data // Journal of Machine Learning Research. 2004. V. 5. P. 801-818.

6. Torgerson W. S. Theory and Methods of Scaling. New York: John Wiley and Sons, 1958.

7. Schoenberg I. J. Remarks to Maurice Frechet's Article «Sur La Definition Axiomatique D'Une Classe D'Espace Distances Vectoriellement Applicable Sur L'Espace De Hilbert» // Annals of Mathematics. 1935. P. 724-732.

8. Ong C. S., Mary X., Canu S., and Smola A. J. Learning with non-positive kernels // Proceedings of the twenty-first international conference on Machine learning. ACM, 2004. P. 81.

9. Haasdonk B. Feature space interpretation of SVMs with indefinite kernels // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. V. 27. №4. P. 482-492.

10. Chang C.-C. and Lin C.-J. LIBSVM: a library for support vector machines // ACM Transactions on Intelligent Systems and Technology, 2:27:1-27:27, 2011.

11. Lin H.T., Lin C.J. A study on sigmoid kernels for SVM and the training of non-PSD kernels by SMO-type methods // Submitted to Neural Computation. 2003. P. 1-32.

12. Pekalska E, Haasdonk B. Kernel discriminant analysis for positive definite and indefinite kernels // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009. V. 31. № 6. P. 1017-1032.

13. Hein M, Bousquet O. Maximal margin classification for metric spaces // Learning Theory and Kernel Machines. Berlin, Heidelberg; Springer, 2003. P. 72-86.

14. Hein M, Bousquet O, Scholkopf B. Maximal margin classification for metric spaces // Journal of Computer and System Sciences. 2005. V. 71. № 3. P. 333-359.

15. Абрамов В.И., Середин О.С., Моттль В.В. Обучение распознаванию образов в евклидовых метрических пространствах по методу опорных объектов // Известия Тульского государственного университета. Естественные науки. 2013. Вып. 2. С. 119-136.

16. Vapnik V. Statistical Learning Theory. John-Wiley & Sons, Inc., 1998. 736 p.

17. Татарчук А.И. Байесовские методы опорных векторов для обучения распознаванию образов с управляемой селективностью отбора признаков: дис.. . . канд. физ.-мат.наук. М.: ВЦ РАН, 2014.

18. Зангвилл У. И. Нелинейное программирование. Единый подход. М.: Советское радио, 1973. 312 с.

19. Zangwill W. I. Nonlinear programming: A unified approach. Prentice-Hall, 1969. 356 p.

20. Luss R., d'Aspremont A. Support vector machine classification with indefinite kernels // Advances in Neural Information Processing Systems. 2008. P. 953-960.

21. Chen J., Ye J. Training SVM with indefinite kernels // Proceedings of the 25th international conference on Machine learning. ACM. 2008. P. 136-143.

22. Ying Y., Campbell C, Girolami M. Analysis of SVM with indefinite kernels // Advances in neural information processing systems. 2009. P. 2205-2213.

Середин Олег Сергеевич (oseredin@yandex.ru), к.ф.-м.н., доцент, кафедра информационной безопасности, Тульский государственный университет.

Моттль Вадим Вячеславович (vmottl@yandex.ru), д.т.н., профессор, кафедра информационной безопасности, Тульский государственный университет, кафедра интеллектуальных систем, Московский физико-технический институт, в.н.с., ВЦ им. А.А. Дородницына РАН, Москва.

Support objects method for arbitrary metric spaces O.S. Seredin, V.V. Mottl

Abstract. The methodology of featureless pattern recognition in the set of objects with dissimilarity function with metric properties is suggested. Basis on the notion of affine operations in pseudo-Euclidian space, indefinite inner product and margin maximization the criterion of training in the metric space of arbitrary properties is developed.

Keywords: featureless pattern recognition, pattern recognition in arbitrary metric spaces, affine operations in pseudo-Euclidean linear space.

Seredin Oleg (oseredin@yandex.ru), candidate of physical and mathematical sciences, associate professor, department of information security, Tula State University.

Mottl Vadim (vmottl@yandex.ru), doctor of technical sciences, professor, department of information security, Tula State University, department of intelligent systems, Moscow Institute of Physics and Technology, principal investigator, Dorodnicyn Computing Centre of RAS, Moscow.

Поступила 10.09.2015

Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Середин Олег Сергеевич, Моттль Вадим Вячеславович

Похожие темы научных работ по математике , автор научной работы — Середин Олег Сергеевич, Моттль Вадим Вячеславович

Текст научной работы на тему «Метод опорных объектов для обучения распознаванию образов в произвольных метрических пространствах»