Научная статья на тему 'Аффинные операции в псевдоевклидовом линейном пространстве'

Аффинные операции в псевдоевклидовом линейном пространстве Текст научной статьи по специальности «Математика»

CC BY
202
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЕЗПРИЗНАКОВОЕ РАСПОЗНАВАНИЕ ОБРАЗОВ / РАСПОЗНАВАНИЕ ОБРАЗОВ В ПРОИЗВОЛЬНЫХ МЕТРИЧЕСКИХ ПРОСТРАНСТВАХ / АФФИННЫЕ ОПЕРАЦИИ В ПСЕВДОЕВКЛИДОВОМ ЛИНЕЙНОМ ПРОСТРАНСТВЕ

Аннотация научной статьи по математике, автор научной работы — Середин Олег Сергеевич, Абрамов Вадим Игоревич, Моттль Вадим Вячеславович

Вводится необходимый формализм для возможности формулирования методов безпризнакового обучения распознаванию образов в множествах объектов, представленных только некоторой числовой функцией парного несходства между ними, обладающей свойствами произвольной метрики. Определено погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство, т.е. линейное пространство с индефинитным скалярным произведением. В частности, для специального класса метрик, названных пред-евклидовыми, такое погружение дает евклидово линейное пространство с обычным скалярным произведением, и приводит к классическому методу потенциальных функций в теории обучения распознаванию образов. Введено понятие аффинных операций в псевдоевклидовом линейном пространстве, что позволит в дальнейшем построить методологию обучения распознавания образов в множествах объектов с произвольной метрикой, существенно обобщающую классический аппарат метода потенциальных функций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Середин Олег Сергеевич, Абрамов Вадим Игоревич, Моттль Вадим Вячеславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Аффинные операции в псевдоевклидовом линейном пространстве»

Известия Тульского государственного университета Естественные науки. 2014. Вып. 3. С. 178-196 Прикладная математика и информатика =

УДК 004.93; 515.124.4

Аффинные операции в псевдоевклидовом линеином пространстве *

О. С. Середин, В. И. Абрамов, В. В. Моттль

Аннотация. Вводится необходимый формализм для возможности формулирования методов безпризнакового обучения распознаванию образов в множествах объектов, представленных только некоторой числовой функцией парного несходства между ними, обладающей свойствами произвольной метрики. Определено погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство, т.е. линейное пространство с индефинитным скалярным произведением. В частности, для специального класса метрик, названных пред-евклидовыми, такое погружение дает евклидово линейное пространство с обычным скалярным произведением, и приводит к классическому методу потенциальных функций в теории обучения распознаванию образов. Введено понятие аффинных операций в псевдоевклидовом линейном пространстве, что позволит в дальнейшем построить методологию обучения распознавания образов в множествах объектов с произвольной метрикой, существенно обобщающую классический аппарат метода потенциальных функций.

Ключевые слова: безпризнаковое распознавание образов, распознавание образов в произвольных метрических пространствах, аффинные операции в псевдоевклидовом линейном пространстве.

1. Введение

Сущность проблемы восстановления скрытой зависимости по эмпирическим данным, составляющей важнейший аспект современной информатики, заключается в следующем [1]. Пусть в пределах некоторой генеральной совокупности объектов реального мира П всякий объект и € П характеризуется значениями двух переменных - доступной наблюдателю х(и) € X и скрытой у (и) € ¥. Природа «случайно» выбирает некоторый объект и требует, чтобы наблюдатель «угадал» значение скрытой характеристики по наблюдаемой, всякий раз «наказывая» его за ошибку

* Работа выполнена при финансовой поддержке РФФИ (проекты № 14-07-00527 и № 1407-00661).

f (x(u)) = у(и). Такую задачу называют задачей оценивания числовой (обычно говорят - регрессионной) зависимости, если множество значений скрытой характеристики есть множество действительных чисел Y = R, и задачей распознавания образов, если скрытая характеристика принимает значения из конечного неупорядоченного множества Y = [у\,... ,ym}. В данной статье мы ограничимся рассмотрением задачи распознавания образов, причем только для двух классов объектов Y = {-1, 1}.

Предполагается, что единственным объективным источником информации о скрытых свойствах природы, доступным наблюдателю, является конечная обучающая совокупность

(X, y) = {x (и,-) = xj, у (и) = у3, j € J} , J = {1,..., N}, (1)

в которой известны истинные значения обеих характеристик объектов. Принятый наблюдателем метод выбора решающего правила у (x(u)), f(x) € € {-1, 1}, применимого ко всякому объекту, в том числе не представленному в обучающей совокупности (x^) € (X, y) (1), называется методом обучения.

Пожалуй, наиболее популярным в мировой литературе методом обучения распознаванию образов с двумя классами объектов является метод опорных векторов В.Н. Вапника и А.Я. Червоненкиса (SVM - Support Vector Machine) [2], в основе которого лежит ими же ранее предложенный метод обобщенного портрета [3]. Внимание исследователей к этому методу объясняется двумя обстоятельствами, определяющими его особое удобство при решении широкого класса прикладных задач компьютерного анализа данных.

Во-первых, если объекты реального мира из генеральной совокупности и € Q могут быть представлены в компьютере векторами их действительных признаков x(u) € Rn, то получаемое решающе правило распознавания выражено в терминах не самих векторов признаков, а лишь их попарных скалярных произведений (x(u'))T x(w") : Q х Q ^ R. Линейное дихотомическое решающее правило d(x) имеет вид дискриминантной гиперплоскости в пространстве признаков

d(x) = f = £ у Aj xTx+ f { > 0 ^ f(x) = ^ Aj > 0, (2)

требуя вычисления скалярного произведения вектора признаков нового объекта х(ш) с векторами признаков объектов обучающей совокупности х(^-) (1).

Во-вторых, как правило, большинство неотрицательных коэффициентов \j, определяющих направляющий вектор дискриминантной гиперплоскости а = ^^ yjАjXj в (2), оказываются равными нулю, и сохранять в памяти достаточно лишь небольшое число векторов признаков остальных объектов обучающей совокупности J = : Аj > 0} С J = }, называемых

опорными, которые дали название методу опорных векторов. Таким

образом, итоговое решающее правило распознавания класса нового объекта оказывается существенно проще его исходного вида (2):

d(x) = £ yjAj-xJx+ J{ < 0 ^ IXjl-i. J > 0, j € J с J- (3) je!

Это обстоятельство лежит в основе общего подхода к распознаванию образов, в котором предполагается, что объекты представлены лишь некоторой двухместной функцией их парного сравнения K(и', и'') : Q х Q ^ R вместо индивидуальных векторов признаков x(u) € Rn. Такой способ представления объектов особенно адекватен широкому классу приложений, в которых трудно выбрать числовые признаки отдельных объектов, но достаточно легко вычислить некоторую числовую характеристику отношения между любыми двумя объектами. Для того, чтобы процесс обучения, т.е. построения дискриминантной гиперплоскости (3), сохранил все преимущества исходного метода опорных векторов, традиционно принято считать, что функция K(и', и'') : Q х Q ^ R должна быть кернелом, т.е. быть симметричной K(и', и'') = K(и'', и') и образовывать неотрицательно определенные матрицы

Kn = [K(и,и), j,l = 1,...,N], ctKnc ^ 0, c € Rn, (4)

для любой конечной совокупности объектов, в частности, удовлетворять условию K(и, и) ^ 0 при N = 1 [4]. Всякий кернел погружает множество объектов реального мира и € Q в большее гильбертово линейное пространство Q ^ Q, в котором играет роль скалярного произведения [2]. Решающее правило распознавания имеет в этом случае вид, аналогичный (3), с тем лишь отличием, что кернел K(Uj, и) используется вместо скалярного произведения векторов признаков xjx = (x(uj))tx(u):

¿(u) = E yjAjK(Uj ,u) + 6 I > 0 П ^(x) = \ J > 0, j € J. (5)

je J

Здесь уже нет векторов признаков объектов в явном виде, поэтому метод

(5) уместно называть методом опорных объектов.

В то же время, требование неотрицательной определенности для функции парного сравнения объектов оказывается слишком обременительным для многих прикладных задач анализа данных. Альтернативный подход был предложен Р. Дьюином и его коллегами [5, 6] под названием реляционного дискриминантного анализа (Relational Discriminant Analysis) и независимо в работах [4, 7] (беспризнаковое распознавание образов). Идея заключается в том, чтобы интерпретировать значения произвольной функции парного сравнения между всяким объектом и € Q и всеми объектами обучающей совокупности {ui,...,un} как вектор вторичных признаков этого объекта

x(u) = (xi(u) = S(ui,u), i = 1,...,N), и применить затем обычный метод опорных векторов в RN (3):

N (

d(U) = ^ у," s(u^ Uj)s(u^ и) + f J < 0 ^ f(u) = fj > 0 j € f.

(6)

Именно такой подход развивается в одной из наших предыдущих публикаций [8].

С формальной точки зрения решающее правило (6) остается в классе правил опорных объектов, поскольку каждая сумма Y1 ¿=1 S(u^u,)S(ui,u) выражает сравнение нового объекта и € Q только с опорными объектами обучающей совокупности {u, : j € J}. Однако применение правила (6) требует вычисления его вторичных признаков относительно всех объектов обучающей совокупности xj(u) = S(uj,u), i € J = {1,...,N}, которые все равно приходится хранить. Последнее обстоятельство разрушает основное преимущество метода опорных объектов (5) - возможность не запоминать обучающие объекты, не являющиеся опорными. В работе [9] мы показали, что решающее правило (6) эквивалентно правилу опорных объектов (5) в том и только том случае, когда функция парного сравнения объектов S(u', и'') обладает свойствами кернела (4).

Далее, в работах [10, 11] мы показали, что если на множестве объектов определен кернел, то существует континуум других кернелов, полностью эквивалентных ему в смысле решающего правила распознавания вида (5), причем с тем же множеством опорных объектов J С J = {1,...,N} для всякой обучающей совокупности (1), которые отличаются друг от друга только значениями коэффициентов f > 0, j € J. Все эти эквивалентные кернелы определяют одну и ту же метрику на множестве объектов р(и',и'') : Q х Q ^ R, удовлетворяющую, в дополнение к обычному неравенству треугольника

р(и',и'') + р(и'', и''') ^ р(и', и'''), (7)

еще и требованию условной неотрицательной определенности матриц

N

pn = [-P2(u,), j,l = 1,..., N] , cTpnc ^ 0, 1Tc = Y^ с, = 0, (8)

j=i

для всех конечных совокупностей объектов. Метрики такого вида уместно называть пред-евклидовыми метриками (proto-Euclidean metric) (термин предложен К.В. Воронцовым) в отличие от стандартного понятия евклидовых метрик, определяемых в некотором линейном пространстве выбором скалярного произведения. Впрочем, это очень небольшое обобщение, поскольку, как показано в [10, 11], всякая пред-евклидова метрика р(и', и''), определенная на заданном множестве и € Q с произвольно

выбранным «центральным» элементом ф € О, погружает его в некоторое линейное пространство ° ^ О с нулевым элементом ф € ° и скалярным произведением

Кф(ш', ш'') = 1 [р V, ф) + р V, ф) - р V, ш'')], (9)

определяющим в этом линейном пространстве евклидову метрику в обычном смысле. Последняя метрика является однозначным продолжением на ° исходной метрики р(ш', ш'') в О относительно произвольного выбора нулевого элемента ф € °.

Таким образом, согласно [10, 11] вместо кернела на исходном множестве объектов ш € О достаточно определить пред-евклидову метрику (8). Тогда соответствующее обобщение метода опорных векторов, сформулированное в [10, 11], приведет к решающему правилу распознавания класса нового объекта вида

d(u) = £ у, л, (-р2(и, ,и)) + f { > 0 П f(U) = 1, Л > 0, j € f. (10)

jef

Метрический метод опорных объектов (10) является обобщением кернельного метода (5) и существенно более удобен для практического применения, поскольку нет надобности, в дополнение к пред-евклидовой метрике (8), назначать в множестве объектов реального мира и € Q еще и нулевой элемент ф € Q, выбор которого безразличен. Однако ему присущ тот же недостаток, что и традиционному кернельному методу - если содержательный смысл решаемой задачи анализа данных, как правило, подсказывает естественный выбор метрики на множестве объектов заданной физической природы р(и',и'') : Q х Q п R (7), то обеспечить наличие у нее свойства пред-евклидовости (8) крайне непросто.

В частности, в задачах классификации биологических полимеров, аминокислотных цепей белков либо нуклеотидных цепей ДНК, общепринятым является способ оптимизационного выравнивания длин двух сравниваемых последовательностей (pair-wise alignment) [12, 13]. Аналогичный оптимизационный метод парного сравнения сигналов разной длины, например в задачах компьютерного анализа речи, получил в англоязычной литературе название dynamic time warping [14, 15]. Ещё одним примером задачи, в которой естественным образом порождается функция парного отношения между объектами анализа - это распознавание форм бинарных растровых изображений на основе сравнения их скелетных представлений [16]. Все эти методы приводят к некоторым метрикам на соответствующем множестве последовательностей либо сигналов (7), но эти метрики принципиально не являются пред-евклидовыми (8). Не обладает свойством пред-евклидовости и метрика на множестве динамических подписей [17], задача классификации которых рассматривалась в

экспериментальной части нашей статьи [11], где по этой причине наивное применение метрического метода опорных объектов не во всех экспериментах привело к успеху.

Именно эта проблема является предметом систематического изучения в настоящей статье. Мы исходим из предположения, что на множестве объектов реального мира, в котором наблюдателю необходимо решать задачу обучения распознаванию образов, определена произвольная метрика (7), вообще говоря, не являющаяся пред-евклидовой (8). В этом случае любой выбор центрального элемента ф € П приводит к двухместной функции (9), не являющейся кернелом, и метод опорных объектов (5), а вместе с ним и его метрическое обобщение (10), становятся неприменимыми в их исходном виде. Основная причина заключается в том, что исходное произвольное метрическое пространство удается вложить лишь в псевдоевклидово линейное пространство, в котором метрика определена не для всех пар элементов, и существенно искажается само понятие дискриминантной гиперплоскости.

На первый взгляд, это обстоятельство не позволяет понимать заданную метрику иначе, как один из видов произвольной функции парного сравнения объектов Б= р(ш',ш''), и наблюдателю остается лишь использовать методологию реляционного дискриминантного анализа (6), разрушающую основное преимущество метода опорных объектов. Тем не менее, в данной статье используется существенная специфика метрики как специального вида функции парного сравнения, удовлетворяющей неравенству треугольника (7). Именно на основе максимальной эксплуатации неравенства треугольника в статье рассматриваются пути «спасения» преимуществ метода опорных объектов, основанные на том факте, что для элементов метрического пространства объектов реального мира, погружаемого в псевдоевклидово линейное пространство как подмножество изолированных точек, сохраняется корректное значение метрики.

2. Погружение метрического пространства с произвольной метрикой в псевдоевклидово линейное пространство

Пусть П — некоторое множество (генеральная совокупность) объектов реального мира с заданной на нем метрикой р(ш', ш'') (7). Выберем некоторый элемент ф € П в качестве «центра» метрического пространства и образуем двухместную функцию

Будем называть эту функцию общностью пары элементов метрического пространства относительно его центра. Заметим, что общность пары элементов метрического пространства относительно его центра аналогична

(11)

известному понятию подобности произведения Громова (Gromov product similarity) [18].

Из определения общности (11) следует, что общность элемента метрического пространства и € П с самим собой равна квадрату его расстояния до центра Кф(и, и) = р2(и, ф). Следовательно, расстояние между любыми двумя элементами однозначно определяется их общностями друг с другом и с самим собой независимо от выбора центра:

р2(и',и'') = Кф(и',и') + Кф(и'',и'') - 2Кф(и',и''). (12)

Теорема 1. Если Кф(и',и'') - общность двух элементов метрического пространства относительно центра ф, то их общность относительно другого центра ф определяется формулой

Кф(и', и'') = Кф(и', и'') - Кф(и', ф) - Кф(и'', ф) + Кф(ф, ф). (13)

Доказательство. Раскроем правую часть равенства (13) согласно определению общности (11):

Кф(и', и'') - Кф(и', ф) - Кф(и'', ф) + Кф(ф, ф) =

= 2 [р2(и', ф) + р2(и'', ф) - р2(и', и'') - р2(и', ф) - р2(ф, ф) + р2(и', ф)-

-р2(и'', ф) - р2(ф, ф) + р2(и'', ф) + р2(ф, ф) + р2(ф, ф) - р2(

= 2 [р2(и',ф) + р2(и'',ф) - р2(и', и'')] = Кф(и',и''). °

Предположим для простоты, что множество Q конечно |П| = M, Q = {ui, ..., им}, причем порядок нумерации его элементов в дальнейшем не будет играть существенной роли. Составим симметрическую матрицу значений общности относительно выбранного центра Кф = = [Кф(и^и?), = 1,...,M]. Эта матрица имеет лишь концептуальное значение в наших рассуждениях. Число строк и столбцов этой матрицы может быть сколь угодно велико, но нам не придется обращаться к полному множеству ее элементов ни в каких вычислительных процедурах.

Дополнительно предположим, что множество Q с заданной на нем метрикой р(и , и ) удовлетворяет условию, несколько более сильному, чем неравенство треугольника (7):

р(и',и'') + р(и'', и''') > р(и', и'''), (14)

если и', и'', и''' € П — попарно несовпадающие элементы.

Иначе говоря, мы предполагаем, что с математической точки зрения метрическое пространство объектов реального мира состоит из изолированных элементов, т.е. для любых двух разных объектов нет реального объекта, находящегося строго «между» ними. Такое предположение понадобится нам ниже в разделе 3.

В силу симметричности матрицы Кф(М х М) все её собственные числа и собственные векторы действительны, причем собственные векторы попарно ортогональны. Без ограничения общности можно считать нормы собственных векторов равными единице. Разумеется, собственные числа и векторы этой матрицы зависят от выбора центра метрического пространства ф € О, но мы не будем отражать этот факт в обозначениях для простоты записи:

¿1 € М,..., См € М,

,т„ = / 1, г = з, (15)

0, г = З

€ Мм ,... € Мм ,..., zм € Мм ,

Известно, что матрица Кф всегда может быть представлена в виде

м

мм / ¿^¿=1 £¿¿¿1^1 ••• ¿^¿=1 ¿¿¿¿1^м \

Кф = У] =

¿=1

мм V ¿^¿=1 ¿¿¿¿м¿¿1 ... ¿^¿=1 ¿¿¿¿м¿¿м /

Для произвольной метрики матрица Кф, вообще говоря, не является положительно определенной, поэтому среди ее собственных чисел могут быть как положительные, так и отрицательные числа. Упорядочим собственные числа в порядке убывания, полагая, что ¿1 ^ 0,..., СРф ^ 0, и Срф+1 < 0,..., См < 0. Условимся все числа С считать неотрицательными и введем обозначения

С1 ^ 0,..., Срф ^ 0, Срф+1 = -Срф+1 > 0,... ,См = -См > 0. (16)

Пару целых чисел рф + ^ф = М принято называть сигнатурой матрицы Кф, которая в нашем случае является матрицей общности заданной метрики, а число 0 ^ рф ^ М обычно называют положительным индексом инерции соответствующей квадратичной формы.

Теорема 2. Сигнатура матрицы Кф не зависит от выбора центра метрического пространства ф € О.

Доказательство (получено Е.О. Черноусовой). Пусть имеется совокупность объектов {ш1,...,шм}, объект ф = ш^ выбран как центр, и функция общности (11) образует матрицу Кф = = (ш^ш^-), г, з = = 1,..., М]. Пусть теперь другой элемент назначен на роль центра ф = ш>г, определяя другую матрицу общности К^ = К^г = (ш^ш^), г,з = 1,... ..., М]. Согласно теореме 1 справедливо равенство (13)

) = ) - шг) - (ш^-,шг) + (шг,шг).

Введем обозначение (М х М) для матриц, в которых все

элементы нули, кроме 1-й строки, состоящей из единиц, и элемента на пересечении к-й строки и 1-го столбца, равного единице.

Нетрудно убедиться, что

К — К — К А

- Ат К + Ат К А

(I ) (I ) — Я^к

Заметим, что матрицы Я,

I — А^к невырождены.

Рассмотрим квадратичные формы хтК^кх и утК^гу, х, у € ММ. Здесь

уТКшгу — уТК^к у — у) К^к у) •

Как видим, квадратичные формы совпадают при взаимно однозначной подстановке х — у. В силу закона инерции квадратичных форм

[19,20] числа положительных, нулевых и отрицательных и собственных чисел матриц К^к и К^г совпадают, т.е. совпадают их сигнатуры.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Значения собственных чисел £1,..., £м, вообще говоря, зависят от выбора центра ф € П, но после расположения их в порядке убывания (16) число положительных р и отрицательных д чисел остается неизменным в силу теоремы 2, поэтому второй нижний индекс в обозначениях собственных чисел можно отбросить:

£1 ^ 0,... ,£р ^ 0, £р+1 — — £р+1 > 0,... ,£м — — £м > 0.

(17)

Это означает, что сигнатура является характеристикой заданной метрики, а не выбора центра метрического пространства.

В принятых обозначениях собственных чисел выполняются равенства

м

Кф — ^ + е

г=1 г=р+1

( ЕГ=1 ... ^Р=1 £г^12гМ \

\ Ер=1 £г^М¿г1 ... Хл=1 £г^М¿гМ/

/ ^М £

\

ЕМ т ^М

г=р+1 £г^гМ¿г1 ... ¿^=р+1 £г^М¿гМ /

М

Здесь все числа ^ и Сi неотрицательны и допускают извлечение корней. Введем обозначения:

/

Кф

Ер=1 (Уб^) (... Ер=1 (А/^) (\fiiZiM)

хц

хц

ЕР=1 ((\JiiZi1

у^м

хМг

хц

хМг

хц

Хг=р+1 ( ) ( \! ^¿И

хц

Ciziм V & 3

х1г

\

х1г

х Мг

Ер=1 ( Уб^м)( ^м

хМг

хМг

V М V с^м

^=р+1 ( VСiZiM М VС^м

х1г

хМг

хМг

хМг

(18)

В этих обозначениях получим

5^=1 x1ix1i

Кф

Х^и XliЖмi

Е?=1 Жм^Н .. . Тл=1 XMiXMi

мм

' 2^i=p+1 x1ix1i . . . / x1ixMi '

V Ем=р+1 Хм^И

Ег=и+1 xMixMi /

Если составить матрицу (М х М) из собственных векторов матрицы Кф как из столбцов Сф = (21... zм), то здесь хт = (жн,..., жм^) - строки этой матрицы с коэффициентами уЛ и л/л^. Введем в рассмотрение квадратную матрицу (М х М)

1рхр

0

'рх (м-р)

Р 1 0(м-р)хр —1(м —р) х (м-р)

(19)

которую будем называть единичной матрицей сигнатуры р. Тогда матрица значений общности элементов метрического пространства запишется в виде

( хтЛрХ1 ... хтЛрХМ

Кф

V хМ Jpxl ... хМ Jpxм

т

)

( "Т

Щ и1

т

"1 ИМ

\ ( УТУ1

\ иМ"1 ... иМим /

УМУ1

Ут ум

УМУМ

хг

е

(20)

где векторы и € Мр и Уг € Мм р являются частями векторов х^.

Мы связали элементы произвольного конечного метрического пространства П — |у1,...,шм}, в котором выбран центральный элемент ф € П, с М-мерными векторами действительных признаков элементов х1 — хШ1 € Мм,..., хм — х^м € Мм, определяемыми М собственными векторами матрицы значений общности этого конечного множества и М — р + (М — р) собственными числами £1 ^ 0,..., £р ^ 0, £р+1 < 0, ...,£м < 0 (15), причем центральному элементу соответствует нулевой вектор хф — 0 € Мм.

Для произвольных пар векторов (х', х'') линейного пространства Мм общее выражение для элемента матрицы значений общности (20) определяет двухместную числовую функцию Кф (х', х''): Мм х Мм ^ М согласно (19)

Кф(х', х'') — (х' — хф )тЛр(х'' — хф ) — х'тЛ.

(21)

=0

=0

Тем самым мы погрузили конечное метрическое пространство

П — ,.. .,шм}

с центральным элементом ф € П в М-мерное линейное пространство М , в котором согласно (20) определена двухместная числовая функция (21).

Будем говорить, что такое линейное пространство Мм натянуто на конечное метрическое пространство П — |ш1,... ,шм}.

Рассмотрим свойства двухместной функции Кф(х', х'') (21): 1) симметричность

Кф(х', х'') — Кф(х'', х');

2) билинейность

Кф(с'х' + с''х'', х''') — с'Кф(х', х''') + с''Кф(х'', х''').

(22)

(23)

Эти два свойства совпадают со свойствами скалярного произведения в линейном пространстве, которое должно обладать еще и третьим свойством;

х

3) неотрицательность при совпадающих значениях аргументов

Кф(х, х) ^ 0. (24)

Однако последним свойством двухместная функция Кф(х', х'') (21) не обладает, поскольку для некоторых векторов х € Мм может иметь место неравенство Кф(х, х) < 0. Действительно, согласно (17) для произвольного вектора с учетом (16)

Кф(х, х) = хт v = (итут) ( 0 1рхр т 0рх(м—рМ ( и ) = ити - УТУ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V 0(м—р)хр -т(м —р)х(м—р) / \ у /

откуда следует, что

3') для векторов х € Мм, таких что ити < утV:

Кф(х, х) < 0. (25)

Двухместную числовую функцию Кф(х', х'') (21) принято называть индефинитным скалярным произведением с сигнатурой р ^ М, а само линейное пространство с индефинитным скалярным произведением -псевдоевклидовым пространством [21]. В частности, в случае сигнатуры р = М получается обычное евклидово пространство с обычным скалярным произведением, для которого Кф(х, х) ^ 0.

Как следствие, в псевдоевклидовом пространстве Мм, натянутом на метрическое пространство О = |ш1,...,шм}, для всех пар векторов ((х',х''), х'т = (и'т,у'т), х''т = (и''т,у''т)) определено значение

Г2(х', х'') = (х' - х'')ТЛр(х' - х'') = (и' - и'')т(и' - и'') - (у' - у'')Т(у' - у''),

(26)

которое может быть положительным г2(х', х'') > 0, равным нулю г2(х', х'') = = 0 даже при х' = х'', либо отрицательным г2(х', х'') < 0. Метрика в обычном понимании этого термина

г(х', х'') = (и' - и'')т(и' - и'') - (у' - у'')т(у' - у'') (27)

определена только для тех пар векторов, для которых (и' - и'')т(и' - и'') -- (у' - у'')т(у' - у'') ^ 0 . Если же (и' - и'')т(и' - и'') - (у' - у'')т(у' - у'') < < 0, то значение метрики оказывается мнимым как квадратный корень из отрицательного числа.

Таким образом, построенное нами псевдоевклидово пространство Мм не является, вообще говоря, метрическим, поскольку в нем не для всех пар точек х', х'' € Км определено значение метрики г(х', х''), но значение квадрата г2(х', х'') (26) определено для всех пар векторов, являясь отрицательным для некоторых из них.

В псевдоевклидовом линейном пространстве, натянутом на конечное метрическое пространство О = , ...,шм} с центральным элементом ф € О, индефинитное скалярное произведение любых двух векторов

х € Мм и х € Мм отличается от обычного скалярного произведения х'тх'' только единичной матрицей Лр сигнатуры р (21). В то же время собственные числа и собственные векторы матрицы значений общности для конечного метрического пространства с выбранным центральным элементом (15) определяют координаты конечного множества векторов в линейном пространстве

|хШ1,..., х^м } : и € П ^ хш € М

м

ш

в которые отображаются элементы самого метрического пространства и которые играют роль базиса в этом линейном пространстве. Условимся обозначать это конечное подмножество в Мм символом

мМф — |хш1,...,хшм}С Мм (28)

и называть образом метрического пространства в псевдоевклидовом линейном пространстве. Разумеется, образ метрического пространства ММф (28), существенно зависит от центра через собственные числа и собственные векторы матрицы общности (15).

Как говорилось выше (27), метрика в обычном смысле определена в псевдоевклидовом пространстве Мм только для тех пар векторов (х , х ), для которых (и' — и'')т(и' — и'') — (у' — у'')т(у' — у'') ^ 0. Однако векторы из конечного образа метрического пространства М^ф (28) являются именно такими. Действительно,

г (хШк , хшг) — (хШк — хшг) Лр(хШк — хшг) — хшк ЛрхШк + хшг Лрхшг — 2хшк Лрхшг,

т.е. согласно (20) и, далее, (12)

г2(хшк, хшг)— Кф(ик ик)+ Кф(иг,иг) — 2Кф(ик ) —

2 (29)

— р (ик,иг) ^ 0, ,иг € П.

Обратим внимание на тот факт, что хотя линейное пространство в которое мы погрузили исходное конечное метрическое пространство П — — |и1, . . . , им}, существенно зависит от выбора центрального элемента ф € € П, изометричность погружения никак не зависит от этого выбора.

3. Аффинные операции в псевдоевклидовом линейном

пространстве

Рассмотрим произвольную конечную неупорядоченную совокупность |х1,..., хп} элементов псевдоевклидова пространства х^- € Мм (20), т.е. совокупность пар векторов |(и1, у1),..., (ип, уп)}, И € Мр, у^- € Мм -р, ^ — 1,..., п, п ^ М. Пусть с — (сь .. Ста) € Мп — вектор коэффициентов при

элементах совокупности, в сумме составляющих единицу ^П=1 = 1Тс = 1, где 1 € Мп - вектор, составленный из единиц. Линейная комбинация

п п

хс = Е Ск€ Мм, Е Ск = 1Тс = 1, (30)

к=1 к=1

называется аффинной комбинацией элементов |х1,..., хп} коэффициентами с = (с1...сп). Очевидно, что хс = (ис,ус), где ис = ^п=1 ^€ Мр, ус =

^п=1 Ск у к € Мм—р.

Теорема 3. Квадрат расстояния любого элемента псевдоевклидова пространства х € Мм до аффинной комбинации хс € Мм (30) согласно ( 2 6) определяется равенством

п 1 п п

Г2(хс, х) = Е Ск Г2(хЙ, х) - 2 ЕЕ Ск Сг г2(хк, хг). (31)

к=1 к=1г=1

Доказательство. Пусть х € Мм — произвольный элемент псевдоевклидова пространства. Квадраты его расстояний до элементов совокупности |х1,..., хп} определяются сигнатурой псевдоевклидова пространства (26). Найдем квадрат расстояния этого элемента г(хс, х) до аффинной комбинации (30), учитывая, что = 1:

(п \ Т / п \

Е Ск хк - И Лр Е Сгхг - х =

(п \Т/п \ п п

Е Ск(хк - хм Лр Е Сг(хг - хм = Е Е СкСг(х& - х)ТЛр(хг - х). к=1 / \г=1 / к=1г=1

Эта двойная сумма может быть представлена в виде

п п 1 п п

Е Е СкСг(хк - х)ТЛр(хг - х) = ^ Е Е СкСг х к=1г=1 к=1г=1

х [(хй - х)ТЛр(хй - х) + (хг - х)ТЛр(хг - х) - (хй - хг)ТЛр(хй - хг)] ,

что с учетом (26) дает

1 п п 1 п п 1 п п

г (хс, х) = ^Е ЕСк Сгг2(хк, х) + 2 Е Е СкСг г2(хг, х)- ^ ЕЕ ^ Сг г2(хк, хг) = к=1г=1 к=1г=1 к=1г=1

1 ( п \ п ^ / п \ п 1 пп

= 2 (2Сг ЕСкг2(хк,х)+2 ЕСк Сгг2(^х)-^ ЕЕСкСгг2(хк,хг),

\г=1 / к=1 \к=1 / г=1 к=1 г=1

=1

откуда следует равенство (31)

Если совокупность |х1,...,хп} составлена из произвольных элементов псевдоевклидова пространства, и элемент х также выбран произвольно, то среди квадратов расстояний г2(х&, хг) и г2(х&, х) могут быть, вообще говоря, отрицательные, и квадрат расстояния г2(хс, х) может также оказаться отрицательным.

Но если в качестве х и х^ выступают векторы, соответствующие объектам исходного метрического пространства х — хш, — хшк, и,и& € П,

п п

хс — ^ Скхшк € Мм, Ск — 1, (32)

к=1 к=1 п 1 п п

(хс, хш ) — ^2 Скг2 (хШк , хш ) — Ск Сг2(хШк , хшг), (33)

к=1 к=11=1

то расстояния г(хшк, хш) — р(и^,и) и г(хшк, хШ1) — р(и&, иг) являются вещественными, г2(х^, х) — г2(хшк, хш) — р2(и^, и) ^ 0 и г2(х^, хг) — — р2(ик,иг) ^ 0.

Тем не менее, метрические расстояния г(хс, хш) существуют только в том случае, если г2(хс, хш) ^ 0 для любых с. Однако для произвольной метрики на множестве П последнее условие, вообще говоря, не выполняется, и существуют совокупности элементов исходного метрического пространства и,и1,...,ип € П, такие, что г2(хс, хш) < 0. Более того, для всякой такой совокупности может существовать множество аффинных комбинаций хс € € Мм (30).

Это означает, что вектор хс € Мм, являющийся аффинной комбинацией векторов хш1,..., хШп € Мм с некоторыми коэффициентами с (30), может не иметь прообраза ни в каком расширении метрического пространства П, т.е. может оказаться невозможным даже мысленно добавить соответствующий элемент ис в П, поскольку для него определены квадраты расстояний до всех других элементов г2(хс, хш), но не могут быть определены метрические расстояния г(хс, хш) — л/г2(хс, хш), если г2(хс, хш) < 0.

В частности, если п — 2, то коэффициенты аффинной комбинации векторов х € Мм и х € Мм определяются одним действительным числом С, например, С — 1 — С и С — С. Тогда согласно (30)

хс — (1 — с)х' + сх'' € Мм. (34)

Такой вектор будем называть соосным упорядоченной паре векторов (х', х''). Заметим, что согласно (31) для соосного вектора

г2(хс, х') — с2г2(х', х''), г2(хс, х'') —(1 — с)2г2(х', х''). (35)

Действительно, согласно (31)

г2(хс, х' — (1 — с)г2(х', х') + сг2(х', х'') — (1 — с)сг2(х', х'') — — сг2(х', х'') — сг2 (х', х'') + с2г2(х', х''),

г2(хс, х'') = (1 - С)г2(х', х'') + СГ2(х'', х'') - (1 - с)сг2(х', х'') =

= г2(х', х'') - 2сг2(х', х'') + С2Г2(х', х'') = (1 - с)2г2(х', х'').

Если г2(х', х'') ^ 0, то определены метрические расстояния

г(хс, х') = | С|г(х', х''), г(хс, х'') = | 1 - С|г(х', х''). (36)

Для любого вектора х € Км квадрат расстояния до соосного вектора согласно (31)

г2(хс, х) = с'гг2(х', х) + с''г2(х'', х)-

(37)

с'2 г2(х', х') +2с'с''г2(х', х'') + с''2 г2(х", х'') =0 =0

г2(хс, х) = (1 - с)г2(х', х) + сг2(х'', х) - с(1 - с)г2(х', х'').

Очевидно, что квадрат расстояния соосного вектора до исходных векторов определяются равенствами

г2(хс, х') = с2г2(х', х''), г2(хс, х'') = (1 - с)2г2(х', х''). (38)

Вообще говоря, квадрат расстояния г2(х', х'') может быть отрицательным, как и квадраты расстояний г2(хс, х'), г2(хс, х'') и г2(хс, х).

Но если в качестве х' и х'' выступают векторы, соответствующие объектам исходного метрического пространства х' = хш/ и х'' = хш«, и', и'' € О, то расстояние г(хш/, хш«) = р(и',и'') является вещественным, г2(хш/, хш«) ^ 0, тогда согласно (38) г2(хс, х<у) ^ 0 и г2(хс, хш«) ^ 0. Для векторов хш, соответствующих другим элементам метрического пространства и € О,

г2(хс, хш) = (1 - с)г2(хш', хш)+ сг2(хш", хш) - с(1 - с)г2(хш', хш») = = (1 - с)р2(и', и) + ср2(и'', и) - с(1 - с)р2(и', и'').

(39)

Однако для произвольной метрики на множестве О существуют тройки элементов исходного метрического пространства и, и , и € О, такие, что г2(хс, хш) < 0, и невозможно даже мысленно добавить соосный элемент ис в О, поскольку для него не определены метрические расстояния до других элементов г(хс, хш) = л/г2(хс, хш).

Аффинная комбинация (30) определена для любой конечной совокупности |х1,...,хп} векторов псевдоевклидова пространства Км, в частности, для образа метрического пространства = |хШ1,..., х^м } С С Км (28), т.е. для совокупности всех М векторов, соответствующих элементам исходного метрического пространства О = |и1, . . . , им} с выбранным центральным элементом ф € О согласно (18)-(20). Всякая совокупность действительных коэффициентов (с1...См), в сумме составляющих единицу ^7=1 с^ = 1, определяет вектор (32), зависящий от

выбора центрального элемента, но находящийся от других векторов х € на некоторых расстояниях (33), полностью определяемых коэффициентами (с1.. .см). Хотя вектор аффинной комбинации хс (32) и зависит от центра, квадрат его расстояния г2 (хс, х) до всякого вектора х € Мм, быть может, отрицательный, от центра не зависит.

Множество всех векторов псевдоевклидова пространства (32), являющихся аффинными комбинациями элементов образа М^ф исходного метрического пространства П — |и1,...,им} (28), будем называть аффинным образом метрического пространства и обозначать символом

ММф — |хс — Х1 Скхшк, 1Тс —^ С Мм.

4. Заключение

Статья вводит необходимый математический аппарат и является подготовительной к построению решающих правил в ситуации, когда объекты распознавания представлены только парными отношениями в виде произвольной метрики. Основным результатом является аппарат аффинной комбинации объектов псевдоевклидова линейного пространства, который послужит основой для введения дискриминантной функции в двухклассовой задаче распознавания образов.

Список литературы

1. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 449 с.

2. Vapnik V. Statistical Learning Theory. John-Wiley & Sons Inc., 1998. 736 p.

3. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов (статистические проблемы обучения). М.: Наука, 1974.

4. Середин О.С. Методы и алгоритмы беспризнакового распознавания образов: дис. ... канд. физ.-мат. наук. М., 2001.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Duin R.P.W, De Ridder D., Tax D.M.J. Featureless classification // Proceedings of the Workshop on Statistical Pattern Recognition. Prague, 1997. P. 37-42.

6. Duin R., Pekalska E., De Ridder D. Relational discriminant analysis // Pattern Recognition Letters. 1999. V. 20. P. 1175-1181.

7. Featureless pattern recognition in an imaginary Hilbert space and its application to protein fold classification / V. Mottl [et al.] //In Ma-chine Learning and Data Mining in Pattern Recognition. Berlin, Heidelberg: Springer, 2001. P. 322-336.

8. Середин О.С. Линейные методы распознавания образов на множествах объектов произвольной природы, представленных попарными сравнениями. Общий случай // Изв. ТулГУ. Естественные науки. 2012. Вып. 1. С. 141-152.

9. Середин О.С. Потенциальная функция на множестве объектов распознавания как инструмент их попарного сравнительного представления // Изв. ТулГУ. Естественные науки. 2013. Вып. 1. С. 177-189.

10. Метод опорных объектов для обучения распознаванию образов в евклидовых метрических пространствах / В.И. Абрамов [и др.] // Интеллектуализация обработки информации И0И-2012: докл. 9-й Междун. конф. Будва, Черногория, 16-22 сентября 2012 г. М.: Торус Пресс, 2012, С. 5-8.

11. Абрамов В.И., Середин О.С., Моттль В.В. Обучение распознаванию образов в евклидовых метрических пространствах по методу опорных объектов // Изв. ТулГУ. Естественные науки. 2013. Вып. 2. С. 119-136.

12. Needleman S.B., Wunsch C.D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // Journal of Molecular Biology. 1970. V. 48. № 3. P. 443-453.

13. Smith T.F., Waterman M.S. Identification of Common Molecular Subsequences // Journal of Molecular Biology. 1981. V. 147. P. 195-197.

14. Salvador S., Chan Ph. Toward accurate dynamic time warping in linear time and space // KDD Workshop on Mining Temporal and Sequential Data. 2004. P. 70-80.

15. Experimental comparison of representation methods and distance measures for time series data / W. Xiaoyue [et al.] // Data Mining and Knowledge Discovery. 2013. V. 26. №2. P. 275-309.

16. Kushnir O., Seredin O. Parametric Description of Skeleton Radial Function by Legendre Polynomials for Binary Images Comparison // Eds. A. Elmoataz. ICISP. LNCS 8509. Springer, 2014. P. 520-530.

17. Signature verification based on fusion of on-line and off-line kernels / V. Mottl [et al.] // Proceedings of the 19th International Conference on Pattern Recognition. Tampa, USA, 2008. P. 1-4.

18. Деза М.М, Деза Е. Энциклопедия расстояний. М.: Наука, 2008.

19. Беклемишев Д.В. Курс аналитической геометрии и линейной алгебры: учебное пособие для вузов. М.: Высшая школа, 1998. 320 с.

20. Умнов А.Е. Аналитическая геометрия и линейная алгебра: учебное пособие. М.: МФТИ, 2011. 544 с.

21. Азизов Т.Я., Копачевский Н.Д. Введение в теорию пространств Крейна. Специальный курс лекций. Симферополь: ООО Форма, 2010. 112 с.

Середин Олег Сергеевич (oseredin@yandex.ru), к.ф.-м.н., доцент, кафедра информационной безопасности, Тульский государственный университет.

Абрамов Вадим Игоревич (vadim.xn@gmail.com), аспирант, Московский физико-технический институт.

Моттль Вадим Вячеславович (vmottl@yandex.ru), д.т.н., профессор, кафедра информационной безопасности, Тульский государственный университет; кафедра интеллектуальных систем, Московский физико-технический институт; в.н.с., ВЦ РАН.

The affine operations in pseudo-Euclidean linear space O.S. Seredin, V.I. Abramov, V.V. Mottl

Abstract. The mathematical background for the possibility of featureless pattern recognition methods developing in the case of only arbitrary metric relations among objects is suggested. The notion of arbitrary metric space embedding into liner space with indefinite inner product is defined. Particularly, for the special class of metrics, called by proto-Euclidean metrics, such embedding result in to Euclidean linear space with ordinary inner product and leads to the classical kernel method in pattern recognition. The affine operations in pseudo-Euclidean linear space are suggested that allows to build methodology of pattern recognition in set of objects with arbitrary metric, and so to generalize the support vectors technique.

Keywords: featureless pattern recognition, pattern recognition in arbitrary metric spaces, affine operations in pseudo-Euclidean linear space.

Seredin Oleg (oseredin@yandex.ru), candidate of physical and mathematical sciences, associated professor, department of information security, Tula State University.

Abramov Vadim (vadim.xn@gmail.com), postgraduate student, Moscow Institute of Physics and Technology.

Mottl Vadim (vmottl@yandex.ru), doctor of technical sciences, professor, department of information security, Tula State University, department of intelligent systems, Moscow Institute of Physics and Technology; principal investigator, Computing Center of the Russian Academy of Sciences.

Поступила 23.08.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.