Научная статья на тему 'МДМ-МЕТОД ДЛЯ РЕШЕНИЯ ОБЩЕЙ КВАДРАТИЧНОЙ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ ДИАГНОСТИКИ'

МДМ-МЕТОД ДЛЯ РЕШЕНИЯ ОБЩЕЙ КВАДРАТИЧНОЙ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ ДИАГНОСТИКИ Текст научной статьи по специальности «Математика»

CC BY
25
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТЕМАТИЧЕСКАЯ ДИАГНОСТИКА / ПРОСТЕЙШАЯ ЗАДАЧА МАТЕМАТИЧЕСКОЙ ДИАГНОСТИКИ / ОБЩАЯ ЗАДАЧА МАТЕМАТИЧЕСКОЙ ДИАГНОСТИКИ / МАШИННОЕ ОБУЧЕНИЕ / МДМ- АЛГОРИТМ

Аннотация научной статьи по математике, автор научной работы — Малоземов В. Н., Соловьева Н. А.

Термин математическая диагностика был введен В. Ф. Демьяновым в начале 2000-х годов. Простейшая задача математической диагностики заключается в выяснении взаимного положения некоторой точки p и выпуклой оболочки C конечного числа заданных точек в n-мерном евклидовом пространстве. Интерес представляет ответ на следующие вопросы: принадлежит ли точка p множеству C или нет? Если p не принадлежит C, то каково расстояние от p до C? В общей задаче математической диагностики рассматриваются две выпуклые оболочки. Решается вопрос о наличии у них общих точек. Если общих точек нет, то требуется найти расстояние между данными оболочками. С алгоритмической точки зрения задачи математической диагностики сводятся к специальным задачам линейного или квадратичного программирования, для решения которых существуют конечные методы. Однако при реализации такого подхода в случае больших массивов данных возникают серьезные вычислительные трудности. На помощь приходят бесконечные, но легко реализуемые методы, которые позволяют за конечное число итераций получить приближенное решение с требуемой точностью. К таким методам относится МДМ-метод. Он был разработан Митчеллом, Демьяновым и Малоземовым в 1971 г. для других целей, но в дальнейшем нашел применение в машинном обучении. С современной точки зрения оригинальный вариант МДМ-метода можно использовать для решения только простейших задач математической диагностики. В данной статье дается естественное обобщение МДМ-метода, ориентированное на решение общих задач математической диагностики. Дополнительно показано, как с помощью обобщенного МДМ-метода можно находить решение задачи линейного отделения двух конечных множеств, при котором отделяющая полоса имеет наибольшую ширину.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MDM METHOD FOR SOLVING THE GENERAL QUADRATIC PROBLEM OF MATHEMATICAL DIAGNOSTICS

The term mathematical diagnostics was introduced by V. F. Demyanov in the early 2000s. The simplest problem of mathematical diagnostics is to determine the relative position of a certain point p and the convex hull C of a nite number of given points in n-dimensional Euclidean space. Of interest is the answer to the following questions: does the point p belong to the set C or not? If p does not belong to C, then what is the distance from p to C? In general problem of mathematical diagnostics two convex hulls are considered. The question is whether they have common points. If there are no common points, then it is required to nd the distance between these hulls. From an algorithmic point of view, the problems of mathematical diagnostics are reduced to special problems of linear or quadratic programming, for the solution of which there are nite methods. However, when implementing this approach in the case of large data arrays, serious computational di culties arise. In nite but easily implemented methods come to the rescue, which allow obtaining an approximate solution with the required accuracy in a nite number of iterations. These methods include the MDM method. It was developed by Mitchell, Demyanov and Malozemov in 1971 for other purposes, but later found application in machine learning. From a modern point of view, the original version of the MDM method can be used to solve the simplest problems of mathematical diagnostics. This article gives a natural generalization of the MDM-method, oriented towards solving general problems of mathematical diagnostics. The equivalence of the general problem of mathematical diagnostics and the problem of linear separation of two nite sets with the largest width of the margin is established.

Текст научной работы на тему «МДМ-МЕТОД ДЛЯ РЕШЕНИЯ ОБЩЕЙ КВАДРАТИЧНОЙ ЗАДАЧИ МАТЕМАТИЧЕСКОЙ ДИАГНОСТИКИ»

УДК 519.8 Вестник СПбГУ. Математика. Механика. Астрономия. 2023. Т. 10 (68). Вып. 3

МБС 90С90

МДМ-метод для решения общей квадратичной задачи математической диагностики

В. Н. Малоземов1, Н. А. Соловьеве?

1 Санкт-Петербургский государственный университет,

Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

2 Санкт-Петербургский государственный экономический университет, Российская Федерация, 191023, Санкт-Петербург, наб. канала Грибоедова, 30/32

Для цитирования: Малоземов В.Н., Соловьева Н. А. МДМ-метод для решения общей квадратичной задачи математической диагностики // Вестник Санкт-Петербургского университета. Математика. Механика. Астрономия. 2023. Т. 10(68). Вып. 3. С. 516-529. https://doi.org/10.21638/spbu01.2023.306

Термин математическая диагностика был введен В. Ф. Демьяновым в начале 2000-х годов. Простейшая задача математической диагностики заключается в выяснении взаимного положения некоторой точки р и выпуклой оболочки С конечного числа заданных точек в те-мерном евклидовом пространстве. Интерес представляет ответ на следующие вопросы: принадлежит ли точка р множеству С или нет? Если р не принадлежит С, то каково расстояние от р до С? В общей задаче математической диагностики рассматриваются две выпуклые оболочки. Решается вопрос о наличии у них общих точек. Если общих точек нет, то требуется найти расстояние между данными оболочками. С алгоритмической точки зрения задачи математической диагностики сводятся к специальным задачам линейного или квадратичного программирования, для решения которых существуют конечные методы. Однако при реализации такого подхода в случае больших массивов данных возникают серьезные вычислительные трудности. На помощь приходят бесконечные, но легко реализуемые методы, которые позволяют за конечное число итераций получить приближенное решение с требуемой точностью. К таким методам относится МДМ-метод. Он был разработан Митчеллом, Демьяновым и Малоземовым в 1971 г. для других целей, но в дальнейшем нашел применение в машинном обучении. С современной точки зрения оригинальный вариант МДМ-метода можно использовать для решения только простейших задач математической диагностики. В данной статье дается естественное обобщение МДМ-метода, ориентированное на решение общих задач математической диагностики. Дополнительно показано, как с помощью обобщенного МДМ-метода можно находить решение задачи линейного отделения двух конечных множеств, при котором отделяющая полоса имеет наибольшую ширину.

Ключевые слова: математическая диагностика, простейшая задача математической диагностики, общая задача математической диагностики, машинное обучение, МДМ-алгоритм.

1. Постановка задачи. Пусть в пространстве К" с евклидовой нормой заданы два конечных множества:

и

© Санкт-Петербургский государственный университет, 2023

где s € 1 : m — 1. Обозначим через Ci и C2 выпуклые оболочки множеств Pi и P2 соответственно. Квадратичная задача математической диагностики ставится следующим образом:

\ ||wi - w2f ->• min (1)

w1eo1,w2 £62

Очевидно, что задача (1) имеет решение (w^,w2^).

По определению выпуклой оболочки точки wi € Ci и W2 € C2 допускают представления

s m

wi = ujpj , w2 = ujpj,

j=i j=s + 1

где

s

Yuj = 1, Uj ^ 0 при всех j € 1 : s,

J=1 (2) m v 1

^^ Uj = 1, Uj ^ 0 при всех j € (s + 1) : m.

j=s + i

Введем вектор £ = (£i,...,£m) с компонентами £j = 1 при j € 1 : s и £j = —1 при j € (s + 1) : m. Обозначим через A матрицу со столбцами £1p1,..., £mpm. Тогда для любого плана (w1 ,w2) задачи (1) справедлива формула

m

wi — w2 Uj pj = Au.

j=i

Здесь вектор u удовлетворяет условиям (2). Множество таких векторов обозначим через U. Задачу (1) можно записать в эквивалентном виде:

1 IL .112

(3)

2 |М| —> mm,

и = Аи, и € и.

Задача (3) имеет единственное решение и*, однако единственность представления и* = и* — и**, где и* € С, и** € С2, не гарантируется.

Наша цель — предложить обобщение МДМ-метода для решения задачи (1), (3). Исходный вариант МДМ-метода, описание и доказательство сходимости которого представлены в работе [1], можно использовать для решения только простейших задач математической диагностики. Они соответствуют задаче (1) при в = 1.

В работах [2-7] дан широкий анализ особенностей и возможностей МДМ-метода.

2. Характеризация решения. Получим нестандартный критерий оптимальности для плана задачи (3). Для этого нам понадобятся два вспомогательных утверждения.

Лемма 1. Пусть и* = и* — и* — решение задачи (1). Для любого плана и = и1 — и2 этой задачи справедливо неравенство

{и, и*} ^ (и*,и*}. (4)

Доказательство. В силу выпуклости множества Ci точка w* + t(wi — w*) при всех t € (0,1) принадлежит Ci. Точка w] принадлежит C2. Значит, планом задачи (1) является точка

(w* + t(wi — w*)) — w* = w* + t(wi — w*).

Воспользуемся оптимальностью w*. Получим

|К||2 < ||w* + t(wi — w*)||2 = |K||2 + 2t(w*,wi — w*) +12 ||wi — w*||2 .

Отсюда следует, что

{w* ,W 1 — w\) + it ||wi —w\II 2 > 0.

В пределе при t ^ +0 придем к неравенству

{w*,wi — w*) > 0. (5)

Далее, в силу выпуклости множества C2 точка w* + t(w2 — w*) при всех t € (0,1) принадлежит C2. Точка w* принадлежит Ci. Значит, планом задачи (1) является точка

w* — (w* + t(w2 — w* )) = w* — t(w2 — w*). Воспользуемся оптимальностью w* . Получим

||w*||2 < ||w* — t(w2 — w*)||2 = ||w*||2 — 2t{w*,w2 — w**) +12 |w2 — w* ||2 .

Отсюда следует, что

— {W*,W2 - w'2) + it ||w2 - w*2\\2 > 0.

В пределе при t ^ +0 придем к неравенству

— {w* ,w2 — w*2) > 0. (6)

Требуемое неравенство (4) есть сумма неравенств (5) и (6).

Лемма доказана. □

Нетрудно проверить, что неравенство (4) равносильно следующему неравенству:

||w — w* ||2 < ||w||2 — ||w* ||2 . (7)

Пусть w = Au, u € U. Обозначим

M+(u) = {j € 1 : s I uj] > 0}, M2+(u) = {j € (s + 1) : m | uj] > 0}.

Введем величины:

Ai (u) = max {pj ,w) — min {pj ,w), jeM+(u) j^i:s

A2 (u) = max {pj, —w)— min {pj, —w).

jeM+(u) je(s + i):m

Положим

Д(м) =max{Ai(u), Д2(м)}.

Очевидно, что

Д1(и) > 0, Д2(и) > 0, Д(и) > 0. (8)

Лемма 2. Возьмем произвольный план w = Au задачи (3) и ее оптимальный план w* = Au*. Справедливо неравенство

||w - w*\\2 < 2Д(и). (9)

Доказательство. С учетом (4) запишем

||w — w*! = ||w|2 — 2(w, w*) + ||w* ||2 ^ ||w||2 — (w, w*) =

m m

= XI &uj (pj,w) — &u** (pj,w) = j=i j=i s m s m

= Y1 uj p,w) + uj p, —w) — Yl u*(pj,w) — u*(pj, —w).

j=1 j = s+1 j=1 j = s+1

Объединив первую и третью, вторую и четвертую суммы, придем к неравенству

||w — w*! ^ max (pj,w) — min(pj,w) + jeM+(u) j^1:s

+ max (pj, —w)— min (pj, —w) = Д1(u) + Д2(u) ^ 2Д(u).

jeM+(u) je(s+1):m

Лемма доказана. □

Переходим к критерию оптимальности.

Теорема 1. Равенство Д^) = 0 выполняется тогда и только тогда, когда вектор w = Au является решением задачи (1), (3).

Доказательство. Неравенство (9) гарантирует оптимальность вектора w при Д^) = 0. Проверим справедливость обратного утверждения. Возьмем решение w* = Au* задачи (3) и покажем, что Д^*) = 0. Напомним, что w* = w1 — w|, где w1 G C1, w| G C2.

Вначале рассмотрим случай, когда Д^*) = Д1 (u*). Пусть

Дl(u*) = (pj' — pj",w*). (10)

Индексы j' и j" принадлежат множествам M+(u*) и 1 : s соответственно. Введем вектор

w* = w* — и*, (pj, — pj,,) (коэффициент при pj, передали вектору pj,,). Очевидно, что w* G C1. Обозначим

—4= —4= 4= 4= 4= / \

w = IÜ1 — w2 = w — uj, (pj, — pj,,). Умножим w* скалярно на w*. С учетом (10) получим

(w*, w*) = (w*, w*) — uj, Д^ *).

Согласно лемме 1 справедливо неравенство (и * ,и *} ^ (и * ,и *}, поэтому —и*, Д;[(и *) ^ 0. Условие ]' € М+(и*) гарантирует, что и*, > 0. Приходим к неравенству *) ^ 0, которое вместе с обратным неравенством Д1(и *) ^ 0 [см. (8)] обеспечивает равенство Д1(и *) = 0.

Рассмотрим второй случай, когда Д(и *) = Д2(и *). Пусть

Д2(и * ) = (Р1, — р, , —и* }. (11)

Здесь индексы I' и I'' принадлежат множествам М+(и *) и (в + 1) : т соответственно. Введем вектор

и2 = и2 — и * (р1г — Р1"). Очевидно, что и>2 € С2. Обозначим

и * = и1 — и2 = и * + и (Р1, — Р1„) . Умножим и * скалярно на и *. С учетом (11) получим

(и * , и * } = (и * , и * } — и (р1, — Р1„ , —и *} = (и *, и *} — и Д2 (и * ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отсюда, как и в предыдущем случае, следует неравенство Д2(и *) ^ 0, которое вместе с обратным неравенством Д2(и *) ^ 0 [см. (8)] обеспечивает равенство Д2(и *) = 0. Теорема доказана. □

3. Описание обобщенного МДМ-метода. Возьмем начальное приближение ио = Аио, ио € и. Если Д(ио) = 0, то по теореме 1 вектор ио является решением задачи (1). В противном случае переходим к следующей итерации.

Пусть уже имеется к-е приближение ик = Аи&. Опишем переход к ик+1. Найдем индексы ]'к € М+и), € 1 : в и 1'к € М+(ик), I" € (в + 1) : т, такие, что

тах (Рг,ик} = (рл ,ик}, тт {Рг,ик} = {рл' },

¿ем+(и) к к

тах Р, —ик} = (Р1;, —ик}, тт (р—ик} = Р», —ик}.

¿еМ2+(и) " ¿е(я+1):т "

Вычислим

Д1(и к) = (Рп'к — ,ик), Д2 (и к) = (Р1'к — Р\'1, —ик), Д(ик) = тах{Д1(и к), Д2(и к)}.

Вначале рассмотрим случай, когда Д(и к) = Д1(и к). Для простоты будем использовать обозначения

Р'к := Рз'к, Р'Ь := Рз'^,

так что

Д(и к ) = (Р'к — Рк,ик}. (12)

Если Д(и к) = 0, то ик — решение задачи (1). Процесс закончен.

Пусть Д(и к) > 0. Запишем и к = х к — Ук, где х к € С1, у к € С2. Введем вектор

Хк = х к — и'к (Р'к — Рк),

520 Вестник СПбГУ. Математика. Механика. Астрономия. 2023. Т. 10(68). Вып. 3

где u'k = uk[j'k] (коэффициент при p'k передали вектору p'k'). Очевидно, что xk € C\. Рассмотрим отрезок

xk(t) = xk + t{xk - xk) = xk - tu'k{p'k - pjk), t € [0,1].

В силу выпуклости множества Ci все точки xk(t) при t € [0,1] принадлежат Ci. Обозначим

Wk (t) = Xk(t) - yk = Wk - tu'kip'k - p'k). (13)

При всех t € [0,1] вектор Wk (t) является планом задачи (1). Выберем tk € [0,1] из условия

IK(tk)||2 = min |K(t)||2 .

te[0,i]

Положим Wk+i = Wk(tk).

Нетрудно понять, учитывая (13), что при j € 1 : s справедливо представление

{uk[j], если j = jk и j = jk', (1 - tk)uk [jk], если j = jk, uk [jk] + tk uk [jk], если j = jk'.

При этом uk+1 [j] = uk[j], если j € (s + 1) : m.

Для tk можно указать явную формулу. В силу (12) и (13) имеем

W (t)||2 = W |2 - 2 tu'kip'k - p'k,Wk) + t2(u'k)2Hpk> - Pk" |2 = = W |2 - 2 tu'kA(uk) + t2(u'k)2Hpk> - pk» Ц2.

Абсолютный минимум ||wk(t)|2 на R достигается в точке

т = А (ик)

к К\\р'к-р'к\\2'

Ясно, что tk > 0, поэтому для точки минимума на [0,1] справедлива формула

tk = min{1, tk}. Теперь рассмотрим случай, когда

A(uk) = A2(uk) = ipi'k - pik,-Wk). Здесь lk € M+(uk), l'k € (s + 1) : m. Для простоты будем использовать обозначения:

p'k := pi'k, p'k' := pi'k,

так что

A(uk) = ipk - p'k, -Wk). (14)

Если A(uk) = 0, то Wk — решение задачи (1). Процесс закончен.

Пусть A(uk) > 0. Запишем Wk = Xk - yk, где Xk € Ci, yk € C2. Введем вектор

yk = yk - u'k(p'k - p'k),

Вестник СПбГУ. Математика. Механика. Астрономия. 2023. Т. 10(68). Вып. 3 521

где и'к = ик[1'к] (коэффициент отР'к передали Р'к'). Очевидно, что ук € С2. Рассмотрим отрезок

у к(ь) = у к + у — у к) = у к — Ьи'у(р'к — Рк), Ь € I0, 1].

В силу выпуклости C2 все точки уу(Ь) при Ь € [0,1] принадлежат этому множеству. Обозначим

иу (Ь) = Хк — у у(Ь) = иу + Ьи'ур — Рк). (15)

При всех Ь € [0,1] вектор иу (Ь) является планом задачи (1). Выберем Ь у € [0,1] из условия

\\ик(ьк)||2 = тт |К(Ь)||2 . ее [о,1]

Положим иу+1 = и у(Ь у).

Нетрудно понять, опираясь на (15), что при I € (в + 1) : т справедливо представление

{иу[/], если I = 1'к и I = ¡'¿,

(1 — Ьк)иу [1'к], если I = \'к, иу[/'']+ Ьк иу[1'к], если I = I''.

При этом иу+1 [I] = иу[I], если I € 1 : в.

Для Ьу можно указать явную формулу. В силу (14) и (15) имеем

Цик(т2 = |Ы|2 — 2 ги'к(Р'к — Р—иу} + Ь2 (и'к)2 Ук — р'Ц = = ||ик|2 — 21и'кД(иу)+ г2(и'к )2|р'к — р'Ш2. Абсолютный минимум ||иу(4)|2 на К достигается в точке

~ = А (ик)

к К\\р'к-р'1\\2'

Ясно, что уу > 0, поэтому для точки минимума на [0,1] справедлива формула

Ьу = тш{1, Ну}. Описание обобщенного МДМ-метода завершено.

Обозначим Ду = Д(иу). В обоих рассмотренных случаях справедливо равенство

ит2 = м2—2 Ьи'уДу+ь2 (и'у)2 ы—ра2. (16)

Одинаковы формулы и для Ьу, и для Ь у:

*к = , Ц Ак „||2 , гк=тт{1,?к}. (17)

и 'ЛР 'к — РкГ

Если Ьу = 1, то итерацию с номером к будем называть усеченной, если Ьу = Ь к < 1 — неусеченной.

Рассмотрим неусеченную итерацию. Обозначим через В1 диаметр множества Р1, через В2 — диаметр множества Р2, и пусть В = тах{^1, В2}.

Лемма 3. На неусеченной к-й итерации выполняется неравенство

Д2

Ы2-\\гок+1\\2^^. (18)

Действительно, согласно (16) и (17) имеем

IK+1 У2 = IKУ2 - 2tku'kAk + ti(u>k)2\\p'k - p'kW2

Д2

= 1Ы12 -2tku'Ak +tku'Ak = \\wk\\2--k—

Ilpk -p'iW2'

Отсюда очевидным образом следует (18).

4. Сходимость обобщенного МДМ-метода. По описанным выше правилам строится последовательность планов wo,wi,... задачи (1), (3). Эта последовательность конечна, если при некотором ko выполнится равенство A(uk0) = 0. По теореме 1 план wk0 будет оптимальным. Предположим, что

A(uk) > 0 при всех k = 0,1,... (19)

Условие (19) и формула (16) гарантируют, что бесконечная последовательность {М2} является строго убывающей.

Лемма 4. Пусть выполняется условие (19). Тогда существует такое натуральное N, что количество подряд идущих усеченных итераций не превосходит N.

Доказательство. Усеченная k-я итерация характеризуется тем, что tk = 1. Как следствие, на множестве 1 : s или (s + 1) : m справедливо представление

iuk[i], если i = i'k и i = ik,

0, если i = i'k, (20)

uk[i'k'] + uk [i'k], если i = i'k'.

Предположим, что, начиная с r-й итерации, подряд идут усеченные итерации. Компоненты вектора uk+i, определяющего wk+i, при k ^ r получаются путем перераспределения коэффициентов ur [i], i G 1 : m, по формуле (20). Поэтому в цепочке последовательных усеченных итераций может присутствовать лишь конечное число различных векторов uk. В силу условия (19) последовательность {||wk||} строго убывает. Значит, количество подряд идущих усеченных итераций ограничено сверху некоторым числом N, зависящим только от m и s.

Лемма доказана. □

Теорема 2. При выполнении условия (19) справедливо предельное соотношение

lim wk = w*.

k—ж

Доказательство. Последовательность {||wk||2} строго убывает и ограничена снизу нулем. Значит, она сходится. Как следствие,

w ||2 -||wk+i ||2 ^ 0 при k ^ж. (21)

По лемме 4 существует бесконечная последовательность неусеченных итераций с номерами kj. Согласно лемме 3 имеем

A2

IKJ2 - IK»+ill2 > -j^t ■

С учетом (21) заключаем, что A^ ^ 0 при i ^ ж.

По лемме 2

wki - w* ||2 < 2Aki,

так что ^ ш* при г ^ то. В частности, Цш^ || ^ ||ш* ||. Так как вся последовательность {У||} строго убывает, то Ц'к || ^ ||ш* || при к ^то. Остается сослаться на неравенство (7). □

Идеей этого доказательства мы обязаны авторам статьи [5].

5. Преобразование задачи (3). Вернемся к задаче (3). В ней множество и определяется условиями (2). Эти условия можно переписать в эквивалентном виде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

J2uj = 2, Y1 & uj =0,

j=i j=i

uj ^ 0, j G 1 : m. Исключив переменную w, придем к эквивалентной задаче

Ь(АтАи,и) —>• min,

uj = 0

3 1 (22)

т х '

=2'

3=1

из ^ 0; 3 € 1 : т.

Очевидно, что задача (22) имеет решение и *. При этом вектор ш * = Аи * будет решением задачи (1).

Запишем критерий оптимальности для задачи квадратичного программирования (22) (условия Куна — Таккера):

т

АТА и = А£ + ие + У^ 3 е3,

" и 3 3 (23)

гзиз = 0; ^ 0 при 3 € 1 : т,

где е € К" — вектор, все компоненты которого равны единице, и вз € К" — 3-й орт. Вектор и * удовлетворяет условиям (23) при некоторых А *, и *, ^*1,...,г*т.

Лемма 5. Справедливо равенство

\{АТАи*,и*) =ц*. (24)

Доказательство. На основании (22) и (23) имеем

т

(АТАи*,и*) = А* (£,и*) + и* {е,и*) + ^г*и* =

3=1

= А* (£,и *) + и* (е, и *) = и* (е,и *) = 2и*. Поделив на 2, придем к (24). □

Перепишем равенство (24) в терминах векторов pj,

ц* = \ \\Аи*\\2 = ~ X и*зрз

3=1 5=8+1

Напомним, что вектор и * удовлетворяет условиям (2). Становится очевидным следующее утверждение.

Лемма 6. Справедливо неравенство /* ^ 0. Равенство /* =0 выполняется тогда и только тогда, когда выпуклые оболочки С1 и С2 имеют непустое пересечение.

Наряду с общей квадратичной задачей математической диагностики (22) рассмотрим еще одну задачу квадратичного программирования:

^ (АТА и, и) — ^^ Uj —> min,

j=i

uj =0'

j=i

Uj ^ 0, j € 1 : m. Запишем для нее критерий оптимальности:

m

ATAu - e = X^ + ^tjej,

j=i

tjUj = 0, tj ^ 0 при j € 1 : m.

(25)

(26)

Теорема 3. Пусть Ci П C2 = 0 и u* — решение задачи (22). Тогда вектор

и° = —и*,

где ¡л* = т; \\Аи*\\2 будет решением задачи (25).

Доказательство. Очевидно, что u0 — план задачи (25). Проверим его на оптимальность.

По лемме 6 имеем ц* > 0. Обозначим

= t) = \t* при j € 1 : т.

ц * J ц * J

При u = u0, X = X0, tj = t0 выполняется критерий оптимальности (26) (в силу того, что при u = u*, ¡л = ¡л*, X = X *, tj = t* справедливы соотношения (23)). Значит, u0 — оптимальный план задачи (25). □

6. Связь с жестким SVM-отделением. Покажем, что общая квадратичная задача математической диагностики тесно связана с задачей строгого линейного отделения двух конечных множеств, при котором отделяющая полоса имеет наибольшую ширину. В случае множеств Pi и P2, введенных в разделе 1, последняя задача ставится так [8, гл. 12]:

\ llwll2 ->• min,

2 Ii (27)

jiw,Pj) + ß) > 1, j € 1: m.

Запишем двойственную задачу к задаче квадратичного программирования (27):

m

1М12 + из ~~^ ШаХ'

j=l

m

-v + Е uj£jРз = ° .0Й.

j=i (28) m

& = 0,

з=1

Uj ^ 0, j € 1 : m.

В частности,

v = Y1 из ^pj = Au. (29)

j=i

Переменную v можно исключить. Поменяв знак у целевой функции, придем к задаче

m

^ (АтАи, и) — Uj —> min,

j=i

m (30)

uj =0,

j=i

U ^ 0 j € 1 : m.

Эта задача совпадает с задачей (25)!

Предположим, что CПС2 = 0. В этом случае по теореме 3 задача (25), (30) имеет решение u0. Решением двойственной задачи (28) будет пара (v0,u0), где, согласно (29), v0 = Au0. По первой теореме двойственности существует решение (w0,ß0) и у прямой задачи (27). По второй теореме двойственности w0 = v0.

Воспользуемся теоремой 3, согласно которой и0 = ф-и*, где и* — решение задачи (22), эквивалентной задаче (3), и ¡л* = Ь ||Ам*||2. Запишем

=у° = Аи° = — Аи*.

Напомним, что Аи * = ш *, где ш * — решение задачи (1). С учетом этого равенства получаем

0 2ш* , , и> =-31

1М1

Для компоненты ш0 оптимального плана задачи указана формула (27).

Вопрос об определении второй компоненты в° оптимального плана решается просто. При известном ш0 перепишем ограничения задачи (27) в виде

в0 > 1 -(ш0,Рз), з е 1: 8, в0 < -1 - {ш0,Рз), з е (в + 1) : т.

Отсюда следует, что

je1:s

max{l - (w°,pj)} < в < min {-1 -{w°,pj)}.

je(s + 1):m

(32)

Подведем итог.

Теорема 4. Пусть C1 П C2 = 0. Если известно решение w* задачи (1); то решение (w0,^0) задачи (27) восстанавливается по формулам (31); (32).

7. Заключение. В статье введено понятие общей квадратичной задачи математической диагностики, предложен алгоритм для решения этой задачи, доказана его сходимость. Алгоритм является естественным обобщением известного МДМ-алгоритма. Он прост в реализации, позволяет решать задачи математической диагностики в случае большого объема входных данных. Кроме того, показано, как с помощью обобщенного МДМ-алгоритма решать задачи жесткого SVM-отделения двух конечных множеств в евклидовом пространстве.

Следует отметить, что имеется еще одно обобщение МДМ-алгоритма, которое называется SMO-алгоритмом [9-11]. Этот алгоритм можно использовать для прямого решения задачи жесткого SVM-отделения.

Литература

1. Митчелл Б.Ф., Демьянов В.Ф., Малоземов В. Н. Нахождение ближайшей к началу координат точки многогранника. Вестник Лениград. ун-та 19, 38—45 (1971).

2. Barbero A., Lopez J., Dorronsoro J. R. An accelerated MDM algorithm for SVM training. European Symposium on Artificial Neural Networks — Advances in Computational Intelligence and Learning. Bruges (Belgium). April 23-25, 2008, 421-426. Proceedings (2008).

3. Lopez J. On the relationship among the MDM, SMO and SVM-Light algorithms for training support vector machines. Master's thesis. Universidad Autonoma de Madrid, 54 (2008).

4. Lopez J., Barbero A., Dorronsoro J. R. On the equivalence of the SMO and MDM algorithms for SVM training. W. Daelemans et al. ^ds.). Berlin, Heidelberg, Springer-Verlag, ECML PKDD. Part I, LNAI 5211, 288-300 (2008).

5. Lopez J., Dorronsoro J. R. A Сommon framework for the convergence of the GSK, MDM and SMO algorithms. K. Diamantaras, W. Duch, L. S. Iliadis ^ds.). Berlin; Heidelberg, Springer-Verlag. ICANN 2010, Part II, LNCS 6353, 82-87 (2010).

6. Lopez J., Dorronsoro J. R. Linear convergence rate for the MDM algorithm for the nearest point problem. Pattern Recognition 48, 1510-1522 (2015).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Ming Zeng, Yu Yang, Junsheng Cheng. A generalized Mitchell-Dem'yanov-Malozemov algorithm for one-class support vector machine. Knowledge-Based Systems 109, 17-24 (2016).

8. Deisenroth M.P., Faisal A. A., Ong C. S. Mathematics for machine learning. Cambridge, Cambridge University Press (2020) (https://mml-book.com).

9. Platt J. C. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines. Technical Report MSR-TR-98-14. April 21, 1998 (1998).

10. Lopez J., Dorronsoro J. R. A Simple Proof of the Convergence of the SMO Algorithm for Linearly Separable Problems. ICANN 2009, Part I, LNCS 5768, 904-912 (2009).

11. Lazaro J. L. Analysis and Convergence of SMO-like Decomposition and Geometrical Algorithms for Support Vector Machines. A thesis submitted in partial fulfillment for the degree of Doctor of Philosophy. Universidad Autonoma de Madrid (2011).

Статья поступила в редакцию 28 ноября 2022 г.;

доработана 28 ноября 2022 г.; рекомендована к печати 16 февраля 2023 г.

Контактная информация:

Малозёмов Василий Николаевич — д-р физ.-мат. наук, проф.; [email protected] Соловьева Наталья Анатольевна — канд. физ.-мат. наук, доц.; [email protected]

MDM method for solving the general quadratic problem of mathematical diagnostics

V. N. Malozemov, N. A. Solovyeva

1 St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

2 St. Petersburg State University of Economics,

30/32, nab. kanala Griboedova, St. Petersburg, 191023, Russian Federation

For citation: Malozemov V. N., Solovyeva N. A. MDM method for solving the general quadratic problem of mathematical diagnostics. Vestnik of Saint Petersburg University. Mathematics. Mechanics. Astronomy, 2023, vol. 10(68), issue 3, pp. 516-529. https://doi.org/10.21638/spbu01.2023.306 (In Russian)

The term mathematical diagnostics was introduced by V. F. Demyanov in the early 2000s. The simplest problem of mathematical diagnostics is to determine the relative position of a certain point p and the convex hull C of a finite number of given points in n-dimensional Euclidean space. Of interest is the answer to the following questions: does the point p belong to the set C or not? If p does not belong to C, then what is the distance from p to C? In general problem of mathematical diagnostics two convex hulls are considered. The question is whether they have common points. If there are no common points, then it is required to find the distance between these hulls. From an algorithmic point of view, the problems of mathematical diagnostics are reduced to special problems of linear or quadratic programming, for the solution of which there are finite methods. However, when implementing this approach in the case of large data arrays, serious computational difficulties arise. Infinite but easily implemented methods come to the rescue, which allow obtaining an approximate solution with the required accuracy in a finite number of iterations. These methods include the MDM method. It was developed by Mitchell, Demyanov and Malozemov in 1971 for other purposes, but later found application in machine learning. From a modern point of view, the original version of the MDM method can be used to solve the simplest problems of mathematical diagnostics. This article gives a natural generalization of the MDM-method, oriented towards solving general problems of mathematical diagnostics. The equivalence of the general problem of mathematical diagnostics and the problem of linear separation of two finite sets with the largest width of the margin is established.

Keywords: mathematical diagnostics, simplest problem of mathematical diagnostics, general problem of mathematical diagnostics, machine learning, MDM-algorithm.

References

1. Mitchell B. F., Dem'yanov V. F., Malozemov V. N. Finding the point of a polyhedron closest to the origin. Vestnik of Leningrad University 19, 38—45 (1971). (In Russian) [Engl. trans.: SIAM J. Control 12 (1), 19-26 (1974)].

2. Barbero A., Lopez J., Dorronsoro J. R. An accelerated MDM algorithm for SVM training. European Symposium on Artificial Neurol Networks — Advances in Computational Intelligence and Learning. Bruges (Belgium). April 23-25, 2008, 421-426. Proceedings (2008).

3. Lopez J. On the relationship among the MDM, SMO and SVM-Light algorithms for training support vector machines. Master's thesis. Universidad Autonoma de Madrid, 54 (2008).

4. Lopez J., Barbero A., Dorronsoro J. R. On the equivalence of the SMO and MDM algorithms for SVM training. W. Daelemans et al. (eds.). Berlin, Heidelberg, Springer-Verlag, ECML PKDD. Part I, LNAI 5211, 288-300 (2008).

5. Lopez J., Dorronsoro J. R. A Common framework for the convergence of the GSK, MDM and SMO algorithms. K. Diamantaras, W. Duch, L. S. Iliadis (eds.). Berlin, Heidelberg, Springer-Verlag. ICANN 2010, Part II, LNCS 6353, 82-87 (2010).

6. Lopez J., Dorronsoro J. R. Linear convergence rate for the MDM algorithm for the nearest point problem. Pattern Recognition 48, 1510-1522 (2015).

7. Ming Zeng, Yu Yang, Junsheng Cheng. A generalized Mitchell-Dem'yanov-Malozemov algorithm for one-class support vector machine. Knowledge-Based Systems 109, 17—24 (2016).

8. Deisenroth M.P., Faisal A. A., Ong C. S. Mathematics for machine learning. Cambridge, Cambridge University Press (2020) (https://mml-book.com).

9. Platt J. C. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines. Technical Report MSR-TR-98-14. April 21, 1998 (1998).

10. Lopez J., Dorronsoro J. R. A Simple Proof of the Convergence of the SMO Algorithm for Linearly Separable Problems. ICANN 2009, Part I, LNCS 5768, 904-912 (2009).

11. Lazaro J. L. Analysis and Convergence of SMO-like Decomposition and Geometrical Algorithms for Support Vector Machines. A thesis submitted in partial fulfillment for the degree of Doctor of Philosophy. Universidad Autonoma de Madrid (2011).

Received: November 28, 2022 Revised: November 28, 2022 Accepted: February 16, 2023

Authors' information:

Vassili N. Malozemov — [email protected] Natalya A. Solovyeva — [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.