Научная статья на тему 'Суррогатные функционалы в задачах диагностики'

Суррогатные функционалы в задачах диагностики Текст научной статьи по специальности «Математика»

CC BY
106
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИДЕНТИФИКАЦИЯ / ОТДЕЛИМОСТЬ / МАТЕМАТИЧЕСКАЯ ДИАГНОСТИКА / НЕДИФФЕРЕНЦИРУЕМАЯ ОПТИМИЗАЦИЯ / АППРОКСИМАЦИЯ / IDENTIFICATION / SEPARABILITY / MATHEMATICAL DIAGNOSTICS / NONDIFFERENTIABLE OPTIMIZATION / APPROXIMATION

Аннотация научной статьи по математике, автор научной работы — Григорьева Ксения Владимировна

Рассматриваются задачи математической диагностики. Наиболее распространенным подходом к их решению является статистический. Автор рассматривает упомянутые проблемы с помощью оптимизационного подхода, который может быть полезным в случае, когда статистические особенности базы данных неизвестны или база данных не является достаточно большой. В статье используется негладкая модель, где необходимо отделить два множества, выпуклые оболочки которых, вообще говоря, пересекаются. Линейный классификатор применяется, чтобы идентифицировать точки двух множеств. Качество идентификации оценивается так называемым «натуральным» функционалом количеством ошибочно идентифицированных точек. Необходимо найти оптимальное положение гиперплоскости, сдвигая и поворачивая последнюю таким образом, чтобы количество неверно идентифицируемых точек было как можно меньше. Так как «натуральный» функционал разрывный, предлагается аппроксимировать его некоторым «суррогатным» функционалом, обладающим свойством непрерывности. Представлены и изучены два «суррогатных» функционала. Показано, что один из них суб-дифференцируемый, другой непрерывно дифференцируемый. Также демонстрируется, что их свойства позволяют применить теорию точных штрафов для сведения возникшей задачи условной минимизации к задаче безусловной минимизации и разработать численные методы, в которых используется информация об этих функционалах для построения различных направлений наискорейшего спуска. Необходимые условия минимума сформулированы для обоих «суррогатных» функционалов. Библиогр. 4 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Surrogate functionals in problems of diagnostics

Problems of mathematical diagnostics are considered. The most popular approach to these problems is based on statistical considerations. The author treats the mentioned problems by means of the optimization approach. This approach can be useful in the case where statistical characteristics of the database are unknown or the database is not sufficiently large. In the paper a nonsmooth model is used where it is required to separate two sets, whose convex hulls, generally speaking, intersect. A linear classifier is used to identify the points of two sets. The quality of identification is evaluated by the so-called "natural" functional the amount of misclassified points. It is required to find the optimal hyperplane one which minimizes the number of misclassified points by means of the translation and rotation operations. Since the natural functional is a discontinuous one, it is suggested to approximate it by some "surrogate" functional possessing at least the continuity property. In the paper, two surrogate functionals are introduced and studied. It is shown that one of them is subdifferentiable and the second one continuously differentiable. It is also demonstrated that the theory of exact penalization can be employed to reduce the given constrained optimization problem to an unconstrained one. Numerical methods are constructed where the steepest descent directions of the surrogate functionals are used to minimize the natural one. Necessary conditions for a minimum are formulated for the both surrogate functionals.

Текст научной работы на тему «Суррогатные функционалы в задачах диагностики»

Сер. 10. 2009. Вып. 1

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

УДК 519.3+519.7 К. В. Григорьева

СУРРОГАТНЫЕ ФУНКЦИОНАЛЫ В ЗАДАЧАХ ДИАГНОСТИКИ

1. Введение. Задачи диагностики иногда приходится описывать математическими моделями, в которых необходимо идентифицировать точки двух или более «линейно» неразделимых множеств [1]. Для построения такой модели требуется выбрать правило идентификации, по значению которого можно судить о принадлежности точки тому или другому множеству. Качество идентификации в этом случае оценивается каким-нибудь «естественным» критерием, например количеством ошибочно идентифицированных точек. Такой критерий, называемый «натуральным» функционалом, является разрывной функцией, поэтому применение методов, разработанных для гладких функций, затруднено. Данная проблема решается построением аппроксимации натурального функционала, называемой в дальнейшем «суррогатным» функционалом, для которой эти методы будут работать [2].

2. Постановка задачи. Пусть Мп — n-мерное евклидово пространство, и в нем заданы два множества точек A = {ai G M"li G I}, I = 1 : N1, и B = {bj G M"lj G J}, J = 1 : N2; N1, N2 G N. Пусть c G A U B. Зафиксируем y G M", d G R1. Для удобства в дальнейшем будем использовать обозначение y = (y, d) G M"+1. Введем гиперплоскость L (y) = {x G M"|r (x,y) = 0}, где r(x,y) = (x,y) + d, а (x,y) — скалярное произведение векторов x и y. При этом на переменную y накладывается ограничение ||y|| = 1 (где ||y|| - евклидова норма вектора y). Тогда r (x, y) является с точностью до знака расстоянием от точки x до гиперплоскости L (y).

Будем использовать следующее правило идентификации: если r (c, y) < 0, то считаем, что c G A; если r (c,y) > 0, то считаем, что c G B. В случае r (c,y) = 0 точка с считается неидентифицируемой с помощью функции r (x, y).

Построим разбиение индексных множеств I = I+ U Io U I_ и J = J+ U Jo U J_, где

I+ = I+ (y) = {i G I lr ^, y) > 0} ; J+ = J+ (y) = {j G J l—r (bj, Vs) > 0} ;

Io = Io (y) = {i G I lr (ai, y) =0} ; Jo = Jo (y) = {j G J l—r (bj, y) = 0} ; (1)

I_ = I_ (y) = {i G I lr (ai, y) < 0} ; J_ = J_ (y) = {j G J l—r (bj, y) < 0} ;

I+ (y) и J+ (y) — индексные множества, состоящие из номеров точек множеств A и B соответственно, которые ошибочно идентифицированы с помощью функции r (x,y); Io (y) и Jo (y) — неидентифицируемы с помощью функции r (x,y); I_ (y) и J_ (y) —

правильно идентифицированы с помощью функции r (x,y).

Положим Q (y) = lI+ (y)l + lJ+ (y)l - количество ошибочно идентифицируемых точек обоих множеств A и B, а множество Q (y) = lI+ (y)l + J+ (y)l + lIo (y)l + lJo (y)l - количество неверно идентифицируемых точек множеств A и B. Здесь lAl = cardA - число элементов конечного множества A, а неверно идентифицируемые точки - это объединение ошибочно идентифицируемых и неидентифицируемых точек.

Григорьева Ксения Владимировна — старший преподаватель кафедры информационных систем факультета прикладной математики-процессов управления Санкт-Петербургского государственного университета. Количество опубликованных работ: 13. Научные направления: численные методы и негладкий анализ, решение оптимизационных задач, теория игр и исследование операций. E-mail: [email protected].

© К. В. Григорьева, 2009

Будем называть каждую из введенных функций Q (у) и 3 (у) натуральным функционалом. Поставим задачу найти оптимальное положение гиперплоскости Ь (у), сдвигая и поворачивая последнюю таким образом, чтобы количество неверно идентифицируемых точек было как можно меньше, т. е. требуется минимизировать функционал 3 (у) на множестве О = {у € М"+1| ||у|| = 1}.

Функционал 3 (у) разрывен, поэтому будем аппроксимировать его такими функционалами:

Fie(y) =

F2e (У) =

iel

iel

r{ai,y) + E + jeJ —r (bj, y) "

\r (ai,y)\ + £_ > (bj,y)\ + e_ +

r(ai,y) 2 + jeJ " -r(bj,y) 2

_\r (ai,y)\ + e_ _\r(bj,y) 1 +e_ +

Покажем, что введенные функционалы (у) и Г2е (у) являются аппроксимирующими функционалами.

Лемма 1. При фиксированной паре у = (у, в), где ||у|| = 1, оба функционала Г1е (у) и Р2е (у) являются аппроксимирующими натуральный функционал 3 (у) в следующем смысле: Рге (у) ^<40 3 (у) VI = 1, 2.

Доказательство. Воспользуемся разбиением индексных множеств I и J (1):

limffe (у) = тах(°; !} + 53 тах{°> U =\h (У) I + \J+ (У) I V* = !>2-

ieI+ jeJ+

Содержательно, данное утверждение говорит о том, что значения функционалов F\e (у) и F2e (У) представляют собой (с некоторой точностью) количество точек, для которых выполняются условия r (ai,y) > 0 и —r (bj, у) > 0, так как ненулевой вклад в F\e (у) и F2e (у) дают те точки из множеств A и B, которые ошибочно идентифицированы.

3. Применение точных штрафных функций к решению задачи. Реализуем идею использования суррогатных функционалов для построения различных направлений наискорейшего спуска. Будем рассматривать вместо задачи Q (у) ^ min задачу

yeQ

Fje (у) ^ min, j = 1, 2. Обе задачи представляют собой задачу условной минимизации,

yen

которую можно свести к задаче безусловной минимизации с помощью метода точных штрафных функций, согласно теореме 4.1 из [3, с. 70].

Лемма 2. Для линейной функции r(x, у) = (х, у) + d, х,у G R", d G R1, константа

Липшица имеет вид L = \J 1 + ||ж||2 .

Для линейных функций r1 (х, у), r2 (х, у), локально липшицевых с константами Липшица L1 и L2 соответственно, функции r (х, у) = r1 (х, у) ± r2 (х, у); r (х, у) = r1 (х, у) r2 (х, у); r (х, у) = r1 (х, y)/r2 (х, у), где r2 (х, у) = 0, являются локально лип-шицевыми с константами Липшица:

1) для суммы и разности r (х, у) = r1 (х, у) ±r2 (х, у) константа Липшица L равна L = L1 + L2;

2) для произведения r (х, у) = r1 (х, у) r2 (х, у), где \r1 (х, y)\ ^ C1, \r2 (х, y)\ ^ C2,

константа Липшица L равна L = (C1 + C2) max {L1, L2} ;

3) для отношения r (х, у) = r1 (х, y)/r2 (х, у) при r2 (х, у) = 0, \r1 (х, у)\ ^ C1, \r2 (х, y)\ ^ C2, \r2 (х, у)\ ^ е, константа Липшица L = (C1 + C2) max {L1, L2} / e2.

Для функции максимума r (x, у) = max {ri (x, y)} константа Липшица L равна

ie1:n

L = max {Li}.

ie1:n

Теорема 1. Для функционала F1e (у) при любом X таком, что

X>X*

2LFle

2 (Е у/1

2 (2Ci + e)

+Y,v1 + wbj

jeJ

2 (2Cj + e)

и для функционала F2e (y) при любом X таком, что А > Л* = =

2 (£

, iel

1 + II ai

,2 (2Ci + e) 2Ci

Ci + e

+

jeJ

1 + \\bj

2(2 Cj + e) 2 Cj

1 e2 Cj + e

где ri = r (ai,y), rj = r (bj,y), ai, bj G Rn; Ci = max \ri\, Cj = max \rj\, а множе-

yeQs yetts

ство Og = {y G Rn+1|^> (y) < S} задано для некоторого S > 0, задача минимизации функционалов Fje (у), j = 1, 2, на множестве О эквивалентна задаче минимизации соответственно функционалов &j\ (у) = Fje (у) + Xф (у), j = 1, 2, на всем пространстве Rn+1.

Доказательство. Пусть

min Fje (y)= F*£ > -ж У j = 1, 2.

(2)

1. Проверим пункт теоремы 4.1 из [3, с. 70]. Покажем, что существует Ао < то такое, что для любого А ^ А0 найдется ул € Мп+1, для которого Ф^ л (ул) = Ф*л = шт Фо л (у) V] = 1,2. Для любого А ^ А0 функция Фо Л0 (у) выпукла как сумма

максимумов, поэтому имеет место шт Фол0 (у) = Фол0 (Ул0). Согласно следствию 3.1

у аТО-^+1

из [3, с. 67], если для любого X > 0 найдется такое уЛ G Rn+1, что QjЛ (уЛ) = Ф*Л, то ф (Ул) ^ 0 при X ^ ж. Следовательно, ф (уЛо) =0 и ф (уЛ) =0 У X ^ X0. Тогда функции Фjл (у) У j = 1, 2 эквивалентны функциям Fje (у) У j = 1, 2 на всем пространстве Rn+1 и имеют решение задачи ПШ+ Фjл (у) = Ф*Л У j = 1, 2, согласно (2).

2. Функция ф (у) = max {ф1, Ф2} для у G О является недифференцируемой по у, т. е. не является липшицевой по области О. Покажем, что имеет место локальная липшице-вость функционалов Fje (у) У j = 1, 2 на множестве Og\О. Найдем константу Липшица для функционала F1e (у):

\F1e (У1) - F1e (У2)\ <

max {fu (у1), f2i (У1)}- max {fu (у2) ,f2i Ы)}

iel

iel

+

+

J2max {f3j (У1) ,f4j (У1)} ^53 max {f3j (У2) ,f4j (У2)} jeJ jeJ

= e 1.

Так как fu = f3i = 0 У у, то Lfli = Lf3i = 0.

a

2

2

e

e

a

2

e

L\Vi\+£

Тогда

Рассмотрим hi{y) = r{ai,y)/{\r{ai,y)\+e) = г*/(|г*| + e); LTi = \J 1 + |K||2; Lri = \J 1 + ||а®||2. Пусть \ri\ ^ Ci, следовательно, e ^ |r*| + e ^ C\ -\- e.

Lfn — i^Ci + e) \J 1 + |К||2 je2,

^max{/ii,/2i} max {Lfli, Lf2i} Lf2i (2Cj + e) ^/l ^ IIII j^ >

где Ci = max \ri\, Og = {y G Rn+1^ (у) < S} для некоторого S > 0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

yetts

Аналогично проводится оценка для функции f4j (у) = -rj/(\rj\ + e):

^тах{/з3-,/4з-} = (2C*j +£) \Л + II M 2 j £2->

в которой Cj = max \rj \. Продолжим оценку:

yetts

е1 < [E Vі

,2 (2Q + є) | _ /~л ( M2 (2Cj + є)

,ieI

■+53 V1 + №

jeJ

\\yl - у 2 w .

Получим теперь константу Липшица для функционала F2E: (у):

53 [max {fu (у і) , f2i (у l)}]2 -J2 [max {fli (У2), f2i Ы)}Х

іЄІ

іЄІ

53 [max {f3j (y 1s) , f4j (y 1)}]2 - 53 [max {f3j (У2) , f4j ЫЖ

jeJ jeJ

+

= е2.

Найдем L[max{0,f2i}]2. Так как \п\ < Ci, e < \n \ + e < C + e, то max {0, f2i} < < Ci/(Ci + e). Отсюда L[max{o, f2i}]2 = 2Ci/(Ci + e)Lmax{o,f2i}. Продолжим оценку:

е2 < ( 53 \I1 + Wai

\іЄІ L Таким образом,

12 (2Сі + є) 2C\

є2 Ci -j- є

+E

jeJ

1 + \\bJ

2 (2Cj + е) 2Cj

\уі - у 2 w.

LFis = 53 V1

2 (2Ci + е)

іЄІ

^у1 + \\bj

jeJ

2 (2Cj + е)

LF2s = 53

іЄІ

1 + \\ai

12 (2Cj + є) 2C\

є2 Ci -j- є

+E

jeJ

1 + \\b3

i2 (2Cj + e) 2Cj

1 є2 Сі + є

3. Покажем теперь, что скорость наискорейшего спуска функции р (у) = |||у|| — 1| на множестве Og\0 ограничена снизу

(у) = lim

V (У + аэ) - V (У)

a[Q

geS

S={geMn\ IIgП = 1}

(3)

a

2

2

е

е

2

е

a

2

2

е

е

а

Рассмотрим случай ф (у) = 0:

' \\у\\-1, \\у\\> 1;

ф (у) = \\\У\\- 1\ =max {ф1,ф2} = ^ 1 -|\у\\, \\у\\ < ^

1). Если ||у|| > 1, то <р(у) = \/у2 — 1 — гладкая, и, в силу условия для гладкой

функции ср1 (у) = - ||<р' (у)||, имеем ср1 (у) = - ||у/ (у)|| = - ||у/|Ы||| = -1.

2). Если |Ы| < 1, то ср (у) = 1 — \fip- и тогда когда ||у|| ^ 0, то (р^ (у) = — 1,

(аналогично п. 1) ); когда \\у\\ =0, то

ф1 (У) = - max (v, д) = - ||g\| = -1.

veSi, ||fl|| = 1, Si = {v| || v || = 1}

Поскольку из п. 3 следует, что S = +ж и соответственно (3) имеет место для всех у G Rn+1\O, то X* = 2L. Подставляя величины констант Липшица в формулу для вычисления X*, получим значения X* для обоих функционалов.

4. Свойства функционалов Фjл (у), j = 1, 2. Напомним некоторые определения понятий, используемых в дальнейшем изложении (см. [4, гл. 2, § 1]).

Пусть на открытом множестве S С Rn задана конечная функция f (x), которая называется квазидифференцируемой (КВД) в точке x0 G S, если она дифференцируема в точке хо по любому направлению д G R" и если существуют выпуклые компакты df (хо) С М" и df (хо) С М" такие, что

1 ■ f (x0 +ад) - f (x0) / \ | / \ (л Л

/ \хо, 9) = lim-------------------= max {v,g)+ mm {w,g). (4)

“4° OL vedf(x o) wedf(xo)

Пара множеств Df (xo) = [df (xo) , df (хо)] называется квазидифференциалом функции f (x) в точке хо, а множества df(xo), df (хо) - соответственно суб- и супердифференциалом функции / (х) в точке хо. Из формулы (4) следует, что пара множеств [df (хо) + В, df (хо) — В], где В С R" — произвольный выпуклый компакт, тоже является КВД. Если среди квазидифференциалов функции / (х) в точке хо есть элемент вида Df (хо) = [df (хо), {0„}] = [df (хо), {0„}], то функция называется суб-дифференцируемой в точке жо, а если элемент вида Df (хо) = |{0„} , df (хо)] = = [{Оп},9/(х0)], то супердифференцируемой в этой точке. Если функция f (x) КВД в каждой точке xo G О С S, то она называется КВД на множестве О (см. там же).

Лемма 3. Функционал F1e (у) является субдифференцируемой функцией, и его субдифференциал равен

dFle (у) = у £(ffli’1} 2 - V-------------£(М) 2 +

“ ^+{г{аг,у)+е)2 ^+{-r{b0,y)+ef

, Jn (а*> i) 1 , fn ~(bjA)

+ l^co) °«+ь —— \ co

*£/0 3£Jo

Здесь то А — выпуклая оболочка множества А.

Доказательство. Найдем квазидифференциал функционала Г1е (у). В силу разбиения (1), имеем

Р1е (у) =У Р1* (у) + У (у) + Е Р2* (у) + Е ^ (у),

г£1+ оеЗ+ *£10

где фи(у) = \гГ£м+е ’ Фи(у) = °; Ф2г{у) = тах{^н,^н}; ф^ (у) = |_7(7ь(^)+е; ф1з (у) = 0; Ф23 (у) = шах {ф^, ф^}; Уг (а^,у) = (дг/ду, дг/дй) = (а^, 1).

Для % € /+, з € 7+ будет V(р-ц (у) = (д(ри/ду,д(ри/д(1) = (т.(^)+е)2 • Аналогично,

Уф1Лу) = ^Щёг-

Когда г € 10, 3 € 10, то рц (у) = 0 и ф\^ (у) = 0. Тогда, согласно правилам КВД исчисления (см. [4, гл. 2, § 1]), для функций ц (у) и ф2^ (у) имеют место соотношения

<кр2ъ = СО {д(ри + д<ри, дери + дфи} , <9^2* = {0п+1}, (5)

дф2] = со {дф^ + дф^, дф^ + } , дф2] = {Оп+1} ■ (6)

Для функций <ри (у) = 0 и ф^ (у) = 0 выполняется дери = дери = {0п+1}; дф^ = дф^ = {0„+1}, а так как Уери (у) = (г(^)^е)2 = и Уф^ (у) = ~(Ь£3,1),

то дери = |^^|; дери = {0„+1} и дфхз = { } ; дф^ = {0„+1}. Подставляя

полученные результаты в формулы (5), (6), находим

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

дф2] = со |о„+ь—дф2^ = {0„+1} , д<р2г = со |ота+ь ^ ^ | , др21 = {0„+1} .

Хак, в силу разбиения (1), имеем для 1+ ,1+ и 1о, 1о соответственно сумму гладких функций и сумму субдифференцируемых функций и получаем формулу для вычисления квазидифференциала функционала Г\е (у) в произвольной точке у:

№,м= V /~(“"11

є(Ьд-, 1) +

і^Ґ+ (г (аі, У) + £)2 зеЗ+ (-г (Ь3 , У) + Є)2

которая показывает, что функционал Г\е (у) — субдифференцируемая функция.

Лемма 4. Функционал Г2е (у) является непрерывно-дифференцируемым и его градиент УГ2е равен

УР2, = 2,(уГ {а,’Ю {а'• + Т Г {Ь‘'Я <Ь” Ч, I ■ (7)

\ДИ°.,Й+'03

Доказательство. Введем обозначения:

г(<Ц,у) ,-Л _ -г{Ъ],у)

фи (у) = Г~/-----------Л, , > Фіз (У) =

\г(а ,У )| + є’ 3 \-ribj ,У )| + є'

Тогда функционал (у) можно переписать в виде

Р2е (у) = У [фіі (у)] 2 + У [ФіЗ (у)] 2 + У [фи (у)]+ + У [ФіЗ (у)]+•

ІЄІ+ 3^-3+ іЄІо 3Є30

Обозначим

^ (у)={ j1) у ’ * €I+; ^23 (у) = { ф1ц (й, .j € J+;

р2) у 1 [Р1г (у)]+ , * € Io ; ф2ц у \ [Фц (у)]+ , j € Jo.

Для всех * € I+ функция р2г гладкая и ее градиент имеет вид

V№ (у) = Vpu (у) = (дери/ду, дери/dd) = £ (°*’*} . (8)

(^(Й)7 у) + £)

Следовательно, функция ер2г (у) = P2i (у) тоже гладкая и ее градиент равен

„ , ч , , ч 2r (аг,у) £ (аг, 1)

V^2i (у) = 2p2i (у) V^i (у) = ------------------~з~-

(г (аг, у)+£)

Для всех * € I0 функция р2г (у) субдифференцируема с субдифференциалом вида дер2г{у) = со |on+i, производная по направлению выражается формулой

Р2г (у;g) = max (v,g), отсюда

v£d(p2 г

Vp2i (у ;д)=2р2г (у) VР2г (у ';й)=0n+1 V д € R”+1, (9)

так как р2г (у) = 0 V * € I0. Из (9) следует, что функция р2г (у) — дифференцируемая в точке и ее градиент принимает значение Vp2i (у) = 0n+i. Тогда из (8) и (9) имеем

Г 2r(aj, y)e(aj,l) ^Ф2г(у)=< (г(аг,у)+еУ _

0n+1 , * € J-0.

Найдем теперь градиент функции ф2ц (у). Для всех j € J+ функция ф2ц (у) гладкая и ее градиент имеет вид

Щ2з(у) = Щ1з(у) = (дф1з/ду, дфч/dd) = ^2. (10)

Отсюда заключаем, что функция ф2ц (у) = ф^ (у) тоже гладкая и ее градиент равен

Уф2з (У) = 2Ф2з (У) Уф2з (У) = 2'{bj’y)\{bj’ll.

(—r (bj,у)+£)

Для всех j € J0 функция ф2ц (у) субдифференцируема и ее субдифференциал имеет

представление д_ф2^ (у) = со |on+i, —производная по направлению выражается

формулой Vф2j (у;д)= max (v,g), отсюда

v£chp2i

Vi'hj (у;д) = 2ф2ц (у) VФ2ц (у;д) = 0n+i Vд € Rn+1, (11)

так как ф2ц (у) = 0 V j € J0. Из (11) следует, что функция ф2ц (у) — дифференцируемая в точке у и ее градиент принимает значение V'ф2j (у) = 0n+i. Тогда из (10) и (11) имеем

Г Мbi ,y)£ibj Л)

VP2j (у) = N (-r(bj ,У)+е)

3 1

j € j+;

0n+1 , j € J0 .

Суммируя Vр2г (у) и V,p2j (у), получаем правую часть выражения (7).

Лемма 5. Функция р является субдифференцируемой в точке у € О и ее субдифференциал имеет вид

др {у) = со {(г/,0), (-г/,0)}.

Доказательство. Пусть р (у) = 0. Тогда

Р1 = \\у\\-1, \\у\\ > 1

Р (у) = \\\у\\- 1\ =таХ {р1,ы =, р2 = ! - |\у\\, \\у\\ ^ 1

При у = 0п функции р1 и р2 — непрерывно-дифференцируемы, причем р1 (у) = (г//||г/||, 0), р2 (у) = {—у/\\у\\,0). Отсюда следует, что функция р (у) является КВД, причем ее квазидифференциал равен Вр (у) = [д_р (у), др (г/)], где

др(у) = = со {(у/1|г/1|, 0), (—г//1|г/1|, 0)} 11 У= 1 со {(у, 0), (-у, 0)} ; др (у) = {0„+1} .

Следовательно, при у = 0п функция р (у) — субдифференцируемая.

Поскольку сумма субдифференцируемых функций тоже субдифференцируемая (см. [4, гл. 2, § 1]), то из лемм 2—4 вытекает следующий результат.

Теорема 2. Функционалы (у), ] = 1,2, являются субдифференцируемыми

на множестве О, и их субдифференциалы соответственно имеют вид

ЗФ1А (У) = У £КД) 2 - V ---------------' (6Д~’ 1} 2 +

■ ^ у) +£) 3Ь+ (~г у) +£)

+ 53 С0 {^п+Ь ^ ^ | + 53 С0 {®п+Ь ~Г—“| + ^С0 У’ ®)} ’

геТо ^ £ ) jеJо ^ £ )

»2Л да=2е £ + V + л» о)(.

Ц/+ (г К, у) + е) ^ 7+ ( г (Ьд-, у) + е) !

5. Необходимое условие минимума для суррогатных функционалов Г1е (у)

и Р2е (у) на множестве О. Известно, что для того чтобы точка у* = (у*, !*) являлась точкой минимума функционала Фjл на Мп+1, необходимо выполнение условия 0п+1 € дФз\(у*), 1 = 1,2.

Перепишем необходимое условие минимума для функционала ¥1е в виде 0п+1 € ^ дР\Е (у*) + Хсо {{у*, 0), (— у*, 0)}. Тогда найдется такое /4 е [-1,1], что 0п+1 € € дР1е (у*) + Л/х (г/*,0), т. е. 0„+1 € дР1е (у*) + р,у*, где /2 = Л/х, у* = (у*, 0). Расписывая это включение покоординатно, получим справедливость следующего утверждения.

Теорема 3. Для того чтобы точка у* доставляла минимальное значение функционалу Г1£ (у) на множестве О, необходимо, чтобы выполнялись следующие соотношения:

^—л £&г ^—л £bj

Жп:0пеУ ------------^---з - У" -------------2 +

<е/+ (г(а;,г/*)+е) .е]+ (-г{Ъй,у*)+е)

+53со 1°”’ т1}+ 53со 10п’ ~^г |+^у*-•

£ ) ^—' I £

геТ0 jеJ0

М1 : О € У -----------2 - У --------------2 +

;е/+ (г (<*, У*) + е) д-е7+ (~Г (Ьд, У*) + е)

+ ЕС0{°’“} +Есо{°’~}- (13)

гЕ1о 1 } ]е30 У }

Замечание. Отметим, что точка у * зависит от е: у* = у* = (у*, ЗЕе); множества I+ ,3+ и 1о,Зо тоже зависят от е: I+ = I+ (у е) = I+ (е), 3+ = 3+ (у е) = 3+ (е),

1о = ^ (у е) = ^3 (е), 3 3 (у е) = 3о (е).

Следствие. Пусть ^ (е), 30 (е) = $. Тогда из (13) следует

/ 2-У ---------------2=°> (14)

ІЄІ+ІЕ) (г (“<> УІ) + £) зе.1+(е) (-г (Ъь УІ) + є)

(12) вытекает

Ъз

--- У ---------------------------------------— -------- -

рУ*, (15)

геТҐ(Е) (г(а У ^ )+£)2 ^ (-Г (ЬІ У^є ')+£')

где р = р/е.

Прокомментируем условия (14) и (15). Из (14) следует, что суммы квадратов обратных расстояний (с точностью до е) ошибочно определенных точек множеств А и В совпадают; а из (15) — что вектор тє параллелен вектору у*.

Теорема 4. Необходимое условие минимума для функционала Г2є (у) на множестве О имеет вид

»■: е ,:(“"У;%+ £ , ,»+^=”,- <“>

ІЄІ+ (є) (Г (аі, У*) + Є) зе.7+(е) (—Г (Ъ3, У*) + е)

М1. у ----------■У^УЕ, у ------. (17)

ІЄІ+(Е) (г (“<> УІ) + £) оез+{е) (“г (ЪЬ УІ) + £)

Доказательство. Рассмотрим точку у = (у, ії) Є О. Для проверки ее на стационарность решим задачу нахождения ближайшей точки V (у) от начала координат до субдифференциала дФ2л (у)- Для этого найдем решение задачи

1 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-ІИІ -► гшп (18)

2 УЄдФ2\(у)

Имеем дФ2\(у) = {и = VР2є + ру\р Є [—Л; Л]}, где /л = Л (2^ — 1), 7 Є [0; 1], у =

(у, 0) Є М"+1. Решим сначала задачу

1 2

-\\УР2є+ру\\ > П1ІП . (19)

2 ілЄК1

Для этого найдем производную от функционала (19), приравняем ее нулю и получим уравнение (УР2є,у) + р ||у|| = 0, откуда р* = — (УР2є,у). Поскольку множество значений у такое, что у Є О, т. е. множество значений у — единичная сфера, а У.2Є ограничено, то ограниченным будет и р* = — (УГ2Є,у), и при достаточно больших Л

а

окажется ц* € [—А; Л], т. е. шт \ УХ7^ + МУЦ2 = г™11 Ь + МУЦ2- Но тогда за-

ме*1 2

дача (18) эквивалентна задаче Ь ||У^2е + МУН т1п • Следовательно, решением

^е[-Х;Х]

задачи (18) будет

V (у) = У¥2е — (УР2е, у) у. (20)

Если ||V (у) || = 0„+1, то точка у = (у, в) € О — стационарная точка функционала ¥2е (у) на множестве О. Воспользуемся равенством (20) для вывода необходимого условия минимума функционала Е2Е на множестве О.

Если у * € О — точка минимума функционала Е2Е (у *) на множестве О, то из (20) следует У¥2е (у*) +р* у* = 0п+1, где у * = (у*, 0), ц* = — {У¥2е (у*) ,у *). Тогда

г (at, у ) (at, 1) ч - r(bj,y )(bj,l)

2s Т~(-----—7з + Is 7-----------/, -*n .—7з + M (У , 0) - 0n+i,

ieI+ (r (ai,y*)+e) jej+ (—r (bj,y*)+£ )

£ = /(2e).

Учитывая, что для точки у* верно указанное выше замечание, распишем определенное необходимое условие минимума покоординатно и получим выражения (16), (17).

Если || v (у) У = 0 n+i, то направление наискорейшего спуска g (у) функций &j\, j = 1, 2, в точке у имеет вид g (у) = —v (y)/\\v (у) ||. Это направление можно использовать для построения численных методов решения как задачи Fje (у) ^ min, j = 1, 2, так и

у£П

задачи Q (у) ^ min.

уеП

Summary

Grigorieva K. V. Surrogate functionals in problems of diagnostics.

Problems of mathematical diagnostics are considered. The most popular approach to these problems is based on statistical considerations. The author treats the mentioned problems by means of the optimization approach. This approach can be useful in the case where statistical characteristics of the database are unknown or the database is not sufficiently large. In the paper a nonsmooth model is used where it is required to separate two sets, whose convex hulls, generally speaking, intersect. A linear classifier is used to identify the points of two sets. The quality of identification is evaluated by the so-called “natural” functional - the amount of misclassified points. It is required to find the optimal hyperplane - one which minimizes the number of misclassified points by means of the translation and rotation operations. Since the natural functional is a discontinuous one, it is suggested to approximate it by some “surrogate” functional possessing at least the continuity property. In the paper, two surrogate functionals are introduced and studied. It is shown that one of them is subdifferentiable and the second one - continuously differentiable. It is also demonstrated that the theory of exact penalization can be employed to reduce the given constrained optimization problem to an unconstrained one. Numerical methods are constructed where the steepest descent directions of the surrogate functionals are used to minimize the natural one. Necessary conditions for a minimum are formulated for the both surrogate functionals.

Key words: identification, separability, mathematical diagnostics, nondifferentiable optimization, approximation.

Литература

1. Демьянов В. Ф. Идентификация точек двух выпуклых множеств // Вестн. С.-Петерб. ун-та. Сер. 1: Математика, механика, астрономия. 2001. Вып. 3 (№ 17). С. 14-20.

2. Demyanov V. F. Mathematical diagnostics via nonsmooth analysis || OMS. 2005. Vol. 20. N 2-3. P. 197-218.

3. Демьянов В. Ф. Условия экстремума и вариационные задачи. СПб.: НИИ химии С.-Петерб. ун-та, 2000. 136 с.

4. Демьянов В. Ф., Васильев Л. В. Недифференцируемая оптимизация. М.: Наука, 1981. 384 с.

Статья рекомендована к печати проф. В. Ф. Демьяновым.

Статья принята к печати 7 октября 2008 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.