8. Fuzzy Logic Toolbox User's Guide [Электронный ресурс] / Режим доступа: http://www.mathworks.com/
9. Толкач, В. KPI в управлении: связь со стратегией [Текст] / В. Толкач // Новый менеджмент.
-2007. -№ 5.
10. Проект «матричная реализация нечеткой логики» [Электронный ресурс] / Режим доступа: http:// iseletkov.perm.ru/project/fuzzylogic
УДК 681.3.06(075.8)
И.Г. Черноруцкий
АЛГОРИТМИЧЕСКИЕ ПРОБЛЕМЫ ЖЕСТКОЙ ОПТИМИЗАЦИИ
На практике часто возникает ситуация неудовлетворительного поведения стандартных методов нелинейной оптимизации при решении реальных прикладных задач. Как правило, это выражается в резком замедлении сходимости применяемых поисковых процедур, а в ряде случаев - в полной остановке алгоритма задолго до достижения оптимальной точки (ситуация «ложного» локального экстремума). В англоязычной литературе указанное явление носит название джемминга (Jamming) или залипания.
Возникновение подобных трудностей связано со специальной формой плохой обусловленности матрицы вторых производных минимизируемых функционалов, приводящей к характерной жесткой (овражной) структуре поверхностей уровня. В данной статье указываются причины частого появления жестких экстремальных задач в практических вычислениях.
Некоторые выводы и утверждения интерпретируются на примере стандартных задач теории управления. Однако, как правило, обсуждаемые проблемы имеют инвариантный, общесистемный характер и могут представлять интерес для специалистов из различных проблемных областей компьютерного моделирования. Рассматриваются задачи безусловной (unconstrained - UC) оптимизации.
1. Явление жесткости
Рассмотрим следующий пример критерия оптимальности, зависящего от двух управляемых параметров x1, x2 [1]:
J (Xi, X2) = go2 (Xi, X2) + CTg2 (x, X2) ^ min, (1)
где ст - достаточно большое положительное число.
Рассмотрим также уравнение
gi(Xi, X2) = 0, (2)
определяющее в простейшем случае некоторую зависимость X2 = ф^). Тогда при стремлении параметра ст к бесконечности значение функционала J в каждой точке, где g1(X1, X2) Ф 0, будет неограниченно возрастать по абсолютной величине, оставаясь ограниченным и равным g02(xp X2) во всех точках на кривой X2 = ф(х1). То же самое будет происходить с нормой вектора градиента J (x) = [dJ/dX cJ/dX2], где
dJ/dX1 = 2g0(X1, X2) dg0/dX1 + 2<CTg1(x1, X2) dg1/dX1,
dJ/dX2 = 2g0(X1, X2) dg0/dX2 + 2CTg1(X1, X2) dgjdx2.
Линии уровня J(x) = const для достаточно большого ст представлены на рис. 1 и имеют характерную овражную структуру. Там же стрелками показано векторное поле антиградиентов, определяющее локальные направления наискорейшего убывания J(x).
Ясно, что при достаточно больших ст минимальные значения J(X) следует искать вдоль зависимости x2 = ф^), определяющей т. н. дно оврага. Из (1) следует, что изменение J(x) вдоль дна зада-
Рис. 1. Явление овражности
ется выражением £02(хр х2) и не зависит от величины параметра ст. Таким образом, задача минимизации .(х) сводится к минимизации функционала g02(x1, ф(х1)) от одной переменной х1. В общем случае уравнение х2 = ф(х1) обычно неизвестно.
Приведенный пример овражной ситуации является простым, хотя и из него уже видны принципиальные трудности, связанные, например, с применением широко распространенных методов спуска по антиградиенту. Действительно, из рис. 1 следует, что направления поиска, задаваемые антиградиентами, оказываются неэф фектив-ными. Приводя достаточно быстро щюцесс поиска на дно оврага, они в окрестности дна начинают осциллировать, оставаясь почти перпендикулярными направлению в точку минимума.
Возможны различные усложнения и обобщения рассматриваемой ситуации. Например, уравнение (2) может, вообще говоря, определять не одно, а несколько решений х2 = ф1.(х1), каждое из которых означает свой «овраг» или «долину». С точки зрения приложений более существенным обобщением является предположение о наличии многомерного дна оврага. Чтобы проиллюстрировать это явление, обратимся к следующему примеру:
т
.(х) = £о2(х) + ст£ g2(х), х е Я", п > 2, т < и. (3)
1=1
В этом случае дно оврага задается системой уравнений
g.(x) = ° .е (4) что в принципе позволяет выразить т параметров х . через оставшиеся п - т переменных. Предположим, не ограничивая общности, что уравнения (4) определяют следующие зависимости: х. = ф.(х , , ..., х ),
1 т 1V т + 1' '
х = ф (х , , ..., х ).
т т т + 1 п
Аналогично предыдущему случаю устанавливаем, что задача минимизации (3) при достаточно больших ст эквивалентна минимизации
функции go2(фl, фm, хт + р хп) от Г = " - т
переменных хт + 1, ..., хп. Число г носит название размерности дна оврага. Легко представить, что, например, для п = 3 поверхности уровня одномерного оврага имеют характерный «сигарообразный» вид, а для двумерного оврага они будут близки к деформированным дискам.
В любом случае для овражной ситуации определяющим фактором является специальная структура поверхностей уровня . (х), весьма сильно
отличающаяся от сферической. Характерно наличие некоторой области притяжения (по сути - дна оврага) Q с Rn, содержащей оптимальную точку х* = arg min J(x). При этом норма вектора градиента J(x) для х е Q, как правило, существенно меньше, чем в остальной части пространства.
Овражную структуру могут иметь не только функционалы вида (1), (3), явно содержащие большой параметр ст. Можно привести следующий пример квадратичного функционала:
f (Xj, х2) = 0,250025x2 + 0,49995x х2 + + 0,250025x2 - x - x2.
Линии уровня fx) = const функционала (5) представляют семейство подобных эллипсоидов с центром в точке (1:1). Длины полуосей эллипсоидов относятся при этом как 1:102. Указать большой параметр ст в выражении (5) нельзя, хотя овражная ситуация налицо, и так же как и в предыдущих случаях явно выделяется дно оврага (прямая ab на рис. 2), имеющее уравнение x2 = 2 - xr Подставляя выражение для x2 в (5), снова приходим к эквивалентной задаче меньшей размерности:
f1(x1) = 10-4(x -1)2 -1 ^min.
x
Необходимость выделения овражных оптимизационных задач в отдельный класс обусловлена, с одной стороны, значительными вычислительными трудностями при их решении стандартными для компьютерного моделирования методами, а, с другой стороны, бесспорным фактом важности данного класса задач для большинства практических ситуаций. Специалисты по моделированию сталкивались с овражной ситуацией уже на заре современной компьютерной эры, когда компью-
теры стали регулярно использоваться при решении реальных задач. Приведем лишь некоторые ранние свидетельства специалистов, подтверждающие тезис о типичности овражной ситуации:
[2], с. 226: «... c увеличением размерности задачи возрастает вероятность появления оврагов»;
[3], с. 353: «... большинство практических задач многопараметрической оптимизации, особенно из области оптимального проектирования, страдает обилием такого рода ловушек (то есть оврагов)»;
[4], с. 272: «... в экстремальных задачах проектирования необходимо использовать методы оптимизации, приспособленные для поиска экстремума, в овражных ситуациях»;
[5], с. 161: «... особенностью целевых функций при решении задач схемотехнического проектирования является их гребневый (овражный при поиске минимума) характер, что приводит к большим вычислительным трудностям;
[6], с. 35: «Наибольшие трудности при поиске локального оптимума доставляют так называемые «овражные» ситуации».
Аналогичные утверждения сделаны также во многих других работах, связанных с компьютерным моделированием. Сейчас известны различные методы, ориентированные на решение рассматриваемого круга оптимизационных задач, однако и в настоящее время проблема минимизации овражных функционалов актуальна. Особенно остро стоит вопрос минимизации овражных и одновременно невыпуклых функционалов, т. к. именно в этой ситуации отказывает большинство методов поисковой оптимизации. Далее, в соответствии с основополагающими результатами работы [1], проблема овражности рассматривается с позиций явления жесткости. Последнее позволяет конструктивно вскрыть основные особенности рассматриваемого класса задач и построить теорию жесткой оптимизации.
2. Основные определения
Пусть решается задача J(x) ^ min, J е C2(D), x е D с Rn. Будем предполагать далее, что функционал J(x) ограничен снизу на D.
Траектория наискорейшего спуска (ТНС) х(т) функционала J(x) задается векторным дифференциальным уравнением
Эти траектории в случае овражных функционалов обладают рядом специфических черт. Например, для функционала (5) имеем
2
х(х)=Е{а*+(а0 -а*)exp(Aл:)н, (7)
dx
dT = - J X х), J X х) = d т
J
дх
dJ
' дх
где
2 2
х(о)=Yj^lu *х*=(М) =№ >
1=1 1=1
X, = 1, X2 = 10Л U1 = "2 = 41).
Из (7) видно, что из-за наличия быстро затухающей и медленно затухающей экспонент отчетливо выделяются два участка с существенно различным поведением решения. Первый, сравнительно непродолжительный, характеризуется большими значениями производных dx.(T)/dT и означает спуск на дно оврага. На дне выполняются условия типа (2) и норма вектора градиента, а с ней и производные dx.(T)/dT становятся относительно малыми. Поэтому для второго участка характерно относительно плавное изменение переменных хр х2. Таким образом, прослеживается полная аналогия с поведением решений т. н. жестких систем обыкновенных дифференциальных уравнений. В связи с этим, следуя [1], дадим следующее общее определение.
Определение 1. Функционал J(x) называется жестким (овражным), если отвечающая ему система дифференциальных уравнений (6) -жесткая.
Однако с точки зрения приложений к области оптимизации более конструктивным оказывается приведенное ниже определение жесткого функционала. Это определение не содержит, в частности, таких неестественных для задач оптимизации требований, как необходимость задания промежутка интегрирования уравнения (6) [7].
Определение 2. Функционал J^) е C2(D), D с Rn называется жестким в множестве Q е D, если найдутся такие числа ст > 0, ст >> 1 и множество Qs с D, что
1)Vx е Qs,XJJ"(х)] >ст|Хп[J"(х)]|;
2)Vx е Q, arg min J(х') с Q; (8)
хеХ i (х)
3)Vx е Q, L[X& (х) n Q] < ct-1L[X (х)],
где Xi (х) = {х1 е Rn\ ||х'- х|| < 1}; Q = U Xi (х);
xeq
X [A] - собственные числа матрицы A = J"(x), упоря-
i=1
доченные по убыванию АДА] > А2[А] > ... > АДА]; ^[5] - константа. Липшица в соотношении и'(х') - .'(х)|| < 1[5] ||х'- х||, Ух, х е 5 с Я". Множество Q называется дном оврага.
Основным в определении 2 является условие 1, констатирующее резко несимметричное расположение спектра матрицы вторых производных Г(х) относительно начала координат: А. е [- т, М], М >> т > 0. Условия 2, 3 необходимы для описания свойства «устойчивости» множества Q: можно показать, что все ТНС, начинавшиеся в любой точке х е Q5, быстро попадают в достаточно малую окрестность Qs (е < 5) множества Q и остаются там до выхода из множества Q5.
Как правило, для приложений оказывается достаточной более грубая модель явления жестко -сти, когда предполагается, что собственные числа матрицы вторых производных можно отчетливо разделить на две группы, в одну из которых входят собственные числа, по модулю намного превосходящие элементы второй группы. Вводится следующее определение [7].
Пусть в Б с Я" задана г-мерная поверхность (конфигурационное пространство) Q = {х е е Б |£(х) = 0; I е [1:и - г]}, g| е С(Б).
Определение 3. Функционал .(х) е С2(Б), Б с Я" называется жестким на множестве Q, если найдутся такие числа 5 > 0, ст >> 1 и множество Q5 с Б, что
1) Ух е Q5, А [.''(х)] >... > А" - г [.''(х)] >
>ст|А и-r+1[ J "( x)] |>... >ст|А я [ J "( x)]|; 2)Vx е Q, arg min J(x') с Q;
xeX б (x)
(9)
3) Vx e Q, L[X5 (x) n Q] < a-1 L[XS (x)].
Число r называется размерностью оврага (дна оврага) Q.
Пример. Рассмотрим квадратичный функционал:
fx) = 1/2 {Ax, x) - {Ъ, x) + с, с = const. (10)
Пусть собственные числа A(A), i e [1:n] удовлетворяют неравенствам (9) (при Vx e Rn). Построим множество Q, являющееся в силу определения 3 дном оврага. Предположим, без существенного ограничения общности, что det A ф 0 и обозначим через x* решение уравнения Ax = Ъ. Тогда
f'(x) = Ax -b = A- x — x*) = £ß A-
i=1
n
где x - x* = £ß,U.
(11)
Положим
Q = {х е Я" |р. = <х - х*, и) = 0, г е [1:и - г]}. (12) Тогда, очевидно, Q5 = Я", ст = А1 / \\ _ г + 1 и условие 1 выполнено.
Обратимся к проверке выполнения условия 2. Рассмотрим сферическую окрестность
х5 = {х е Я" ||х - х|| < 5} некоторой точки х =
"
= £ а и + х* е Q. Для произвольного х =
|="-г+1 "
= £ Р.ц. + х* е Я" условие хеХ5 эквивалентно тре-
=1
бованию
£ß,u + £ (ß-ai )u
..., ßn)е Sß = ißеR
i=n-r+1 n-r
<б или ß = (ß„
£ß2 + £ (ß,-a,)2 <б2 l
/=1 i=n-r+1
1
Имеем f (x) = - £ ß2A,. + c = p(ß), где
2 =1
с не зависит от ß. Задача поиска x е Хб, минимизирующего fx), сводится к следующей задаче условной оптимизации
cp(ß) ^min, g(ß) = £ß2 + £ (ßi-a,)2 -б2 < 0.
i=1 i=n-r+1
Условие стационарности для функции Ла-гранжа L(|p |2, ß) = ^jp(ß) + |2g(ß) имеет вид L 'ß =ц,Ф '(ß) + |2g'(ß) = 0 или ß,(hA, + 2ц2) = 0, i е [1:n - r], |i). + 2|Д. - a.) = 0,j е [n - r + 1:n], причем |i. > 0 и не равны нулю одновременно.
Отсюда, в силу положительности «больших» собственных чисел А . (/ е [1:n - r]), с необходимостью следует ß . = 0 (i е [1:n - r]). Поэтому
min p(ß) = min p(ß), (13)
ßE Sß ßE Sß
где
— __1 n
ß = (ßn-r+1,..., ßn);p(ß)=2 £ ß2А + c;
^ i=n-r+1
Sß = |y = (Y1, ..., Yr) е Rr £ (Y, - an-r+,)2 < б21. Из (13) следует условие 2. Для x' = £ ß'. и,. + x', x" =£ß'',. u + x , x', x"e Хб
n
£(ß' -
1 = 1 i=1 имеем II J'(x') - J'(x ")|| = || A( x'- x ")|| =
-ß''. )A, U
< max A,.
£ (ß'i-ß'',)u
i=1
= Aj IIx'- x"||.
Аналогично, для V xx" е Хб n Q получим
II J'(x1) - J'(^ )|| <|An-r+1| -II x - x^ll.
Поэтому ед = >> Щ6 п О) = - Г + 1 и условие 3 выполнено при ст = / |Хп _ +
Таким образом, для квадратичных функционалов при сдвинутом в точку х* начале координат дно оврага О совпадает с линейной оболочкой (12) собственных векторов, отвечающих «малым» собственным числам. Это согласуется с интуитивными представлениями, развитыми в разделе 1.
На этом же примере можно проиллюстрировать роль требований 1_3 в определениях 2 и 3. Действительно, для квадратичного функционала (10) условия 1, 2 могут выполняться для всего пространства О = Я" и любого ст > 0. Необходимая линейная оболочка собственных векторов может быть выделена только при дополнительном требовании, эквивалентном условию 3. В то же время требования 1 и 3 без 2 также оказываются недостаточными. В этом случае сдвиг линейной оболочки О, являющейся дном оврага, вдоль любого из не вошедших в оболочку собственных векторов, не приведет к нарушению условий 1 и 3, а условие 2 при этом нарушится.
Рассмотренные выше модели явления овраж-ности не являются исчерпывающими. Однако они описывают наиболее существенные стороны большинства практических ситуаций, связанных с решением задач параметрической оптимизации.
Определение 4. Пусть Ух е О, det ^'(х) ф 0. Наименьшее из чисел ст, удовлетворяющих определению 2, называется степенью жесткости J(x) в О и обозначается п(О). Отношение
n( x) = Мx)
min Х; (x)
, x e Q называется локальной степенью жесткости в точке x. Для вырожденных матриц J"(x) величина n(x) полагается равной да.
Если J"(x) > 0, то n(x) = cond[J"(x)] =
= max X; (x) / min X; (x).
i i
В общем случае справедливо неравенство 1 < n < cond J"(x)]. При наличии больших по модулю отрицательных собственных чисел X(x), т. е. при отсутствии овражной ситуации, возможно неравенство n(x) << cond [J"(x)]. Следовательно, из высокой степени жесткости J(x) в точке x следует плохая обусловленность матрицы J"(x), а обратное неверно. Действительно, пусть спектр матрицы J"(x) расположен в множестве [-M, - m] и [m,M],M>> m > 0, включая граничные значения. Тогда n(x) = 1, а cond [J"(x)] = M/ m >> 1. Данный функционал не будет относиться к классу
жестких, что естественно, ибо трудностей при его минимизации, например, методом наискорейшего спуска, не возникает.
Отличие между двумя характеристиками п(х) и cond [Т(х)] функционала J(x) часто игнорируется, и овражными называются функционалы с большим числом соМ [Г(х)]. Подобная точка зрения не оправдывается с позиций основных вычислительных трудностей, возникающих при решении экстремальных задач. Однако, учитывая указанную выше связь между п(х) и cond [^'(х)], жесткие задачи часто называются плохо обусловленными экстремальными задачами.
В каждом конкретном случае различные значения п(х) следует считать большими. Здесь существует аналогия с понятием плохой обусловленности матрицы. В большинстве случаев все определяется точностью вычислений и типом применяемого алгоритма оптимизации. Традиционно принято классифицировать задачу как плохо обусловленную, если
log2n > t,
(14)
где t — длина используемой разрядной сетки компьютера в представлении чисел с плавающей точкой. Однако и при меньших значениях п для целого ряда алгоритмов могут возникать значительные вычислительные трудности, особенно если жесткость сопровождается отсутствием выпуклости J(x).
Дополнительным фактором, характеризующим степень сложности экстремальной задачи и затрудняющим применение традиционных алгоритмов минимизации, является наличие многомерных оврагов с г > 1. В указанной ситуации целый ряд методов, специально ориентированных на решение плохо обусловленных задач, становятся неэффективными.
3. Критерии жесткости
Рассмотрим практические методы распознавания овражной ситуации, играющие роль критериев жесткости. Наиболее существенной характеристикой оказывается значение показателя п в допустимой области изменения управляемых параметров.
Своеобразным индикатором может служить метод простого градиентного спуска (ПГС), реализуемый по схеме
хы = хк -Ы У(хк X (15)
с постоянным шагом к е Я1.
Принадлежность . (х) к классу жестких в этом случае проявляется в необходимости применения относительно малых значений шага к. Попытки увеличения к вызывают потерю свойства релак-сационности (монотонного убывания) последовательности значений функционала и последние начинают резко возрастать. Если для некоторого фиксированного к (наибольшего из возможных) удалось заставить процесс (1) протекать без полной остановки, то по результатам работы метода можно количественно оценить величину п.
Для этого процесс (1) продолжается до тех
И х+1)11
пор, пока отношение
И xk )||
не стабилизиру-
ется около некоторого значения ц. Тогда справедливо следующее равенство:
П = 2 / |1 - ц|. (16)
Соотношение (16) справедливо независимо от выпуклости функционала И(х) и является основным для грубой практической оценки степени жесткости решаемой задачи в окрестности текущей точки. Доказательство соотношения (16) дано в [8].
В силу изложенного выше можно рекомендовать процесс оптимизации начинать с помощью метода ПГС. Если задача простая и степень жесткости невелика, то уже этот метод достаточно быстро приведет в малую окрестность оптимума. В противном случае будет получена оценка п, что позволит правильно оценить ситуацию и выбрать наиболее рациональный алгоритм.
Другой, прямой метод оценки п сводится к вычисление матрицы Гессе функционала и решению для нее полной проблемы собственных значений. Тогда на основе непосредственной проверки выполнения неравенств (9) для вычисленных собственных чисел делается вывод о значении п. При этом определяется также размерность r дна оврага. Главный недостаток такого подхода заключается в существенных вычислительных трудностях принципиального характера, возникающих при определении малых собственных значений. Можно показать, что абсолютная погрешность |JA,J представления любого собственного значения X. матрицы A за счет относительного искажения 5 ее элементов удовлетворяет неравенству |dXJ < n5|XJ, где |Xj| = max|Х..| . Полагая
5 = s = 2-
, где s - относительная машинная точ-
' m
ность, а t - длина разрядной сетки мантиссы числа, получим оценку для абсолютных искажений собственных чисел за счет ошибок округления:
1А1 < "В,,,!*,!. (17)
Параметр ет известен для каждой вычислительной системы.
Из последнего неравенства можно сделать следующее заключение. Если все вычисленные собственные числа матрицы А = ."(х) достаточно велики, то есть |А.| > "Вт|А1|, то параметр п может быть вычислен непосредственно. Если некоторые из вычисленных собственных чисел удовлетворяют неравенству |А.| < "Вт|А1|, то все они должны быть отнесены к блоку «малых» собственных чисел, а для п имеем границу снизу: п > 1/("вт).
Качественным признаком плохой обусловленности может служить существенное различие в результатах оптимизации, например, методом ПГС, при спуске из различных начальных точек. Получаемые результирующие точки обычно расположены далеко друг от друга и не могут интерпретироваться как приближения к единственному решению или конечной совокупности решений (при наличии локальных минимумов). Описанная ситуация, как правило, означает наличие оврага, а точки остановки применяемой поисковой процедуры трактуются как элементы дна оврага Q.
4. Источники жестких оптимизационных задач
Несмотря на то, что типичность жесткой ситуации может считаться установленным экспериментальным фактом, представляет определенный интерес выяснение на качественном уровне основных причин появления оврагов в задачах управления. Рассмотрим два типа жесткости -т. н. естественную жесткость и внесенную жесткость. В первом случае подразумевается, что задачи параметрической оптимизации могут оказываться плохо обусловленными в силу естественных причин для каждого из выходных параметров объекта оптимизации, имеющих смысл частных критериев оптимальности. Напротив, внесенная жесткость возникает в связи с применением специальных методов учета ограничений типа штрафных функций и модифицированных функций Лагранжа, а также в связи с образованием обобщенных критериев оптимальности при решении задач многокритериальной оптимизации.
Естественная жесткость. Данный тип жест-
кости можно проиллюстрировать на примерах решения задач идентификации линейных динамических объектов, а также задач синтеза статистически оптимальных систем автоматического управления, приводящих к интегральным уравнениям Винера-Хопфа, имеющим вид (см. [9, 10]):
|ф( т-Х) ш( X) d Х = R( т).
(18)
Как известно [11], задача решения уравнения Винера-Хопфа является плохо обусловленной, что проявляется в сильной чувствительности решения к малым вариациям исходных функций ф, R, имеющих смысл корреляционных функций и получаемых на практике с ограниченной точностью. Задача оказывается некорректной по Тихонову из-за потери свойства единственности решения [12]. Для построения решения уравнения (18) применяются алгебраические методы, основанные на минимизации невязки.
Пример соответствующего целевого функционала имеет вид:
N Г N 2
J(x) = £®.ф[?С/ -0]-R[qj] \ ^min, (19)
j=1 u=1 J x
где rai = <(qi), i e [1: N]; x = (ш ш ..., <N).
Свойство некорректности исходной задачи приводит к плохой обусловленности матрицы J"(x) с резко выраженным овражным характером соответствующих поверхностей уровня. Характер решения задачи типа (19) показан на рис. 3. Как отмечается в [13], получаемые таким образом функции ш (t), как правило, имеют среднюю квадратичную погрешность, близкую к минимальной, однако из-за резко колебательного характера они сильно отличаются от точных решений.
Для ослабления отмеченного эффекта применяются регуляризованные формы целевых функционалов. Простейший критерий с регуляризацией имеет вид
N
J (x) = J(x) + - ш.-1]2 ^ min, (20)
j=2 Х где а > 0 - параметр регуляризации, осуществляющий сглаживание получаемого решения.
Существуют и другие формы регуляризации, связанные с расширением исходных целевых функционалов за счет сглаживающих (регуляри-зующих) функционалов [13]:
Дю(0] = M{E2(t)} + aQ[ra (t)],
где
Рис. 3. Характер решения задачи 1 - решение задачи (2); 2 - точное решение уравнения Винера-Хопфа
n[ffl(t)] = jJ* (t)
d <(t) dt
+ p(t)ra2(tU dt. (21)
Условие минимума /[ю(0] при а = 0 совпадает с уравнением Винера-Хопфа. При а ф 0 получаются уравнения, для решения которых могут строиться функционалы невязки и решаться экстремальные задачи, аналогичные (19) с учетом параметра регуляризации а. Если а ф 0, задача решения «расширенного» уравнения Винера-Хопфа является корректно поставленной и имеет единственное, непрерывное и дифференцируемое решение. Однако решение задач минимизации регуляризованных функционалов, например (20), также сопряжено с известными трудностями, вызванными некорректностью исходной задачи. Действительно, регуляризующие добавки помимо эффекта сглаживания дают искажение решения, приводя к увеличению невязки О(х) [11]. Поэтому с целью получения малых невязок необходимо работать с минимально возможными а, что приводит к высокой степени «остаточной» обусловленности матрицы "(х). Данное обстоятельство, а также отсутствие надежных априорных методов задания а , приводят к необходимости применения специальных жестко-ориентированных алгоритмов параметрической оптимизации, позволяющих надежно получать гладкие и точные решения. Дополнительная причина, затрудняющая применение стандартного алгоритмического обеспечения, заключается в факте ухудшения обусловленности задачи с увеличением числа точек дискретности для повышения точности дискретизации при применении алгебраических методов.
В качестве другой, по-видимому, более распространенной причины возникновения жестких целевых функционалов можно указать фактор агрегированности. В большом числе случаев оказывается, что целевой функционал в действи-
тельности зависит не от " независимых переменных х1, х2, ..., х", а от 5 агрегатов:
.(х) = I(*1,*2, ..., г), (22)
где
г,- = ф,.(х), г е [1:5]; 5 < ". (23)
Как показано, например, в [7], прямое решение задачи минимизации целевого функционала .(х) в пространстве параметров х связано с наличием овражной ситуации. Действительно, значения .(х) мало меняются на множестве, определяемом равенствами
ф,(х) = г;, , е [1:5], (24)
где г* - оптимальные значения агрегатов, доставляющих минимум целевому функционалу I(г) = I[ф(х)] = .(х). Поэтому уравнения (24) фактически являются уравнениями дна оврага.
Образование агрегатов можно пояснить на примере описания динамических свойств оптимизируемого объекта. Распространенные методы синтеза линейных оптимальных систем управления основаны на построении передаточных функций замкнутых систем, обладающих необходимыми свойствами (т. н. этап аппроксимации). Далее, на этапе реализации строятся модели реальных систем с конкретной структурой, имеющих заданные (полученные на этапе аппроксимации) передаточные характеристики.
Таким образом, процедура синтеза распадается на две стадии: синтез в пространстве коэффициентов передаточных функций, имеющих смысл агрегированных переменных, и синтез в пространстве «физических» параметров х подбираемых из условия (24).
Агрегаты обычно фигурируют как коэффициенты уравнений, описывающих определенные динамические свойства объекта. При этом количество исходных переменных х, составляющих действительный вектор х варьируемых параметров, обычно оказывается значительно большим.
Весьма важным обстоятельством является тот факт, что в подавляющем числе случаев при оптимизации нелинейных систем, а также при отсутствии явных представлений для соответствующих математических моделей, мы вынуждены проводить оптимизацию непосредственно в пространстве параметров элементов оптимизируемой системы. Последнее, согласно изложенному выше, подразумевает минимизацию жестких
функционалов. Заметим, что иногда и при синтезе линейных систем необходимо осуществлять поиск в пространстве х из-за трудностей в задании множества достижимости 2 при сложных функциональных ограничениях на компоненты вектора х.
В действительности обычно реализуется следующая зависимость .(х) = I(г1,г2, ..., 1!1) + вд(х) обобщенного показателя качества .(х) от агрегатов г. и вектора исходных переменных х. Наличие «объединяющего» функционала £(х), с одной стороны, позволяет говорить лишь о приближенном агрегировании с точностью до малого параметра в, а, с другой, при соответствующих конструкциях §(х) решает проблему единственности решения в пространстве переменных х.
Высока вероятность появления жестких функционалов из-за образования т. н. «асимптотических» агрегатов при оптимизации динамических объектов, описываемых в пространстве состояний жесткими системами обыкновенных дифференциальных уравнений с большим разбросом значений основных постоянных времени.
Возникновение жестких дифференциальных уравнений при моделировании реальных динамических систем определяется разбросом временных характеристик, заложенным в самой их физической природе. Примерами могут служить задачи электротехники, химической кинетики, моделирования сложных систем путем формального объединения описаний различных по инерционности подсистем. Например, в задачах управления электроэнергетическими системами жесткие дифференциальные уравнения возникают из-за резко различающихся по скорости протекания быстрых электромагнитных процессов и медленных электромеханических [1].
Высокие значения чисел обусловленности матрицы Якоби дифференциальных уравнений динамики характерны для моделей гироскопических устройств, а также различных типов электронных схем.
Пример. Пусть функционирование объекта описывается вектор-функцией
ы(0 = К(0 + М2(0], (25)
ы^) = ^х1 ехр(- А0 + (х1 + х2) ехр(- а)],
ы2(0 = ^х1 ехр(- Б^ + (х1 + х2) ехр(- Ы)],
являющейся при А >> а > 0, Б >> Ъ > 0 решением жесткой системы уравнений.
Требуется получить оптимальные значения параметров x, x2 из условия наилучшего совпадения u(t) с заданной вектор-функцией u(t) для t £ [t0, T]. Если предположить, что t0 > тпс, где тпс - длина пограничного слоя, определяющего практически полное затухание экспонент exp(- At), exp(- Bt), то из (9) видно, что поведение решения u(t) для t £ [t0, T] будет определяться агрегатом z = xj + x2. Если продолжать считать xj и x2 независимыми параметрами, то степень жесткости, например, следующего квадратичного целевого функционала
J (x) = [Uj (tj) - uj (tj)]2 + [u2 (tj) - u2 (tj)]2 ^ min
будет достаточно высока. При tj = 1, а x j Ъ = 1Д A = 20, B = И получим
exp[- min(a, b)]
- = 1,8-1 0s.
exp[-max( A,B)]
Таким образом, по крайней мере до тех пор пока не разработаны достаточно универсальные регулярные методы выделения агрегатов для последующей декомпозиции исходной задачи, мы вынуждены считаться с необходимостью оптимизации в пространстве переменных x. по жестким целевым функционалам.
Внесенная жесткость. 1. Учет ограничений. Высокая степень жесткости может быть внесена в задачу оптимизации в силу используемой конструкции обобщенного критерия оптимальности. Рассмотрим эффект жесткости, возникающий при использовании методов штрафных функций и модифицированных функций Лагранжа. Изучим в качестве примера ограничения в виде равенств g(x) 8 0, j £ [1:p]. Тогда согласно методу штрафных функций задача минимизации функционала
J(x) сводится к минимизации вспомогательных
p
функционалов J0 (x, о) = J(x) + о^ gj (x) ^ min
j=i x
с большим положительным коэффициентом ст. При этом структура расширенного критерия 3 содержащего большой параметр ст, как правило, оказывается жесткой, даже если исходный функционал 3(х) этим свойством не обладает.
Пример. Пусть требуется найти х2, х , минимизирующие квадратичный функционал / (х) = х22 + х^ при условии х1 = 2. Задача имеет очевидное решение х2 = 2, х2 = 0 . Поступим формально и составим вспомогательный функционал согласно общей рецептуре метода штрафных функций:
30 (х) = х22 + х2 + ст(х2 - 2)2 = = (х2 -Ь2)2 /а22 + (х2 -Ь2)2 /а\ + ё,
где a1 = 1 /-\/l + ст; a2 = 1; Ъ1 = 2ст / (ст +1); Ъ2 = 0; d = 4ст / (ст +1).
Уравнение линии уровня J0(x) = const является уравнением эллипса с центром в точке (Ъ1, Ъ2) и длинами полуосей, относящимися как a2 / a1 = V1 + ст. При больших значениях ст, обеспечивающих относительно точное выполнение ограничения x1 = 2, линии уровня оказываются сильно вытянутыми (рис. 4). Чем точнее выполняются ограничения, тем ярче выражен эффект овражности. В данном случае степень овражно-сти равна п = 1 + ст и стремится к бесконечности при ст ^ да. Заметим, что линии уровня исходного функционала являются сферами и явление овраж-ности отсутствует.
На практике метод штрафных функций широко используется на начальных этапах оптимизации с применением таких, возможно больших, значений , для которых удается достигнуть относительно быстрого убывания J0(x) при точном выполнении ограничений. Для последующего улучшения решения привлекаются более тонкие стратегии, которые, как правило, оказываются и
Рис. 4. Метод штрафных функций
Рис. 5. Линии уровня модифицированной функции Лагранжа: а - а = 0,075; б - а = 100
существенно более трудоемкими. Кроме этого, метод штрафных функций до сих пор не имеет разумных альтернатив в ряде критических ситуаций, характерных для прикладных задач параметрической оптимизации.
Например, при наличии вырожденного минимума, когда не выполняется условие линейной независимости градиентов ограничений g '(ъ), могут потерять работоспособность все методы учета ограничений, основанные на обычной и модифицированной функции Лагранжа, а также на линеаризации ограничений. Метод штрафных функций в указанной ситуации применим. Он оказывается наименее чувствительным ко всем формам вырождения.
Второй критической ситуацией, возникающей на практике, является несогласованность требований-спецификаций к объекту оптимизации, которая приводит к пустому множеству D допустимых значений управляемых параметров. Предположим, что решается задача с ограничениями-равенствами. В этом случае снова наиболее целесообразным образом ведет себя метод штрафных функций, позволяя получить такое решение задачи ||g(T)|| ^ min, для которого величина О(ъ) минимальна. Другие методы либо теряют смысл, либо заведомо не будут сходящимися [14].
В силу изложенного выше наличие алгоритмов оптимизации, сохраняющих работоспособность при высокой степени жесткости минимизируемых функционалов оказывается чрезвычайно желательным. Этот вывод подтверждается также тем фактом, что и при использовании модифицированных функций Лагранжа мы сталкиваемся с той же проблемой, хотя и в несколько ослаблен-
ной форме. Как показано в [15], выбор параметра а в модифицированных функциях Лагранжа весьма сильно влияет на обусловленность соответствующей канонической задачи. При этом как слишком малые, так и слишком большие а приводят к жестким функционалам. Если учесть, что надежные рекомендации по априорному заданию а отсутствуют, то становится совершенно ясна необходимость применения специальных жестко-ориентированных процедур для решения вспомогательных канонических задач.
Пример. Решается задача [15] О б ъ) = т ъ2, ^ min, ъ е D,
D = {ъеRn\g(ъ) = 2-ъ2 -ъ22 = 0}.
На рис. 5 показаны линии уровня вспомогательного функционала M(ъ, а) = О(ъ) мИg (ъ) м
маg2 (ъ) при И = И* = 0,82; а = 0,2.
В обоих случаях линии уровня практически параллельны, что и определяет наличие высокой степени жесткости.
2. Объединение конфликтных выходных параметров. Учет многокритериальных требований к объекту оптимизации с помощью единого критерия оптимальности также является важнейшим фактором, обусловливающим возникновение овражной жестких обобщенных критериев оптимальности. Известные принципы построения Парето-оптимальных решений приводят к двум основным видам сверток: линейной и минимаксной (максиминной). Остановимся на минимаксной свертке двух частных критериев:
О(ъ) = max{a1 О1 (ъ),а2О2 (ъ)} ^ min,
а > 0, а1 м а 2 = 1.
X,
Рис. 6. Объединение частных критериев: j - а ; 2 - а
Отдельные критериальные выходные параметры, как функции от входных параметров, могут иметь нежесткий характер. Однако и в этом случае их объединение почти неизбежно приводит к возникновению высоких степеней жесткости. При этом крутые «склоны» оврага характеризуют доминирующее влияние на обобщенный критерий какого-то одного из «частных» критериев. Как следует из рис. 6, объединение критериев Зр 32 приводит к образованию «клювообразной» зависимости, порождающей в многомерном случае овраг с крутыми склонами. Характерно, что движение по любой поверхности а.З в отдельности с помощью практически любых методов оптимизации может не вызывать никаких затруднений.
В качестве второго примера рассмотрим критерии оптимальности, построенные на основе функционалов вида
J (x) = £а, f: (x), f (x) =
£ xj Ф j (ti) - У,
j=j
, (26)
где y = y(t); {фJ, j £ [Ln]} - заданная система функций. Задача J(x) ^ min ставится при решении задач аппроксимации
y(t) = £xjфj (t), 0 < t < T, (27)
j=j
характерных для многих разделов компьютерного моделирования. Например, необходимость в применении параметризации (27) возникает в задачах сглаживания экспериментальных зависимостей при идентификации стохастических объектов, а также в задачах идентификации нелинейных объектов на основе функциональных рядов Вольтер-
n
cond [HJ
n
cond [H]
2
i,93-i0j 6
i,50-i07
3
5,24-m2 7
4,75-Ю8
ра. Уже обсуждавшиеся выше алгоритмические методы решения уравнения Винера-Хопфа также приводят к задачам минимизации функционалов метода наименьших квадратов.
Функционал J(x) можно рассматривать как линейную свертку функционалов f(x), характеризующих частные критерии оптимальности, f (x) ^ min, i £ [1: N]. Поэтому трудности минимизации (26) в какой-то степени отражают общую ситуацию, связанную с применением линейных сверток при большом числе частных критериев. В наиболее употребительном на практике случае используется полиномиальная аппроксимация на основе системы базисных функций вида ф/t) = Р-1 , j < j < n.
Полагая N достаточно большим и заменяя сумму интегралом
N
£ xj ф j (t) - y(t)
j=j
dt,
3 (х) = £а, у; (х) = |а(0 ;=1 0 . получим при а(?) = 1:
3"(х) = Н, Н = (А..}, Ъ. = 1/ (; + . -1),;,. е [1: и],
где Нп - (пхп) - матрица Гильберта, являющаяся также матрицей линейной системы т. н. нормальных уравнений З'(х) = 0. Спектральное число обусловленности положительно определенной матрицы Нп, совпадающее со степенью жесткости квадратичного сильно выпуклого функционала 3(х), оказывается достаточно высоким: матрицы Гильберта являются стандартным примером очень плохо обусловленных матриц. При этом cond [Нп] быстро растет с увеличением п:
4 5
1,55-104 4,77-105
8 9
1,53-1010 4,93-Ю11
В результате уже для небольших n минимизация (26) происходит в условиях сильно выраженной жесткости.
Таким образом, в статье обоснована актуальность задачи минимизации жестких функционалов, характерных для различных проблем компьютерного моделирования и оптимизации. Построены
СПИСОК Л
1. Ракитский, Ю.В. Численные методы решения жестких систем [Текст] / Ю.В. Ракитский, С.М. Устинов, И.Г. Черноруцкий. -М.: Наука, 1979.
2. Моисеев, Н.Н. Элементы теории оптимальных систем [Текст] / Н.Н. Моисеев. -М.: Наука, 1975.
3. Растригин, Л.А. Системы экстремального управления [Текст] / Л.А. Растригин. -М.: Наука, 1974.
4. Норенков, И.П Введение в автоматизированное проектирование технических устройств и систем [Текст] / И.П. Норенков. -М.: Высш. школа, 1986.
5. Норенков, И.П. Экстремальные задачи при схемотехническом проектировании в электронике [Текст] / И.П. Норенков, С.Г. Мулярчик, С.Р. Иванов. -Минск: Изд-во БГУ, 1976.
6. Геминтерн, В.И. Методы оптимального проектирования [Текст] / В.И. Геминтерн, Б.М. Каган. -М.: Энергия, 1980.
7. Черноруцкий, И.Г. Оптимальный параметрический синтез: электротехнические устройства и системы [Текст] / И.Г. Черноруцкий. -Л.: Энергоатомиздат, 1987.
8. Черноруцкий, И.Г. Методы оптимизации в тео-
модели жестких функционалов и указаны причины и механизмы их возникновения при проведении реальных вычислений. Представленные результаты могут быть положены в основу построения специальных жестко-ориентированных оптимизирующих процедур и выбора рациональных сценариев оптимизации при работе с соответствующими библиотеками стандартных программ.
ГЕРАТУРЫ
рии управления [Текст] / И.Г Черноруцкий. -СПб.: Питер, 2004.
9. Черноруцкий, И.Г. Параметрические методы синтеза систем управления [Текст] / И.Г Черноруцкий //Научно-технические ведомости СПбГПУ -2009. -№ 2. -С. 111-115.
10. Черноруцкий, И.Г. Методы параметрической оптимизации в задачах идентификации [Текст] / И.Г Черноруцкий //Научно-технические ведомости СПбГПУ -2009. -№ 2. -С. 150-155.
11. Растригин, Л.А. Введение в идентификацию объектов управления [Текст] / Л.А. Растригин, Н.Е. Маджаров. -М.: Энергия, 1977.
12. Тихонов, А.Н. Методы решения некорректных задач [Текст] / А.Н. Тихонов, В.Я. Арсенин. -М.: Наука, 1979.
13. Дейч, А.М. Методы идентификации динамических объектов [Текст] / А.М. Дейч. -М.: Энергия, 1979.
14. Поляк, Б.Т. Введение в оптимизацию [Текст] / Б.Т. Поляк. -М.: Наука, 1983.
15. Гилл, Ф. Практическая оптимизация [Текст] / Ф. Гилл, У Мюррей, М. Райт. -М.: Мир, 1985.
УДК 004.932.2
А.А. Шебалов, А.Н. Баженов
ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ МЕТОДОВ ВЫЧИСЛЕНИЯ ОПТИЧЕСКОГО ПОТОКА
Оптический поток - одно их ключевых понятий технического (машинного) зрения. Алгоритмы на его основе позволяют решать большое число важных прикладных задач: оценивание и отслеживание движения, реконструкция трехмерной структуры сцены, сжатие видео (стандарты MPEG), восстановление поврежденных кадров старых видеозаписей и др.
В свете приведенных примеров актуальность задачи нахождения оптического потока, а значит, в свою очередь, сравнения и анализа производительности различных методов, не оставляет сомнений. К сожалению, среди огромного числа публикаций, появившихся за 30 лет развития дисциплины, крайне мал объем обзорно-аналитических работ.