ОБ ОДНОМ СПОСОБЕ ВЫБОРА ШАГА В МЕТОДЕ ДОВЕРИТЕЛЬНОЙ ОБЛАСТИ
Е. А. Котельников
Институт вычислительной математики и математической геофизики СО РАН,
630090, Новосибирск, Россия
УДК 519.853
Предложено аналитическое представление параметров траектории шага в методе доверительной области при минимизации гладкой выпуклой функции. Вследствие сложности применения в практических вычислениях полученных результатов представлен вариант аппроксимации данной траектории.
Ключевые слова: оптимизация, доверительная область, траектория шага, квадратичная модель.
An analytical representation of the step trajectory parameters for a trust region method in smooth convex function minimization is proposed. Because of the complexity of results application in practical calculations the curve fitting variant is recommended.
Key words: optimization, trust region, step trajectory, the quadratic model.
Введение. Рассматривается задача безусловной минимизации дважды непрерывно дифференцируемой выпуклой функции f : Rn ^ R. В некоторой 5k-окрестности точки xk G Rn (||xk + s || 2 < $k) функцию f можно представить квадратичной моделью
где g = Vf (хд); О = О(хд) — матрица Гессе в точке хд или некоторая ее оценка. При удачном выборе значения 8д модель т(хд+б) с хорошей точностью может аппроксимировать функцию f в 8д-окрестности. Такая 8д-окрестность называется доверительной областью, т. е. областью, в которой можно доверять модели т(хд + б) в том, что она адекватно моделирует функцию f [1]. Имея такую область, при выборе вектора спуска Бд из точки хд можно требовать, чтобы, во-первых, точка хд + Бд находилась в 8д-окрестности, во-вторых, для всех б, удовлетворяющих условию ||б||2 < 5д, выполнялось неравенство f (хд + Бд) < f (хд + б).
Следовательно, вектор Бд должен являться решением задачи
Метод минимизации, на каждой итерации которого определяется 8д и решается данная задача, называется методом доверительной области.
(1)
(2)
(З)
(4)
при единственном значении л > 0, таком что ||б(л)||2 = 5д .В случае выполнения неравенства ||б(0)||2 < 5д решением задачи (2), (3) является вектор б(0) = бм = —G-1g — ньютоновское направление. При любом значении л > 0 б(л) является направлением спуска для функции f из точки хд.
Следует отметить, что использование квадратичной модели т(хд + б) (1) для выбора вектора сдвига Бд возможно и в случае, когда функция f не выпукла. Для этого, в случае если матрица V2f (хд) не является положительно-определенной, в гессиан модели вносится возмущение, т. е. находится л такое, что матрица О = V2f (хд) + л1 положительно определена. Получившийся таким образом квазиньютоновский шаг б = —G-1g есть шаг в точку минимума модели т(хд + б) в некоторой окрестности точки хд [1].
В данном случае предполагается, что матрица О положительно определена. Кроме того, не рассматриваются способы пересчета размера доверительной области, а только вычисляются траектория б(л) и ее аппроксимация.
Существующие методы решения задачи (2), (3) являются приближенными. Например, в
[1] описываются два вычислительных метода: метод с ограниченным криволинейным шагом и метод с шагом в виде плоской ломаной линии, в котором проводится кусочно-линейная аппроксимация траектории б(л).
В данной работе предлагается описание в явном виде траектории б(л), в котором формулы параметров траектории удобны для анализа поведения кривой при изменении значения Л, но неудобны для практического использования в силу высокой трудоемкости вычисления этих параметров. Поэтому в ущерб точности решения задачи (2), (3) вместо траектории б(л) предлагается использовать ее приближение, для вычисления которого требуется значительно меньшее число операций.
Алгоритм. Рассмотрим матрицу А размером пх и, столбцами которой являются векторы
и выясним, при каких условиях она является невырожденной. Обозначим через z1, z2,. . . , zra
ZSZT, где Z = , Z2,..., zn) — ортогональная матрица; Б = diag(a■1, а2,... , оп). Пусть
И = Zтg (Ні = zTg, і = 1, 2,...,п), тогда столбцы рі матрицы А равны р1 = ZSh, р2 =
Рі = G-1g, Р2 = (0-1)2& Рп = (0-1)^,
(5)
систему ортонормированных собственных векторов матрицы Є 1 и через а1,а2,... ,ап набор соответствующих им собственных значений. Тогда матрицу Є-1 можно представить в виде
А = ZDW,
(6)
где D = diag(alhl, 02Н2,... , опКП),
W
1 ^1 &2 1 ^2 о\
1 &п 02п
Отсюда, матрица А вырождена, если выполнено хотя бы одно из следующих условий:
1. Для некоторого г] = 0, т. е. вектор g ортогонален хотя бы одному собственному
вектору матрицы О-1.
2. Матрица Ш вырождена, т. е. det Ш (определитель Вандермонда) равен нулю. Это
возможно тогда и только тогда, когда аг = а^ хотя бы для одной пары индексов г,] (г = 3)
[2], что означает кратность собственных значений матрицы О-1.
Случай, когда матрица А невырождена. Выберем в качестве базиса пространства Мп векторы , p2,... , pn из (5) и представим разложение вектора g по этому базису в виде
П
g = 5] (7)
г=1
Вектор у Е Кп можно найти, решив систему линейных алгебраических уравнений Ау = g.
П—1 П—1
Заметим, что уп = 0, так как в противном случае g — ^ yipi = 0 и О-1^ — ^2 ТФг) =
г=1 г=1
п
Pl — Е Уф.1 = 0, что невозможно.
г=2
Утверждение 1. 71 > 0,72 < 0,..., (—1)п 1 Уп > 0.
Действительно, пусть (а, z) — произвольная собственная пара матрицы О-1. Умножив
п
обе части равенства (7) на z, получаем gтz = ^ удад^^), так как pДz = (О- 1)дz = адz. Из
д=1
условия gтz = 0 находим
п
^1да 1 (8)
д=1
Последнее равенство верно для собственных значений а1,а2,...,ап и, следовательно, у1,у2,... ,уп можно рассматривать как единственное решение системы линейных алгебраических уравнений
п
’5
д=1
ХМ7д = 1, 3 = 1, 2,...,п (9)
Единственность следует из того, что матрица этой системы уравнений невырождена и равна diag(а1, а2,..., ап)Ш, где матрица Ш определена в (6).
Запишем равенство (8) в виде
ап I 'Уп-1 ап-1 I 'У'п-2 ап-2 I I 71 а 1 0
а I-------------а I----а + ... I---------------а-= 0
'Уп 1п 'Уп 'Уп
и сравним его с характеристическим уравнением для матрицы О-1
„п и-1 | ,„ п-2 | ( 1\п,„ _ п
а — ^1а + ^2а + ... + (—1) рп — 0,
п
где р1 = ^2 аг, р2 = ^2 ага^,... ,рп = а1а2 • • • ап и рг > 0 при всех г = 1, 2,... ,п. Тогда в г=1 %>з
силу единственности решения системы (9) имеем
----= (—1)прп, или (—1)п 17п > 0,
Уп
— = (—1)п-1рп-1, или 71 = (—1)п-1упРп-1 > 0,
1п
— = ( — 1)n—‘2рn—2, или 72 = (— 1)п-2упРп-2 < 0.
Уп
Аналогично получаем
= ^2, или 7п-2(-1)п 3 = (-1)п 37п^2 > 0,
7
п
-п— = -^1, или 7п-1(-1)п 2 = (-1)п 17п^1 > 0.
1п
Таким образом, утверждение о знакопеременности 71,72,... ,^п доказано.
Используя коэффициенты ^1,12,... ,1п, найдем коэффициенты п = Пі(ї),і = 1, 2,... ,п разложения по базису p1, p2,... , pn из (5) вектора (Є + /її)-1g:
(Є + ї1) 1g = ^ ^. (10)
і=1
Умножив обе части этого равенства слева на О + л1, получаем g = ^ г)гОрг + Л^2пгPi, но
г=1 г=1
Орг = Pi—1, а p0 = g, поэтому
п п п- 1
g = X niPi—1 + Л X ^г = + Х(Пг+1 + ЛПг^г + ЛVnPn.
г=1 i=l i=l
Заметим, что п1 = 1 при л > 0, так как в противном случае ^+1+= 0, г = 1, 2,... , и — 1
и пп = 0. Следовательно, п = 0, г = 2, 3,... ,п и (О + л1)-^ = G—1g или (О + л1 ^ = Од
^ п гр п-1 П*+1 + лъ . ЛПп
при л > 0, что невозможно. Тогда g = > ------------------------pi I---------pn и согласно (7) =
i=l 1 — П1 1 — П1
^+1 +. 1 0 лпп
—----------,г = 1, 2,... ,п — 1, тп = --------.
1 — П1 1 — П1
Производя обратный отсчет от Пд+1 к Пд, получаем
Пп = 1----—71 = 1--------— Мо(л),
л л
где Мо(л) = 1п,
1 — п1 1 — п1
Пп-1 = -----(Л7п-1 — 7п) = --------1Г~ МПЛ),
О ЧГ*' \п— 1 \п) о
ї2 I2
где М1(ї) = Л1п-1 - Іпі
1 - П1 ґ 2 \ 1 - П1 ^ / \
Пп—2 = -(1 7п—2 - Цп-1 + 7п) = --------------------------- M2(I),
ІЗ І3
где М2(ї) = І^п—2 - Цп-1 + 7п, . . . ,
= £ (^п к7к - ^п к 17к+1 + ... + (-1)п к 17п-11 + (-1)п к 7п) = ^п-кТ-1 Мп-к (л).
п2 = —пг1_(^п 272 - ^п 37з + ... + (-1)п 37п-1^ + (-1)п 27п) = —-"ГMn-z(I),
Іп 1 Іп 1
п1 = (^п 171 - 1 272 + ^п 373 + ... + (-1)п 27п-1^ + (-1)п 17п) = п~Мп-1(ї).
Лп їп
Из этих соотношений следует
т __ Мп-1(л) т ___ __ Мп-2(л) т _ , п-1 7п
П1 п I ЛД" ( \, П Л п | Л/Т / \,...,'Пп л п / V (11)
л + Мп-1(л) л + Мп-1(л) л + Мп-1(л)
Используя неравенства 71 > 0,72 < 0,... , (—1)п-17п > 0, получаем неравенства для многочленов Мд (л):
Мп-1(л) > 0, Мп-2(л) < 0,..., М1(л)(—1)п-2 > 0, Мо(л)(—1)п-1 > 0 при л > 0.
Следовательно, коэффициенты Пд (л) в разложении (10) удовлетворяют неравенствам (—1)д-1Пд(л) > 0 при л > 0. Кроме того:
— при л = 0 П1 = 1, Пд = 0, к > 1;
п п
Е Ы Е Ы Л
-1 i=1 i=2 !п
— при л = 1 П1 =-------п— ,П2 =---------п—,... ,Пп =---------п—;
1 + Е Ы 1 + Е Ы 1 + Е Ы
i=1 i=1 i— 1
— при л Пд(л) ^ 0, к =1, 2,... ,п.
Вернемся к траектории б(л), определенной в (4), и запишем ее в виде
П
Б(л) = — X п(л)Pi, л> 0 (12)
i=1
(б(0) = б^ = —G-1g — ньютоновское направление). Поскольку использование в вычислениях представления (12) для траектории Б(л) существенно затруднено вследствие большой трудоемкости вычислений коэффициентов 7д и невозможности вычислений многочленов Мд (л) при больших значениях к, найдем функции, аппроксимирующие пд (л) с высокой точностью.
1. Рассмотрим поведение траектории б(л) при больших л.
Представим функции пд (л), к = 1, 2,... ,п в виде
( ч 1 лд-1Мп-д (л)
пд (л) =---------------------1--.
л лп-1 + - Мп-д(л) л
Отношение Кд(л) = —л---------1 п д(л)— стремится к 7д при л ^ +го, Кд(л) ~ 1д и пд(л) ~ ~.
лп-1 + - Мп-д(л) л
л
п 1 п 1 1
Тогда пд(л)Pд ~ - Е 7дPд = -g и, следовательно, б(л) ~ g.
д=1 л д=1 л л
Для оценки точности такого представления зададим малое положительное число е1 —
допуск на точность вычисления траектории б(л) при больших л — и найдем нижнюю границу значений параметра л, при которых выполнено неравенство || б (л) +— g|І2 ^
л
При к = 1, 2, . . . , п - 1 имеем
( N 1 = лд Мп-д (л) — 1д лп — 7дМп-1(л) = — (7д-1 — 717д )лп-1 + ...
пд л л1д л(лп + Мп-1(л)) л(лп + Мп-1 (л)) ,
т. е. пд (л)-1д есть отношение двух многочленов, в котором числитель — многочлен степени
л
п — 1, а знаменатель — многочлен степени п +1. Следовательно, пд (л)-------------1д = О ( — ).
л \л2/
При к = п
п ЛЛ 1 Мп-1(л) = О ( 1
Цп(л) тп 1п , п , , , и О I 2
л л(лп + Мп-1(л)) \л2
п 1 1 1 1 1
Тогда || £) (пд(л)----1д)Pд||2 = О или ||б(л) + -в||2 = О -г и при л > имеем
д=1 л \л2) л \л2) л/ёГ
||б(л) +— ё||2 < а, где а — число порядка £г. л
2. Рассмотрим поведение пд (л) при 0 < л < 1.
При к = 1
1 () = 1 Мп-1(л) = лп
лп + Мп-1(л) лп + Мп-1(л)'
лп лп
При л > 0 лп + Мп-г(л) > Ы, поэтому 0 < 1 — п1(л) < 1—г, т. е. 1 ^—- < п1(л) < 1
Ы |7п|
при 0 < л < 1. При к = 2
^ лп + лп 111 п л + 71
п2(л) + л = л п , ----ТТ = л
лп + Мп- 1(л) лп + Мп- 1(л)'
1 + 71
Следовательно, при 0 < л < 1 имеем 0 < п2(л) + л < лп~1—л, т. е. —л < п2(л) <
Ы
—л + лп1 + 71
Ьп\ При к = 3
..п I . ,,п-1 п. ..п-2
( ч , 2 _ 2 л + 71л — 72л
— п3(л) + л = л ----------п ^------------------:
лп + Мп-1(л)
п 1 п ^ч,2 п 1 + 71 — 72 2 п 1 + 71 — 72 / ч 2
тогда при 0 < л < 1 имеем 0 < — п3(л) + л2 < лп-1—I-----, или л2 — лп-1—I---<п3(л) < л2.
гм гм
Действуя аналогично, можно получить оценки всех функций пд (л) при 0 < л < 1.
Если пренебречь всеми нелинейностями по л, то при 0 < л ^ 1 можно получить представление
Б(л) = —О-^ + л(°-1)^. (13)
Это выражение задает плоскую кривую в подпространстве эрап^^ p2) — линейной оболочке векторов Pl, p2 — и аппроксимирует значения б(л) с ошибкой порядка л2. Учет еще одного члена в выражении (12) приводит к квадратичной аппроксимации
б(л) = —О ^ + л(О 1)2g — л2(О 1)3g (14)
с ошибкой порядка л3.
Приведем пример трехмерной кусочно-линейной траектории Б(л) С эрап^, бм,О-1бм),
аппроксимирующей кривую б(л). Траектория Б(л) представляет собой кривую с двойным
изломом, один из отрезков которой (при л < 1) есть б(л) из (13), а другой отрезок (при
больших ц) есть вектор g. Последний отрезок совпадает по направлению с одним из
ц
отрезков плоской кусочно-линейной кривой с двойным изломом из алгоритма доверительной области, предложенного М. Дж. Д. Пауэллом [1], но имеет другую длину.
Кривую б(ц) представим в виде трех участков.
1. При ц < 1 в качестве ё(ц) выберем линейную аппроксимацию (13) с некоторыми ограничениями. Необходимо, чтобы, во-первых, б(ц) хорошо приближало б(ц); во-вторых, выполнялось условие gт б(ц) < 0; в-третьих, функция ||б(ц)||2 являлась убывающей. Для того чтобы эти требования были выполнены, найдем три величины а1,а2,а3:
а) а\ = тахц из условия цп ^ е2, где е2 > 0 — малое число (допуск на точность вычисления траектории б(ц) при малом ц);
б) &т^ -
б) а2 = — |. щ |2 — величина, определяющая верхнюю границу значений параметра ц,
12
при которых gт s(ц) < 0;
)тG_1sЩ
в) аз = , ,п_П2 N — точка минимума функции ||s(ц)||2 = |^ — цG-1sN||2.
(s ) (G ) s
При ц < ц1 = т1п(а1, а2, а3) s (ц) удовлетворяет всем указанным выше требованиям
Ч
при этом функция т(хд + s(ц)), определенная в (1), равна т(хд + sN) + ^Ц2(sN)TG-1sN и, следовательно, растет при увеличении ц.
2. При больших ц найдем точку минимума Л* модели т(хд + s) в направлении наиско-
1^11 2 11
рейшего спуска: Л* = ----- и величину ц2 = тах( —,-----). Тогда при ц > ц2 функция
gTGg Л* у/е!
s(ц) с точностью е1 аппроксимируется функцией-g, а функция т(хд-g) монотонно
цц
возрастает с увеличением ц.
1111 II II2 т /V
^ & 2 & 2 gTsN
т ^ II II2 II II2
Вычислим величины а4 = , а5 =---——-, а6 = — ——-——, которые удовле-
11 ^«З^Ь &т!^(ц1) s(Цl)TsN
творяют следующим условиям:
— при ц > а4 ||s(Ц)||2 = - ||g||2 < Н^аз )||2 < ||S(Цl)||2;
ц
— при ц > а5 s(Ц)T(s (ц1) — s (ц)) = — 1 &т( s(Цl) + 1 g) = 1(—&т s(Цl) — 1 ||g||2) > 0;
ц ц ц ц
— при ц > ае ( S(цl) — S(ц))TsN = (S(цl) + 1 ^ sN = S (Цl)TsN — -1—gTsN) > S(цl)тsN—
s(ц1)TsN. ЛГ.
(-gTsN) = 0.
цц
— gis1
Два последних условия потребуются в дальнейшем. Определим величину ц2 =
тах(ц2, а4, а5, а6). 3. Соединим точки S(ц1) и S(ц2) отрезком S(ц) = S(ц1) + -Ц Ц1 ( S(ц2) — S(ц1)), который ц2 - ц1
выберем в качестве участка искомой траектории при ц1 < ц < ц2. Введем следующие обозначения: s1 = S (ц1), s2 = S(ц2), в = в(ц) = Ц—Ц—. Тогда в <Е [0,1], в = 0 при ц = ц1
ц2 - ц1
и в =1 при ц = ц2. Определим функцию ф(в) = S1 + в(s2 — s1), т. е. ф(в(ц)) = S(ц),
Ц ^ [Ц1, Ц2].
Рис. 1. Кривая в(ц.) с двойным изломом ^ в(^і) ^ в(^2) ^ 0
Для функции ф(в), в € [0, 1] верны следующие утверждения:
1) gт^(в) < 0 для всех в € [0, 1];
2) \\ф(в)\\2 убывает на отрезке [0, 1];
3) функция т(хк + ф(в)), определенная в (1), растет на отрезке [0, 1].
Покажем, что условия 1-3 выполнены.
1. Скалярное произведение gт^(в) = ^^)(1 — в) + в^^2) < 0 для всех в € [0,1], так как gтs1 < 0 и gтs2 < 0.
2. Функция ||^(в)\\2 = 1^1^ + 2вs1;(s2 — s1) + в2\\s2 — s1 \\2 достигает минимума в точке
т
цТ^Ці _ ^2) ^^(^і _ ^2)
в0 — -1-гг2. Значение во больше единицы, так как во _ 1 = тт--------ТГ2, а =
ІІБ1 _ Й2ІІ2 ІІБ1 _ Й2ІІ2
0 в силу выбора /і2 > а5. Следовательно, ||^(0)||2 > ||^(1)||2 и во > 1, т. е.
убывающая на отрезке [0, 1] функция.
3. Функция ш(хк + ф(в)) = ш(хк + Бі) + в(®2 _ 81)"% + СБі) + 1 в^2 _ _ Ці).
Так как g + Сб1 — g + С(бм _ ціО-іБм) — g _ g _ ц1Бм — _і1Бм, то т(хк + ф(в)) — т(хк + Бі) _ в^і(Б2 _ Бі)твм + 2в2(б2 _ йі)ТС(в2 _ Бі). Минимум функции т(хк + ф(в))
достигается в точке ві — І17---( 2 _ -----т. Величина ві < 0, так как (бі _ 82)тбм > 0 в
(б2 _ бі)тс(82 _ Бі)
силу выбора ц2 > а6. Следовательно, функция т(хк + ф(в)) возрастает на отрезке [0, 1].
Построенная таким образом траектория Б (і) при ц > 0 удовлетворяет условию gт Б(і) < 0 для всех і, с увеличением ц функция ||Б(і)||2 убывает, а функция т(хк + Б (і)) возрастает. На рис. 1 показана кривая Б(і), 0 < ц < +то.
Случай, когда векторы рі, р2,..., рп, определенные в (5), являются линейно зависимыми. Предварительно определим влияние спектрального разложения матрицы G-1 и выбора вектора g на максимальное значение к, при котором векторы р1, р2,... , Рк линейно независимы.
Пусть В — симметричная положительно-определенная матрица размером п х п; А [В] — множество собственных значений матрицы В; ї Є Кп — вектор, не являющийся собственным вектором матрицы В.
Приведем ряд определений и утверждений из [3].
1. На — собственное подпространство, соответствующее а Є Л[В], т. е. На = {х : (В —
а1 )х = 0}. Кратность а есть размерность Ма.
2. На = ^2 2г2! — спектральный проектор, где ^і} — произвольный ортонормированный базис подпространства На; Га = Наї — ортогональная проекция вектора Г на На. В/а = аГа, так как Га Є Ыа; вектор Га определен единственным образом для вектора Г
3. Пусть ^2(Ґ) = {а : а Є Л[В], Га = 0}. Тогда Ь(Ґ) = эрап{Га : а Є ^2(Г)} — наименьшее инвариантное относительно В подпространство из К™, содержащее Г
4. Матрица Вг = ^ а «2 — сужение матрицы В на £({). Действие Bf совпадает
«еЕ (Г) II{а II2
с действием В, но областью определения Вг является подпространство £({). Матрица Вг имеет простые собственные значения а £ ^2(Г).
5. Подпространства Крылова Кг(Г; В) = эрап^, ВГ,... , Вг-1 Г) полностью покрывают подпространство Ь({) в том смысле, что эрапГ С К2(Г; В) С ... С Кт({ В) = Кт+1(Г; В) = Ь({) для некоторого т < п.
Утверждение 2. Пусть т — число, определенное в п. 5. Тогда векторы Г, ВГ,... , Вт-1{
линейно независимы и размерность подпространства Кк({; В), к = 2, 3,... ,т равна к.
Доказательство. При к = 2 векторы { и В{ не могут быть линейно зависимыми,
поскольку { не является собственным вектором матрицы В. Очевидно, что размерность
К2 (Г; В) = эрап({ В{) равна 2.
Будем считать, что при 2 < к < т — 1 векторы Г, В{ ... ,Вк-1Г линейно независимы;
Кк({; В) С Кк+1(Г; В); размерность подпространства Кк({; В) равна к. Если предположить,
что векторы Г, В Г,..., Вк Г линейно зависимы, то существуют коэффициенты \г,1 = 0,... ,к —
к-1
1 и = 0 хотя бы для одного ], такие что ВкГ = ^ ХгВгГ Тогда для любого х £ Кк+1(Г; В)
г=о
к к-1
имеем х = ^2 £гВгГ для некоторых чисел £г, * = 0,1,... ,к или х = ^ (£г + £п \г)В г{, т. е.
г=о г=о
х £ Кк(Г; В). Следовательно, верно включение Кк+1(Г; В) С Кк(Г; В), что противоречит предварительному условию Кк(Г; В) С Кк+1(Г; В).
Очевидно, что размерность подпространства Кк+1(Г; В) увеличится по сравнению с размерностью Кк (Г; В) на единицу и станет равной к + 1. Утверждение доказано.
Из равенства Ь(¥) = Кт(Г; В) следует равенство т = ^(Г)|.
Заметим, что, поскольку матрица В невырождена, векторы ВГ, В2Г,... , ВтГ являются линейно независимыми.
Вернемся к системе векторов рг = (G-1)гg, I = 1, 2,... ,т. Пусть т — максимальный индекс, при котором векторы р1, р2,... , рт линейно независимы. Выберем эти векторы в качестве базиса подпространства Кт^; G-1). Тогда вектор g можно единственным образом представить в виде
g = + Ъ(G-1)2g + ... + 7т^-1)т g. (15)
Если в этом равенстве при тех же коэффициентах 7г заменить матрицу G-1 на ее сужение G-1 на подпространстве Кт^; G-1), то равенство сохранится (в силу определения G-1). Тогда
- — X , аа, аі’а ЄХ(ґ)>•••>(—1)т^т = — П
Ї / п\ Ї \ / Г»\
аЄ2І (ї > аіЄ£ (ї
аі
Это значит, что, как и в предыдущем случае, 71 > 0, 72 < 0,... , (—1)т-17т > 0.
Утверждение 3. (С + ц1)-^ € Кт^; С-1) при ц > 0.
Пусть при произвольном значении ц > 0
(С + II )-^ = щС-^ + П2(С-1)^ + ... + nm(С-1)mg + d, (16)
где d принадлежит Кт — ортогональному дополнению Кт^; С-1). Тогда
dT(С-1)k g = 0, к = 0,1,...,т. (17)
Умножая равенство (16) слева на С + ц1, получаем
(1 — П1^ = (П2 + 1П1)С ^ + ... + (Пт + 1Пт-1)(С 1)т 1 + 1Пт(С 1 )mg + (С + I1 ^ (18)
Из этого равенства следует (С + ц1 ^ € Кт^; С-1). В то же время (С + ц1 ^ € Кт, так как при к = 1, 2,... ,т имеем dт(G + ц1 )(С-1)к g = dт (С-1)к-1 g + ^т(С-1)к g и согласно (17) оба слагаемых в правой части последнего равенства равны нулю. Следовательно, (С + ц1 ^ = 0, а в силу невырожденности матрицы С + ц1 получаем d = 0. Тогда из (16) следует, что (С + ц1 )-^ € Кт^; С-1). Утверждение доказано.
Из равенств (15), (18) получаем соотношения
П2 + 1П1 Пз + 1П2 Пт + 1Пт-1 1Пт
71 = -------, 72 = —:-----,... ,1т-1 = —;--, 1т =-----------
2 т- 1 т
1 — П1 1 — П1 1 — П1 1 — П1
из которых в свою очередь находим выражения для г = 1, 2,... ,т, аналогичные выражениям (11) с той лишь разницей, что в данном случае степени многочленов Мк(I) не должны превышать т.
Приведем примеры траекторий s(I) при значениях т, равных 1 или 2.
1. В случае т =1 g — собственный вектор С-1, т. е. С-1g = аg. Тогда s(I) = —(С +
I1 )-^ = —^---------g.
1 + аI
2. В случае т = 2 g = Y1С-1g + 72(С-1)^. Значения 71,72 можно найти методом исключения Гаусса, при этом должны быть верны неравенства 71 > 0, 72 < 0.
JJ „ П2 + 1П1 1П2
Из соотношений 71 =--------------, 72 =-------вычислим п1 и п2:
1 — П1 1 — П1
711 — 12 Ц2
П1 = ------, П2 = ----------.
I2 + 711 — 12 I2 + 711 — 12
Следовательно, s(I) =------^1Л—1?— (c-1)g------------------—Ц2---- (c-l)2g.
I2 + 711 — 12 I2 + 711 — 12
Кривую s(I) нетрудно представить в графическом виде. Пусть С1(^) ^11 ^2
I2 + 71! — 72 ’
&Ы) = о—^-, тогда s(I) = C1(I)sw + С2(^)(—С-1sN). Обозначим через Ь(^) отно-
I2 + 711 — 72
шение ^2(^), т. е. Ь(^) =---—. Тогда Ь(^) ^ 0 при ц ^ 0 и Ь(^) ^ — — при Ь ^ +то.
СМ 711—12 11
Максимум функции (2(^) достигается в точке ц0 = у/—12- Для этого случая кривая s(I) представлена на рис. 2.
Приведем алгоритм определения размерности минимального инвариантного относительно С-1 подпространства Крылова, содержащего g. Как и выше, р^ = (С-1)^.
Рис. 2. Кривая в(р) при т = 2
Найдем проекцию вектора g на рь т. е. найдем т1 = шт ||§ — Лр11|2. Если т1 = 0, то
Л
т = 1.
Найдем проекцию вектора g на эрап(р1, р2) при т1 > 0, т. е. найдем т2 = шт ||g — А1р1 —
Л1,Л2
А2р21|2- Если т2 = 0, то т = 2. В этом случае используем представление б(^) в явном виде.
Если т2 > 0, то т > 3. В этом случае рекомендуется использовать кусочно-линейную аппроксимацию б (^).
В заключение заметим, что представление траектории б(^) в виде (12) позволит построить другие ее приближения. Например, если при ^ < ц1 в качестве б (^) использовать квадратичную аппроксимацию (14), а при /л1 < ^ < ^2 и ^ > ^2 участки кривой б(^) построить так же, как в предыдущем случае, то получим функцию б (^) С 8рап^, б^, 0-1бм, (С-1)2бм), которая будет частично кусочно-линейной.
Список литературы
1. Дэннис Дж. Численные методы безусловной оптимизации и решения нелинейных уравнений / Дж. Дэннис, Р. Шнабель. М.: Мир, 1988.
2. Беллман Р. Введение в теорию матриц. М.: Наука, 1969.
3. Парлетт Б. Симметричная проблема собственных значений. Численные методы. М.: Мир, 1983.
Котельников Евгений Алексеевич — ст. науч. сотр. Института вычислительной математики и математической геофизики СО РАН; тел.: (383) 330-60-66
Дата поступления — 30.11.12