Об одном способе выбора шага в методе доверительной области

Котельников Евгений Алексеевич

ОБ ОДНОМ СПОСОБЕ ВЫБОРА ШАГА В МЕТОДЕ ДОВЕРИТЕЛЬНОЙ ОБЛАСТИ

Е. А. Котельников

Институт вычислительной математики и математической геофизики СО РАН,

630090, Новосибирск, Россия

УДК 519.853

Предложено аналитическое представление параметров траектории шага в методе доверительной области при минимизации гладкой выпуклой функции. Вследствие сложности применения в практических вычислениях полученных результатов представлен вариант аппроксимации данной траектории.

Ключевые слова: оптимизация, доверительная область, траектория шага, квадратичная модель.

An analytical representation of the step trajectory parameters for a trust region method in smooth convex function minimization is proposed. Because of the complexity of results application in practical calculations the curve fitting variant is recommended.

Key words: optimization, trust region, step trajectory, the quadratic model.

Введение. Рассматривается задача безусловной минимизации дважды непрерывно дифференцируемой выпуклой функции f : Rn ^ R. В некоторой 5k-окрестности точки xk G Rn (||xk + s || 2 < $k) функцию f можно представить квадратичной моделью

где g = Vf (хд); О = О(хд) — матрица Гессе в точке хд или некоторая ее оценка. При удачном выборе значения 8д модель т(хд+б) с хорошей точностью может аппроксимировать функцию f в 8д-окрестности. Такая 8д-окрестность называется доверительной областью, т. е. областью, в которой можно доверять модели т(хд + б) в том, что она адекватно моделирует функцию f [1]. Имея такую область, при выборе вектора спуска Бд из точки хд можно требовать, чтобы, во-первых, точка хд + Бд находилась в 8д-окрестности, во-вторых, для всех б, удовлетворяющих условию ||б||2 < 5д, выполнялось неравенство f (хд + Бд) < f (хд + б).

Следовательно, вектор Бд должен являться решением задачи

Метод минимизации, на каждой итерации которого определяется 8д и решается данная задача, называется методом доверительной области.

(1)

(2)

(З)

(4)

при единственном значении л > 0, таком что ||б(л)||2 = 5д .В случае выполнения неравенства ||б(0)||2 < 5д решением задачи (2), (3) является вектор б(0) = бм = —G-1g — ньютоновское направление. При любом значении л > 0 б(л) является направлением спуска для функции f из точки хд.

Следует отметить, что использование квадратичной модели т(хд + б) (1) для выбора вектора сдвига Бд возможно и в случае, когда функция f не выпукла. Для этого, в случае если матрица V2f (хд) не является положительно-определенной, в гессиан модели вносится возмущение, т. е. находится л такое, что матрица О = V2f (хд) + л1 положительно определена. Получившийся таким образом квазиньютоновский шаг б = —G-1g есть шаг в точку минимума модели т(хд + б) в некоторой окрестности точки хд [1].

В данном случае предполагается, что матрица О положительно определена. Кроме того, не рассматриваются способы пересчета размера доверительной области, а только вычисляются траектория б(л) и ее аппроксимация.

Существующие методы решения задачи (2), (3) являются приближенными. Например, в

[1] описываются два вычислительных метода: метод с ограниченным криволинейным шагом и метод с шагом в виде плоской ломаной линии, в котором проводится кусочно-линейная аппроксимация траектории б(л).

В данной работе предлагается описание в явном виде траектории б(л), в котором формулы параметров траектории удобны для анализа поведения кривой при изменении значения Л, но неудобны для практического использования в силу высокой трудоемкости вычисления этих параметров. Поэтому в ущерб точности решения задачи (2), (3) вместо траектории б(л) предлагается использовать ее приближение, для вычисления которого требуется значительно меньшее число операций.

Алгоритм. Рассмотрим матрицу А размером пх и, столбцами которой являются векторы

и выясним, при каких условиях она является невырожденной. Обозначим через z1, z2,. . . , zra

ZSZT, где Z = , Z2,..., zn) — ортогональная матрица; Б = diag(a■1, а2,... , оп). Пусть

И = Zтg (Ні = zTg, і = 1, 2,...,п), тогда столбцы рі матрицы А равны р1 = ZSh, р2 =

Рі = G-1g, Р2 = (0-1)2& Рп = (0-1)^,

(5)

систему ортонормированных собственных векторов матрицы Є 1 и через а1,а2,... ,ап набор соответствующих им собственных значений. Тогда матрицу Є-1 можно представить в виде

А = ZDW,

(6)

где D = diag(alhl, 02Н2,... , опКП),

W

1 ^1 &2 1 ^2 о\

1 &п 02п

Отсюда, матрица А вырождена, если выполнено хотя бы одно из следующих условий:

1. Для некоторого г] = 0, т. е. вектор g ортогонален хотя бы одному собственному

вектору матрицы О-1.

2. Матрица Ш вырождена, т. е. det Ш (определитель Вандермонда) равен нулю. Это

возможно тогда и только тогда, когда аг = а^ хотя бы для одной пары индексов г,] (г = 3)

[2], что означает кратность собственных значений матрицы О-1.

Случай, когда матрица А невырождена. Выберем в качестве базиса пространства Мп векторы , p2,... , pn из (5) и представим разложение вектора g по этому базису в виде

П

g = 5] (7)

г=1

Вектор у Е Кп можно найти, решив систему линейных алгебраических уравнений Ау = g.

П—1 П—1

Заметим, что уп = 0, так как в противном случае g — ^ yipi = 0 и О-1^ — ^2 ТФг) =

г=1 г=1

п

Pl — Е Уф.1 = 0, что невозможно.

г=2

Утверждение 1. 71 > 0,72 < 0,..., (—1)п 1 Уп > 0.

Действительно, пусть (а, z) — произвольная собственная пара матрицы О-1. Умножив

п

обе части равенства (7) на z, получаем gтz = ^ удад^^), так как pДz = (О- 1)дz = адz. Из

д=1

условия gтz = 0 находим

п

^1да 1 (8)

д=1

Последнее равенство верно для собственных значений а1,а2,...,ап и, следовательно, у1,у2,... ,уп можно рассматривать как единственное решение системы линейных алгебраических уравнений

п

’5

д=1

ХМ7д = 1, 3 = 1, 2,...,п (9)

Единственность следует из того, что матрица этой системы уравнений невырождена и равна diag(а1, а2,..., ап)Ш, где матрица Ш определена в (6).

Запишем равенство (8) в виде

ап I 'Уп-1 ап-1 I 'У'п-2 ап-2 I I 71 а 1 0

а I-------------а I----а + ... I---------------а-= 0

'Уп 1п 'Уп 'Уп

и сравним его с характеристическим уравнением для матрицы О-1

„п и-1 | ,„ п-2 | ( 1\п,„ _ п

а — ^1а + ^2а + ... + (—1) рп — 0,

п

где р1 = ^2 аг, р2 = ^2 ага^,... ,рп = а1а2 • • • ап и рг > 0 при всех г = 1, 2,... ,п. Тогда в г=1 %>з

силу единственности решения системы (9) имеем

----= (—1)прп, или (—1)п 17п > 0,

Уп

— = (—1)п-1рп-1, или 71 = (—1)п-1упРп-1 > 0,

1п

— = ( — 1)n—‘2рn—2, или 72 = (— 1)п-2упРп-2 < 0.

Уп

Аналогично получаем

= ^2, или 7п-2(-1)п 3 = (-1)п 37п^2 > 0,

7

п

-п— = -^1, или 7п-1(-1)п 2 = (-1)п 17п^1 > 0.

1п

Таким образом, утверждение о знакопеременности 71,72,... ,^п доказано.

Используя коэффициенты ^1,12,... ,1п, найдем коэффициенты п = Пі(ї),і = 1, 2,... ,п разложения по базису p1, p2,... , pn из (5) вектора (Є + /її)-1g:

(Є + ї1) 1g = ^ ^. (10)

і=1

Умножив обе части этого равенства слева на О + л1, получаем g = ^ г)гОрг + Л^2пгPi, но

г=1 г=1

Орг = Pi—1, а p0 = g, поэтому

п п п- 1

g = X niPi—1 + Л X ^г = + Х(Пг+1 + ЛПг^г + ЛVnPn.

г=1 i=l i=l

Заметим, что п1 = 1 при л > 0, так как в противном случае ^+1+= 0, г = 1, 2,... , и — 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и пп = 0. Следовательно, п = 0, г = 2, 3,... ,п и (О + л1)-^ = G—1g или (О + л1 ^ = Од

^ п гр п-1 П*+1 + лъ . ЛПп

при л > 0, что невозможно. Тогда g = > ------------------------pi I---------pn и согласно (7) =

i=l 1 — П1 1 — П1

^+1 +. 1 0 лпп

—----------,г = 1, 2,... ,п — 1, тп = --------.

1 — П1 1 — П1

Производя обратный отсчет от Пд+1 к Пд, получаем

Пп = 1----—71 = 1--------— Мо(л),

л л

где Мо(л) = 1п,

1 — п1 1 — п1

Пп-1 = -----(Л7п-1 — 7п) = --------1Г~ МПЛ),

О ЧГ*' \п— 1 \п) о

ї2 I2

где М1(ї) = Л1п-1 - Іпі

1 - П1 ґ 2 \ 1 - П1 ^ / \

Пп—2 = -(1 7п—2 - Цп-1 + 7п) = --------------------------- M2(I),

ІЗ І3

где М2(ї) = І^п—2 - Цп-1 + 7п, . . . ,

= £ (^п к7к - ^п к 17к+1 + ... + (-1)п к 17п-11 + (-1)п к 7п) = ^п-кТ-1 Мп-к (л).

п2 = —пг1_(^п 272 - ^п 37з + ... + (-1)п 37п-1^ + (-1)п 27п) = —-"ГMn-z(I),

Іп 1 Іп 1

п1 = (^п 171 - 1 272 + ^п 373 + ... + (-1)п 27п-1^ + (-1)п 17п) = п~Мп-1(ї).

Лп їп

Из этих соотношений следует

т __ Мп-1(л) т ___ __ Мп-2(л) т _ , п-1 7п

П1 п I ЛД" ( \, П Л п | Л/Т / \,...,'Пп л п / V (11)

л + Мп-1(л) л + Мп-1(л) л + Мп-1(л)

Используя неравенства 71 > 0,72 < 0,... , (—1)п-17п > 0, получаем неравенства для многочленов Мд (л):

Мп-1(л) > 0, Мп-2(л) < 0,..., М1(л)(—1)п-2 > 0, Мо(л)(—1)п-1 > 0 при л > 0.

Следовательно, коэффициенты Пд (л) в разложении (10) удовлетворяют неравенствам (—1)д-1Пд(л) > 0 при л > 0. Кроме того:

— при л = 0 П1 = 1, Пд = 0, к > 1;

п п

Е Ы Е Ы Л

-1 i=1 i=2 !п

— при л = 1 П1 =-------п— ,П2 =---------п—,... ,Пп =---------п—;

1 + Е Ы 1 + Е Ы 1 + Е Ы

i=1 i=1 i— 1

— при л Пд(л) ^ 0, к =1, 2,... ,п.

Вернемся к траектории б(л), определенной в (4), и запишем ее в виде

П

Б(л) = — X п(л)Pi, л> 0 (12)

i=1

(б(0) = б^ = —G-1g — ньютоновское направление). Поскольку использование в вычислениях представления (12) для траектории Б(л) существенно затруднено вследствие большой трудоемкости вычислений коэффициентов 7д и невозможности вычислений многочленов Мд (л) при больших значениях к, найдем функции, аппроксимирующие пд (л) с высокой точностью.

1. Рассмотрим поведение траектории б(л) при больших л.

Представим функции пд (л), к = 1, 2,... ,п в виде

( ч 1 лд-1Мп-д (л)

пд (л) =---------------------1--.

л лп-1 + - Мп-д(л) л

Отношение Кд(л) = —л---------1 п д(л)— стремится к 7д при л ^ +го, Кд(л) ~ 1д и пд(л) ~ ~.

лп-1 + - Мп-д(л) л

л

п 1 п 1 1

Тогда пд(л)Pд ~ - Е 7дPд = -g и, следовательно, б(л) ~ g.

д=1 л д=1 л л

Для оценки точности такого представления зададим малое положительное число е1 —

допуск на точность вычисления траектории б(л) при больших л — и найдем нижнюю границу значений параметра л, при которых выполнено неравенство || б (л) +— g|І2 ^

л

При к = 1, 2, . . . , п - 1 имеем

( N 1 = лд Мп-д (л) — 1д лп — 7дМп-1(л) = — (7д-1 — 717д )лп-1 + ...

пд л л1д л(лп + Мп-1(л)) л(лп + Мп-1 (л)) ,

т. е. пд (л)-1д есть отношение двух многочленов, в котором числитель — многочлен степени

л

п — 1, а знаменатель — многочлен степени п +1. Следовательно, пд (л)-------------1д = О ( — ).

л \л2/

При к = п

п ЛЛ 1 Мп-1(л) = О ( 1

Цп(л) тп 1п , п , , , и О I 2

л л(лп + Мп-1(л)) \л2

п 1 1 1 1 1

Тогда || £) (пд(л)----1д)Pд||2 = О или ||б(л) + -в||2 = О -г и при л > имеем

д=1 л \л2) л \л2) л/ёГ

||б(л) +— ё||2 < а, где а — число порядка £г. л

2. Рассмотрим поведение пд (л) при 0 < л < 1.

При к = 1

1 () = 1 Мп-1(л) = лп

лп + Мп-1(л) лп + Мп-1(л)'

лп лп

При л > 0 лп + Мп-г(л) > Ы, поэтому 0 < 1 — п1(л) < 1—г, т. е. 1 ^—- < п1(л) < 1

Ы |7п|

при 0 < л < 1. При к = 2

^ лп + лп 111 п л + 71

п2(л) + л = л п , ----ТТ = л

лп + Мп- 1(л) лп + Мп- 1(л)'

1 + 71

Следовательно, при 0 < л < 1 имеем 0 < п2(л) + л < лп~1—л, т. е. —л < п2(л) <

Ы

—л + лп1 + 71

Ьп\ При к = 3

..п I . ,,п-1 п. ..п-2

( ч , 2 _ 2 л + 71л — 72л

— п3(л) + л = л ----------п ^------------------:

лп + Мп-1(л)

п 1 п ^ч,2 п 1 + 71 — 72 2 п 1 + 71 — 72 / ч 2

тогда при 0 < л < 1 имеем 0 < — п3(л) + л2 < лп-1—I-----, или л2 — лп-1—I---<п3(л) < л2.

гм гм

Действуя аналогично, можно получить оценки всех функций пд (л) при 0 < л < 1.

Если пренебречь всеми нелинейностями по л, то при 0 < л ^ 1 можно получить представление

Б(л) = —О-^ + л(°-1)^. (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Это выражение задает плоскую кривую в подпространстве эрап^^ p2) — линейной оболочке векторов Pl, p2 — и аппроксимирует значения б(л) с ошибкой порядка л2. Учет еще одного члена в выражении (12) приводит к квадратичной аппроксимации

б(л) = —О ^ + л(О 1)2g — л2(О 1)3g (14)

с ошибкой порядка л3.

Приведем пример трехмерной кусочно-линейной траектории Б(л) С эрап^, бм,О-1бм),

аппроксимирующей кривую б(л). Траектория Б(л) представляет собой кривую с двойным

изломом, один из отрезков которой (при л < 1) есть б(л) из (13), а другой отрезок (при

больших ц) есть вектор g. Последний отрезок совпадает по направлению с одним из

ц

отрезков плоской кусочно-линейной кривой с двойным изломом из алгоритма доверительной области, предложенного М. Дж. Д. Пауэллом [1], но имеет другую длину.

Кривую б(ц) представим в виде трех участков.

1. При ц < 1 в качестве ё(ц) выберем линейную аппроксимацию (13) с некоторыми ограничениями. Необходимо, чтобы, во-первых, б(ц) хорошо приближало б(ц); во-вторых, выполнялось условие gт б(ц) < 0; в-третьих, функция ||б(ц)||2 являлась убывающей. Для того чтобы эти требования были выполнены, найдем три величины а1,а2,а3:

а) а\ = тахц из условия цп ^ е2, где е2 > 0 — малое число (допуск на точность вычисления траектории б(ц) при малом ц);

б) &т^ -

б) а2 = — |. щ |2 — величина, определяющая верхнюю границу значений параметра ц,

12

при которых gт s(ц) < 0;

)тG_1sЩ

в) аз = , ,п_П2 N — точка минимума функции ||s(ц)||2 = |^ — цG-1sN||2.

(s ) (G ) s

При ц < ц1 = т1п(а1, а2, а3) s (ц) удовлетворяет всем указанным выше требованиям

Ч

при этом функция т(хд + s(ц)), определенная в (1), равна т(хд + sN) + ^Ц2(sN)TG-1sN и, следовательно, растет при увеличении ц.

2. При больших ц найдем точку минимума Л* модели т(хд + s) в направлении наиско-

1^11 2 11

рейшего спуска: Л* = ----- и величину ц2 = тах( —,-----). Тогда при ц > ц2 функция

gTGg Л* у/е!

s(ц) с точностью е1 аппроксимируется функцией-g, а функция т(хд-g) монотонно

цц

возрастает с увеличением ц.

1111 II II2 т /V

^ & 2 & 2 gTsN

т ^ II II2 II II2

Вычислим величины а4 = , а5 =---——-, а6 = — ——-——, которые удовле-

11 ^«З^Ь &т!^(ц1) s(Цl)TsN

творяют следующим условиям:

— при ц > а4 ||s(Ц)||2 = - ||g||2 < Н^аз )||2 < ||S(Цl)||2;

ц

— при ц > а5 s(Ц)T(s (ц1) — s (ц)) = — 1 &т( s(Цl) + 1 g) = 1(—&т s(Цl) — 1 ||g||2) > 0;

ц ц ц ц

— при ц > ае ( S(цl) — S(ц))TsN = (S(цl) + 1 ^ sN = S (Цl)TsN — -1—gTsN) > S(цl)тsN—

s(ц1)TsN. ЛГ.

(-gTsN) = 0.

цц

— gis1

Два последних условия потребуются в дальнейшем. Определим величину ц2 =

тах(ц2, а4, а5, а6). 3. Соединим точки S(ц1) и S(ц2) отрезком S(ц) = S(ц1) + -Ц Ц1 ( S(ц2) — S(ц1)), который ц2 - ц1

выберем в качестве участка искомой траектории при ц1 < ц < ц2. Введем следующие обозначения: s1 = S (ц1), s2 = S(ц2), в = в(ц) = Ц—Ц—. Тогда в <Е [0,1], в = 0 при ц = ц1

ц2 - ц1

и в =1 при ц = ц2. Определим функцию ф(в) = S1 + в(s2 — s1), т. е. ф(в(ц)) = S(ц),

Ц ^ [Ц1, Ц2].

Рис. 1. Кривая в(ц.) с двойным изломом ^ в(^і) ^ в(^2) ^ 0

Для функции ф(в), в € [0, 1] верны следующие утверждения:

1) gт^(в) < 0 для всех в € [0, 1];

2) \\ф(в)\\2 убывает на отрезке [0, 1];

3) функция т(хк + ф(в)), определенная в (1), растет на отрезке [0, 1].

Покажем, что условия 1-3 выполнены.

1. Скалярное произведение gт^(в) = ^^)(1 — в) + в^^2) < 0 для всех в € [0,1], так как gтs1 < 0 и gтs2 < 0.

2. Функция ||^(в)\\2 = 1^1^ + 2вs1;(s2 — s1) + в2\\s2 — s1 \\2 достигает минимума в точке

т

цТ^Ці _ ^2) ^^(^і _ ^2)

в0 — -1-гг2. Значение во больше единицы, так как во _ 1 = тт--------ТГ2, а =

ІІБ1 _ Й2ІІ2 ІІБ1 _ Й2ІІ2

0 в силу выбора /і2 > а5. Следовательно, ||^(0)||2 > ||^(1)||2 и во > 1, т. е.

убывающая на отрезке [0, 1] функция.

3. Функция ш(хк + ф(в)) = ш(хк + Бі) + в(®2 _ 81)"% + СБі) + 1 в^2 _ _ Ці).

Так как g + Сб1 — g + С(бм _ ціО-іБм) — g _ g _ ц1Бм — _і1Бм, то т(хк + ф(в)) — т(хк + Бі) _ в^і(Б2 _ Бі)твм + 2в2(б2 _ йі)ТС(в2 _ Бі). Минимум функции т(хк + ф(в))

достигается в точке ві — І17---( 2 _ -----т. Величина ві < 0, так как (бі _ 82)тбм > 0 в

(б2 _ бі)тс(82 _ Бі)

силу выбора ц2 > а6. Следовательно, функция т(хк + ф(в)) возрастает на отрезке [0, 1].

Построенная таким образом траектория Б (і) при ц > 0 удовлетворяет условию gт Б(і) < 0 для всех і, с увеличением ц функция ||Б(і)||2 убывает, а функция т(хк + Б (і)) возрастает. На рис. 1 показана кривая Б(і), 0 < ц < +то.

Случай, когда векторы рі, р2,..., рп, определенные в (5), являются линейно зависимыми. Предварительно определим влияние спектрального разложения матрицы G-1 и выбора вектора g на максимальное значение к, при котором векторы р1, р2,... , Рк линейно независимы.

Пусть В — симметричная положительно-определенная матрица размером п х п; А [В] — множество собственных значений матрицы В; ї Є Кп — вектор, не являющийся собственным вектором матрицы В.

Приведем ряд определений и утверждений из [3].

1. На — собственное подпространство, соответствующее а Є Л[В], т. е. На = {х : (В —

а1 )х = 0}. Кратность а есть размерность Ма.

2. На = ^2 2г2! — спектральный проектор, где ^і} — произвольный ортонормированный базис подпространства На; Га = Наї — ортогональная проекция вектора Г на На. В/а = аГа, так как Га Є Ыа; вектор Га определен единственным образом для вектора Г

3. Пусть ^2(Ґ) = {а : а Є Л[В], Га = 0}. Тогда Ь(Ґ) = эрап{Га : а Є ^2(Г)} — наименьшее инвариантное относительно В подпространство из К™, содержащее Г

4. Матрица Вг = ^ а «2 — сужение матрицы В на £({). Действие Bf совпадает

«еЕ (Г) II{а II2

с действием В, но областью определения Вг является подпространство £({). Матрица Вг имеет простые собственные значения а £ ^2(Г).

5. Подпространства Крылова Кг(Г; В) = эрап^, ВГ,... , Вг-1 Г) полностью покрывают подпространство Ь({) в том смысле, что эрапГ С К2(Г; В) С ... С Кт({ В) = Кт+1(Г; В) = Ь({) для некоторого т < п.

Утверждение 2. Пусть т — число, определенное в п. 5. Тогда векторы Г, ВГ,... , Вт-1{

линейно независимы и размерность подпространства Кк({; В), к = 2, 3,... ,т равна к.

Доказательство. При к = 2 векторы { и В{ не могут быть линейно зависимыми,

поскольку { не является собственным вектором матрицы В. Очевидно, что размерность

К2 (Г; В) = эрап({ В{) равна 2.

Будем считать, что при 2 < к < т — 1 векторы Г, В{ ... ,Вк-1Г линейно независимы;

Кк({; В) С Кк+1(Г; В); размерность подпространства Кк({; В) равна к. Если предположить,

что векторы Г, В Г,..., Вк Г линейно зависимы, то существуют коэффициенты \г,1 = 0,... ,к —

к-1

1 и = 0 хотя бы для одного ], такие что ВкГ = ^ ХгВгГ Тогда для любого х £ Кк+1(Г; В)

г=о

к к-1

имеем х = ^2 £гВгГ для некоторых чисел £г, * = 0,1,... ,к или х = ^ (£г + £п \г)В г{, т. е.

г=о г=о

х £ Кк(Г; В). Следовательно, верно включение Кк+1(Г; В) С Кк(Г; В), что противоречит предварительному условию Кк(Г; В) С Кк+1(Г; В).

Очевидно, что размерность подпространства Кк+1(Г; В) увеличится по сравнению с размерностью Кк (Г; В) на единицу и станет равной к + 1. Утверждение доказано.

Из равенства Ь(¥) = Кт(Г; В) следует равенство т = ^(Г)|.

Заметим, что, поскольку матрица В невырождена, векторы ВГ, В2Г,... , ВтГ являются линейно независимыми.

Вернемся к системе векторов рг = (G-1)гg, I = 1, 2,... ,т. Пусть т — максимальный индекс, при котором векторы р1, р2,... , рт линейно независимы. Выберем эти векторы в качестве базиса подпространства Кт^; G-1). Тогда вектор g можно единственным образом представить в виде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

g = + Ъ(G-1)2g + ... + 7т^-1)т g. (15)

Если в этом равенстве при тех же коэффициентах 7г заменить матрицу G-1 на ее сужение G-1 на подпространстве Кт^; G-1), то равенство сохранится (в силу определения G-1). Тогда

- — X , аа, аі’а ЄХ(ґ)>•••>(—1)т^т = — П

Ї / п\ Ї \ / Г»\

аЄ2І (ї > аіЄ£ (ї

аі

Это значит, что, как и в предыдущем случае, 71 > 0, 72 < 0,... , (—1)т-17т > 0.

Утверждение 3. (С + ц1)-^ € Кт^; С-1) при ц > 0.

Пусть при произвольном значении ц > 0

(С + II )-^ = щС-^ + П2(С-1)^ + ... + nm(С-1)mg + d, (16)

где d принадлежит Кт — ортогональному дополнению Кт^; С-1). Тогда

dT(С-1)k g = 0, к = 0,1,...,т. (17)

Умножая равенство (16) слева на С + ц1, получаем

(1 — П1^ = (П2 + 1П1)С ^ + ... + (Пт + 1Пт-1)(С 1)т 1 + 1Пт(С 1 )mg + (С + I1 ^ (18)

Из этого равенства следует (С + ц1 ^ € Кт^; С-1). В то же время (С + ц1 ^ € Кт, так как при к = 1, 2,... ,т имеем dт(G + ц1 )(С-1)к g = dт (С-1)к-1 g + ^т(С-1)к g и согласно (17) оба слагаемых в правой части последнего равенства равны нулю. Следовательно, (С + ц1 ^ = 0, а в силу невырожденности матрицы С + ц1 получаем d = 0. Тогда из (16) следует, что (С + ц1 )-^ € Кт^; С-1). Утверждение доказано.

Из равенств (15), (18) получаем соотношения

П2 + 1П1 Пз + 1П2 Пт + 1Пт-1 1Пт

71 = -------, 72 = —:-----,... ,1т-1 = —;--, 1т =-----------

2 т- 1 т

1 — П1 1 — П1 1 — П1 1 — П1

из которых в свою очередь находим выражения для г = 1, 2,... ,т, аналогичные выражениям (11) с той лишь разницей, что в данном случае степени многочленов Мк(I) не должны превышать т.

Приведем примеры траекторий s(I) при значениях т, равных 1 или 2.

1. В случае т =1 g — собственный вектор С-1, т. е. С-1g = аg. Тогда s(I) = —(С +

I1 )-^ = —^---------g.

1 + аI

2. В случае т = 2 g = Y1С-1g + 72(С-1)^. Значения 71,72 можно найти методом исключения Гаусса, при этом должны быть верны неравенства 71 > 0, 72 < 0.

JJ „ П2 + 1П1 1П2

Из соотношений 71 =--------------, 72 =-------вычислим п1 и п2:

1 — П1 1 — П1

711 — 12 Ц2

П1 = ------, П2 = ----------.

I2 + 711 — 12 I2 + 711 — 12

Следовательно, s(I) =------^1Л—1?— (c-1)g------------------—Ц2---- (c-l)2g.

I2 + 711 — 12 I2 + 711 — 12

Кривую s(I) нетрудно представить в графическом виде. Пусть С1(^) ^11 ^2

I2 + 71! — 72 ’

&Ы) = о—^-, тогда s(I) = C1(I)sw + С2(^)(—С-1sN). Обозначим через Ь(^) отно-

I2 + 711 — 72

шение ^2(^), т. е. Ь(^) =---—. Тогда Ь(^) ^ 0 при ц ^ 0 и Ь(^) ^ — — при Ь ^ +то.

СМ 711—12 11

Максимум функции (2(^) достигается в точке ц0 = у/—12- Для этого случая кривая s(I) представлена на рис. 2.

Приведем алгоритм определения размерности минимального инвариантного относительно С-1 подпространства Крылова, содержащего g. Как и выше, р^ = (С-1)^.

Рис. 2. Кривая в(р) при т = 2

Найдем проекцию вектора g на рь т. е. найдем т1 = шт ||§ — Лр11|2. Если т1 = 0, то

Л

т = 1.

Найдем проекцию вектора g на эрап(р1, р2) при т1 > 0, т. е. найдем т2 = шт ||g — А1р1 —

Л1,Л2

А2р21|2- Если т2 = 0, то т = 2. В этом случае используем представление б(^) в явном виде.

Если т2 > 0, то т > 3. В этом случае рекомендуется использовать кусочно-линейную аппроксимацию б (^).

В заключение заметим, что представление траектории б(^) в виде (12) позволит построить другие ее приближения. Например, если при ^ < ц1 в качестве б (^) использовать квадратичную аппроксимацию (14), а при /л1 < ^ < ^2 и ^ > ^2 участки кривой б(^) построить так же, как в предыдущем случае, то получим функцию б (^) С 8рап^, б^, 0-1бм, (С-1)2бм), которая будет частично кусочно-линейной.

Список литературы

1. Дэннис Дж. Численные методы безусловной оптимизации и решения нелинейных уравнений / Дж. Дэннис, Р. Шнабель. М.: Мир, 1988.

2. Беллман Р. Введение в теорию матриц. М.: Наука, 1969.

3. Парлетт Б. Симметричная проблема собственных значений. Численные методы. М.: Мир, 1983.

Котельников Евгений Алексеевич — ст. науч. сотр. Института вычислительной математики и математической геофизики СО РАН; тел.: (383) 330-60-66

Дата поступления — 30.11.12

Об одном способе выбора шага в методе доверительной области Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Котельников Евгений Алексеевич

Похожие темы научных работ по математике , автор научной работы — Котельников Евгений Алексеевич

Текст научной работы на тему «Об одном способе выбора шага в методе доверительной области»