Сходимость метода Ньютона на различных классах функций

Михеев С.Е.

Вычислительные технологии

Том 10, № 3, 2005

СХОДИМОСТЬ МЕТОДА НЬЮТОНА НА РАЗЛИЧНЫХ КЛАССАХ ФУНКЦИЙ

С. Е. Михеев

Санкт-Петербургский государственный университет, Россия e-mail [email protected]

Convergences of the iterative Newton's method for systems of nonlinear equations g(x) = 0 with functions g having Lipschitz' constant L for its derivation: g € C1,1 versus functions g having local Lipschitz' constant L(x) and estimation L(x)||(g'(x))-1||2 < v are compared. For the second class of functions the results similar to the Kantorovich (TK) theorems for C1,1 (D) are obtained. It is shown that the second class has elements and initial approximations which do not guarantee convergence while the TK do. Vice versa, the class C1,1 has elements and initial approximations that guarantee the convergence according to the TK, but they do not satisfy the conditions of the theorems presented here.

Введение

Обоснование метода Ньютона решения нелинейного уравнения

g(x) = 0, x € D С U, g : D —► W, (1)

где U, W — банаховы пространства (B-пространства), было проведено в работах Л. В. Канторовича и И. П. Мысовских в середине 20-го века [1-9]. Во всех указанных трудах ограничение в некоторой области (открытого множества) D из B-пространства на скорость изменения производной J = g' имело вид условия

sup ||J-1(x0)J'(x)|| < K, (2)

x€D

где x0 — начальная точка метода, либо || J'(x)|| < L для всех x из D. Во втором варианте непосредственно из доказательств в указанных трудах была видна возможность легкого расширения результатов и на случай, когда J всего лишь липшицева:

||J(x + Д) - J(x)|| < L||Д|| Vx,x + Д € D. (3)

Конкретные D, L определяют некоторое множество, которое здесь как обычно обозначается C1,1 (D,L), при ненадобности список параметров (D, L) будет опускаться.

Здесь под нормой линейного оператора A : U ^ W подразумевается норма, подчиненная нормам пространств U и W: ||A|| = supx=0 ||Ax||W.

И.П. Мысовских рассмотрел сужение множества С1,1 (Б,Ь), порождаемое ограничением || 3-1(х)|| < г для всех х из Б и установил в нем сходимость метода Ньютона при более слабых условиях.

Для липшицевых 3 основная теорема о методе Ньютона, именуемая теоремой Канторовича, доказана новым способом в [10]. В [11] теорема Канторовича (ТК) приводится также для липшицевых 3 с утверждением, что доказательство следует оригиналу (однако во всех описанных там оригиналах использована 3').

Сравнение приводимых здесь результатов будет произведено с теоремой Канторовича, применяемой к функциям из С1,1.

Параметры теорем Канторовича и Мысовских не улучшаемы в С1,1. Однако это не запрещает получать в иных классах результаты, не объемлющие их и не являющиеся их следствиями. Один из таких классов и будет здесь исследован на применимость метода Ньютона. Основным инструментом для этого послужит метод дифференцирования по итерации, суть которого состоит в дифференцировании уравнения, порождающего неявным образом следующую итеративную точку, по смещениям текущей итерации.

В обычном методе Ньютона порождающее уравнение является линейной аппроксимацией задачи (1):

д(хк) + 3 (хк )(х — хк ) = 0, к = 0,1,..., (4)

где хк — текущая итерация; решение системы (4) относительно х есть следующая итерация. (Заметим, что традиционная запись метода Ньютона в виде хк+1 = хк — 3-1(хк)д(хк) практически никогда не используется как основа расчетных формул и именно непосредственное решение уравнения (4) программно реализуется на каждом шаге.)

В конечномерном пространстве В можно после выбора базиса трактовать производную функции д как матрицу Якоби 3 (отсюда и обозначение).

Замкнутый шар {у ||у — х|| < 5} будем обозначать здесь через Б(х, 5).

1. Существование и оценка удаленности решения

Пусть и, Ш — В-пространства.

Определение 1. Назовем локальной константой Липшица функции С : М ^ Ш в х — неизолированной точке множества М С и — величину

LG(x) = lim \\G(x + А) - G(x)\\w/\\А\\и•

Здесь предел берется по таким А, что x + А принадлежит M.

Там, где возникнет потребность усилить внимание к тому, что речь идет об обычной константе Липшица, снабдим ее эпитетом "глобальная".

Лемма 1. Пусть Z,U,W — B-пространства и множество M лежит в Z. Если определенное на M семейство линейных операторов A(y) : U ^ W, y £ M, в x — неизолированной точке множества M — имеет конечную локальную константу Липшица L и оператор A(x) невырожден, то существует 5 > 0, такое, что для всех y из окрестности V = S(x,5)P| M операторы A(y) невырождены, а семейство обратных операторов A-l(y) : W ^ U, y £ V, равномерно ограничено, в точке x тоже имеет локальную константу Липшица L- и

L- <\\A-1(x)\\2L.

Доказательство. Из существования локальной константы в х следует непрерывность семейства в х. Поэтому согласно теореме Банаха и следствий из нее [8, теорема 5.4.4] существует для точки х число 8 > 0, такое, что в окрестности V = Б (х, 8) Р| М существуют обратные операторы А-1, которые равномерно ограничены:

И-'М» * (1 -||Л-йи!) - А(х)|| < 2»А"1(х)» У У е *

Пусть х + А принадлежит окрестности V, тогда

А-1(х + А) - А-1(х) = А-1(х)[А(х) - А(х + А)]А-1(х + А).

Откуда

1|А-1(х + А) - А-1(х)|| < Ь||А-1(х)||||А||||А-1(х + А)» + о(А). (5)

В силу ограниченности ||А-1(х + А)|| из (5) следует непрерывность А-1 в х.

Поэтому, разделив на ||А|| неравенство (5) и переходя к верхнему пределу при А ^ 0, получаем утверждение леммы. □

Если множество М — область задания отображения О — не имеет изолированных точек, то локальная константа Липшица, конечная или бесконечная, определена на всем М.

Определение 2. Пусть М не имеет изолированных точек. Функцию Ьс : М ^ Я1, значение которой в каждой точке области задания есть локальная константа Липшица отображения О, назовем полупроизводной отображения О.

Отметим, что если отображение О дифференцируемо в х из О по Фреше, его полупроизводная есть ||О'(х)||.

Определение 3. Обозначим через ЛЛ-класс (О, а) класс функций д, удовлетворяющих следующим условиям:

1) линейный оператор 7 — производная функции д — в области О невырожден и имеет конечную полупроизводную ЬJ;

2) для всех х из О выполняется ЬJ(х)г(х) < а, где г(х) > || 7-1(х)|| и а > 0.

В следующей теореме будет использован частный случай В-пространств — гильбертовы пространства, наделенные естественной нормой ||х|| = л/(х, х). Далее — Н-пространст-ва.

Теорема 1. Пусть и, Ш — Н-пространства, О С и, д : О ^ Ш, д принадлежит ЛЛ-классу (О, а) и выполняются следующие условия:

1) Ра = Гоа||д(хо)|| < 1 - е, где г0 = г(х0) и е принадлежит (0,1);

2) шар Б(х0, "0) принадлежит области О, где

. 1п(1 - Ра) 1п е

"о =--<--.

аа

Тогда в шаре Б(х0,"0) существует решение а системы (1).

Доказательство. От противного. Пусть в шаре Б(х0,"0) нет решений системы (1). Тогда в силу непрерывности д существует Ь > 0, такое, что ||д(х)|| > Ь для всех х из Б(х0,"0), кроме того, следующая задача Коши

х = -<7*(х)д(х)/ ||7*(х)д(х)|| , х(0) = х0 (6)

имеет в шаре Б(х0,"0) непрерывную правую часть системы дифференциальных уравнений. Здесь и далее * — операция сопряжения.

Согласно [12, следствию 2.3.2] либо решение задачи (6) существует для всех Ь > 0, либо оно непродолжимо по Ь далее момента Т < и тогда Ь ^ Т влечет Цх(Ь) — х0|| ^ в0.

Рассмотрим поведение функции д2(х) = (д(х), д(х)) на решении задачи (6). По построению

(д2(х))[ = 3(х)х • д(х) + д(х) • 3(х)х = = — (3(х)3*(х)д(х) • д(х)+ д(х) • 3(х)3*(х)д(х))/ЦГ(х)д(х)Ц = —2ЦГ(х)д(х)Ц. Оценим правую часть. Пусть 3*(х)д(х) = у. Тогда д(х) = (3*)-1(х)у и

Цд(х)Ц < ШГЧхМуИ = ||3-1 (х)||||у|| Цд(х)Ц/г < ||у|| = ЦГ(х)д(х)Ц.

Следовательно,

(д2Уь < —Ш/г. (7)

Оценим приращение функции р(Ь) = г(х(Ь)) при изменении времени на 5 > 0. Как известно [13], норма интеграла от непрерывной абстрактной функции не более интеграла от нормы этой функции. А производная решения задачи (6) х(Ь) непрерывна. Поэтому

6 6 Цх(г + 5) — х(г)Ц = у х(Ь + т)ат < J ||х(Ь + т)|| ¿т.

оо

Помимо этого из (6) видно, что ||х|| = 1, следовательно, для всех Ь, 5, таких, что х(Ь), х(Ь + 5) из Б(х0, в0), справедливо

Лемма 1

|р(Ь + 5) — р(Ь)1 < Ц3-1(х(1 + 5)) — 3-1(х(Ь))Ц < < ||3-1(x(t))||2LJ(х(1))Цх(1 + 5) — х(Ь)Ц + 01(||х(Ь + 5) — х(Ь)Ц) <

< р2(t)LJШ) Цх(Ь + т) || ¿т + 02(5) = р2(t)LJ(х(Ь))5 + 02(5) < ар(1)5 + 02(5). (8) 0

Здесь 0г — бесконечно малые функции своих аргументов для любого индекса г. Таким образом, правые производные числа функции р в момент Ь ограничены по модулю величиной ар(Ь). Тогда согласно теореме 3.4.1 и замечаниям к ней в [12] функция р(Ь) мажорируется решением задачи Коши

П = о'ц, п(0) = г0, (9)

т.е. р(Ь) < гоеаЬ, Ь е [0,Т).

Усилив (7) подстановкой вместо г(х(Ь)) функции г0еа*, имеем

(||д||2)[ < — Ше-°1/г0 ^ (ЦдЦ)[ <—е-^/г0.

Интегрируем последнее неравенство с начальным условием д2|4=0 = д2(х0):

(х(Ь))||<||д(х0)|| + (е-^ — 1) /М. (10)

6

Его правая часть обнуляется в момент

"0 = -а-11п(1 - Г0а||д(х0)||) ,

а решение задачи Коши (6), как уже показано, определено при £ из [0, Т). Оценим снизу Т. Поскольку по построению ||х|| = 1, для приращения переменной х справедлива оценка ||Ах|| < А£. Значит, Т > "0, и решение задачи Коши (6) определено при £ из [0,"0) и принадлежит Б(х0,"0).

Следовательно, величина ||д(х(£))|| определена на [0,"0) и согласно (10) должна либо обратиться в нуль в момент т < "0, либо стремиться к нулю при £ ^ "0. Но и то и другое невозможно, ибо она по построению больше Ь (Ь > 0). (Положительность аргумента под логарифмом гарантируется условием 1.)

Получено противоречие, которое завершает доказательство теоремы. □

Замечание 1. Условия 1 и 2 теоремы 1 точны в том смысле, что при их нарушении можно указать функцию из ЛЛ-класса (О, а), не имеющую корней в О. Действительно, рассмотрим скалярную функцию вида

д(£)= д0 + (е-4 - 1) /(п,а), (11)

где £ из О, д0, г0 > 0. Для нее |<?(£)/д(£)| = а для всех £ из О, т.е. д принадлежит ЛЛ-классу (О, а). Поскольку е-ст4 может принимать все значения из [0,1) и не может быть отрицательной или 0, наличие корня у функции д при каком угодно О влечет условие д(0) - 1/г0/а < 0, эквивалентное Ра < 1. Это означает, что условие 1 теоремы 1 не может быть ослаблено. С другой стороны, корень функции д, расширенной на все Я1 согласно формуле (11), есть "0 = -(а)-11п(1 - Ра), и нарушение условия 2 теоремы 1, такое, что "0 ^ О, означало бы, что в О нет корней.

Замечание 2. Используя технику доказательства теоремы 1, можно получить для функций из С1,1 (О,Ь) (т.е. с матрицей Якоби, обладающей обычной константой Липшица Ь в О) результат, являющийся частью одного из вариантов теоремы Канторовича, относящейся к оценке удаленности решения от начальной точки. Для этого отметим, что из ЬJ(х(£)) < Ь и (8) следует оценка

|р(£ + 8) - р(£)|< Ьр2(£)|8| + 04(8).

Согласно [12, теореме 3.4.1], составляем мажорирующую задачу Коши для нее: г/ = Ь^2, п(0) = г0. Интегрируя, получаем р(£) < г0/(1 - Ь£г0). Усилив (7) подстановкой вместо

г(х(£)) функции -0-, имеем (||д||)4 < Ь£ - 1/г0, что после интегрирования даст

1 - Ь£г0

||д(х(£))|| - ||д(х0)|| < /(Ьт - 1/п)) ат = Ь£2/2 - ¿/^ (12)

0

Следовательно, д(х(£)) обнулится не позднее, чем правая часть (12) станет равной -||д(х0) ||, т.е. не позднее момента = 1 - \/1 - 2г2||д(х0)||/Ьг0. Поэтому удаленность решения от начальной точки не более что совпадает с оценкой замечания 1 к теореме 6 из [8], гл. XVIII, § 1.

Замечание 3. Открытость области задания О в доказательстве теоремы 1 потребовалась лишь для того, чтобы иметь производную 7 и ее полупроизводную во всех точках

шара Б(х0,в0). Вместо открытости было бы достаточно потребовать непосредственно их существования в этом шаре либо их существования в шаре максимального радиуса с центром в х0, который можно поместить в область задания. □

Аналогичный характерному параметру Ра параметр Рк теоремы Канторовича имеет вид Рк = К||3-1 (х0)д(х0) ||, где К из (2). Когда 3 всего лишь Липшицева с константой L, в одном из вариантов теоремы Канторовича этот параметр принимает вид Р^ = г^L|g(xо)|| [11, теорема 11.3]. Оценка удаленности решения от начальной точки и сходимость к нему из этой начальной точки ньютоновских итераций гарантируются теоремой Канторовича при одном и том же условии: Р^ (или Рк) < 1/2, причем это требование не чрезмерно, ибо существуют функции д, сколь угодно мало нарушающие это условие и не имеющие корня.

То, что правая часть в условии Ра < 1 — е может быть близка к 1, не означает, что теорема 1 сильнее теоремы Канторовича, поскольку она применяется к функциям из ЛЛ-класса (Б, а), не совпадающим с С1,1 (Б, V) ни при каких значениях параметров а, L.

Соотношение между теоремой 1 и результатом из теоремы Канторовича, касающимся удаленности решения от начальной точки, хорошо видно в одномерном пространстве.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пример 1, показывающий, что в С1,1 (Б,Ш) теорема 1 не лучше, чем теорема Канторовича.

Помимо параметров Б, L теорема Канторовича использует информацию / (х0) = /0 и 3(х0) = 30. Таким образом, ТК представляет собой суждения о классе функций С1'1(В^, /0,30), одно из которых гласит, что если 1/2 > Р^ = L|/0|/||J—1|2 и Б достаточно велико, то каждая функция / из этого класса имеет корни.

Сравним это с тем, что дает применение теоремы 1 к С1,1 (Б, L, /0, 30) в одномерном пространстве: Б С Я1. Скалярный аргумент будем обозначать через Ь и положим /(0) = д0, /(0) = д0, 01 = С 1'1(В^,д0,д0) (все далее сказанное очевидным образом распространяется и на условия, задаваемые в произвольный момент Ь0).

Относительно 01 ТК утверждает, что если 1/2 > Р^ = L|g0|/gо2 и интервал задания Б достаточно велик, то каждая функция / из 01 имеет корни, среди которых существует единственный корень af с оценкой удаленности от нуля:

а| < Ы1 — ^^2Рь. (13)

Функция

д(Ь) = д0 + д0Ь + sgnд0 (14)

имеет корень ад, на котором реализуется равенство в оценке (13). А так как д из 0ъ то д является максимайзером удаленности корней функций из 01 и утверждение ТК об удаленности корней на множестве 01 точно.

Если Б = Я1, то непосредственно к 01 теорему 1 применить нельзя, ибо тот же мак-симайзер доставляет при некотором Ь нулевое значение производной, т. е. для 01 не существует конечного параметра а. Попробуем ограничить область задания функций из 01 благоприятным для теоремы 1 образом: определим Б как сегмент [—в, в] с в, подлежащий выбору (см. замечание 3 к теореме 1). Очевидно, должно выполняться в < в = |д01/^^, поскольку д из 01 и либо д(в) = 0, либо д(—в) = 0.

Оценим на Б для / из 01 снизу абсолютные величины их производных. Из липшице-вости / следует

/ШУЫ — L|t|.

Поэтому, учитывая d < d, имеем

M = max max |f(i)|-1 < , / г ,. (15)

feGi te[-d,d]uwl - |go|- Ld v 7

С одной стороны, в качестве a(d) можно назначить любое число, не меньшее ML, с другой — правая часть (15) есть max (|g(d)|-1, |g(—d)|-1). Таким образом, наименьшим (т.е. наилучшим для теоремы 1) параметром а является a(d) = L/(|g0| — Ld). Обозначим величину da(d) через y. Тогда

y = Ld ^ 1 + y = |go| = a(d)|g0|. (16)

|д0| - ьа |д01 - ьа ь

Величина " должна быть не менее параметра "0 из теоремы 1, что соответствует неравенству

^ >-1п(1 - ОоМ) ^ е-*« < 1 - а(")|д0/д0|.

а (а)

Это совместно с (16) дает

e-y < i — (1 + y)L|g°l =1 — (y + 1)р, ^ рь < Li+LI, (17)

g0 1 + y

Правая часть (17) является унимодальной функцией с единственным максимумом лежащим в интервале (0.317,0.318). Итак:

1) для всех Pl > ^ ^ 0.317 теорема 1 не гарантирует существования решения у всех функций из Gi ни при каком сужении области задания, а ТК их дает при всех Pl из [0, 0.5];

2) при Pl = ^ теорема 1 дает такую гарантию только в области задания D^ = (—dM, dM),

1 — е"У

где dM = go/(LyM+L) — корень уравнения da(d) = yM, а yM — корень уравнения ^ = —; отметим, что d^ < d;

3) для всех Pl из [0,^) существует семейство областей D, в которых теорема 1 дает гарантии существования решения, причем семейство для меньших Pl целиком содержит семейство для больших Pl, в частности DM. □

Исследуем обратную связь.

Пример 2, показывающий, что в ЛЛ-классе (D,a) теорема Канторовича не лучше, чем теорема 1.

Рассмотрим одномерное пространство: D = R1. Обозначим через G2 подмножество скалярных функций f из ЛЛ-класса (R1,a), выделяемых двумя условиями f (0) = g0 и f(0) = g0 (все далее сказанное очевидным образом распространяется и на условия, задаваемые в произвольный момент t0). Относительно G2 теорема 1 утверждает, что если 1 > Pa = a|g0/g0|, то каждая функция f из G2 имеет корни, среди которых существует единственный корень af с оценкой удаленности от нуля:

, , ln(1 — Pa)

|af | <-----. (18)

а

Функция

g(t) = g0 — (e"CTi — 1) g0/a

имеет корень ад, на котором реализуется равенство в оценке (18). А так как д из 02, то д является максимайзером удаленности корней функций из 02 и утверждение теоремы 1 об удаленности корней на множестве 02 точно.

Непосредственно к 02 ТК применить нельзя, ибо тот же максимайзер доставляет при Ь ^ —то сколь угодно большие значения полупроизводной от д, что соответствует отсутствию константы Липшица. Благоприятным для ТК образом сузим множество 02 до 03 так: 03 := 02 (а) Р| 01^), где L — глобальная константа Липшица, равная наибольшему значению локальных констант Липшица, которые позволено иметь в нуле функциям из 02(а), т.е. L = а^| и Рь = Ра.

Итак, интервал для параметра Ра, на котором теорема 1 гарантирует существование решения для функций из 0з, есть [0,1), что в два раза больше допустимого диапазона для ТК(РСТ = Рь е [0,1/2]). □

2. Метод дифференцирования по итерации

В анализе сходимости одноточечных итеративных методов удобным оказался следующий прием. Соединим отрезком текущую итерацию хк с решением а исходной задачи и параметризуем его:

хк(Ь) = а + ¿Ь, й = хк — а, Ь е [0,1]. (19)

Если уравнение, порождающее следующую итерацию хк+1, имело вид О(х — хк,хк) = 0, то после подстановки в него хк (Ь) на место хк получится семейство уравнений с параметром Ь. Обозначим решение такого уравнения относительно х через х(Ь) и введем у = х(Ь) — а. Поскольку С(0, а) = 0, справедливо у(0) = 0.

Продифференцируем тождество О(у — ¿Ь,хк(Ь)) = 0 по Ь:

с;(у — ¿Ь, хк(Ь))(у — ¿) + С'2(у — ¿Ь, хк(Ш = 0 (20)

(О! — матрица из частных производных по первой группе переменных, О'2 — матрица из частных производных по второй группе переменных).

Если О1(у — ¿Ь,хк(Ь)) не вырождена, (20) можно разрешить относительно у:

у =(1 — (С[(у — Д хк(Ь)))-1С2(у — ¿Ь, хк(Ь)))1 (21)

Отсюда получаем дифференциальное неравенство

||у|| < ||1 — (О[(у — ¿Ь,хк(Ь)))-1С,2(у — ¿Ь,хк(Ь))|||И||. (22)

Если получить оценку

||/ — (О[(у — ¿Ь,хкт-1С'2(у — ¿Ь,хк(Ь))|| < /(ЦуЦЬ), то (22) совместно с очевидным ЦуЦ^ < 11у| и с у(0) = 0 даст систему

||у||£ < /(М,ьШ||, Цу(0)Ц = 0. (23)

Если / непрерывна в некотором открытом множестве М, то [12, теорема 3.4.1] максимальное решение задачи Коши

г = /(гМЛ ||, г(0) = ||у(0>М = 0, (24)

мажорирует любое решение системы (23) на общем интервале существования [0,а].

Согласно построению, ||xfc+1 — a|| = ||y(1)||. Следовательно, нужно получить оценку ||y(1)|| < z(1). Поэтому общий интервал существования должен содержать [0,1], т. е. должно быть обеспечено а > 1. Путь к этому указывает следствие из теоремы Пеано:

Лемма 2. Определим для положительных b прямоугольник Rb = [—b, b] х [0,1]. Пусть существует b такое, что

sup |f (z,t)|< b.

(z,t)eRb

Пусть f непрерывна в Rb. Тогда задача Коши (24) имеет на сегменте [0,1] хотя бы одно решение, мажорируещее любое решение системы (23) на общем интервале существования.

В тех случаях, когда функция G всего лишь липшицева и не дифференцируема, существенное удобство в выкладках предоставляет несколько иной взгляд на понятие раз-

h(t + т) — h(t)

ностного отношения h(T, t) := - функции h(n) скалярного аргумента п из

т

сегмента D. Обычно второй аргумент разностного отношения считается фиксированным, а в оценках, которые предстоит сделать, он будет переменным. В описании такой смысловой нагрузки на параметр целесообразно ввести дополнительное определение.

Определение 4. Разностной производной в точке t заданной на сегменте D С R1 функции h будем называть зависящую от параметра t функцию hV(t, •), заданную в D(t, D) = (D — t) \ {0} согласно формуле

hV(t,e)= h(t + g) — h(t) Vв £ D(t, D). (25)

e

Величину e будем называть отклонением, а операцию нахождения разностной производной — разностным дифференцированием.

Допуская вольность речи, будем опускать второй параметр разностной производной тогда, когда это не исказит смысл формулы.

У разностной производной есть важное достоинство в сравнении с обычной производной — она существует и конечна всегда, когда исходная функция всего лишь определена и принимает конечные значения. Вместе с тем она обладает свойствами, сходными со свойствами обычной производной.

1. (f ± g)V = fV ± gV

2. (Tf )v = Tfv, т — число.

3. Если f дифференцируема в точке t, то

f v(t,e) = f '(t)+ w(e) = f '(t),

где lim£^0 w(e) = 0. Здесь и далее под знаками = и < будут пониматься соответственно равенство и неравенство, приближенные с точностью до величин, стремящихся к 0, когда к 0 стремится отклонение в разностной производной.

Замечание 4. Когда f в системе (23) не зависит от z: f (z, t)||d || = <^(t), справедливо более сильное, чем лемма 2, утверждение. Достаточно измеримости по Лебегу и конечности

t

функции ^ на [0,1] для того, чтобы интеграл I(t) = f <^(т)dT, t £ [0,1], мажорировал [14]

0

все решения систем

||yМV < V(t), ||y(0)|| = 0,

||у||; < Ф), ||у(0)| = 0.

(Интеграл 1(Ь) является решением задачи Коши (24): г(Ь) = 1(Ь) для всех Ь из [0,1]. [15, п. 11.8.2.]). □

Вернемся к свойствам разностной производной.

4. Пусть / и д — матрицы размерности (т х п) и (п х к) соответственно и д имеет конечную локальную константу Липшица в Ь. Тогда

д(Ь + е) = дч(Ь,е)е + д(Ь) = д(Ь). (26)

С другой сторны,

(/д)^(Ь, е) = [/(Ь + е)д(Ь + е) — /(Ь)д(Ь)] /е =

= [(/(Ь + е) — /(Ь))д(Ь + е) + /(Ь)(д(Ь + е) — д(Ь)] /е = /у(Ь)д(Ь + е) + /(Ь)д^(Ь).

Это совместно с (26) дает (/д)у(Ь) = /У(Ь)д(Ь) + /(Ь)ду(Ь).

Заметим, что это свойство имеет место и при липшицевости / вместо д.

5. Пусть / дифференцируема в точке д(Ь) и д имеет конечную локальную константу Липшица в Ь. Тогда

(/(д)Г(Ь, е) = [/(д(Ь + е) — /(д(Ь))] /е = /'(д(Ь))д*(Ь) + о(д(Ь + е) — д(Ь))/е = /'(д(Ь))ду (Ь).

6. Пусть / и д имеют локальные константы Липшица Lf и Lg в точках д(Ь) и Ь соответственно. Тогда ||(/(д))у(Ь)|| < Lf||ду(Ь)|| < LfLg.

Действительно,

||(/(д))Ч(Ь,е)Ц < Lf (||д(Ь + е) — д(Ь)Ц — о(д(Ь + е) — д(Ь))) /е

и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о(д(Ь + е) — д(Ь)) о(д(Ь + е) — д(Ь))п ч{лп п , п

-||д (Щ —► 0 при е —► 0

е ||д(Ь + е) — д(Ь)Ц

7. Пусть функция / имеет производные /'д и /'н, а функции д и к имеют конечные локальные константы Липшица Lg и Lh в точке Ь. Тогда

(/(д, к))ч(Ь) = /д (д(Ь),к(Ь))д*(Ь) + /¡1(д(Ь),к(Ь))к7(Ь).

Это, очевидно, следует из разложения (/(д,к))^(Ь,е) =

= /(д(Ь),к(Ь)), &(д(Ь),к(Щ (^ + е) — ^ е-1 + о(д(Ь + е) — д(Ь), к(Ь + е) — к(Ь))е-1.

8. Пусть функция / имеет конечные локальные константы Липшица по группам аргументов: Lfg и Lfh при их значениях д(Ь), к(Ь), а функции д и к имеют конечные локальные константы Липшица Lg и Lh в точке Ь. Тогда

||(/(д,к)Г(Ь,е)Ц<

< LfgЦ(дУ(Ь,е)Ц + Lfh||кv(t,е)|| + о(Цд(Ь + е) — д(Ь)Ц + ||к(Ь + е) — к(Щ)/е = = Lfg ||(д^(Ь)| + Lfh||кv(t)||= Lfg Lg + LfhLh.

Теорема 3.4.1 из [12] позволяет применить метод дифференцирования по итерации при отсутствии G'2 — производной функции G по второй группе переменных и уйти от вопроса о существовании производной у x(t). Для этого следует произвести разностное дифференцирование по t тождества G(y — dt,xfc(t)) = 0 и начать исследовать вместо (22) приближенное дифференциальное неравенство

||yv|| < ||/ — (Gl(y — dt,xfc(t)))-1G^(y — dt,xfc(t))||||d|| (27)

с использованием вышеприведенных свойств разностной производной.

3. Сходимость

При известной оценке d удаленности решения от начальной точки для метода Ньютона в C1,1 были получены [9] гарантии сходимости при условии P^d < 2/3. Аналогичный результат в ЛЛ-классе интересен появлением трансцендентной константы, причем проверяется, что она точна.

Теорема 2. (Локальная сходимость метода Ньютона). Пусть область D принадлежит B-пространству, пусть функция g принадлежит ЛЛ-классу (D,a) и некоторая оценка d удаленности решения а от начальной точки удовлетворяет следующим условиям:

1) ad = с0 < с, где с есть решение уравнения

C (с) = (ec — 1 — с)/с =1 (28)

(расчеты показывают, что с принадлежит (1.25,1.26));

2) S (x0,pd) С D, где p = 1 + C (ad). Тогда:

а) метод Ньютона, начатый в точке x0, корректно определен и сходится к решению а, все итерации лежат в шаре S(x0,pd);

б) скорость сходимости оценивается неравенством

||xfc+i — а|| < C(a||xfc — а||) ||xfc — а||, причем при s < 1 справедливо C (as) < C(a)s;

в) решение а системы g(x) = 0 единственно в шаре S(x0,pd).

Доказательство. Корректность метода Ньютона на первом шаге (т. е. существование J-1(x0)) следует из того, что функция g принадлежит ЛЛ-классу (D, a), и из того, что x0 из D (условие 2).

Пусть метод Ньютона был корректен и не порождал итераций, удаленных от решения более чем на d, вплоть до k-го шага. Исследуем (k + 1)-й шаг с помощью метода дифференцирования по итерации.

Определим d = ||xk — а||, d = (x& — a)/d. Затем введем параметр t и зададим x^(t) как а + dt (очевидно, xk(d) = xk).

Решение относительно x уравнения

J (xfc(t)) (x — xfc(t)) + g (xfc(t)) = 0 (29)

при t = d есть xk+1, при t = 0 есть а. Дифференцируя разностно (29) по t и заменяя gv на J, с точностью до погрешностей, возникших из-за этой замены и бесконечно малых

относительно размеров окрестности разностного дифференцирования, имеем

(3)7(ж - Хк) + 3- й) +

0.

(Здесь опущены аргумент г у Хк и аргумент Хк (¿) у 3, После преобразования: х 3-13^(хк — х)- Оценивая полупроизводной норму разностной производной, имеем

Х

VI

< ||3 || ^(х) ||хк — х|| < а||хк — х||.

Произведем подстановку х = а + у. Тогда

Ну! < а(г +

у(0) = 0.

(30)

Так как |||у|^| < 11|, согласно теореме 3.4.1 из [12] мажорирующая норму любого решения этой системы задача Коши имеет следующий вид:

г = (г + г)а, г(0) = 0.

Решив ее, придем к оценке

||хк+1 — а|| =

< г(й)

- аг- 1

а

— ай — 1 ай

= ||хк — а||С (ай). (31)

Нетрудно проверить, что функция С монотонно возрастает. А по условию 1 и индуктивному предположению выполняется ай < ай = с0 < с, С (с) = 1. В совокупности с монотонностью функции С это дает

С (ай) < С (ай) = С (со) < С (с) = 1,

с учетом (31) обеспечивающее выполнение неравенства ||хк+1 — а|| < ||хк — а|| и по индукции — справедливость (31) для всех к. Так как а находится не далее й от х0, а итерации х1,х2,... находятся не далее от а, чем С(ай)||б?||, то все итерации лежат в шаре

Б^х0,й + йС(ай)^. Поэтому можно применить оценку (31) к раз: ||хк—а|| < Ск(с0)||х0—а||, что означает сходимость итеративного процесса. При наличии сходимости п. б есть оценка (31).

Единственность решения системы $(х) = 0 в шаре Б(х0следует из того, что при наличии еще одного решения а' уже сходящаяся к а ньютоновская итеративная последовательность должна также сходиться и к а', что возможно только при а' = а.

Если й < 1, то из разложения С в ряд следует С(ай) < С(а)й. Поэтому, если верны неравенства ||хк — а||С(а) < 1 и ||хк — а|| < 1, то справедлива следующая оценка скорости сходимости:

||хк+1 — а|| < С(а)||хк — а|

□

Теорема 3. Условия 1, 2 теоремы 2 являются также и необходимыми в том смысле, что при их нарушении можно найти функцию и начальную точку, для которых метод Ньютона не сходится, а для начальных точек, обеспечивающих сходимость, оценка скорости сходимости точна.

Доказательством этой теоремы является следующий

2

Пример 3. Рассмотрим скалярную функцию д(Ь) = с (-е-^ + 1) sgnЬ, где с > 0, Ь £ Б С Я1. Для нее [д(Ь)/д(Ь)1 = а для всех Ь. Следовательно, д принадлежит ЛЛ-классу (Б, а).

Вычислим удаленность приближения Т(Ь) после итерации по методу Ньютона, начатого из произвольного момента Ь, от начала координат — решения уравнения (1):

Т(Ь) = Ь - д() = Ь + е 1а - 1 = Ь +1 - — = -С(Ьа)Ь. (32)

^ ' д(Ь) ае-ит а а У ' к !

Это означает точность оценки п. б) теоремы 2 (независимо от того, сходится метод Ньютона или нет). Поэтому в силу монотонного возрастания функции С и того, что С(с) = 1, удаленность первой итерации от решения уравнения (1) строго уменьшается при а|Ьо| <с, строго увеличивается при а|Ь01 > с и неизменно при равенстве. Используя рекурсию, приходим к выводу, что в первом случае метод Ньютона будет сходиться, во втором — расходиться к бесконечности, в третьем — иметь неустойчивый цикл. Другими словами, условие 1 теоремы 2 не чрезмерно, и ее оценка скорости сходимости для этого примера точна.

Выясним ситуацию с условием 2 теоремы 2. Вычтем Ь из начального и конечного звеньев (32):

T(t) — t = —t (l + C(ta)^j

„= —dp . t=d

Таким образом, расстояние между начальным приближением и первой итерацией может оказаться равным dp, и для принадлежности первой итерации области задания D необходимость условия 2 очевидна. □ Простым следствием теорем 1 и 2 является

Теорема 4. Пусть U,W — H-пространства, D С U, g : D ^ W, g принадлежит ЛЛ-классу (D,a) и выполнены также условия:

,- 2c _

1) Pa = r0a\jg2(x0) < i + где c — корень уравнения (28);

2) S(xo,pdo) С D, где p = 1 + C(ado), do = —— P^ .

a

Тогда:

а) существует решение а системы g(x) = 0, единственное в шаре S(x0,d0);

б) метод Ньютона, начатый в точке x0, корректно определен и сходится к конечному решению а;

в) скорость сходимост,и оценивается неравенством

\\xk+i — а|| < C (a\\xk — а||) ||xfc — а||.

Доказательство. Поскольку 2c < 1 + 2c, выполняется условие 1 теоремы 1. Условие 2 доказываемой теоремы сильнее условия 2 теоремы 1. Применение последней показывает, что d0 есть оценка удаленности решения а от точки x0.

Из условия 1 теоремы 4 и определения функции C следует, что

2c 1 -

1 — Pa > 1--= = -= = e-c.

1 + 2c 1 + 2c

Потенцируя это соотношение и используя определение d0, получаем

c> — 1^1 — Pa) = ad0.

Таким образом, выполнено условие 1 теоремы 2 при й = Очевидно, что условие 2 теоремы 2 содержится в условии 2 теоремы 4 при й = . Применение теоремы 2 завершает доказательство теоремы 4. □

В теореме 1, гарантирующей существование решения, условие на характерный пара-

/2с \

метр (Ро < 1) слабее условия на него I Ро < -- « 0.71 I в теореме 4, гарантирующей

у 1 + 2с }

сходимость метода Ньютона. Возможно, это является не атрибутом ЛЛ-класса, а следствием упрощенного подхода к доказательству теоремы 41. Тем не менее для некоторых функций, принимаемых за элементы ЛЛ-класса, она гарантирует сходимость метода Ньютона, в то время как зачисление этих функций в С1,1 дает параметр Р^, больший 1/2, и теорема Канторовича не гарантирует сходимости метода Ньютона.

Примером такой функции может служить рассмотренная в примере 2

о(г) = 1*0 — (е-"' — 1)£о/а, г > 0

УК) \ + ог, г< 0'

Для нее Ро = Р^ = Рк = а*0/<70. При любом соотношении величин д0 > 0, д0 < 0, обеспе-п /1 2с \

чивающих Ро £ I —, -- I, теорема 4 гарантирует сходимость ньютоновского процесса,

V 2 1 | 2с )

теорема Канторовича — нет.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Обратную ситуацию: гарантии от ТК сходимости метода Ньютона для функции, принимаемой за элемент из С1,1, и неприменимость к ней как к элементу ЛЛ-класса теоремы 4, можно наблюдать в примере 1 для функции (14). Там Р^ = Рдо/д0, и при удовлетворяющем теореме Канторовича Р^ € [—1 + ^2, 1/2] будет, какую бы область П не взять, Ро- > 1: не выполнено условие теоремы 4. Выбрать соответствующие параметры д0, д0 не составляет труда.

Список литературы

[1] КАНТОРОВИЧ Л. В. Функциональный анализ и прикладная математика // Успехи мат. наук. 1948. № 3, вып. 6. С. 89-185.

[2] Канторович Л. В. О методе Ньютона // Тр. Мат. ин-та им. В.А. Стеклова. 1949. № 28. С. 104-144.

[3] Мысовских И.П. К вопросу о сходимости метода Ньютона // Там же. С. 145-147.

[4] Канторович Л. В. Принцип мажорант и метод Ньютона // Докл. АН СССР. 1951. Т. 76, № 1. С. 17-20.

[5] Канторович Л. В. Некоторые дальнейшие применения метода мажорант // Докл. АН СССР. 1951. Т. 80, № 6. С. 849-852.

хЕсли этим же способом получить оценки для С1'1, т. е. использовать теорему Мысовских [9] с оценкой удаленности из ТК, то получим

< 3 - 1—^ > 9 - * < 9

что несколько сильнее условия из ТК: Р^ < 1/2.

[6] Клнторович Л. В. Приближенное решение функциональных уравнений // Успехи мат. наук. 1956. № 11, вып. 6. С. 99-116.

[7] Клнторович Л. В. Некоторые дальнейшие применения метода Ньютона // Вест. ЛГУ. Сер. Математика, механика и астрономия. 1957. Вып. 2. С. 68-103.

[8] Клнторович Л. В., Акилов Г. П. Функциональный анализ. М., 1977. 744 с.

[9] Мысовских И.П. О сходимости метода Л.В. Канторовича решения функциональных уравнений и его применениях // Докл. АН СССР. 1950. Т. 70, № 4. С. 565-568.

[10] Ортегл Дж., РЕЙнволдт В. Итерационные методы решения нелинейных систем уравнений со многими неизвестными. М., 1975. 558 с. (J. Ortega and W. Rheinboldt. Iterative Solution of Nonlinear Equations in Several Variables).

[11] Красносельский М.А. и др. Приближенное решение операторных уравнений. М., 1969. 455 с.

[12] Хартман Ф. Обыкновенные дифференциальные уравнения. М., 1970. 720 с.

[13] Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. М., 1972. 496 с.

[14] Михеев С. Е. Нелинейные методы в оптимизации. СПб., 2001. 276 с.

[15] Титчмарш Е. Теория функций. М., 1982. 463 с.

Поступила в редакцию 31 августа 2004 г., в переработанном виде — 30 декабря 2004 г.

Сходимость метода Ньютона на различных классах функций Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Михеев С. Е.

Похожие темы научных работ по математике , автор научной работы — Михеев С. Е.

Convergence of Newton's method in different classes of functions

Текст научной работы на тему «Сходимость метода Ньютона на различных классах функций»