ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
Сер. 10. 2013. Вып. 1
УДК 519.853 C. Е. Михеев
ОБ ОДНОМ ПАРАДОКСЕ В ТЕОРЕМАХ О МЕТОДЕ НЬЮТОНА
1. Введение. Среди теорем Мысовских есть две [1, теоремы 3 и 4] о сходимости метода Ньютона (МН) и упрощенного метода Ньютона (УМН) соответственно, формулировки которых образуют парадокс: условия теоремы о МН сильнее условий теоремы об УМН, хотя МН использует на каждом шаге больше информации, чем УМН. В обеих теоремах используется оценка удаленности решения от начального приближения, в отличие от более известных теорем Мысовских и Канторовича о МН-УМН, опирающихся лишь на невязку начального приближения. Последние всегда представлялись более удобными для практического применения. Однако и первые имеют нишу успешного приложения, например метод точной релаксации [2], использующий непосредственно в пошаговых вычислениях оценку текущей погрешности.
Опишем вначале объекты, о которых идет речь в этих теоремах. Пусть есть отображение g : M —> V, где M С U, а U, V - банаховы пространства (В-пространства по терминологии Канторовича). Выбирается из каких-то дополнительных соображений начальное приближение xo € M, из которого начинаются итеративные процессы МН и УМН, задаваемые соответственно следующими формулами:
x* := x - (g'(x))-1 g(x), (1)
x* := x - (g'(xo))-1g(x), (2)
где x - текущая итерация; x* - последующая итерация; x, x* € M; на первом шаге
x := xo.
Назначение обоих методов - поиск приближения к корню а уравнения
g(x) = 0. (3)
Приведем формулировки теорем 3 и 4 из [1]. (Обозначения другие, в частности Sd := {y\\\y - x|| < d}.)
Теорема 1 (Мысовских-3). Пусть функция g и начальная точка x0 удовлетворяют условиям:
0) (За) g(a) = 0;
1) \\а - xo\\ < do;
2) существует непрерывный линейный оператор Г := (g'(x0))-1 и \\Г\\ ^ r0;
3) \\g''(x)\\ < L Vx € Sdx00+PMd0/2;
4) PM := roLdo < 2/3 =: QN.
Михеев Сергей Евгеньевич — профессор кафедры информационных систем факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Научные направления: нелинейное программирование, макроэкономика. E-mail: [email protected].
© C. Е. Михеев, 2013
Тогда решение а уравнения (3) единственно в шаре и к нему сходятся ите-
рации {хипорождаемые (1) : к —> то хи —> а; при этом быстрота
сходимости дается неравенствами \\х\ — а У ^ ||хо — а\\Рм/2 и
\\xk - «у < qt-1-1\\xi — «у, k = 2, 3,.... (4)
р2 4)
3'еСЪ 9w := 4-4PMM-2P¿ < L
Доказательство этой теоремы в [1] отсутствует, не удалось его найти и в других публикациях И. П. Мысовских. Впрочем, его несложно получить, если следовать идеям теоремы 4 об УМН из [1].
Теорема 2 (Мысовских-4). Если в теореме 3 заменить условие 4) на условие 4') Рм := r0Ld0 < 2л/2 - 2 =: Qu, то решение а уравнения (3) единственно в шаре S^ и к нему сходятся итерации (2), при этом быстрота сходимости дается неравенствами \\x1 — а\\ ^ \\xo — a\\PM/2 и
\\xk — «\\ < qU-1 \\xi — «\\, k = 2, 3,..., (5)
4')
где qu := Рм + P^/4 < 1. я
Нетрудно проверить (yPM)qN < qu. Но и без этого неравенства видно, что порядок сходимости согласно (4) выше, чем дает (5). Это, собственно, и подсказывала интуиция, основываясь на том, что МН использует больше информации, чем УМН. Однако, непосредственно вычисляя, находим, что QU > 0.82 > 2/3 = QN, т. е. возможна ситуация QN < PM < QU. Тогда УМН гарантированно сходится, а МН, на каждый шаг которого требуется больше дополнительной информации, вроде бы может и не сходится!? Возникает естественная гипотеза: парадокс объясняется несовершенством техники доказательства теоремы Мысовских-3.
В п. 3 будет показано, что по крайней мере в скалярном случае гарантировать сходимость можно при существенном ослаблении условия 3). Но перед тем как приступить к непростым выкладкам, в п. 2 прикинем, каков предел наших мечтаний относительно Q.
2. Необходимое ограничение характерного параметра. Стесним себя требованием уменьшения погрешности на каждом шаге. На первом имеем
x* — а = xo — а — (g' (xo))-1g(xo) =
= xo — а — (g'(xo))-1[g(a) + g'(xo)(xo — «)+ o(xo — a, xo)] = (g'(xo))-1 o(xo — а,xo). (6)
Здесь o - вектор-функция, удовлетворяющая оценке \\o(xo — «,xo)\\ ^ L\\xo — а\\2/2, если g' липшицева с константой L на всех открытых множествах, содержащем внутренность отрезка xo«, и g непрерывна в точках xo,«. В частности, последняя оценка верна, когда а G S^ С sdo0+PMdo/2. Из (6) получаем оценку погрешности
\\х* - «|| < г0\\о(х0 - а,х0)\\ < "у-|1жо - «||2 < ~ а\\. (7)
То есть, с одной стороны, для того чтобы первое приближение имело погрешность, меньшую, чем начальное, достаточно, чтобы PM < 2. С другой стороны, уже при
Рм = 2 существуют скалярная д и начальное приближение хо, для которых МН дает цикл.
Как Мысовских, так и Канторович в условиях своей серии теорем о методе Ньютона использовали норму второй производной. Практически сразу после их опубликования они были обобщены на отображения, имеющие всего лишь липшицевость первой производной. Эти несложные обобщения производились другими авторами, но имена первооткрывателей за теоремами были сохранены. В дальнейших построениях будет удобно применить сплайны степени 2 дефекта 1, что соответствует таким обобщениям рассматриваемых теорем. Чтобы иметь соответствие оригинальным формулировкам (теоремам 1 и 2), потребуется следующий результат.
Лемма. Любой сплайн в„д степени п дефекта 1 с ограниченной между узлами стыковки производной: !в""!(х)! < Ъ для всякого £ > 0 может быть сглажен в узле стыковки X - точке разрыва п-й производной - с помощью сложения со сплайном в степени п +1 дефекта 1, отличным от нуля только в сколь угодно малой лево- или правосторонней окрестности Д, не содержащей иных точек разрыва, кроме точки X, и таким, что суммарный сплайн Б = в + в„д имеет ограниченную производную
!^(")(х)! < Ъ + £ Ух е Д.
В частном случае, когда !в""! (X — 0)! < Ъ, в левосторонней окрестности можно сгладить так, что !Б(п)(х)! < Ъ Ух е Д. Также можно сгладить и в правосторонней окрестности, если ^""(х + О) < Ъ.
Доказательство. Очевидно, достаточно будет исследовать всего лишь случай х = 0 и провести построение в левосторонней окрестности.
Положим, не умаляя общности,
в"")(+0) — в"")( — 0)=: В> 0.
Построим семейство звеньев во,..., в", являющихся функциями, тождественно равными нулю вне интервалов, соответственно До, Дь ..., Ап, таких, что при г = 1 ,п левая граница Д г-1 есть правая граница Дг и Дг = Д- и Д + , Д- П Д + = 0 и длины Д-, Д + равны друг другу и равны Дг. Положим Д0 = (—5, 0], следовательно, длина До равна 5. По построению длины прочих интервалов будут соответственно 2Д1, ..., 2Д". С выбором этих длин определимся позднее. Первоначально положим в1 = ... = в" = 0 и на малом сегменте [—5,0] зададим во как решение задачи Коши
4"+1)(х)=А0, = *«(-£), г = (8)
Параметр А0 выберем так, чтобы в0"!(0) = В, т.е. положим А0 = В/5. Вне (—5,0] положим во(х) = 0. Ясно, что во + в"Д имеет в окрестности нуля непрерывную производную порядка п, но у производных низшего порядка в нуле будут разрывы. Пусть
В1 := во"-1)(—0) — во"-1)(+0) = Ао52/2 = В5/2 = 0, := во"-г)(+0) — во"-г)(—0) = Ао5г+1/(г + 1)! = Б5г/(г + 1)!, г = 2, ...,п.
тт ("-1)
Для ликвидации разрыва во в нуле переопределим звено в1 на интервале (—До — 2Д1, — До] =: Д1, как решение задачи Коши
в!"+1,<х>=А::х е Д + о
в
(0(-До-2Д1) = 40(-До-2Д1), г = 0, п. (10)
Параметры в этой задаче стеснены условием \Л1 |Дх ^ е, не затрудняющим выбор значений параметров, обеспечивающих —Б1 = 1)( —До) = —Л1Д2. В частности,
Л Б1 Бд . е2 2е2 (п-1Ь д N . (п-1)/пч п
Согласно (9), функция в^+^х) является нечетной относительно середины интервала Д1. Поэтому интеграл от нее по Д1 равен нулю. Следовательно, звено в1 передает без изменения значение, получаемое производной в1п) на левом конце интервала Д1, на его правый конец. В частности, если в1п)( —До — Д1) = 0, то независимо от параметров Д1, Л1, До выполняется в1п)( —До) = 0. Поэтому сплайн в = в1 У во на данном этапе построения имеет свойства
(Уж € (—то, 0)) В>в(п)(х) > —е, в(п)(0) = Б, в(п-1)(0)=0.
Соглашение. Здесь под суммой звеньев вп У ...Щво будем понимать сплайн, определяемый на каждом Дг, г = 0,...,п, как решение некоторой задачи Коши с заданием
(п+1) Т Т
производной вг на Дг и начальных условий на левом конце интервала Дг, которые суть значения в(+)1, р = 0,.., п, на правом конце интервала Дг+1. (См. (8) и (10).)
Однако, если Б := в(п-2)(0) = 0, то (п — 2)-я производная сплайна в + впд в нуле разрывна (здесь обычное сложение функций).
Выберем число Д2 и переопределим звено в2 через его (п + 1)-ную производную на промежутке (—До — 2Д1 — 2Д2, —До — 2Д1] =: Д2 так, что для у = —До — 2Д1, т. е. для у = дД1 р| дД2, будет верно
в2п)(у) = в2п-1)(у) = 0, (11)
в2п-2)(у) = —В2, (12)
и, кроме того, (Ух € Д2) е > в2п)(ж) > —е.
Для этого зададим (п + 1)-ную производную звена в2 через (п + 1)-ную производную звена в1 так, чтобы вп-1 стала нечетной функцией относительно середины Д2 при нулевых начальных условиях:
Здесь
в(п+1)(х) := /— Мгв((-+1)(«- х + вi), х € Д- , (13)
* (х):1 ^(а+х + в+), х € Д+. (13)
а+ = 2Дг-1/Дг, (3+ = —д — а+у = —д + 2(д + 2Д- )Д- /Дг,
а- = —2Дг-1/Дг, (3- = у — а-у — 2Д- = — д — 2(д + 2Д-1)Д-1/Дг — 4Д-1,
и на этом этапе построения г = 2; варьируемые параметры и Д2 связаны условием А1Д2/2 ^ е. Независимо от их значений звено в2 на данном этапе построения удовлетворяет (11).
Покажем, что параметров звена в2, т.е. Д2, Ц2, достаточно для удовлетворения (12) и при этом Д2 пропорционально д. Введем обозначение Л — 2 = Ц1Л1.
Действительно. Если производная в1п 2)(—д) имела вид Л1Д1К1 (несложные выкладки показывают, что «1 = —1), то в1п 2)(у) как второй интеграл от нечетной относительно у — Д2 функции в2п) будет иметь вид —2Л2(Д2/2)3«1 =: в2 2)(у).
Определение Д2 происходит из уравнения
0 = 4"~2)М + «'Г^'Ы) + «о""2)(0) = -2Л2(Д2/2)3«.1 - А1Д3 - А1Д;3 + Ао33/6 = = -2£,Д - <д? - + = _ ^ _ ^ +
Отсюда видно, что Д2 пропорционально 3.
Таким же путем, увеличивая последовательно на 1 значение индекса в (13), можно добиться нуля в нуле для всех производных низших порядков суммы звеньев, а также эквивалентности величин г = 1 ,п, длине 3 начального интервала. Следовательно, звенья во,..., в" можно выбрать такими, что сумма S = в" + ... + во + в"Д будет удовлетворять основной части формулировки леммы.
В случае Ь — «""' (—0)| =: I > 0 получаем дополнительное утверждение. В силу непрерывности в""', в некоторой малой левой окрестности Д нуля будет
«""'(—0) < 0 (Ух € Д) в""'(х) > —Ь + г/2.
Полагая е = 1/4, как и в общем случае, можно сгладить в"Д до Б так, что станет Б(п\х) ^ — Ь + е > —Ь. Что и завершает доказательство. ■
Практически лемма позволяет доказанное для функций, имеющих липшицевость с константой Ь первых производных, распространить на функции с ограниченной константой Ь по модулю вторых производных, заменив лишь в некоторых местах утверждений нестрогие неравенства на строгие.
Далее без дополнительных оговорок будем, согласно лемме, применять сплайны типа «2д в качестве функций, имеющих ограниченную вторую производную. Контрпример зацикливания. Пусть а,Ь > 0, х0 := Ь/3 и
{а(Ь + х)х, х < 0, а(Ь — х)х, х ^ 0.
Производная функции д липшицева с константой 2а. Для любого е > 0, согласно лемме, функции д можно поставить в соответствие функцию д с непрерывной второй производной, ограниченной по модулю величиной 2а + е и отличной от д только в сколь угодно малой окрестности нуля. Согласно итерациям (1), как для д, так и для д образуется цикл на двух точках: хк = ( — 1)кхо.
В «продвинутой» теореме Мысовских для д фигурирует коллективный параметр
_ Ь<1 _ 2аЪ/3 _ \\д'(х0)\\ ~ ~аЬ/з ~ '
В оригинальном варианте (теорема 1) для дд коллективный параметр таков:
_ 8ир||д'(х)|И_ (2а6 + £)/3 _о , , 1№о)|| - аЪ/3 +
где 3 может быть сделана сколь угодно малой.
Хотя при Рм < 2 ни для д, ни для д точка хо уже не может быть точкой цикла*', покажем, что в ходе МН параметр Рм может неограниченно возрастать, если он изначально был больше 1, и, таким образом, «предел мечтаний» оказывается значительно скромнее двух.
*) Несложное доказательство этого опустим.
Теорема 3. Для любых Q', > 1 существуют скалярная функция д, начальная точка хо и целое к ^ 0 такие, что Рм(д,хо) € (1^') и Рм(д,хи) = Q", где хи - к-е приближение по МН, начатого из хо. Кроме того, выбором д, хо при ^ 2 можно получить зацикливание МН, начиная с х1, а при ^ ^ 2 - уже с хо.
Доказательство. Рассмотрим семейство скалярных функций с параметром
д^{х) = ¡л +д'^х-^х2 ъщпх, (14)
где Ь, ¡> 0, < 0.
Обозначим положительный корень функции дм через д. Очевидно, что д - непрерывная функция от ц и д \ 0 при ¡л \ 0. Следовательно, по данному д > 0 однозначно определяется ¡. По данному ^' из уравнения
Ьд
Рм,оЫ = щ = Я" > 1 (15)
найдем д, а по нему ц такое, что дм(д) = 0. Это построение обеспечит Рм,о(дм) = Q'' (т. е. д = Q''\g'^f\/Ь и ¡л = Ьд2 — д, но эти формулы не потребуются). В некоторой точке х < 0 имеем
45-х) =1 | Ь6-\дЦ \д'* + Ьх I Ы + Ьх\'
- ^ ии -
Рм,х(9ц) = , г„.1 = 1 + 1_/ , г „.г (16)
В силу неравенства, извлекаемого из (15), числитель последней дроби в (16) положителен, поэтому
х \ —то Рм,х(дм) \ 1. (17)
Выясним, из каких точек по МН можно попасть в нуль. Построим из х = 0 =: у о по алгоритму, обратному к ньютоновской итерации, последовательность у1,у2,..., т. е.
у-1 = уг — д^Ы)/д'^ (Уi), г = 1,2,.... (18)
Аналитически уравнения (18) легко разрешимы относительно уг для всех г = 1, 2,... . Действительно, так как отклонение функции по ординате от ее аппроксимации посредством касательной равно интегралу от второй производной, а значение в у-1 ординаты касательной к функции д в уг есть 0, имеем д(уг-1) = Ь(уг — уг-1)2/2. Отсюда
Уг - Уг-1 = -у/2д(уг-1)/Ь. (19)
Из (14) и (19) очевидно, что уг —> —то при г —> то. Отсюда и из (17) вытекает
> 1)(Зк)(Уг > к)Рм,уг € (1, Q'). (20)
Положим х^ := Ук-о-, Э = 0, к. Ясно, что - последовательность приближений
из МН, причем хи =0 и
(2о) (15)
Рм,х (дм) € (1,Q') Л Рм,хк(д^)= Рм,о(дм) = ,
что и влечет истинность первого предложения формулировки теоремы. Истинность второго следует из первого и рассмотренного ранее контрпримера.
3. Исследование скалярного случая.
Теорема 4. Пусть д - скалярная функция, ее производная липшицева с константой L, а - ближайший к точке x0 корень g и PM := L\x0 — а\/\g'(x0)\ ^ Q ^ 1. Тогда, если x* определена по МН (1) из x := x0, то P* := L\x* — a\/\g'(x*)\ ^ 1, когда Q = 1, а когда Q< 1, то P* < Q2/(2 — 2Q + Q2) < Q2.
Доказательство. План: будем подыскивать наихудшие, т. е. максимизирующие параметр P*, функции д, для различных вариантов расположения а, x, x*.
Вначале положим x = 0, а > 0, до := д(0) > 0, д0 := д'(0) < 0. Возможность, не умаляя общности, сделать первые три допущения очевидна. Выясним, что будет, когда д0 > 0. Если д0 > 0, то ближайший к нулю вариант расположения а будет при g''(x) = —L У x ^ 0, т. е. g(x) является полиномом д0 + д0x — Lx2/2 с корнями а± = g'0 ± \J(д'0)2 + 2доЬ^ (—L)-1. Нас интересует положительный корень =
(д'о + V(9o)2 +29oL) /ь. Для него будет
Рм = = 1 + ,Jl + 2g0L(gi0)-i > 2.
Это противоречит условию теоремы. Таким образом, все четыре допущения не уменьшают общности.
Случай x* > а. Фиксируем а, x*. Тогда P* будет зависеть только от \g'(x*)\, и нехитрые соображения показывают, что максимизирующая параметр P * функция д, каково бы не было ее задание на (0,а), должна удовлетворять условию g''(t) = L У t € (а, x*) при соблюдении отрицательности производной (об этом ниже), а задание на (0,а) должно минимизировать \д'(а)\. Все это обеспечивается трехзвенным сплайном, определяемым через производные в (21) + (22) + (23):
g''(t):= Lsign(t — 0), Уt € (0,x*), д(0) = д0, д'(0) = д0, 0 € [0,а], (21)
где 0 - параметр, подлежащий определению. Между прочими параметрами сплайна есть связи:
д(а) = 0, x* = —д0/д0, Lа/\g'о\ < Q, 0 < а < x*. (22)
Максимизирующие свойства сплайна (21) + (22), когда (yt € (0,x*)) g'(t) < 0, интуитивно очевидны и легко проверяются игольчатыми вариациями. Исследуем знак производной. По построению д'(20) = д'0. Поэтому
g'(ti)=0 ^ g0 + L(ti — 20) = 0 ^ ti = 20 — д0/L.
Ситуация ti € (0, а) возникнуть не может, ибо это означало бы, что а не ближайший к x0 корень сплайна д. Действительно, так как сплайн по построению только убывает до момента ti и возрастает после момента ti, при g(ti) > 0 корня нет вообще, а при g(ti) < 0 он лежит в (0,ti). Если же ti € [а,x*], то, переназначая
g'(t) := д'(20 — L/g0) У t € (20 — g0/L, x*], (23)
получим g'(x*) = 0, т.е. МН для сплайна (21) + (22) + (23) некорректен и P* = Таким образом, этот сплайн есть максимайзер для P* в случае x* > а.
Найдем 0 из условия g(a) = 0:
'g(t) := g(0) + g'(0)(t - 0) + L(t - 0)2/2, t e (0, x*),
g(0) := go + g'00 - L02/2,
g'(0) := g'0 - L0,
0 = g(a) = go + g'00 - L02/2 + (g0 - L0)(a - 0) + L(a - 0)2/2 = = g0 + g'0a + La2/2 - 2La0 + L02,
2 go+g'0a + La2/2____L _ ¡a2 g0 + g'0a
0± =a± \ a2 - ' au ' ' =a±
Ь V 2 Ь
Отметим, что по условиям теоремы 4 подкоренное выражение V всегда неотрицательно, ибо на отрезке [0,а] полином в(Ь) := до + д0Ъ — Ьt2/2 является минорантой всех д с константой Ь для производной и «начальными условиями» д(0) = до, д'(0) = д0. И, таким образом, в (а) ^ д(а) = 0, что влечет V = —з(а)/Ь ^ 0.
Согласно построению, 0 ^ а, поэтому следует выбрать знак «—»:
а2 до + д'оа /ол,
УТ--ь—' ^ ^
Для такого 0 выясним, не будет ли ¿1 > х*, т.е. не пусто ли множество (20 — д'0/Ь,х*] (оно в (23)):
*1>х* ^ (25)
Поделим последнее неравенство на а и введем для краткости обозначения д := Р—1, р := —до/д'оа = х*/а. Тогда (25) принимает вид
П>х* ^ 2 + д- р>2^ + д- = ^2 + 4д- 4 др. Выясним, когда 2 + д — р > 0. Используя (7), имеем
х* а х* а 1
2 + д-р = 2 + д--= 1 + д--> 1 + Рм1 - Рм/2,
аа
отсюда
2 + д — р> 0 2РМ + 2 — Р2 < 0.
Корни последнего полинома относительно РМ таковы: Р± = 1±лД Следовательно, для всех Р € [0, 1 + а/3) верно 2 + д — р > 0. Поэтому
¿1 > х* ^ (2 + д — р)2 > 2 + 4д — 4др ^ 2 + д2 + р2 + 2др — 4р > 0.
Дискриминант последнего полинома от р равен (д — 2)2 — 2 — д2 =2 — 4д, что положительно только при д < 1/2. То есть Рм < 2 ^ ¿1 > х*. Таким образом, после определения 0 согласно (24), наш максимайзер, в силу условия теоремы, оказывается всего лишь двузвенным: (21) + (22) + (24).
Исследуем характерный параметр в точке х*:
р* _ Цх* - а) _ Ь(х* - а) _ _Цх* - а)_
\д'{х*)| ~ |д'0 + Цх* - 21?)| ~ \д'0 + Цх* -2а + 2у/а>/2 + д'0(х* - а)/Ь)\
Поскольку выражения под модулем знаменателя должны быть отрицательны (только что доказано х* < ¿1 = 2— д'0/Ь), максимум по д'0 последней дроби, очевидно, достигается при максимально возможном д'0. Из (22) получаем оценку \до \ ^ Ьа/Q. Подставим —Ьа/Q вместо д'0 в (26):
P * <
J Л/Г
-a/Q + х* - 2а + 2л/а2/2 - а(х* - a)/Q
(27)
Поделим числитель и знаменатель дроби в (27) на а:
Р* ^ -^--> тах . (28)
-1/Q + Р-2 + 2у/1/2 — (р — l)/Q
р>1
В рассматриваемом случае р > 1 и, помимо этого, из (7) и того, что Рм ^ Q, получаем р — 1 ^ Q/2, т. е. р € (1,1 + Q/2]. Положим г := р — 1. Делим числитель и знаменатель в (28) на р — 1 и приходим к эквивалентной задаче
1/Q+1 л 2 П 7 .
--1--\---—> mm . (29)
z z\ 2 Q ze(0,Q/2]
Еще одна замена: w := 1/z. Она превращает (29) в
/ 1 \ w2 w := ( — + 1)«; — 1— 24/ —--— —» min . (30)
\Q J V 2 Q we[2/Q,+TO)
Так как h(+ro) = и h(2/Q) = 2/Q2 + 2/Q — 1, минимум существует и дости-
гается либо в 2/Q, либо в одном из больших, чем 2/Q, нечетных вещественных корней производной h' при нумерации их справа налево и при условии, что они все простые. Пусть w > 2/Q, тогда
,/, ч 1 w — 1/Q (w2 w \f 1 \2 ( 1 4 2 h'(w) = — +1----' - = 0 ---— + 1 = w--
V ' Q \Jw2/2 — w/Q V 2 QJ \Q ) V Q,
^ (Q-2 + 2Q-1 — 1)w2/2 — (Q-2 +2Q-1 — 1)w/Q — Q-2 =0 4 ^ (Q + 2Q2 — Q3)w2 — 2(1+ 2Q — Q2)w — 2Q = 0. Корни последнего полинома таковы:
-1+ / 1 . 2 - 1 | 1 + 9 гчп
- д ± Vд2 + 1 + 2д-д2 ~ д ± д^ + гд-д2' 1 ;
Так как полином И := 1 + 2д — д2 имеет корни = 1 ± л/2, то И > 0 и и)± -
вещественны, когда д € (1 — л/2, 1 + л/2), а следовательно, и когда € [0, 2].
x* — а
Как явствует из средней части цепи равенств (31), верно и>+ > 2/Q > . Так как и>+ единственный и некратный корень функции к' на (2/Q, и к(+ж) =+ж,
он и является единственным минимайзером функции к на [2^, («[» - в силу
непрерывности функции к в 2/0).
Теперь можно выяснить, когда к(л+(^)) > 1/Q, т. е. для каких Q будет Р* < Q.
Вычислить к(и+^)) можно и без подстановки выражения с радикалом в выражение под радикалом. Для этого используем связь
к'(ъи+) = 0 ^ = (32)
1 у 2 д 1/д + 1 1 ;
Используя (32) в определении (30), имеем
^»С'+Л^- = ад и_1+. 2 -
Q У + 1/Q + 1 Q + 1/ + я + 1
= д + 1 + (д + 1)д-2д2 1 - д = 1 + 2д - д2 1-д
д(д + 1) д +д(д + 1) ",+ + д + г
Итак, для каких Q верно неравенство
I < Ыи} \= 1 + - д2 (}_+ 1 + 9 ^ + =
Я Я{Я + ±) \Я + 2д - д2) д + 1
(33)
Оно эквивалентно неравенству д2 — 1 < у/1 + 2д — д2, которое верно для всех € [0,1]. Если же Q > 1, то возведем его в квадрат:
Q4 — 2Q2 + 1 < 1 + 2Q — Q2 Q3 — Q — 2 < 0.
Последний полином имеет единственный вещественный корень Qо € (1.5,1.6). Для каждой последующей итерации по МН, если реализуется рассматриваемый случай, справедлива оценка характерного параметра
Р* < «д, к := -^ / =. (34)
1 + д-д2 + у/1 + 2д-д2
Исследуем поведение этой оценки при малых Q. Оказывается, знаменатель Zl(Q) дроби в определении величины к не меньше 2, если Q ^ 1. Проверяем:
1 + д-д2 + у/1 + 2д-д2 >2 ^1 + 2д-д2 > 1-д + д2
1 + 2Q — Q2 > 1 — 2Q + 3Q2 — 2Q3 + Q4 0 > Q3 — 2Q2 +4Q — 4 =: р^).
Поскольку р(1) = —1 и р(2) = 4, у полинома р есть корень на интервале (1, 2). У производной р'^) = 3Q2 — 4Q + 4 вещественных корней нет. Поэтому упомянутый корень полинома единствен и 0 > р^) V Q € (0,1]. Таким образом,
Zl(Q) > 2 VQ € (0,1], (35)
что дает Р* <Q2/2 V Q € (0,1].
Отметим, что превышение знаменателя в (34) над числителем есть фактически неравенство (33). Следовательно,
Я<Яо к < 1 РМ
Случай х* < а. Рассмотрим сплайн, задаваемый через задачу Коши:
д''(г):= Ьв18п(х* - г), Vг е (0,а), д(0) = до, д'(0) = д'0. (36)
Он дает минимальное значение \д'(х*)\ среди всех д с фиксированной тройкой до, д'о, Ь. Отметим, что если сплайн имел бы д''(х) = Ь еще и на (х*,а), то должно было бы оказаться д(а) ^ 0, иначе решение исходного уравнения (3) было бы более близким к нулю, чем а. Таким образом, если для решения задачи Коши (36) обеспечено д(а) ^ 0, то существует константа £ е (-Ь, Ь] такая, что замена в задаче Коши (36) дифференциального уравнения для всех г е (х*, а) на д''(г) = £ приводит к д(а) = 0.
Если же изначальная задача Коши (36) выдает д(а) > 0, то наибольшее значение д'(х*) среди функций с фиксированной, уже четверкой а, д0, д'0, Ь, обеспечит такая модификация дифференциального уравнения в задаче Коши:
,'(,)= (Ь - $), г е (0,х*), д (г) \ -Ь, г е (х*, а),
где величина $ е (0,х*) определяется из условия д(а) = 0.
Ясно, что первый вариант величины исходного сплайна в а приводит к большему значению производной измененного сплайна в х*. Однако и тогда оно (д'(х*)) отрицательно. Покажем это
д'(х*) = д'о + Ьх* = д'о - Ьдо/д'о = д'о + Рмдо/а = д'о(1 - Рмх*/а).
Поскольку исследуется ситуация х* < а, выражение в скобках положительно. Следовательно, д'(х*) < 0.
Получим оценку сверху параметра Рм для модифицированного сплайна. По построению она же будет оценкой сверху всех функций д с фиксированной четверкой а, до, до, Ь, когда а > -до/д'о. Введем обозначение г := а/х*. Используя очевидное
Ьа/\д'о\ < Я ^ |д'о\ > Ьа/Q
и доказанное д'0 + Ьх* < 0, получаем
+ Ь(а - х*) Ь(а - х*) г - 1 г - 1 Я - 1
Рм= \д'0 + Ьх*\ ^ Ьа^-Ьх* = |-г/д + 1| = = Я +
Согласно условию теоремы, Я ^ 1. При равенстве характерный параметр не зависит от г и РМ = Я = 1. При строгом неравенстве параметр РМ монотонно увеличивается с ростом г. Из х* < а следует, что диапазон изменения параметра г не более чем (1, Поэтому разложение (37) влечет Рм < Я. Учтя еще дополнительную оценку
сверху на г, можно получить более тонкую оценку на РМ. Из (7) извлекаем
2 2
а - х* < Рма/2 г - 1 < Рмг/2 г < -— ==> г <
2 - Рм 2 - Я
Подставляя последнее неравенство в (37), имеем
Г* <с 1С 9-1 — о G(Q-i)(Q-2)_ Q2 2 . ,
Pm<Q + Q2/{2_q)_q-Q-Q 2-2Q + Q1 ~ 1 + (1 - Q)2 (38)
Таким образом, в обоих случаях расположения x* и a оценка следующего значения характерного параметра имеет вид P* ^ Q2/Z(Q), где
fZi(Q) := 1 + Q - Q2 + VI + 2Q - Q2, х* > а, Z (Q) = л
{ Z2(Q):=2 - 2Q + Q2, x* < a.
Выясним, всегда ли Q e (0,1) Zi(Q) > Z2(Q). Из (35) видно, что (VQ e (0,1)) 2 > Z2(Q) (VQ e (0,1)) Zi(Q) > Z2(Q).
Проверяем первое неравенство:
2 >Z2(Q) ^ 2 > 2 - 2Q + Q2 ^ 0 >Q(-2 + Q).
Очевидно, что последнее неравенство истинно для всех Q из интервала (0,1). Отсюда (VQ e (0,1)) Z1(Q) > Z2(Q) и, независимо от того, будет ли x* > a или x* < a, всегда
n* < Q2 - Q2
Z2(Q) ~ 2-2Q + Q2'
Все утверждения теоремы доказаны.
Теорема 4 позволяет в скалярном случае усилить теорему 1, причем с естественной заменой ограничения величины модуля второй производной на липшицевость первой, а также расширенной на небольшое обобщение метода Ньютона (ОМН). О последнем подробнее.
Скалярная функция, будучи непрерывно дифференцируемой внутри интервала задания и заданной в его граничной точке, имеет в ней одностороннюю производную. Назовем ОМН итерации вида (1), использующие одностороннюю производную вместо обычной, когда итеративная точка попадает в эту граничную точку.
Для того чтобы «спустить» следующий результат от ОМН к МН, достаточно лишь добавить требование открытости к интервалу Io.
Теорема 5. Пусть начальная точка x0 и непрерывная скалярная функция g, заданная на интервале I0, имеющая липшицеву производную внутри I0 с константой L, удовлетворяют условиям:
0) (3a e I0) g(a) = 0;
1) \a - x0| < ¿0;
2) производная g'(x0) =: g0 не нулевая и \g'0\_1 ^ r0;
3) сегмент I := [x0 - t, x0 + т] принадлежит интервалу I0, где т := d0 + d0PM/2, PM := r0Ld0, а если известен знак g'0, то этот сегмент можно сократить в 2 раза до I := convex(x0,x0 + т signg'0) С I0;
4) pm = Q< 1.
Тогда корень a функции g: а) принадлежит I; б) единствен в I0; в) к нему сходятся итерации ОМН, при этом г) быстрота сходимости дается неравенством
l^-«K^yil^-i-«K2-fcgfc_1...g0cio<2-fcg2fc-1cio, k = 1,2,..., (39)
Кроме того, если вместо 4) верно 4') Рм = Я = 1, то оценка (39) упрощается до
\хк - а\ < ¿о/2к. (41)
Доказательство. Если х, х*, а принадлежат некоторому сегменту I', внутри которого д' липшицева с константой Ь, и д непрерывна в граничных точках, то, в силу (7), погрешность первого приближения удовлетворяет оценке \х* - а\ ^ Я\х - а\/2, т. е.
х* е [а - ¿оЯ/2, а + ¿оЯ/2] = [х + (а - х) - ¿оЯ/2, х+(а - х) + ¿оЯ/2] С [х - т,х- т] = I.
Выходит, что липшицевости д' внутри I с константой Ь и непрерывности д на I достаточно для х* е I. Так как < 1, г = 1, 2,..., по тем же соображениям верно {хк е I. Следовательно, все предельные точки последовательности {хк}^ принадлежат I. Это пункт а). Согласно теореме 4, характерный параметр для первой аппроксимации по МН удовлетворяет оценке
Я2
На второй аппроксимации будет
О1
р^ 2-2д^ + д2 =:д2 <
и т. д. Из (7) получаем пункт г):
\хк - а\ < - а\ < ... < 2~кС}к-1...(2о\хо - а\ <
< 2-кЯок 1 ...Яо\хо - а\ < 2-кЯ2к-1\хо - а\.
Отсюда вытекает сходимость МН: хк —> а при к —> ж (см. п. в)).
Единственность в ^ очевидным образом следует из оценок (39) и (41) (см. п. б)). И наконец, при наличии условия 4') вместо условия 4) имеет место (40) с заменой неравенств на равенства. И д = 1 влечет (41). ■
Сравним оценки погрешности к-го приближения в теоремах 1 и 5. В оценке (4) теоремы 1 используется погрешность первого приближения, в теореме 5 - более удобная начальная погрешность.
Следуя доказательству теоремы 5, можно найти и оценку погрешности к-го приближения через погрешность первого:
\хк - а\ < 2 Я! -1\х1 - а\, (42)
Я2 2 где 91 = 2-2д + д2<9
Оценка (42) отличается от оценки в (4) тем, что вместо ц стоит Ql и добавлен множитель 21-к. Отметим, что Рм из теоремы 1 соответствует Q из теоремы 5. Поэтому
4 = 4 _4д _ 2д2 (43)
Отсюда видно, что ц > Ql/2, следовательно, при к = 2 оценка (42) всегда лучше оценки в (4). Однако в асимптотике лучше будет та оценка, в которой под показателем степени 2к-1 меньше основание. Сравним основания, т. е. величины Ql и ц. При Q € (0, 2/3) знаменатель дроби в (43) положителен. Поэтому
9 <д = -—9 2-2д+о2 > 4-4д-2д2 зд2+2д-2>о.
2 - 2Q + Q2 4 - 4Q - 2Q2
Последний полином отрицателен между своими корнями д± := -. Следовательно, последнее неравенство верно при Q € 2/3) (тогда верна оценка 0.5486 < Q+ < 0.5487).
Итак, при Q € [2/3,1] теорема 1 не дает гарантий сходимости. Согласно теореме 5, МН сходится и справедлива оценка текущей погрешности (39) через предыдущую и через начальную. При Q < 2/3 обе теоремы гарантируют сходимость МН.
При Q € 2/3) оценка текущей погрешности через теоретически определяемую погрешность первого приближения, согласно теореме 5, лучше, чем согласно теореме 1, т. е. (42) лучше оценки в (4).
При Q = Q+ оценки в (42) и (4) совпадают.
При Q € (0^+) оценка в (4) лучше оценки (42).
Таким образом, если в исследовании МН или в его применении недостаточно оценки текущей погрешности через предыдущую и требуется априори оценить погрешность к-го приближения, то при Q € (0, 2/3) можно использовать и (4), и (42). Причем при Q € 2/3) лучше применить (42), а при Q € (0^+) - лучше (4).
Если Q € [2/3,1], то для априорной оценки к-го приближения можно применить и (42), и оценку по погрешности начального приближения (39) (для Q = 1 - оценку (41)). Кроме того, если Q < 1, то, согласно теореме 5, Qk из (40) стремятся к 0 при к —> ж, следовательно, можно дойти по МН до некоторого в-го приближения, такого, что к > в Qk < 2/3. Далее можно применять либо оценку
\хк - а\ < 2-к+sQSкrlS-1\xs - а\ (к > в), (44)
либо оценку
где ц :=
\хк - а\ < ц2 3 1\xs - а\ (к > в), (45)
Q
4 - 4QS - 2QS '
Причем (44) лучше, чем (45), когда Qs > Q+, и наоборот, когда Qs < Q+.
Замечание. В программной реализации МН использование априорных оценок погрешности некоторого к-го приближения не представляется рациональным. Действительно, в качестве критерия остановки итеративного процесса по достижению заданной точности лучше будет использовать мажоранту-миноранту
/(г) := д(х) + д'(х)(г - х)+ sign(g(x))L(t - х)2/2.
(Очевидно, что д(х) > 0 (VI)/(г) > д(г) и д(х) < 0 (Ví)/(г) < д(г).) Если мажоранта-миноранта не имеет вещественных корней, то имеющейся информации (д(х), д'(х), Ь) недостаточно для заключения о существовании корня функции д. В противном случае, очевидно, д имеет корень между х и ближайшим корнем мажоранты-миноранты. Из уравнения /(а) = 0 получаем
- =х | ~д'{х) ± л/{д'{х))2 - sign(g(ж))¿g(ж) 81ёп(д(х))Ь
Если корни действительны, то выбрать следует ближайший к х корень, т. е. с «+», когда sign(g(x)g'(x)) > 0, и с «-» в противном случае. Следовательно, справедлива оценка текущей погрешности
, ^ \д'(х)\±^(д'(х))2-\д(х)\Ь
\а. — х\ ^ -1---.
Ь
Оценка последующей погрешности по текущей в теореме 5 может применяться в методе точной релаксации. Такую же роль могла бы выполнять аналогичная оценка, которую можно было бы извлечь из доказательства теоремы 1.
4. Заключение. Более сложная техника доказательства позволила получить результат в скалярном случае с более слабыми условиями сходимости для МН, чем условия в теореме Мысовских-3 [1]. Таким образом, в скалярном случае парадокса теорем 3-4 Мысовских больше не существует. В многомерном случае парадокс остался, и для его устранения (если оно возможно) потребуется еще более сложная методика.
Литература
1. Мысовских И. П. О сходимости метода Л. В. Канторовича решения функциональных уравнений и его применениях // Докл. АН СССР. 1950. Т. LXX, № 4. С. 565-568.
2. Михеев С.Е. Метод точных релаксаций // Вычислительные технологии. 2006. Т. 11, № 6. С. 71-85.
3. Канторович Л. В., Акилов Г. П. Функциональный анализ. М.: Наука, 1977. 744 с.
Статья рекомендована к печати проф. Л. А. Петросяном. Статья принята к печати 25 октября 2012 г.