Научная статья на тему 'Об одном парадоксе в теоремах о методе Ньютона'

Об одном парадоксе в теоремах о методе Ньютона Текст научной статьи по специальности «Математика»

CC BY
122
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИТЕРАЦИИ / ИТЕРАТИВНЫЙ МЕТОД / СХОДИМОСТЬ / ОБЛАСТЬ СХОДИМОСТИ / СКОРОСТЬСХОДИМОСТИ / МЕТОД НЬЮТОНА / СПЛАЙН / NEWTON’S METHOD / ITERATION / ITERATIVE METHOD / CONVERGENCE / DOMAIN OF CONVERGENCE / CONVERGENCE RATE / SPLINE

Аннотация научной статьи по математике, автор научной работы — Михеев Сергей Евгеньевич

Теорема Мысовских о сходимости метода Ньютона решения нелинейного уравнения в банаховом пространстве, использующая в формулировке оценку погрешности начального приближения, требует более сильного ограничения на характерный параметр, чем аналогичнаятеорема Мысовских об упрощенном методе Ньютона. Так как основной метод Ньютона использует больше информации на каждом шаге, чем упрощенный (значения производной на текущих итерациях вместо ее значения в начальном приближении), эти две теоремы образуют парадокс. Было неясно, то ли такова «природа вещей» или первая теорема недостаточно сильна. В скалярном случае оказалось, что ограничение на характерный параметр, обеспечивающее сходимость основного метода, можно ослабить так, что парадокс исчезнет. Показано также, что новое ограничение на характерный параметр не может быть ослаблено. Результаты верны как для оригинальных посылок первой теоремы Мысовских, так и для продвинутой версии, где заменяется максимум второй производной рассматриваемой функции на константу Липшица ее первой производной

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On one paradox in theorems about Newton’s method

Mysovskikh’ theorem about Newton method of solving a nonlinear equation in Banach space using an estimate of initial approximation error demands stronger restriction of some characteristic parameter than in Mysovskikh’ theorem about simplified Newton method. As the latter method usesless information on each step than the basic one, i.e. a value of derivative on the regarded function in initial approach instead of the one in each current approach, two theorems form a paradox. It was not clear if it was a “nature of things” or the first theorem was not enough strong. It appeared in a scalar case that the restriction on the charateristic parameter sufficient for convergence can be weakened so that the paradox disappears. It is also shown that the new restriction cannot be weakened. The results are valid as for original assumption of the theorem and for its developed version where the maximum value of the second derivative of the considered function is replaced by Lipschitz’ constant of the first derivative.

Текст научной работы на тему «Об одном парадоксе в теоремах о методе Ньютона»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 10. 2013. Вып. 1

УДК 519.853 C. Е. Михеев

ОБ ОДНОМ ПАРАДОКСЕ В ТЕОРЕМАХ О МЕТОДЕ НЬЮТОНА

1. Введение. Среди теорем Мысовских есть две [1, теоремы 3 и 4] о сходимости метода Ньютона (МН) и упрощенного метода Ньютона (УМН) соответственно, формулировки которых образуют парадокс: условия теоремы о МН сильнее условий теоремы об УМН, хотя МН использует на каждом шаге больше информации, чем УМН. В обеих теоремах используется оценка удаленности решения от начального приближения, в отличие от более известных теорем Мысовских и Канторовича о МН-УМН, опирающихся лишь на невязку начального приближения. Последние всегда представлялись более удобными для практического применения. Однако и первые имеют нишу успешного приложения, например метод точной релаксации [2], использующий непосредственно в пошаговых вычислениях оценку текущей погрешности.

Опишем вначале объекты, о которых идет речь в этих теоремах. Пусть есть отображение g : M —> V, где M С U, а U, V - банаховы пространства (В-пространства по терминологии Канторовича). Выбирается из каких-то дополнительных соображений начальное приближение xo € M, из которого начинаются итеративные процессы МН и УМН, задаваемые соответственно следующими формулами:

x* := x - (g'(x))-1 g(x), (1)

x* := x - (g'(xo))-1g(x), (2)

где x - текущая итерация; x* - последующая итерация; x, x* € M; на первом шаге

x := xo.

Назначение обоих методов - поиск приближения к корню а уравнения

g(x) = 0. (3)

Приведем формулировки теорем 3 и 4 из [1]. (Обозначения другие, в частности Sd := {y\\\y - x|| < d}.)

Теорема 1 (Мысовских-3). Пусть функция g и начальная точка x0 удовлетворяют условиям:

0) (За) g(a) = 0;

1) \\а - xo\\ < do;

2) существует непрерывный линейный оператор Г := (g'(x0))-1 и \\Г\\ ^ r0;

3) \\g''(x)\\ < L Vx € Sdx00+PMd0/2;

4) PM := roLdo < 2/3 =: QN.

Михеев Сергей Евгеньевич — профессор кафедры информационных систем факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Научные направления: нелинейное программирование, макроэкономика. E-mail: [email protected].

© C. Е. Михеев, 2013

Тогда решение а уравнения (3) единственно в шаре и к нему сходятся ите-

рации {хипорождаемые (1) : к —> то хи —> а; при этом быстрота

сходимости дается неравенствами \\х\ — а У ^ ||хо — а\\Рм/2 и

\\xk - «у < qt-1-1\\xi — «у, k = 2, 3,.... (4)

р2 4)

3'еСЪ 9w := 4-4PMM-2P¿ < L

Доказательство этой теоремы в [1] отсутствует, не удалось его найти и в других публикациях И. П. Мысовских. Впрочем, его несложно получить, если следовать идеям теоремы 4 об УМН из [1].

Теорема 2 (Мысовских-4). Если в теореме 3 заменить условие 4) на условие 4') Рм := r0Ld0 < 2л/2 - 2 =: Qu, то решение а уравнения (3) единственно в шаре S^ и к нему сходятся итерации (2), при этом быстрота сходимости дается неравенствами \\x1 — а\\ ^ \\xo — a\\PM/2 и

\\xk — «\\ < qU-1 \\xi — «\\, k = 2, 3,..., (5)

4')

где qu := Рм + P^/4 < 1. я

Нетрудно проверить (yPM)qN < qu. Но и без этого неравенства видно, что порядок сходимости согласно (4) выше, чем дает (5). Это, собственно, и подсказывала интуиция, основываясь на том, что МН использует больше информации, чем УМН. Однако, непосредственно вычисляя, находим, что QU > 0.82 > 2/3 = QN, т. е. возможна ситуация QN < PM < QU. Тогда УМН гарантированно сходится, а МН, на каждый шаг которого требуется больше дополнительной информации, вроде бы может и не сходится!? Возникает естественная гипотеза: парадокс объясняется несовершенством техники доказательства теоремы Мысовских-3.

В п. 3 будет показано, что по крайней мере в скалярном случае гарантировать сходимость можно при существенном ослаблении условия 3). Но перед тем как приступить к непростым выкладкам, в п. 2 прикинем, каков предел наших мечтаний относительно Q.

2. Необходимое ограничение характерного параметра. Стесним себя требованием уменьшения погрешности на каждом шаге. На первом имеем

x* — а = xo — а — (g' (xo))-1g(xo) =

= xo — а — (g'(xo))-1[g(a) + g'(xo)(xo — «)+ o(xo — a, xo)] = (g'(xo))-1 o(xo — а,xo). (6)

Здесь o - вектор-функция, удовлетворяющая оценке \\o(xo — «,xo)\\ ^ L\\xo — а\\2/2, если g' липшицева с константой L на всех открытых множествах, содержащем внутренность отрезка xo«, и g непрерывна в точках xo,«. В частности, последняя оценка верна, когда а G S^ С sdo0+PMdo/2. Из (6) получаем оценку погрешности

\\х* - «|| < г0\\о(х0 - а,х0)\\ < "у-|1жо - «||2 < ~ а\\. (7)

То есть, с одной стороны, для того чтобы первое приближение имело погрешность, меньшую, чем начальное, достаточно, чтобы PM < 2. С другой стороны, уже при

Рм = 2 существуют скалярная д и начальное приближение хо, для которых МН дает цикл.

Как Мысовских, так и Канторович в условиях своей серии теорем о методе Ньютона использовали норму второй производной. Практически сразу после их опубликования они были обобщены на отображения, имеющие всего лишь липшицевость первой производной. Эти несложные обобщения производились другими авторами, но имена первооткрывателей за теоремами были сохранены. В дальнейших построениях будет удобно применить сплайны степени 2 дефекта 1, что соответствует таким обобщениям рассматриваемых теорем. Чтобы иметь соответствие оригинальным формулировкам (теоремам 1 и 2), потребуется следующий результат.

Лемма. Любой сплайн в„д степени п дефекта 1 с ограниченной между узлами стыковки производной: !в""!(х)! < Ъ для всякого £ > 0 может быть сглажен в узле стыковки X - точке разрыва п-й производной - с помощью сложения со сплайном в степени п +1 дефекта 1, отличным от нуля только в сколь угодно малой лево- или правосторонней окрестности Д, не содержащей иных точек разрыва, кроме точки X, и таким, что суммарный сплайн Б = в + в„д имеет ограниченную производную

!^(")(х)! < Ъ + £ Ух е Д.

В частном случае, когда !в""! (X — 0)! < Ъ, в левосторонней окрестности можно сгладить так, что !Б(п)(х)! < Ъ Ух е Д. Также можно сгладить и в правосторонней окрестности, если ^""(х + О) < Ъ.

Доказательство. Очевидно, достаточно будет исследовать всего лишь случай х = 0 и провести построение в левосторонней окрестности.

Положим, не умаляя общности,

в"")(+0) — в"")( — 0)=: В> 0.

Построим семейство звеньев во,..., в", являющихся функциями, тождественно равными нулю вне интервалов, соответственно До, Дь ..., Ап, таких, что при г = 1 ,п левая граница Д г-1 есть правая граница Дг и Дг = Д- и Д + , Д- П Д + = 0 и длины Д-, Д + равны друг другу и равны Дг. Положим Д0 = (—5, 0], следовательно, длина До равна 5. По построению длины прочих интервалов будут соответственно 2Д1, ..., 2Д". С выбором этих длин определимся позднее. Первоначально положим в1 = ... = в" = 0 и на малом сегменте [—5,0] зададим во как решение задачи Коши

4"+1)(х)=А0, = *«(-£), г = (8)

Параметр А0 выберем так, чтобы в0"!(0) = В, т.е. положим А0 = В/5. Вне (—5,0] положим во(х) = 0. Ясно, что во + в"Д имеет в окрестности нуля непрерывную производную порядка п, но у производных низшего порядка в нуле будут разрывы. Пусть

В1 := во"-1)(—0) — во"-1)(+0) = Ао52/2 = В5/2 = 0, := во"-г)(+0) — во"-г)(—0) = Ао5г+1/(г + 1)! = Б5г/(г + 1)!, г = 2, ...,п.

тт ("-1)

Для ликвидации разрыва во в нуле переопределим звено в1 на интервале (—До — 2Д1, — До] =: Д1, как решение задачи Коши

в!"+1,<х>=А::х е Д + о

в

(0(-До-2Д1) = 40(-До-2Д1), г = 0, п. (10)

Параметры в этой задаче стеснены условием \Л1 |Дх ^ е, не затрудняющим выбор значений параметров, обеспечивающих —Б1 = 1)( —До) = —Л1Д2. В частности,

Л Б1 Бд . е2 2е2 (п-1Ь д N . (п-1)/пч п

Согласно (9), функция в^+^х) является нечетной относительно середины интервала Д1. Поэтому интеграл от нее по Д1 равен нулю. Следовательно, звено в1 передает без изменения значение, получаемое производной в1п) на левом конце интервала Д1, на его правый конец. В частности, если в1п)( —До — Д1) = 0, то независимо от параметров Д1, Л1, До выполняется в1п)( —До) = 0. Поэтому сплайн в = в1 У во на данном этапе построения имеет свойства

(Уж € (—то, 0)) В>в(п)(х) > —е, в(п)(0) = Б, в(п-1)(0)=0.

Соглашение. Здесь под суммой звеньев вп У ...Щво будем понимать сплайн, определяемый на каждом Дг, г = 0,...,п, как решение некоторой задачи Коши с заданием

(п+1) Т Т

производной вг на Дг и начальных условий на левом конце интервала Дг, которые суть значения в(+)1, р = 0,.., п, на правом конце интервала Дг+1. (См. (8) и (10).)

Однако, если Б := в(п-2)(0) = 0, то (п — 2)-я производная сплайна в + впд в нуле разрывна (здесь обычное сложение функций).

Выберем число Д2 и переопределим звено в2 через его (п + 1)-ную производную на промежутке (—До — 2Д1 — 2Д2, —До — 2Д1] =: Д2 так, что для у = —До — 2Д1, т. е. для у = дД1 р| дД2, будет верно

в2п)(у) = в2п-1)(у) = 0, (11)

в2п-2)(у) = —В2, (12)

и, кроме того, (Ух € Д2) е > в2п)(ж) > —е.

Для этого зададим (п + 1)-ную производную звена в2 через (п + 1)-ную производную звена в1 так, чтобы вп-1 стала нечетной функцией относительно середины Д2 при нулевых начальных условиях:

Здесь

в(п+1)(х) := /— Мгв((-+1)(«- х + вi), х € Д- , (13)

* (х):1 ^(а+х + в+), х € Д+. (13)

а+ = 2Дг-1/Дг, (3+ = —д — а+у = —д + 2(д + 2Д- )Д- /Дг,

а- = —2Дг-1/Дг, (3- = у — а-у — 2Д- = — д — 2(д + 2Д-1)Д-1/Дг — 4Д-1,

и на этом этапе построения г = 2; варьируемые параметры и Д2 связаны условием А1Д2/2 ^ е. Независимо от их значений звено в2 на данном этапе построения удовлетворяет (11).

Покажем, что параметров звена в2, т.е. Д2, Ц2, достаточно для удовлетворения (12) и при этом Д2 пропорционально д. Введем обозначение Л — 2 = Ц1Л1.

Действительно. Если производная в1п 2)(—д) имела вид Л1Д1К1 (несложные выкладки показывают, что «1 = —1), то в1п 2)(у) как второй интеграл от нечетной относительно у — Д2 функции в2п) будет иметь вид —2Л2(Д2/2)3«1 =: в2 2)(у).

Определение Д2 происходит из уравнения

0 = 4"~2)М + «'Г^'Ы) + «о""2)(0) = -2Л2(Д2/2)3«.1 - А1Д3 - А1Д;3 + Ао33/6 = = -2£,Д - <д? - + = _ ^ _ ^ +

Отсюда видно, что Д2 пропорционально 3.

Таким же путем, увеличивая последовательно на 1 значение индекса в (13), можно добиться нуля в нуле для всех производных низших порядков суммы звеньев, а также эквивалентности величин г = 1 ,п, длине 3 начального интервала. Следовательно, звенья во,..., в" можно выбрать такими, что сумма S = в" + ... + во + в"Д будет удовлетворять основной части формулировки леммы.

В случае Ь — «""' (—0)| =: I > 0 получаем дополнительное утверждение. В силу непрерывности в""', в некоторой малой левой окрестности Д нуля будет

«""'(—0) < 0 (Ух € Д) в""'(х) > —Ь + г/2.

Полагая е = 1/4, как и в общем случае, можно сгладить в"Д до Б так, что станет Б(п\х) ^ — Ь + е > —Ь. Что и завершает доказательство. ■

Практически лемма позволяет доказанное для функций, имеющих липшицевость с константой Ь первых производных, распространить на функции с ограниченной константой Ь по модулю вторых производных, заменив лишь в некоторых местах утверждений нестрогие неравенства на строгие.

Далее без дополнительных оговорок будем, согласно лемме, применять сплайны типа «2д в качестве функций, имеющих ограниченную вторую производную. Контрпример зацикливания. Пусть а,Ь > 0, х0 := Ь/3 и

{а(Ь + х)х, х < 0, а(Ь — х)х, х ^ 0.

Производная функции д липшицева с константой 2а. Для любого е > 0, согласно лемме, функции д можно поставить в соответствие функцию д с непрерывной второй производной, ограниченной по модулю величиной 2а + е и отличной от д только в сколь угодно малой окрестности нуля. Согласно итерациям (1), как для д, так и для д образуется цикл на двух точках: хк = ( — 1)кхо.

В «продвинутой» теореме Мысовских для д фигурирует коллективный параметр

_ Ь<1 _ 2аЪ/3 _ \\д'(х0)\\ ~ ~аЬ/з ~ '

В оригинальном варианте (теорема 1) для дд коллективный параметр таков:

_ 8ир||д'(х)|И_ (2а6 + £)/3 _о , , 1№о)|| - аЪ/3 +

где 3 может быть сделана сколь угодно малой.

Хотя при Рм < 2 ни для д, ни для д точка хо уже не может быть точкой цикла*', покажем, что в ходе МН параметр Рм может неограниченно возрастать, если он изначально был больше 1, и, таким образом, «предел мечтаний» оказывается значительно скромнее двух.

*) Несложное доказательство этого опустим.

Теорема 3. Для любых Q', > 1 существуют скалярная функция д, начальная точка хо и целое к ^ 0 такие, что Рм(д,хо) € (1^') и Рм(д,хи) = Q", где хи - к-е приближение по МН, начатого из хо. Кроме того, выбором д, хо при ^ 2 можно получить зацикливание МН, начиная с х1, а при ^ ^ 2 - уже с хо.

Доказательство. Рассмотрим семейство скалярных функций с параметром

д^{х) = ¡л +д'^х-^х2 ъщпх, (14)

где Ь, ¡> 0, < 0.

Обозначим положительный корень функции дм через д. Очевидно, что д - непрерывная функция от ц и д \ 0 при ¡л \ 0. Следовательно, по данному д > 0 однозначно определяется ¡. По данному ^' из уравнения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ьд

Рм,оЫ = щ = Я" > 1 (15)

найдем д, а по нему ц такое, что дм(д) = 0. Это построение обеспечит Рм,о(дм) = Q'' (т. е. д = Q''\g'^f\/Ь и ¡л = Ьд2 — д, но эти формулы не потребуются). В некоторой точке х < 0 имеем

45-х) =1 | Ь6-\дЦ \д'* + Ьх I Ы + Ьх\'

- ^ ии -

Рм,х(9ц) = , г„.1 = 1 + 1_/ , г „.г (16)

В силу неравенства, извлекаемого из (15), числитель последней дроби в (16) положителен, поэтому

х \ —то Рм,х(дм) \ 1. (17)

Выясним, из каких точек по МН можно попасть в нуль. Построим из х = 0 =: у о по алгоритму, обратному к ньютоновской итерации, последовательность у1,у2,..., т. е.

у-1 = уг — д^Ы)/д'^ (Уi), г = 1,2,.... (18)

Аналитически уравнения (18) легко разрешимы относительно уг для всех г = 1, 2,... . Действительно, так как отклонение функции по ординате от ее аппроксимации посредством касательной равно интегралу от второй производной, а значение в у-1 ординаты касательной к функции д в уг есть 0, имеем д(уг-1) = Ь(уг — уг-1)2/2. Отсюда

Уг - Уг-1 = -у/2д(уг-1)/Ь. (19)

Из (14) и (19) очевидно, что уг —> —то при г —> то. Отсюда и из (17) вытекает

> 1)(Зк)(Уг > к)Рм,уг € (1, Q'). (20)

Положим х^ := Ук-о-, Э = 0, к. Ясно, что - последовательность приближений

из МН, причем хи =0 и

(2о) (15)

Рм,х (дм) € (1,Q') Л Рм,хк(д^)= Рм,о(дм) = ,

что и влечет истинность первого предложения формулировки теоремы. Истинность второго следует из первого и рассмотренного ранее контрпримера.

3. Исследование скалярного случая.

Теорема 4. Пусть д - скалярная функция, ее производная липшицева с константой L, а - ближайший к точке x0 корень g и PM := L\x0 — а\/\g'(x0)\ ^ Q ^ 1. Тогда, если x* определена по МН (1) из x := x0, то P* := L\x* — a\/\g'(x*)\ ^ 1, когда Q = 1, а когда Q< 1, то P* < Q2/(2 — 2Q + Q2) < Q2.

Доказательство. План: будем подыскивать наихудшие, т. е. максимизирующие параметр P*, функции д, для различных вариантов расположения а, x, x*.

Вначале положим x = 0, а > 0, до := д(0) > 0, д0 := д'(0) < 0. Возможность, не умаляя общности, сделать первые три допущения очевидна. Выясним, что будет, когда д0 > 0. Если д0 > 0, то ближайший к нулю вариант расположения а будет при g''(x) = —L У x ^ 0, т. е. g(x) является полиномом д0 + д0x — Lx2/2 с корнями а± = g'0 ± \J(д'0)2 + 2доЬ^ (—L)-1. Нас интересует положительный корень =

(д'о + V(9o)2 +29oL) /ь. Для него будет

Рм = = 1 + ,Jl + 2g0L(gi0)-i > 2.

Это противоречит условию теоремы. Таким образом, все четыре допущения не уменьшают общности.

Случай x* > а. Фиксируем а, x*. Тогда P* будет зависеть только от \g'(x*)\, и нехитрые соображения показывают, что максимизирующая параметр P * функция д, каково бы не было ее задание на (0,а), должна удовлетворять условию g''(t) = L У t € (а, x*) при соблюдении отрицательности производной (об этом ниже), а задание на (0,а) должно минимизировать \д'(а)\. Все это обеспечивается трехзвенным сплайном, определяемым через производные в (21) + (22) + (23):

g''(t):= Lsign(t — 0), Уt € (0,x*), д(0) = д0, д'(0) = д0, 0 € [0,а], (21)

где 0 - параметр, подлежащий определению. Между прочими параметрами сплайна есть связи:

д(а) = 0, x* = —д0/д0, Lа/\g'о\ < Q, 0 < а < x*. (22)

Максимизирующие свойства сплайна (21) + (22), когда (yt € (0,x*)) g'(t) < 0, интуитивно очевидны и легко проверяются игольчатыми вариациями. Исследуем знак производной. По построению д'(20) = д'0. Поэтому

g'(ti)=0 ^ g0 + L(ti — 20) = 0 ^ ti = 20 — д0/L.

Ситуация ti € (0, а) возникнуть не может, ибо это означало бы, что а не ближайший к x0 корень сплайна д. Действительно, так как сплайн по построению только убывает до момента ti и возрастает после момента ti, при g(ti) > 0 корня нет вообще, а при g(ti) < 0 он лежит в (0,ti). Если же ti € [а,x*], то, переназначая

g'(t) := д'(20 — L/g0) У t € (20 — g0/L, x*], (23)

получим g'(x*) = 0, т.е. МН для сплайна (21) + (22) + (23) некорректен и P* = Таким образом, этот сплайн есть максимайзер для P* в случае x* > а.

Найдем 0 из условия g(a) = 0:

'g(t) := g(0) + g'(0)(t - 0) + L(t - 0)2/2, t e (0, x*),

g(0) := go + g'00 - L02/2,

g'(0) := g'0 - L0,

0 = g(a) = go + g'00 - L02/2 + (g0 - L0)(a - 0) + L(a - 0)2/2 = = g0 + g'0a + La2/2 - 2La0 + L02,

2 go+g'0a + La2/2____L _ ¡a2 g0 + g'0a

0± =a± \ a2 - ' au ' ' =a±

Ь V 2 Ь

Отметим, что по условиям теоремы 4 подкоренное выражение V всегда неотрицательно, ибо на отрезке [0,а] полином в(Ь) := до + д0Ъ — Ьt2/2 является минорантой всех д с константой Ь для производной и «начальными условиями» д(0) = до, д'(0) = д0. И, таким образом, в (а) ^ д(а) = 0, что влечет V = —з(а)/Ь ^ 0.

Согласно построению, 0 ^ а, поэтому следует выбрать знак «—»:

а2 до + д'оа /ол,

УТ--ь—' ^ ^

Для такого 0 выясним, не будет ли ¿1 > х*, т.е. не пусто ли множество (20 — д'0/Ь,х*] (оно в (23)):

*1>х* ^ (25)

Поделим последнее неравенство на а и введем для краткости обозначения д := Р—1, р := —до/д'оа = х*/а. Тогда (25) принимает вид

П>х* ^ 2 + д- р>2^ + д- = ^2 + 4д- 4 др. Выясним, когда 2 + д — р > 0. Используя (7), имеем

х* а х* а 1

2 + д-р = 2 + д--= 1 + д--> 1 + Рм1 - Рм/2,

аа

отсюда

2 + д — р> 0 2РМ + 2 — Р2 < 0.

Корни последнего полинома относительно РМ таковы: Р± = 1±лД Следовательно, для всех Р € [0, 1 + а/3) верно 2 + д — р > 0. Поэтому

¿1 > х* ^ (2 + д — р)2 > 2 + 4д — 4др ^ 2 + д2 + р2 + 2др — 4р > 0.

Дискриминант последнего полинома от р равен (д — 2)2 — 2 — д2 =2 — 4д, что положительно только при д < 1/2. То есть Рм < 2 ^ ¿1 > х*. Таким образом, после определения 0 согласно (24), наш максимайзер, в силу условия теоремы, оказывается всего лишь двузвенным: (21) + (22) + (24).

Исследуем характерный параметр в точке х*:

р* _ Цх* - а) _ Ь(х* - а) _ _Цх* - а)_

\д'{х*)| ~ |д'0 + Цх* - 21?)| ~ \д'0 + Цх* -2а + 2у/а>/2 + д'0(х* - а)/Ь)\

Поскольку выражения под модулем знаменателя должны быть отрицательны (только что доказано х* < ¿1 = 2— д'0/Ь), максимум по д'0 последней дроби, очевидно, достигается при максимально возможном д'0. Из (22) получаем оценку \до \ ^ Ьа/Q. Подставим —Ьа/Q вместо д'0 в (26):

P * <

J Л/Г

-a/Q + х* - 2а + 2л/а2/2 - а(х* - a)/Q

(27)

Поделим числитель и знаменатель дроби в (27) на а:

Р* ^ -^--> тах . (28)

-1/Q + Р-2 + 2у/1/2 — (р — l)/Q

р>1

В рассматриваемом случае р > 1 и, помимо этого, из (7) и того, что Рм ^ Q, получаем р — 1 ^ Q/2, т. е. р € (1,1 + Q/2]. Положим г := р — 1. Делим числитель и знаменатель в (28) на р — 1 и приходим к эквивалентной задаче

1/Q+1 л 2 П 7 .

--1--\---—> mm . (29)

z z\ 2 Q ze(0,Q/2]

Еще одна замена: w := 1/z. Она превращает (29) в

/ 1 \ w2 w := ( — + 1)«; — 1— 24/ —--— —» min . (30)

\Q J V 2 Q we[2/Q,+TO)

Так как h(+ro) = и h(2/Q) = 2/Q2 + 2/Q — 1, минимум существует и дости-

гается либо в 2/Q, либо в одном из больших, чем 2/Q, нечетных вещественных корней производной h' при нумерации их справа налево и при условии, что они все простые. Пусть w > 2/Q, тогда

,/, ч 1 w — 1/Q (w2 w \f 1 \2 ( 1 4 2 h'(w) = — +1----' - = 0 ---— + 1 = w--

V ' Q \Jw2/2 — w/Q V 2 QJ \Q ) V Q,

^ (Q-2 + 2Q-1 — 1)w2/2 — (Q-2 +2Q-1 — 1)w/Q — Q-2 =0 4 ^ (Q + 2Q2 — Q3)w2 — 2(1+ 2Q — Q2)w — 2Q = 0. Корни последнего полинома таковы:

-1+ / 1 . 2 - 1 | 1 + 9 гчп

- д ± Vд2 + 1 + 2д-д2 ~ д ± д^ + гд-д2' 1 ;

Так как полином И := 1 + 2д — д2 имеет корни = 1 ± л/2, то И > 0 и и)± -

вещественны, когда д € (1 — л/2, 1 + л/2), а следовательно, и когда € [0, 2].

x* — а

Как явствует из средней части цепи равенств (31), верно и>+ > 2/Q > . Так как и>+ единственный и некратный корень функции к' на (2/Q, и к(+ж) =+ж,

он и является единственным минимайзером функции к на [2^, («[» - в силу

непрерывности функции к в 2/0).

Теперь можно выяснить, когда к(л+(^)) > 1/Q, т. е. для каких Q будет Р* < Q.

Вычислить к(и+^)) можно и без подстановки выражения с радикалом в выражение под радикалом. Для этого используем связь

к'(ъи+) = 0 ^ = (32)

1 у 2 д 1/д + 1 1 ;

Используя (32) в определении (30), имеем

^»С'+Л^- = ад и_1+. 2 -

Q У + 1/Q + 1 Q + 1/ + я + 1

= д + 1 + (д + 1)д-2д2 1 - д = 1 + 2д - д2 1-д

д(д + 1) д +д(д + 1) ",+ + д + г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Итак, для каких Q верно неравенство

I < Ыи} \= 1 + - д2 (}_+ 1 + 9 ^ + =

Я Я{Я + ±) \Я + 2д - д2) д + 1

(33)

Оно эквивалентно неравенству д2 — 1 < у/1 + 2д — д2, которое верно для всех € [0,1]. Если же Q > 1, то возведем его в квадрат:

Q4 — 2Q2 + 1 < 1 + 2Q — Q2 Q3 — Q — 2 < 0.

Последний полином имеет единственный вещественный корень Qо € (1.5,1.6). Для каждой последующей итерации по МН, если реализуется рассматриваемый случай, справедлива оценка характерного параметра

Р* < «д, к := -^ / =. (34)

1 + д-д2 + у/1 + 2д-д2

Исследуем поведение этой оценки при малых Q. Оказывается, знаменатель Zl(Q) дроби в определении величины к не меньше 2, если Q ^ 1. Проверяем:

1 + д-д2 + у/1 + 2д-д2 >2 ^1 + 2д-д2 > 1-д + д2

1 + 2Q — Q2 > 1 — 2Q + 3Q2 — 2Q3 + Q4 0 > Q3 — 2Q2 +4Q — 4 =: р^).

Поскольку р(1) = —1 и р(2) = 4, у полинома р есть корень на интервале (1, 2). У производной р'^) = 3Q2 — 4Q + 4 вещественных корней нет. Поэтому упомянутый корень полинома единствен и 0 > р^) V Q € (0,1]. Таким образом,

Zl(Q) > 2 VQ € (0,1], (35)

что дает Р* <Q2/2 V Q € (0,1].

Отметим, что превышение знаменателя в (34) над числителем есть фактически неравенство (33). Следовательно,

Я<Яо к < 1 РМ

Случай х* < а. Рассмотрим сплайн, задаваемый через задачу Коши:

д''(г):= Ьв18п(х* - г), Vг е (0,а), д(0) = до, д'(0) = д'0. (36)

Он дает минимальное значение \д'(х*)\ среди всех д с фиксированной тройкой до, д'о, Ь. Отметим, что если сплайн имел бы д''(х) = Ь еще и на (х*,а), то должно было бы оказаться д(а) ^ 0, иначе решение исходного уравнения (3) было бы более близким к нулю, чем а. Таким образом, если для решения задачи Коши (36) обеспечено д(а) ^ 0, то существует константа £ е (-Ь, Ь] такая, что замена в задаче Коши (36) дифференциального уравнения для всех г е (х*, а) на д''(г) = £ приводит к д(а) = 0.

Если же изначальная задача Коши (36) выдает д(а) > 0, то наибольшее значение д'(х*) среди функций с фиксированной, уже четверкой а, д0, д'0, Ь, обеспечит такая модификация дифференциального уравнения в задаче Коши:

,'(,)= (Ь - $), г е (0,х*), д (г) \ -Ь, г е (х*, а),

где величина $ е (0,х*) определяется из условия д(а) = 0.

Ясно, что первый вариант величины исходного сплайна в а приводит к большему значению производной измененного сплайна в х*. Однако и тогда оно (д'(х*)) отрицательно. Покажем это

д'(х*) = д'о + Ьх* = д'о - Ьдо/д'о = д'о + Рмдо/а = д'о(1 - Рмх*/а).

Поскольку исследуется ситуация х* < а, выражение в скобках положительно. Следовательно, д'(х*) < 0.

Получим оценку сверху параметра Рм для модифицированного сплайна. По построению она же будет оценкой сверху всех функций д с фиксированной четверкой а, до, до, Ь, когда а > -до/д'о. Введем обозначение г := а/х*. Используя очевидное

Ьа/\д'о\ < Я ^ |д'о\ > Ьа/Q

и доказанное д'0 + Ьх* < 0, получаем

+ Ь(а - х*) Ь(а - х*) г - 1 г - 1 Я - 1

Рм= \д'0 + Ьх*\ ^ Ьа^-Ьх* = |-г/д + 1| = = Я +

Согласно условию теоремы, Я ^ 1. При равенстве характерный параметр не зависит от г и РМ = Я = 1. При строгом неравенстве параметр РМ монотонно увеличивается с ростом г. Из х* < а следует, что диапазон изменения параметра г не более чем (1, Поэтому разложение (37) влечет Рм < Я. Учтя еще дополнительную оценку

сверху на г, можно получить более тонкую оценку на РМ. Из (7) извлекаем

2 2

а - х* < Рма/2 г - 1 < Рмг/2 г < -— ==> г <

2 - Рм 2 - Я

Подставляя последнее неравенство в (37), имеем

Г* <с 1С 9-1 — о G(Q-i)(Q-2)_ Q2 2 . ,

Pm<Q + Q2/{2_q)_q-Q-Q 2-2Q + Q1 ~ 1 + (1 - Q)2 (38)

Таким образом, в обоих случаях расположения x* и a оценка следующего значения характерного параметра имеет вид P* ^ Q2/Z(Q), где

fZi(Q) := 1 + Q - Q2 + VI + 2Q - Q2, х* > а, Z (Q) = л

{ Z2(Q):=2 - 2Q + Q2, x* < a.

Выясним, всегда ли Q e (0,1) Zi(Q) > Z2(Q). Из (35) видно, что (VQ e (0,1)) 2 > Z2(Q) (VQ e (0,1)) Zi(Q) > Z2(Q).

Проверяем первое неравенство:

2 >Z2(Q) ^ 2 > 2 - 2Q + Q2 ^ 0 >Q(-2 + Q).

Очевидно, что последнее неравенство истинно для всех Q из интервала (0,1). Отсюда (VQ e (0,1)) Z1(Q) > Z2(Q) и, независимо от того, будет ли x* > a или x* < a, всегда

n* < Q2 - Q2

Z2(Q) ~ 2-2Q + Q2'

Все утверждения теоремы доказаны.

Теорема 4 позволяет в скалярном случае усилить теорему 1, причем с естественной заменой ограничения величины модуля второй производной на липшицевость первой, а также расширенной на небольшое обобщение метода Ньютона (ОМН). О последнем подробнее.

Скалярная функция, будучи непрерывно дифференцируемой внутри интервала задания и заданной в его граничной точке, имеет в ней одностороннюю производную. Назовем ОМН итерации вида (1), использующие одностороннюю производную вместо обычной, когда итеративная точка попадает в эту граничную точку.

Для того чтобы «спустить» следующий результат от ОМН к МН, достаточно лишь добавить требование открытости к интервалу Io.

Теорема 5. Пусть начальная точка x0 и непрерывная скалярная функция g, заданная на интервале I0, имеющая липшицеву производную внутри I0 с константой L, удовлетворяют условиям:

0) (3a e I0) g(a) = 0;

1) \a - x0| < ¿0;

2) производная g'(x0) =: g0 не нулевая и \g'0\_1 ^ r0;

3) сегмент I := [x0 - t, x0 + т] принадлежит интервалу I0, где т := d0 + d0PM/2, PM := r0Ld0, а если известен знак g'0, то этот сегмент можно сократить в 2 раза до I := convex(x0,x0 + т signg'0) С I0;

4) pm = Q< 1.

Тогда корень a функции g: а) принадлежит I; б) единствен в I0; в) к нему сходятся итерации ОМН, при этом г) быстрота сходимости дается неравенством

l^-«K^yil^-i-«K2-fcgfc_1...g0cio<2-fcg2fc-1cio, k = 1,2,..., (39)

Кроме того, если вместо 4) верно 4') Рм = Я = 1, то оценка (39) упрощается до

\хк - а\ < ¿о/2к. (41)

Доказательство. Если х, х*, а принадлежат некоторому сегменту I', внутри которого д' липшицева с константой Ь, и д непрерывна в граничных точках, то, в силу (7), погрешность первого приближения удовлетворяет оценке \х* - а\ ^ Я\х - а\/2, т. е.

х* е [а - ¿оЯ/2, а + ¿оЯ/2] = [х + (а - х) - ¿оЯ/2, х+(а - х) + ¿оЯ/2] С [х - т,х- т] = I.

Выходит, что липшицевости д' внутри I с константой Ь и непрерывности д на I достаточно для х* е I. Так как < 1, г = 1, 2,..., по тем же соображениям верно {хк е I. Следовательно, все предельные точки последовательности {хк}^ принадлежат I. Это пункт а). Согласно теореме 4, характерный параметр для первой аппроксимации по МН удовлетворяет оценке

Я2

На второй аппроксимации будет

О1

р^ 2-2д^ + д2 =:д2 <

и т. д. Из (7) получаем пункт г):

\хк - а\ < - а\ < ... < 2~кС}к-1...(2о\хо - а\ <

< 2-кЯок 1 ...Яо\хо - а\ < 2-кЯ2к-1\хо - а\.

Отсюда вытекает сходимость МН: хк —> а при к —> ж (см. п. в)).

Единственность в ^ очевидным образом следует из оценок (39) и (41) (см. п. б)). И наконец, при наличии условия 4') вместо условия 4) имеет место (40) с заменой неравенств на равенства. И д = 1 влечет (41). ■

Сравним оценки погрешности к-го приближения в теоремах 1 и 5. В оценке (4) теоремы 1 используется погрешность первого приближения, в теореме 5 - более удобная начальная погрешность.

Следуя доказательству теоремы 5, можно найти и оценку погрешности к-го приближения через погрешность первого:

\хк - а\ < 2 Я! -1\х1 - а\, (42)

Я2 2 где 91 = 2-2д + д2<9

Оценка (42) отличается от оценки в (4) тем, что вместо ц стоит Ql и добавлен множитель 21-к. Отметим, что Рм из теоремы 1 соответствует Q из теоремы 5. Поэтому

4 = 4 _4д _ 2д2 (43)

Отсюда видно, что ц > Ql/2, следовательно, при к = 2 оценка (42) всегда лучше оценки в (4). Однако в асимптотике лучше будет та оценка, в которой под показателем степени 2к-1 меньше основание. Сравним основания, т. е. величины Ql и ц. При Q € (0, 2/3) знаменатель дроби в (43) положителен. Поэтому

9 <д = -—9 2-2д+о2 > 4-4д-2д2 зд2+2д-2>о.

2 - 2Q + Q2 4 - 4Q - 2Q2

Последний полином отрицателен между своими корнями д± := -. Следовательно, последнее неравенство верно при Q € 2/3) (тогда верна оценка 0.5486 < Q+ < 0.5487).

Итак, при Q € [2/3,1] теорема 1 не дает гарантий сходимости. Согласно теореме 5, МН сходится и справедлива оценка текущей погрешности (39) через предыдущую и через начальную. При Q < 2/3 обе теоремы гарантируют сходимость МН.

При Q € 2/3) оценка текущей погрешности через теоретически определяемую погрешность первого приближения, согласно теореме 5, лучше, чем согласно теореме 1, т. е. (42) лучше оценки в (4).

При Q = Q+ оценки в (42) и (4) совпадают.

При Q € (0^+) оценка в (4) лучше оценки (42).

Таким образом, если в исследовании МН или в его применении недостаточно оценки текущей погрешности через предыдущую и требуется априори оценить погрешность к-го приближения, то при Q € (0, 2/3) можно использовать и (4), и (42). Причем при Q € 2/3) лучше применить (42), а при Q € (0^+) - лучше (4).

Если Q € [2/3,1], то для априорной оценки к-го приближения можно применить и (42), и оценку по погрешности начального приближения (39) (для Q = 1 - оценку (41)). Кроме того, если Q < 1, то, согласно теореме 5, Qk из (40) стремятся к 0 при к —> ж, следовательно, можно дойти по МН до некоторого в-го приближения, такого, что к > в Qk < 2/3. Далее можно применять либо оценку

\хк - а\ < 2-к+sQSкrlS-1\xs - а\ (к > в), (44)

либо оценку

где ц :=

\хк - а\ < ц2 3 1\xs - а\ (к > в), (45)

Q

4 - 4QS - 2QS '

Причем (44) лучше, чем (45), когда Qs > Q+, и наоборот, когда Qs < Q+.

Замечание. В программной реализации МН использование априорных оценок погрешности некоторого к-го приближения не представляется рациональным. Действительно, в качестве критерия остановки итеративного процесса по достижению заданной точности лучше будет использовать мажоранту-миноранту

/(г) := д(х) + д'(х)(г - х)+ sign(g(x))L(t - х)2/2.

(Очевидно, что д(х) > 0 (VI)/(г) > д(г) и д(х) < 0 (Ví)/(г) < д(г).) Если мажоранта-миноранта не имеет вещественных корней, то имеющейся информации (д(х), д'(х), Ь) недостаточно для заключения о существовании корня функции д. В противном случае, очевидно, д имеет корень между х и ближайшим корнем мажоранты-миноранты. Из уравнения /(а) = 0 получаем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- =х | ~д'{х) ± л/{д'{х))2 - sign(g(ж))¿g(ж) 81ёп(д(х))Ь

Если корни действительны, то выбрать следует ближайший к х корень, т. е. с «+», когда sign(g(x)g'(x)) > 0, и с «-» в противном случае. Следовательно, справедлива оценка текущей погрешности

, ^ \д'(х)\±^(д'(х))2-\д(х)\Ь

\а. — х\ ^ -1---.

Ь

Оценка последующей погрешности по текущей в теореме 5 может применяться в методе точной релаксации. Такую же роль могла бы выполнять аналогичная оценка, которую можно было бы извлечь из доказательства теоремы 1.

4. Заключение. Более сложная техника доказательства позволила получить результат в скалярном случае с более слабыми условиями сходимости для МН, чем условия в теореме Мысовских-3 [1]. Таким образом, в скалярном случае парадокса теорем 3-4 Мысовских больше не существует. В многомерном случае парадокс остался, и для его устранения (если оно возможно) потребуется еще более сложная методика.

Литература

1. Мысовских И. П. О сходимости метода Л. В. Канторовича решения функциональных уравнений и его применениях // Докл. АН СССР. 1950. Т. LXX, № 4. С. 565-568.

2. Михеев С.Е. Метод точных релаксаций // Вычислительные технологии. 2006. Т. 11, № 6. С. 71-85.

3. Канторович Л. В., Акилов Г. П. Функциональный анализ. М.: Наука, 1977. 744 с.

Статья рекомендована к печати проф. Л. А. Петросяном. Статья принята к печати 25 октября 2012 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.