Научная статья на тему 'Интегральные аппроксимации негладких функций, сохраняющие точки локальных экстремумов'

Интегральные аппроксимации негладких функций, сохраняющие точки локальных экстремумов Текст научной статьи по специальности «Математика»

CC BY
321
371
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИПШИЦЕВЫЕ ФУНКЦИИ / ОБОБЩЕННЫЕ ГРАДИЕНТЫ / СУБДИФФЕРЕНЦИАЛ КЛАРКА / ИНТЕГРАЛЫ ЛЕБЕГА / МАТРИЦЫ ВТОРЫХ ПРОИЗВОДНЫХ / НЬЮТОНОВСКИЕ ОПТИМИЗАЦИОННЫЕ МЕТОДЫ ДЛЯ ЛИПШИЦЕВЫХ ФУНКЦИЙ / NEWTON'S OPTIMIZATION METHODS FOR LIPSCHITZ FUNCTIONS / LIPSCHITZ FUNCTIONS / GENERALIZED GRADIENTS / CLARK SUBDIFFERENTIAL / LEBEQUE INTEGRAL / MATRIX OF SECOND DERIVATIVES

Аннотация научной статьи по математике, автор научной работы — Прудников Игорь Михайлович

В статье приводится новый нелокальный способ аппроксимации негладких функций, в результате которого получаем дважды дифференцируеммые функции, сохраняющие ε(D)-стационарные точки. C помощью таких функций можно строить методы оптимизации второго порядка, сходящиеся к ε(D)-стационарным точкам. Описан алгоритм оптимизации, сходящийся к стационарной точке функции f(·) со сверхлинейной скоростью, т. е. имеющий скорость сходимости более быструю, чем любая геометрическая прогрессия. Библиогр. 12 назв. Ил. 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Integral approximation of nonsmooth functions preserving local extremums

A new non-local approximation method is suggested. As a result we get twice differentiable functions preserving ε(D)-stationary points. With the help of these functions we can construct the second order optimization methods converging to ε(D)-stationary points with superlinear velocity.

Текст научной работы на тему «Интегральные аппроксимации негладких функций, сохраняющие точки локальных экстремумов»

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 10. 2010. Вып. 2

УДК 517.9

И. М. Прудников

ИНТЕГРАЛЬНЫЕ АППРОКСИМАЦИИ НЕГЛАДКИХ ФУНКЦИЙ, СОХРАНЯЮЩИЕ ТОЧКИ ЛОКАЛЬНЫХ ЭКСТРЕМУМОВ

Введение. Негладкие (недифференцируемые) или недостаточно гладкие функции, которые, например, не имеют вторых производных, стали обычным инструментом исследования. Ими описываются многие процессы в экономике, планировании, теории управления и т. д. Примером таких функций могут быть, в частности, функции, получаемые при взятии операций минимума или максимума. Методы оптимизации этих функций отличаются от методов оптимизации гладких (дифференцируемых) функций. Для негладких липшицевых функций существуют точки, в которых градиент не существует. Ф. Кларком в 70-х годах XX столетия было введено определение обобщенного градиента. Выпуклая оболочка обобщенных градиентов для произвольной фиксированной точки есть субдифференциал Кларка, который, как функция точки, есть многозначное отображение (м. о.), являющееся не непрерывным, а только полунепрерывным сверху (п. св.). Известно, что липцишевая функция почти всюду в Кп дифференцируема. Проблема еще заключается в том, что даже для точки дифференцируемости субдифференциал Кларка не совпадает с ее градиентом. Например, для функции

■у = х2 зт(-), х ф 0, г/(0) = 0, х

нетрудно видеть, что производная функции в нуле равна нулю, а субдифференциал Кларка в нуле есть отрезок [—1,1], что подтверждает сказанное выше. А если мы имеем разрывные градиенты (обобщенные градиенты), как функции от точки, то построить методы оптимизации и оценить их скорость сходимости в общем случае весьма затруднительно. Попытка использовать полиномиальную или какую-нибудь другую аппроксимацию и перейти к оптимизации уже гладкой аппроксимирующей функции известными методами [1] приводит к появлению дополнительных точек экстремума. Как отделить в процессе оптимизации фиктивные точки экстремума от настоящих, которые нам неизвестны? Ответ на данный вопрос является еще более трудной задачей, чем исходная задача. Поэтому развитие теории оптимизации негладких функций пошло по пути разработки собственных методов, основанных на свойствах обобщенных градиентов липшицевых функций. Здесь следует упомянуть работы Н. З. Шора, Б. Н. Пшеничного, В. Ф. Демьянова, Е. А. Нурминского, Ф. Кларка, Р. Т. Рокафеллара, Л. Н. Поляковой (см. [1-12]).

Прудников Игорь Михайлович — докторант кафедры теории математического моделирования систем управления факультета прикладной математики—процессов управления Санкт-Петербургского университета. Научный руководитель: доктор физико-математических наук, проф. В. Ф. Демьянов. Общее количество работ: 43. Научное направление: оптимизация, теория управления, моделирование физических и экономических процессов. E-mail: pim_10@hotmail.com.

© И. М. Прудников, 2010

Для построения более ускоренных методов оптимизации негладких функций требуется определить конструкции, к которым применимы методы оптимизации второго порядка для дважды дифференцируемых функций. Но для выполнения последнего необходимо, чтобы при построении этих конструкций точки экстремума не исчезали и не появлялись новые.

В п. 1 предлагается именно такой способ сглаживания негладкой функции. Получившаяся в итоге функция будет непрерывно дифференцируемой. Если же к ней повторно применить описанную ниже операцию, то будем иметь дважды дифференцируемую функцию, обладающую точками экстремума, совпадающими с е-стационарными точками исходной функции. Новых (дополнительных) точек экстремума, кроме е-стационарных точек исходной функции, у построенной функции не будет. К дважды дифференцируемой функции вполне применимы методы оптимизации второго порядка, обладающие ускоренной сходимостью.

С помощью определенных нами функций можно перейти от локальной оптимизации негладких функций к локальной оптимизации гладких функций, а также оценить скорость сходимости к точке экстремума, что безусловно важно, поскольку можно разработать ускоренные оптимизационные методы для функций с разрывными градиентами. Подобных конструкций, насколько известно автору, никто ранее не предлагал.

1. Сглаживающие интегральные функции. Пусть /(■) : Кп — К — липшицева с константой Ь функция, х* — ее точка локального минимума (максимума) в Кп. Как известно, необходимое условие экстремума для липшицевой функции — принадлежность нуля субдифференциалу Кларка, т. е.

Любая точка, для которой выполняется это условие, называется также стационарной. Не все стационарные точки являются точками минимума или максимума.

Возьмем произвольное выпуклое компактное множество Б С Кп. Введем определение е(Б)-стационарной точки.

Определение. Точку хе назовем е(Б)-стационарной точкой функции /(■), если множеству хе + Б принадлежит стационарная точка функции /(■).

Если функция f (■) - сильно выпуклая, то данное определение хорошо согласуется с определением е-стационарной точкой для выпуклой функции [3], так как для сильно выпуклых функции расстояние от произвольной точки до множества е-стационарных точек оценивается сверху через изменения функции /(■).

Определим функцию ¥>(■) : Кп — К

где Б - произвольная область в Кп; х € гиЬБ; ц(Б) - мера области Б, ц(Б) > 0.

Очевидно, что <{>(■) - непрерывная функция. Покажем, что <{>(■) - липшицева функция с той же константой Липшица, что и у функции /(■). Действительно,

0 € д/(х*).

(1)

Б

I 4>{х\) ~4>{х2) I < I /(^1 +у) -Дж2 +у) | ¿у < [ Ь\\х1 -х2\\Лу <

Б

Б

< Ь\\х1 — х2||, х1,х2 € Кп.

Покажем, что р(-) - дифференцируемая функция. Функция /(■) липшицева, а поэтому она почти всюду п. в. дифференцируема в Нп. Обозначим через N(/) множество точек дифференцируемости функции /(■) в Нп. Известно, что N(/) всюду плотно в Нп и, в частности, в Б, так как ¡^(Б) > 0 по предположению. В любой точке г + х € N(/), г € Б, имеем

/(г + х + Ах) = /(г + х) + (/'(г + х), Ах) + о(Ах, г + х). (2)

В (2) о(Ах,г + х) - бесконечно малая функция, о(Ах,г + х)/||Ах|| ^ 0 при Ах ^ 0. Функция о(Ах, г + х) в (2), как нетрудно видеть, зависит не только от Ах, но и от г + х. Так как функция /(■) липшицева, то верна теорема о среднем

/ (х + г + Ах) - / (х + г) = (у, Ах) У г € Б, (3)

где у(хср) - обобщенный градиент функции /(■) в некоторой средней точке хср на отрезке [х + г,х + г + Ах], хср € [х + г,х + г + Ах], г € Б. Так как множество точек недифференцируемости функции /(■) есть множество меры нуль, то из (3) можно получить соответствующее интегральное равенство

// +.+- // + ^ = </ №ф + ы Ах), (4)

в в в

в котором хср € [х,х + Ах].

Действительно, функция ¥>(■) липшицева, а поэтому для нее справедлива теорема о среднем. Но поскольку верно равенство (3), то обобщенные градиенты функции ■) будут состоять из обобщенных градиентов функции /(■). Но так как точки диф-ференцируемости функции /(■) образуют множество полной меры, то обобщенный градиент функции ¥>(■) в точке хср равен

■ J /'(хср + г)¿г, в

ц(Б)

т. е. равенство (4) верно.

Известно, что субдифференциальное отображение Кларка в окрестности любой точки х € Нп равномерно п. св., т. е. для любого е > 0 существует 5 > 0, для которых верно включение

даь^(у) С ВП(0)+ даьф),

когда Цх - уЦ < 5, В11(0) = {г € Еп | ЦгЦ < е}.

Отсюда следует, что для любого е > 0 существует 5 > 0 и

!/ +г >Лг С!/ +

вв

если ||хср — хЦ < 5. Поэтому

J /'(хср + г)ё,г - I /'(х + г)ё,г —> 0

в

1

равномерно по Ах € ВП (0), когда Ах ^ 0,хср ^ х. Отсюда и из (4) имеем

У "(х + г + Ах)3,г - J "(х + г)с!г = ^ "'(х + г)3г, Ах) + о(Ах), в в в

где о(Ах)/||Ах|| ^ 0 при Ах ^ 0 равномерно по Ах. Следовательно, можно записать

ср(х + Ах) = ср(х) н--[(/'(г + х), Ах)д,г + о(Ах),

в

здесь о(Ах)/||Ах|| ^ 0 при Ах ^ 0 также равномерно по Ах. Отсюда вытекает, что

1

I" ь+х>'Ах)4г

ЛВ)

в

есть линейная составляющая в разложении по Ах функции ц>(х + Ах) в точке х. Поскольку Ах - произвольное приращение и х € Еп - произвольная точка пространства Еп, то ¥>(■) - дифференцируемая функция с производной

^'(х) = -щ I Г(г + х)гЬ. (5)

в

Если "(•) - липшицевая, то <£>'(■) есть непрерывная, поскольку "'(-)|| ^ Ь, и при малом изменении х значение интеграла также будет мало меняться.

Замечание 1. Интеграл здесь понимается в лебеговом смысле. Из приведенного доказательства вида производной функции ) следует существование интеграла в правой части равенства (5).

Замечание 2. Общеизвестные правила дифференцирования под знаком интеграла в данном случае не выполняются (подинтегральная функция недифференцируема). Поэтому применить дифференцирование под знаком интеграла (1) без дополнительного обоснования нельзя.

Таким образом доказана теорема.

Теорема 1. Для произвольной липшицевой функции "(■) : Еп ^ Е функция

Ах) = ~-Щ ! Кх +

в

где Б - произвольная область в Еп, х € гпЬБ, ц(Б) - мера области Б, /л(Б) > 0, есть непрерывно дифференцируемая функция с производной

1

4>'{х) = -¡щ J /'(* + х

Замечание 3. Производная функции " (•) берется в тех точках, где она существует. Пример 1. Пусть "(х) =| х |. Найдем у(х). Возьмем произвольное е > 0. Если х + е ^ 0, то

х+е

1

(р(х) = J (-у) ¿у = -х.

х—е

Если х - е ^ 0, то

Х + е

4>{х) = ^ J Шу = х.

Х — £

Если х - е < 0 и х + е > 0, то

0 Х+Е

= J (~у)(1у+ ! уЛу) = ^(х2 +е2).

Х — £ 0

Найдем производную функции Несложные вычисления дают следующий результат.

Если х + е < 0, то х) = -1. Сравним со значением, вычисляемым по формуле (5). Имеем

х+е

1

= 1 | (-!)<** = -1.

Если х - е > 0, то х) = 1. Если х - е < 0 и х + е > 0, то

0 Х+е

1 [ [ 1 х

(р\х) = —{ / (-1 )(1у+ / ¿у) = — (х-е + х + е) = -.

х—е 0

Видно, что величина для '(■), рассчитанная по формуле (5), совпадает с истинным значением производной.

Пример 2. Рассмотрим разрывную функцию

, ( -х, если х ^ 0, I(х) = | х +1, если х> 0.

Покажем, что ¥>(■), построенная согласно (1), - непрерывная, но ее производная - разрывная. Возьмем произвольное е > 0. Если х + е < 0, то

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

х+е

1

4>{х) = ^ J {~у)<1у = -х.

Если х - е > 0, то

Х+е

1

(р(х) = ! {1+у)д,у = х + 1.

Если х - е < 0 и х + е > 0 , то

Х0 Х+е

= 1(~У)Лу+ I {1 + уШ = ^(х2 +е2 +х + е).

х—е 0

Видно, что ¥*(■) - непрерывная функция. 74

х—е

х—е

х—е

Вычислим производную у'(•). Нетрудно показать, что

— 1, если х + е < 0, у'(х) = < 1, если х — е > 0

тг-(2ж+1), если х — е < 0 и х + е > 0.

Отсюда следует, что производная у'(-) - разрывная функция.

Из примера 2 видно, что непрерывность подинтегральной функции I(•) важна для непрерывности у'(-). Далее (см. теорему 2) будет показано, что если I(■) липшице-вая, то у' (•) также липшицевая функция. Рассмотрим функцию

ф(х) = -¡щ J <р(х + у¥у-

в

Тогда, поскольку у(-) липшицева, то, согласно предыдущему, будем иметь

ф'(х) = -щ I у'(г + х)гЬ. (6)

в

Примем, что у' (•) - липшицевая (это будет доказано ниже). Отсюда следует, что ф(-) -непрерывно дифференцируемая функция. Можно повторно продифференцировать (6). В итоге будем иметь

ф"(х) = -щ I у"(г + х)(1г, (7)

в

т. е. ф(-) - дважды дифференцируемая функция. Если у'(-) - липшицевая с константой Липшица Ь, то ||у''(-)|| ^ Ь, и ф(-) - дважды непрерывно дифференцируемая функция, для которой норма матрицы вторых производных ограничена константой Ь, т. е. Цф''(-)|| ^ Ь. Осталось показать, что у'(-) - липшицевая.

Теорема 2. Если I(■) - липшицевая функция в Еп, то у'(-) также липшицевая в Еп.

Доказательство. Возьмем две произвольные точки х,у € Еп. Согласно доказанному ранее,

I Г ..... I . ..

2 "

Тогда

¥>'(*) = / /'(* + ¥>'Ы = / А* + У)**-

вв

\\у'(х) - у'(у)\\ = -щ\\ I (Г (г + х)~ Г {у + г))сЬ\\ =

в

I'Шг + У I'(г)йгЦ,

р(Б)"

¿\Вг &В2

где ДБ1, ДБ2 - множества, получаемые вычитанием множеств х + Б и у + Б из друг друга:

ДБ1 = (х + Б)\(у + Б), ДБ2 = (у + Б)\(х + Б).

Но в Яп есть зависимости между АБ1, аБ2 и х - у. А именно, существует коэффициент к(Б,п) > 0, для которого справедливы неравенства

МАБ1) < к (Б, п)цх - у ||, ^(аБ2) < к (Б, п)цх - у ||,

в которых ^(аБ^), г = 1, 2, - меры множеств аБ^, г = 1, 2.

Для начала рассмотрим, например, шар и квадрат в Я2. Так, для шара с радиусом г, как это видно из рис. 1, I,

ц(аБ 1) АВ | 2г, ц(аБ2) БВ | 2г.

Но | АВ 2цх - у|| и | БВ 2цх - у||, поэтому

»(аБ1) < 4гцх - у||, ^(аБ2) < 4гцх - у||,

т. е. для шара на плоскости к (Б, п) = 4г.

/

г (

II

в

А

С В

Рис. 1. К выводу константы липшицевости производной для случаев шара (I) и квадрата (II)

Для квадрата проводим аналогичные рассуждения:

»(АБ1) < (\ АВ | + | СБ ^а,

где а - длина стороны квадрата. Но | АВ Цх - у|| и | СБ Цх - у|| (рис. 1, II). Отсюда

МАБ1) < 2аЦх - у||,

т. е. для квадрата на плоскости к(Б,п)*.

Приведем доказательство существования коэффициента к (Б, п) для произвольного выпуклого компактного множества Б.

Лемма. Для произвольной выпуклой фигуры D с Rn существует константа k(D,n) > 0, что верны неравенства

fi(aDi) < k(D,n)\\x — y||, v(aD2) < k(D, n)\\x — y|| vx,y e Rn.

Доказательство. Очевидно, достаточно провести доказательство для плоской выпуклой компактной фигуры. Пусть задано произвольное выпуклое компактное множество D с R2, изображенное на рис. 2. В произвольном сечении области aD1, пересекающейся с параллелограммом ABCD, параллельном стороне AB, отрезок области сечения по длине не превосходит длину стороны AB, которая, в свою очередь, равна \\x — y\\. Длина стороны BC не больше, чем диаметр d области D. Но поскольку площади параллелограмма ABCD и области aD1 складываются из сумм маленьких параллелограммов, так называемых частичных сумм, то в итоге получаем, что площадь области aD1 не превосходит площади параллелограмма ABCD, т. е. площадь параллелограмма ABCD не больше d\\x — y\\. Лемма доказана. □

Рис. 2. К доказательству липшицевости производной

Отсюда с учетом, что ц/'(х)|| ^ Ь для любого х е Яп, имеем

это и требовалось доказать, т. е. <//(•) - липшицева с константой .

Теорема доказана. □

Замечание 4. Из доказательства теоремы следует, что в качестве константы Ь можно взять 2Ьк(Б,п)/^(Б).

Замечание 5. Из вида константы к(Б,п) можно заключить, что в случае шара и куба в коэффициент Липшица Ь = зависит от области Б как где d - диаметр множества Б.

Замечание 6. Согласно теореме 2, функция р(^) почти всюду дважды дифференцируема. Интегрирование в (7) понимается, как и ранее, в смысле Лебега.

Замечание 7. Пример 1 подтверждает сделанный вывод насчет вида константы Липшица Ь производной Видно, что Ь зависит от диаметра множества И как

где d равен е-диаметру множества Б. Также из того же примера вытекает, что

0, если х + £ < 0, у" (х) = < 0, если х — £ > 0,

если х — £<0иж + е>0.

Нетрудно вычислить

Ф" (х)

0, если х + 2£ < 0, 0, если х — 2£ > 0, если х<0их+2е^0, , если х>0их-2е<0.

Отсюда видно, что ||у"(-)|| ^ Ь и \\ф"(■)! ^ Ь, а это подтверждает сделанный ранее вывод.

Следствие 1. Функция ф(-) имеет непрерывную вторую производную с константой Липшица Ь' = •

Доказательство. Поскольку ||у"(-)|| ^ Ь, то по аналогии с доказательством теоремы 2 можно показать, что функция ф(-) имеет вторую производную с констан-

„ т, Т, 2Ьк(0,п) Т т! 4Ьк2(0,п)

той Липшица Ь = —, или, если подставить значение для Ь, то Ь = м2(д , что и требовалось доказать. □

Замечание 8. Из вида константы к(О,п) можно заключить, что в случае шара и куба в Нп коэффициент Липшица V = 2Ьк(в,п) зависит от области О как -4-, где

3, - диаметр множества О. В примере 2 получили константу V в виде = уЦ-, что

2 1

является оценкой сверху действительной константы Липшица.

Если х - точка локального максимума или минимума функции I(■), то при достаточно малом г > 0 и О = БП-1(0) = {г € Ип | ||г|| ^ г}, точка х также есть точка локального минимума или максимума функции ¥>(■). Но в отличие от функции I(■) функция у(^) непрерывно дифференцируема. Аналогичное верно и для функции ф(■), т. е. точка х - точка локального минимума или максимума функции ф(■). Но в отличие от функций I(■) и у(^) функция ф(^) - дважды непрерывно дифференцируема, и для нее можно использовать оптимизационные методы второго порядка.

Функции ¥>(■) и ф(^) наряду с новыми также сохраняют многие свойства функции

I (■).

Теорема 3. Если I(■) - конечная выпуклая функция в Еп, то - также конечная выпуклая в Еп.

Доказательство. Известно, что для выпуклости функции ¥>(■) необходимо и достаточно [7], чтобы у(^) была дифференцируема по направлениям и для любого направления д € Нп функция

о/ \ // . ч 9<р(х + ад)

®Ч") = ч> Iх + а9, д) =--

была неубывающей на луче [0,

То, что функция у(^) дифференцируема по направлениям, следует из ее дифферен-цируемости. Сравним значения производных по произвольному направлению д € Нп функции ¥>(■) в точках х и х + ад. Имеем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в

< ад = + а* д) = / + Ч +

в

так как, согласно выпуклости функции f (■), выполняются неравенства для подинте-гральной функции

д/(х + у) д/(х + ад + у) дд дд

Теорема доказана. □

Также максимальные значения функции р(-) не могут быть больше максимальных значений функции ](■), а минимальные значения функции р(-) не могут быть меньше минимальных значений функции ](■).

Действительно, если справедливо неравенство

| /(х) К С Ух е Еп,

то, как легко видеть, верно и неравенство

I Ф) I \/(х + у)\(1у^С Ухе Д",

в

откуда и следует сделанное выше утверждение.

Очевидно, по индукции свойства функции ¥>(■) переносятся на функцию ф(/). Посмотрим, какими стационарными точками обладает функция ¥>(■). Согласно формуле (5), стационарной точкой х* функции ¥>(■) является такая точка, для которой

¥>'(**) = 11'(г + х^г = 0. (8)

в

Покажем, что тогда множеству х* + Б обязательно принадлежит стационарная точка функции /(■).

Интеграл в (8) можно с любой степенью точности 6 > 0 представить в виде конечной суммы

1 *

— + (9)

где N = N(6), Бг С Б - подобласти разбиения множества Б, к(Бг) - их меры, причем

N

^»(Бг)= КБ)-

г=1

Сумма (9) есть выпуклая оболочка векторов /'(хг + х*). Действительно

N N , . N

1 ^ , \/п \ ^ К(Бг)

■ ]Г Пъ + ФиШ = ]Г + Ф = т, + Ф, (10)

4 / г=1 г=1 4 ' г=1

гДе <*» -

= > а^0и £¿=1«* = Согласно равенству (8), сумма (10) при больших N = N(6) (малых 6) может быть сделана как угодно близкой к нулю. Поскольку выпуклая оболочка векторов — замкнутое множество и выпуклая оболочка обобщенных градиентов есть вектор, коллинеар-ный некоторому обобщенному градиенту функции ](■) в некоторой точке х* е х* +Б,

z G D, то получаем, что сумма (10) есть вектор, стремящийся при N ^ ж к нулевому обобщенному градиенту. Иначе говоря, существует точка x* + z G x* + D, z G D, с нулевым обобщенным градиентом функции f (■).

Поэтому множеству x* + D принадлежит стационарная точка x* + z функции f (■). Отсюда, согласно определению, x* есть е^)-стационарная точка. Таким образом, доказана следующая теорема.

Теорема 4. Все стационарные точки функции ¥>(■) являютсяe(D)-стационарными точками функции f (■).

Аналогичные рассуждения верны и для функции ф(^), т. е. верно

Следствие 2. Все стационарные точки функции ф(^) являются e(D)-стационарными точками функции ¥>(■) или е (2 D)-стационарными точками функции f (■).

Следствие 3. Если x* — точка локального минимума функции f (■), для которой существует окрестность S, x* G int S, где

f (z) > f (x*) Vz G S,

то найдутся выпуклое компактное множество D и точка y G S, где y) = 0 и x* G y + D С S, т. е. точка y является e(D)-стационарной точкой функции f (■).

Аналогичное справедливо и для точки локального максимума функции f (■).

Приведем пример функции ¥>(■), которая не имеет стационарных точек ни при каком D, хотя исходная функция f (■) их имеет.

Пример 3. Рассмотрим функцию f (x) = x3, x G R. Начало координат — стационарная точка функции f (■), так как f '(0) = 0. Однако y(x) = x(x2 + 1) для D = [—1,1] и ^>'(x) = 3x2 + 1 > 0 для любых x G R, т. е. функция ) не имеет стационарных точек. Легко проверить, что сказанное справедливо для любого множества D.

Для нахождения е(2D)-стационарных точек функции f (■) следует применять методы второго порядка к функции ф(■). Если выполнены условия, сформулированные в [8], то численный метод будет сходиться с квадратичной скоростью. Будет приведен численный метод оптимизации, сходящийся быстрее любой геометрической прогрессии к стационарной точке функции f (■).

2. Алгоритм нахождения е(2D)-стационарных точек, сходящийся со сверхлинейной скоростью. Поскольку для матрицы вторых производных функции ф(^) выполняется неравенство ||ф''(-)|| ^ L, то, если для любой фиксированной точки x G Rn вместо функции ф(^) рассмотреть функцию ф(^) : R ^ Rn:

ky,x) = ф(у) + 2ЬЦу — x||2 для y G Rn, в результате будет иметь место неравенство

LHzH2 < x)z, z) < llUzf Vz G Rn,

где V2ф(■,x)ф''(■,x) - матрица вторых производных функции по переменной у.

Заметим, что если функция ф(^) ограничена снизу, то функция ф(^,x) также ограничена снизу для любых точек x и y из Rn. Кроме того, Vф^^уЧф(x), где Vф^^) — градиент функции Vф(■, x) в точке y = x.

Оптимизационный процесс поиска стационарной точки функции ф(■). Пусть точка xu на k-м шаге уже построена. Построим точку xu+i. Положим, по определению, фи (■)Ф(^,xk).

1. Вычисляем Аи = —(V2фи(xk))-1Vфk(xu).

2. Находим такое целое неотрицательное число lu, для которого

4>k(xu + 2-lk Аи) < фи (xu) — 2-2lk ||Аи |2 . (11)

3. Полагаем xu+i = xu + 2-lkАи, k = k +1, и переходим к операции 1. Покажем, что число lu, о котором говорится в операции 1, найдется. Разложим функцию фи(■) в окрестности точки xu в ряд Тейлора:

фи(xu + аАи) = фи(xu) + a(V^(xu), Аи) + ou(||аАи||), (12)

где ou(|| ■ ||) - равномерно по k бесконечно малая функция. Так как Аи = —(V2фи(xu))-1 V фи (xu), то V фи (xu) = —V2 фи (xu)Au. Тогда (V^u (xu), Аи) = —(V2 фи (xu )Аи, Аи). Поэтому (12) перепишем в виде

фи (xu + аАи) = фи (xu) — а (V2 фиЫ)А и, Аи )+ou (||аАи||). (13)

Так как ou(|| ■ ||) — равномерно по k бесконечно малая функция, то для больших k справедливо неравенство

( IIA Ih ^ allAfcll ou{a Afc <

N (а||Аи Ю

в котором N(а||Аи||) ^ ж при а||Аи|| ^ 0. Тогда из (13) имеем

фи(xu + аАи) < <Pu(xu) — аLЦАk|| +

«А

N (а||Аи|

= фи(хк) - а||Дк||(1||Дк|| - тт^-^)-

N (а\\Ди\\)

При аЦД^Ц —> 0 величина ц) стремится к нулю, а значит, и для малых ||У</>(жй)||

Гид и 1 >

Поэтому при достаточно малых \\Уф(хи)\\ верно неравенство

фи{хк + аАк) < Фк{хи) ~ а^\\Ак\\2 (15)

для любых а € [0,1]. Отсюда следует, что \\Уфи(хи)\\ стремится к нулю при к ^ то, так как в противном случае, как вытекает из (15), функция фи(•) убывала бы на величину ск^||Дй||2 вдоль направления Аи на к-м шаге. Последнее противоречит ограниченности снизу функции фи(•) для всех к.

Из равномерной малости по к величины ||) вытекает, что для малых ||Д&||

неравенство (14) будет выполняться при а = 1. Следовательно, неравенство (11) выполняется для 1и, для которых = 2~21к.

Теорема 5. Последовательность {хи}, построенная согласно алгоритму 1-3, сходится к единственной стационарной точке х* функции ф(-). Для больших к верна следующая оценка для скорости сходимости метода:

\\хи - х*\\ < ^и(Ди)\\х1 - х*\\, (16)

где V(Ди) ^и 0, когда \\Ди\\ ^и 0.

Доказательство. Верны равенства

Дк+1 = —(У2фк+1(хн+1 ))-1Уфк+1 (хк+1), уфк(хк+1) = Ок(\Дк\\),

в которых о к (■) - бесконечно малая функция, входящая в разложение в ряд Тейлора градиента 'Чф к(■) с точностью до членов первого порядка малости в окрестности точки хк. Но так как добавление функции вида 2Ь\\х — у\\2 к функции ф(у) не изменяет бесконечно малую функцию, получающуюся от разложения в ряд Тейлора функции Уф(у) в окрестности произвольной точки у = х, то можно заключить, что

Уфк(хк+1) = Щ(хк+1) = Ок (||Дк\\)-

Но очевидно, что Уф(хк+1) = Уфк+1(хк+1). Поэтому Уфк+1(хк+1) = Ок(\Дк\).

Так как функция ф(^) имеет непрерывную вторую производную, удовлетворяющую условию Липшица, то Ок(■) - равномерно по к бесконечно малая функция. Отсюда

N (\Дк\)

и

1-1

где N(\Дк\) ^ то, когда \Дк\ ^ 0. Для больших к верно

I-1

0< щ\\ак\\)<1-Потому последовательность {хк} сходится к единственной точке х* и

Их X II < V ИД || (¿-7^(11 А»||))||А»||

Так как

т-1

то

(Ф/Щ\\Ак\\))к+1\\Ы\

Хь+1 —х* < -г-.

Таким образом, неравенство (16) доказано. □

Замечание 9. Неравенство (16) доказывает сверхлинейную скорость сходимости метода. Действительно, коэффициент между Цхк+1 — х*\\ и \х1 — х* \ имеет вид где Цк ^ 0, когда к ^то.

З а м е ч а н и е 10. Построенный оптимизационный процесс ищет стационарную точку, подозрительную на локальный минимум. Для поиска стационарной точки, подозрительной на локальный максимум, требуется повторить описанный процесс уже для функции —ф().

Замечание 11. Неравенство (16) доказывает сверхлинейную скорость сходимости метода. Действительно, коэффициент между Цхк+1 — х*\\ и \х1 — х* \ имеет вид где цк ^ 0, когда к ^то.

3. Заключение. В данной работе предложен метод поиска е(Д)-стационарной точки функции f (■). Для поиска стационарных точек функции f (■) следует в процессе поиска е(Д)-стационарных точек уменьшать диаметр множества D. Для обеспечения высокой скорости сходимости надо это делать согласованно с уменьшением шага оптимизационного процесса. Подробности будут описаны в последующих работах.

Литература

1. Пшеничным Б. Н., Данилин Ю. М. Численные методы в экстремальных задачах. М.: Наука, 1975. 319 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Proudnikov I. M. New constructions for local approximation of Lipschitz functions. I // Nonlinear analysis. 2003. Vol. 53, N 3. P. 373-390.

3. Rocafellar R. T. Convex analysis. New York: Willey, 1972. 468 p.

4. Демьянов В. Ф., Рубинов А. М. Основы негладкого анализа. Квазидифференциальное исчисление. М.: Наука, 1990. 432 с.

5. Прудников И. М. Субдифференциал Кларка для липшицевых многозначных отображений // Кибернетика (Киев). 1992. № 1. С. 176-180.

6. Прудников И. М. Нижние выпуклые аппроксимации для липшицевых функций // Журн. вы-числ. математики и мат. физики. 2000. Т. 40, № 3. С. 378-386.

7. Пшеничным Б. Н. Выпуклый анализ и экстремальные задачи. М.: Наука, 1980. 320 с.

8. Канторович Л. В., Акилов Г. П. Функциональный анализ. М.: Наука, 1984. 752 с.

9. Шор Н. З. Методы минимизации недифференцируемых функций и их приложения. Киев: Нау-кова думка, 1979. 199 с.

10. Нурминский Е. А. Квазиградиентный метод решения задачи нелинейного программирования // Кибернетика. 1973. № 1. C. 122-125.

11. Полякова Л. Н. О методе точных штрафных функций // Журн. вычисл. математики и мат. физики. 2001. Т. 41, № 2. С. 225-238.

12. Clarke F. N. Optimization and nonsmooth analysis. New York: Wiley, 1983. 308 p.

Статья рекомендована к печати проф. В. Ф. Демьяновым. Статья принята к печати 24 декабря 2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.