УДК 519.676
А.С.Тихомиров СМЕСИ ГЛОБАЛЬНЫХ И ЛОКАЛЬНЫХ МЕТОДОВ ПОИСКА ЭКСТРЕМУМА
Mixtures of deterministic and stochastic methods of searching for the extremum of a function are investigated. It is proved that they inherit the good properties of the methods they combine.
Введение
Рассмотрим важную с практической точки зрения задачу поиска максимального значения целевой функции f. При этом будем полагать, что функция f обладает «хорошими» свойствами только в некоторой окрестности точки максимума, а в остальной области функция f может быть многоэкстремальной и недифференцируемой. В этом случае решить поставленную задачу с помощью только локальных методов оптимизации (например, с помощью градиентного метода) невозможно и приходится использовать комбинации локальных [1,2] и глобальных [3] методов оптимизации. В данной работе в качестве такой комбинации исследуется смесь локальных методов оптимизации [1,2] и однородного марковского случайного поиска [4,5]. Полученные результаты обобщают и улучшают результаты [6].
Пусть выбран некоторый метод локальной оптимизации (т.е. метод поиска локального максимума целевой функции) и один из (глобальных) методов однородного монотонного симметричного случайного поиска, описанных в [4,5]. Общая идея состоит в том, что на каждом шаге нового поиска с некоторой вероятностью применяется локальный метод и с дополнительной вероятностью — глобальный случайный поиск. На целевую функцию f при этом налагаются ограничения, обеспечивающие реализуемость и быструю сходимость выбранного локального метода в некоторой (заранее неизвестной) окрестности экстремума. Оказывается, что в этой ситуации порядок трудоемкости смеси поисков наследует свойства более быстрого локального метода.
1. Постановка задачи
1.1. Пространство оптимизации
Назовем пространством оптимизации множество оптимизации X, снабженное метрикой р. Мы ограничимся случаем X = Rк и следующими вариантами метрик р(х, у) для Rк :
Гк Y7 v
р v (х, у) = |У | xt - у, |v , р ш (х у) = maxi хг - yt ^
1</<к
V ,=1 У
где v > 1 — любое фиксированное число, х = (х1,..., хк) и у = (у1,..., ук). Замкнутый шар радиуса r с центром в х обозначим как Sr (х) = {у е Rк : р(х, у) < r}.
1.2. Целевая функция
В дальнейшем всегда будет предполагаться, что целевая функция f: Rk a R ограничена сверху, измерима и удовлетворяет следующим условиям.
Условие 1. Функция f принимает максимальное значение в единственной точке х0 = argmax{ f (х): х е Rk }.
Условие 2. Функция f непрерывна в точке х0.
Условие 3. Неравенство sup{f (х): х g Sr (х0)} < f (х0) выполнено для любого r > 0.
Ввиду условия 3 из сходимости f (xn) a f (х0) следует, что р(xn, х0) а 0. Отметим, что функции указанного класса могут быть многоэкстремальными. Дополнительные ограничения на целевую функцию будут введены ниже.
1.3. Случайный поиск
Случайным поиском называется произвольная (конечная или бесконечная) последовательность случайных величин {4i }г>0 со значениями в Rk. Если последовательность {4i }i>0 образует марковскую цепь относительно потока ст -алгебр с(40,...,4i), то поиск называется марковским, а если для любого i > 0 неравенство f (4i) > f (4г-1) выполняется с вероятностью 1, то поиск является монотонным. Далее будут изучаться однородные марковские монотонные случайные поиски с переходными функциями специального вида.
Опишем класс исследуемых поисков. Обозначив Bx = {у е Rk : f (у) > f (х)}, рассмотрим однородную марковскую цепь {4i }г>0 с начальной точкой 4 0 = х и переходными функциями
R(х, •) = 5х (•)P(x, Всх) + P(х, • П Bx), (1)
где через 5х обозначено распределение, сосредоточенное в точке х, а Бсх — дополнение множества Вх. Как обычно, Р(х, •) при любом х е Rk является вероятностной мерой, и Р( •, A) для любого борелевского множества A является борелевской функцией в Rk. Очевидно, что R(х, Вх) = 1, и, значит, неравенства f (4,) > f (4i-1) выполняются с вероятностью 1 при всех i > 0.
Запишем алгоритм моделирования n шагов описанного поиска. Обозначение « n ^ Р( •)» читается как «получить реализацию случайного вектора п с распределением P ».
Алгоритм 1
Шаг 1. 4 0 ^ х, i ^ 1.
Шаг 2. n ^ P(| i-1, •).
Шаг 3. Если f (n) > f (4i-1), то 4г- ^ п, иначе 4г- ^ 4,ч.
Шаг 4. Если i < n, то i ^ i +1 и перейти к шагу 2, иначе — STOP.
Ниже для математических ожиданий случайных величин, связанных со случайным поиском алгоритма 1, начинающимся в точке х е Rk, используется обозначение E х.
1.4. Информация о целевой функции
При изучении случайного поиска нам придется анализировать попадание поиска в окрестность Sr (х0) точки максимума х0. Может, однако, случиться так, что поиск, оказавшись в Sr (х0) на шаге i, выйдет из Sr (х0) на следующем шаге. Чтобы избежать анализа таких эффектов, введем множества
Mr = {х е Sr (х0 ) : f (х) > f (у) для любого у g Sr (х0)}.
Легко видеть, что множества Mr обладают следующими свойствами: а) если r > и, то Mr з Mu, б) если х е Mr и у g Mr, то f (х) > f (у). В силу своей монотонности поиск, попав во множество Mr , из него больше не выйдет. Поэтому мы будем изучать момент попадания поиска во множество Mr , а не в шар Sr (х0 ) (где r сохраняет смысл достигну-
той точности поиска). Соответственно мерой близости точки х к х0 оказывается не расстояние р(х, х0), а число
5(х) = шДг > 0: х е Мг}.
Нам потребуется еще одно ограничение на поведение целевой функции у
Условие 4. и г>0 Мг = Як.
Это условие гарантирует попадание любой начальной точки поиска во множество Мг при некотором г. В силу своей монотонности поиск не может покинуть множество Мг и, значит, не может неограниченно удаляться от точки х0.
В задачах оптимизации сведения о целевой функции у присутствуют в двух видах. Во-первых, от свойств функции у зависит скорость сходимости случайного поиска к точке экстремума (и оценки этой скорости). Во-вторых, некоторые заранее известные характеристики целевой функции могут использоваться в качестве априорной информации при построении поиска. Ниже информация о целевой функции у будет содержатся в виде функции асимметрии
т(г) = ту (г) = тез(Мг), (2)
где тез означает к-мерную меру Лебега. Отметим несколько важных свойств функции асимметрии ту и функции 5 (доказанных в [5]).
1. ту (0) = 0, 0 < ту (г) < тез(^г (х0)) при г > 0.
2. Функция асимметрии т^ является непрерывной справа, неубывающей, и т у (+то) = +да.
3. При всех х е
к к
выполнены соотношения: 5( х) <+да и х е М 5( х).
Подробнее свойства множества Мг и функции асимметрии ту обсуждаются в [4,5].
1.5. Цель и характеристики случайного поиска
Случайный поиск используем для оценки максимального значения целевой функции у с заданной точностью е > 0 (аппроксимация «по функции»). В этом случае нас интересует попадание поиска во множество
Ае = {х е Як : у(х) > у(х0) - е}.
Отметим, что монотонный поиск, попав во множество Ае, из него больше не выйдет. Положим п = +да в алгоритме 1 и обозначим
Те = тт{/ > 0: £г е Ае}.
В этой работе мы ограничимся изучением одной характеристики случайной величины те. Трудоемкость случайного поиска определяется как Ехте и имеет смысл среднего числа шагов поиска до достижения им множества Ае.
1.6. Метод локальной оптимизации
Пусть Я > 0 и ф : Як а Як — отображение, задающее итерационный метод локальной оптимизации у+ = ф(у-) с начальной точкой у0 е МЯ.
На отображение ф и функцию у накладывается следующее ограничение.
Условие 5. Существует такое 0 < а < 1, что при всех у е МЯ
у(х0) - у(ф(у)) < а(у(х0) - у(у)). (3)
При выполнении условия (3) при любом у0 е МЯ очевидным образом справедливо неравенство
у(х0) - у(Ут) < ат (у(х0) - у(у0 ЭХ т = 1,2,к
Неравенство (4) позволяет оценить число шагов локального метода, обеспечивающее требуемую точность е > 0 решения задачи при любой начальной точке у0 е МЯ . Обозначим
А = яир{ у (х0) - у (у): у е Мк } (5)
и положим при е < Д
К(е, Я, ф) = |"1п(е / Д) / 1п а]. (6)
Тогда из (4) следует, что величина К = К(е, Я, ф) гарантирует выполнение неравенства у(х0) - у(ук ) < е для любого у0 е Мя .
1.7. Исследуемая смесь поисков
Опишем теперь изучаемую смесь поисков. Пусть 0 < р < 1 (р — константа). Рассмотрим случайный поиск алгоритма 1 с переходной функцией Р вида
Р(х, •) = (1 - р)Р] (х, •) + рР2(х, •). (7)
Предполагается, что переходная функция Р1 (х, •) обладает симметричной плотностью д(х, у) вида
д( х, у) = g (р( х, у)), (8)
где р — метрика, а g — невозрастающая неотрицательная функция, определенная на полуоси (0,+»). Легко видеть, что тогда д(х, х + у) = д(0,у) при всех у Ф 0, х е Як. Функцию g будем называть формой поиска, а также формой переходной плотности д. Не умаляя общности будем считать, что функция g непрерывна слева.
При 0 < е < д < 5 введем величину
I(5, ^е;у, g) = 1-— + [ —(9)
ш(ц)g(д + 5^ ^ г(2г) ^т(г))
(е,^]
Здесь ш — функция асимметрии, введенная в (2), а g — форма поиска. Интеграл в правой части (9) понимается в смысле Лебега-Стилтьеса. Отметим, что функция асимметрии т не
убывает и отделена от нуля на промежутке [г,+») при любом г > 0. Форма поиска g не
возрастает и отделена от нуля на промежутке (0, г], если только g(г) > 0. Поэтому в случае
g(д + 5) > 0 величина I определена и конечна. Величина I используется (см. [5]) при оценке
трудоемкости глобальной составляющей исследуемого поиска.
Что касается Р2 (х, •), то она соответствует одному шагу х а ф(х) локального поиска:
Р2(х, •) = 5ф(х)( • ). (10)
2. Результаты
Основой результатов, относящихся к смесям глобальных и локальных методов поиска, является следующее утверждение.
Теорема 1. Пусть целевая функция у удовлетворяет условиям 1-4. Зафиксируем точку
х е Як и числа е, Я, д такие, что 0 < Я < д < 5(х) и 0 < е < Д. Пусть отображение ф и функция у удовлетворяют условию 5, переходная функция Р1 обладает плотностью вида (8) и g(д + 5(х)) > 0, переходная функция Р2 задается формулой (10). Тогда для трудоемкости однородного марковского поиска алгоритма 1 с переходной функцией (7) справедлива оценка
ЕхТе < I(5(х), д,Я; у,g)/(1 - р) + К(е,Я, ф)/р, (11)
где К, g и I определяются формулами (6), (8) и (9).
Замечание 1. При 5(х) < Я в правой части (11) остается лишь второе слагаемое, а при е > Д — только первое.
Обсудим теперь утверждение теоремы 1 с содержательной точки зрения. Второе слагаемое в правой части (11) имеет по е порядок, определяемый локальным поиском х а ф( х). При этом первое слагаемое в правой части (11) всегда конечно и, если функция формы g и величина Я не зависят от требуемой точности е, является константой по е. Поэтому и в целом оценка (11) имеет порядок роста 0(| 1п е|) при е а 0, определяемый свойствами локального поиска.
Структура поиска теоремы 1 может быть объяснена следующим образом. Поиск теоремы 1 имеет «глобальную составляющую», определяемую переходной функцией Р1, и «локальную составляющую», соответствующую локальному методу х а ф(х). Глобальные и локальные шаги поиска чередуются в случайном порядке, причем глобальная составляющая обеспечивает попадание в МЯ за конечное (в среднем) число шагов, оцениваемое сверху первым слагаемым в правой части (11). В то же время локальная составляющая является «ответственной» за дальнейшее поведение поиска, т.е. за его попадание из МЯ в Ае. Этому соответствует второе слагаемое правой части (11).
Замечание 2. 1. Единственным ограничением на глобальную составляющую поиска теоремы 1 является условие положительности g. При этом для уменьшения I можно выбрать g в соответствии с рекомендациями [4,5].
2. Существенно, что при построении смеси поисков не требуется информация о величине Я, т.е. о размере окрестности точки х0, в которой выполняется (3).
3. Если исключить локальную составляющую поиска (т.е. если вместо переходной функции (7) взять Р1 ), то приведенная в [4] оценка трудоемкости даст лишь
Ехте = 0(1п2 е). Если же исключить глобальную составляющую поиска и применить только локальный метод, то сходимость вообще нельзя гарантировать.
4. Вообще говоря, не обязательно устраивать вероятностную смесь из поисков. Методы можно просто чередовать: каждый нечетный шаг делать шагом глобальной оптимизации, а каждый четный шаг — шагом локального метода. При этом будет верна оценка (11) с р = 1/2.
Характерным примером описанной конструкции служит использования в качестве перехода х а ф(х) одного шага градиентного метода (см., напр., [1,2]).
3. Пример использования градиентного метода
Пусть р = р 2 и дополнительно к условиям 1-4 при некотором Я > 0 выполняются следующие условия.
Условие 6. В окрестности 8Я (х0) точки х0 функция у является непрерывно дифференцируемой, а ее градиент у' удовлетворяет условию Липшица с константой Ь.
Условие 7. В $Я (х0) функция у является сильно выпуклой вверх с константой 1 (см. [2]), т.е. для любых х,у е 8Я (х0) и любого V е [0,1] справедливо неравенство у (ух + (1 - V) у ) > V (х) + (1 - V) у (у) + у(1 - у)1р2 (х, у).
Из условий 1, 6, 7 следует, что при х е $Я (х0) выполнено неравенство
£р2(хх0) < у(х0)-у(х) < Ьр2(хх0)12.
Кроме того Д < ЬК2 /2..
Будем говорить, что функция /регулярна в точке х е Як, если она непрерывно дифференцируема в этой точке. Пусть х — точка регулярности функции / Тогда шаг градиентного метода из точки регулярности задается отображением х а 5(х) вида
5(х) = х + Р( х) /'(х) (12)
где величина в > 0 называется длиной шага метода.
Согласно нашим предположениям, множество точек регулярности функции / не обязано совпадать с Як. Поэтому положим
Г^(х), если / регулярна в точке х,
Ф( х) = ] (13)
[х, если иначе.
Таким образом, если величина в(х) задана для всех точек регулярности, то поиск, определяемый равенствами (7) и (10), полностью определен.
Один шаг 4 п а 4 п+1 этого поиска может быть описан следующим образом. С вероятностью 1 - р моделируется случайный вектор п, имеющий распределение Р1(4 п, •). С вероятностью же р происходит следующая процедура. Если в точке 4 п функция / регулярна, то полагаем п = 4п + в(4п)/ 44п), если же/не регулярна в точке 4п, то п = 4п. Когда вектор п определен, происходит сравнение величин /(4п) и /(п) . Если /(п) > /(4п), то
4п+1 = п, в противном случае 4п+1 = 4п.
Для градиентного и аналогичных ему методов существует много способов выбора длины шага. Мы ограничимся здесь простейшим случаем постоянной длины шага в( х) = в 0 < 2/ Ь. Тогда при выполнении условий 1-4,6,7 справедливо условие 5 с а = 1 - 1в 0 (2 - Ьв 0), и, значит,
К (е, К, Ф) = Г 1п(2в/ьК > '
^ ^ 1п(1 - 1в 0 (2 - Ьв 0))
Таким образом, мы получили следующее утверждение.
Теорема 2. Пусть функция /удовлетворяет условиям 1-4,6,7, и пусть 0 < К < д < 5( х)
и 0<е<ЬК2/2. Пусть переходная функция Р1 обладает плотностью вида (8) и g(д + 5(х)) > 0. Наконец, пусть переходная функция Р2 имеет вид (10), где отображение ф задано равенствами (12), (13), а в(х) = в0 < 2/ Ь . Тогда трудоемкость поиска удовлетворяет неравенству
ЕхтЕ <---I(8(х), д,К; /, g) +1 1- р р
1п(2е / ЬК 2 )
(14)
1п(1 - 1в0 (2 - Ьв0))
Замечание 3. 1. При использовании градиентного метода требуется дополнительная информация, связанная с выбором длины шага. В данном случае этой информацией служит оценка сверху Ь0 константы Липшица Ь: если Ь < Ь0 и число Ь0 нам известно, то мы можем положить в0 = 1/Ь0 = а^шах{и(2 - Ь0и): и > 0}.
2. Кроме того предполагается, что для каждой точки х е Як мы знаем, является ли она точкой регулярности функции / или нет, и можем аналитически вычислять /' в любой точке регулярности.
3. Легко улучшить алгоритмические свойства метода. Например, если х не является точкой регулярности функции / то можно брать Р(х, •) = Р1(х, •) вместо (7). Неравенство (14) при этом сохранится.
4. В данном разделе выбор градиентного метода с постоянным шагом в качестве локальной составляющей поиска (7) является лишь простым и легко анализируемым примером. Существуют многочисленные примеры локальных поисков, обладающих такими же свойствами. Сюда относятся (см., напр., [1,2]) методы спуска (поскольку наша задача состоит в локализации точки максимума целевой функции, здесь уместно говорить о методах подъема). Для этих методов характерно число шагов К(е, К, ф) = 0(| 1пе|) с теми же дополнительными условиями 6 и 7 на функцию / В то же время методы подъема могут отличаться необходимой для их реализации априорной информацией и трудоемкостью (так как их шаги могут требовать дополнительных вычислений). Можно использовать локальные методы и без требования сильной выпуклости, но тогда, вообще говоря, логарифмический по е порядок для К получить не удается.
5. Аналогичные результаты могут быть получены и для методов второго порядка. Пусть для итерационного метода локальной оптимизации вместо условия 5 выполнено следующее условие.
Условие 8. Существует такое а > 0, что при всех у е МК
/(х0)- Дф(У» < а(/(х0)-/(У))2, аД <1 (15)
(Д определено в (5)).
Если неравенство (15) выполнено, то при любом у0 е МК
/(х0)-/(Ут) < (аД)2 /а, т = 1,2,...
Для трудоемкости смеси глобального случайного поиска с таким методом локальной оптимизации справедлив аналог теоремы 1, в котором величина К при е < Д определяется формулой
К (е, К, ф) = |~1п(1п(а£)/1п(аД))/1п2~|.
Таким образом, Е х те = 0(1п|1п е|). Условие 8 выполняется, например, для метода Ньютона [1,2] при соответствующих ограничениях на /
1. Карманов В.Г. Математическое программирование. М.: Физматлит, 2000. 264 с.
2. Васильев Ф.П. Численные методы решения экстремальных задач. М.: Наука, 1988. 552 с.
3. Жиглявский А.А., Жилинскас А.Г. Методы поиска глобального экстремума. М.: Наука, 1991. 248 с.
4. Тихомиров А.С., Некруткин В.В. // Математические модели. Теория и приложения. Вып. 4 / Под ред.
М.К. Чиркова. СПб.: НИИХ СПбГУ, 2004. С.3-47.
5. Тихомиров А.С. // Деп. в ВИНИТИ №1452-В2004 от 7.09.04. 66 с.
6. Тихомиров А.С. // Журнал вычислительной математики и математической физики. 1996. Т.36. №9.
С.50-59.