УДК 519.676
А.С.Тихомиров
О СКОРОСТИ СХОДИМОСТИ МАРКОВСКОГО МОНОТОННОГО ПОИСКА ЭКСТРЕМУМА
Институт электронных и информационных систем НовГУ
An estimate of the convergence rate of some Markov monotone random search optimization algorithms is obtained. This estimate is used to construct a class of fast optimization methods. It is shown that the number of evaluations of the objective function required for achieving a given accuracy £ increases slowly (logarithmically) as £ tends to zero.
Введение
Рассмотрим семейство хорошо известных алгоритмов случайного поиска экстремума функции (см. [1-5]). Такие методы успешно используются при решении сложных задач оптимизации (см. [4]). Тем не менее, существует мало теоретических результатов
о скорости сходимости этих алгоритмов. Существенное отставание теории глобального случайного поиска от потребностей практики отмечено в [3] и ясно видно по [5]. Теоретическому исследованию случайного поиска и посвящена данная работа. В ней пред-
ставлена оценка скорости сходимости марковских алгоритмов случайного поиска экстремума функции и с ее помощью построены «быстрые» алгоритмы, принадлежащие рассматриваемому классу.
Метод поиска будем называть «быстрым», если число вычислений целевой функции, требуемое для достижения заданной точности е , имеет медленный (логарифмический) порядок роста при стремлении е к нулю. Примеры быстрых алгоритмов случайного поиска можно найти в [6-11], результаты которых данная работа дополняет и улучшает. Доказательства всех утверждений приведены в [12].
1. Постановка задачи 1.1. Пространство оптимизации
Назовем пространством оптимизации множество оптимизации X, снабженное метрикой р . Мы ограничимся случаем X = Rd , d-мерной мерой Лебега mes и следующими вариантами метрик р(x, y) для Rd:
( d
PY(x,y) = |У | x, -yt |Y , рш (x,y) = max| х, -yt ^
' 1<i<d
V i=i у
где у >1 — любое фиксированное число, х = (x1,...,xd) и y = (y1,. ., yd). Замкнутый шар радиуса r с центром в точке х обозначим как Sr (х) = {y e Rd : р(х, y) < r} и положим ф(г) = mes(Sr (х)).
1.2. Целевая функция
В дальнейшем всегда будет предполагаться, что целевая функция f: Rd a R ограничена сверху,
измерима и удовлетворяет следующим условиям.
Условие 1. Функция f принимает максимальное значение в единственной точке х0 =
= argmax{ f (х): х e Rd }.
Условие 2. Функция f непрерывна в точке х0.
Условие 3. Неравенство sup{ f (х): х g Sr (х0)} < < f (х0) выполнено для любого r > 0 .
Ввиду условия 3 из сходимости f (х,) a f (х0) следует, что р(х,, х0) a 0 . Отметим, что функции указанного класса могут быть многоэкстремальными в любой окрестности глобального максимума. Еще одно условие на целевую функцию будет введено ниже.
1.3. Случайный поиск
Случайным поиском называется произвольная (конечная или бесконечная) последовательность случайных величин {4i }i>0 со значениями в Rd . Применим случайный поиск для оценки точки максимума х0 с заданной положительной точностью е > 0 и опишем исследуемый поиск с помощью алгоритма моделирования. Обозначение « q ^ Р( •)» читается так: «получить реализацию случайного вектора q с распределением Р».
Алгоритм 1
Шаг 1. 4 0 ^ х, i ^ 1.
Шаг 2. q ^ р (4,.-!, •).
Шаг 3. Если f (q) > f (4г-1), то 4i ^ q, иначе
4, ^ 4, -1.
Шаг 4. Если i < N , то i ^ i +1 и перейти к шагу 2, иначе STOP.
Здесь х — начальная точка поиска, N — число шагов поиска, а р (х, •) — вспомогательные переходные функции. В соответствии со структурой алгоритма 1 распределения р (х, •) назовем пробными переходными функциями. Отметим, что введенный случай-
ный поиск является монотонным в том смысле, что неравенства /(4,) ^ /(4г--1) выполняются при всех
I > 0 . Описанный поиск назовем марковским монотонным случайным поиском.
Ниже для вероятностей событий и математических ожиданий случайных величин, связанных со случайным поиском алгоритма 1, начинающимся в точке х е Яа , используются обозначения Рх и Ех .
Далее большое внимание будет уделено однородному марковскому монотонному случайному поиску, пробные переходные функции Р(х, • ) = Р (х, • ) которого не зависят от номера шага / и обладают симметричной плотностью вида р(х,у) = g(р(х,у)), где р — метрика, а g — невозрастающая неотрицательная функция, определенная на полуоси (0,+да). Функцию g назовем формой поиска. Чтобы функция р( х, у) = g (р( х, у)) была плотностью, форма поиска g должна удовлетворять условию нормировки
| g (г )ф(г) = 1. (1)
(0,+вд)
Не умаляя общности будем считать, что функция g непрерывна слева. Описанный однородный поиск будем называть однородным марковским монотонным симметричным случайным поиском.
1.4. Цель поиска
Случайный поиск используем для отыскания точки максимума х0 с заданной точностью £ (аппроксимация «по аргументу»). При этом нас должно интересовать попадание поиска в шар Бе (х0). Может, однако, случиться так, что поиск, оказавшись в Бе (х0) на шаге /, выйдет из Бе (х0) на одном из следующих шагов. Чтобы избежать анализа таких эффектов, введем множества
Мг = М (г) = {х е Бг (хо): / (х) > / (у)
для любого у г Бг(х0)}. Легко видеть, что множества Мг обладают следующими свойствами: а) если г < и , то Мг с Ми, б) если х е Мг и у г Мг, то /(х) > /(у). В силу условий, наложенных на целевую функцию, те$(Мг) > 0 при всех г > 0 , а монотонный поиск, попав в множество Мг , из него больше не выйдет. Поэтому мы будем изучать момент попадания поиска в множество М£, где £ сохраняет смысл требуемой точности поиска.
1.5. Информация о целевой функции
Нам потребуется еще одно ограничение на поведение целевой функции /.
Условие 4. иг>0 Мг = Яа .
Это условие гарантирует попадание любой начальной точки поиска в множество Мг при некотором г. В силу своей монотонности, поиск не может покинуть множество Мг и, значит, не может неограниченно удаляться от точки х0. Далее всегда будем полагать, что рассматриваемые целевые функции удовлетво-
ряют условиям 1-4.
Важную роль в задачах оптимизации играют учет и использование информации о целевой функции. Ниже информация о целевой функции / будет содержатся в виде коэффициента асимметрии Е/ (г) = теБ(Мг )/ше8(^г (х)). Коэффициент асимметрии «сравнивает» поведение / с Е-идеальной одноэкстремальной функцией /*, для которой Ед = 1. В силу условий, наложенных на целевую функцию, Е/- (г) > 0 при всех г > 0 . Функции, у которых
ИшшГ Е/ (г) > 0 при г а 0, будут называться невырожденными. Подробнее свойства коэффициента асимметрии Е/ обсуждаются в [6-11].
1.6. Характеристики случайного поиска
Положим N = +да в алгоритме 1 и обозначим тЕ = шш{/ > 0: 4г е МЕ} — момент первого попадания поиска в множество МЕ. Мы всегда будем предполагать, что для моделирования распределений Рг в алгоритме 1 не требуется вычислений функции / Тем самым при каждой итерации 4г_1 а 4г алгоритма 1 происходит ровно одно вычисление целевой функции, и распределение случайной величины те дает нам достаточно полную информацию о качестве случайного поиска. Действительно, при выполнении те итераций алгоритма значения функции / вычисляются те +1 раз. Кроме того, ввиду монотонности поиска
имеем Рх(тЕ < г) = Рх(4г е МЕ).
Особое внимание в этой работе уделено изучению одной характеристики случайной величины тЕ . Трудоемкость случайного поиска определяется как Е х тЕ и имеет смысл среднего числа шагов поиска до достижения им множества МЕ .
2. Оценки скорости сходимости
Пусть параметры оценки {гг }+=”ш таковы, что
0 < гг < гг_1 при всех г, гг а 0 при г а +го и гг а +го при г а _да. Обозначим = шш{Л > 0:4, е М(г,)}, п = п(е) = шш{/: г, < е} и ,(х) = 8ир{/: х е М(г,)} . Отметим, что тЕ < пп(Е).
Пусть заданы целевая функция / е > 0 и х г МЕ. Пусть t = t(х), п = п(е) и случайные величины И,+1, к, Нп , Иг+1, к, Ип определяются следующими формулами:
к
Ик = ^ кг , к = t + 1,..., п ;
г =t+1
P(ht+1 > Л) = П (1 _ Ч,+1), Л = 1,2, к;
г =1
^+Л'
Р(^ > Л | Ик _ = г) =П (1 _ Ч,к), к =, + 2,к, п,
г = г+1
Л = 1,2,..., г = к_,_ 1,к_,,..., где значениями Ак служат натуральные числа, уг,к е [0,1].
Основной результат данной работы представляет следующая теорема.
Теорема 1. Пусть целевая функция /удовлетворяет условиям 1-4, и марковский монотонный случайный поиск алгоритма 1 начинается в точке х г МЕ. Пусть при всех ,(х) +1 < к < п(е) иг > 1 верны неравенства уг-,к < М{р (у,М(гк)): у е М(гк_1)} . Тогда для всех , (х) +1 < к < п(е) и г > 0 выполняются неравенства Рх (Пк > г) < Р(Ик > г).
Теорема 1 позволяет оценить снизу вероятность того, что на г-м шаге поиск попадет в множество МЕ. Действительно, Рх (4 г е МЕ) = Рх (те < г) > > Рх (Пп(Е) < г) > Р(Ип(Е) < г). Эта теорема служит основой для получения различных оценок скорости сходимости случайного поиска (см. [12]). В частности из нее следует оценка трудоемкости теоремы 2.
Рассмотрим однородный марковский монотонный случайный поиск алгоритма 1, пробные переходные функции Р(х, •) = р (х, •) которого не зависят от номера шага г.
Теорема 2. Пусть целевая функция / удовлетворяет условиям 1-4, и однородный марковский монотонный случайный поиск алгоритма 1 начинается в точке х г МЕ. Пусть при всех ,(х) +1 < к < п(е) верны неравенства 0 < ук < М{Р(у,М(гк)): у е М(гк_1)} .
Тогда трудоемкость случайного поиска удовлетворяет неравенству
п(е) ,
Ехт. < 2 т1-
к=, (х)+1 Тк
(2)
3. Быстрые алгоритмы случайного поиска
Получим целый класс однородных поисков, дающих для невырожденных целевых функций оценки трудоемкости вида 0(1п2 е) . Мы рассмотрим семейство однородных марковских монотонных случайных поисков алгоритма 1, пробные переходные функции которых зависят от требуемой точности решения задачи е и обладают симметричными плотностями Ре (х, у) = gЕ (р(х, у)) с формами gЕ.
Зададим формы gЕ рассматриваемого семейства поисков. Пусть q(г) монотонно невозрастающая строго положительная функция, определенная на полуоси (0,+да), и такая, что функция q(г)гd-1 суммируема на промежутке [1,+ю). Кроме того предположим, что q(г)гd а 1 при г а 0 . Не умаляя общности будем считать, что функция q непрерывна слева. Зафиксируем параметр а > 0 и положим при е > 0
1 1^(аЕ) при г < аЕ,
Х(е) |^(г) при г > аЕ, где множитель 1/ Це) обеспечивает условие норми-
gЕ (г) =:
(3)
ровки (1).
Применяя оценку трудоемкости (2), получим следующую теорему.
Теорема 3. Пусть целевая функция / удовлетворяет условиям 1-4 и является невырожденной. Тогда для однородного марковского случайного поиска алгоритма 1 с формой (3), начинающегося в точке
х Ф х0, верно соотношение ЕхтЕ = 0(1п2 е) .
Таким образом, случайные поиски теоремы 3 являются быстрыми. Для сравнения отметим, что для методов стохастической глобальной оптимизации (см., напр., [3,5]) типичным результатом является
гораздо более худшая — степенная (т. е. 0(1/Еа) при а > 0) зависимость требуемого числа вычислений целевой функции от Е .
В заключение приведем числовой пример для сравнения оценки трудоемкости (2) с оценками трудоемкости работ [7-11]. Возьмем трехмерное евклидово пространство Я3 с евклидовой метрикой р 2. Пусть целевая функция Е — идеальна, е = 0,001 и р 2( х, х0) = 1. Рассмотрим простой (и легко моделируемый) случайный поиск, пробные переходные функции которого являются дискретной смесью (с одинаковыми вероятностями) равномерных распределений в шарах с радиусами, образующими геометрическую прогрессию. Подробное описание исследуемого поиска и выполненных расчетов приведено в [12]. Значение оценки трудоемкости (2) равно 923. Значение оценки трудоемкости 3 работ [7, 8] равно 2116. Минимальное значение «интегральной» оценки
трудоемкости I работы [11] равно 3642. Минимальное значение улучшенной «интегральной» оценки трудоемкости I работ [9, 10] равно 3316. В данном примере оценка трудоемкости (2) значительно точнее оценок трудоемкости работ [7-11].
1. Ермаков С.М., Жиглявский А.А. // Теория вероятностей и ее применения. 1983. №1. С.129-136.
2. Ермаков С.М., Жиглявский А.А., Кондратович М.В. // Журнал вычислительной математики и математической физики. 1989. Т.29. №2. С.163-170.
3. Жиглявский А.А., Жилинскас А.Г. Методы поиска глобального экстремума. М.: Наука, 1991. 248 с.
4. Абакаров А.Ш., Сушков Ю.А. Статистическое исследование случайного поиска // Математические модели. Теория и приложения / Под ред. М.К.Чиркова. Вып.2. СПб.: Изд-во НИИХ СПбГУ, 2002. C.70-86.
5. Spall J.C., Hill S.D., Stark D.R. Theoretical framework for
comparing several stochastic optimization approaches //
Probabilistic and randomized methods for design under uncertainty. L.: Springer, 2006. P.99-117.
6. Nekrutkin V.V., Tikhomirov A.S. // Acta Applicandae Mathematicae. 1993. V.33. P.89-108.
7. Тихомиров А.С. // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.90-95.
8. Тихомиров А.С. // Вестник НовГУ. 2006. №39. С.34-37.
9. Тихомиров А. С. // Журнал вычислительной математики и
математической физики. 2006. Т.46. №3. С.379-394.
10. Тихомиров А. С. // Журнал вычислительной математики и математической физики. 2007. Т.47. №5. С.817-828.
11. Tikhomirov A., Stojunina T., Nekrutkin V. // Journal of Statistical Planning and Inference. 2007. V.137. Issue 12. P.4031-4047.
12. Тихомиров А.С. // Деп. в ВИНИТИ №68-В2007
от 24.01.2007. 57c.