Научная статья на тему 'О скорости сходимости марковского монотонного поиска экстремума'

О скорости сходимости марковского монотонного поиска экстремума Текст научной статьи по специальности «Математика»

CC BY
114
36
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Тихомиров А. С.

Получена оценка скорости сходимости некоторых марковских монотонных алгоритмов случайного поиска экстремума. Эта оценка использована для построения класса быстрых методов оптимизации. Показано, что число вычислений целевой функции, требуемое для достижения заданной точности, имеет медленный (логарифмический) порядок роста при стремлении к нулю.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О скорости сходимости марковского монотонного поиска экстремума»

УДК 519.676

А.С.Тихомиров

О СКОРОСТИ СХОДИМОСТИ МАРКОВСКОГО МОНОТОННОГО ПОИСКА ЭКСТРЕМУМА

Институт электронных и информационных систем НовГУ

An estimate of the convergence rate of some Markov monotone random search optimization algorithms is obtained. This estimate is used to construct a class of fast optimization methods. It is shown that the number of evaluations of the objective function required for achieving a given accuracy £ increases slowly (logarithmically) as £ tends to zero.

Введение

Рассмотрим семейство хорошо известных алгоритмов случайного поиска экстремума функции (см. [1-5]). Такие методы успешно используются при решении сложных задач оптимизации (см. [4]). Тем не менее, существует мало теоретических результатов

о скорости сходимости этих алгоритмов. Существенное отставание теории глобального случайного поиска от потребностей практики отмечено в [3] и ясно видно по [5]. Теоретическому исследованию случайного поиска и посвящена данная работа. В ней пред-

ставлена оценка скорости сходимости марковских алгоритмов случайного поиска экстремума функции и с ее помощью построены «быстрые» алгоритмы, принадлежащие рассматриваемому классу.

Метод поиска будем называть «быстрым», если число вычислений целевой функции, требуемое для достижения заданной точности е , имеет медленный (логарифмический) порядок роста при стремлении е к нулю. Примеры быстрых алгоритмов случайного поиска можно найти в [6-11], результаты которых данная работа дополняет и улучшает. Доказательства всех утверждений приведены в [12].

1. Постановка задачи 1.1. Пространство оптимизации

Назовем пространством оптимизации множество оптимизации X, снабженное метрикой р . Мы ограничимся случаем X = Rd , d-мерной мерой Лебега mes и следующими вариантами метрик р(x, y) для Rd:

( d

PY(x,y) = |У | x, -yt |Y , рш (x,y) = max| х, -yt ^

' 1<i<d

V i=i у

где у >1 — любое фиксированное число, х = (x1,...,xd) и y = (y1,. ., yd). Замкнутый шар радиуса r с центром в точке х обозначим как Sr (х) = {y e Rd : р(х, y) < r} и положим ф(г) = mes(Sr (х)).

1.2. Целевая функция

В дальнейшем всегда будет предполагаться, что целевая функция f: Rd a R ограничена сверху,

измерима и удовлетворяет следующим условиям.

Условие 1. Функция f принимает максимальное значение в единственной точке х0 =

= argmax{ f (х): х e Rd }.

Условие 2. Функция f непрерывна в точке х0.

Условие 3. Неравенство sup{ f (х): х g Sr (х0)} < < f (х0) выполнено для любого r > 0 .

Ввиду условия 3 из сходимости f (х,) a f (х0) следует, что р(х,, х0) a 0 . Отметим, что функции указанного класса могут быть многоэкстремальными в любой окрестности глобального максимума. Еще одно условие на целевую функцию будет введено ниже.

1.3. Случайный поиск

Случайным поиском называется произвольная (конечная или бесконечная) последовательность случайных величин {4i }i>0 со значениями в Rd . Применим случайный поиск для оценки точки максимума х0 с заданной положительной точностью е > 0 и опишем исследуемый поиск с помощью алгоритма моделирования. Обозначение « q ^ Р( •)» читается так: «получить реализацию случайного вектора q с распределением Р».

Алгоритм 1

Шаг 1. 4 0 ^ х, i ^ 1.

Шаг 2. q ^ р (4,.-!, •).

Шаг 3. Если f (q) > f (4г-1), то 4i ^ q, иначе

4, ^ 4, -1.

Шаг 4. Если i < N , то i ^ i +1 и перейти к шагу 2, иначе STOP.

Здесь х — начальная точка поиска, N — число шагов поиска, а р (х, •) — вспомогательные переходные функции. В соответствии со структурой алгоритма 1 распределения р (х, •) назовем пробными переходными функциями. Отметим, что введенный случай-

ный поиск является монотонным в том смысле, что неравенства /(4,) ^ /(4г--1) выполняются при всех

I > 0 . Описанный поиск назовем марковским монотонным случайным поиском.

Ниже для вероятностей событий и математических ожиданий случайных величин, связанных со случайным поиском алгоритма 1, начинающимся в точке х е Яа , используются обозначения Рх и Ех .

Далее большое внимание будет уделено однородному марковскому монотонному случайному поиску, пробные переходные функции Р(х, • ) = Р (х, • ) которого не зависят от номера шага / и обладают симметричной плотностью вида р(х,у) = g(р(х,у)), где р — метрика, а g — невозрастающая неотрицательная функция, определенная на полуоси (0,+да). Функцию g назовем формой поиска. Чтобы функция р( х, у) = g (р( х, у)) была плотностью, форма поиска g должна удовлетворять условию нормировки

| g (г )ф(г) = 1. (1)

(0,+вд)

Не умаляя общности будем считать, что функция g непрерывна слева. Описанный однородный поиск будем называть однородным марковским монотонным симметричным случайным поиском.

1.4. Цель поиска

Случайный поиск используем для отыскания точки максимума х0 с заданной точностью £ (аппроксимация «по аргументу»). При этом нас должно интересовать попадание поиска в шар Бе (х0). Может, однако, случиться так, что поиск, оказавшись в Бе (х0) на шаге /, выйдет из Бе (х0) на одном из следующих шагов. Чтобы избежать анализа таких эффектов, введем множества

Мг = М (г) = {х е Бг (хо): / (х) > / (у)

для любого у г Бг(х0)}. Легко видеть, что множества Мг обладают следующими свойствами: а) если г < и , то Мг с Ми, б) если х е Мг и у г Мг, то /(х) > /(у). В силу условий, наложенных на целевую функцию, те$(Мг) > 0 при всех г > 0 , а монотонный поиск, попав в множество Мг , из него больше не выйдет. Поэтому мы будем изучать момент попадания поиска в множество М£, где £ сохраняет смысл требуемой точности поиска.

1.5. Информация о целевой функции

Нам потребуется еще одно ограничение на поведение целевой функции /.

Условие 4. иг>0 Мг = Яа .

Это условие гарантирует попадание любой начальной точки поиска в множество Мг при некотором г. В силу своей монотонности, поиск не может покинуть множество Мг и, значит, не может неограниченно удаляться от точки х0. Далее всегда будем полагать, что рассматриваемые целевые функции удовлетво-

ряют условиям 1-4.

Важную роль в задачах оптимизации играют учет и использование информации о целевой функции. Ниже информация о целевой функции / будет содержатся в виде коэффициента асимметрии Е/ (г) = теБ(Мг )/ше8(^г (х)). Коэффициент асимметрии «сравнивает» поведение / с Е-идеальной одноэкстремальной функцией /*, для которой Ед = 1. В силу условий, наложенных на целевую функцию, Е/- (г) > 0 при всех г > 0 . Функции, у которых

ИшшГ Е/ (г) > 0 при г а 0, будут называться невырожденными. Подробнее свойства коэффициента асимметрии Е/ обсуждаются в [6-11].

1.6. Характеристики случайного поиска

Положим N = +да в алгоритме 1 и обозначим тЕ = шш{/ > 0: 4г е МЕ} — момент первого попадания поиска в множество МЕ. Мы всегда будем предполагать, что для моделирования распределений Рг в алгоритме 1 не требуется вычислений функции / Тем самым при каждой итерации 4г_1 а 4г алгоритма 1 происходит ровно одно вычисление целевой функции, и распределение случайной величины те дает нам достаточно полную информацию о качестве случайного поиска. Действительно, при выполнении те итераций алгоритма значения функции / вычисляются те +1 раз. Кроме того, ввиду монотонности поиска

имеем Рх(тЕ < г) = Рх(4г е МЕ).

Особое внимание в этой работе уделено изучению одной характеристики случайной величины тЕ . Трудоемкость случайного поиска определяется как Е х тЕ и имеет смысл среднего числа шагов поиска до достижения им множества МЕ .

2. Оценки скорости сходимости

Пусть параметры оценки {гг }+=”ш таковы, что

0 < гг < гг_1 при всех г, гг а 0 при г а +го и гг а +го при г а _да. Обозначим = шш{Л > 0:4, е М(г,)}, п = п(е) = шш{/: г, < е} и ,(х) = 8ир{/: х е М(г,)} . Отметим, что тЕ < пп(Е).

Пусть заданы целевая функция / е > 0 и х г МЕ. Пусть t = t(х), п = п(е) и случайные величины И,+1, к, Нп , Иг+1, к, Ип определяются следующими формулами:

к

Ик = ^ кг , к = t + 1,..., п ;

г =t+1

P(ht+1 > Л) = П (1 _ Ч,+1), Л = 1,2, к;

г =1

^+Л'

Р(^ > Л | Ик _ = г) =П (1 _ Ч,к), к =, + 2,к, п,

г = г+1

Л = 1,2,..., г = к_,_ 1,к_,,..., где значениями Ак служат натуральные числа, уг,к е [0,1].

Основной результат данной работы представляет следующая теорема.

Теорема 1. Пусть целевая функция /удовлетворяет условиям 1-4, и марковский монотонный случайный поиск алгоритма 1 начинается в точке х г МЕ. Пусть при всех ,(х) +1 < к < п(е) иг > 1 верны неравенства уг-,к < М{р (у,М(гк)): у е М(гк_1)} . Тогда для всех , (х) +1 < к < п(е) и г > 0 выполняются неравенства Рх (Пк > г) < Р(Ик > г).

Теорема 1 позволяет оценить снизу вероятность того, что на г-м шаге поиск попадет в множество МЕ. Действительно, Рх (4 г е МЕ) = Рх (те < г) > > Рх (Пп(Е) < г) > Р(Ип(Е) < г). Эта теорема служит основой для получения различных оценок скорости сходимости случайного поиска (см. [12]). В частности из нее следует оценка трудоемкости теоремы 2.

Рассмотрим однородный марковский монотонный случайный поиск алгоритма 1, пробные переходные функции Р(х, •) = р (х, •) которого не зависят от номера шага г.

Теорема 2. Пусть целевая функция / удовлетворяет условиям 1-4, и однородный марковский монотонный случайный поиск алгоритма 1 начинается в точке х г МЕ. Пусть при всех ,(х) +1 < к < п(е) верны неравенства 0 < ук < М{Р(у,М(гк)): у е М(гк_1)} .

Тогда трудоемкость случайного поиска удовлетворяет неравенству

п(е) ,

Ехт. < 2 т1-

к=, (х)+1 Тк

(2)

3. Быстрые алгоритмы случайного поиска

Получим целый класс однородных поисков, дающих для невырожденных целевых функций оценки трудоемкости вида 0(1п2 е) . Мы рассмотрим семейство однородных марковских монотонных случайных поисков алгоритма 1, пробные переходные функции которых зависят от требуемой точности решения задачи е и обладают симметричными плотностями Ре (х, у) = gЕ (р(х, у)) с формами gЕ.

Зададим формы gЕ рассматриваемого семейства поисков. Пусть q(г) монотонно невозрастающая строго положительная функция, определенная на полуоси (0,+да), и такая, что функция q(г)гd-1 суммируема на промежутке [1,+ю). Кроме того предположим, что q(г)гd а 1 при г а 0 . Не умаляя общности будем считать, что функция q непрерывна слева. Зафиксируем параметр а > 0 и положим при е > 0

1 1^(аЕ) при г < аЕ,

Х(е) |^(г) при г > аЕ, где множитель 1/ Це) обеспечивает условие норми-

gЕ (г) =:

(3)

ровки (1).

Применяя оценку трудоемкости (2), получим следующую теорему.

Теорема 3. Пусть целевая функция / удовлетворяет условиям 1-4 и является невырожденной. Тогда для однородного марковского случайного поиска алгоритма 1 с формой (3), начинающегося в точке

х Ф х0, верно соотношение ЕхтЕ = 0(1п2 е) .

Таким образом, случайные поиски теоремы 3 являются быстрыми. Для сравнения отметим, что для методов стохастической глобальной оптимизации (см., напр., [3,5]) типичным результатом является

гораздо более худшая — степенная (т. е. 0(1/Еа) при а > 0) зависимость требуемого числа вычислений целевой функции от Е .

В заключение приведем числовой пример для сравнения оценки трудоемкости (2) с оценками трудоемкости работ [7-11]. Возьмем трехмерное евклидово пространство Я3 с евклидовой метрикой р 2. Пусть целевая функция Е — идеальна, е = 0,001 и р 2( х, х0) = 1. Рассмотрим простой (и легко моделируемый) случайный поиск, пробные переходные функции которого являются дискретной смесью (с одинаковыми вероятностями) равномерных распределений в шарах с радиусами, образующими геометрическую прогрессию. Подробное описание исследуемого поиска и выполненных расчетов приведено в [12]. Значение оценки трудоемкости (2) равно 923. Значение оценки трудоемкости 3 работ [7, 8] равно 2116. Минимальное значение «интегральной» оценки

трудоемкости I работы [11] равно 3642. Минимальное значение улучшенной «интегральной» оценки трудоемкости I работ [9, 10] равно 3316. В данном примере оценка трудоемкости (2) значительно точнее оценок трудоемкости работ [7-11].

1. Ермаков С.М., Жиглявский А.А. // Теория вероятностей и ее применения. 1983. №1. С.129-136.

2. Ермаков С.М., Жиглявский А.А., Кондратович М.В. // Журнал вычислительной математики и математической физики. 1989. Т.29. №2. С.163-170.

3. Жиглявский А.А., Жилинскас А.Г. Методы поиска глобального экстремума. М.: Наука, 1991. 248 с.

4. Абакаров А.Ш., Сушков Ю.А. Статистическое исследование случайного поиска // Математические модели. Теория и приложения / Под ред. М.К.Чиркова. Вып.2. СПб.: Изд-во НИИХ СПбГУ, 2002. C.70-86.

5. Spall J.C., Hill S.D., Stark D.R. Theoretical framework for

comparing several stochastic optimization approaches //

Probabilistic and randomized methods for design under uncertainty. L.: Springer, 2006. P.99-117.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Nekrutkin V.V., Tikhomirov A.S. // Acta Applicandae Mathematicae. 1993. V.33. P.89-108.

7. Тихомиров А.С. // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.90-95.

8. Тихомиров А.С. // Вестник НовГУ. 2006. №39. С.34-37.

9. Тихомиров А. С. // Журнал вычислительной математики и

математической физики. 2006. Т.46. №3. С.379-394.

10. Тихомиров А. С. // Журнал вычислительной математики и математической физики. 2007. Т.47. №5. С.817-828.

11. Tikhomirov A., Stojunina T., Nekrutkin V. // Journal of Statistical Planning and Inference. 2007. V.137. Issue 12. P.4031-4047.

12. Тихомиров А.С. // Деп. в ВИНИТИ №68-В2007

от 24.01.2007. 57c.

i Надоели баннеры? Вы всегда можете отключить рекламу.