Научная статья на тему 'О быстрых алгоритмах случайного поиска экстремума'

О быстрых алгоритмах случайного поиска экстремума Текст научной статьи по специальности «Математика»

CC BY
183
31
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Тихомиров А. С.

Исследуется класс методов случайного поиска глобального максимума целевой функции. Показано, что трудоемкость методов этого класса имеет медленный (логарифмический) порядок роста при стремлении точности к нулю.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О быстрых алгоритмах случайного поиска экстремума»

УДК 519.676

А.С.Тихомиров

О БЫСТРЫХ АЛГОРИТМАХ СЛУЧАЙНОГО ПОИСКА ЭКСТРЕМУМА

Новгородский государственный университет им. Ярослава Мудрого

The class of methods of the random search of the criterion function global maximum is investigated. It is shown that the complexity of the methods of this class has a slow (logarithmic) order of growth under accuracy convergence to zero.

Рассмотрим семейство хорошо известных [1, 2] методов случайного поиска экстремума функции. Такие методы успешно используются при решении сложных задач оптимизации. Тем не менее теоретических результатов о скорости сходимости этих алгоритмов сравнительно мало. В работе представлена оценка скорости сходимости, и с ее помощью построены «быстрые» алгоритмы случайного поиска, принадлежащие рассматриваемому классу.

Метод поиска будем называть «быстрым», если число вычислений целевой функции, требуемое для достижения заданной точности е, имеет медленный (логарифмический) порядок роста при стремлении е к нулю. Примеры быстрых алгоритмов случайного поиска можно найти в [3, 4]. Данная работа улучшает и дополняет результаты [3, 4].

Назовем пространством оптимизации множество оптимизации X , снабженное мет-

где V > 1 — любое фиксированное число, х = (х1,..., хй) и у = (у1,...,уа). Замкнутый шар радиуса г с центром в х обозначим как Бг (х) = {у е Яй : р(х,у) < г}. Положим

где mes означает J-мерную меру Лебега; c = c(d, р) — константа, зависящая от размерности пространства d и от метрики р.

ничена сверху, измерима и удовлетворяет следующим условиям.

Условие 1. Функция / принимает максимальное значение в единственной точке х0 = а^шах{/(х): х е Яй }.

Условие 2. Функция/непрерывна в точке х0.

Условие 3. Неравенство Бир{/(х): х г 8г (х0)} < /(х0) выполнено для любого г > 0. Ввиду условия 3 из сходимости /(хп) а /(х0) следует, что р(хп, х0) а 0. Отметим, что функции указанного класса могут быть многоэкстремальными в любой окрестности

Введение

1. Постановка задачи

1.1. Пространство оптимизации

ф(г) = mes(Sr ( x)) = crd,

1.2. Целевая функция

В дальнейшем всегда будет предполагаться, что целевая функция / : Яй а Я огра-

глобального максимума. Еще одно условие на целевую функцию будет введено ниже.

1.3. Случайный поиск

Случайным поиском называется произвольная (конечная или бесконечная) последовательность случайных величин (%i }г>0 со значениями в Rd. Применим случайный поиск для оценки точки максимума х0 с заданной положительной точностью е > 0 и опишем исследуемый поиск с помощью алгоритма моделирования. Обозначение « n ^ P( •)» читается как «получить реализацию случайного вектора n с распределением P».

Алгоритм 1

Шаг 1. % 0 ^ х, i ^ 1.

Шаг 2. n ^ P (4,-_1, •).

Шаг 3. Если f (n) > f (% —),, то %г ^ n, иначе 4 ^ % —.

Шаг 4. Если i < n , то i ^ г +1 и перейти к шагу 2, иначе — STOP.

Здесь х — начальная точка поиска, n — число шагов поиска, а Рг (х, •) — вспомогательные переходные функции. Будем полагать, что переходные функции P = Рг не зависят от номера шага i. Таким образом, исследуемый случайный поиск является однородным. Кроме того, введенный случайный поиск является монотонным, в том смысле, что неравенства f (% i) > f (%i_) выполняются при всех i > 0.

Далее будем полагать, что распределение вероятностей P(х, dy) обладает симметричной плотностью вида

Р( х, У) = g (Р( х, y)), (1)

где р — метрика; g — невозрастающая неотрицательная функция, определенная на полуоси (0,+то). Легко видеть, что тогда р(х,х + y) = p(0,у) при всех y Ф 0, х е Rd. Функцию g будем называть формой поиска. Не умаляя общности будем считать, что функция g непрерывна слева.

Простейшим из таких распределений является равномерное распределение U(a, х, dy) в шаре Sa (х) радиуса a > 0 с центром в точке х е Rd,

U(a, х, dy) = mes(dy n Sa (х)) /mes(Sa (х)).

Форма g a для такого распределения имеет вид

1 Í1 при r < a,

ga (Г)

9(a) [0 при r > a.

Описанный поиск будем называть однородным марковским монотонным симметричным случайным поиском.

Ниже для математических ожиданий случайных величин, связанных со случайным

поиском алгоритма 1, начинающимся в точке х е Rd , используется обозначение Eх .

1.4. Информация о целевой функции

При изучении случайного поиска нам придется анализировать попадание поиска в окрестность Sr (х0) точки максимума х0. Может, однако, случиться так, что поиск, оказавшись в Sr (х0) на шаге i, выйдет из Sr (х0) на одном из следующих шагов. Чтобы избежать анализа таких эффектов, введем множества

Mr = M(r) = (х е Sr (х0) : f (х) > f (y) для любого y г Sr (х0)}.

Легко видеть, что множества Mr обладают следующими свойствами: а) если r < z, то Mr с Mz, б) если х е Mr и y г Mr, то f (х) > f (y). В силу своей монотонности поиск, попав во множество M r, из него больше не выйдет. Поэтому мы будем изучать момент

попадания поиска во множество Мг, а не в шар Бг (х0) (где г сохраняет смысл достигнутой точности поиска). Соответственно мерой близости точки х к х0 оказывается не расстояние р(х, х0), а число

5(х) = шДг > 0: х е Мг}. (2)

Нам потребуется еще одно ограничение на поведение целевой функции /.

Условие 4. и г>0 мг = я *.

Условие 4 гарантирует попадание любой начальной точки поиска во множество Мг при некотором г. В силу своей монотонности поиск не может покинуть множество М г и, значит, не может неограниченно удаляться от точки х0 .

Далее всегда будем полагать, что целевая функция удовлетворяет условиям 1-4.

В задачах оптимизации сведения о целевой функции / присутствуют в двух видах. Во-первых, от свойств функции / зависит скорость сходимости случайного поиска к точке экстремума (и оценки этой скорости). Во-вторых, некоторые заранее известные характеристики целевой функции могут использоваться в качестве априорной информации при построении поиска. Ниже информация о целевой функции / будет содержаться в виде коэффициента асимметрии

Е^ (г) = теБ(Мг )/теБ(£г (х)).

Коэффициент асимметрии «сравнивает» поведение / с Е-идеальной одноэкстремальной функцией И, для которой ЕИ = 1. В силу условий, наложенных на целевую функцию, Е/ (г) > 0 при всех г > 0 . Функции, у которых ИтМ Е/ (г) > 0 при г а 0 , будут называться невырожденными.

Иногда вместо Е/ (г) будет удобно иметь дело с функцией

т(г) = т/(г) = mes(Mг ). (3)

Функция т/ (г) называется функцией асимметрии целевой функции. Отметим несколько важных свойств функции асимметрии т/ и функции 5 .

Предложение 1. Справедливы следующие утверждения.

1. т/ (0) = 0 , и 0 < т/ (г) = Е/ (г)теБ(£г (х0)) < теБ(£г (х0)) при г > 0 .

2. Функция асимметрии т / является непрерывной справа, неубывающей, и

т/ (+») = .

3. При всех х е Я * 5( х) < +да и х е М 5( х).

Подробнее свойства множества Мг и функции асимметрии т/ обсуждаются в [3,4].

1.5. Характеристика случайного поиска

Положим п = +да в алгоритме 1 и обозначим те = тт{/ > 0 : Ег- е Ме} — момент первого попадания поиска в множество Ме. Мы всегда будем предполагать, что для моделирования распределений р в алгоритме 1 не требуется вычислений функции / Тем самым при каждой итерации Ег-_1 а Ег- алгоритма 1 происходит ровно одно вычисление целевой функции, и распределение случайной величины те дает нам достаточно полную информацию о качестве случайного поиска. Действительно, при выполнении те итераций алгоритма значения функции / вычисляются те +1 раз.

В этой работе мы ограничимся изучением одной характеристики случайной величины те. Трудоемкость случайного поиска определяется как Ехте и имеет смысл среднего

числа шагов поиска до достижения им множества Ме.

2. Оценка трудоемкости

Пусть параметры оценки {гг }+=-ш таковы, что 0 < гг < г1-х при всех 1, гг а 0 при

1 а +да и гг а +да при 1 а -да. Обозначим аг = г + гг-1. Положим

В формуле (4) функция т — это функция асимметрии, введенная в (3), а g — это форма поиска, введенная в (1). Справедлива следующая теорема.

Теорема 1. Для любой целевой функции / удовлетворяющей условиям 1-4, и любого однородного марковского монотонного симметричного случайного поиска, начинающегося в точке х, при 0 < гк < е < 5(х) и g(а{(х)+1) > 0 верно неравенство

Полезную информацию о зависимости 3 от свойств целевой функции и начальной точки поиска дает следующая теорема.

Теорема 2. Справедливы следующие утверждения.

1. Пусть t < к, g — форма поиска и g (ам) > 0, а функции /и И таковы, что

ЕИ (гг-) < Е/ (гг-) при всех t +1 < 1 < к. Тогда 3(/, к, /, g) < 3(/, к, И, g).

2. Если 0 < t < к и g(а0+1) > 0, то 3(t, к, /,g) < 3(0, к, /, g).

Из теоремы 2 следует, что в оценке (5) теоремы 1 вместо коэффициента асимметрии Е/ (г) и величины t(х), точные значения которых могут быть неизвестны, можно использовать оценки снизу и коэффициента асимметрии Е/ (г) и величины t(х).

Рассмотрим примеры выбора параметров однородного марковского монотонного симметричного случайного поиска с использованием оценки 3 теоремы 1. Параметры будем выбирать так, чтобы по возможности уменьшить значение 3.

Пусть 0 < е < 5(х) и пусть нам известна оценка сверху величины 5(х), т.е. такая величина Я, для которой выполняется неравенство 5(х) < Я . Зафиксируем число q е (0,1) (д будем называть коэффициентом сжатия) и зададим радиусы гг, аг и число к:

Таким образом, де < гк < е, а радиусы шаров гг и ai образуют геометрические прогрессии со знаменателем д.

Поставим вопрос о виде поиска, который минимизирует 3 ^ (х), к, /, g) при фиксированных х, е,/и г1. Функцию g (форму поиска), минимизирующую 3^(х), к, /,g), назовем 3-оптимальной, так же как и сам поиск. 3-оптимальная форма g должна быть постоянной на интервалах (аг, аг-1 ], и ее можно представить в виде

t(х) = Бир{г : х е М(гг)}.

Отметим связь величины 5(х) (задаваемой формулой (2)) и величины t(х). Предложение 2. При х ф х0 справедливы неравенства г((х)+1 < 5(х) < г((х). При t < к введем величину

(4)

ЕхТе < 3О1 (х), к, /, g).

(5)

3. Выбор параметров поиска

гг = Яд1, аг = гг + гг-1 = (1 +1/д)гг, к = тш{г': гг < е} = [ 1п(е/Я)/1пд~\.

(6)

■А р. Г1 при г < аг, ^

g(г) =^-7^10 Рг > °> ^ Рг = 1 (7)

“Г ф(аг ) 1° пРи г > аг,

Соответствующая форме (7) переходная функция Р(х, •) является дискретной смесью равномерных распределений в шарах с общим центром и радиусами аг и задается формулой

К К

Р(Х • ) = ^ Рги(аг, ^ • ), Рг > ^ ^ Рг = 1- (8)

г=1 г=1

Для отыскания ./-оптимальной формы поиска осталось найти значения р1,..., рк .

Особенно простой вид имеет /-оптимальная форма поиска для Р-идеальной целевой функции / с Р/ = 1.

Теорема 3. Пусть целевая функция/является Р-идеальной, радиусы гг, аг и число к

задаются формулами (6), t(х) = °. Если к > 2 и qd < (л/5 -1)/2, то /-оптимальная форма поиска g имеет вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(1 - qd)/ф(ак) при ° < г < ак,

д/Т—~д^/ф(аг) при аг+1 < г < ai ,2 < г < к,

1 ф(а1) при а2 < г < а1,

° при г > а1,

где >/ц = 2 + (к - 2)у[\-д^. При этом /(°, к,/,g) = (1 +1/q)d (1 - qd)д.

При к = 1 /-оптимальной плотностью служит равномерное распределение в шаре радиуса (1 + q)R , и /(°,1, /, g) = (1 +1/q) d .

В качестве второго примера выбора параметров рассмотрим поиск с переходной функцией (8) и одинаковыми вероятностями р1 = ••• = рк = 1/к. Равенство вероятностей, в частности, существенно упрощает процедуру моделирования распределения (8).

Теорема 4. Пусть целевая функция / является Р-идеальной, радиусы гг, аг и число к задаются формулами (6). Для однородного марковского монотонного симметричного случайного поиска с переходной функцией (8) и одинаковыми вероятностями р1 = ••• = рк = 1/к, начинающегося в точке х, при ° < е < 5(х) < R верна оценка

{ 1 к 1 Л

1 - q

g (г ) = 1

>/ц(1- qd)

ЕхТе < /(Кх), К, /, g) = К(1 +1/q)d (1 - qd )2

1

- +

(1 - qd )(1 - qd(t+1)) г=Т+21 - qdl /

Из теорем 1-4 сразу получим следующее утверждение.

Теорема 5. Пусть целевая функция / является невырожденной и пусть ° < е < 5(х) < R . Тогда для трудоемкости случайных поисков теорем 3 и 4 выполняется соотношение ЕхТе < /(^х), К, /, g) = 0(1п2 е).

Таким образом, случайные поиски теорем 3 и 4 являются быстрыми. Отметим, что для методов стохастической глобальной оптимизации (см., напр., [1]) типичным результатом является гораздо более худшая — степенная (т. е. 0(1/ еа) при а > °) зависимость требуемого числа вычислений целевой функции от е.

В заключение приведем небольшой числовой пример сравнения значений / для поисков теорем 3 и 4. Кроме того сравним значение / со значением интегральной оценки трудоемкости I, приведенной в [4]. Возьмем пространство (Я2, рш), Р-идеальную функцию /

5(х) = R = 1, и при различных значениях е получим результаты следующей таблицы. Значения оценок / представлены при оптимальных q. Величина I приведена для 1-оптимальной формы поиска.

В рассмотренном примере значения / для поисков теорем 3 и 4 оказались практически одинаковыми. Это обосновывает использование более простого поиска теоремы 4 вместо более сложного /-оптимального поиска теоремы 3.

В данном примере дискретная оценка / оказалась точнее интегральной оценки трудоемкости I, приведенной в [4]. При всех значениях е величины / примерно в 1,6 раза меньше значений I.

Для сравнения отметим, что для равномерного распределения в шаре радиуса е + R (накрывающем е окрестность х°), даже при е = 1°-2, трудоемкость равна 1°2°1. Т.е., все рассмотренные поиски существенно быстрее простого равномерного распределения.

1. Жиглявский А.А., Жилинскас А.Г. Методы поиска глобального экстремума. М.: Наука, 1991. 248 с.

2. Абакаров А.Ш., Сушков Ю.А. // Математические модели. Теория и приложения / Под ред. М.К.Чиркова.

Вып.2. СПб.: Изд-во НИИХ СПбГУ, 2002. C.70-86.

3. Nekrntkin V.V., Tikhomirov A.S. // Acta Appl. Math. 1993. V.33. P.89-108.

4. Тихомиров А.С., Некруткин В.В. // Математические модели. Теория и приложения / Под ред. М.К.Чиркова.

Вып.4. СПб.: ВВМ, 2004. С.3-47.

Оценки трудоемкости

£ 10-2 10-3 10-4 10-5

Теорема 3 J 234 515 905 1404

Теорема 4 J 238 519 912 1412

[4] I 386 833 1449 2235

i Надоели баннеры? Вы всегда можете отключить рекламу.