УДК 519.676
А.С.Тихомиров
О БЫСТРЫХ АЛГОРИТМАХ СЛУЧАЙНОГО ПОИСКА
Новгородский государственный университет им. Ярослава Мудрого
A class of random search methods for a global maximum of an objective function is investigated. It is shown that the number of an objective function evaluation required to reach a given accuracy for methods from this class has a slow (logarithmic) order of growth as the accuracy tends to zero.
Введение
Рассмотрим семейство хорошо известных [1, 2] методов случайного поиска экстремума функции. Такие методы успешно используются при решении сложных задач оптимизации. Однако сравнительно мало теоретических работ о скорости сходимости этих алгоритмов. В статье продолжено исследование скорости сходимости «быстрых» алгоритмов случайного поиска, построенных в работе [3] и принадлежащих рассматриваемому классу методов оптимизации.
Метод поиска будем называть «быстрым», если число вычислений целевой функции, требуемое для достижения заданной точности s, имеет медленный (логарифмический) порядок роста при стремлении s к нулю. Примеры быстрых алгоритмов случайного поиска можно найти в [3-5]. Данная работа улучшает результаты [4] и дополняет результаты [3, 5].
1. Постановка задачи
1.1. Пространство оптимизации
Назовем пространством оптимизации множество оптимизации X, снабженное метрикой р . Мы ограничимся случаем X = RJ, J-мерной мерой Лебега mes, и следующими вариантами метрик р( x, у) для Rd :
V 1/V
Pv (x y) = | X1 х- y|V
pœ (X, y) = max| x - y
1<i <d
где V > 1 — любое фиксированное число, х = (х1,...,хй) и у = (у1,...,уЛ). Замкнутый шар радиуса г с центром в х обозначим как
$г(х) = {У е ^ : р(х,у) < г}.
1.2. Целевая функция
В дальнейшем всегда будет предполагаться, что целевая функция / : Яа а Я ограничена сверху,
измерима и удовлетворяет следующим условиям.
Условие 1. Функция / принимает максимальное значение в единственной точке х0 =
= argmax{ f (x): x e R }.
Условие 2. Функция f непрерывна в точке x0.
Условие 3. Неравенство sup{ f (x): x g Sr (x0)} < < f (x0) выполнено для любого r > 0 .
Ввиду условия 3 из сходимости f (xn) a f (x0) следует, что р(xn, x0) а 0. Отметим, что функции указанного класса могут быть многоэкстремальными в любой окрестности глобального максимума. Еще одно условие на целевую функцию будет введено ниже.
1.3. Случайный поиск
Случайным поиском называется произвольная (конечная или бесконечная) последовательность случайных величин {i} >0 со значениями в Rd. Приме -ним случайный поиск для оценки точки максимума x0 с заданной положительной точностью е > 0 и опишем исследуемый поиск с помощью алгоритма моделирования. Обозначение « n ^ Р( •)» читается как «получить реализацию случайного вектора n с распределением P».
Алгоритм 1
Шаг 1. i0 ^ x , i ^ 1.
Шаг 2. n ^ P (i_1, •).
Шаг 3. Если f (n) > f (i_j), то i ^ n, иначе
ki ^ ki-i.
Шаг 4. Если i < n, то i ^ i +1 и перейти к шагу 2, иначе — STOP.
Здесь x — начальная точка поиска, n — число шагов поиска, а Pi (x, •) — вспомогательные переходные функции. Будем полагать, что переходные функции P = Pi не зависят от номера шага i. Таким образом, исследуемый случайный поиск является однородным. Кроме того, введенный случайный поиск является монотонным в том смысле, что неравенства f (i) > f (i_1) выполняются при всех i > 0 .
Далее будем полагать, что распределение вероятностей P(x, dy) обладает симметричной плотностью
вида p(x, y) = g(p(x, y)), где р — метрика, а g — невозрастающая неотрицательная функция, определенная
I =1
на полуоси (0,+а>). Легко видеть, что тогда
р(х, х + у) = р(0, у) при всех у Ф 0, х е Ял . Функцию g будем называть формой поиска. Не умаляя общности будем считать, что функция g непрерывна слева.
Описанный поиск будем называть однородным марковским монотонным симметричным случайным поиском.
Ниже для вероятностей событий и математических ожиданий случайных величин, связанных со случайным поиском алгоритма 1, начинающимся в точке х е Яа , используются обозначения Рх и Ех .
1.4. Цель поиска
При изучении случайного поиска нам придется анализировать попадание поиска в окрестность Бг (х0) точки максимума х0. Может, однако, случиться так, что поиск, оказавшись в Бг (х0) на шаге /, выйдет из Бг (х0) на одном из следующих шагов. Чтобы избежать анализа таких эффектов, введем множества
Мг = М(г) = {х е Бг(х0): /(х) > /(у) для любого у г Бг (х0)}.
Легко видеть, что множества мг обладают следующими свойствами: а) если г < х , то Мг с Мх, б) если х е Мг и у г Мг, то /(х) > /(у). В силу своей монотонности поиск, попав во множество Мг , из него больше не выйдет. Поэтому мы будем изучать момент попадания поиска во множество Мг , а не в шар Бг (х0) (где г сохраняет смысл достигнутой точности поиска). Соответственно мерой близости точки х к х0 оказывается не расстояние р(х, х0), а число 5(х) = шДг > 0: х е Мг}.
1.5. Информация о целевой функции
Нам потребуется еще одно ограничение на поведение целевой функции /.
Условие 4. и г>0 Мг = Яа .
Это условие гарантирует попадание любой начальной точки поиска во множество Мг при некотором г. В силу своей монотонности поиск не может покинуть множество Мг и, значит, не может неограниченно удаляться от точки х0 .
Далее всегда будем полагать, что целевая функция удовлетворяет условиям 1-4.
В задачах оптимизации сведения о целевой функции / присутствуют в двух видах. Во-первых, от свойств функции / зависит скорость сходимости случайного поиска к точке экстремума (и оценки этой скорости). Во-вторых, некоторые заранее известные характеристики целевой функции могут использоваться в качестве априорной информации при построении поиска. Ниже информация о целевой функции / будет содержатся в виде коэффициента асимметрии (г) = те§(Мг)/ше8(5г (х)). Коэффициент
асимметрии «сравнивает» поведение / с Г-идеальной
одноэкстремальной функцией h, для которой Fh = 1. В силу условий, наложенных на целевую функцию, Ff (r) > 0 при всех r > 0 . Функции, у которых
lim inf Ff (r) > 0 при r а 0, будут называться невырожденными. Иногда вместо Ff (r) будет удобно иметь дело с функцией m(r) = mf (r) = mes(Mr). Функция mf (r) называется функцией асимметрии целевой функции. Подробнее свойства множеств Mr и функций m^, Ff и 5 обсуждаются в [3-5].
1.6. Характеристики случайного поиска
Положим n = +<» в алгоритме 1 и обозначим те = min{i > 0: i e Ме} — момент первого попадания поиска в множество Ме. Мы всегда будем предполагать, что для моделирования распределений Pi в алгоритме 1 не требуется вычислений функции f. Тем самым при каждой итерации i_1 a i алгоритма 1 происходит ровно одно вычисление целевой функции, и распределение случайной величины те дает нам достаточно полную информацию о качестве случайного поиска. Действительно, при выполнении те итераций
алгоритма значения функции f вычисляются те +1 раз.
В [3] мы ограничились изучением одной характеристики случайной величины те — трудоемкости. Трудоемкость случайного поиска определяется как Е^ и имеет смысл среднего числа шагов поиска до достижения им множества Ме.
В этой работе мы исследуем другую характеристику те. Гарантирующее число шагов определяется как такое минимальное число N = N(x, f, е, у) шагов поиска, при котором достижение множества Ме гарантировано с вероятностью не меньшей у. Иначе говоря, N(x, f, е, у) = min{i: Px (i e Mе) > у} = = min{i: Px (те < i) > у} .
Если целочисленная функция N1( x, f, е, у) обладает тем свойством, что для любого у e (0,1) выполнено liminf^Q Px (iN e Ме) > у, то N1 называется асимптотически гарантирующим числом шагов поиска.
2. Оценки скорости сходимости
Пусть параметры оценки {rt }+=_ш таковы, что
0 < ri < r_1 при всех i, ri а 0 при i а +да , и ri а +да при i а -да . Обозначим ai = ri + ri-1. Положим t(x) = sup{i: x e М(ri)} и ке = min{i: ri < е}. Отметим, что при x Ф x0 верны неравенства:
rt(x)+1 < 5(x) < rt(x) .
При t < к введем величины
1 ^ 1 Г 1 1
J (t, к, f, g ) =----------------------+ У
m ( rt+1) g (at+1) ig (ai A m (ri) m ( ri _1>
1
D (t, к,f, g) =
m2( rt+1) g 2(at+1)
I
g1(ai )\т 2(г-) т 2(г_1)
- .1 (^ к, /, g X
Тогда для любого V е Я
Ншэир Рх (тЕ > J (^х), ке, /, ge) +
К (/, К, /, g) =
т3( г+1) g 3(а+1)
g3(ai Кт 3( г) т3(г-1)
Здесь т — функция асимметрии, а g — форма поиска.
Полезную информацию о зависимости J, В и К от свойств целевой функции и начальной точки поиска (при использовании t = t(х)) дает следующее утверждение.
Теорема 1. 1. Пусть t < к , g — форма поиска и g(at+1) > 0, а функции / и И таковы, что ГИ (г) < (г) при всех t +1 < i < к . Тогда
J(t,к,/,g) < J(^К,Й^), Б^,к,/^) <Б^,К,н^) и К (^ к, /, g) < К (^ к, И, g).
2. Если 9 < t < к , g — форма поиска и g(ae+l) > 0, то J(t,К,/,g) < J(9,К,/,g'), Б(иК,/,g) < < В(9, к, /, g) и Щ, к, /, g) < К (9, к, /, g).
Из теоремы 1 следует, что в приводимых далее оценках трудоемкости и гарантирующего числа шагов случайного поиска вместо коэффициента асимметрии Г/ (г) и величины t(х), точные значения
которых могут быть неизвестны, можно использовать оценки снизу и коэффициента асимметрии Г/ (г) и величины t( х) .
Приведем вначале оценку трудоемкости случайного поиска из работы [3].
Теорема 2. Для любой целевой функции /, удовлетворяющей условиям 1-4, и любого однородного марковского монотонного симметричного случайного поиска, начинающегося в точке х, при 0 < е < 5(х) и g ^(х)+1) > 0 верно неравенство
ЕхТе < ОХх) Ке, /, g).
Получим асимптотически гарантирующее число шагов и оценки гарантирующего числа шагов для исследуемого случайного поиска. Отметим, что «простая» оценка гарантирующего числа шагов сразу следует из теоремы 1, в условиях которой в силу неравенства Маркова имеет место неравенство Рх (Те < J^(х), ке, /, g)/(1 - у)) > у. Значит величина
NМ(^х),Ке,/,g,у) = ^(^х),Ке,/,g)/(1 - у)], (1) где через [ х] обозначена целая часть числа х, служит оценкой сверху гарантирующего числа шагов случайного поиска.
Для невырожденных целевых функций получены более точные оценки асимптотически гарантирующего числа шагов и гарантирующего числа шагов поиска.
Теорема 3. Пусть для х Ф х0 , функции / удовлетворяющей условиям 1-4, и семейства форм поиска gе выполнены соотношения gе ^(х)+1) > 0 и
Нш К 0(х), Ке,/, gе )/(ВО (х), Ке,/, gе ))3/2 = 0. (2)
8—>0
е—0
+) < 1 -ф(v), (3) где Ф — функция распределения стандартного нормального закона.
Ясно, что неравенство (3) позволяет получить асимптотически гарантирующее число шагов случайного поиска, причем поведение этой величины при е — 0 определяется порядками стремления к бесконечности J0(х), Ке, /,gе) и В0(х), Ке, /,gе).
Теорема 4. Пусть в условиях теоремы 3 V = Ф-1( у) для у е (0,1). Обозначим
N0 0(хХ Ке, /, gе, У) = ^ (КхХ Ке , /, gе ) +
+ Ф-1(у^Л/5(/(^Ке/^ ]. (4)
Тогда
Рх (^N0 е Ме ) > У - 16с0К(t(х), Ке, /, gе )/ /т( х), Ке, /, gе ))3/2-
е—0
■>у, (5)
где с0 — абсолютная константа неравенства Эссее-на.
Неравенство (5) показывает, что асимптотически гарантирующее число шагов N0,^(х),ке,/,gе,у) является оценкой сверху гарантирующего числа шагов случайного поиска с надежностью у0 =
= у - 16^К(t(х),Ке,/,gs)/(В^(х),Ке,/,gs))3/2. Таким образом, при малых е неравенство (5) позволяет получить оценку сверху гарантирующего числа шагов случайного поиска.
Следующее утверждение уточняет результаты для поисков теорем 3 и 4 из [3].
Теорема 5. 1. Для поисков теорем 3 и 4 из [3] из невырожденности целевой функции / следует выполнение условия (2). Поэтому выполняется неравенство (3).
2. Для поисков теорем 3 и 4 из [3] и невырожденной функции / имеют место соотношения J 0(х), ке, /, gе) = И^(х), Ке,/, gе )к;т и В(^х), Ке, /, gе) = = Н2^(х),ке,/,gе)к3, где ке = 0(|1пе |) задается формулой (6) из [3], а функции И1 и И2 ограничены. Величинах J^(х),Ке,/,gе) и N0^х),Ке,/,gе,у) асимптотически эквивалентны при е — 0 . Кроме того, существуют такие ограниченные функции И , что
Рх ЙN е Ме) > У - И(^(x), Ке, /,gе £—0 — У .
Таким образом, случайные поиски теорем 3 и 4 из [3] являются быстрыми. Их трудоемкость и гарантирующее число шагов имеют медленный (логарифмический) порядок роста при стремлении е к нулю. Кроме того, оценки их трудоемкости и гарантирующего числа шагов асимптотически эквивалентны. Для сравнения отметим, что для методов стохастической глобальной оптимизации (см., например, [1]) типичным результатом является гораздо более худшая — степенная (т. е. 0(1/еа) при а > 0) зависимость требуемого числа вычислений целевой функции от е .
1
1
1
+
1
1
1
1
Оценки гарантирующего числа шагов
Надежность у 0,9 0,95 0,99 0,995 0,999 0,9995 0,9999
N* 176 211 294 330 412 448 531
N 0/ N* 2,22 2,05 1,75 1,65 1,47 1,41 1,28
Nm / N * 14 23 81 144 577 1061 4476
В завершение для поиска теоремы 4 из [3] сравним величину N,3 (см. (4)) с оценкой Nм (см. (1)), полученной с помощью неравенства Маркова. Продолжим рассмотрение числового примера из [3]. Возьмем пространство (Я 2,рш), е = 0,01,
8( х) = К = 1, р2( х, х0) = -ч/2, Г/ = 1. Тогда при
д = 0,3981 имеем J = 238, В = 14229, 4Ъ = 119. В качестве статистической оценки гарантирующего числа шагов используем выборочные квантили N*(х,/,е,у), для вычисления которых поиск повторялся 107 раз. В результате численных экспериментов и расчетов при различных значениях надежности у получим результаты, представленные в таблице (см.).
Отметим, во-первых, что величина N * и ее оценка N,3 достаточно медленно растут с увеличением надежности у . Медленный рост гарантирующего
числа шагов при увеличении у — это важное достоинство рассматриваемого семейства методов случайного поиска. Кроме того, полученная оценка N,3 существенно (во много раз) лучше «простой» оценки Nм, которая получается при использовании результатов [3].
1. Жиглявский А.А., Жилинскас А.Г. Методы поиска глобального экстремума. М.: Наука, 1991. 248 с.
2. Абакаров А.Ш., Сушков Ю.А. Статистическое исследование случайного поиска // Математические модели. Теория и приложения / Под ред. М.К.Чиркова. Вып. 2. СПб.: Изд-во НИИХ СПбГУ, 2002. C.70-86.
3. Тихомиров А.С. // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.90-95.
4. Тихомиров А.С., Некруткин В.В. Марковский монотонный поиск экстремума. Обзор некоторых теоретических результатов // Математические модели. Теория и приложения / Под ред. М.К.Чиркова. Вып. 4. СПб.: ВВМ, 2004. С.3-47.
5. Тихомиров А.С. // Журнал вычислительной математики
и математической физики. 2006. Т.46. №3. С.379-394.