УДК 519.688
DOI: 10.18698/0236-3933-2023-3-62-83
НОВЫЙ ПОДХОД К НАСТРОЙКЕ ГАУССОВОЙ СУРРОГАТНОЙ МОДЕЛИ ЦЕЛЕВОЙ ФУНКЦИИ В ЗАДАЧЕ ПАРАМЕТРИЧЕСКОЙ ОПТИМИЗАЦИИ ПРОЕКТНЫХ РЕШЕНИЙ
Т.А. Агасиев1 Н.П. Гвоздев2 А.П. Карпенко1 Н.В. Пивоварова1
[email protected] [email protected] [email protected] [email protected]
1 МГТУ им. Н.Э. Баумана, Москва, Российская Федерация
2 ООО «ДАТАДВАНС», Москва, Российская Федерация
Аннотация
Рассмотрены методы решения задачи параметрической оптимизации проектных решений на основе построения гауссовой суррогатной модели целевой функции. Приведена задача поиска оптимальных значений свободных параметров (гиперпараметров) суррогатной модели, называемая задачей настройки. Задача настройки надстраивается над задачей синтеза суррогатной модели и имеет высокую вычислительную сложность. Предложен подход к настройке суррогатной модели, который может сделать процедуру настройки приемлемой по вычислительным затратам. Подход включает в себя этапы настройки и эксплуатации. Этап настройки содержит следующие шаги: формирование набора тестовых целевых функций, генерация совокупности обучающих выборок для каждой функции, определение для сгенерированных выборок значений их характерных признаков, определение оптимальных значений гиперпараметров для рассматриваемых тестовых функций и обучающих выборок, формирование совокупности пар вектор значений характерных признаков выборки-оптимальные значения гиперпараметров, построение на этой основе прогнозирующей модели, предсказывающей оптимальные значения гиперпараметров по характерным признакам обучающей выборки. Для исходной задачи на этапе эксплуатации сгенерирована обучающая выборка и опреде-
Ключевые слова
Параметрическая оптимизация, суррогатное моделирование, байесовский подход к оптимизации, гиперпараметры
лены ее характерные признаки, спрогнозированы оптимальные значения гиперпараметров суррогатной модели. На основе указанной обучающей выборки синтезирована суррогатная модель целевой функции. С помощью суррогатной модели решена исходная задача оптимизации, в качестве оптимальных значений гиперпараметров которой
применены прогнозные значения. Подход может Поступила 17.03.2023 обеспечить повышение до 30 % эффективности Принята 08.06.2023 базового алгоритма оптимизации © Автор(ы), 2023
Введение. Одной из задач, решаемых в процессе автоматизированного проектирования изделий, является задача определения наилучших значений его внутренних параметров с использованием некоторой математической модели изделия. Такую задачу называют задачей параметрической оптимизации проектных решений.
В общей постановке задача параметрической оптимизации состоит в поиске экстремума целевой функции с заданными ограничениями на варьируемые параметры [1]. Особенностью целевых функций в задачах автоматизированного проектирования является их высокая вычислительная сложность, поскольку в этих задачах, как правило, используют математические модели проектируемого изделия в форме систем обыкновенных дифференциальных уравнений или уравнений в частных производных. Для решений этих уравнений приходится применять численные методы. В результате даже при использовании современных высокопроизводительных вычислительных систем время вычисления одного значения целевой функции может составлять несколько дней [2, 3].
Для уменьшения вычислительной сложности задачи параметрической оптимизации проектных решений на этапе предварительного проектирования используют такие аппроксимирующие (суррогатные) модели целевой функции [3, 4], как модели линейной регрессии [5], радиальные базисные функции [6], нейронные сети [7], случайные процессы [8]. В последнем случае могут быть использованы суррогатные модели на основе гауссовых случайных, винеровских, пуассоновых процессов и процессов с ортогональными и независимыми приращениями.
В качестве суррогатных моделей целевой функции рассматриваем модели на основе гауссовых случайных процессов, т. е. процессов, в которых любой конечный набор их значений имеет многомерное нормальное распределение. Использование модели обусловлено следующими ее преимуществами [9]:
- гауссов случайный процесс исчерпывающим образом определяют всего две моментные функции: математическое ожидание и симметричная неотрицательно определенная действительная ковариационная матрица;
- для гауссовых случайных процессов понятия стационарности в широком и узком смыслах совпадают;
- на основе гауссовых процессов можно предсказать как приближенное значение целевой функции, так и степень достоверности этого предсказания, что повышает точность выявления подобластей пространства поиска, имеющих наибольшую вероятность локализации экстремума целевой функции;
- гауссовы процессы особенно эффективны при небольших размерах обучающих выборок, которые приходится использовать в случае вычислительно сложных целевых функций.
Задача оптимизации (метаоптимизации) суррогатной модели целевой функции состоит в поиске оптимальных значений свободных параметров (гиперпараметров) этой модели. Назовем эту задачу «Настройка суррогатной модели» или «Настройка гиперпараметров». В результате настройки могут быть определены, очевидно лишь приближенно, оптимальные значения гиперпараметров. Для простоты записи этот нюанс далее опускаем и используем термин «оптимальные значения гиперпараметров».
Задача настройки гиперпараметров надстраивается над задачей синтеза суррогатной модели целевой функции. Используем скалярный критерий оптимальности настройки (хотя в более общей постановке следует рассматривать векторный критерий). Градиент критерия оптимальности настройки, как правило, аналитически вычислить не удается. Потому задачу настройки гиперпараметров приходится решать прямыми численными методами, основными из которых являются следующие: поиск на сетке; случайный поиск; байесовская оптимизация; применение разного рода эвристик [10, 11].
Поскольку задачу синтеза оптимальной суррогатной модели приходится решать на каждом шаге алгоритма оптимизации целевой функции, вычислительная сложность задачи настройки гиперпараметров оказывается очень высокой и возрастает по мере накопления данных о целевой функции в процессе решения исходной задачи оптимизации. В результате процедура настройки может оказаться нецелесообразной (эффект от настройки не покрывает вычислительные затраты на нее). Предлагается подход к настройке гиперпараметров, который можно отнести к классу однократных методов метаоптимизации [12] и который может сделать процедуру настройки приемлемой по вычислительным затратам.
Предлагаемый подход включает в себя два этапа, идею которых передают их следующие основные шаги. На первом этапе настройки:
- формируем представительный набор тестовых целевых функций;
- для каждой указанной функции генерируем совокупность обучающих выборок, каждая выборка представляет собой набор пар вектор значений варьируемых параметров исходной задачи оптимизации-соответ-ствующее значение целевой функции;
- для каждой сгенерированной выборки определяем значения характерных признаков [13];
- для всех рассматриваемых тестовых целевых функций и всех обучающих выборок реализуем настройку гиперпараметров суррогатных моделей этих функций — определяем оптимальные значения гиперпараметров;
- формируем совокупность пар вектор значений характерных признаков выборки-оптимальные значения гиперпараметров и на этой основе строим прогнозирующую модель, предсказывающую оптимальные значения гиперпараметров по характерным признакам обучающей выборки.
На втором этапе эксплуатации (решение исходной задачи параметрической оптимизации):
- генерируем для исходной задачи обучающую выборку и определяем ее характерные признаки;
- прогнозируем оптимальные значения гиперпараметров суррогатной модели с помощью указанной прогнозирующей модели;
- на основе указанной обучающей выборки синтезируем суррогатную модель целевой функции;
- решаем исходную задачу оптимизации, используя суррогатную модель, в качестве оптимальных значений гиперпараметров которой применяем их прогнозные значения.
Цель настоящей работы — реализация и исследование эффективности предлагаемого подхода.
Постановка задачи и основные обозначения. Базовая задача оптимизации. Рассмотрим базовую (исходную) задачу глобальной параметрической оптимизации в следующей постановке:
min f( X) = f( X *) = f *.
X e DX с Ш\X\
Здесь X = (x1, x2, ..., x|X|) — вектор варьируемых параметров размерности |X|; f (X) e Ш1 — целевая функция; Dx — односвязное множество допустимых значений вектора варьируемых параметров.
Задача суррогатного моделирования. Пусть L = {(Xi, fi = f (Xi)); i g [1 : \L|]j — обучающая выборка, где Xi e DX; |L| — объем выборки.
Задачу синтеза суррогатной модели ф(X) целевой функции f (X) ставим следующим образом: на основе выборки L определить функцию ф(X), аппроксимирующую функцию f(X) на множестве Dx. В качестве ошибки аппроксимации (целевой метафункции) используем нормированную среднеквадратическую ошибку RMSE (дисперсию ошибки аппроксимации на выборке).
Рассмотрим суррогатные модели целевой функции на основе гауссова процесса. При фиксированном типе используемой ковариационной функции данного процесса основными гиперпараметрами такой модели являются свободные параметры этой функции.
Обозначим d (Хг1, Xi2 ) — евклидово расстояние между точками Хг1, Xi2 области Dx ; А, — гиперпараметр, отвечающий за масштаб ковариационной функции. Имеем в виду гауссовы процессы со следующими типами ковариационных функций:
• RBF
_ d{Xj1, Xi2 )2
Ki (Xi1, Xi2, = e 2^2 ; (1)
• ExpSineSquared
2sin2 (nd(Xit, Xi2 )/p)
K2 (Xi1, Xi2, X, p) = e , (2)
где p — параметр, отвечающий за период ковариационной функции;
• Matern
K3 (Xi1, Xi2, X, v) =
T(v)2
v - 1
V2v i
d (X12, Xi2 )
Bv
V2v
X
d (Xl'2> Xi2 )
(3)
где Bv — функция Бесселя; Г — гамма-функция; v — гиперпараметр, определяющий плавность ковариационной функции; • Rational Quadratic
f
K4 (Xh, Xi2, a, -где a — масштабный параметр.
1 _ d (Xg, Xi2 )
2aA, 2
2\'
(4)
Рекомендованные значения указанных гиперпараметров следующие: Xrec = 1,0; prec = 1,0; vrec = 1,5; arec = 1,0.
Задача настройки гиперпараметров. Принимаем, что T ={(Xi, f); i е [1 : |T|]j — тестовая выборка мощностью |T|, аналогичная выборке L. При фиксированном типе ковариационной функции K(Xq, Xi2, P) задачу настройки ставим как задачу глобальной оптимизации (метаоптимизации) вида
min |д(Р, T) = |д(Р*, T), (5)
P е DP с Pl
где — целевая метафункция; P — вектор гиперпараметров; P* — искомый оптимальный вектор гиперпараметров; Dp — множество допустимых значений компонентов вектора P.
В качестве метафункции p,(P, T) используем нормированную сред-неквадратическую ошибку RMSE, т. е. нормированную дисперсию ошибки аппроксимации на выборке T:
1 TL .2 i? (f -Ф,(р))
V 1 L + T\ L + T X (fi - fi )2 1
Здесь фг- = ф(Х,-, Р, Т) — предсказанное с помощью суррогатной модели
значение целевой функции /(X) в точке X е Т; |Ь + Т| — суммарный
объем этих выборок; /г — среднее арифметическое значений этой функции в точках обучающей и тестовой выборок.
Характерные признаки обучающей выборки. Рассмотрим следующие характерные признаки обучающей выборки Ь = {(Xi, ), г е [1 : |Ь, вычисление которых реализовано в открытой программной библиотеке FLACCO [14]:
С1 (реа_ехр1_уаг_еоу_х) — доля дисперсии значений варьируемых параметров в выборке Ь, объясняемая главными компонентами, полученными путем анализа ковариационной матрицы;
С2 (реа_ехр1_уаг_еог_х) — величина, аналогичная С1, но основанная на корреляционной матрице значений варьируемых параметров в выборке Ь;
С3 (рса_ехр1_уаг_соу_тИ;) — величина, аналогичная Сь но основанная на анализе ковариационной матрицы всей выборки Ь, включая значения варьируемых параметров и целевой функции;
С4 (рса_ехр1_уаг_сог_тИ;) — величина, аналогичная С2, но основанная на корреляционной матрице всей выборки Ь;
С5 (рса_ехр1_уаг_соу_РС1_х) — доля дисперсии значений варьируемых параметров в выборке Ь, объясняемая первым главным компонентом;
С6 (рса_ехр1_уаг_сог_РС1_х) — величина, аналогичная С5, но основанная на корреляционной матрице значений варьируемых параметров в выборке Ь;
С7 (рса_ехр1_уаг_соу_РС1_1пй) — величина, аналогичная С5, но вычисленная на основе ковариационной матрицы всей выборки Ь;
С8 (рса_ехр1_уаг_сог_РС1_1пй) — величина, аналогичная С7, но вычисленная на основе корреляционной матрицы всей выборки Ь;
С9 (пЬс_пп_пЬ_8ё_гаИо) — отношение стандартных отклонений расстояний от каждой точки выборки Ь до другой ближайшей точки и до другой ближайшей точки с лучшим значением целевой функции (расстояние между точками оцениваем на основе евклидовой нормы
в пространстве
С10 (пЬс_пп_пЬ_шеап_гаИо) — отношение средних арифметических значений расстояний, вычисленных по аналогии с С9;
С11 (пЬс_ё181_гаИо_сое£Г_уаг) — дисперсия отношений расстояний, вычисленных по аналогии с С9;
С12 (пЬс_пЬ_й1:пе88_сог) — корреляция между значением целевой функции в выборке Ь и числом других точек, для которых данная точка является ближайшим лучшим соседом;
С13 0с_Ь_шах) — максимальное значение информационной энтропии, вычисленной для упорядоченной некоторым образом последовательности значений целевой функции {/1, I е [1 : |Ь |]};
С14 0с_ер8_з) — значение параметра чувствительности метода информационного содержания, при котором энтропия последовательности значений целевой функции |£, I е [1: |Ь |]} близка к нулю;
С15 0с_ер8_шах) — величина, аналогичная С14, но при которой энтропия максимальна;
С16 0с_ер8_га1ло) — значение чувствительности метода информационного содержания, при котором достигается среднее значение коэффициента частичного информационного содержания;
C17 (ic_m0) — значение коэффициента частичного информационного содержания при минимальном значении чувствительности метода информационного содержания.
Схема исследования. В качестве целевых используем 15 функций f(X) из библиотеки тестовых функций [15], имеющих следующие размерности |х| вектора варьируемых параметров:
fi( X) (ALLINIT) — |X = 4; f2( X) (CAMEL6) — |х 2| = 2;
f3( X) (EG1) — |X 3| = 3; f4( X) (HADAMALS) — |x 4| = 2;
f5( X) (HART6) — |X 5| = 6; f6( X) (HIMMELP1) — |x 6| = 2;
f7( X) (HS38) — |x 7| = 4; f8( X) (HS4) — |x 8| = 2;
f9( X) (HS45) — |X91 = 5; fw( X) (HS5) — |x 101 = 2;
fn( X) (LOGROS) — |X111 = 2; f12( X) (MCCORMCK) — |x12| = 10;
f13( X) (MDHOLE) — |X131 = 2; f14( X) (S368) — |x 141 = 8;
f15( X) (SINEALI) — |X151 = 10.
Схема исследования включает в себя 15 итераций для каждой ковариационной функции Kn (X¡1, X¡2, P), n e [1:4]. Схема итерации i e [1 : 15] имеет следующий вид (для простоты записи индекс n опускаем).
Шаг 1. Из списка тестовых функций S = {f1(X), ..., f15(X)} удаляем без повторений функцию fi (X), так что в этом списке остается набор функций Si = {fk(X), k е [1: 15], k ^ i}.
Шаг 2. Для каждой из 14 функций списка Si генерируем 10 обучающих выборок |Lk,r, r G [1 : 10]} объемом 10 Xk каждая. Точки этих выборок размещаем равномерно случайно в интервале [-1,0; 1,0] по каждому измерению пространства поиска, так что в результате эти точки оказываются распределенными равномерно случайно в гиперкубе
М
[_1,0; 1,0], где — символ прямого произведения.
k = 1
Шаг 3. Для каждой выборки {Lk ,r} вычисляем значения характерных признаков |Cm(Lk>r), m е [1 : 17]}, указанных в п. 1.
Шаг 4. Аналогично шагу 2 для тестовой функций fi (X) генерируем тестовую выборку T мощностью 5000.
Шаг 5. Для каждой функции списка Б; и каждой обучающей выборки {Ьк,г} находим значения гиперпараметров Р*,г, при которых соответствующее значение метафункции ц(Р/*,г, Т) минимально.
Для данного I и для каждой данной ковариационной функции Кп (Xi1, Х{2, Р) результатом выполнения шагов 2-5 является набор значений характерных признаков \Ст (Ьк,г), т е [1 : 17]}, а также набор оптимальных значений гиперпараметров Р*,г, т. е. 140 пар векторов |{Ст (Ьк,г)} , Рк,г ] . Эти пары векторов определяют отображение С ^ Р*,
т. е. отображение пространства характерных признаков обучающей выборки в пространство оптимальных гиперпараметров суррогатной модели с рассматриваемой ковариационной функцией Кп (Х^, Х/2, Р).
Шаг 6. Для тестовой функции / (X), не вошедшей в набор Б;, выполняем следующие действия:
- по схеме шагов 2, 3 формируем 10 обучающих выборок {Ь;,г ] и определяем значения их характерных признаков {Ст (Ь;,г)};
- вычисляем средние значения {С,т } каждого характерного признака С1 - С17 на выборках {Ь;,г ] (эти величины необходимы только для определения наиболее значимых признаков, на основе которых строим прогнозирующую модель), т. е. полагаем, что
- 1 10
С(,т = — Е Ст (Ьг), т е [1 : 17];
10 г = 1
- на основе каждой выбороки {Ь;,г} строим суррогатную модель ф£с( X) функции / (X), используя рекомендуемые значения гиперпараметров Ргес рассматриваемой ковариационной функции;
- методом случайного леса [16], используя отображение С ^ Р * и выбранные значимые характерные признаки, строим прогнозирующую модель;
- с использованием построенной прогнозирующей модели находим приближенно оптимальные значения гиперпараметров Р;*г для данной выборки, затем строим суррогатную модель ф*,г (X) функции / (X) с этими значениями гиперпараметров для рассматриваемой ковариационной функции Кп ( X;!, Xi2, Р;*г ).
После завершения указанных 15 итераций оцениваем эффективность полученных суррогатных моделей фГегс(X), ф,*г(X), i е [1: 15], г е [1 : 10] на тестовых выборках |7]}, т. е. находим среднее на этих выборках значение метафункции p[ec при рекомендованных значениях гиперпараметров, а также аналогичные значения метафункции при оптимальных значениях гиперпараметров.
Программная реализация и организация вычислительных экспериментов. В качестве языка программирования использован Python. Достоинствами языка являются его простота, удобство, наличие большого числа готовых решений в виде открытых программных библиотек, высокая скорость разработки.
В качестве основной математической библиотеки применена библиотека NumPy. С помощью этой библиотеки реализованы матричные операции над данными, генерация обучающих и тестовых выборок, выполнены оценки качества аппроксимации (значений метафункции) и вывод результатов в виде графиков с применением библиотеки Matplotlib.
Для вычисления значений тестовых целевых функций использован известный пакет для бенчмаркинга алгоритмов оптимизации PyCUTEst, реализующий Python интерфейс для коллекции тестовых задач оптимизации CUTEst (The Constrained and Unconstrained Testing Environment).
Вычислительные эксперименты выполнены для указанных в п. 1 ковариационных функций со следующими областями допустимых значений гиперпараметров:
• Xe [1 • 10-5; 1 • 105] — для ковариационных функций K1 - K4;
• pe[1 • 10-5; 1 • 105] — для функции K2;
• v e {0,5; 1,5; 2,5; го} — для функции K3;
• ае[1 • 10-5; 1 • 105] — для функции K4.
Оптимальные значения гиперпараметров определяем методом поиска по сетке, включающей 30 уникальных значений в указанных пределах для каждого гиперпараметра, исключая V. Суммарно проверено 30, 900, 120 и 900 комбинаций значений гиперпараметров для ковариационных функций K1 - K4 соответственно.
Результаты вычислительных экспериментов. Выполнены три серии вычислительных экспериментов:
1) определение значимости характерных признаков обучающей выборки;
2) исследование чувствительности критерия качества аппроксимации (метафункции) к изменению гиперпараметров суррогатной модели;
3) оценка эффективности использования прогнозных значений гиперпараметров.
Значимость характерных признаков обучающей выборки. Для каждой рассматриваемой ковариационной функции реализованы следующие действия:
- по схеме шагов 1-5 для всех 150 выборок {-Ц,г, к е [1 : 15], г е [1:10]} вычислены значения характерных признаков \Ст (Ьк>г), т е [1 : 17]} , а также соответствующие значения метафункции д£е£;
- для каждой из к е [1 : 15] функций на основе характерных признаков выборок {Ьк,г, г е [1 : 10]} определены средние значения каждого характерного признака {Ск,т, т е [1 : 17]}, а также средние значения метафункции ц£ес;
- для каждой пары значений ({Ск,т }/ цкес) вычислены коэффициенты корреляции Пирсона гт, т е [1 : 17] [17] (коэффициент гт определяет относительную значимость характерного признака Ст ).
Результаты исследования приведены на рис. 1.
' т
0,75 0,50 0,25 0
-0,25 -0,50 -0,75
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 т
'т
0,75 0,50 0,25 0
-0,25 -0,50 -0,75
Рис. 1 (начало). Коэффициенты корреляции Пирсона для характерных признаков |Ст, т е [1 : 17]} ковариационных функций RBF (а),
ExpSineSquared (б)
гп —_ 1 1
_ UUU
гп
_ 1_II_|i—1 1_м—1 1—1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 т
б
гт
0,75 0,50 0,25 О
-0,25 -0,50 -0,75
'т
0,75 0,50 0,25 0
-0,25 -0,50 -0,75
ГП ,—, 1 1
. иии
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 т
в
- „ п п
_ uuu
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 т
г
Рис. 1 (окончание). Коэффициенты корреляции Пирсона для характерных признаков \Cm, m е [1 : 17]] ковариационных функций Matern (в),
Rational Quadratic (г)
Согласно приведенным результатам, с точки зрения влияния на значения метафункции наибольшую значимость имеют следующие четыре характерных признака:
C4 (pca_expl_var_cor_init);
C7 (pca_expl_var_cov_PC1_init);
C13 (ic_h_max);
C16 (ic_eps_ratio).
На этом основании в дальнейших исследованиях при построении прогнозирующей модели и определении приближенно оптимальных значений гиперпараметров используем только эти характерные признаки.
Приближенно оптимальные интервалы значений гиперпараметров суррогатной модели. Для каждой ковариационной функции Kn (Xil, Xi2, P ), n e [1:4], выполнены шаги 1-4, а шаг 5 реализован в следующем варианте:
- покрываем интервалы допустимых значений каждого гиперпараметра рассматриваемой ковариационной функции логарифмической сеткой из 30 значений (рис. 2-5);
- для значений гиперпараметров суррогатной модели, соответствующих каждому узлу указанной сетки, и для всех 150 обучающих выборок вычисляем значения метафункции д(-);
- на основе полученных результатов определяем для каждой обучающей выборки наилучшие значения гиперпараметров, а также число обучающих выборок N, для которых эти значения также являются наилучшими;
- по аналогичной схеме определяем те значения гиперпараметров, а также соответствующие числа обучающих выборок, которые дают близкую к наилучшей оценку метафункции с точностью до 5 %.
Результаты серии вычислительных экспериментов приведены на рис. 2-5.
1(Г* КГ" 10" 10^ X
Рис. 2. Число выборок N в функции значений гиперпараметра X; ковариационная функция RBF
10
,-2
10
Рис. 3. Число выборок N в функции значений гиперпараметров X (ре[1 • 10-5; 1 • 105]) (а) и р (X е [1 • 105; 1 • 105]) (б); ковариационная функция ExpSineSquared
Рис. 4. Число выборок N в функции значений гиперпараметра X; ковариационная функция Matern; v е {0,5; 1,5; 2,5; да)
О
КГ4 Ю-2 10° 102 104 X
а
N_ _
50 - г-, П Пп
40- п п ППппппппппп
30 -20 -ю -
о —IIII Mill IIIIIIIII II II II Mill II II II II IIIIIII Mill IIII—
КГ4 Ю-2 10° 102 104 а
б
Рис. 5. Число выборок N в функциях значений гиперпараметров X (а е [1 • 10-5; 1 • 105]) (а) и а [1 • 105; 1 • 105]) (б); ковариационная функция Rational Quadratic
Результаты исследования показывают, что для всех ковариационных функций качество модели существенно зависит от выбранного значения гиперпараметра X. Этот результат может быть использован в целях сужения областей поиска оптимальных значений гиперпараметров при практическом использовании предлагаемой методики. С этой целью также целесообразно использовать рекомендуемое значение гиперпараметра а ковариационной функции Rational Quadratic ввиду незначительности влияния его на качество суррогатной модели.
Эффективность настройки гиперпараметров. Исследование эффективности предложенного в работе метода настройки гиперпараметров выполнено по схеме, рассмотренной ранее, но с использованием не всех, а наиболее значимых компонентов вектора характерных признаков, т. е. с использованием компонентов C4, C7, С13, С16. В ходе эксперимента обучено 600 суррогатных моделей с использованием прогнозных значений гиперпараметров P * и 600 моделей с использованием их рекомен-
й
дованных значений Prec (по 150 моделей для каждой из четырех рассматриваемых ковариационных функций).
Результаты исследования представлены на рис. 6, где на оси абсцисс приведены значения метафункции д, на оси ординат — относительные числа M(P*) = M*, M(Prec) = Mrec суррогатных моделей со значением этой функции лучше данного. Из рис. 6 следует, что 60 % моделей, обученных с использованием значений гиперпараметров Prec, имеют значение метафункции р, < 0,1. В то же время при использовании прогнозных значений гиперпараметров P * этому условию удовлетворяет до 80 % моделей.
М 0,8
0,6
0,4
0,2
0
Рис. 6. Эффективность настройки гиперпараметров суррогатной модели
Из рис. 6 также следует, что при использовании прогнозных значений гиперпараметров P* наблюдается повышение до 30 % качества суррогатных моделей целевой функции по сравнению с использованием рекомендованных значений. Это обстоятельство позволяет надеяться на увеличение эффективности решения исходной задачи параметрической оптимизации на основе синтезированных суррогатных моделей.
Заключение. Предложен новый подход к настройке гиперпараметров гауссовой суррогатной модели целевой функции в задаче параметрической оптимизации проектных решений. Подход предполагает решение исходной задачи оптимизации в два этапа.
Первый этап настройки заключается:
- в формировании совокупности обучающих выборок для представительного набора тестовых целевых функций;
- определении значений характерных признаков каждой указанной выборки, а также приближенно оптимальных значений гиперпараметров используемой суррогатной модели;
- построении на основе полученной совокупности пар вектор значений характерных признаков выборки-оптимальные значения гиперпа-
раметров прогнозирующей модели, которая предлагает приближенно оптимальные значения гиперпараметров по характерным признакам обучающей выборки.
На втором этапе эксплуатации реализовано решение базовой (исходной) задачи параметрической оптимизации по схеме:
- для целевой функции базовой (исходной) задачи сгенерирована обучающая выборка и определены ее характерные признаки;
- спрогнозированы оптимальные значения гиперпараметров используемой суррогатной функции с помощью прогнозирующей модели, полученной на этапе настройки;
- в качестве значений гиперпараметров суррогатной функции использованы их прогнозные значения.
Выполнена программная реализация указанного подхода, а также широкий вычислительный эксперимент по оценке эффективности разработанного математического и программного обеспечения. Показано, что в условиях эксперимента данный подход обеспечивает повышение качества суррогатных моделей целевой функции при приемлемых вычислительных затратах на этапе эксплуатации.
Кроме того, определена значимость рассматриваемых характерных признаков обучающих выборок. Показано, что из числа 17 этих признаков наиболее значимыми являются всего четыре. Именно эти признаки использованы в процессе исследования эффективности подхода.
Кроме того, в экспериментальной части работы определены интервалы наилучших значений гиперпараметров ковариационных функций.
Результаты исследования показывают, что предложенный подход может быть использован в вычислительной практике при решении задач параметрической оптимизации на основе гауссовых суррогатных моделей целевых функций. Если не рассматривать вычислительные затраты на этапе настройки (а они распределяются на все задачи оптимизации, решаемые на этапе эксплуатации), то в результате можно ожидать повышение до 30 % эффективности базового алгоритма оптимизации.
В развитие работы планируется исследовать эффективность подхода на более широком наборе тестовых целевых функций и апробировать его в процессе решения сложных практических задач параметрической оптимизации проектных решений, а также распространить подход на многокритериальную постановку задачи настройки.
Как было отмечено ранее, алгоритмы оптимизации на основе суррогатного моделирования могут использовать не только аппроксимации целевой функции на основе гауссовых процессов, но и другие техники ап-
проксимации — с помощью радиальных базисных функций [18], кригинга [19, 20], поверхностей отклика (Response Surface Methods, RSM) [21, 22]. Представленный подход может быть расширен и на указанные типы аппроксимирующих функций.
ЛИТЕРАТУРА
[1] Захарова Е.М., Минашина И.К. Обзор методов многомерной оптимизации. Информационные процессы, 2014, т. 14, № 3, с. 256-274.
[2] Liu B., Koziel S., Zhang Q. A multi-fidelity surrogate-model-assisted evolutionary algorithm for computationally expensive optimization problems. J. Comput. Sc., 2016, vol. 12, pp. 28-37.
[3] Müller J., Shoemaker C.A. Influence of ensemble surrogate models and sampling strategy on the solution quality of algorithms for computationally expensive black-box global optimization problems. J. Glob. Optim., 2014, vol. 60, no. 2, pp. 123-144.
DOI: https://doi.org/10.1007/s10898-014-0184-0
[4] Кулешов А.П. Когнитивные технологии в адаптивных моделях сложных объектов. Информационные технологии и вычислительные системы, 2008, № 1, с. 18-29.
[5] Сунчалин А.М., Сунчалина А.Л. Обзор методов и моделей прогнозирования финансовых временных рядов. Хроноэкономика, 2020, № 1.
URL: http://hronoeconomics.ru/01_2020.pdf
[6] Buhmann M.D. Radial basis functions. Cambridge, Cambridge University Press, 2009.
[7] Snoek J., Rippel O., Swrsky K., et al. Scalable Bayesian optimization using deep neural networks. PMLR, 2015, vol. 37, pp. 2171-2180.
[8] Терехов С.А. Случайные гауссовские процессы в задачах аппроксимации. X Всерос. науч.-техн. конф. «Нейроинформатика-2008». Лекции по нейроинфор-матике. Ч. 1. М., МИФИ, 2008, с. 126-151.
[9] Binois M., Wycoff N. A survey on high-dimensional Gaussian process modeling with application to Bayesian optimization. ACM TELO, 2022, vol. 2, no. 2, art. 8.
DOI: http://dx.doi.org/10.1145/3545611
[10] Luca F., Donini M., Frasconi P., et al. Forward and reverse gradient-based hyperparameter optimization. Proc. 34th Int. Conf. on Machine Learning, 2017, vol. 70, pp. 1165-1173.
[11] Смирнова В.С., Шаламовa В.В., Ефимова В.А. и др. Оптимизация гиперпараметров на основе объединения априорных и апостериорных знаний о задаче классификации. Научно-технический вестник информационных технологий, механики и оптики, 2020, т. 20, № 6, с. 828-834.
DOI: https://doi.org/10.17586/2226-1494-2020-20-6-828-834
[12] Karpenko A.P., Kuzmina I.A. Structural and parametric synthesis of population algorithms for global optimization. Procedia Comput. Sc., 2021, vol. 186, no. 2, pp. 299308. DOI: https://doi.org/10.10167j.procs.2021.04.207
[13] Mersmann O., Bischl B., Trautmann H., et al. Exploratory landscape analysis. Proc. GECCO'11, 2011, pp. 829-836. DOI: https://doi.org/10.1145/2001576.2001690
[14] Kerschke P., Trautmann H. The R-Package FLACCO for exploratory landscape analysis with applications to multi-objective optimization problems. IEEE CEC, 2016, pp. 5262-5269. DOI: https://doi.org/10.1109/CEC.2016.7748359
[15] Fowkes J., Roberts L., Burmen A. PyCUTEst: an open source Python package of optimization test problems. Open Source Softw., 2022, vol. 7, no. 78, art. 4377.
DOI: https://doi.org/10.21105/joss.04377
[16] Roy M.H., Larocque D. Robustness of random forests for regression. J. Nonpara-metr. Stat., 2012, vol. 24, no. 4, pp. 993-1006.
DOI: https://doi.org/10.1080/10485252.2012.715161
[17] Наследов А. IBM SPSS Statistics 20 и AMOS: профессиональный статистический анализ данных. СПб., Питер, 2013.
[18] Gutmann H.M. A radial basis function method for global optimization. J. Glob. Op-tim., 2001, vol. 19, no. 3, pp. 201-227. DOI: https://doi.org/10.1023/A:1011255519438
[19] De Cock D.R. Kriging as an alternative to polynomial regression in response surface analysis. Ames, Iowa State University, 2003.
[20] Колодяжный М., Зайцев А. Гетероскедастичные гауссовские процессы и их применение для байесовской оптимизации. Тр. 42-й Междисциплинарной шк.-конф. ИППИРАН «ИТиС 2018». М., ИППИ РАН, 2018, с. 42-51.
[21] Barton R.R. Metamodeling: a state of the art review. Proc. Winter Simulation Conf., Philadelphia, Pennsylvania SU, 1994, pp. 237-244.
DOI: https://doi.org/10.1109/WSC.1994.717134
[22] Jones D.R. A taxonomy of global optimization methods based on response surfaces. J. Glob. Optim., 2001, no. 21, pp. 345-383.
DOI: https://doi.org/10.1023/A:1012771025575
Агасиев Талех Азер оглы — канд. техн. наук, доцент кафедры «Системы автоматизированного проектирования» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
Гвоздев Никита Павлович — специалист отдела тестирования ООО «ДАТАДВАНС» (Российская Федерация, 117246, Москва, Научный пр-д, д. 17).
Карпенко Анатолий Павлович — д-р физ.-мат. наук, профессор, заведующий кафедрой «Системы автоматизированного проектирования» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
Пивоварова Наталья Владимировна — канд. техн. наук, доцент кафедры «Системы автоматизированного проектирования» МГТУ им. Н.Э. Баумана (Российская Федерация, 105005, Москва, 2-я Бауманская ул., д. 5, стр. 1).
Просьба ссылаться на эту статью следующим образом:
Агасиев Т.А., Гвоздев Н.П., Карпенко А.П. и др. Новый подход к настройке гауссовой суррогатной модели целевой функции в задаче параметрической оптимизации проектных решений. Вестник МГТУ им. Н.Э. Баумана. Сер. Приборостроение, 2023, № 3 (144), с. 62-83. БОТ: https://doi.org/10.18698/0236-3933-2023-3-62-83
NEW APPROACH TO ADJUSTING THE OBJECTIVE FUNCTION GAUSSIAN SURROGATE MODEL IN THE PROBLEM OF DESIGN SOLUTION PARAMETRIC OPTIMIZATION
T.A. Agasiev1 N.P. Gvozdev2 A.P. Karpenko1 N.V. Pivovarova1
[email protected] [email protected] [email protected] [email protected]
1 Bauman Moscow State Technical University, Moscow, Russian Federation
2 LLC "DATADVANCE", Moscow, Russian Federation
Abstract
The paper considers methods for solving the problem of design solution parametric optimization based on constructing the Gaussian surrogate model of this problem objective function. The problem is set of finding optimal values of the surrogate model free parameters (hyper-parameters), it is called the problem of its adjustment. The adjustment problem is built over the top of the surrogate model synthesis problem and has a higher computational complexity. The approach to adjusting a surrogate model is proposed, which is able to make the adjustment procedure acceptable in terms of the computational costs. This approach includes the setup and operation stages. The adjustment stage contains the following main steps: formation of a set of test objective functions; generation of a set of learning samples for each of them; determination of their characteristic features values for the generated samples; determination of the hyper-parameters optimal values for all considered
Keywords
Parametric optimization, surrogate simulation, Bayesian approach to optimization, hyper-parameters
test functions and learning samples; formation of a set of pairs, characteristic features of the sample-hyper-parameters optimal values; building on this basis a predictive model forecasting the hyper-parameters optimal values according to the learning sample characteristic features. For the initial problem at the operation stage, a learning sample was generated, its characteristic features were determined, and the hyperparameters optimal values of the surrogate model were predicted. Based on the specified learning sample, the objective function surrogate model was synthesized. Using the surrogate model, the original optimization problem was solved, where the hyperparameters predictive values were applied as the optimal values. The approach is able to provide an increase of up to 30 % in efficiency of the basic optimization algorithm
REFERENCES
[1] Zakharova E.M., Minashina I.K. Review of multidimensional optimization techniques. Informatsionnyeprotsessy [Information Processes], 2014, vol. 14, no. 3, pp. 256274 (in Russ.).
[2] Liu B., Koziel S., Zhang Q. A multi-fidelity surrogate-model-assisted evolutionary algorithm for computationally expensive optimization problems. J. Comput. Sc., 2016, vol. 12, pp. 28-37.
[3] Müller J., Shoemaker C.A. Influence of ensemble surrogate models and sampling strategy on the solution quality of algorithms for computationally expensive black-box global optimization problems. J. Glob. Optim., 2014, vol. 60, no. 2, pp. 123-144.
DOI: https://doi.org/10.1007/s10898-014-0184-0
[4] Kuleshov A.P. Cognitive technologies in adaptive models of complex objects. Informatsionnye tekhnologii i vychislitelnye sistemy, 2008, no. 1, pp. 18-29 (in Russ.).
[5] Sunchalin A.M., Sunchalina A.L. Overview of methods and models for forecasting financial time series. Khronoekonomika [Hronoeconomics], 2020, no. 1 (in Russ.). Available at: http://hronoeconomics.ru/01_2020.pdf
[6] Buhmann M.D. Radial basis functions. Cambridge, Cambridge University Press, 2009.
[7] Snoek J., Rippel O., Swrsky K., et al. Scalable Bayesian optimization using deep neural networks. PMLR, 2015, vol. 37, pp. 2171-2180.
[8] Terekhov S.A. [Random Gaussian processes in data approximation problems]. X Vseros. nauch.-tekh. konf. "Neyroinformatika-2008". Lektsii po neyroinformatike. Ch. 1 [X. Russ. Sc.-Tech. Conf. Neuroinformatics-2008. Lectures on Neuroinformatics. P. 1]. M., MEPhl, 2008, pp. 126-151 (in Russ.).
Received 17.03.2023 Accepted 08.06.2023 © Author(s), 2023
[9] Binois M., Wycoff N. A survey on high-dimensional Gaussian process modeling with application to Bayesian optimization. ACM TELO, 2022, vol. 2, no. 2, art. 8.
DOI: http://dx.doi.org/10.1145/3545611
[10] Luca F., Donini M., Frasconi P., et al. Forward and reverse gradient-based hyperparameter optimization. Proc. 34th Int. Conf. on Machine Learning, 2017, vol. 70, pp. 1165— 1173.
[11] Smirnova V.S., Shalamova V.V., Efimova V.A., et al. Hyperparameter optimization based on a priori and a posteriori knowledge about classification problem. Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki [Sc. Tech. J. Inf. Technol. Mech. Opt.], 2020, vol. 20, no. 6, pp. 828-834 (in Russ.).
DOI: https://doi.org/10.17586/2226-1494-2020-20-6-828-834
[12] Karpenko A.P., Kuzmina I.A. Structural and parametric synthesis of population algorithms for global optimization. Procedia Comput. Sc., 2021, vol. 186, no. 2, pp. 299308. DOI: https://doi.org/10.1016/jj.procs.2021.04.207
[13] Mersmann O., Bischl B., Trautmann H., et al. Exploratory landscape analysis. Proc. GECCO'11, 2011, pp. 829-836. DOI: https://doi.org/10.1145/2001576.2001690
[14] Kerschke P., Trautmann H. The R-Package FLACCO for exploratory landscape analysis with applications to multi-objective optimization problems. IEEE CEC, 2016, pp. 5262-5269. DOI: https://doi.org/10.1109/CEC.2016.7748359
[15] Fowkes J., Roberts L., Burmen A. PyCUTEst: an open source Python package of optimization test problems. Open Source Softw., 2022, vol. 7, no. 78, art. 4377.
DOI: https://doi.org/10.21105/joss.04377
[16] Roy M.H., Larocque D. Robustness of random forests for regression. J. Nonpara-metr. Stat., 2012, vol. 24, no. 4, pp. 993-1006.
DOI: https://doi.org/10.1080/10485252.2012.715161
[17] Nasledov A. IBM SPSS Statistics 20 i AMOS: professionalnyy statisticheskiy analiz dannykh [IBM SPSS Statistics 20 and AMOS: professional statistical data analysis]. St. Petersburg, Piter Publ., 2013.
[18] Gutmann H.M. A radial basis function method for global optimization. J. Glob. Op-tim., 2001, vol. 19, no. 3, pp. 201-227. DOI: https://doi.org/10.1023/A:1011255519438
[19] De Cock D.R. Kriging as an alternative to polynomial regression in response surface analysis. Ames, Iowa State University, 2003.
[20] Kolodyazhnyy M., Zaytsev A. [Heteroscedastic Gaussian processes and their application to Bayesian optimisation]. Tr. 42-y Mezhdisciplinarnoy shk.-konf. IPPI RAN "ITiS 2018" [Proc. 42nd Interdisciplinary School-Conf. IPPI RAS "ITiS 2018"]. Moscow, IPPI RAS Publ., 2018, pp. 42-51 (in Russ.).
[21] Barton R.R. Metamodeling: a state of the art review. Proc. Winter Simulation Conf., Philadelphia, Pennsylvania SU, 1994, pp. 237-244.
DOI: https://doi.org/10.1109/WSC.1994.717134
[22] Jones D.R. A taxonomy of global optimization methods based on response surfaces. J. Glob. Optim., 2001, no. 21, pp. 345-383.
DOI: https://doi.org/10.1023/A:1012771025575
Agasiev T.A. — Cand. Sc. (Eng.), Assoc. Professor, Department of Computer-Aided Design Systems, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Gvozdev N.P. — Specialist of the Testing Department, LLC "DATADVANCE" (Nauchniy proezd 17, Moscow, 117246 Russian Federation).
Karpenko A.P. — Dr. Sc. (Phys.-Math.), Professor, Head of the Department of Computer-Aided Design Systems, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Pivovarova N.V. — Cand. Sc. (Eng.), Assoc. Professor, Department of Computer -Aided Design Systems, Bauman Moscow State Technical University (2-ya Baumanskaya ul. 5, str. 1, Moscow, 105005 Russian Federation).
Please cite this article in English as:
Agasiev T.A., Gvozdev N.P., Karpenko A.P., et al. New approach to adjusting the objective function Gaussian surrogate model in the problem of design solution parametric optimization. Herald of the Bauman Moscow State Technical University, Series Instrument Engineering, 2023, no. 3 (144), pp. 62-83 (in Russ.). DOI: https://doi.org/10.18698/0236-3933-2023-3-62-83