УДК: 519.7 MSC2010: 65K10
ОБЗОР ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧИ ОПТИМИЗАЦИИ ГИПЕРПАРАМЕТРОВ ДЛЯ АЛГОРИТМОВ МАШИННОГО
ОБУЧЕНИЯ
© А. С. Анафиев, А. С. Карюк
Крымский ФЕДЕРАЛЬНЫЙ УНИВЕРсИТЕТ ИМ. В. И. ВЕРНАДСКОГО ТАВРИЧЕСКАЯ АКАДЕМИЯ ФАКУЛЬТЕТ МАТЕМАТИКИ И ИНФОРМАТИКИ
просп. Академика Вернадского, 4, Симферополь, 295007, Российская Федерация
e-mail: [email protected]
Overview of approaches to solving the hyperparameters optimization problem for the Machine Learning algorithms.
Anafiev, A. & Karyuk, A.
Abstract. Hyperparameter tuning is critical for the correct functioning of Machine Learning models. Finding the best combination of hyperparameters lies at the heart of many Machine Learning applications.
Lets consider some definitions to state the main problem.
Under the algorithm model, we understand a parametric family of mappings
A = {p(x, в) | в e в},
where p : X x в ^ Y is some fixed mapping, X is the set of objects, and Y is the set of outcomes of the unknown target function in Machine Learning problem.
In the work [1], the dependence of the algorithm model A on hyperparameters is determined by a template of algorithm models or simply an algorithm template.
A template is an operator t : Г ^ A, where Г is the set of possible hyperparameter values, and A is the set of possible algorithms. If, in this case, Г = Г1 x ... x Гк, where Г is the set of permissible values for hyperparameter Yj, j = l,n, then the template is called k-parametric.
In other words, a k-parametric template defines the form of the mapping p of the algorithm model A e A based on hyperparameters 71,..., Yk.
Thus, when solving a machine learning problem, we can select the following two stages: the model selection stage and the training stage. In the model selection, the algorithm model is chosen using the template and hyperparameters, and then, in the training stage, using the training method [6] and the found model, the optimal algorithm (decision rule) is determined.
Hyperparameters can specify the number of neurons in the hidden layer of a neural network, the maximum depth of a binary decision tree, the number of nearest neighbors in metric classification algorithms, and so on.
The number of hyperparameters for the algorithm template can be quite large, and the optimal values of hyperparameters for the same algorithm may vary depending on the task the algorithm is solving and the input data it has to work with. Usually, optimal hyperparameter
values are not obvious, and they need to be chosen. The selection process can take a long time, so there are various approaches to finding them, each with its advantages and disadvantages.
The article provides an overview of existing algorithms for solving the hyperparameter optimization problem for machine learning algorithms and proposes a new approach based on optimization with precedent initial information.
Let's assume that for some sets of hyperparameter values, we already know the quality metric values of the algorithm (for example, for randomly generated hyperparameter values). In this case, we are dealing with a case of supervised learning (regression problem), where the instances are sets of hyperparameters, and the responses are the quality metric values.
Therefore, the task of choosing optimal hyperparameter values can be considered as an optimization problem with precedent initial information [1 5], for which one can use a neural network-based approach as described in [5], or a tree-based approach as outlined in [4].
The quality of the proposed approach for solving the hyperparameter optimization problem in machine learning models in real-world tasks is planned to be thoroughly investigated in future research.
Keywords: machine learning, hyperparameters tuning, neural networks.
Введение
При решении задач машинного обучения одной из актуальных является проблема выбора модели, в частности проблема выбора оптимальных значений гиперпараметров модели алгоритма, — параметров, которые необходимо выбрать до этапа обучения.
Под моделью алгоритма будем понимать параметрическое семейство отображений
А = {ф, в) | в е ©},
где < : X х © ^ У — некоторое фиксированное отображение, X — множество объектов и У — множество значений неизвестной целевой функции в задачах машинного обучения.
В работе [1] зависимость модели алгоритмов А от гиперпараметров задается с помощью параметрического шаблона модели алгоритмов или просто шаблоном алгоритмов.
Шаблоном называется оператор Ь : Г ^ А, где Г — множество возможных значений гиперпараметров, а А — множество возможных моделей алгоритмов. Если при этом Г = Г х ... х Г к, где Г — множество допустимых значений гиперпараметра ^^, j = 1 , п, то шаблон называется к-параметрическим.
Другими словами, k-параметрический шаблон задает вид отображения <£> модели алгоритмов A 6 A на основе гиперпараметров y1 ,..., Yk.
Тогда, переходя к задаче машинного обучения, для нахождения решения имеем два этапа: на первом этапе решения — этапе выбора модели — с помощью шаблона и гиперпараметров выбирается модель алгоритмов, а далее, на этапе обучения — с помощью метода обучения [6] и найденной модели — оптимальный алгоритм (решающее правило).
Гиперпараметры могут задавать количество нейронов скрытого слоя нейронной сети, максимальную глубину бинарного решающего дерева, число ближайших соседей в метрических алгоритмах классификации и т. д.
Число гиперпараметров шаблона алгоритмов может быть достаточно большим, а оптимальные значения гиперпараметров для одного и того же алгоритма могут различаться в зависимости от задачи, решаемой алгоритмом, и входных данных, с которыми он должен работать. Обычно, оптимальные значения гиперпараметров не являются очевидными, и их необходимо подбирать. Процесс подбора может занимать большое количество времени. Существуют различные подходы к их поиску, каждый со своими преимуществами и недостатками.
В статье проводится обзор основных существующих алгоритмов решения задачи оптимизации гиперпараметров для алгоритма машинного обучения и предлагается новый подход, основанный на решении задачи оптимизации с перецедентной начальной информацией.
1. Алгоритмы ПОДБОРА ГИПЕРПАРАМЕТРОВ
Поиск по сетке (Grid Search). Алгоритм поиска по сетке принимает на вход модель и допустимые значения гиперпараметров (сетку гиперпараметров), и вычисляет оценки качества модели для всевозможных наборов значений гиперпараметров. В конце работы алгоритм возвращает модель, для которой величина ошибки минимальна [7].
Преимущества Недостатки
• простота реализации; • легко параллелизуем; • возможность получения модели наиболее близкой к оптимальной, при достаточно большой плотности заданной сетки гиперпараметров. • эффективен только при малом количестве гиперпараметров; • при увеличении количества гиперпараметров, количество их комбинаций растёт экспоненциально, что значительно замедляет на время работы алгоритма.
Таблица 1. Преимущества и недостатки Grid Search.
Случайный поиск (Random Search). Алгоритм представляет собой вариацию поиска по сетке, в котором полный перебор всех возможных комбинаций значений гиперпараметров заменён на их выборку случайным образом. Он может применяться как к дискретным сеткам (как стандартный Grid Search), так и к непрерывным, в которых значения гиперпараметров задаются верхней и нижней границами интервалов [7].
Преимущества Недостатки
• простота реализации; • легко параллелизуем; • в отличии от Grid Search, в котором полный перебор всех комбинаций требует большого количества времени и ресурсов, в Random Search при достаточном разбросе, можно оценить результаты для небольшого количества комбинаций гиперпараметров и затем корректировать настройки поиска или проводить исследования в заданной области другими алгоритмами. • случайное время сходимости.
Таблица 2. Преимущества и недостатки Random Search.
Вероятностные методы. Вероятностные методы оптимизации гиперпараметров используют вероятностные модели и статистические методы для эффективного поиска и оптимизации гиперпараметров для моделей машинного обучения. Эти методы особенно полезны при работе со сложными многомерными пространствами гиперпараметров.
Байесовская оптимизация. Байесовская оптимизация — способ оптимизации гиперпараметров, основанный на вероятностных моделя, основная идея которого состоит в том, чтобы восстановить функцию распределения в пространстве гиперпараметров таким образом, чтобы получить их оптимальный набор [8].
Два основных компонента алгоритма — вероятностная модель распределения гиперпараметров, так же называемая суррогатной моделью (surrogate model), и функция сбора (acquisition function).
В общем виде алгоритм Байесовской оптимизации работает следующим образом:
1. строится исходное предположение о распределении гиперпараметров, с которыми качество модели будет наиболее оптимальным;
2. для каждого набора гиперпараметров модель обучается и оценивается ее качество, чтобы обновить вероятностную модель (предположение об оптимальном распределении гиперпараметров);
3. для выбора следующего набора гиперпараметров используется функция сбора, которая учитывает текущую модель и ее оценку, чтобы выбрать набор гиперпараметров, который с максимальной вероятностью будет оптимальным.
Одной из наиболее часто используемых функций сбора является Expected Improvement (EI), которая выглядит следующим образом:
J?Ti ^ if ( f fbest-^{x)\ f fbest - Mx) \
EI(x) = (fbest - МЖ))Ф ( --- I + -Ф ( --- I ,
где fbest — лучшее наблюдаемое значение, ^(x) — апостериорное математическое ожидание на наборе x [8].
Базовый вариант байесовской оптимизации, описанный выше, называется Sequential Model-Based Optimization (SMBO) с гауссовской суррогатной моделью. Так же, часто используются и другие суррогатные модели, например, случайный лес.
Преимущества Недостатки
• умение работать с «функциями чёрного ящика» функциями, у которых неизвестна внутренняя структура или механизм работы, и ее входные и выходные данные являются единственными доступными для наблюдения; • эффективная работа с пространствами поиска высокой размерности (большим количеством гиперпараметров); • универсальность в работе с широким спектром типов задач, включая многоцелевую оптимизацию и шумовые функции. • нельзя распараллелить, поскольку процесс оптимизации последователен; • высокая вычислительная сложность; • возможность переобучения; • в основу алгоритма ложатся предположения о структуре и свойствах целевой функции, которые могут не выполняться на практике.
Таблица 3. Преимущества и недостатки метода SMBO.
Существуют также и другие разновидности байесовской оптимизации: Tree-structured Parzen Estimator (TPE), Ensemble-based Bayesian optimization и Derivative-based Bayesian optimization.
Оптимизация на основе градиентов. У всех методов, описанных выше есть существенный недостаток: они неспособны эффективно оптимизировать большие наборы гиперпараметров (10 гиперпараметров, 20, и больше). Эту проблему призван решить метод оптимизации на основе градиентов — метод градиентного спуска и его модификации (стохастического градиента, AdaGrad, RMSProp, Adam и др.). Его
идея заключается в следующем в итеративном обновлении вектора значений гиперпараметров в направлении антиградиента функции (или модели), зависящей от данного вектора, до нахождения таких значений гиперпараметров, при которых целевая модель имеет оптимальную оценку качества [10].
Преимущества Недостатки
• зачастую он более эффективен, чем Grid Search и Random Search, лучше справляется с большим количеством гиперпараметров; • для выпуклых задач оптимизации градиентный спуск гарантированно находит глобальный минимум, а для невыпуклых задач часто сходится к более лучшему локальному минимуму. • чувствительность к коэффициенту обучения, от выбора которого зависит качество и скорость сходимости; • сходимость к локальным минимумам; • чувствительность к начальному приближению: начальные значения параметров модели могут влиять на сходимость, плохая инициализация может привести к медленной сходимости или сходимости к неоптимальным решениям; • сложность настройки гиперпараметров.
Таблица 4. Преимущества и недостатки градиентных методов.
Эволюционные алгоритмы. Еще одним методом настройки гиперпараметров является метод на основе генетического алгоритма, где индивидами являются наборы значений гиперпараметров, а функцией приспособленности — метрика качества алгоритма.
Преимущества Недостатки
• распараллеливание: генетические алгоритмы можно эффективно распараллеливать, что позволяет одновременно оценивать несколько индивидов, что ускоряет процесс поиска; • адаптивность: генетические алгоритмы могут адаптироваться к различным типам гиперпараметров (целочисленным, вещественным, категориальным. • вычислительные затраты: обучение нескольких моделей машинного обучения для каждого поколения может быть дорогостоящим с точки зрения вычислений; • чувствительность к выбору собственных гиперпараметров; • нет гарантии нахождения глобального оптимума.
Таблица 5. Преимущества и недостатки эволюционных методов.
Нейросетевой подход. Предположим, что для некоторых наборов значений гиперпараметров уже известны значения метрики качества алгоритма (например, для случайно сгенерированных). В этом случае, мы имеем дело с задачей обучения по прецедентам (задачей восстановления регрессии), где объекты — это наборы гиперпараметров, а ответы — значения метрики качества.
Таким образом, задачу выбора оптимальных значений гиперпараметров можно рассматривать как задачу оптимизации с перецедентной начальной информацией [1-5], для решения которой можно использовать нейросетевой подход, описанный в [5] либо подход на основе деревьев (см. [4]).
Качество работы предлагаемого подхода решения задачи оптимизации значений гиперпараметров модели машинного обучения в реальных задачах планируется подробно изучить в дальнейших работах.
Заключение
В работе проведён обзор существующих подходов к решению задачи оптимизации значений гиперпараметров для алгоритма машинного обучения, выделены их преимущества и недостатки. Кроме этого, предложен новый подход — сведение задачи оптимизации гиперпараметров к задаче оптимизации с прецедентной начальной информацией и ее решение на основе бинарных решающих деревьев (леса) и с помощью нейросетевого подхода.
СПИСОК ЛИТЕРАТУРЫ
1. Анафиев А. С. Некоторые положения и задачи теории шаблонов // Таврический вестник информатики и математики. — 2009. — № 1 (14). — C. 39-45.
ANAFIEV A. (2009) Basic concepts and definitions of template theory. Taurida Journal of Computer Science Theory and Mathematics. 1 (14). p. 39-45.
2. ANAFIEV, A. and ABDULKHAIROV, A. (2013) An approach to reconstruct target function of the optimization problem with precedent initial information. Taurida Journal of Computer Science Theory and Mathematics. 2. p. 4-9.
3. Анафиев А. С. Оптимизационные модели с прецедентной начальной информацией / А. С. Анафиев, В. Ф. Блыщик // Таврический вестник информатики и математики. — 2011. — № 2 (19). — C. 51-57.
ANAFIEV, A. & BLYSHCHIK, V. (2011) Optimization models with precedent initial information. Taurida Journal of Computer Science Theory and Mathematics. 2 (19). p. 51-57.
4. Донской В. И. Извлечение оптимизационных моделей из данных: подход на основе решающих деревьев и лесов // Таврический вестник информатики и математики. — 2017. — № 4 (37). — C. 59-86.
DONSKOY, V. (2017) Extracting optimization models from data: a decision tree and forest approach. Taurida Journal of Computer Science Theory and Mathematics. 4 (37). p. 59-86.
5. Донской В. И. Извлечение оптимизационных моделей из данных: применение нейронных сетей // Таврический вестник информатики и математики. — 2018. — № 2 (39). — C. 71-89.
DONSKOY, V. (2018) Extracting optimization models from data: a neural network approach. Taurida Journal of Computer Science Theory and Mathematics. 2 (39). p. 71-89.
6. Воронцов К. В. Математические методы обучения по прецедентам // machinelearning.ru [Электронный ресурс]. — Режим доступа:
http: / / www.machinelearning.ru / wiki / images/6/6d/voron-ml- 1.pdf
7. J. BERGSTRA, and Y. BENGIO (2012) Random Search for Hyper-Parameter Optimization. Journal of Machine Learning Research. [Online] JMLR 13. p. 1-25. Available from:
https: //www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf. [Accessed: 30th January 2012].
8. E. BROCHU, V. M. CORA, and N. DE FREITAS (2010) A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. arXiv. [Online] arXiv 1. p. 1-49. Available from:
https://arxiv.org/pdf/1012.2599v1.pdf. [Accessed: 30th January 2012].
9. L. FRANCESCHI at al. (2017) Forward and Reverse Gradient-Based Hyperparameter Optimization. arXiv. [Online] arXiv 3. p. 1-11. Available from: https://arxiv.org/pdf/1703.01785.pdf. [Accessed: 30th January 2012].
10. M. FEURER, and F. HUTTER (2019) Hyperparameter Optimization. Springer. [Online] Springer 1. p. 1-31. Available from:
https://link.springer.com/content/pdf/10.1007/978-3-030-05318-5_1.pdf. [Accessed: 30th January 2012].
11. M. MELANIE (1999) An Introduction to Genetic Algorithms. 5. Cambridge, Massachusetts.