НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ сентябрь-октябрь 2020 Том 20 № 5 ISSN 2226-1494 http://ntv.ifmo.ru/
SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS September-October 2020 Vol. 20 No 5 ISSN 2226-1494 http://ntv.ifmo.ru/en/
ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ
УДК 004.852 doi: 10.17586/2226-1494-2020-20-5-667-676
МЕТОД ВЫБОРА ГИПЕРПАРАМЕТРОВ В ЗАДАЧАХ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ СТОХАСТИЧЕСКИХ ОБЪЕКТОВ
А.В. Тимофеев
ТОО «Эквалайзум», Астана, 010000, Казахстан Адрес для переписки: timofeev.andrey@gmail.com Информация о статье
Поступила в редакцию 01.07.20, принята к печати 10.08.20 Язык статьи — русский
Ссылка для цитирования: Тимофеев А.В. Метод выбора гиперпараметров в задачах машинного обучения для классификации стохастических объектов // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 5. С. 667-676. doi: 10.17586/2226-1494-2020-20-5-667-676
Аннотация
Предмет исследования. Предложен простой и эффективный метод выбора гиперпараметров при решении классификационной проблемы методами машинного обучения. Метод работает с любыми гиперпараметрами вещественного типа, значения которых лежат внутри известного вещественного параметрического компакта. Метод. Внутри параметрического компакта генерируется случайная выборка (пробная сеть) сравнительно небольшого объема, для каждого элемента которой вычисляется эффективность выбора гиперпараметров согласно специальному критерию. Эффективность оценивается величиной некоторого вещественного скаляра, который принципиально не зависит от порога классификации. Таким образом, формируется выборка регрессии, регрес-сорами которой являются случайные наборы гиперпараметров из параметрического компакта, а значениями регрессии - соответствующие этим наборам значения показателя эффективности классификации. На основании полученной выборки строится непараметрическая аппроксимация этой регрессии. На следующем этапе, используя метод оптимизации Нелдера-Мида, определяется минимальное значение построенной аппроксимации для регрессионной функции на параметрическом компакте. Аргументы минимального значения регрессии являются приближенным решением поставленной задачи. Основные результаты. В отличие от традиционных, предложенный подход основан на непараметрической аппроксимации функции регрессии: набор гиперпараметров — значение показателя эффективности классификации. Особое внимание уделено выбору критерия качества классификации. За счет использования аппроксимации упомянутого типа имеется возможность исследования поведения показателя эффективности вне значений пробной сетки. Как следует из проведенных экспериментов на различных базах данных, предложенный подход обеспечивает существенный прирост эффективности выбора гиперпараметров по сравнению с базовыми вариантами и одновременно сохраняет практически приемлемую работоспособность даже для малых значений мощности пробного множества. Новизна подхода заключена в одновременном использовании: непараметрической аппроксимации для функции регрессии, которая связывает значения гиперпараметров с соответствующими им величинами критерия качества; выборе критерия качества классификации и метода поиска глобального экстремума этой функции. Практическая значимость. Предложенный алгоритм выбора гиперпараметров может быть использован в любых системах, основанных на принципе машинного обучения. Например, в системах управления технологическими процессами, биометрических системах и системах машинного зрения. Ключевые слова
выбор гиперпараметров, машинное обучение, Multiclass Gradient Boosting Classifier, Multiclass SVM-classifier, SV-регрессия, Gradient Boosting Regression, метод Нелдера-Мида
doi: 10.17586/2226-1494-2020-20-5-667-676
METHOD FOR HYPERPARAMETER TUNING IN MACHINE LEARNING TASKS FOR STOCHASTIC OBJECTS CLASSIFICATION
A.V. Timofeev
LLP EqualiZoom, Astana, 010000, Republic of Kazakhstan Corresponding author: timofeev.andrey@gmail.com Article info
Received 01.07.20, accepted 10.08.20 Article in Russian
For citation: Timofeev A.V. Method for hyperparameter tuning in machine learning tasks for stochastic objects classification. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2020, vol. 20, no. 5, pp. 667-676 (in Russian). doi: 10.17586/2226-1494-2020-20-5-667-676
Abstract
Subject of Research. The paper presents a simple and practically effective solution for hyperparameter tuning in classification problem by machine learning methods. The proposed method is applicable for any hyperparameters of the real type with the values which lie within the known real parametric compact. Method. A random sample (trial network) of small power is generated within the parametric compact, and the efficiency of hyperparameter tuning is calculated for each element according to a special criterion. The efficiency is estimated by the value of a real scalar, which does not depend on the classification threshold. Thus, a regression sample is formed, the regressors of which are the random sets of hyperparameters from the parametric compact, and regression values are classification efficiency indicator values corresponding to these sets. The nonparametric approximation of this regression is constructed on the basis of the formed data set. At the next stage the minimum value of the constructed approximation is determined for the regression function on the parametric compact by the Nelder-Mead optimization method. The arguments of the minimum regression value appear to be an approximate solution to the problem. Main Results. Unlike traditional approaches, the proposed approach is based on non-parametric approximation of the regression function: a set of hyperparameters -classification efficiency index value. Particular attention is paid to the choice of the classification quality criterion. Due to the use of the mentioned type approximation, it is possible to study the performance indicator behavior out of the trial grid values ("between" its nodes). As it follows from the experiments carried out on various databases, the proposed approach provides a significant increase in the efficiency of hyperparameter tuning in comparison with the basic variants and at the same time maintains almost acceptable performance even for small values of the trial grid power. The novelty of the approach lies in the simultaneous use of non-parametric approximation for the regression function, which links the hyperparameter values with the corresponding values of the quality criterion, selection of the classification quality criterion, and search method for the global extremum of this function. Practical Relevance. The proposed algorithm for hyperparameters tuning can be used in any systems built on the principles of machine learning, for example, in process control systems, biometric systems and machine vision systems. Keywords
hyperparameters tuning, machine learning, multiclass gradient boosting classifier, multiclass SVM-classifier, SV-regression, gradient boosting regression, Nelder-Mead method
Введение
Выбор значений так называемых гиперпараметров мультиклассовых классификаторов представляет собой принципиально важную проблему, так как гиперпараметры в значительной мере формируют структуру классификатора, и поэтому определяют границы его практической эффективности. Исторически используются различные методы определения гиперпараметров мультиклассовых классификаторов, в том числе: поиск по регулярной решетке [1]; случайный поиск [2]; байесовская оптимизация [3-5] (с использованием «суррогатной модели»), оптимизация на основе градиентов [6] и некоторые другие. Предлагаемый в настоящей работе метод представляет собой один из вариантов байесовской оптимизации, в котором, в отличие от известных подходов, в качестве суррогатной функции выступает непараметрическая регрессия, построенная на базе множества предварительно вычисленных значений обобщенного критерия качества классификатора. Собственно регрессорами являются значения гиперпараметров в предположении, что они принадлежат некоторому, априорно заданному параметрическому компакту. Используя оптимизационную процедуру, которая не подразумевает необходимости вычисления градиентов оптимизируемого функционала, определяется минимальное значение нелинейной регрессии на параметрическом компакте. Аргументы минимума регрессии являются приближенным решением поставленной задачи. Для того чтобы обеспечить глобальность решения оптимизационной задачи, алгоритм оптимизации запускается несколько раз, с различными начальными условиями. Тестирование метода на нескольких тестовых наборах данных показало высокую эффективность предложенного подхода.
Основные определения и понятия
Наблюдаются процесс {х/е*)|/ > 0}, имплицитно зависящий от априорно неизвестного параметра (индекса) 0*, 0* е ©, где © = {0^} с Я1, |©| < да такое, что 02 ф 01 е ©, — априорно заданное множество индексов. х/0) е X, где X — множество значений наблюдаемого процесса, а (X, dx) — компактное метрическое пространство наблюдений; — метрика этого пространства. Обозначим (2, — компактное метрическое пространство признаков, где dz — метрика этого пространства; 2 — множество значений признаков. Элементами этого пространства являются наборы числовых параметров, которые информативно характеризуют наблюдения. При решении классификационной задачи пространство (X, dx) отображается в пространство (2, dz) при помощи некоторого известного преобразования Ь, т. е. Ух е X 3 г е 2 : г = Ь(х). Так как основные манипуляции, которые интересуют автора в рамках настоящей работы, совершаются в пространстве (2, dz), для удобства будем считать, что наблюдения сразу проецируются в пространство признаков. Для каждого класса из © заданы обучающие корпуса:
гф = {(г®, 0)|у = 1.....^с/.вев,
° 060
Здесь = 2$],е г. Классификатор
/(в|к): 2 ^ © — это некая функция, которая разделяет пространство (2, с1) на т = |©| = ^ те классов.
Классификатор зависит от параметров двух типов: в е В — настраиваемые параметры и к е Н — так называемые гиперпараметры, которые в значительной мере определяют структуру классификатора, где В и
H — известные компакты. Основное отличие параметров ß и h, с точки зрения теории машинного обучения, заключается в том, что настраиваемые параметры ß могут быть определены только при фиксированной структуре классификатора. В связи с этим сначала путем выбора конкретного значения набор гиперпараметров h е H фиксируется структура классификатора /(ß|h), и только после этого производится подстройка параметров ß путем обучения на базе Ztr. Для определения оптимальной пары параметров (ß, h) требуется повторить данную процедуру многократно.
Пусть фиксирован набор гиперпараметров h е H. В этом случае параметры ß б B классификатора f (ß|h) выбираются при помощи поисковой процедуры Sf(ß|h, Ztr). Эта процедура зависит от типа классификатора f(-) и, как правило, сводится к определению такого набора ß* б B, который доставляет минимум ошибок классификации:
Q(ZT,Mh)) = (<[/tß|/0(4°) ф 0])^Zr)e.e. ZrSZ„
при ограничениях, в качестве которых выступают условия регуляризации, где ZT — множество прецедентов, на котором классификатор f(-) был обучен; <> — функция усреднения; [•] — скобка Айверсона. Смысл регуляризации непрост и сводится к управлению сложностью модели классификатора так, чтобы функция /(ß|h): Z ^ © не была слишком «сложной» в смысле теории Вапника-Червоненкиса. Управление сложностью классификатора призвано повысить его обобщающую способность, ограничивая степень его переобученности на конкретном обучающем наборе Ztr. Кроме того, для повышения обобщающей способности зачастую используется ресемплинг на наборе Ztr, в том числе популярный метод перекрестной проверки (Cross Validation). Регуляризация может быть в явном виде отражена в функционале ошибок, например, для классификатора типа Support Vector Machine регуляри-зирующий компонент присутствует в виде аддитивного члена, что хорошо согласуется с принципом регуляризации по Тихонову. В других случаях регуляризация может выражаться в качестве одного из компонентов гиперпараметра h е H, например: в качестве параметра «максимальное количество листьев» для классификатора типа «случайный лес» (Random Forest Classifier).
Таким образом, тип классификатора существенным образом определяет структуру процедуры Sfß|h, Ztr). Например, в случае классификатора типа «нейронная сеть» — эта процедура называется «метод обратного распространения ошибки». Данная процедура постоянно модифицируется, реагируя на появление новых топологий нейронных сетей, и в настоящее время представляет собой достаточно эффективный алгоритм.
Как уже отмечалось ранее, набор гиперпараметров h е H кардинальным образом характеризует структуру классификатора. В этом состоит основное отличие гиперпараметров от настраиваемых параметров ß б B, значения которых определяют качество работы классификатора при фиксированном наборе h е H для заданного корпуса обучающих данных Ztr ç Z (здесь Z — все возможные корпуса типа Ztr). Например, в
случае нейронной сети гиперпараметрами являются: количество слоев, число нейронов в каждом слое, тип функции активации и прочие параметры, которые определяют собственно топологию сети. Заметим, что многие известные классификаторы, которые изначально исследовались в теории обособленно (например, Support Vector Machine, Extreme Learning Machine, сеть Кохонена и др.) или допускают эквивалентную интерпретацию в виде нейронной сети, или попросту являются нейронными сетями с конкретной топологией. Эта особенность подчеркивает важность проблемы выбора гиперпараметров, в особенности для случая нейронных сетей, так как в данном случае гиперпараметры однозначно определяют топологию конкретной нейронной сети, которая обуславливает ее потенциальные возможности и ограничения.
Обозначим П = B ® H - область допустимых значений параметров ß б B, h е H. С точки зрения процесса аппроксимации разделяющих классы гиперповерхностей {Dq|0 б ©}, к которой сводится процедура обучения любого классификатора, допустима условная аналогия с понятиями локального и глобального экстремумов выбранного критерия качества аппроксимации этих «идеальных» гиперплоскостей. Аппроксимация гиперповерхностей {De|0 б ©} производится путем подгонки параметров ß б B классификатора/(ß|h) на обучающем корпусе Ztr при помощи специальной поисковой процедуры S/-(h|ß, Ztr), для фиксированного h е H. В результате этой аппроксимации, явно или неявно, формируются аппроксимирующие гиперплоскости {d0f(ß|h, Ztr)|0 б ©}. Существуют ситуации, когда в выбранном пространстве признаков некоторые классы из © - принципиально неразличимы. Для простоты эти ситуации будут исключены из рассмотрения, т. е. полагаем, что для любого класса из © может быть построена гиперповерхность De, которая идеально отделяет этот класс от других. При этом степень качества аппроксимации dgf (ß|h, Ztr) для De оценивается при помощи некоторого функционала /De, d0f(ß|h, Ztr)) такого, что
V0 б ©, h е H, Ztr = Z: [0 < me(Ztr) < /De, de/(ß|h, Ztr)) * a * 1],
где me(Ztr) — потенциально достижимая точность аппроксимации для корпуса Ztr и класса e б ©; a — некоторое число, 0 < a < 1. Функционал Ij-(-) иначе будем называть критерием качества аппроксимации границ. Чем лучше аппроксимация, тем меньше значения функционала If('), идеальная аппроксимация (для корпуса Ztr) соответствует случаю If(-) = me(Ztr). (Ztr = Z) ^ ^ (I() = 0). Качество аппроксимации на всем множестве © характеризуется функционалом:
Iy(ß, ©, h, Ztr) = {If (De, de/(ß|h, Z^©.
Обозначим: S(n, B, ß0, Q(Ztr,/(ß|h))|©) = Sf(h\B, Ztr) — процедура поиска локального экстремума функционала ошибок Q(Ztr, /(ß|h)), по аргументу ß, для обучающего корпуса Ztr и классификатора /(ß|h), при фиксированном h; ß0 — начальное значение аргументов поиска (точка старта) при фиксированном h е H, (ß0, h) б П. Как правило, процедура S/-(-) реализуется по схеме
жадной оптимизации (Greedy Algorithm). В результате работы процедуры S/(-) получаем набор настроечных параметров P*(Ztr|h) б B для /(P|h), (P*(Ztr|h), h) е П. Пусть П для любого корпуса Ztr с Z содержит точкУ (P*(Ztr|h) h) для которой (P/*(Ztr|h) = Argbf6(Zr
/(P|h)). Так как процедура S/(-) имеет локальный характер, ее результат зависит от начальных условий Р0. По этой причине в общем случае допустима запись:
VZtr с Z 3 B'(h): (ро б B'(h)) ^ ^ (S/(f, B, ро, Q(Ztr,/(e\h))\®) = p/*(Ztr|h)).
Таким образом, в результате работы процедуры S/('), для заданных Ztr с Z, h е H, будут получены аппроксимации <ie/-(P*(Ztr|h)|h, Ztr) гиперповерхностей разделяющих классы 0 б ©. Аппроксимации de/-(-|h, Ztr) существенным образом зависят от корпуса Ztr с Z. В общем случае:
Vh е H, 0 е ©, Z1 ф Z2 с Z: d0,/(P*(Z1|h)|h, Zj) ф ф d0^(p*(Z2|h)|h, Z2).
Собственно говоря, в этом и состоит проблема обеспечения высокой обобщающей способности процедуры обучения классификатора/(P|h). Дело в том, что высокая точность аппроксимации гиперплоскостей {D0|0 е ©}, полученная на основе использования конкретного корпуса Ztr с Z в виде аппроксимаций {d0,/-(P*(Ztr|h)|h, Ztr)|0 е ©}, не гарантирует того, что на другом корпусе Zt* ф Ztr, Ztr# с Z данные аппроксимации будут эффективными. В этой связи для конкретного корпуса Ztr с Z нет смысла строить оценку слишком высокого качества. Так как повышение качества аппроксимации на корпусе Ztr с высокой вероятностью снижает качество аппроксимации на корпусах из множества Z\Ztr. По этой причине, в функционал ошибок Q(Ztr, /(P|h)) иногда добавляют специальные регуляризирующие параметры, которые искусственно понижают точность аппроксимации и которые, по сути дела, являются гиперпараметрами.
Обозначим:
{Р/*** (h/***), h/***} = ArgpInf I/(D0, d0^(p|h, Z)),
где {P/*** (h/***), h/***} — оптимальная параметрическая пара, которую можно определить для / (P|h) только на всем множестве возможных корпусов Z, что практически невозможно. На практике приходится обходиться оценками этой пары, которая определяется на базе доступных корпусов, учитывая необходимость сохранения высокой обобщающей способности классификатора. В том случае, когда задан корпус Ztr с Z, имеем:
cf (Ztr) = {р/** (h/**), h/**} =
= ArgpIjef If (D0, d0/(p|h, Ztr)), If (D0, d/(P**(Ztr, h**)) >
> m0(Ztr).
В данном случае c/ (Ztr) представляет собой параметрическую пару, которая:
1) является условно оптимальным решением аппрок-
симационной задачи для классификатора / (P|h);
2) соответствует корпусу Ztr с Z;
3) является потенциально достижимой целью при настройке параметров классификатора / (P|h) в условиях, когда полный корпус данных Z — недоступен.
При удачно выбранном начальном условии Ро, имеем: p/**(Ztr|h/**) = S/(h/**|B, Zfr).
Теперь, когда определены основные термины и понятия, можно перейти к основной задаче настоящей работы: определению практически эффективных оценок для пары c/(Ztr). Так как величины P/**(Ztr|h/**) и h/** — взаимозависимы согласно способу их определения, на практике параметрическая пара c/(Ztr) вычисляется итерационно, на базе использования некоторой эмпирической процедуры O/(Ztr, H), которая тем или иным образом основана на исследовании зависимости функционала качества аппроксимации I/ (P(h), ©, h, Ztr) от значений гиперпараметра h на H.
Исследование такого рода невозможно без вычисления множества {P/(Ztr|h)|h е h} с B, которое определяется с использованием процедуры S/(•) на некотором множестве «проб» h = {h|h е H}, |h| < да. Для конкретного h е H, стоимость вычисления набора P/(Ztr |h) = Р/-(h) при помощи процедуры S/(h|B, Ztr) может быть достаточно велика. Именно по этой причине величина |h| не может быть значительной и, как правило, n = |h| < 50. Техническая проблема состоит в том, что функционал качества I/(P/(h), ©, h, Ztr) не может быть вычислен в явном виде, так как множество {D0|0 е ©} всегда неизвестно. В связи с этим на практике требуется некоторая аппроксимация Y/(P/(h), h|©, Ztr) этого функционала, которая, в идеале, характеризует качество работы алгоритма / (P|h) на ©, зависит от h е H и ©, но не зависит от значения порога принятия решения. Выбору подходящей аппроксимации Т/ (Р/ (h), h|©, Ztr) посвящен следующий раздел статьи. В дальнейшем будем вместо Т/ (Р/ (h), h|©, Ztr) использовать сокращенную запись Т/ (Р/ (h), h).
Будем учитывать эти ограничения, обозначая эмпирическую процедуру О/ (Ztr, H) для вычисления c- (Ztr) при фиксированном n следующим образом: О„/(Ztr, h). Естественно, что ввиду конечности |h| точное вычисление c/(Ztr) принципиально невозможно, а на выходе вычислительной процедуры получено некоторое приближение, которое обозначим cn/(Ztr): cn/(Ztr) =
= ^n^rK/l hn/} = On/(Ztr h).
Пусть заданы несколько Data Set, которые совместно составляют множество DS = {DSj j = 1,3} и представляют собой размеченные корпуса мультиклассо-вых наблюдений. Корпуса DS будут использованы для тестирования предлагаемого алгоритма. Структура данных по этим корпусам будет подробно описана в дальнейшем тексте статьи.
Разработчики каждого алгоритма классификации / (P|h), как правило, всегда рекомендуют некоторые «номинальные» (базовые) значения его гиперпараметров, которые не зависят от обучающих корпусов. Обозначим базовое значение символом hB,/ и будем использовать его в качестве опорного решения при сравнительном анализе. Кроме того, для сравнительного анализа будет использован и широко известный метод оптимизации гиперпараметров при помощи случайного поиска [2], который обозначим символом (второе опорное
решение, которое зависит от соответствующего корпуса ББ^ 6 Б8 и числа проб п). В этом случае вв/(кв/) = = /Йв/В, Ztr), ват/р/ = Б^к/в, Ъ1Г).
Постановка задачи
Для заданных Ztr, Н и /(в|к) необходимо определить такую процедуру Оп/(Ъг, Ь), которая позволяет, при минимальном п = |Ь|, для Zjtr с БЗ. БЗ; .6 Б8, вычислять оценку Cn,/l/•(Z7• tr) = К/) так, что
VDSj е DS: [Tf (ß„f (hf h(f) < Tf (ßf hf, h5,f ),
T^(ß„/(h„°}), hf < Y^(ßsT^(hST^„), hST^„)]
Критерий эффективности (информативности)
Крайне важен выбор критерия эффективности (информативности) Yy(P(h), h) классификационной процедуры /(P|h). Существует множество взаимодополняющих друг друга критериев, в том числе, например: вероятность правильной классификации, accuracy, «сбалансированная точность» (balanced accuracy), TPR (true positive rate), Fp score (P = 1,2,..), AUC-ROC и др. [1]. В вопросе выбора критерия качества есть множество нюансов, которые в первую очередь обусловлены несбалансированностью как обучающих, так и тестирующих наборов данных по классам. Подробный анализ всего множества критериев эффективности решения задачи классификации не является целью настоящей работы, отметим лишь то, что в качестве критерия качества желательно выбирать тот критерий, который в максимальной степени отражает цели классификации для конкретной задачи. При этом желательно выбирать такой критерий, который мог быть полезен сразу для целой группы задач и при этом не зависел бы от локальных параметров классификатора, например, от уровня порога принятия решения. Но при всем этом достоверно характеризовал бы информативность классификатора.
Всем этим требованиям отвечает критерий AUC-ROC (Area Under the Curve ROC), где ROC — это так называемая Receiver Operator Characteristic [7]. В отличие от иных критериев качества классификации, величина AUC-ROC не зависит от порога принятия решения и адекватно характеризует общую эффективность (информативность) классификатора в следующем смысле: классификатор должен выделять как можно больше объектов целевого класса и как можно меньше объектов всех остальных классов. Формально это может быть записано следующим образом:
/с(яр|й)|®) =
Чем меньше величина ICf (ß|h)|©), тем более информативен классификатор f(ß\h) для заданных ß и h. Наилучший результат соответствует ситуации ICf (ß|h)|©) ^ min.
Эффективность классификатора в мультиклассо-вой постановке задачи оценивается в рамках широко известной стратегии «one vs rest» (OvR or one-vs.-all, OvA or one-against-all, OAA) [8] путем сведения муль-тиклассовой задачи к серии бинарных задач: принадлежит ли образец z к классу 0, или он принадлежит к классу ©\0, 0 б ©.
В этой связи обозначим:
— V0 б ©: P0(T| f (P|h)(z) > T) — вероятность того, что при использовании классификатора f (Р|й) объект z принадлежит к классу 0, если решение принимается согласно правилу f (P|h)(z) > T;
— V0 б ©: Р©Ш(Т| f (P|h)(z) > T) — вероятность того, что при использовании классификатора f (Р|й) объект z принадлежит классу ©\0, если решение принимается согласно правилу f (P|h)(z) > T;
— z<©0) с и
(я).
\б©\0 Чг ; _ _(0) ^ 7(0).
_ ТРЯ/(т|0,в,к) = } Р0(х|/(в|к)(ч) > х)^х, 0 6 ©; т
( 1, г/а < Ъ
— 1[а < Ъ] = ;
I 0, г/ а > Ъ
— []м — операция математического округления.
В этом случае параметр АИС^ОС для классификатора /(в|к) и класса 0 6 © определяется согласно выражению:
да
лис/ (0,в,к) = 1 ТРЯ/ (Т |0,в,к) Р©Ш(Т | / (в|к)(ч) > т)ат, -да 0 6 ©.
По всему множеству © параметр АИС^ОС определяется согласно выражению:
ЛиС/©(в,к) = (ЛиС/ (0,в,к»вб©, 1©1 > 2.
Для практических расчетов удобно использовать оценку этой величины, которая определяется согласно выражению [9]:
AUCf*(0,ß,h, Ztr) = Z I 1f(ß|h)(to) <
toezftiezf^0)
< f (ß|h)(t1)](|Zt(r6)||z(r©\6)|)-1.
AUCf©*(ß,h, Ztr) = (AUCf* (0,ß,h))0e©, |©| > 2, AUCf©*(ß,h) е [0,1].
Таким образом, далее будем полагать, что Tf (ß(h), h|©, Ztr) = 1 - AUCf ©*(ß,h, Zr).
Метод решения
Обозначим Ф^-: H
ß,h
• Т/ (в/ (к), к|©, Ztr). Предлагаемый подход состоит из двух этапов. На первом этапе строится непараметрическая регрессия Л/, которая аппроксимирует функцию Ф/ А на втором этапе, используя процедуру Нелдера-Мида, находится глобальный минимум этой функции на параметрическом компакте Н, аргументы которого и являются решением поставленной задачи. Рассмотрим эти этапы более подробно.
Пусть определено множество опорных точек Г/(Ь) = {/-), кг-)|кг- 6 Ь}, где Ь = {к|к 6 Н}, |Ь| < да.
Регрессию Лу (h) можно аппроксимировать различными непараметрическими методами. Из группы альтернатив наибольшую эффективность показали аппроксимации методом опорных векторов (SV-regression) [10] и Gradient Boosting Regression [11]. Каждая из этих аппроксимаций, в свою очередь, зависима от соответствующих гиперпараметров, которые также нуждаются в настройке. Но эта настройка требует существенно меньше вычислительных ресурсов в сравнении с ресурсами, необходимыми для определения Ff (h). Так как результаты использования этих аппроксимаций имеют сравнимую точность, далее будет использована только аппроксимация методом опорных векторов )(),
которая менее требовательна к вычислительным ресурсам, и имеет набор гиперпараметров меньшей размерности. Обозначим: а* б A — набор гиперпараметров; A — известный компакт. Как уже было упомянуто ранее, крайне высокую вычислительную стоимость имеет процедура построения множества Ff (h) за счет того, что вычисление величины Фу (hi) в точках ht е h производится с использованием поисковой процедуры Sf(hi\B,Ztr) на корпусе данных Ztr большой мощности. В связи с этим желательно минимизировать величину \h\. С другой стороны, после вычисления Fj-(h) оптимизация гиперпараметров аппроксимации регрессии а представляет собой низкостоимостную в вычислительном смысле процедуру, ввиду невысокой размерности \а\, а самое главное, — ввиду малости величины \h\, поэтому оптимизация а производится, например, полным перебором на заданной решетке AL с A с малым шагом или методом случайного поиска при большом числе повторов. Формально эту процедуру можно записать так:
а* = ArgM (\Of(h() - Л^,а)(^)\\^,
где l > 1.
Для априорно заданной величины n = \h\ множество h выбирается или случайным образом или неслучайным, например, путем формирования обычной регулярной решетки. В результате имеем аппроксимацию
л» п \ Л(Sv,a*)A
для ®y(h) в виде Лу X).
На следующем шаге решается основная задача: hn = ArghInf f^h).
Обозначим символом Ind = {1, ..., U} — множество
U
индексов всех компонентов компакта H = П <H>-, где
i=1
<H>i — ограниченное множество значений компонента <h> гиперпараметра h: <h> е <H>. Примем: Int с Ind подмножество, состоящее из всех индексов компонентов компакта H, которые представляют собой конечные множества целых чисел, т. е. i е Int ^ <H> с N.
Сначала решается следующая задача:
hn/(RU) = ArghInU Л^,а*^), (1)
где RU — U-мерное вещественное пространство. Так как функционал Лу^ ^(h) негладкий и зашумленный, для решения задачи (1) используется практически эффективный метод Нелдера-Мида [12], называемый методом деформируемого многогранника, который не требует вычисления градиентов. Суть данного мето-
да заключается в последовательном перемещении и деформировании симплекса (U-мерного тетраэдра) вокруг точки экстремума. Этот метод чувствителен к начальной точке и может «застрять» на локальном экстремуме. Для того чтобы этого избежать, процедура запускается многократно, из различных точек H. На практике достаточно запустить процедуру Нелдера-Мида для каждого элемента множества F/-(h), используя их в качестве начальных точек, и выбрать то решение hnf(Ru), которое доставит минимум л/^,а )(h). Как правило, многократный запуск процедуры такого рода недорог в вычислительном аспекте, так как величина |h| — невелика. После того, как получено промежуточное решение hn/-(RU), необходимо спроектировать его на компакт H, с учетом того, что часть компонентов H являются целыми числами.
Проектирование производится при помощи проектора Pr(hnf-(RU)|H), который описывается следующим образом: U
hn/ = Pr(hn^(RU)|H): V :< P^h/R^H) > =
_ j [k(< hn/(RU) >, H)M i/(i е Int) (2)
= { k(< hn/(RU) >{, H), if(i е (Ind\Int)
( a, i/a П H ф 0 k(a, H) = p(a, H) = Arglni ||a - h||.
\p(a, H), i/a П H = 0 ^
Оценка hn/, полученная в (2) является решением поставленной задачи. Качество полученного решения определяется величиной ТДРД^/-), hn/). Чем меньше эта величина, тем выше качество выбора набора гиперпараметров hn/. Формулы (1) и (2) совместно полностью определяют искомую процедуру On/(Ztr, h).
Методика тестирования
Предложенный метод выбора гиперпараметров тестировался для двух широко известных алгоритмов машинного обучения (Machine Learning): Multiclass SVM-classifier (MC SVM) и Multiclass Gradient Boosting Classifier (MC GB). Наборы использованных гиперпараметров:
— для MC SVM:
hsvM = (C,Y, toI) е H = = [1,300] ® [0,1/Dim(Z), 10/Dim(Z)] ® [0,5-10-3, 10-2],
где Dim(Z) — размерность пространства признаков Z; Y — параметр ядерной функции (gamma); C — регуля-ризирующая константа; tol — допустимый критерий остановки;
— для MC GB:
hGB = (lr, n_e, ss, mss, msl, md, mln, m/, tol) е H,
H = [0,01; 1] ® {50, ..., 300} ® [0,5; 3] ® {2, ..., 4} ® {1, ... 4} ® {2, ..., 6} ® {2, ..., 30} ® {VDim(Z), ..., Dim(Z)} ® [0,5-Ю-4, 10-3],
где lr — leaningrate; n_e — n_estimators; ss — subsample; mss — min_samples_split; md — max_depth; mln — max_ leaf_nodes; m/ — max_features; tol — допустимый критерий остановки.
Основным параметром алгоритма, который во многом определяет объем необходимых вычислительных ресурсов (стоимость решения задачи), является параметр п = |Ь| — число опорных точек -?у(Ь) = {(Ф/к), кЛ|к,- е Ь}, необходимых для восстановления регрессии Л/ ,а )(й). Чем больше п, тем больше стоимость решения, так как вычисление величины ФДк) при фиксированном к е Ь может представлять собой высокозатратную задачу, поэтому величина п в идеале подлежит минимизации.
Идея вычислительного эксперимента, цель которого — сравнение эффективности предложенного решения с двумя опорными (базовым и вычисленным по методу случайного поиска) для некого классификатора / (Р|к), может быть представлена в виде следующей последовательности шагов.
1. Для БЗ- е Б8, вычисляются множества: Т
Таким образом, формируются множества {еДу (п)|г =
1, ..., р} и {£(г!в/(п)11 = 1, • ••, р}. Показатель еДу —
относительное (в процентах) улучшение показателя качества предложенного алгоритма по сравнению с
= {jh^i = 1, ...,p}, n е n = {10, 20, 30}, h = {h\h е H}
nj (ij) _
hnij)\ = n, i = 1, ..., p; p = 30 . Здесь
множества Ь^ определяются случайным образом. 2. Для каждого ^(Ь^-') е ,-, согласно (1) и (2) опре-
деляются локальные решения hf и формируется множество решений {hf)!/ = 1, ..., p}, а также соответствующее ему множество оценок качества этих
решений {Yy^ßy-hf), hf)!/ = 1, ..., p}. Это самый затратный в вычислительном плане этап решения.
3. Элементы Ь^/ = 1, ...,p, используются как опорные точки для метода случайного поиска [2], т. е. hif = Arg Inf Yy-(ß(h), h).
4. Для каждого n 6 n, элемента множества {h^jO. = = 1, ..., p}, а также DSj 6 DS вычисляются простые сравнительные показатели эффективности предложенного алгоритма по сравнению с двумя опорными
решениями (hgj) и h^Tp) в виде:
slfa) = 100(Yy-(ß(hg,y), hf -
- Y^^), hnf))/Y^(ß(hg^), hB/),
j (n) = 100^^), hS^li,)^«) -
- Y/-(ß(hnf)), hnf))/Y/-(ß(hSij};n), hSj« ).
базовым для набора п е п, БЗ,- и к(!'/'). Соответственно
{е^^^В/ — аналогичный показатель при сравнении предложенного метода с методом случайного поиска.
Согласно методике [13], для каждых БЗ- е Б8, п е п
и {еВ'/(п)|/ = 1, ..., р}, строятся байесовские доверительные интервалы уровня 0,9: С1п- с Н и С1п- с Н
для величин Ее—/(п) и ЕеВ/(п) соответственно, где Е% — математическое ожидание величины %. Тогда имеем: Р(Ее-/(п) е ) > 0,9 и Р(Ее$(п) е С1— > 0,9. Ширина этих доверительных интервалов характеризует точность оценивания.
Корпуса данных, использованные для численных экспериментов
Для тестирования использовались корпуса IRIS, DIGITS и SS@, совместно образующие множество DS = [DSjH = 1,3}. Корпуса IRIS и DIGITS являются стандартными и доступны через среду Python, а SS@ — корпус данных C\F-OTDR сигналов от сей-смоакустических событий, собранный на нескольких полигонах в разное время года. Краткие спецификации корпусов:
— DIGITS — 1 797 изображений 8 х 8, рукописный текст; 10 классов, каждый класс из 180 образцов; размерность пространства признаков — 64;
— IRIS — параметры лепестков цветов, 3 класса; каждый класс из 50 образцов; размерность пространства признаков — 4;
— SS@ — сейсмоакустические сигналы; 7 классов; количество образцов по классам (101, 50, 124, 145, 150, 150, 200); размерность пространства признаков 24.
Результаты тестирования
В таблице приведены результаты численного эксперимента для п = 10 и корпусов данных Б8.
Таблица. Результаты численного эксперимента
Алгоритм Метод Показатель Базы данных
IRIS DIGITS SS@
MC SVM Предложенный Y/(n,j)* 1,320-Ю-4 3,944-Ю-4 5,400'10-3
Базовый Yf(ß(hB,f), hf 2,200-Ю-4 5,800-Ю-4 3,000 10-2
Случайный Yf(ST,n, j)** 1,435-Ю-4 4,287'Ю-4 7,606'10-3
MC GBR Предложенный Yf(n, j)* 2,024-Ю-4 6,320-Ю-4 1,750 10-2
Базовый Yjf(ß(hB/), hf 8,800'Ю-4 7,900-Ю-4 2,500'10-2
Случайный Yf(ST,n, j)** 2,300-Ю-4 6,653-Ю-4 1,902 10-2
' Y/n, j) = IY/(ß(h(nf)), hjp-1; i=1
' Yf(ST,n, j) = £ Yf(ß(hjn), j )p-1. i'=l
Из таблицы можно видеть, что требования постановки задачи выполнены. Более удобна демонстрация преимущества предложенного метода при переходе к сравнительным (процентным) показателям EeSTf (n)
и Eej (и).
На рис. 1-3 в графическом виде представлены результаты численного моделирования для этих показателей по всем корпусам DS = {DSjj = 1,3} и множеству n = {10, 20, 30}. По оси ординат отложены величины EeSTf (и) (или EeBf (и)) и 90 % доверительные интервалы для них. А по оси абсцисс — параметр n (число пробных вычислений функционала качества Yf для различных значений гиперпараметра).
Названия графиков включают следующую последовательность тэгов: <Имя Базы> /<Алгоритм>/<Тип>. Тэг <Имя Базы> принимает значения имен тестовых баз из множества DS. Тэг <Алгоритм> принимает два значения: MC SVM или MC GBR, в зависимости от того, какой алгоритм классификации исследовался в данном эксперименте. Значение тэга <Тип> обозначает: метод оптимизации гиперпараметров, с которым сравнивается предложенный метод в данном эксперименте: с опорным решением (Basic) или с методом случайного поиска (Random).
Представленные результаты демонстрируют, что все требования поставленной задачи достигнуты. Ширина доверительного интервала в каждом эксперименте предсказуемо уменьшается с увеличением величины
п. Предложенный метод оптимизации гиперпараметров, проверенный для двух типов классификаторов, обеспечивает значительный относительный прирост показателя качества Т/ при сравнении с опорным решением, и его величина лежит в интервале 20-80 %. Но и в случае сравнения с методом случайного поиска, относительный прирост качества достаточно значим, находясь в интервале 5-28 %.
Заключение
Предложенный метод выбора гиперпараметров основан на идее о возможности гладкой аппроксимации функции значений критерия качества (значения регрессии) в зависимости от величин гиперпараметров (регрессоров). В этом случае, используя специальные методы поиска экстремума в многомерном пространстве, появляется возможность вычислять такие значения гиперпараметров, которые не лежат в узлах предварительно вычисленной сетки (пробного множества), но при этом доставляют сравнительно лучшие значения критерия качества по сравнению с узловыми (пробными) значениями гиперпараметров. Численные эксперименты, проведенные для двух типов классификаторов в мультиклассовой постановке на трех базах данных, показали, что предложенная идея вполне работоспособна и дает выигрыш от 8 до 80 % в зависимости от тестовой базы, опорного решения и типа классификатора.
а б
DIGITS/MC SVM/Basic: 90 % доверительные интервалы DIGITS/MC SVM/Basic: 90 % доверительные интервалы
1^-32
QU
W
20
Количество проб, п
Количество проб, п
Рис. 1. Результаты экспериментов на корпусе DIGITS
а б
DIGITS/MC GBR/Basic: 90 % доверительные интервалы DIGITS/MC GBR/Random: 90 % доверительные интервалы
20
Количество проб, п
Количество проб, п
Рис. 2. Результаты экспериментов на корпусе IRIS
SS@/MC GBR/Basic: 90 % доверительные интервалы 50
ч= К
«со
н
SS@/MC GBR/Random: 90 % доверительные интервалы
хо
0х-
К
и Ч юсо
ы
Количество проб, п Количество проб, п
Рис. 3. Результаты экспериментов на корпусе SS@
Литература
1. Montgomery D.C. Design and Analysis of Experiments. 8th ed. John Wiley & Sons, 2013. 752 p.
2. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // Journal of Machine Learning Research. 2012. V. 13. P. 281-305.
3. Zeng X., Luo G. Progressive sampling-based Bayesian optimization for efficient and automatic machine learning model selection // Health Information Science and Systems. 2017. V. 5. P. 2. doi: 10.1007/s13755-017-0023-z
4. Zhang Y., Bahadori M.T., Su H., Sun J. FLASH: Fast bayesian optimization for data analytic pipelines // Proc. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). 2016. P. 2065-2074. doi: 10.1145/2939672.2939829
5. Rasmussen C., Williams C. Gaussian Processes for Machine Learning. The MIT Press, 2006. 248 p.
6. Maclaurin D., Duvenaud D., Adams R. Gradient-based hyperparameter optimization through reversible learning // ICML'15: Proc. of the 32nd International Conference on International Conference on Machine Learning. 2015. P. 2113-2122.
7. Powers D.M. Evaluation: from precision, recall and F-measure to ROC, Informedness, markedness & correlation // Journal of Machine Learning Technologies. 2011. V. 2. N 1. P. 37-63.
8. Bishop C.M. Pattern Recognition and Machine Learning. Springer,
2006. 738 p.
9. Calders T., Jaroszewicz S. Efficient AUC optimization for classification // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).
2007. V. 4702. P. 42-53. doi: 10.1007/978-3-540-74976-9_8
10. Drucker H., Burges C.J.C., Kaufman L., Smola A., Vapnik V. Support vector regression machines // Advances in Neural Information Processing Systems. 1997. V. 9. P. 155-161.
11. Friedman J.H. Greedy function approximation: A gradient boosting machine // Annals of Statistics. 2001. V. 29. N 5. P. 1189-1232. doi: 10.1214/aos/1013203451
12. Nelder J.A., Mead R. A simplex method for function minimization // Computer Journal. 1965. V. 7. N 4. P. 308-313. doi: 10.1093/comjnl/7.4.308
13. Oliphant T.E. A Bayesian perspective on estimating mean, variance, and standard-deviation from data [Электронный ресурс]. URL: https://scholarsarchive.byu.edu/facpub/278 (дата обращения: 04.06.20).
References
1. Montgomery D.C. Design and Analysis of Experiments. 8th ed. John Wiley & Sons, 2013, 752 p.
2. Bergstra J., Bengio Y. Random search for hyper-parameter optimization. Journal of Machine Learning Research, 2012, vol. 13, pp. 281-305.
3. Zeng X., Luo G. Progressive sampling-based Bayesian optimization for efficient and automatic machine learning model selection. Health Information Science and Systems, 2017, vol. 5, pp. 2. doi: 10.1007/s13755-017-0023-z
4. Zhang Y., Bahadori M.T., Su H., Sun J. FLASH: Fast bayesian optimization for data analytic pipelines. Proc. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016, pp. 2065-2074. doi: 10.1145/2939672.2939829
5. Rasmussen C., Williams C. Gaussian Processes for Machine Learning. The MIT Press, 2006, 248 p.
6. Maclaurin D., Duvenaud D., Adams R. Gradient-based hyperparameter optimization through reversible learning. ICML '15: Proc. of the 32nd International Conference on International Conference on Machine Learning, 2015, pp. 2113-2122.
7. Powers D.M. Evaluation: from precision, recall and F-measure to ROC, Informedness, markedness & correlation. Journal of Machine Learning Technologies, 2011, vol. 2, no. 1, pp. 37-63.
8. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006, 738 p.
9. Calders T., Jaroszewicz S. Efficient AUC optimization for classification. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2007, vol. 4702, pp. 42-53. doi: 10.1007/978-3-540-74976-9_8
10. Drucker H., Burges C.J.C., Kaufman L., Smola A., Vapnik V. Support vector regression machines. Advances in Neural Information Processing Systems, 1997, vol. 9, pp. 155-161.
11. Friedman J.H. Greedy function approximation: A gradient boosting machine. Annals of Statistics, 2001, vol. 29, no. 5, pp. 1189-1232. doi: 10.1214/aos/1013203451
12. Nelder J.A., Mead R. A simplex method for function minimization. Computer Journal, 1965, vol. 7, no. 4, pp. 308-313. doi: 10.1093/ comjnl/7.4.308
13. Oliphant T.E. A Bayesian perspective on estimating mean, variance, and standard-deviation from data. Available at: https:// scholarsarchive.byu.edu/facpub/278 (accessed: 04.06.20).
Авторы
Тимофеев Андрей Владимирович — доктор технических наук, научный директор, ТОО «Эквалайзум», Астана, 010000, Казахстан, Scopus ID: 56689367600, ORCID ID: 0000-0001-7212-5230, timofeev.andrey@gmail.com
Authors
Andrey V. Timofeev — D.Sc., Chief Scientific Officer, LLP EqualiZoom, Astana, 010000, Republic of Kazakhstan, Scopus ID: 56689367600, ORCID ID: 0000-0001-7212-5230, timofeev.andrey@gmail.com