УДК: 519.7 MSC2010: 97P20
ИЗВЛЕЧЕНИЕ ОПТИМИЗАЦИОННЫХ МОДЕЛЕЙ ИЗ ДАННЫХ: ПОДХОД НА ОСНОВЕ РЕШАЮЩИХ ДЕРЕВЬЕВ И ЛЕСОВ
© В. И. Донской
Крымский федеральный университет им. В. И. Вернадского Таврическая академия факультет математики и информатики пр-т. Академика Вернадского, 4, Симферополь, 295007, Российская Федерация
Е-МА1Ь: vidonskoy@mail.ru
Extraction Optimization Models from Data: an Approach based on Decision Trees and Forests.
Donskoy V. I.
Abstract. Evolution of mathematical methods of classification and regression based on building decision trees and forests allowed to apply these methods to solve more complex problems of non-classical information modeling — retrieval models selection of the best solutions from the data. In this approach, a mathematical model is not specified a priori but is synthesized automatically based on the available empirical information. The properties of the classification algorithms and regression based on building decision trees and forests, providing the possibility of automatic extraction of both linear and non-linear models that implement a piecewise approximation of the objective functions and surfaces, separating admissible and inadmissible (not satisfying the constraints) solutions. In this paper we developed two approaches to the synthesis of models of solutions choice from the empirical data. The first approach involves the synthesis of 'joint' model of decision tree that implements both the regression and the classification of decision variants onto admissible and inadmissible. The second approach involves building a separate models: regression tree to approximate the objective function and classification tree for selection of admissible solutions.The approach based on extraction from data separately the model of the objective function and the model of admissible solution region allows to use as a regression model any known models appropriative for this goal. It may be random forests, bagging and boosting regression forests, regression equations (if one have the appropriate additional a priori information), or a neural networks.
Classification decision trees allow to obtain a logical description of area of admissible solutions in the form of disjunctive normal form (DNF) over the selected set of the featured predicates. The paper shows how it is possible to make more exact the construction of these DNF if instead a single decision tree use decision forest based on areas of competence or through the use of the so-called 'full' decision tree.
Received the article the results are intended for use in the development of intelligent control algorithms and they present theoretical basis of Building Optimization Models from Data (named BOMD information technology).
Keywords : Building Optimization Models from Data, Decision Trees, Decision Forests, BOMD technology
Введение
Классическое математическое моделирование предполагает знание физических свойств и закономерностей моделируемых объектов. Эти знания, как правило, представляются уравнениями, которые объединяются в некоторую систему и решаются численно с целью получения требуемых характеристик и изучения свойств объектов. Такой подход хорошо зарекомендовал себя при исследовании и усовершенствовании физических и технических систем. Однако его применение, например, в экономике зачастую не даёт желаемых результатов, поскольку сложные экономические системы плохо поддаются аналитическому описанию. Априорный выбор «подходящей» математической модели может оказаться субъективным и неудачным. Такая ситуация обычно имеет место при попытках моделирования плохо формализованных систем.
Существует и другой подход — неклассическое информационное моделирование1, основанное на построении или, можно сказать точнее, «извлечении» моделей из данных, которые представляют собой главным образом массивы наблюдений-прецедентов над рассматриваемым объектом или системой [14, 6, 20, 4, 38, 24, 45].
Исторически первыми были решены задачи построения информационных моделей классификации, регрессии, формирования понятий, которые оказались широко востребованными для применения в различных интеллектуализированных (в частности, робототехнических) системах [32, 1, 3, 19, 13, 23]. Большое значение для развития указанного направления имели фундаментальные работы академика Ю.И.Журавлёва [13, 14] и учёных его научной школы [20, 4, 23, 33]. Дальнейшее усовершенствование информационных моделей потребовало разработки математических методов и алгоритмов автоматического выбора наилучших (оптимальных) вариантов решений на основе имеющихся и пополняющихся массивов данных.
Естественным шагом в направлении построения таких моделей выбора решений на основе данных явился подход, основанный на распознавании классов состояний объектов, их оценки и вычислении наилучшего варианта преобразования объекта.
1Этот термин принадлежит академику К. В. Рудакову, объясняющему его не только как научное направление, но и как подход к решению широчайшего круга прикладных задач — от медицины и социологии до биржевого управления.
Формально реализация такого подхода соответствует решению некоторой математической задачи оптимизации, которую нужно либо сначала построить, а потом решить, либо получить наилучшее решение в процессе выполнения последовательности некоторых итераций.
Методы моделирования плохо формализуемых ограничений в задачах оптимизации с помощью процедур распознавания образов впервые были представлены в работах Вл. Д. Мазурова [16, 17] и затем обобщены в монографии [12]. Дискретные модели выбора наилучших решений на основе прецедентной информации разрабатывались в статьях [8, 11] и в монографии [7]. Различным аспектам информационного оптимизационного моделирования посвящены работы [2, 10, 15, 22, 25, 26, 28], в частности, линейному моделированию — работы [9, 21]. В статье [9] также представлен подход к оцениванию синтезированных моделей на основе колмогоровской теории сложности.
Цель данной работы — дать достаточно полное изложение принципов, лежащих в основе подхода к моделированию выбора наилучших решений путём извлечения оптимизационных моделей из данных, главным образом основываясь на применении решающих деревьев и лесов.
1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ И ПОСТАНОВКА ЗАДАЧИ
Будем обозначать Xп = М1 х ■ ■ ■ х М^ ■ ■ ■ х Мп — пространство признаков; п — его размерность; Х = (х\, ■ ■ ■ ,Хг, ■ ■ ■ , хп) — произвольную точку в пространстве признаков, являющуюся описанием допустимого объекта.
Каждая координата описания объекта х^, г = 1,... ,п, принадлежит некоторому зафиксированному ограниченному множеству допустимых значений М^
ЖЖ1,... , Жь — набор зафиксированных множеств — классов допустимых объектов: Ж1 и ■ ■ ■ и Жь = Хп; Ь — число классов. В рамках данной статьи полагается,что классы не пересекаются: Ж? П Жр = 0, ] = р; ],р Е 1, Ь.
%С1 = {(а?)}?=1 — обучающая выборка для задачи классификации; а? = (а\,..., аП) Е Xп; 7? — номер одного из классов {Ш1,... , Жь}, которому принадлежит точка а?; I — длина выборки.
Задача обучения классификации Zf состоит в синтезе по обучающей информации {(а?)}?=1 решающего правила (классифицирующей функции) f : Хп ^ {1,... ,Ь}, позволяющей для любой допустимой точки а Е Xп вычислить номер класса f (Х), которому эта точка принадлежит. При этом полагается, что существует истинная (но не
известная точно) классифицирующая функция f, и требуется синтезировать её аппроксимацию f как можно более близкую к неизвестной функции f. Например, стремясь обеспечить как можно меньшей величину вероятности события [f (X) = f (X)] на множестве Xn, если полагается существование вероятностной меры на Xn.
TOpt = {(äj,Yj,Vj)}j=i — аналогичная достоверная выборка2 для задачи обучения выбору решения на основе частичной информации о некотором скалярном критерии F : Xn U R и ограничениях в виде П(£) = 1 .В этой задаче, обозначаемой далее Zq,f, полагается, что множество Xn разбито только на два класса: класс M1 состоит из точек, заведомо удовлетворяющих некоторой системе ограничений задачи наилучшего выбора, и класс Mo, содержащий точки, заведомо не удовлетворяющие этой системе ограничений. Будем обозначать П : Xn U {0; 1} — характеристическую функцию ограничений, которая частично задана обучающей выборкой; П(£) = 1 ^ X Е M1; Q(X) = 0 ^ X Е M0. Поэтому в обучающей выборке TOpt
Yj = n(äj), Yj Е {0; 1} Vj = F(äj).
В процессе обучения следует построить правило (алгоритм), позволяющее выбрать такое решение X*, чтобы оно удовлетворяло ограничениям (H(X*) = 1), и значение F(X*) было бы как можно большим (или меньшим — по смыслу задачи).
В рассматриваемых задачах критерий F и ограничения (характеристическая функция П) не заданы точно — ни аналитически, ни полностью таблично, ни при помощи какой-либо формальной системы. Они «отражены» в наборе данных TOpt и являются частично заданными.
Постановка задачи, решаемой в данной статье, состоит в следующем. Требуется, используя частичную начальную информацию Topt, выбрать решение X* как более близкое к оптимальному решению X*, определяемому неизвестными, но существующими истинными объектами F и П. Схематически поставленную задачу можно представить следующим образом:
TOpt —U X* : ||Х* — Х*|| U min; X* = argmin F(X) | П(Х) = 1,
где || • || — заданная в признаковом пространстве норма, A — искомый алгоритм решения задачи (предполагается алгоритмический подход к её решению).
Если скалярный критерий и характеристическая функция ограничений аппроксимируются независимо друг от друга отдельными алгоритмами, вычисляющими как
2Требование достоверности или безошибочности обучающей выборки определяется детерминистским подходом к проблеме, рассматриваемой в данной статье. Это связно с предположением, что рассматриваемые объекты являются регулярными и допускают получение корректной информации об их функционировании. Методы стохастического информационного моделирования лежат за рамками рассматриваемого подхода.
можно более точные в каком-либо смысле приближения Г и П, то восстановленная по обучающей выборке задача нахождения наилучшего решения имеет следующий вид:
тах(тгп) Г(Х) : П(Х) = 1 Л Х Е Хп.
Полученная в результате машинного обучения пара функций < Г, П > называются эмпирической информационной моделью.
Известен и другой подход к решению поставленной задачи, основанный на итерационном выборе точки Х* как можно более близкой к оптимальной точке Х*. Первый (синтетический) и второй (итерационный) подходы иллюстрируются следующей диаграммой:
Итерационный алгоритм Л
ТОр1 -- х*
Синтез функций^^^ ^/^^Решение оптимизационной задачи
Р, П
В этой статье рассматривается первый, синтетический подход к выбору решений на основе данных — эмпирической (прецедентной) информации Т0рг — с использованием методов обучения, основанных на построении решающих деревьев и лесов.
2. Решающие деревья и леса в задачах синтеза целевых
функций и ограничений
Решающие деревья (РД) и составленные из них ансамбли — решающие леса — широко применяются в задачах машинного обучения, распознавания, формирования понятий и построения регрессии [37, 18]. Отдельные РД порождают решающие правила, эквивалентные разбиению пространства Xп на области, границы которых определяются выбранными признаковыми предикатами. Решающие леса порождают разнообразные, чаще всего взвешенные, композиции таких правил.
Подчеркнём одно важное преимущество РД по сравнению с другими методами. Если решающее дерево по своей структуре является бинарным (из каждой его внутренней вершины выходит ровно два ребра), то такое бинарное решающее дерево (БРД) является легко «прочитываемым» алгоритмом, точное логическое описание которого может быть представлено в виде дизъюнктивной нормальной формы (ДНФ) над признаковыми предикатами. Поэтому БРД можно и очень удобно использовать для того, чтобы синтезировать приближённое описание П области допустимых решений П в виде ДНФ по данным Торг.
С целью повышения точности в задачах машинного обучения используют ансамбли РД, называемые решающими лесами. В большинстве случаев решения (результаты классификации или некоторые прогнозируемые значения), полученные отдельными деревьями леса, суммируются с некоторыми весами или используются процедурой мажоритарного выбора ответа. Но тогда получение логического описания решений либо оказывается невозможным, либо становится слишком сложной задачей. Однако для вычисления значений целевой функции Г среди прочих методов могут быть использованы бэггинг и бустинг как подходы к построению решающего леса с целью получения алгоритма Ар вычисления регрессии Г.
Далее будем также использовать следующие обозначения.
{Т\, ...,Тт, ...,Т©} — рассматриваемое множество деревьев, образующих лес;
{Р1,..., Ра,..., Рд} — множество всех используемых в узлах деревьев предикатов, называемых признаковыми: Рд : Хп ^ {0; 1}.
у = (Р^ж),... , Ра(х),..., Рд(X) ) — логическое (признаковое) описание точки X.
Р : Хп ^ Вп — предикатное отображение точек признакового пространства в
Вп = {0; 1}п; у = Р(Х).
{¡1,...,¡а,...,¡¡д} — множество областей истинности предикатов {Рь..., Ра,..., Рд }.
Будем также использовать общепринятое обозначение литерала Р': Р' = Ра при а = 1 и Р' = Ра (инверсия) при а = 0 и назвать ортогональными два разных литерала, логическое произведение которых равно нулю. Будем также говорить, что две области истинности предикатов Ра и Рд ортогональны, если РаП Рд = 0; d = д.
Будем далее обозначать КТ — ветвь с номером в входящего в конечный ансамбль (лес) дерева т и полагать, что каждая из ветвей леса (в частности, каждого отдельного дерева) имеет свой номер: в = 1,...,$. Определив такую нумерацию, можно полагать заданной функцию = <^(в) такую, что т = <^(в), т. е. по ветви с номером в можно определить дерево, которому эта ветвь принадлежит. Тогда ветвь достаточно идентифицировать её номером: К = к^з) = К.
Как отдельное решающее дерево, так и совокупность деревьев — решающий лес — можно описать множеством ветвей. Каждая ветвь К3 является элементарным условным классификатором (служит для принятия решения только в том случае, когда точка попадает в область признакового пространства, определяемого этой ветвью) и заканчивается концевой вершиной (листом). В отличие от случайного леса, использование ансамбля деревьев для синтеза характеристической функции области допустимых решений целесообразно в том случае, когда каждая ветвь леса является надежным элементарным классификатором.
В задаче классификации Zf описание листа в общем случае определяется как
= (]3,1вп(в), Ц3(1),... , п(^)з), где ]3 — номер класса, к которому относит объекты эта решающая ветвь; 1еп(в) — длина ветви в, равная числу внутренних вершин в этой ветви дерева; ц3(1),... ,ц3(Ь) — число точек, соответственно, классов ЖЖ1,..., Жь, удовлетворяющих конъюнкции литералов, содержащихся в узлах этой ветви (будем говорить «попавших» в концевую вершину этой ветви). Таким образом, концевой вершине приписывается набор чисел ^3, который изменяется в процессе синтеза дерева — при удлинении ветви. В частных случаях описание листа может быть упрощено и содержать, например, только номер класса.
Классифицирующая ветвь называется (эмпирически) корректной, если значение ровно одного числа из п3(1),..., П3(Ц больше нуля.
Классифицирующая ветвь в называется (эмпирически) компетентной, если одновременно выполняются следующие условия:
I) 1еп(в) < Л(Ь) (ограничение длины ветви), где Л и вводимая далее А — некоторые оценивающие функции;
II) ь=1 Пв(к) > А(Ь) (попадание в ветвь достаточного числа точек);
III) тах{п3(1),... ,П3(^)}/Ь=1 Пз(к)) > 1 — £ (почти все точки, попавшие в ветвь, принадлежат одному классу; малое £ > 0 определяет долю точек, принадлежащих классам, отличающимся от класса с номером ]3* = атдтах{г/3(1),..., П3(^)}). При £ = 0 ветвь является эмпирически корректной.
В задаче ZП,F — выбора по скалярному критерию с ограничениями — описание листа определяется, например, как Ь3 = Ь3 (73,1еп(в),ц3,у3), где = 1, если ветвь с номером в выделяет только те точки (возможные решения) Х из ТоРг, которые удовлетворяют ограничению П(х) = 1, и = 0 — в противном случае; 1еп(в) — длина ветви в, равная числу внутренних вершин в этой ветви дерева; п3 — число точек из обучающей выборки, попавших в концевую вершину ветви в; у3 — среднее значение скалярного критерия по всем точкам из обучающей выборки, попавшим в концевую вершину этой ветви. В частных случаях описание листа может быть модифицировано, что будет обязательно уточняться.
Ветви деревьев, используемых в задаче Гп,^, будем называть оценивающими. Оценивающая ветвь в называется компетентной, если
I) = 1 (выделяет только те точки из ТоРг, которые описывают допустимые решения);
II) 1еп(в) < Л(Ь) (ограничение длины ветви);
III) 'Ц3/Ъ > 1 — 8, 0 < 8 < 0.5 (в ветвь попадает достаточное число точек).
Ветвь КТ полностью определяется конъюнкцией К,Т предикатов (с инверсией или без), содержащихся в последовательности решающих узлов этой ветви:
КТ = Р,?!1 Л •••Л Р'с.
Область истинности этой конъюнкции ¡Т = ¡Т 1 П ■ ■ ■ П ¡¡Тша будем называть областью истинности ветви КТ.
Отметим следующие случаи.
A) ¡Т П ¡Т = 0. Этот случай имеет место для двух произвольных разных ветвей в и V одного и того же дерева т; конъюнкция К,Т обязательно содержит некоторый литерал Р? такой, что конъюнкция содержит инверсию этого литерала Ра?.
B) ¡Т П ¡л = 0. В этом случае ветви двух разных деревьев с номерами т и Л и конъюнкции К,Т и содержат, соответственно, некоторые ортогональные литералы. В случаях А) и В) будем называть рассматриваемые ветви ортогональными.
C) ¡Т П ¡¡ЛЛ = 0. Любые два литерала из разных ветвей с номерами в и V не ортогональны, и их области истинности имеют непустое пересечение.
Б) ¡Т С ¡V = 0. В этом случае будем говорить: «ветвь поглощает,
ветвь К,л>>.
3. Основные этапы синтеза моделей < F&n > и < F, П > по обучающей информации TOpt и их использование для выбора решений
В этом параграфе излагаются основные принципы построения моделей выбора наилучших решений по набору данных — обучающей информации. Поэтому главным образом описываются не шаги алгоритмов, а этапы построения моделей, которые могут быть уточнены и модифицированы при построении на их основе алгоритмов и программ.
Синтез слитной модели < F & П >.
Будем называть слитной эмпирической моделью построенное в результате обучения по выборке Topt решающее дерево, совмещающее аппроксимацию F критерия F и аппроксимацию П характеристической функции области допустимых решений П.
1o По обучающей выборке TOpt осуществляется синтез корректного бинарного дерева — корректного эмпирического классификатора, решающего задачу Zq распознавания принадлежности произвольной точки X Е Xn множеству допустимых (удовлетворяющих представленных прецедентной информацией) ограничений. Допустимость ветви s дерева, т.е. допустимость точек, попадающих в эту ветвь (П(Х) = 1),
отмечается значением = 1 в описании листа этой ветви в. Если же ветвь не является допустимой (П(х) = 0), то = 0.3
Далее каждая ветвь построенного бинарного дерева рассматривается как оценивающая ветвь для вычисления приближённого значения критерия Г.
2° Для каждой оценивающей компетентной ветви с номером в вычисляются минимальное (р3), максимальное (т3) и среднее (у3) значения критерия Г(Х) по всем точкам Х обучающей выборки %оРг, попавшим в эту ветвь (эти значения Г(Х) содержатся в обучающей выборке).4
3° Пока в решающем дереве существует оценивающая компетентная ветвь с условным номером в такая, что добавление к ней вместо листа новой внутренней решающей вершины позволяет получить хотя бы одну новую компетентную ветвь и разброс 83 = т3 — ^3 превышает заданный параметр аппроксимации Ау, выполнять следующее:
3.1°. Точки Х обучающей выборки, пропавшие в эту ветвь с номером в, разбиваются на два класса, определяемых значением предиката Г(Х) < р, где пороговое число р принадлежит интервалу (р,3; т3).
3.2°. Ветвь с номером в «наращивается» путём достраивания новой условной вершины, замещающей концевую вершину этой ветви, что приводит к увеличению числа оценивающих компетентных ветвей на единицу и их условной перенумерации. Для ветвления в новой условной вершине используется один из предикатов {Р1,..., Ра,..., Рг>}, который не использовался в предшествующих условных вершинах удлиняемой ветви.
4° В построенном решающем дереве для концевой вершины каждой оценивающей компетентной ветви с условным номером в вычисляется (если это ещё не сделано) среднее значение у3 критерия Г(Х) по всем точкам Х обучающей выборки Торг, попавшим в эту ветвь.
Использование слитной модели < Г & П > для выбора решения. 1° Пусть уже построено решающее дерево, имеющее д компетентных оценивающих ветвей и определяющее эмпирическую модель < Г & П >, которая является
3 Предполагается, что существует истинная характеристическая функция П, наблюдаемый объект обладает регулярными свойствами, а обучающая выборка не содержит ошибочных примеров. При таких предположениях корректное классифицирующее дерево существует всегда. Появление в процессе синтеза БРД некомпетентных, слишком длинных ветвей является признаком возможной ошибки в данных, позволяющим применить их фильтрацию и повторный синтез дерева.
4 Простое усреднение — не единственный способ формирования приближения Р для оценивающей компетентной ветви [36, 37].
результатом обучения по выборке To.pt- Находим в этом дереве ветвь
К — Р(Ти'1 Л • • • Л Р
Ки — Ри,\ л л Ри,Ши ,
имеющую максимальную оценку у* — тах{у1,... ,у3,... ,уд} критерия Г, где и — номер найденной ветви Ки.
2° В качестве решения может быть взята любая точка X Е Xп, удовлетворяющая условию
(Рй1 (X) — 1)А---л(Р:;.;:и (X) — 1). (1)
Пример. Пусть каждый признаковый предикат существенно зависит только от одной переменной и является пороговым:
Ри,1(хи,1 ) \хи,1 ^ ^иД^ . . . , Р и,Ши (хи,Ши ) [хи,ши ^ Ьи,ши ]
Тогда в качестве решения может выбрана любая точка, удовлетворяющая условиям
xu,1 — bu,1,
Сxu,1 > bu,1,
x
bu
П,Ши — ии,,ши
(x
Xi е Mi
П,Ши > Ьи,Ши ,
если аи,1 — 1; если аи,1 — 0);
.........;
если аи,Ши — 1; если аи,Ши — 0);
любое значение из Ы^, если г Е {и1,и2,
Если в рассматриваемом примере интерпретировать задачу выбора решения как нахождение наилучшего управления на основе модели < Г & П >, то, имея описание объекта (и, может быть, окружающей среды) х?, следует изменить значения перемен, хи ш согласно приведенным неравенствам. Будет получено новое опи-
ных X,
t
и,1, . . ^t+1.
сание х
хЬ+1 + ел хЬ+1 + е
хи,1 ± е1, . . . , хи,Ши ± еши ,
где е1,... , еШи — поправки переменных, обеспечивающие выполнение условий (2).П
При использовании линейных признаковых предикатов, имеющих местность, равную два и более, система (2) будет заменена соответствующей системой линейных неравенств.
Следует подчеркнуть, что конъюнкция (1) является аналитическим описанием наилучшего решения, принимаемого на основе эмпирической информации %оРь. Синтез и использование раздельной модели < Г , П >.
Если для синтеза Г используется случайный лес или бустинг, то может получиться эмпирическая алгоритмическая модель Ар, не имеющая явного аналитического
описания. Однако для любой точки х, используя эту алгоритмическую модель, можно вычислить приближённое значение Ар (х) функции F — критерия выбора наилучшего решения.
При использовании раздельной модели полагается, что кроме приближения F отдельно синтезирована характеристическая функция области допустимых решений П, представленная в виде эмпирической ДНФ Dq над признаковыми предикатами. Тогда, просматривая все конъюнкции KS, s = 1, S, входящие в ДНФ Dq , и соответствующие им области истинности Rs, можно сформировать точки-представители областей xs Е Rs, вычислить значения Ap (xs) и найти экстремальное решение
х s* = argmax(argmin) Ap (xs).
ss
В задачах динамического управления на основе эмпирических данных и машинного обучения можно осуществлять циклический просмотр всех конъюнкций Ks, входящих в ДНФ Dq , и формировать из текущего вектора состояния xt вектор xt+i(s), удовлетворяющий конъюнкции Ks. Затем, последовательно вычисляя ys = Ap (xt+i(s)), находить наилучшее в данной модели решение Xt+i(s*).
Преимуществом раздельной модели < F , П > является возможность применения (с целью повышения точности) любых методов формирования регрессионной модели F(x) — не только случайного леса, но и нейронной сети или построения регрессии классическими методами при условии априорного задания семейства, в котором функция F содержится. В последнем случае предполагается наличие такой дополнительной информации о свойствах критерия выбора решений.
Эксперименты, известные из научной литературы, показали, что нейро-сетевые регрессионные модели в большинстве случаев оказываются точнее классических регрессионных моделей, основанных на приближении к заданным типам уравнений, и моделей, основанных на лесах и отдельных деревьях. Так, сравнение методов построения регрессии по величине средней абсолютной ошибки в работе [41, Табл. 4, с. 70] показало, что нейросете-вая модель продемонстрировала точность 4.75%, превосходя точность модели CART [29, 42] (4.79%) и точность уравнения регрессии (5.08%), полученного по методу наименьших квадратов. В работе [43] сравнивались по точности регрессионные модели NN (нейронная сеть), CART и CUBIST [36]
(пакет программ, реализующий вариант дерева с линейными регрессионными локальными моделями в листьях). Нейросетевая модель регрессии оказалась наиболее точной: NN — 7.48%, CART — 9.99%, CUBIST — 11.37%.5
Использование в слитной модели одиночного решающего дерева определяет повышенные требования к его качеству как к классификатору.
4. Компетентность против большинства: апологетика одного «сильного» КЛАССИФИКАтоРА-РЕШАЮЩЕГо ДЕРЕВА
Мажоритарный принцип принятия решений «по большинству» не всегда даёт наилучший результат. Можно представить модельную ситуацию, когда в группе принимающих решение лиц только один из участников группы действительно является компетентным профессиональным экспертом, а остальные лица выбраны неудачно и слабо знают оцениваемый процесс или объект. В такой ситуации решение большинства, не совпадающее с правильным решением эксперта-профессионала, в итоге может привести к ошибке.
Для строгого обоснования подобных ошибок в мажоритарных системах принятия решений рассмотрим следующий случай.
Пусть ансамбль состоит из трёх алгоритмов, принимающих бинарное решение по большинству. Вероятность ошибки принятия решения одним из этих алгоритмов (компетентным) равна p1 = 0.1, а каждым из двух других («слабых») алгоритмов — p2 = 0.4. Вероятности правильных решений — q1 = 0.9, q2 = 0.6. Решения, принимаемые алгоритмами, и соответствующие вероятности ошибок полагаются независимыми.
Обозначим Si,S2,S3 индикаторы ошибок принятых решений: Si = 1, если алгоритм с номером i принимает ошибочное решение, и Si = 0, если решение правильное; i = 1, 2, 3. Все возникающие ситуации и расчёты приведены в табл. 1.
Вероятность ошибки мажоритарного решения совокупности этих трёх алгоритмов есть po(3) = 0.144 + 0.024 + 0.024 + 0.016 = 0.208, и мажоритарное решение оказывается гораздо хуже, чем решение одного компетентного алгоритма с вероятностью ошибки pi = 0.1.
5 Приводя примеры сравнительного исследования методов построения регрессии по эмпирическим данным, мы не останавливались на описании проблемных областей, но нужно отметить, что успешность применения той или иной модели во многом зависит именно от исходных данных и проблемной области. Так, рассматривая регулярную, заведомо линейную проблему оптимального выбора решения, следует выбирать классическую модель линейной регрессии, а не приближать линейную функцию ступенчатой или кусочно линейной аппроксимацией древообразной модели или нейронной сетью с нелинейными ядрами.
Таблица 1
Sl ^2 Результат Вероятность
результата
0 0 0 Верно 0.324
0 0 1 Верно 0.216
0 1 0 Верно 0.216
0 1 1 Ошибка 0.144
1 0 0 Верно 0.036
1 0 1 Ошибка 0.024
1 1 0 Ошибка 0.024
1 1 1 Ошибка 0.016
Е = 1.0
Обобщение рассмотренного мажоритарного решения трёх алгоритмов приводит к следующему результату.
Теорема 1. Пусть мажоритарная система содержит 2к + 1 алгоритмов, независимо вычисляющих решение одной и той же задачи. Пусть из этих алгоритмов один — компетентный, с вероятностью ошибки Р1, а остальные — «слабые» алгоритмы с одинаковой вероятностью ошибки р2: 0.5 > р2 > Р1. Тогда вероятность р0 ошибки такой мажоритарной системы определяется формулой
2к
Р1СМ(1 - Р2)к + £ С2кР2(1 - Р2)2^. (3)
,7=к+1
Доказательство.
2к 2к Ро = £ С2кР1Р2(1 - Р2)2к-' + £ С2к(1 - Р1)Р2(1 - Р2)2к-'
3=к 3=к+1
s-*-' 4-V-'
Компетентный алгоритм ошибся Компетентный алгоритм дал верное решение
2к 2к
= Р1СккРк(1 - Р2)к + Р1 £ с2кР2(1 - Р2)2к- + (1 - Р1) £ с2кР2(1 - Р2)2к-
3=к+1 ^=к+1 2
= Р1Ск2кРк2(1 - Р2)к + £ с2кР2(1 - Р2)2 к-.
^=к+1
□
Следствие 1.
2к 2к
£ сЫ(1 - Р2Г- <Ра < £ ада - Р2Г-; (4)
7=к+1 7=к
Следствие 2.
Ро ~ 'Р1Ь х (к - 2к ■ р2)к) + Ф((2к - 2к ■ р2)к) - Ф((к + 1 - 2к ■ р2)к) при к ^ то, (5)
где
х
к =(2к ■ Р2(1 - Р2))2; ф) = -^1пе-Х2/2] ф(х) = 72П I
0
Доказательство. Неравенства (4) получаются из (3) путём замены р1 на ноль (левая часть) и на единицу (правая часть). Далее, применяя локальную и интегральную теоремы Муавра-Лапласа, из (3) получаем асимптотическое приближение (5). □
Например, пусть в мажоритарной системе п = 2к + 1 = 11 алгоритмов, один компетентный с вероятностью ошибки р1 = 0.1, а все остальные — слабые: р2 = 0.4. Тогда вероятность ошибки гро(11) такой мажоритарной системы может быть приближено вычислена по формуле (5):
м j 10 - 10 х 0.4 \ / 6 - 10 X 0.4 N пппог
> 77(1 - р2)2к-7 « Ф . - Ф . « 0.0985;
рАрк(1 - р2)к ~ 0.1 х 0.2 = 0.02;
ро(11) « 0.02 + 0.0985 = 0.1185.
Оказалось, что ансамбль с указанной структурой из 11 алгоритмов даёт точность, уступающую точности одного компетентного алгоритма, входящего в этот ансамбль: 0.1 < 0.1185. Проведя такие же расчёты, можно убедиться, что уменьшить ошибку по сравнению с ошибкой одного компетентного алгоритма (р1 = 0.1) удаётся только в случае, когда число слабых алгоритмов ансамбля (р2 = 0.4) больше или равно 20; в этом случае ро(21) ~ 0.097.
5. Повышение точности решающих деревьев
Способность решающих деревьев к эмпирическому обобщению и их точность по сравнению с другими моделями обычно проверяется экспериментально. Для этой цели на одном и том же обучающем множестве данных строятся различные модели — нейронные сети, ансамбли алгоритмов, например случайные леса, БУМ. Затем построенные модели оцениваются на контрольной выборке, сравнивается их точность.
Важно заметить, что для разных предметных областей и различных задач лучшими могут оказаться разные обученные модели. Это подтверждается многочисленными экспериментами, представленными в научной литературе. Известны эксперименты, в которых отдельные деревья решений дают лучший результат, чем, например, случайный лес.
В статье [27] сравнивались результаты классификации одних и тех же данных алгоритмами Random Forest (RF, случайный лес) и Decision Tree (DT, решающее дерево). Для синтеза DT использовался алгоритм J-48, реализующий известную модель C4.5 Р. Куинлана [40]. На разных задачах более точным классификатором оказывался не только RF, но и DT. Так, процент ошибок решающего дерева при решении задачи Heart-h был 19.04, в то время как случайный лес показал процент ошибки 22.1. В задаче Breast cancer решающее дерево также «выигрывало» у случайного леса: 24.47% ошибок против 30.76%.
Повысить точность решающего дерева удаётся за счёт использования в его вершинах более сложных (чем пороговые одноместные) признаковых предикатов. Например, работе [35] предложена модель машинного обучения — Confidence-Based Decision Tree (CBDT, решающее дерево, основанное на доверительных интервалах). По числовому признаку Xi, описывающему объект и использующемуся во любой внутренней вершине п решающего дерева, строится статистическое распределение, находится выборочное среднее A и дисперсия а2, а также доверительный интервал (A — ка, A + ка) на заданном уровне значимости а, который определяет значение к = к(а). Указанные статистические характеристики строятся по подвыборке точек обучающей выборки, попавших в сегмент разбиения признакового пространства, определяемого вершиной дерева п.
Не углубляясь в детали использования CBDT, отметим, что подход, основанный на доверительных интервалах, в сущности использует признаковые предикаты вида [xi £ (A — ка, A + ка)], что и позволило обеспечить высокую точность классификации, превышающую точность случайного леса. Эксперименты с моделью CBDT [35] показали значительное превосходство по точности деревьев с доверительными интервалами над случайным лесом (см. табл. 2). Для вычисления доверительных интервалов использовалась гипотеза о нормальных распределениях значений признаков [NORM].
Для решения проблем, поставленных в данной статье, большое значение имеют персептронные решающие деревья (Perceptron Decision Trees, PDT) [44, 46]. В каждой вершине PDT для осуществления разбиения вещественного признакового пространства Xn = Rn используется гиперплоскость wjXi + wjx2 + ... + wjnxn = bj или
Таблица 2. Процент ошибок классификации в экспериментах с моделями CBDT и Random Forest на 10 задачах (фрагмент табл. I из статьи [35])
Задача Число Длина ConfDTree Random
клас- обуча- Forest
сов ющей выборки
Cancer 2 569 3.1% 6.9%
Contraceptive 2 1473 1.3% 21.7%
Credit 2 690 0.3% 8.5%
Diabetes 2 768 4.5% 11.2%
Ecoli 2 336 3.2% 17.5%
Ionosphere 2 351 2.0% 16.7%
Pima 2 768 3.3% 5.4%
Spam 2 4601 1.8% 6.1%
Yeast 2 1004 0.0% 27.2%
MiniBooNE 2 130000 6.0% 12.5%
в другой записи, Шт X = Ь7, которую обозначим . Поэтому признаковый предикат
j
в вершине имеет вид
Pj = [wlXi + w2X2 + ... + w3nXn > bj].
Такой линейный предикат может быть получен путём применения процедуры линейной коррекции Розенблатта - Новикова непосредственно на шаге ветвления и добавления очередной вершины решающего дерева.
На рис. 1 приведен пример, поясняющий решающее правило, определяемое пер-септронным решающим деревом с четырьмя внутренними вершинами, линейными предикатами ... , P4 и разделяющими прямыми L1,...,L4. Вещественное признаковое пространство Xn условно представлено в виде прямоугольной области, разделённой прямыми L,... , L4. Часть признакового пространства, отнесённая к первому классу, обозначена 71, а часть признакового пространства, отнесённая ко второму классу, обозначена 72.
Рис. 1 иллюстрирует возможность построения при помощи PDT невыпуклых кусочно-линейных (но всё же нелинейных) областей классов j1 и y2.
В общем случае признаковое пространство Xn = M1 х • • • х Mi • • • х Mn может быть образовано из разнотипных множеств M1, • • • , Mi, • • • , Mn. Если из этих множеств только m, 2 < m < n, являются ограниченными числовыми подмножествами, то линейные предикаты в вершинах могут использовать соответствующие m признаков или, возможно, часть их. Для остальных признаков, например булевых, используются другие, более простые признаковые предикаты.
11
Y • 1
Рис. 1. Персептронное решающее дерево и разбиение признакового пространства
В статье [44] используются линейные предикаты с целочисленными коэффициентами (полезно также добавлять ограничение значений этих коэффициентов по модулю), что позволяет существенно понизить верхнюю оценку VC размерности используемого целочисленного семейства персептронных решающих деревьев по сравнению с классом деревьев, использующих линейные предикаты с вещественными коэффициентами.
В работе [39] деревья с линейными признаковыми предикатами названы Oblique Decision Trees (Скошенные решающие деревья) и обозначены как модель OCi. Представлены результаты экспериментов на шести разных задачах машинного обучения и последующего распознавания: Bright S/G, Dim S/G, Cancer, Iris, Housing, Diabetes. В четырёх из шести указанных задач модель OCi PDT превосходила по точности модели CART и C4.5.
Приведенные примеры убедительно показывают, что известны способы выбора признаковых предикатов, позволяющие существенно повысить точность решающих деревьев, которая в некоторых случаях может превосходить точность таких ансамблей, как случайный решающий лес.
Кроме подходов к повышению точности решающих деревьев, основанных на усложнении признаковых предикатов, существуют и структурные квазиансамблевые методы повышения точности. К последним относятся решающие леса с областями компетентности [3i] и некоторые модификации полных решающих дере-
вьев [33, 34].
На рис. 2 приведен пример полного решающего дерева, заимствованный из работы [5]. Полное дерево содержит внутренние вершины двух типов. Вершины первого
Рис. 2. Пример полного решающего дерева, заимствованный из работы [5]
типа — обычные, применяемые в различных решающих деревьях и содержащие некоторый признаковый предикат или признак. Вершины второго типа содержат набор признаков или предикатов (например, {хьх3}, см. рис. 2), и из них выходит столько рёбер, сколько признаков (или предикатов) приписано такой вершине [5]. Каждое из этих рёбер соответствует выбору одного из признаков (предикатов) и определяет одну из альтернативных ветвей ветвления. Концевые вершины содержат метки классов, определяемых полным деревом решений, или запись, содержащую числовые значения степеней принадлежности каждому из классов. Так, на рис. 2 пометка
концевой вершины ветви Б\{ш\,ш1} соответствует конъюнкции К1, определяемой
1 2
этой ветвью, и степени принадлежности: ш 1 — первому классу, ш2 — второму классу.
В этом примере полное дерево описывается пятью конъюнкциями:
= Х1Х2; 'К~2 = Х1Х2; 'Кз = х\; = хз; К5 =
В рамках рассматриваемой проблемы наибольший интерес представляют корректные на обучающей выборке ветви полного дерева, когда вектор принадлежности классам ш = (ш^,..., ш^) содержит только одну единицу, а остальные значения — равные нулю. Иначе говоря, когда вершина помечена номером единственного класса. Будем называть полное дерево корректным, если оно содержит только корректные
ветви. Совокупность корректных ветвей одного и того же класса определяет ДНФ — логическое описание этого класса.
Решающий лес с областями компетентности [31] представляет собой ансамбль деревьев, которые синтезируются последовательно на некоторым образом выбранных подмножествах признаковых предикатов. Каждая ветвь такого ансамбля либо является компетентной, либо заканчивается ссылкой на следующее дерево, как показано на рис. 3.
И решающий лес с областями компетентности, и полные решающие деревья осуществляют «размножение» решающих ветвей и получение логических описаний классов в виде удлинённых ДНФ, что позволяет сделать описания классов более детальными.
Рис. 3. Решающий лес с областями компетентности
6. Формирование описания решений в виде формулы над признаковыми предикатами
В этом параграфе рассматриваются задачи формирования логических описаний классов (ЛОК) в виде ДНФ, определяющих области истинности решений, полученных в результате машинного обучения. Речь идёт о двух классах решений: допустимых для выбора и не являющихся допустимыми. Соответственно, предполагается решение задач обучения классификации в случае только двух классов.
В случае использования отдельных деревьев, таких как, например, в модели С4.5 [40], построение логических описаний классов является наиболее простым. Если дерево т является корректным (корректны все его ветви), то ЛОК строится путём сбора в получаемую ДНФ всех конъюнкций, соответствующих ветвям, имеющим
концевую отметку = 1 — признак допустимых решений. Построенная ДНФ
^ = kit v ■ ■ ■ v KST v ■ ■ ■ v кт
описывает аппроксимацию области допустимых решений
Пт = и ■ ■ ■ и и ■ ■ ■ и
(в дальнейшем, чтобы уменьшить число индексов, будем опускать символ т, если понятно, о каком дереве идет речь).
Если некоторое количество ветвей не удовлетворяет условию компетентности (когда длина ветви превышает заданную граничную величину или число точек, попавших в эту ветвь, меньше минимального допустимого значения), то эти ветви помечаются как «недостаточные для принятия решения». Соответствующую область «недостаточной информации» обозначим
А = мА и ■ ■ ■ и и ■ ■ ■ и
Пусть при выборе решения с наибольшим (наименьшим) значением критерия Г будут просматриваться ^ допустимых компетентных подобластей (подмножеств) и V областей недостаточной информации. Если максимум (минимум) будет найден на одном из компетентных допустимых множеств, то наличие области А не повлияет на решение задачи выбора на основе машинного обучения. Если же окажется, что максимум (минимум) будет найден на одном из подмножеств множества А, то потребуется построение другой аппроксимации . Для этой цели подходят более сложные модели — полные деревья и леса с областями компетентности.
При использовании полных решающих деревьев (в отличие от использования одного отдельного дерева) в результате обучения порождается намного больше ветвей, в том числе и, как правило, большее число корректных ветвей. Однако может возникнуть пересечение областей допустимых (7 = 1) и недопустимых (7 = 0) решений. Назовём эти пересечения конфликтными областями. Убедимся в возможности возникновения таких конфликтных областей.
Теорема 2. Корректные полные решающие деревья могут порождать конфликтные области, в признаковом пространстве.
Доказательство. Рассмотрим полное дерево на рис. 4. Это дерево порождает описание области допустимых решений в виде ДНФ
= Х\Х2 V х3,
Рис. 4. Полное корректное решающее дерево с булевыми предикатами Х\, х2, х3 и с пересечением допустимых и недопустимых областей
определяемой ветвями и В4, и описание области решений, не являющихся допустимыми,
= х1 V Х1х2 V х3 = х1 V х2 V х3,
определяемое ветвями В3, В2 и В5. Порождёнными конфликтными областями являются интервалы
Эти интервалы определяются путём нахождения логического произведения ДНФ и и, соответственно, парами ветвей
(Вз,В4), (В2,В4), (ВьВ5).
□
Каждый конфликтный интервал порождается ветвями с различными концевыми пометками классов (в примере на рис. 4 — пометками 7 = 1 и 7 = 0). Например, конфликтный интервал ^Х1Х3 порожден ветвями дерева В3 и В4. Ветви, порождающие конфликтный интервал, будем называть конфликтными.
Построение ДНФ ^ по корректному полному решающему дереву осуществляется следующим образом.
1° Конъюнкции, соответствующие ветвям, не являющимся конфликтными и имеющими пометку 7 = 1, в первую очередь включаются в ДНФ ^.
2° Если для ветви К с пометкой 7 =1 существуют конфликтующие ветви, то она включается в ДНФ только в том случае, когда соответствующая ей ветвь является более компетентной, чем все конфликтующие с ней ветви.
При использовании решающего леса с областями компетентности возникает такая же проблема с конфликтными областями, как и в случае использования полных решающих деревьев.
Теорема 3. Решающий лес с областями компетентности может порождать конфликтные области в признаковом пространстве.
Доказательство. Для доказательства рассмотрим «модельный» пример — простейший лес с одной областью некомпетентности и двумя решающими деревьями (рис. 5) в предположении, что при его синтезе был принудительно задан порядок выбора признаков согласно предпочтению Х\ >- х2 >- х3. Этот лес построен путём декомпо-
Рис. 5. Полное корректное решающее дерево с булевыми предикатами Х\, х2, х3 и с пересечением допустимых и недопустимых областей
зиции полного решающего дерева, представленного на рис. 4, и в нём сохраняются две конфликтные области МХ1%3 и Мх1х2х3. П
Процедура построения ДНФ ^ в случае использования решающего леса с областями компетентности определяется следующим образом.
1° Сначала выбираются все ветви первого дерева 7\, помеченные меткой 7 = 1. Соответствующие им конъюнкции объединяются в ДНФ .
2° Пусть уже построена ДНФ Рассматривается следующее по порядку дерево с номером Ь + 1.
3° Каждая ветвь V (конъюнкция Жу) дерева сравнивается со всеми конъюнкциями деревьев Т\,..., Т4.
Если ветвь V помечена номером класса 7 = 1 и ортогональна любой ветви деревьев Т0,... с пометкой 7 = 0, то конъюнкция Жу добавляется к ДНФ ^. Если ветвь V неортогональна хотя бы одной ветви деревьев Т0,...,Т с пометкой 7 = 0, то конъюнкция Жу добавляется к ДНФ ^ только в том случае, если она более компетентна, чем любая из таких найденных неортогональных ей ветвей.
5° Если ещё не все деревья леса с областями компетентности просмотрены, то перейти на пункт 2°.
6° Конец.
Заключение
Развитие математических методов классификации и регрессии, основанных на построении решающих деревьев и лесов, позволили применить эти методы для решения более сложных задач неклассического информационного моделирования — извлечения моделей выбора наилучших решений из данных. При таком подходе математическая модель не задаётся априорно, а синтезируется автоматически на основе имеющейся эмпирической информации.
Свойства алгоритмов классификации и регрессии, основанных на построении решающих деревьев и лесов, обеспечивают возможность автоматического извлечения как линейных, так и нелинейных моделей, которые реализуют кусочную аппроксимацию целевых функций и поверхностей, разделяющих допустимые и недопустимые (не удовлетворяющие ограничениям) решения.
В статье разработаны два подхода к синтезу моделей выбора решений из данных. Первый подход предполагает синтез «слитной» модели — решающего дерева, реализующего одновременно и регрессию, и классификацию вариантов решений на допустимые и не являющиеся допустимыми. Второй подход предполагает раздельное построение дерева регрессии для аппроксимации целевой функции и дерева классификации для выделения допустимых вариантов решений.
Классифицирующие решающие деревья позволяют получать логическое описание областей допустимых решений в виде дизъюнктивной нормальной формы (ДНФ) над выбранным множеством признаковых предикатов. В работе показано, как можно уточнить построение таких ДНФ за счёт использования в качестве классификатора вместо одного отдельного дерева ансамбля деревьев, основанного на областях компетентности, а также за счёт использования полных решающих деревьев.
Подход, основанный на извлечении из данных раздельной модели, допускает использование в качестве регрессии алгоритмов, полученных любыми известными методами. Кроме случайных лесов, бэггинга и бустинга регрессионных моделей, возможно применение аппроксимации априорно заданными уравнениями (если имеется соответствующая дополнительная априорная информация) и использование нейронной сети.
Полученные в статье результаты предназначены для использования при разработке алгоритмов интеллектуального управления и являются их теоретической основой.
СПИСОК ЛИТЕРАТУРЫ
1. Абламейко, С. В., Краснопрошин, В. В., Образцов, В. А., Распознавание образов и анализ изображений: теория и опыт решения практических задач / Материалы междунар. науч. конгресса, Республика Беларусь, Минск, 4-7 ноября 2013 г. — Минск: БГУ, 2013. — 434-444 с. ABLAMEYKO, S. V., KRASNOPROSHIN, V. V., & OBRASZOV V. A. (2013) Pattern Recognition and Image Processing: Theory and Experience in Solving Practical Problems. Proc. of the Int. Sci. Congress, Republic of Belarus, Minsk, 4-7 November 2013. p. 434-444.
2. Блыщик, В. Ф. Интеллектуализированная программная система Intman поддержки принятия решений в задачах планирования и управления / В. Ф. Блыщик, В. И. Донской, Г. А. Махина // Искусственный интеллект. — 2002. — № 2. — C. 406-415.
BLYSCHIK, V. F., DONSKOY, V. I., & MAKHINA, G. A. (2002) Intellectualized Software System INTMAN for Support Decision Making in Problems of Planning and Management. Artificial Intelligence. (2). p. 406-415.
3. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным / В. Н. Вапник. — M.: Наука, 1979. — 448 c.
VAPNIK, V. N. (1979) The restoration of dependencies from empirical data. Moscow: Nauka.
4. Воронцов, К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов / К. В. Воронцов // ДАН. — 2014. — Том 456, № 3. — C. 268-271.
VORONTSOV, K. V. (2014) Additive Regularization of Topic Models for Collections of Text Documents. Doklady Akadimii Nauk. 456 (3). p. 268-271.
5. Генрихов, И. Е. Исследование обобщающей способности полного решающего дерева / И. Е. Генрихов // Журнал вычислительной математики и математической физики. — 2014. — Том 54. — № 6. — C. 1033-1047.
GENRIKHOV, I. E. (2014) A Study of the Generalizing Ability of a Full Decision Tree. J. Comp. Math. & Math. Phys.. 54 (6). p. 1033-1047.
6. Гупал, А. М., Вагис, А. А. Индуктивный подход в математике / А. М. Гупал, А. А. Вагис // Проблемы управления и информатики. — 2002. — № 2. — C. 83-90.
GUPAL, A. M. (2002) Inductive Approach in Mathematics. Problems of Control and Informatics. (2). p. 83-90.
7. Донской, В. И. Дискретные модели принятия решений при неполной информации / В. И. Донской. — Симферополь: Таврия, 1992. — 166 c.
DONSKOY, V. I. (1992) Discrete Models of Decision Making under Incomplete Information. Simferopol: Tavrija.
8. Донской, В. И. Логическое управление плохо формализованными системами / В. И. Донской // Динамические системы. — К.: Вища школа, 1985. — Вып. 1. — C. 90-96.
DONSKOY, V. I. (1985) Logical Control of Poorly Formalized Systems. Dynamic Systems. (1). p. 90-96.
9. Донской, В. И. Синтез согласованных оптимизационных моделей по прецедентной информации: подход на основе колмогоровской сложности / В. И. Донской // Таврический вестник информатики и математики. — 2012. — № 2. — C. 13-25.
DONSKOY, V. I. (2012) Synthesis of Coordinated Optimization Models According to Precedent Information: an Approach based on Kolmogorov Complexity. Taurida Journal of Computer Science Theory and Mathematics. (2). p. 13-25.
10. Донской, В. И., Козлова, М. Г. Извлечение знаний о свойствах целевой функции в логических системах поддержки принятия решений / В. И. Донской, М. Г. Козлова // Искусственный интеллект. — 2000. — № 3. — C. 230-234.
DONSKOY, V. I. & KOZLOVA, M. G. (2000) Extracting Knowledge about the Properties of the Objective Function in the LogicalSystems of Decision Support. Artificial Intelligence. (3). p. 230-234.
11. Донской, В. И., Щербина, О. А. Управление развитием рекреационной системы с использованием алгоритмов формирования понятий / Сб. «Управление потоками материальных ресурсов на уровне предприятий и объединений». — К.: ИК АН УССР, 1980. — 58-65 c.
DONSKOY, V. I. & SCHERBINA, O. A. (1980) Managing the Development of the Recreation System with the use of Algorithms of Formation of Concepts. A collection of articles 'Managing flows of material resources at the enterprise level, and unions'. Glushkov' Institute for Cybernetics (Kiev). p. 58-65.
12. Ерёмин, И. И., Мазуров, В. Д. Нестационарные процессы математического программирования / И. И. Ерёмин, Вл. Д. Мазуров. — M.: Наука, 1979. — 288 c.
ERIOMIN, I. I. & MAZUROV, Vl. D. (1979) Nonstationary Processes of Mathematical Programming. Moscow: Nauka.
13. Журавлёв, Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации / Ю. И. Журавлёв // Проблемы кибернетики. — М.: Наука, 1978. — Вып. 33. — C. 5-68. ZHURAVLEV, Yu. I. (1978) On the Algebraic Approach to Recognition and Classification Problems. Problems in Cybernetics. (33). p. 5-68.
14. Журавлёв, Ю. И. Экстремальные алгоритмы в математических моделях для задач распознавания и классификации / Ю. И. Журавлёв // Доклады АН СССР. Математика. — 1976. — Том 231. — №3. — C. 532-535.
ZHURAVLEV, Yu. I. (1976) Extreme Algorithms in Mathematical Models for Pattern Recognition and Classification. Reports of the USSR Academy of Sciences. Mathematics. 231 (3). p. 532-535.
15. Козлова, М. Г. Знаниеориентированные модели принятия оптимальных решений / М. Г. Козлова // Ученые записки Симферопольского государственного университета. — 1998. — №7(46). — C. 76-83.
KOZLOVA, M. G. (1998) Knowledge Based Models of Optimal Decision Mking. Scientific notes of Simferopol state University. 46 (7). p. 76-83.
16. Мазуров, Вл. Д. Об одном итерационном методе планирования, использующем распознавание образов для учёта плохо формализуемых факторов / Вл. Д. Мазуров // Изв. АН СССР. Техническая кибернетика. — 1973. — № 3. — C. 205-207.
MAZUROV, Vl. D. (1973) On Iterative Method of Planning using Pattern Recognition to Account for Poorly Formalized Factors. Izv. USSR ACADEMY OF SCIENCES. Technical Cybernetics. (3). p. 205-207.
17. Мазуров, Вл. Д. Применение методов теории распознавания образов в оптимальном планировании и управлении / Труды I Всесоюзной конференции по оптимальному планированию и управлению народным хозяйством. — М: ЦЭМИ, 1971. — 49 c.
MAZUROV, Vl. D. (1971) Application of Methods of Theory of Pattern Recognition in the Optimal Pplanning and Management. Proceedings of I-st all-Union Conference on Optimal Planning and National Economy Management. Moscow: Central Economics and Mathematics Institute. p. 49.
18. Мельников, Г. А., Губарев, В. В. Метод построения деревьев регрессии на основе муравьиных алгоритмов / Г. А. Мельников, В. В. Губарев // Доклады Томского государственного университета систем управления и радиоэлектроники. — 2014. — № 4 (34). — C. 72-78.
MELNIKIV, G. A. & GUBAREV, V. V. (2014) The Method for Building Regression Trees based on Ant Colony Optimization Algorithms. Reports of Tomsk State University of Control systems and Radioelectronics. 34 (4). p. 72-78.
19. Местецкий, Л. М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры / Л. М. Местецкий. — M.: ФИЗМАТЛИТ, 2009. — 286 c.
MESTETSKIY, L. M. (2009) Continuous Morphology of Binary Images: Figures, Skeletons, Circulars. Moscow: PHYSMATHLIT.
20. Рудаков, К. В. Об алгебраической теории универсальных и локальных ограничений для задач классификации / К. В. Рудаков / В кн. «Распознавание, классификация, прогноз». — М.: Наука, 1989. — 176-201 c.
RUDAKOV, K. V. (1989) On Algebraic Theory of Universal and Local Constraints for Classification Problems. In the book: 'Recognition, classification, prediction. Moscow: NAUKA'. (Issue 1). p. 58-65.
21. Руденко, Л. И. Аппроксимация целевой функции в частично определенной задаче оптимизации / Л. И. Руденко // Динамические системы. — К. Лыбидь, 1992. — Вып. 10. — C. 117-123.
RUDENKO, L. I. (1992) Approximation of the Object Function into a Partially-Defined Problem of Optimization. Dynamic Systems. (Issue 10). p. 117-123.
22. Руденко, Л. И. О развитии подходов к принятию решений при неполной информации / М.Г.Козлова // Ученые записки ТНУ. Серия «Математика, Механика, Информатика». — 2001. — №3. — C. 93-95.
RUDENKO, L. I. (2001) On the Evolution of Approaches to Decision-Making with Incomplete Information. Scientific notes of TNU. Series: Mathematics, Mechanics, Informatics. (3). p. 93-95.
23. Рязанов, В. В., Тишин К. В., Щичко А. С. Восстановление зависимостей по прецедентам на основе применения методов распознавания и динамического программирования / В. В. Рязанов, К. В. Тишин, А. С. Щичко // Математические методы распознавания образов. — 2014. — Том 14. — № 1. — C. 168-171.
RYAZANOV, V. V., TISHIN, A. S., & SCHICHKO, A. S. (2014) The Restoration of Dependencies from Precedents based on the the Application of Methods of Pattern Recognition and Dynamic Programming. Mathematical Methods of Pattern Recognition. 14 (1). p. 168-171.
24. Сергиенко, И. В., Гупал, А. М. Индуктивная математика / И. В. Сергиенко, А. М. Гупал // Вестник НАН Украины. — 2002. — № 5. — C. 19-25.
SERGIENKO, I. V., & GUPAL, A. M. (2002) Inductive mathematics. Bulletin of the NAS of Ukraine. (5). p. 19-25.
25. Таратынова, Н. Ю. Задача линейной оптимизации с частично заданной информацией / Н. Ю. Таратынова // Таврический вестник математики и информатики. — 2005. — № 1. — C. 82-93.
TARATYNOVA, N. Yu. (2005) Linear Optimization Problem with Partially-Specified Information. Taurida Journal of Computer Science Theory and Mathematics. (1). p. 82-93.
26. Таратынова, Н. Ю. Построение оптимизационной модели по прецедентной начальной информации как задача нелинейной регрессии / Н. Ю. Таратынова // Искусственный интеллект. — 2006. — №2. — C. 238-241.
TARATYNOVA, N. Yu. (2006) The construction of OptimizationModels by the Precedent Initial Information as a Problem of Nonlinear Regression. Artificial Intelligence. (2). p. 238-241.
27. ALI, J., KHAN, R., AHMAD, N., & MADSOON, I. (2012) Random Forests and Decision Trees. International Journal of Computer Science. 9, Issue 5 (3). p. 272-278.
28. ANAFIEV, A. S. & ABDULKHAIROV, A. (2013) An Approach to Reconstruct Target Function of the Optimization Problem with Precedent Initial Information. Taurida Journal of Computer Science Theory and Mathmatics. (2). p. 4-9.
29. BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R., & STONE, C. J. (1984) Classification and Regression Trees. New York: Chapman and Hal.
30. DONSKOY, V. I. (2016) Building Optimization Models from Data for the Intelligent Control Systems. Intellectual Archive;. (#1708). p. 7.
31. DONSKOY, V. I. (2016) On the Smart Trees and Competence Areas Based Decision Forest. Belorusian State University. [Online] Electrinic Library ISSN 2519-4437. p. 3. Available from: http://elib.bsu.by/bitstream/123456789/158800/1/Donskoy.pdf. [Accessed: 10th December 2017].
32. DONSKOY, V. I. (1998) Case-, knowledge-, and optimization- based hybrid approach in AI. International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems IEA/AIE 1998. Methodology and Tools in Knowledge-Based Systems (LNCS, volume 1415). p. 520-527.
33. DJUKOVA, E. V. & PESKOV, N. V. (2007) А Classification Algorithm based on the Complete Decision Tree. Pattern Recognition and Image Analysis. 17 (3). p. 363-367.
34. GENRIKHOV, I. E. (2011) Synthesis and Analysis of Recognizing Procedures on the basis of Full Decision Trees. Pattern Recognition and Image Analysis. 21 (1). p. 45-51.
86
E. H. ^OHCKOU
35. KATZ, G., SHABTAI, A., ROKACH, L., & OFEK, N., (2014) ConfDTree: A Statistical Method for Improving Decision Trees. Journal of Computer Science and Technology. 29 (3). p. 392-407.
36. KUHN, M. (2017) Package CUBIST. [Online] Available from: https://mran.revolutionanalytics.com/web/packages/Cubist/Cubist.pdf. [Accessed: 27.12.2017].
37. LOH, W.-Y. (2014) Fifty Years of Classification and Regression Trees. International Statistical Review. 82 (3). p. 329-348.
38. MathWorks. (2017) Building Models from Data and Scientific Principles. [Online] Available from: https://www.mathworks.com/solutions/mathematical-modeling/building-models-data-scientific-principles.html. [Accessed: 15th December 2017].
39. MURTHY, S. K., KASIF, S., & SALZBERG, S. (1994) A System for Induction of Oblique Decision Trees. Journal of Artificial Intelligence Research. 2. p. 1-32.
40. QUINLAN, J. R. (1993) C4.5: Programs for Machine Learning. San Mateo: Morgan Kaufmann Publishers Inc.
41. RAZI, M. A., ATHAPPILY, K. (2005) Random Forests and Decision Trees. Expert Systems with Applications. (29 ). p. 65-74.
42. SREINBERG, D. & COLLA, P. (2001) CART: Tree-Structured Non-Parametric Data Analysis . San Diego: Salford Systems.
43. TAMMINEN, S., LAURINEN, P. & RONING, J. (1999) Comparing regression trees with neural networks in aerobic fitness approximation. Proceedings of the International Computing Sciences Conference Symposium on Advances in Intelligent Data Analysis, Rochester, N.Y., June 22-25. p.414-419.
44. UTGOFF, P.E. (1989) Perceptron trees: A case study in hybrid concept representations. Connection Science;. 1. p. 377-391.
45. VENTURA, D., MARTINEZ, T. R. (1996) A General Evolutionary/Neural Hybryd Approach to Learning Optimization Problems. Proceedings of the World Congress on Neural Networks, San Diego, California. p.1091-1096.
46. WU, D., BENNETT, K.P., CRISTIANINI, N. and SHAWE-TAYLOR, J. (2000) Enlarging the Margins in Perceptron Decision Trees. Machine Learning. 41 (3). p. 295-313.