Извлечение оптимизационных моделей из данных: применение нейронных сетей

Донской В.И.

УДК: 519.7 MSC2010: 97P20

ИЗВЛЕЧЕНИЕ ОПТИМИЗАЦИОННЫХ МОДЕЛЕЙ ИЗ ДАННЫХ: ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ

Крымский федеральный университет им. В. И. Вернадского Таврическая академия факультет математики и информатики просп. Академика Вернадского, 4, Симферополь, 295007, Российская Федерация

e-mail: [email protected]

Extraction of Optimization Models from Data: an Application of Neural Networks.

Donskoy V. I.

Abstract. This paper continues the research within the paradigm of extracting or building optimization models from data (BOMD) for intelligent control systems. The obtained results are devoted to nonlinear models with real variables, generally speaking, of any functional complexity in the class of functions of arbitrary degree of smoothness and constraints represented by piecewise linear approximation. This is achieved through the use of neural networks as the main used mathematical apparatus.

If the initial training information presents the precedents of both the objective function and the characteristic function of constraints, it is proposed to use an approach based on the training of two neural networks: NN1 — for the synthesis of the objective function and NN2 — for the synthesis of the approximating characteristic function of constraints.

Unfortunately, the solution of the problem presented by such the synthesized 2-neural model may end up finding, generally speaking, a local conditional extremum. In order to find the global extremum of the multiextremal objective function, a heuristic algorithm based on a preliminary classification of the search area by using the decision tree is developed.

The presented in the paper approach to an extraction of conditionally optimization model from the data for the case when there is no information on the points not belonging to the set of admissible solutions is fundamentally novel. For this case, a heuristic algorithm for approximating the region of admissible solutions based on the allocation of regular (non-random) empty segments of the search area is developed. When using this approach in practice in intelligent control systems, it is necessary to additionally apply human-machine procedures for verification and correction of synthesized models.

Keywords: Building Optimization Models from Data, Neural Networks, Classification Trees, BOMD technology

Введение

В этой статье продолжены исследования и разработка алгоритмов извлечения оптимизационных моделей из данных в рамках парадигмы неклассического информационного моделирования [2, 10, 12, 15, 29]. В предыдущих работах автором были представлены основные идеи в указанном научном направлении, алгоритмы извлечения линейных и псевдобулевых моделей и подходы, основанные на использовании решающих деревьев [5-8, 22-24]. Поскольку данная статья является непосредственным продолжением работ [8, 22], то имеющийся в них обзор публикаций в области извлечения моделей из данных и современное состояние проблемы здесь повторятся не будут; для более подробного изложения постановки задач и ознакомления с полученными к настоящему времени результатами предлагается обратиться к статьям [8, 17-19, 22].

Цель данной публикации — разработать подходы к извлечению оптимизационных моделей из данных, используя нейронные сети как аппарат, дающий возможность построения нелинейных целевых функций и ограничений.

Приоритет и пионерские работы в указанном направлении принадлежат российскому ученому, профессору Вл. Д. Мазурову [9, 12]. Первые работы, посвященные нейросетевым информационным обучающимся оптимизационным моделям, опубликованы Г. А. Махиной [1, 13, 14].

Будем, как и в предшествующих работах, обозначать Xп = Х1 х • • • х X • • • х Хп — ограниченную область в Кп, которую обычно называют пространством переменных-признаков размерности п; Х = (х\, ••• ,Хг, ••• ,хп) — произвольную точку в пространстве переменных, являющуюся описанием допустимого объекта.

Каждая координата Хг, г = 1,... ,п, описания объекта Х принадлежит некоторому зафиксированному ограниченному множеству допустимых значений Хг, Хг С К,

Шг < Хг < Ыг.

ТоРг = {(%,У]— стандартная достоверная эмпирическая выборка для задачи обучения — извлечения модели на основе частичной информации о некотором существующем, но неизвестном скалярном критерии ^ : Хп ^ К и неизвестных ограничениях, которые формально могут быть представлены в виде П(Х) = 1. В этой задаче, обозначаемой далее Zп,F, полагается, что множество Хп разбито на два класса: класс £1, состоящий из точек, заведомо удовлетворяющих некоторой системе ограничений задачи наилучшего выбора, и класс £0, содержащий точки, заведомо не удовлетворяющие этой системе ограничений. Будем обозначать П : Хп ^ {0; 1} — характеристическую функцию ограничений, которая частично задана обучающей выборкой; П(Х) = 1 ^ Х € £1; П(Х) = 0 ^ Х € £0. Будем полагать,

что в стандартной обучающей выборке Topt содержится достоверная информация Yj = Q{äj), Yj Е {0; l}, yj = F(й,-), äj = j ... ,ajn).

В процессе обучения следует построить правило (алгоритм), позволяющий выбрать такое решение X*, которое удовлетворяло бы ограничениям (Q(X*) = 1), и при этом значение F(X*) было бы как можно большим (или меньшим — по смыслу задачи).

В рассматриваемых задачах критерий F и ограничения (характеристическая функция П) не заданы точно — ни аналитически, ни полностью таблично, ни при помощи какой-либо формальной системы. Они "отражены" в наборе данных TOpt и являются частично заданными.

Постановка задачи, решаемой в данной статье, состоит в следующем. Требуется, используя частичную начальную информацию Topt, выбрать решение X* как более близкое к оптимальному решению X*, определяемому неизвестными, но существующими истинными объектами F и П, аппроксимируемыми нейронными сетями1. Схематически поставленную задачу можно представить следующим образом:

TOpt —U X* : ||X* — X*|| U min; X* = argmin F(X) | П(Х) = 1,

где || • || — норма, A — искомый алгоритм решения задачи.

Если скалярный критерий и характеристическая функция ограничений аппроксимируются независимо друг от друга отдельными алгоритмами, вычисляющими как можно более точные в каком-либо смысле приближения F и П, то восстановленная по обучающей выборке задача (извлеченная математическая модель) нахождения наилучшего решения имеет следующий вид:

maX(min) F(X) : n(X) = 1 Л X Е Xn.

Полученная в результате машинного обучения пара функций < F, П > называются эмпирической информационной моделью.

1/-Ч U U U U

. Обоснование применимости трехслойной нейронной сети для решения задач аппроксимации вещественных функций многих

переменных

Сначала рассмотрим случай, когда для аппроксимации целевой функции используется трехслойная нейронная сеть сеть прямого распространения, в которой первым слоем является слой входных переменных, вторым — скрытый слой нейронов, а третьим — слой, состоящий из одного сумматора (рис. 1). Функция активации p может,

1В некоторых случаях для аппроксимации области Q будут использоваться классифицирующие деревья

например, иметь вид

<р(г) = (1 + ехр(-г))-1; р(*) = <р(г)(1 - <р(г)). (1)

Нейронная сеть является суперпозицией функций, структура которой в точности определяет структуру сети. Суперпозиция, эквивалентная трехслойной сети, представленной на рис. 1, имеет вид

т п

Г(х 1, ...,Хп) = ^ V,^^ Ш,х^.

3=1 г=1

Будем полагать, что суперпозиция Г получена в результате обучения нейронной

Рис. 1. Трехслойная нейронная сеть с одним скрытым слоем

сети, представленной на рис. 1. Алгоритмам обучения нейронных сетей посвящено множество публикаций [3, 26], поэтому повторять их здесь не имеет смысла. Будем считать, что нейронная сеть уже обучена по корректной начальной прецедентной информации, т. е. получена аппроксимация F заданной прецедентами функции F.

Заметим, что рассмотрение трехслойной сети (рис. 1) целесообразно не только с точки зрения ее простоты. Такие сети обладают весьма широкими возможностями, что следует вкратце пояснить.

Введем необходимые обозначения.

S(^) — параметрическое семейство функций от n переменных X = (xi,...,xn), реализуемых трехслойной сетью, представленной на рис. 1 с сигмоидной функцией активации <^(z), где z — вещественная переменная, значения которой определяются взвешенной суммой входов нейрона. Аппроксимационные возможности именно этого семейства S(^) будут рассмотрены ниже.

Введем следующие обозначения: и С Кп;

Б — семейство функций / : и ^ К; р — метрика на Б;

С (и) — семейство функций, непрерывных на и.

Пусть а = (а\, ...,ап) — набор целых неотрицательных чисел (мультииндекс). Обозначим

Ба = да/(дхадха ...дхапп)

обобщенную производную порядка а = а\ + а2 + ... + ап; Б0/ = /.

С т(и) С С (и) — семейство функций, имеющих непрерывные частные производные степени от нуля до т включительно; С0 (и) = С (и).

С ~ (и) С С(и) — семейство функций, имеющих непрерывные частные производные любой степени; Ст(и) С С~(и).

С|° (Кп) — семейство всех таких функций из Сте(Кп), что для мультииндексов а и Ь имеет место хЬБа/(X) ^ 0 при х ^ то, где Хь = хвXе ... хПп, х = тах^\,,,,,п1х^. Имеет место включение С0°°(Кп) С С|°(Кп).

Бт(и,Х) — пространство Соболева Брт(и,А), р = 1, — семейство всех функций в Ст(и), интегрируемых с 1-й степенью их модуля вместе со своими обобщенными производными до порядка т включительно, /и |Ба/|^А < то, 0 < а < т (интеграл понимается в смысле Лебега). Норма в пространстве Соболева определяется как

S^lU)

£/ \Daf Idx.

a<m и

Определение 1. Пусть m,l G {0} U N, 0 < m < l, U С Rn, S С Cl(U). Пусть для любой f G S, любого компакта K С U и любого e > 0 существует функция g G S(p) такая, что

max sup \Daf (X) — Dag(X)\ < e.

a<m ¡,eK

Тогда говорят, что семейство S(p) является m—равномерно плотным на компакте в S.

Теорема 1. [27] Пусть функция р = 0 принадлежит семейству Sm(R, А) при некотором целом m > 0. Тогда £(р) является m—равномерно плотным на компакте в C^(Rn).

Определение 2. Пусть l — неотрицательное целое. Функция р называется l-конечной, если р G Cl(R) и 0 < f \Dlp\d\ < то

Теорема 2. [27] Если функция р является 1-конечной, то для всех т Е {0,1,..., /} семейство £(р) т-равномерно плотно на компакте в С|°(Яп).

Условия, накладываемые на функцию активации р в теоремах 1, 2 обеспечивают т-равномерную плотность аппроксимации нейронными функциями семейства Е(р) неизвестных функций любой степени гладкости на компакте в С|°(Дп).

Напомним, что аргумент г функции р(г) принимает значения, равные суммам произведений значений входных переменных нейрона на соответствующие веса. Модуль этих сумм ограничен некоторой вещественной положительной величиной М < то. Для сигмоидной логистической функции р(г) = (1 + ехр(—г))-1 с учетом такого ограничения выполняется неравенство (1+ехр(М))-1 < р(г) < (1+ехр(—М))-1. Поэтому формальный выбор функции активации в виде

/р(г) = (1 + ехр(-г))-1, если < М + 5; Р (г) = < (2)

10, если |г| >М + 5,

где малое 5 > 0, обеспечит выполнение условий теорем 1, 2. Поскольку |г| < M, в практических случаях допустимо применять функцию активации р, а не р , в силу их совпадения вместе с их производными на промежутке — М < г < М.

Мы привели одно из возможных обоснований применимости трехслойной нейронной сети с одним скрытым слоем для решения задач аппроксимации вещественных функций многих переменных.

2. Принципы извлечения нейронных информационных оптимизирующих моделей из данных. Случай, когда ограничения частично заданы прецедентами в обучающей

выборке

Будем полагать, что по прецедентам, описывающим неизвестную целевую функцию Г, строится аппроксимирующая ее нейронная сеть NN 1, реализующая функцию Рмм 1(х) = р(х). По прецедентам, описывающим ограничения, обучается классифицирующая нейронная сеть NN2, аппроксимирующая характеристическую функцию ограничений П(х): ПNN2(х).

Пусть -ПNN 1(х) = 3 Vр(Еп=1 Р(г) = (1 + ехр(—г))-1;

дFNN 1 (х)/5хг = Ет=1 Vш,р(Еп=1 Ш,х^ — р(Еп=1 ш,х^ , г = 1, п;

^^1 = (д^^ 1(х)/3хь дFNN1 (х)/дх2,..., д^^1 (х)/дх^ Р(х,и) = V Еп=1(хг — иг)2.

Нахождение экстремума эмпирической информационной модели < Fnni , Ünn2 > можно осуществить градиентным алгоритмом 1, представленным ниже. В общем случае, учитывая, что аппроксимация Fnn 1 может оказаться многоэкстремальной, этот алгоритм будет отыскивать локальный экстремум.

Алгоритм 1. Поиск условного (локального) минимума по Fnn 1 и Ünn2(X).

Вход: обучающая выборка Topt = {(ü, Yj, Vj)} j

=i и нейронные аппроксимации Fnn 1

и ПNN2 (X).

Выход: X* : FNN 1(X*) ~ minFNN 1(X) / ÜNN2(X) = 1 — точка экстремума эмпирической

информационной модели и значение у* функции Fnn 1 в этой точке.

1: Взять из обучающей выборки точку Xo = üj* : Vj* = minj Vj в качестве

начального приближения и вычислить Fnn 1(X0). 2: Выбрать начальное значение г/0. 3: Выбрать скорость уменьшения шага 5 : 0,8 < 5 < 1. 4: for t := 1, 2, 3,... do

Xt := Xt-1 - nt-1 grad Fnn 1(Xt-1); nt := nt-1 • 5;

if П NN2(Xt) = 0 then

{ if p(Xt,Xt-1) < e then goto 12 else nt := nt-1 • 5 } 9: else

10: if 11Fnn 1(Xt) - Fnn 1(Xt-1)|| < e then goto 13;

11: end for;

12: X* := Xt-1; V* := Fnn 1^-1); stop. 13: X* := Xt; y* := -Pnn 1(Xt); stop.

3. Эвристические подходы к поиску глобального экстремума

МОДЕЛИ < Рим 1, ПNN2 >

Поиск глобального экстремума для рассматриваемой задачи основан на повторяющемся применении представленного выше алгоритма 1 нахождения локального экстремума, начиная с различных исходных точек области допустимых решений.

Первый, традиционный подход, основанный на применении генетических алгоритмов, описание которых можно найти в обширной научно-технической литературе, например, [4, 16], в рамках настоящей статьи адаптироваться к решаемой задаче и описываться не будет.

Второй, новый излагаемый далее подход, основан на предварительной кластеризации точек обучающей выборки TOpt = {(âj, Yj ,Vj )}j=i по значениями целевой функции yj, j = 1, /. Для этой цели используется алгоритм построения решающего дерева, определяющего разбиение области допустимых значений переменных-признаков [5] на гиперпараллелепипеды [21, 30]. В области, соответствующей каждому такому гиперпараллелепипеду, значения целевой функции yj принадлежат зафиксированному полуинтервалу. Число таких полуинтервалов и является числом классов в предварительной задаче кластеризации. После построения классифицирующего дерева каждый класс получает логическое описание в терминах пороговых предикатов вида [xi < b], где b — вещественная константа, i G {1,..., n}.

Необходимо из содержательных соображений, определяемых проблемной областью решаемой задачи, определить две константы m и M такие, что m < yj < M для всех j = 1,/. Затем отрезок [m, M] разбить на к равных сегментов [m, m + A), [m + A, m + 2Д)..., [m + кД, M], где Д = (M — m)/k. Если точка âj обучающей выборки попадает в сегмент с номером q, q = 1, к, то эта точка считается относящейся к классу Kq. Таким образом, в каждом из полученных классов окажутся точки, значения целевой функции в которых отличаются не более чем на Д.

Обозначим yq — среднее значение (середину q-го промежутка) yq = m + qA — Д/2. Каждая концевая вершина дерева (лист) содержит значение yq, соответствующее номеру класса q, и специальную пометку-флажок, используемый для запоминания просмотренных листьев при поиске глобального экстремума.

Алгоритм 2. Эвристический поиск условного глобального минимума эмпирической информационной модели < FNN 1,ПNN2(Х) >.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Вход: обучающая выборка Topt = {(âj, Yj, yj)}j =i ; нейронные аппроксимации Fnn i и Пnn2(Х); алгоритм 1 поиска локального минимума в качестве используемой внутренней процедуры; дерево кластеризации точек по значениям целевой функции в качестве второй используемой внутренней процедуры; наибольшее допустимое число шагов локального поиска S. Выход: Х * : FNN 1(Х *) ~ minFNN 1(Х) / ПNN2(Х) = 1 — предполагаемая точка

глобального экстремума эмпирической информационной модели и значение y * функции Fnn 1 в этой точке.

1: Очистить пометки просмотра всех листьев дерева (все флажки получат нулевые значения).

2: Взять из обучающей выборки точку Хо = âj* : yj* = minj yj в качестве начального приближения и выполнить алгоритм 1.

3: Запомнить найденную точку в переменой x* и значение локального минимума в ней в переменной у*.

4: Пометить лист дерева, в который попала точка x* (установить флажок в единицу).

5: Выбрать непомеченный лист дерева с наименьшим значением yq и попавшую в него точку обучающей выборки с наименьшим значением целевой функции.

6: Применить к выбранной точке алгоритм 1, получая экстремум у" в точке x°.

7: Пометить выбранный лист как просмотренный (установить флажок в единицу).

8: if у" < у* then {у* := у"; x* := x"};

9: Если еще есть непомеченные листья дерева и число исследований листьев (применений алгоритма!) не превысило заданного числа S, то перейти на 5;

Обоснование применения классифицирующего алгоритма при поиске глобального экстремума в составе алгоритма 2 состоит в следующем.

1.Число точек l в обучающей выборке многократно превышает число листьев дерева классификации, и вместо перебора всех l точек для инициализации локального поиска осуществляется повторение локального поиска не более ß ^ l раз — каждый раз с начальной точкой, взятой из сегмента, соответствующего выбранному листу дерева.

2. Листьям дерева соответствуют различные, в том числе удаленные друг от друга сегменты2 области глобального поиска, в то время как любой упорядоченный перебор точек обучающей выборки для инициализации локального поиска может привести к повторению вычислений в достаточно узкой окрестности одного и того же локального минимума.

4. Вычисление градиента аппроксимирующей функции, реализованной полносвязной многослойной нейронной сетью

прямого распространения

При использовании многослойных нейронных сетей изложенный метод принципиально не изменяется: потребуется только умение вычислять градиент соответствующей аппроксимирующей нейронной функции. В этом параграфе показывается, как находить такой градиент.

2Удаленность двух областей Wi и Wi оценивается величиной

inf p(X,y), {äeWi, yeW2~}

где p — евклидово расстояние между точками в Rn.

Для удобства вычислений представим многослойную полносвязную нейронную сеть, введя дополнительный "скрытый" слой с номером ноль (рис. 2). Функции активации этого нулевого слоя имеют вид = Функции активации во всех остальных слоях будем полагать логистическими:

Рис. 2. Многослойная полносвязная нейронная сеть

Будем использовать следующие обозначения:

V] — взвешенная сумма всех входов нейрона ], называемая его индуцированным локальным полем [26];

I — номер слоя, 0 < I < Ь; слой с номером 0 — особый слой входов; выходной слой имеет номер Ь;

Ш1, ш2,... , Шь~1 — число нейронов в скрытых слоях 1, 2,... , Ь — 1;

V] — суммарный вход нейрона ];

Х = (х1,... , хг,... , хп) — вход нейронной сети;

у = ) — выход нейрона ]; У = У (Х) — выход сети.

Для нахождения градиента функции, реализованной обученной нейронной сетью, представленной на рис.2, будем использовать рекуррентную схему, которая лежит в основе алгоритма обучения нейронной сети методом обратного распространения ошибки [26].

Локальный градиент выходного нейрона определяется выражением

S

(L)

dvL

р (vl) = p(vL)(1 - p(vL)) = Y(1 - Y),

(3)

где верхний индекс в скобках обозначает номер слоя сети.

Локальный градиент нейрона ] скрытого слоя с номером I:

б? = „'(„,) £ 4'+%,, = у(>(1 - у») £ 4'+%,,, (4)

к к

где сумма берется по всем номерам нейронов слоя, непосредственно следующего за слоем, в котором содержится нейрон ].

п

= <р' (£ х^-) £ = у^> (1 - уУ) £ . (5)

¿=1 к к

^ = <А(хг)£ ^ ^к = £ 6к)шгк. (6) кк

^ = ^(0>; дгайг = (^10>,...,^П0>). (7)

Как и при вычислениях по методу обратного распространения ошибки, для заданного входа X сначала в прямом направлении от входа к выходу сети вычисляются локальные поля и выходы всех нейронов. Затем, в обратном направлении, начиная с уравнения 3, рекуррентно выполняются вычисления локальных градиентов по формуле 4 и завершаются вычислением градиента по формулам 6 и 7.

5. Случай, когда отсутствует информация о точках, не являющихся допустимыми (не принадлежащих области П)

Сбор начальной обучающей информации при решении задач в сфере управления большими системами является не менее трудной проблемой, чем разработка необходимого программного обеспечения, особенно в связи с тем, что в последние годы многие системы и среды программирования оснащены мощными библиотеками, реализующими всевозможные методы машинного обучения и принятия решений (например, SciKit-Learn, TensorFlow, Keras для Python 3).

Особенно сложно "добыть" данные о точках или состояниях оптимизируемых или управляемых объектов, которые не являются допустимыми — не удовлетворяют системным ограничениям. В нашем случае — это часть стандартной обучающей информации Topt = {(Cj,Yj,Vj)}j=i, состоящая из точек Cj таких, для которых Yj = n(Cj) = 0. Если данные об оптимизируемом объекте накапливаются в процессе его функционирования, то, как правило, наблюдаются некоторые допустимые состояния его работы; прочие состояния понимаются как "срыв" функционирования объекта и не являющегося допустимым. Возникновение такого состояния можно считать редким (rare) событием [20].

Изложенные соображения приводят к целесообразности рассмотрения случая, когда обучающая информация имеет вид = {(о ,yj)}=1, и в ней содержатся

только допустимые точки, для которых = ) = 1.

Идея подхода к построению ограничений для такого случая связана с выделением в области поиска глобального экстремума так называемых пустых сегментов, в которые не попали точки выборки принадлежащие области допустимых ре-

шений. На рис. 3 для пояснения излагаемого подхода условно показана некоторая область поиска, в которой звездочками отмечены допустимые точки, а пустые сегменты обозначены как Е1,..., Е6. Напомним, что в данной работе рассматриваются

Рис. 3. Разбиение области поиска с найденными пустыми сегментами Ei,... ,E6 и классифицирующее дерево, реализующее это разбиение

регулярные процессы и объекты. В этом случае ни о каких вероятностных распределениях речь не идет, но все же возможно оценивание выделенных пустых сегментов на основе колмогоровского подхода к оцениванию закономерности как неслучайности.

А. Н. Колмогоров указывал на необходимость различать собственно случайность как отсутствие регулярности и стохастическую случайность как объект теории вероятностей [11, с. 42]. При эмпирическом извлечении закономерностей (регуляр-ностей) колмогоровский подход позволяет получить оценку неслучайности наличия пустого сегмента.

Отсутствие закономерности (регулярности) в расположении точек в области возможных значений переменных — гиперпараллелепипеда объема

п

V = ДИг, Мг], тг < хг < Мг,

г=1

имеет место, когда точки распределены равномерно, случайно и независимо. Если же, например, проекция точек а^, ] = 1,/, обучающей выборки на некоторую координату-переменную хг представляется гистограммой, приведенной на рис. 4, то очевидна закономерность в данных, имеющая описание в виде предиката [хг > Ь]. Ес-

Рис. 4. Гистограмма проекции выборки на ось хг с выраженной закономерностью Ь < хг < 1

ли бы рассматривалась одномерная равномерно распределенная на отрезке [тг, Мг] случайная величина с независимыми реализациями — попаданиями в этот отрезок, то вероятность попасть в [тг, Ь] геометрически оценивалась бы как р = , а веро-

ятность не попасть / раз при / независимых испытаниях — как (1 — р)'. Эта величина есть вероятность события, состоящего в том, что в результате / испытаний указанный промежуток окажется случайно пуст. А с вероятностью 1 — (1 — р)' этот промежуток будет пуст неслучайно, т. е. в рассматриваемом случае можно говорить, что вероятность наличия закономерности [хг > Ь] в результате / выборочных испытаний есть 1 — (1 — р)'.

Для аппроксимации области допустимых решений П будем использовать классифицирующее дерево с пороговыми предикатами вида [хг > Ь] в вершинах [28, 30], построенное по прецедентам, представляющим собой только точки-представители этой области П. Классифицирующее дерево, выделяющего пустые сегменты, с целью иллюстрации идеи приведено на рис. 3.

Основным элементом синтеза такого дерева является выбор пороговых значений Ь при каждом ветвлении (разбиении текущей области ) и построение очередной внутренней или терминальной вершины дерева. Следующий алгоритм 3 является основной процедурой, обеспечивающей процесс синтеза дерева аппроксимации области П.

Алгоритм 3. Выяснение возможности выделения пустого сегмента и выбор предиката вида [xi > b] ([xi < b]) для разбиения текущей области Gv и построения очередной вершины v дерева классификации.

Вход: исследуемая область-гиперпараллелепипед Gv;

Д1 — минимальная допускаемая ширина проекции пустой области. Выход: значение флага указателя Flag; если Flag = 1, то возможно

выделение пустого сегмента, и выдается предикат для условной вершины; если Flag = 0 — область Gv разбиению не подлежит, и выдается указание о построении концевой вершины с пометкой допустимого сегмента.

1. Выделить все точки выборки, попавшие в область Gv.

2. Flag := 0;

3. Цикл по всем координатам точек, попавших в область Gv;

4: if Flag := 1 then goto 14;

5. Найти среднее расстояние Д2 между проекциями точек;

6. Найти минимальное m и максимальное M значения текущей координаты;

7. if rl = m - mi > Д1 V r2 = Mi — M > Д1 then

8: { Flag := 1;

9: if rl > r2 then

10: { b := m — Д2; добавить вершину с предикатом [xi < b] }

11: else

12: {b := M + Д2; добавить вершину с предикатом [xi > b]};

}

13. конец цикла;

14. if Flag := 0 then добавить лист с пометкой области допустимых решений.

Каждой терминальной вершине т, имеющей пометку ET "пустой" области GT, соответствует вероятность P(ET), оценивающая неслучайность ее обнаружения, или, иначе говоря, вероятность того, что обнаруженная пустая область GT является закономерностью:

P(Et) = 1 — (1 — Рт)l, где Рт = V(Gt) ,

а V(GT) — объем пустой области GT. Этот объем легко вычислить, осуществляя обратный проход по ветви дерева от концевой вершины т к корню дерева, "прочитывая" все пороговые предикаты в просматриваемых вершинах проходимой ветви и формируя описание гиперпараллелепипеда GT.

Заключение

Многолетние исследования в рамках парадигмы извлечения оптимизационных моделей из данных для интеллектуализированных систем управления (Building Optimization Models from Data for the Intelligent Control Systems) [23, 25] позволили получить результаты в виде готовых алгоритмов и программ, обеспечивающих синтез таких моделей и их обоснование [1, 5-8, 13, 14, 17, 18, 22, 24]. В наибольшей степени продвижение в данном научном направлении было связано с построением линейных моделей с вещественными переменными и псевдобулевых моделей.

Полученные в данной статье результаты посвящены нелинейным моделям с вещественными переменными, вообще говоря, любой функциональной сложности в классе функций произвольной степени гладкости и ограничений, представленных кусочно-линейной аппроксимацией. Это достигается за счет применения нейронных сетей как основного используемого математического аппарата.

Если в начальной обучающей информации представлены прецедентные значения и целевой функции, и характеристической функции ограничений, то предлагается использовать подход, основанный на обучении двух нейронных сетей: NN 1 — для синтеза целевой функции и NN2 — для синтеза аппроксимирующей характеристической функции ограничений.

К сожалению, решение задачи, представленной такой синтезированной 2-нейронной моделью, может закончится нахождением, вообще говоря, локального условного экстремума. Для нахождение глобального экстремума многоэкстремальной целевой функции в статье разработан эвристический алгоритм, основанный на предварительной классификации при помощи решающего дерева области, в которой отыскивается решение.

Принципиально новым является изложенный в статье подход к и извлечению условно оптимизационной модели из данных для случая, когда в обучающей информации нет данных о точках, заведомо не принадлежащих области допустимых решений. Для этого случая разработан эвристический алгоритм аппроксимации области допустимых решений на основе выделения закономерно (неслучайно) пустых сегментов области поиска. При использовании такого подхода на практике в интеллек-туализированных системах управления следует дополнительно применять человеко-машинные процедуры для верификации и коррекции синтезированных моделей.

Описок литературы

1. Блыщик, В. Ф. Интеллектуализированная программная система Intman

поддержки принятия решений в задачах планирования и управления /

B. Ф. Блыщик, В. И. Донской, Г. А. Махина // Искусственный интеллект. — 2002. — № 2). — C. 406-415.

BLYSCHIK, V. F., DONSKOY, V. I., & MAKHINA, G. A. (2002) Intellectualized Software System INTMAN for Support Decision Making in Problems of Planning and Management. Artificial Intelligence. (2). p. 406-415.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Воронцов, К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов / К. В. Воронцов // ДАН. — 2014. — Том 456, № 3. —

C. 268-271.

VORONTSOV, K. V. (2014) Additive Regularization of Topic Models for Collections of Text Documents. Doklady Akadimii Nauk. 456 (3). p. 268-271.

3. Галушкин, А. И. Нейронные сети: основы теории / А. И. Галушкин. — M.: Горячая линия - Телеком, 2010. — 496 c.

GALUSHKIN, A. I. (2010) Neural networks: fundamentals of theory. Moscow: Gorjachajz linija - Telecom.

4. Гладков, Л. А., Курейчик, В. В., Курейчик, В. М. Генетические алгоритмы / Л. А. Гладков. — М: ФИЗМАТЛИТ, 2006. — 320 c.

GLADKOV, L. A., KUREJCHIK V. V., & KUREJCHIK V. M. (2006) Genetic Algorithms. Moscow: PHYSMATHLIT.

5. Донской, В. И. Дискретные модели принятия решений при неполной информации / В. И. Донской. — Симферополь: Таврия, 1992. — 166 c.

DONSKOY, V. I. (1992) Discrete Models of Decision Making under Incomplete Information. Simferopol: Tavrija.

6. Донской, В. И. Логическое управление плохо формализованными системами /

B. И. Донской // Динамические системы. — К.:Вища школа, 1985. — Вып.1. —

C. 90-96.

DONSKOY, V. I. (1985) Logical Control of Poorly Formalized Systems. Dynamic Systems. (1). p. 90-96.

7. Донской, В. И. Синтез согласованных оптимизационных моделей по прецедентной информации: подход на основе колмогоровской сложности / В. И. Донской // Таврический вестник информатики и математики. — 2012. — № 2. — C. 13-25.

DONSKOY, V. I. (2012) Synthesis of Coordinated Optimization Models According to Precedent Information: an Approach based on Kolmogorov Complexity. Taurida Journal of Computer Science Theory and Mathematics. (2). p. 13-25.

8. Донской, В. И.. Извлечение оптимизационных моделей из данных: подход на основе решающих деревьев и лесов / В. И. Донской // Таврический вестник информатики и математики. — 2017. — № 4. — C. 59-86.

DONSKOY, V. I. (2017) Extraction of optimization models from data: a decision tree and forest-based approach. Taurida Journal of Computer Science Theory and Mathematics. (4). p. 59-86.

9. Ерёмин, И. И., Мазуров, В. Д. Нестационарные процессы математического программирования / И. И. Ерёмин, Вл. Д. Мазуров. — M.: Наука, 1979. — 288 с. ERIOMIN, I. I. & MAZUROV, Vl. D. (1979) Nonstationary Processes of Mathematical Programming. Moscow: Nauka.

10. Журавлёв, Ю. И. Экстремальные алгоритмы в математических моделях для задач распознавания и классификации / Ю. И. Журавлёв // Доклады АН СССР. Математика. — 1976. — Том 231. — №3. — C. 532-535.

ZHURAVLEV, Yu. I. (1976) Extreme Algorithms in Mathematical Models for Pattern Recognition and Classification. Reports of the USSR Academy of Sciences. Mathematics. 231 (3). p. 532-535.

11. Колмогоров, A. Н. Алгоритм, информация, сложность / А. Н. Колмогоров. — M.: Знание, 1991. — 44 c.

KOLMOGOROV, A. N. (1991) Algorithm, information, complexity. Moscow: Znanie.

12. Мазуров, Вл. Д. Применение методов теории распознавания образов в оптимальном планировании и управлении / Труды I Всесоюзной конференции по оптимальному планированию и управлению народным хозяйством. — М: ЦЭМИ, 1971. — 49 c.

MAZUROV, Vl. D. (1971) Application of Methods of Theory of Pattern Recognition in the Optimal Planning and Management. Proceedings of I-st all-Union Conference on Optimal Planning and National Economy Management. Moscow: Central Economics and Mathematics Institute. p. 49.

13. Махина, Г. А. Архитектура нейронной сети решения задачи слобоопределенной оптимизации с линейными ограничениями / Г. А. Махина // Ученые записки Симферопольского государственного университета. Серия: Математика. Механика. Информатика и кибернетика. — 2002. — № 2. — C. 133-136. MAKHINA, G. A. (2002) Neural Network Architecture for Solving the Weakly Defined Optimization Problem with Linear Constraints. Reports of V.I. Vernadsky Simferopol State University. Series: Mathematics. Mechanics. Computer Science and Cybernetics. (2). p. 133-136.

14. Махина, Г. А. Нейросетевой подход к задачам слабоопределенной оптимизации / Г. А. Махина // Искусственный интеллект. — 2000. — № 2. — C. 145-148.

MAKHINA, G. A. (2002) Neural Network Approach to Weakly Defined Optimization Problems. Artificial intelligence. (2). p. 133-136.

15. Рудаков, К. В. Об алгебраической теории универсальных и локальных ограничений для задач классификации / К. В. Рудаков / В кн. Распознавание, классификация, прогноз. — М.: Наука, 1989. — 176-201 c.

RUDAKOV, K. V. (1989) On Algebraic Theory of Universal and Local Constraints for Classification Problems. In the book: 'Recognition, classification, prediction. Moscow: NAUKA'. (Issue 1). p. 58-65.

16. Рутковская, Д., Пилиньский, М., Рутковский, Л. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская. — М.: Горячая линия — Телеком, 2006. — 452 c.

RUTKOVSKAJA, D., HILINSKY, M, & RUTKOVSKY, L. (2006) Neural Networks, Genetic Algorithms and Fuzzy Systems. Moscow: Gorjachaja linija — Telekom.

17. Таратынова, Н. Ю. Задача линейной оптимизации с частично заданной информацией / Н. Ю. Таратынова // Таврический вестник математики и информатики. — 2005. — № 1. — C. 82-93.

TARATYNOVA, N. Yu. (2005) Linear Optimization Problem with Partially-Specified Information. Taurida Journal of Computer Science Theory and Mathematics. (1). p. 82-93.

18. Таратынова, Н. Ю. Построение оптимизационной модели по прецедентной начальной информации как задача нелинейной регрессии / Н. Ю. Таратынова // Искусственный интеллект. — 2006. — № 2. — C. 238-241.

TARATYNOVA, N. Yu. (2006) The construction of OptimizationModels by the Precedent Initial Information as a Problem of Nonlinear Regression. Artificial Intelligence. (2). p. 238-241.

19. ANAFIYEV, A. S. & ABDULKHAIROV, A. (2013) An Approach to Reconstruct Target Function of the Optimization Problem with Precedent Initial Information. Taurida Journal of Computer Science Theory and Mathmatics. (2). p. 4-9.

20. BUCKLEW, J. A. (2004) Introduction to Rare Event Simulation. New York: Springer Science+Business Media, LLC.

21. BREIMAN, L., FRIEDMAN, J. H., OLSHEN, R., & STONE, C. J. (1984) Classification and Regression Trees. New York: Chapman and Hal.

22. DONSKOY, V. I. (2018) A Synthesis of Pseudo-Boolean Empirical Models by Precedential Information. Bulletin of the South Ural State University, Series: Mathematical Modelling, Programming and Computer Software. 11 (2). p. 96-107.

23. DONSKOY, V. I. (2016) Building Optimization Models from Data for the Intelligent Control Systems. Intellectual Archive. (#1708). p. 7.

24. DONSKOY, V. I. (2016) On the Smart Trees and Competence Areas Based Decision Forest. Belorusian State University. [Online] Electrinic Library ISSN 2519-4437. p. 3. Available from:

http://elib.bsu.by/bitstream/123456789/158800/1/Donskoy.pdf. [Accessed:

10th December 2017].

25. DONSKOY, V. I. (1998) Case-, knowledge-, and optimization- based hybrid approach in AI. International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems IEA/AIE 1998. Methodology and Tools in Knowledge-Based Systems (LNCS, volume 1415). p. 520-527.

26. HAYKIN, S. (2008) Neural Networks and Learning Machines. Prentice Hall.

27. HORNIK, K., STINCHCOMBE M., & WHITE H. (1990) Univrsal Approximation of an Unknown Mapping and Derivatives Using Multilayer Feedforward Networks. Newral Networks. 3 (1). p. 551-560.

28. LOH, W.-Y. (2014) Fifty Years of Classification and Regression Trees. International Statistical Review. 82 (3). p. 329-348.

29. MathWorks. (2017) Building Models from Data and Scientific Principles. [Online] Available from:

https://www.mathworks.com/solutions/mathematical-modeling/building-models-data-scientific-principles.html. [Accessed: 15th December 2017].

30. QUINLAN, J. R. (1993) C4-5: Programs for Machine Learning. San Mateo: Morgan Kaufmann Publishers Inc.

31. VENTURA, D., MARTINEZ, T. R. (1996) A General Evolutionary/Neural Hybryd Approach to Learning Optimization Problems. Proceedings of the World Congress on Neural Networks, San Diego, California. p.1091-1096.

Извлечение оптимизационных моделей из данных: применение нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Донской В. И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Донской В. И.

Extraction of Optimization Models from Data: an Application of Neural Networks

Текст научной работы на тему «Извлечение оптимизационных моделей из данных: применение нейронных сетей»