АЛГЕБРО-ЛОГИЧЕСКИЕ МЕТОДЫ В ИНФОРМАТИКЕ И ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
ALGEBRAIC AND LOGICAL METHODS IN COMPUTER SCIENCE AND ARTIFICIAL INTELLIGENCE
Серия «Математика»
2021. Т. 38. С. 65-83
Онлайн-доступ к журналу: http://mathizv.isu.ru
ИЗВЕСТИЯ
Иркутского
государственного
университета
УДК 004.85 MSC 22E05
DOI https://doi.org/10.26516/1997-7670.2021.38.65
Глубокое обучение адаптивных систем управления на основе логико-вероятностного подхода
А. В. Демин1
1 Институт систем информатики им. А. П. Ершова СО РАН,
Новосибирск, Российская Федерация
Аннотация. Проблема автоматического выделения подцелей в настоящее время является одной из наиболее актуальных в задачах адаптивного управления, в частности в задачах обучения с подкреплением (Reinforcement Learning). В данной работе предложен логико-вероятностный подход к построению адаптивных обучаемых систем управления, способный обнаруживать глубокие неявные подцели. Подход использует идеи нейрофизиологической теории функциональных систем для организации схемы управления, и логико-вероятностные методы машинного обучения для обучения правил работы системы и выявления подцелей. Работоспособность предложенного подхода демонстрируется на примере решения трехэтапной задачи фуражирования, содержащей две вложенные неявные подцели.
Ключевые слова: система управления, машинное обучение, обнаружение закономерностей, обучение с подкреплением.
66
А. В. ДЕМИН
1. Введение
В настоящее время понятие «глубокое обучение» (deep learning) устойчиво вошло в терминологию современных исследователей. В области Data Science термин «глубокое обучение» чаще всего ассоциируется с технологией обучения глубоких многослойных нейронных сетей. Между тем понятие «глубокое обучение» можно рассматривать в более широком смысле: как подход к машинному обучению, позволяющий достичь большей эффективности за счет представления данных в виде иерархии вложенных концепций, в которой каждая концепция определяется в терминах более простых концепций, а более абстрактные представления вычисляются в терминах менее абстрактных [7]. К примеру, в работах [14; 15] представлен способ построения глубоких моделей, названный deep forest и основанный на иерархии random-forest классификаторов.
Что касается проблематики адаптивных систем управления, в частности обучение агента путем его взаимодействия с окружающей средой методом «проб и ошибок», которое носит название «обучение с подкреплением» (reinforcement learning, RL) [10], то здесь в последнее время наиболее впечатляющие результаты показывает подход «глубокое обучение с подкреплением» (deep reinforcement learning, DRL). К примеру, алгоритмы DRL позволили машине автоматически обучиться играть в игры Atari, получая на вход лишь сырые пиксельные данные [8], а также побить чемпионов мира в игру го [9]. Однако при более детальном рассмотрении можно заметить, что своим успехом многие современные эффектные DRL приложения в основном обязаны использованию моделей глубоких нейронных сетей для анализа входной сенсорной информации. В частности, Atari DRL эффективно использует глубокие сети для преобразования сырых пиксельных данных в сжатое представление, пригодное для использования reinforcement learning методами. Безусловно, объединение классических методов обучения с подкреплением с глубокими нейронными сетями является большим прогрессом, однако при этом по-прежнему остались нерешенными ряд традиционных проблем обучения с подкреплением, в частности проблема разбиения задачи на подзадачи (обнаружение подцелей), проблема быстрого набора эффективного для обучения опыта, проблема быстрого падения эффективности обучения с ростом размерности пространства состояний и действий, проблема эффективного обучения при редких вознаграждениях от среды.
Проблема автоматического выделения подцелей в настоящее время является одной из наиболее актуальных. Способность объединять серии элементарных действий в более крупные группы, решающие конкретные подзадачи, дает нам возможность рассмотреть решение основной задачи в укрупненном масштабе, в терминах этих подзадач. Это не
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
67
только позволяет быстрее обучаться, но и дает возможность эффективно решать задачи, которые нельзя решить в масштабе элементарных действий. Здесь можно легко провести аналогию между иерархией целей, где вышестоящие цели оперируют нижестоящими подцелями, и иерархией вложенных концепций в глубоком обучении, где более абстрактные концепции определяется в терминах менее абстрактных. По нашему мнению, понятие глубокого обучения применительно к задачам адаптивного управления состоит не только и не столько в глубоком анализе входной сенсорной информации, но и в глубоком анализе опыта взаимодействия системы с внешней средой с целью представления этого опыта в виде эффективной иерархии целей и подцелей.
В настоящее время в рамках общего раздела обучения с подкреплением (reinforcement learning, RL) выделилось направление «иерархическое обучение с подкреплением» (hierarchical reinforcement learning, HRL) [5;6], которое объединяет различные подходы к группировке элементарных действий для более эффективного обучения агента и решения им задач. Однако одна из основных проблем большинства этих подходов заключается в необходимости заранее задавать подцели. Таким образом, задача автоматического обнаружения подцелей по-прежнему остается крайне актуальной.
В данной работе предлагается альтернативный подход, который, с одной стороны, использует идеи организации управления из нейрофизиологической теории функциональных систем, а с другой — логиковероятностный методы машинного обучения для тренировки агента. Одно из преимуществ использования логико-вероятностных методов состоит в том, что обнаруженные в результате обучения закономерности имеют явную форму, т. е. представлены в виде логических формул. Это позволило нам предложить автоматический способ извлечения подцелей, основанный на анализе этих закономерностей. Учитывая сказанное выше замечание относительно понятия глубокого обучения применительно к адаптивному управлению, можно утверждать, что предлагаемый нами подход, позволяющий автоматически обнаруживать скрытые подцели и выстраивать их в иерархию, имеет право называться «глубоким».
2. Экспериментальная среда
Для экспериментальной проверки эффективности предложенного подхода и, в частности, метода извлечения подцелей, мы предлагаем использовать тестовую задачу, которую условно назвали «многоэтапная задача фуражирования».
Существует известная классическая задача фуражирования, которая заключается в том, что агент должен обучиться эффективному по-
68
А. В. ДЕМИН
иску пищевых объектов в некотором плоском виртуальном мире. Данная задача является одноэтапной, поскольку в ней не могут быть выделены подцели. В связи с этим мы усложнили классическую задачу, сделав ее многоэтапной. N-этапная задача отличается тем, что виртуальный мир содержит объекты N типов, и для поглощения объекта типа к (к = 2,..., N), необходимо найти и поглотить объект типа (к — 1). Первый тип объекта (к = 1) начинает цепочку, поэтому может быть поглощен после обнаружения без дополнительных условий. При этом если агент поглотил объект типа к (к = 1, ...,N — 1),то после он может поглотить только объект типа (к + 1). Задача считается выполненной, если агент поглотит объект последнего типа (к = N), а это возможно только после выполнения всей цепочки последовательных поглощений. Данная задача удобна тем, что содержит в себе очевидную иерархию подцелей, и поэтому может являться хорошим тестом для оценки эффективности обнаружения подцелей. В данной работе в качестве эксперимента мы будем решать трехэтапную задачу.
Опишем более подробно экспериментальную среду и условия задачи. Виртуальная среда представляет собой прямоугольное поле, размером 25 на 25 клеток. Каждая клетка может быть либо пустой, либо содержать один из трех типов объектов: «еда-1» (пищевой объект первого типа), «еда-2» (второго типа) или «еда-3» (третьего). Агент может перемещаться по полю, совершая три типа действий: шаг на клетку вперед («шаг»), поворот налево («налево»), поворот направо («направо»).
В начале эксперимента по полю случайным образом располагается одинаковое количество пищевых объектов всех трех типов. Чтобы поглотить объект агенту достаточно шагнуть на клетку, в которой он располагается, и если при этом будут выполнены описанные выше условия, связанные с последовательностью поглощений, то клетка будет очищена и новый объект того же типа случайным образом появиться в другом месте поля. Таким образом, суммарное количество пищевых объектов в виртуальном мире всегда остается постоянным.
Для ориентации в виртуальном мире агент имеет десять сенсоров, девять из которых информируют его о состоянии окружающих клеток: «впереди-слева», «впереди», «впереди-справа», «слева», «центр», «справа», «сзади-слева», «сзади», «сзади-справа» (рис. 1). Каждый из этих сенсоров информирует о типе объекта, находящегося в соответствующей клетке, и может принимать следующие значения: «пусто», «еда-1», «еда-2», «еда-3». Еще один, десятый, сенсор информирует агента о факте совершения поглощения в текущем такте, и принимает два значения: «да» или «нет».
Отдельно отметим, что в данной постановке задачи агент не содержит никаких дополнительных сенсоров, которые бы в явном виде информировали его о том, какой последний тип пищевого объекта он поглотил. Это существенным образом усложняет задачу по сравнению с
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
69
Рис. 1. Сенсорное поле агента
той, которая была в работах [3; 11—13], где решалась двухэтапная задача, и агент имел дополнительный сенсор, который сообщал ему о том, был ли поглощен объект первого типа.
3. Модель системы управления
Архитектура предложенной системы управления основана на теории функциональных систем, разработанной известным русским нейрофизиологом П. К. Анохиным [1]. Согласно этой теории единицей деятельности организма является функциональная система, формирующаяся для достижения полезных организму результатов (например, удовлетворение потребностей). Организация функциональных систем при целенаправленном поведении осуществляется в соответствии с двумя правилами: последовательностью и иерархией результатов. Последовательность результатов выстраивается по принципу «доминанты»: доминирующая потребность возбуждает доминирующую функциональную систему и строит поведенческий акт, направленный на ее удовлетворение. По отношению к доминирующей функциональной системе все остальные функциональные системы выстраиваются в иерархию по принципу «иерархии результатов»: когда результат деятельности одной функциональной системы входит в качестве компонента в результат деятельности другой.
Предполагаем, что системы управления функционирует в дискретном времени t = 1, ..,п, имеет некоторый набор сенсоров для восприятия информации об окружающей среде и набор возможных действий, которые она может совершать. Также считаем, что статистические дан-
70
А. В. ДЕМИН
ные о взаимодействии системы с окружающей средой хранятся в массиве данных, где для каждого момента времени t записана вся сенсорномоторная информация системы: показания сенсоров и выбранное действие.
Для обнаружения закономерностей, описывающих работу системы, предлагается использовать логико-вероятностные методы извлечения знаний из данных, основанные на идеях семантического вероятностного вывода и адаптированные для задач управления [2-4]. Для этого вся сенсорно-моторная информация представляется в виде логических предикатов, в терминах которых осуществляется поиск управляющих правил.
Введем наборы базовых логических предикатов следующего типа:
Si € S — сенсорные предикаты из заданного набора предикатов S, описывающие состояние сенсоров агента. Запись Si(t) означает, что состояние сенсоров агента в момент времени t удовлетворяет условию предиката Si.
Ai € A — активирующие предикаты из заданного набора предикатов A, описывающие действия агента. Запись Ai(t) означает, что в момент времени t агент выполнил действие, удовлетворяющее условию предиката Ai. Для простоты в дальнейшем будем полагать, что каждый предикат Ai взаимооднозначно соответствует одному действию из набора возможных действий системы.
Введем понятие предиката-цели G, как условие достижения некоторого целевого состояния, описываемого конъюнкцией сенсорных предикатов: G = Sn Л Si2 Л ... Л Sik.
Также введем понятие предиката-результата достижения цели G: Res(G)(t) = Эх : (t0 < х < t) Л G(x) = true
Данный предикат информирует о том, что цель G была достигнута на промежутке времени между тактами [to,t] и ее результат актуален на момент времени t. Точка to, по сути, является моментом отсечения, после которого мы считаем, что все достижения цели G уже являются неактуальными на данный момент. В данной работе мы предлагаем в качестве to использовать момент времени последнего достижения любой цели, стоящей выше в иерархии подцелей над G. Фактически, это означает, что при достижении какой-либо вышестоящей цели все результаты нижестоящих подцелей «обнуляются».
Архитектура системы управления представляет собой иерархию функциональных систем, при которой функциональные системы верхнего уровня ставят цели системам нижнего уровня. Отдельная функциональная система F определяется следующим набором:
F = (G, RES, REG)
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
71
где G — предикат-цель, описывающий цель, достижение которой является задачей данной функциональной системы.
RES — множество предикатов-результатов целей, соответствующих функциональным системам, подчиненным данной системе.
REG — множество правил, описывающих работу данной функциональной системы и имеющих вид:
Siti(t), Ai(t) ^ Sit2(t + 1), A2(t + 1) ^ ... Sitm(t + т), Am(t + т) ^
situation action situation action situation action
G(t + m + 1)
'------V-------'
goal
(1)
где Ai £ A, Siti = S\ Л - ■ -ЛSгп Л Res(Gl) Л... Л Res(Gk) — описание ситуации, конъюнкция из сенсорных предикатов и предикатов-результатов, Si £ S, Res(Gi) £ RES. Запись Sit(t) означает, что в момент времени t показания сенсоров и достигнутые результаты удовлетворяют условию Sit.
Данные правила предсказывают, что если из ситуаций Sit\, ...,Sitm последовательно выполнять действия А\,..., Ат, переходя после выполнения каждого действия в соответствующую ситуацию, указанную в правиле, то с некоторой вероятностью р будет достигнута вышестоящая цель G.
Рассмотрим, каким образом происходит работа системы управления в целом. Каждый такт работы системы включает три этапа: 1) прогнозирование и формирование плана действий; 2) выполнение действий и
3) оценка результатов.
Во время первого этапа происходит инициация запроса к функциональной системе, находящейся на вершине иерархии функциональных систем, о достижении основной цели. Ответом на запрос будет являться максимально вероятный прогноз достижимости этой цели и соответствующий план действий. Рассмотрим этот процесс подробнее.
Предположим, что в некоторый момент времени t перед функциональной системой F = (G, RES, REG) ставится запрос о достижении цели G. На вход функциональной системы подается также информация об окружающей среде в виде набора значений сенсорных предикатов Si, S2,..., Sn, описывающих текущую ситуацию.
В процессе вычисления прогноза функциональная система F отбирает из множества своих правил REG все правила, применимые в текущей ситуации. То есть отбираются все правила вида (1), у которых набор сенсорных предикатов 5|,..., S\ в описании ситуации Sit\ = S} Л ... Л S* Л Res(G\) Л ... Res(Gk) выполнен в текущей ситуации. Далее для каждого отобранного правила R рассчитывается оценка вероятности
72
А. В. ДЕМИН
f (R) достижения цели G по формуле:
{p(R), если Vi : Res(Gi) = true,i = 1...k,Gi € Sit\ p(R) • Ц f (Gi), если Зг : Res(Gi) = false, i € I,Gi € Sit\. ш
где p(R) — условная вероятность данного правила; f (Gi) - оценки вероятностей достижения подцелей Gi из текущей ситуации.
Расчет оценок f (Gi), г € I осуществляется рекурсивно путем отправки аналогичных запросов соответствующим функциональным системам, находящимся ниже по иерархии и реализующим эти подцели. Эти запросы активируют в подчиненных функциональных системах аналогичные процессы вычисления прогнозов в текущей ситуации. Если какая-то из подцелей не может быть выполнена в данной ситуации (нет правил предсказывающих достижение подцели в данной ситуации), то в ответ на запрос возвращается отказ и правило, инициировавшее запрос, будет исключено из рассмотрения.
После вычисления оценок для всех отобранных правил функциональная система выбирает правило Rbest, имеющее максимальную оценку вероятности. Если окажется, что невозможно выбрать ни одно правило, то считаем, что Rbest = 0.
Таким образом, по завершению первого этапа все функциональные системы будут иметь наилучшие правила, определяющие действия по достижению их целей. Совокупность всех этих правил фактически будет являться планом действий системы управления по решению задачи.
Во время второго этапа система в соответствии с выбранным планом осуществляет выполнение действий. Процесс исполнения запускается путем отправки команды доминирующей функциональной системе, которая выполняет действия в соответствии с выбранным на предыдущем этапе наилучшим правилом Rbest. Если Rbest = 0, т.е. Rbest = Sit\, А\ ^ Sit2, А2 ^ ... ^ Sitm, Ат ^ G и все результаты из Sit\ достигнуты, то будет выполнено первое действие А\.
Если же описание ситуации Sit\ содержит какие-либо невыполненные результаты {Res(Gi)}, i € I, то аналогичная команда на исполнение будет передана нижележащей функциональной системе, реализующей достижение первой подцели G\ из списка {Res(Gi)}, г € I. Эта функциональная система в соответствии со своим наилучшим правилом либо выполнит действие, либо передаст управление еще ниже по иерархии. Данный процесс передачи запросов вниз по иерархии будет распространяться до тех пор, пока какая-либо система не выполнит какое-нибудь действие А € A.
Если у доминирующей функциональной системы отсутствует наилучшее правило, т. е. Rbest = 0, то система выберет действие случайным образом из арсенала имеющихся действий.
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
73
После совершения действия система перейдет в новую ситуацию, будут обновлены показания сенсоров и запустится третий этап, в ходе которого будет произведена оценка полученных результатов. Для каждой функциональной системы Fi = (Gi, RESi, REGi), будет произведено вычисление значения ее предиката-цели Gi. Если предикат-цель выполняется в новой ситуации, значит, что данная система достигла свою цель.
На этом завершится один такт работы системы управления.
4. Генерация правил
Обучение системы управления заключается в обнаружении для каждой функциональной системы F = (G, RES, REG) множества правил REG на массиве данных истории деятельности агента. Но прежде чем приступить к описанию процедуры генерации правил, остановимся на вопросе выбора формы правил (1).
В предыдущих работах [3; 11-13] были использованы правила вида
Sl,..., Sn, Res[Gl),..., Res{Gk), А у G
которые прогнозируют оценку результата своего действия, если оно будет совершенно в определенной ситуации. Недостаток подобного подхода состоит в том, что для обучения оптимальному поведению системе необходимо встретить в процессе своего обучения все возможные пути достижения цели, чтобы построить оценки достижимости цели из различных ситуаций. В сложных средах это может потребовать непомерно большого времени для обучения.
Другой подход может состоять в том, чтобы сначала построить вероятностную модель среды как набор закономерностей, прогнозирующих реакцию среды при совершении действий:
S1,..., S', Res(Gi),..., Res(Gm), A у S?,..., S?, Res(Gi),..., Res(Gk) (2)
Данное правило предсказывает, что если в ситуации, описываемой набором предикатов Sl,...,Sn ,Res(G\),..., Res(Gm), совершить действие А, то система перейдет в ситуацию S2,..., S2, Res(G\),..., Res(Gk) с некоторой вероятностью р.
А затем использовать эти закономерности для построения пути достижения цели по принципу обратного вывода, получая правила вида (1), состоящие из последовательностей переходов между ситуациями:
Sitl, А\ у Sit2, А2 у ... у Sitm, Ат у G
Основное преимущество данного подхода заключается в значительном увеличении скорости обучения, поскольку таким образом могут
74
А. В. ДЕМИН
быть сгенерированы пути достижения цели, которые не встречались системе ранее в процессе обучения.
Однако у этого подхода также есть существенный недостаток: множество закономерной вида (2), описывающих модель среды, будет экспоненциально возрастать с ростом количества сенсорных предикатов. При этом также будет возрастать сложность нахождения эффективного набора правил вида (1).
В данной работе мы предлагаем подход, который позволяет воспользоваться преимуществами наличия вероятностной модели среды и при этом избежать генерации слишком большого набора правил. В нашем подходе мы не будем пытаться обнаружить все правила вида (2), прогнозирующие реакцию среды, а будем целенаправленно искать только такие, которые помогают в достижении цели, и затем уже из этих правил будем строить правила вида (1), определяющие работу функциональных систем.
Перейдем к описанию процедуры генерации множества правил REG для функциональной системы F = (G, RES, REG). Идея алгоритма состоит в том, чтобы шаг за шагом наращивать правила вида (1), начиная с правил, содержащих один переход в ситуацию — цель G, последовательно добавляя в правила новые переходы между ситуациями, которые определяются закономерностями вида (2). Для нахождения всех способов перехода между ситуациями используется другой алгоритм, основанный на идеях семантического вероятностного вывода, описанного в работах [2;4]. Последовательно применяя данный алгоритм для нахождения цепочек переходов между ситуациями, можно получить правила вида (2), определяющие различные способы достижения конечной цели G.
Сначала рассмотрим алгоритм, реализующий поиск закономерностей вида (2). Для удобства изложения будем через Pi € SURES обозначать предикаты из совокупности сенсорных предикатов S и предикатов-результатов RES.
Введем ряд формальных определений.
Определение 1. Подправилом правила R1 = Р},..., будем называть любое правило R2 = Pf,...,P^,,А
которого выполнено условие [Р^
3
Р?,...,Р?, для
РП С
,Р1 ,А}с[Р1
1
,А}.
р 1 р 1 А
*1 , ..., п, ^
Р 2 М ,
Pj2 будет яв-если оно удовлетворяет
Определение 2. Правило R ляться вероятностной закономерностью следующим условиям:
— Вероятность р(Р}, ...,РП,А) определена и р(Р}, ...,РП, А) > 0.
— Условная вероятность правила больше условной вероятности каждого из его подправил, т. е. У[Р3,..., Р^, А} С [Р}, ...,РП,, А},
р(Р2,...,Р12\р3,...,Р^,А) <р(Р2,...,Р?\Р1 ,...,Р1п,А)
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
75
Определение 3. Правило R2 = Р/,..., Р*, Рп+\, А ^ Р±,...,Р^ будем называть уточнением правила R\ = Р^,..., Р1, А ^ РД,..., РД, если оно получено добавлением в посылку правила Ri любого предиката Рп+\ € S U RES, не содержащегося в правиле Pi.
Алгоритм 1. Входными параметрами алгоритма являются целевая ситуация Р2,..., РД, правила перехода в которую мы хотим найти; множество предикатов S U RES U A и параметр глубины базового перебора d, где d > 1 — натуральное число.
— На первом шаге генерируем множество RUL\ всех правил единичной длины, имеющих следующий вид А% ^ РД,...,Р2, А% € A. Все правила RUL\ проходят проверку на выполнение условий принадлежности к закономерностям. Правила, прошедшие проверку, будут являться закономерностями. Обозначим через REG\ множество всех закономерностей, обнаруженных на первом шаге.
— На шаге k < d генерируется множество RUL^ = Spec(RULk-i) всех уточнений правил, сгенерированных на предыдущем шаге. Все правила из RUL^ проходят проверку на выполнение условий принадлежности к закономерностям. Обозначим через MREGk полученное множество закономерностей.
— На шаге I > d генерируется множество RULi = Spec(MREGi-{) уточнений всех закономерностей, обнаруженных на предыдущем шаге. Все правила из RULi проходят проверку на выполнение условий принадлежности к закономерностям. Обозначим MREGi — множество всех закономерностей, обнаруженных на данном шаге.
— Алгоритм останавливается на шаге т > d, когда не обнаружено новых закономерностей, MREGm = 0.
— Результирующее множеством закономерностей является объединение всех множеств обнаруженных закономерностей MREG = U MREGi.
i
Шаги алгоритма к < d соответствуют базовому перебору, а шаги к > d - дополнительному перебору.
Преимущества использования семантического вероятностного вывода заключается в том, что в результате мы получаем оптимальный набор закономерностей с минимальным описанием, которые максимально точно прогнозирует вероятность перехода в целевую ситуацию. Это позволяет избежать проблемы непомерного разрастания количества правил, описывающих модель среды, о которой упоминалось выше.
Прежде чем перейти к описанию алгоритма генерации правил вида (2), введем ряд определений.
Определение 4. Длиной правила R = Sit\,A\ ^ Sit2,А2 ^ ... ^ Sitm, Ат ^ G будем называть величину len(R) = т, равную количеству переходов между ситуациями.
76
А. В. ДЕМИН
Определение 5. Правило R = Siti,Ai у Sit2,A2 у ... у Sitm, Ат у G будем называть корректным, если для любого перехода Sit к, А у Sitk+i, входящего в правило R, если ситуация Sitk+i из заключения перехода содержит предикаты-результаты
Res(Gi),..., Res(Gd) Q Sitk+i,
то ситуация Sitk из посылки этого перехода также содержит эти предикаты-подцели Res(Gi),..., Res(Gd) Q Sitk и никакие другие.
Данное требование корректности фактически означает требование сохранения результатов достижения подцелей при переходах между ситуациями.
Определение 6. Правило R2 = Siti,Ai у Sit2,A2 у ... у Sitm, Ат у G будем называть уточнением правила Ri = Sit2,A2 у ... у S%tm, А-г^ у , если оно
— является корректным;
— получено добавлением в начало правила Ri перехода Siti,Ai у Sit2.
Определение 7. Корректное правило R2 = Sitk,Ak у ... у Sitm, Ат у G2 будем называть альтернативой корректного правила Ri = Sith, Ah у ... у Sitn, Ап у G1, если R2 = Ri, G2 = G1 и Sitk Q Sith.
То есть альтернативное правило — это другое правило, которое приводит к той же цели из той же либо более общей ситуации, что и первое правило, но другим образом (другой цепочкой переходов).
По аналогии с определением 3 введем для правил вида (2) определение закономерности.
Определение 8. Правило R = Siti,Ai у Sit2,A2 у ... у Sitm, Ат у G будем называть закономерностью, если оно:
— является корректным;
— условная вероятность этого правила больше условной вероятности любого другого альтернативного правила меньшей длины.
Обозначим через Discovery(Sit) вызов алгоритма 1 для обнаружения всех закономерностей перехода в ситуацию Sit. Алгоритм вернет множество всех обнаруженных закономерностей, которое будет обозначать через MREG(Sit): MREG(Sit) = Discovery(Sit).
Также введем функцию Estimate(R) расчета оценки условной вероятности правила R через условные вероятности переходов между ситуациями: если R = Siti,Ai у Sit2,A2 у ... у Sitm,Am у G, то Estimate(R) = p(Siti,Ai у Sit2) ■... ■ p(Sitm, Ат у G).
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
77
Алгоритм 2. Входными параметрами алгоритма являются цель G, правила достижения которой мы хотим обнаружить; множество предикатов S U RES U A и параметр глубины перебора d, где d > 1 -натуральное число.
— На первом шаге генерируем множество MREG1(G) = Discove-ry(G) всех закономерностей перехода в целевую ситуацию G. Затем для каждой закономерности MR = Sit, А ^ G, MR € MREG1(G), создаем правило R = Sit, А ^ G, содержащее один переход в целевую ситуацию. Для правила R вычисляем его условную вероятность p(R) = Estimate(R) и проверяем его на выполнение условий принадлежности к закономерностям. Обозначим через REG\ множество всех закономерностей, обнаруженных на первом шаге.
— На шаге к < d для каждой закономерности Ri € REGk-1, Ri = Sit\,i,A1ti ^ ... ^ Sitk,i,Ak,i ^ G, полученной на предыдущем шаге, выполняем:
• Генерируем множество MREGk,i(Sit1,i) = Discovery(Sit1,i) всех закономерностей перехода в ситуацию Sit1ti.
• для каждой закономерности MR = Sit, А ^ Sit1ti, MR € MREGje,i(Sit1,i), создаем правило R = Sit, А ^ Sit1ti,А\^ ^ ... ^ Sitk,i, Ak,i ^ G путем уточнения закономерности Ri за счет перехода MR. Для правила R вычисляем его условную вероятность p(R) = Estimate(R) и проверяем его на выполнение условий принадлежности к закономерностям. Обозначим через REGk,i множество всех закономерностей, полученных уточнением Ri переходами из МREGk,i(Sit1,i).
Обозначим через REGk = U REGk,i все закономерности, найден-
i
ные на шаге к.
— Алгоритм останавливается либо на шаге т = d, либо когда не обнаружено новых закономерностей, REGm = 0.
— Результирующее множеством закономерностей является объединение всех множеств обнаруженных закономерностей
REG = U REGi.
i
Таким образом, в результате выполнения алгоритма 2 мы одновременно получим и правила достижения цели вида (1), и модель среды, выраженную в виде набора правил вида (2).
5. Обнаружение подцелей
Общая идея обнаружения ситуаций-подцелей заключается в следующем: 1) сначала на основе исторических данных о действиях агента выделить основные цепочки переходов, приводящие его ранее к цели;
78
А. В. ДЕМИН
2) затем, перебирая различные комбинации признаков, описывающих ситуации, и оценивая степень изменения вероятности достижения цели при добавлении этих комбинаций в цепочки переходов, выделить те из них, которые значительно увеличивают вероятность, они и будут являться искомыми подцелями.
Перейдем к более детальному описанию.
Для выделения основных цепочек переходов, приводящих агента ранее к цели, можно использовать алгоритм 2, заменив в нем способ расчета оценки условной вероятности правил Estimate(R). Замена способа расчета необходима, поскольку Estimate(R) дает нам оценку вероятности достижения цели при условии использования правила. Сейчас же мы должны оценить, с какой вероятностью уже имеющиеся в прошлом цепочки действий приводили агента к цели. Для этого мы определим вероятность правил (1) классическим частотным методом:
p(R) = n(C,G)/n(C)
где п(С) - количество раз в истории, когда агент совершал цепочку переходов и действий С = Siti, Ai ^ Sit2, А2 ^ ... ^ Sitm, Ат, п(С, G) - количество раз, когда он после совершения этих действий попадал в цель G.
В остальном алгоритм остается таким же, поэтому повторять его нет смысла.
Обозначим через СН(G) множество правил-цепочек переходов, найденных данных алгоритмом.
Алгоритм 3. Входными параметрами алгоритма являются множество правил-цепочек переходов СН(G); множество сенсорных предикатов S, параметр глубины перебора d, где 1 < d < |S| — натуральное число и 5, 0 < 5 < 1 — порог увеличения вероятности.
— Инициализируем NG = 0 — множество найденных подцелей.
— Перебираем все комбинации {Si,..., S&},к < d,Si € S. Для каждой комбинации {Si, ...,Sk} генерируем предикат-цель G' = {Si, ...,Sk} и предикат-результат достижения этой цели Res(G'), выполняем:
• Для каждого правил-цепочек переходов Ri € СН(G),
Ri = Siti,Ai ^ Sit2,A2 ^ ... ^ Sitm,Am генерируем правило R'i = Siti U Res(Gf),Ai ^ Sit2 U Res(Gf),A2 ^ ... ^ SitmURes(G'), Am путем добавления в каждое описание ситуации каждого перехода из правила Ri предиката-результата Res(G').
• Если arg max (p(R'i) — p(Ri)) > 5, то добавляем G' в множество
i
подцелей NG := NG U G1.
— Возвращаем NG — искомое множеством подцелей.
Отметим, что алгоритм 3, помимо истинных подцелей, может вернуть и некоторое количество ложных «шумовых» подцелей, которые
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
79
случайным образом встречались в истории агента вместе с настоящими подцелями. Отфильтровать эти «шумовые» подцели можно, если проанализировать множество событий, когда была достигнута вышестоящая цель, при достижении подцелей. Для истинных подцелей это множество будет максимальным.
Таким образом, для каждой функциональной системы F = (G, RES, REG) при помощи описанного метода выявляются новые подцели. Для каждой обнаруженной подцели G' создается новая функциональная система F1 = (G', RES', REG'), находящаяся ниже по иерархии системы F и реализующая достижение этой подцели. Для вновь созданной функциональной системы F' при помощи алгоритма генерации правил порождается множество правил REG'. Для этого просматривается все множество данных истории агента и выявляются случаи, когда новая подцель G1 была достигнута в прошлом. У функциональной системы F множество предикатов-результатов RES обогащается еще одним предикатом Res(G'), а также генерируются новые правила. Тем самым, множество правил REG этой функциональной системы обогащаются правилами, содержащими новый результат Res(G').
6. Результаты экспериментов
Продемонстрируем работу модели системы управления на примере решения трехэтапной задачи фуражирования.
Изначально система управления агентом состояла только из одной функциональной системы, задачей которой являлось достижение главной цели G = (центр = еда-3) Л (поглощение), т. е. чтобы в центральной клетке находился объект «еда-3», и было совершено поглощение.
После старта эксперимента агент совершал 2000 случайных шагов, накапливая статистику функционирования, и после этого запускал процедуру обнаружения подцелей и генерации правил. Продемонстрируем работу процедуры извлечения подцелей на примере обнаружения подцели второго уровня G2 = (центр = еда-2) Л (поглощение).
Сначала алгоритм выделяет основные цепочки переходов, которые приводили агента к цели G = (центр = еда-3) Л (поглощение) в течение первых 2000 случайных шагов. Среди выявленных цепочек будет, к примеру, следующая:
R = (слева = еда-3), (налево) ^ (впереди = еда-3), (шаг) ^ G.
Вероятность этой цепочки будет небольшая, около 0.2.
Далее, согласно алгоритму 3, осуществляется перебор различных комбинаций сенсорных предикатов. В том числе в процессе перебора возникнет комбинация G2 = (центр = еда-2) Л (поглощение). Для этой комбинации будет создан предикат-результат Res(G2). Этот предикат
80
А. В. ДЕМИН
будет добавляться в различные цепочки, в том числе, и в правило R, которое примет вид:
(слева = еда-3), Res(G2), (налево) ^ (впереди = еда-3), Res(G2), (шаг) ^ G.
Вероятность этой цепочки будет уже 1.0. Если мы примем порог 5 = 0.5, то прирост вероятности будет больше порога, значит, G2 будет являться подцелью.
Аналогично будет обнаружена и подцель третьего уровня G3 = (центр = еда-3) Л (поглощение).
Результаты серии тестовых запусков показали, что предложенная модель успешно решает трехэтапную задачу, стабильно обнаруживая две неявные подцели. Система также показала высокую скорость обучения: оптимальное поведение достигалось уже через 2000 тактов работы.
7. Заключение
В данной работе предложен логико-вероятностный подход к построению адаптивных обучаемых систем управления. Основное отличие данного подхода от других моделей, в том числе предложенных нами ранее моделей [9-12], заключается в следующем.
1. В данном подходе в процесс обучения агента интегрирован механизм обучения модели среды, что позволяет строить пути достижения цели по принципу обратного вывода. Это возможность значительно увеличивает скорость обучения агента, поскольку таким образом могут генерироваться пути, которые не встречались системе ранее в процессе обучения.
2. Предложенные ранее логико-вероятностные модели [3; 11-13] могли работать только с подцелями, явно присутствующими в сенсорном поле (к примеру, в виде отдельного сенсора, говорящего, достигнута подцель или нет). Это существенно ограничивало применимость алгоритма обнаружения подцелей, поскольку система не могла выявлять и работать с неявными подцелями. В новой модели эта проблема была решена за счет разделения понятия «цель» на, собственно, «цель» как ситуацию, которую надо достичь, и «результат» как факт достижения цели. В результате новая модель получила способность выявлять неявные подцели и работать с ними.
3. В новой модели предложен метод обнаружения подцелей, способный эффективно обнаруживать неявные подцели, результаты достижения которых достаточно сильно разнесены по времени с моментом достижения конечной цели. Данные подцели можно назвать «глубокими». Проведенные эксперименты показали, что модель успешно справляется с обнаружением таких «глубоких» подцелей.
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
81
Список литературы
1. Анохин П. К. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций. М. : Наука, 1973. С. 5-61.
2. Витяев Е. Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов. Новосибирск : НГУ, 2006. 293 с.
3. Демин А. В., Витяев Е. Е. Логическая модель адаптивной системы управления // Нейроинформатика. 2008. Т. 3, № 1. С. 79-107.
4. Демин А.В., Витяев Е.Е. Реляционный подход к извлечению знаний и его применения // Материалы Всероссийской конференции с международным участием «Знания - Онтологии - Теории» (ЗОНТ-2013). Новосибирск, 2013. Т. 1. С. 122-130.
5. Al-Emran Mostafa. Hierarchical Reinforcement Learning: A Survey // IJCDS Journal. 2015. Vol. 4, N 2.P. 137-142. https://doi.org/10.12785/ijcds/040207
6. Dietterich T. G. Hierarchical reinforcement learning with the MAXQ value function decomposition // Journal of Artificial Intelligence Research/ 2000. Vol. 3. P. 227303. https://doi.org/10.1613/jair.639
7. Goodfellow Ian, Bengio Yoshua, Courville Aaron. Deep learning. The MIT Press,
2016. 800 p.
8. Human-level control through deep reinforcement learning / V. Mnih [et al.] // Nature. 2015. Vol. 518. P. 529-533. https://doi.org/10.1038/nature14236
9. Mastering the game of Go with deep neural networks and tree search / D. Silver [et al.] // Nature. 2016. Vol. 529. P. 484-489. https://doi.org/10.1038/nature16961
10. Sutton R. S., Barto A. G. Reinforcement Learning. London : MIT Press, 2012. 320 p.
11. Vityaev E. E., Demin A. V., Kolonin Y. A. Logical probabilistic biologically inspired cognitive architecture // Artificial General Intelligence - 13th International Conference, AGI 2020, Proceedings. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Springer Gabler, 2020. Vol. 12177 LNAI. P. 337-346. https://doi.org/10.1007/978-3-030-52152-3_36
12. Vityaev E. E., Demin A. V. Cognitive architecture based on the functional systems theory // Procedia Computer Science. Elsevier, 2018. Vol. 145. P. 623-628. https://doi.org/10.1016/j.procs.2018.11.072
13. Vityaev E. E., Demin A. V. Recursive subgoals discovery based on the Functional Systems Theory // Biologically Inspired Cognitive Architectures 2011. IOS Press, 2011. P. 425-430.
14. Zhou Zhi-Hua, Feng Ji. Deep Forest: Towards An Alternative to Deep
Neural Networks // Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17). 2017. P. 3553-3559.
https://doi.org/10.24963/ijcai.2017/497
15. Zhou Zhi-Hua, Feng Ji. Deep Forest // National Science Review. 2019. Vol. 6, N
1. P. 74-86. https://doi.org/10.1093/nsr/nwy108
Александр Викторович Демин, кандидат физико-математических наук, Институт систем информатики им. А. П. Ершова СО РАН, Российская Федерация, 630090, г. Новосибирск, просп. Лаврентьева, 6, тел.: (383)3306660, [email protected]
Поступила в редакцию 27.10.2021
82
А. В. ДЕМИН
Deep Learning of Adaptive Control Systems Based on a Logical-probabilistic Approach
A. V. Demin1
1 Ershov Institute of Informatics Systems SB RAS, Novosibirsk, Russian Federation
Abstract. The problem of automatic selection of subgoals is currently one of the most relevant in adaptive control problems, in particular, in Reinforcement Learning. This paper proposes a logical-probabilistic approach to the construction of adaptive learning control systems capable of detecting deep implicit subgoals. The approach uses the ideas of the neurophysiological Theory of functional systems to organize the control scheme, and logical-probabilistic methods of machine learning to train the rules of the system and identify subgoals. The efficiency of the proposed approach is demonstrated by an example of solving a three-stage foraging problem containing two nested implicit subgoals.
Keywords: control system, machine learning, knowledge discovery, reinforcement learning.
References
1. Anohin P.K. Fundamental questions of the general theory of functional systems. The principles of the systemic organization of functions. Moscow, Science Publ., 1973, pp. 5-61. (in Russian)
2. Vityaev E.E. Extracting Knowledge from Data. Computer Cognition. Models of Cognitive Processes. Novosibirsk, Novosibirsk State University Publ., 2006, 293 p. (in Russian)
3. Demin A.V., Vityaev E.E. A Logical Model of an Adaptive Control System. Neiroinformatika, 2008, vol. 3, no. 1, pp. 79-107. (in Russian)
4. Demin A.V., Vityaev E.E. Relational approach to knowledge discovery and its application. Materials of the All-Russian conference with international participation “Knowledge - Ontology - Theories” (KONT-2013). Novosibirsk, 2013, vol. 3, pp. 122-130. (in Russian).
5. Al-Emran Mostafa. Hierarchical Reinforcement Learning: A Survey. IJCDS Journal, 2015, vol. 4, no. 2, pp. 137-142. https://doi.org/10.12785/ijcds/040207
6. Dietterich T.G. Hierarchical reinforcement learning with the MAXQ value function decomposition. Journal of Artificial Intelligence Research, 2000, vol. 13, pp. 227-303. https://doi.org/10.1613/jair.639
7. Goodfellow Ian, Bengio Yoshua, and Courville Aaron. Deep learning. The MIT Press, 2016, 800 p.
8. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through
deep reinforcement learning. Nature, 2015, vol. 518, pp. 529-533.
https://doi.org/10.1038/nature14236
9. Silver D., Huang A., Maddison C. et al. Mastering the game of Go with
deep neural networks and tree search. Nature, 2016, vol. 529, pp. 484-489.
https://doi.org/10.1038/nature16961
10. Sutton R.S., Barto A.G. Reinforcement Learning. London, MIT Press, 2012, 320 p.
11. Vityaev E.E., Demin A.V., Kolonin Y.A. Logical probabilistic biologically
inspired cognitive architecture. Artificial General Intelligence - 13th International
Известия Иркутского государственного университета.
Серия «Математика». 2021. Т. 38. С. 65—83
ГЛУБОКОЕ ОБУЧЕНИЕ И ЛОГИКО-ВЕРОЯТНОСТНЫЙ ПОДХОД
83
Conference, AGI 2020, Proceedings. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Springer Gabler, 2020, vol. 12177 LNAI, pp. 337-346. https://doi.org/10.1007/978-3-030-52152-3_36
12. Vityaev E.E., Demin A.V. Cognitive architecture based on the functional systems theory. Procedia Computer Science, Elsevier, 2018, vol. 145, pp. 623-628. https://doi.org/10.1016/j.procs.2018.11.072
13. Vityaev E.E., Demin A.V. Recursive subgoals discovery based on the Functional Systems Theory. Biologically Inspired Cognitive Architectures, 2011, IOS Press, 2011, pp. 425-430.
14. Zhou Zhi-Hua and Feng Ji. Deep Forest: Towards An Alternative to Deep
Neural Networks. Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17), 2017, pp. 3553-3559.
https://doi.org/10.24963/ijcai.2017/497
15. Zhou Zhi-Hua and Feng Ji. Deep Forest. National Science Review, 2019, vol. 6, no.1, pp. 74-86. https://doi.org/10.1093/nsr/nwy108
Alexander Demin, Candidate of Sciences (Physics and Mathematics), Ershov Institute of Informatics Systems SB RAS, 6, Lavrentyev av., Novosibirsk, 630090, Russian Federation, tel.: +7 (383) 3306660, e-mail: [email protected]
Received 27.10.2021