МЕТОД ПОВТОРНОГО ПРИМЕНЕНИЯ И ОБМЕНА ОПЫТОМ ПРИ КОЛЛЕКТИВНОМ ВЗАИМОДЕЙСТВИИ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ

Дубенко Ю.В.

DOI 10.36622/VSTU.2022.18.1.007 УДК 004.021

МЕТОД ПОВТОРНОГО ПРИМЕНЕНИЯ И ОБМЕНА ОПЫТОМ ПРИ КОЛЛЕКТИВНОМ ВЗАИМОДЕЙСТВИИ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ

Ю.В. Дубенко

Кубанский государственный технологический университет, г. Краснодар, Россия

Аннотация: определены проблемы обмена и воспроизведения опыта, сгенерированного различными агентами, в задаче многоагентного обучения с подкреплением. Кратко рассмотрены другие работы автора статьи в области мно-гоагентного обучения с подкреплением многоагентных систем, а также выводы из этих работ. Определено, что к числу проблем многоагентного обучения с подкреплением относятся проблемы обмена и воспроизведения опыта, сгенерированного различными агентами. Рассмотрена централизованная многоагентная система, основанная на принципах обучения с подкреплением. Описаны виды агентов, которые включает данная система: агент-менеджер, обладающий мощным аппаратным обеспечением, осуществляющий управление группой агентов в рамках реализации обучения с подкреплением для централизованных многоагентных систем, и агент-подчинённый, предназначенный для непосредственного решения практических задач. Приведён стандартный алгоритм обмена опытом между агентами. Предложены решения проблемы приоритета применения опыта, полученного при решении задач различных типов, и проблемы адаптации и применения опыта, формализованного в виде макродействий. Показано, что применение макродействий может обеспечить меньшее время достижения состояния поставленной задачи - выхода агентами из лабиринта, по сравнению со стандартными алгоритмами. Разработана компьютерная модель в среде Unity для проверки эффективности предложенного метода повторного применения имеющегося опыта решения задач, формализованного в виде макродействий, приведены результаты применения этой модели. Представлен подход к «классификации опыта» для интеллектуальных агентов, согласно которому опыт интеллектуального агента может быть разделен на две группы -«элементарный опыт» и «ситуативный опыт»

Ключевые слова: иерархическое обучение с подкреплением, интеллектуальный агент, многоагентные системы, элементарный опыт, ситуативный опыт

Введение

Существует широкий спектр задач, для решения которых применяются многоагентные системы. Для большинства из них цели применения заключаются либо в добыче данных о внешней среде, либо в поддержании ее состояния в заданных пределах. Однако основные принципы и проблемы управления много-агентными системами во всех случаях остаются одинаковыми и заключаются в реализации поведенческих стратегий агентов. Среди решений, применяемых для реализации задач, могут быть отмечены методы, основанные на искусственных нейронных сетях, нечеткой логике, на деревьях решений, на графах. Однако их реализация существенно усложняется в условиях нестационарной, нечетко определенной внешней среды. Для большинства из перечисленных методов характерно применение обучения с учителем. Из этого следует необходимость в фиксации условий возникновения всех ситуаций, которые могут возникнуть в процессе функционирования интеллектуального агента, что практически невозможно, учи-

тывая обозначенные характеристики внешней среды. При этом можно составить перечень из ситуаций, возникновение которых наиболее вероятно. Однако такой подход сделает агента беспомощным в случае наступления событий, не вошедших в данный перечень, что может повлечь повреждение или даже гибель агента. При этом применение методов обучения без учителя также требует наличия некоторой выборки данных, которая будет использована для обучения. В качестве решения данной проблемы могли бы быть использованы методы, для которых в качестве учителя выступает непосредственно внешняя среда. Подобный подход получил название обучение с подкреплением. Подробно проблемы обучения с подкреплением рассматриваются в [1] и [2].

Подробный анализ данной предметной области был проведен ранее в следующих наших работах:

- в статье [3] выполнен анализ проблем многоагентного обучения с подкреплением, предложены пути их решения;

- в статье [4] рассмотрены основные проблемы иерархического обучения с подкреплением (основано на применении макродействий);

- в статье [5] выполнен системный анализ иерархической интеллектуальной многоагент-ной системы в общем виде, а также ее основной структурной единицы - интеллектуального агента, определены его основные подсистемы.

По результатам анализа, проведенного в [3-5], определено, что к числу проблем много-агентного обучения с подкреплением относятся проблемы обмена и воспроизведения опыта, сгенерированного различными агентами, а именно:

- проблема приоритета применения опыта, полученного при решении задач различных типов;

- проблема адаптации и применения опыта, формализованного в виде макродействий.

Материалы и методы

В статье рассматривается централизованная многоагентная система, описанная в [6], основанная на принципах обучения с подкреплением, включающая агентов следующих типов: агент-менеджер, агент-подчиненный:

1) Агент-менеджер - агент, обладающий, как правило, мощным аппаратным обеспечением (вычислительная и коммуникационная система, память), осуществляющий управление группой агентов в рамках реализации обучения с подкреплением для централизованных многоагентных систем. Выполняет следующие функции:

- декомпозиция задачи, полученной от ЛПР или агента-менеджера более высокого уровня иерархии, на отдельные подзадачи, включая формирование карт состояний и подкреплений, выбор стратегии взаимодействия между агентами (кооперация, конкуренция);

- распределение подзадач между агентами-подчиненными (т.е. агент-менеджер учится правильно распределять подзадачи между агентами-подчиненными);

- адаптация опыта других агентов-менеджеров и анализ собственного, используя методы обмена опытом между агентами и его повторного применения, а также метод сегментации макродействий;

- аккумуляция и анализ опыта, полученного агентами-подчиненными, включая сегментацию макродействий путем применения разработанного метода;

- распределение опыта между остальными агентами группы, при этом порядок рассылки устанавливается в зависимости от степени заинтересованности в нем конкретных агентов-

подчиненных (например, агенты, решающие в данный момент времени схожую задачу, получат опыт в первую очередь);

- аккумуляция и обработка визуальной информации, полученной от агентов (трехмерная реконструкция окружающей среды, интеллектуальный анализ трехмерных сцен);

- анализ результатов выполнения поставленных подзадач агентами-подчиненными, назначение им подкреплений.

2) Агент-подчиненный - агент, предназначенный для непосредственного решения практических задач (в т.ч. требующих специфического оборудования), выполняющий функции:

- в зависимости от степени централизации многоагентной системы: выполнение подзадачи, назначенной агентом-менеджером;

- сбор визуальных данных об окружающей среде и передача их агенту-менеджеру;

- выполнение трехмерной реконструкции окружающей среды, интеллектуального анализа трехмерных сцен, если это позволяют аппаратные характеристики агента;

- адаптация опыта, полученного другими агентами, транслированного агентом-менеджером;

- передача собственного опыта агенту-менеджеру для анализа и трансляции другим агентам.

При этом стандартный алгоритм обмена опытом между агентами а и р предполагает наличие следующих этапов [6]:

1. Формирование агентом а кортежа опыта в следующем формате:

{Ф,£,Т,С,т)а, (1)

где Ф = {фг,ф2, — - множество типов

выполняемых действий, для которых применим этот опыт, фм £ М; £ = {£s,£r} - тип опыта (£s - ситуативный, £г - рефлекторный); Т -описание задачи (подзадачи), во время решения которой был получен указанный опыт;

С = {Ст, Сs} - тип (или класс) агента, Ст -агент-менеджер, Cs - агент-подчинённый; т -траектория, которая привела к достижению агентом а некоторого целевого состояния Starget, при этом агент, находясь в момент времени t (i = 1, zN, tn £ М) в состоянии St, выполнил действие At и перешел в состояние St+1, за что получил подкрепление rt: z = {(S1,A1,r1),(S2,A2

(2)

При этом под типом выполняемых действий ф понимается набор некоторых опера-

ций О;, выполнение которых допускается при наличии у агента тех или иных аппаратных составляющих , например, если тип выполняемых действий - «перемещение по лестнице» - то робот должен обладать шагающей транспортной платформой, таким образом, ЧсрЭ {ог}л{е;}, где о1 = 1,ом, е] = 1.,ец, ок еМ, ем£ М.

2. Пересылка кортежа опыта (1) агенту р.

3. Получение агентом р кортежа опыта (1) и оценка его применимости (допустимо ли применение данного опыта для агента Р с точки зрения его аппаратных характеристик и типа, а также принесет ли его применение выигрыш агенту

4. Запись кортежа (1) в буфер опыта агента

Вр = {£"},

где Я" - кортежи опыта (1), а - агент, от которого получен кортеж опыта, t - момент времени, в который был получен кортеж опыта, £ = 1,Тд,, ты е М.

5. Адаптация и применение агентом р полученного опыта (за исключением макродействий).

Классификация опыта. Приоритет применения ситуативного и рефлекторного опыта

Для решения проблемы приоритета применения опыта, полученного при решении задач различных типов, предлагается использовать методику, рассматриваемую в данном подразделе.

По характеру применения опыт, получаемый агентами, может быть классифицирован следующим образом:

- «Элементарный (рефлекторный) опыт», связанный с обучением действиям, связанным с обеспечением безопасности агента (с целью недопущения его повреждения или выхода из строя).

- «Ситуативный опыт», получаемый во время решения задач, поставленных «агентом-менеджером» или централизованной системой управления.

Пусть а.1 - некоторый агент, а; е С, где б = (а1,а2, ...,аСм} - некоторая группа агентов, г = 1,6^, е М, Аы е М;

щ е с:сЗФс = {(р1,(р2, где с -

класс, к которому принадлежит агент а¿, Фс -множество типов действий, доступных для

выполнения агенту, принадлежащему к классу с, Ф,^ е М;

О = {0Х, 02, ..., 0Ом] - множество действий, доступных для выполнения агентом

аи Ок еАу Ок е м, к = Оы е М, (3) где А - множество примитивных действий, доступных для агента а¿,

А = {Аг,А2.....Аа„\Щ2 е <ркЛ(рк е Фс},

(4)

где ;2 = Ан е М,

М - множество макродействий, доступных для агента а¿,

м = {м1,М2.....ММм\ЧМк = [Ак\ЧАк е А]},

(5)

где 7з = 1, М,^еМ, и = 1,Аь, Аь е М, Аь < А„;

5 = (51,52, ...,5^} - множество состояний агента а¿, е М;

Я - множество функций подкреплений (вознаграждений),

« = .....(6)

где Ягх - функция расчета подкреплений в рамках решения ситуаций, связанных с обеспечением работоспособности агента а^ -функции расчета подкреплений при решении агентом аг некоторых задач , = 1,7^,

Г«еМ;

@ - множество Q-таблиц, содержащих опыт агента а^,

= .....(7)

где Qrx - Q-таблица, содержащая «рефлекторный опыт», Qтi - Q-таблицы, содержащие «ситуативный опыт», набранный в процессе решения некоторых задач .

Возможны ситуации, когда при достижении агентом а^ некоторого состояния е 5 в результате выполнения действия 0]-1 возникает противоречие, когда

R™(Sl2,Ok,SiJ<<Rsтtil(Sl2,Ok,Si2), (8) где 5(2 е 5 - состояние, в которое агент осуществил переход из состояния Б[ путем выполнения действия 0]-1, ¿2 = 1,5^. На рис. 1 приводится пример подобной ситуации, при этом Ягх = /(А), Я^ = /од, где - расстояние от агента а; до препятствия, - расстояние от агента а^ до целевого состояния

ЛагдеЬ

.

Рис. 1. Пример ситуации, описываемой условием (8)

На рис. 1 параметры Dt и Dt принимают следующие значения:

- Di = di, Dt = dt в случае нахождения агента в состоянии Sj2;

- Di = d'i, Dt = d't в случае нахождения агента а; в состоянии S{2.

Таким образом, агент at при переходе из состояния Si2 в состояние S[ путем выполнения действия Oj получит следующее подкрепление: Rrx < 0 (т.к. агент приблизился к препятствию на максимально близкое расстояние), Rf* > 0 (т.к. агент сократил расстояние

ntaraetx

до целевого состояния ).

1 ¡1

Таким образом, возникает необходимость в ранжировании функций, составляющих множество R, в зависимости от некоторой функции приоритета Р. Очевидно, что P(.Qrx) ^ шах, т.к. рефлекторный опыт необходим для обеспечения возможности распознавания таких состояний, переход в которые не несет выигрыша при решении основной задачи (например, если агент уперся в препятствие) либо риск повреждения или потери агента. То есть, в случае возникновения ситуации (8) необходимо учитывать только подкрепление Rrx. При этом, если достижение поставленной цели допускается «любой ценой», в т.ч. путем потери или повреждения агентов, тогда приоритетом обладает ситуативный опыт. Однако следует учитывать, что для подобного подхода характерны как дополнительные накладные расходы, так и существенный риск недостижения поставленной цели, поэтому его применение нежелательно и возможно лишь в исключительных случаях.

При определении приоритета Р для ситуативного опыта необходимо учитывать, получен ли опыт агентом самостоятельно или

в процессе коллективного взаимодействия с другими агентами.

Рассмотрим пример: пусть aSl:aSl £ G и aS2: aS2 £ G - агенты-подчиненные, принадлежащие к некоторой группе G, ат:ат £ G -агент-менеджер группы G. Рассмотрим несколько случаев:

1. Агент as самостоятельно выполняет поставленную задачу Т (например, обследование помещения) и на основании функции подкреплений получает ситуативный опыт, формализованный в Q-таблице Q?a .

2. Задача Т назначена для выполнения децентрализованной группе G. Используя опыт Q^ra , полученный ранее при выполнении задачи Т самостоятельно, агент достигает поставленной цели (некоторое состояние

ntaraetx ,

ST ), сформировав при этом траекторию

тг

TdcrT 1. При этом агент aS2 в рамках решения

гр, гtarget ,

задачи 1 достигает состояния Ьт , сформи-

as2 тт

ровав траекторию тЛсГт*. Для каждой траектории выставлены оценки p(jdcrTSl) и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

p(^dcrTS2), вычисленные на основании критериев (время выполнения поставленной задачи, затраченная энергия, оценка финансовых затрат, вероятность достижения поставленной цели), при этом

p(tdcraTSl) < p(^dcraTS2) (9)

Полученная групповая оценка эффективности принимает значение Pdcr(G).

Ситуация (9) возможна в случае, если начальное состояние Ь0 ^ агента aS2 является более выгодным, чем начальное состояние агента aSi - Ь0 L.

3. Задача Т назначена для выполнения централизованной группе G. Агент-менеджер ат осуществляет разбиение задачи Т на отдельные подзадачи sTt и sT2, для которых определены функции подкреплений и , которые транслирует агентам aSi и aS2. При выполнении подзадач sTt и sT2 полученный опыт формализуется в виде Q-таблиц и

. При этом для сформированных траекторий имеют место следующие условия:

+ "S1 Л ( < ^cr^ :^dcr^ ^ ^сг^ ЛP\УdcrJ ) <

p(rcraTSl), (10)

р(т"52). (11)

Полученная групповая оценка эффективности принимает значение

рсг(С):рсг(С) > р^ДС). (12)

Таким образом, опыт Qтta , полученный агентом а51 во время самостоятельного выполнения задачи Т, при групповых действиях может оказаться применимым лишь в том случае, если возможна его адаптация для выполнения подзадачи 5Тг. Следовательно,

РШгх)>Р&?Т1)>Р^а!!1). (13)

Метод повторного применения имеющегося опыта решения задач, формализованного в виде макродействий

Для решения проблемы адаптации и применения опыта, формализованного в виде макродействий, предлагается использовать метод, рассматриваемый далее.

Под примитивным действием понимается действие, удовлетворяющее условию

и Ф иуес иг, (14)

где б - некоторое множество индексов, иу -возможные блоки или части и. При этом для макродействий условие (14) не выполняется, следовательно т. = иуес ^у, ^у.Цу = [а} V иу = [щ, и2] V ... V иу = [щ, и2,..., иш}.

Таким образом, макродействие представляет собой некоторую последовательность связанных между собой примитивных действий, выполнение которой ведет к решению конкретной задачи. При этом для сегментации (выделения) макродействий может быть использован метод, описанный в [3].

Пусть МАСs = [Иl,.,ИN} - множество макродействий, хранящихся в буфере памяти Васб централизованной АСУ, сформированных множеством интеллектуальных агентов в результате как одиночного функционирования, так и группового взаимодействия. Для каждого макродействия ^ е МАС5 определены следующие множества: - множество инициализации макродействия ^; - Q-таблица макродействия щ, содержащая кортежи

<5,л,5',0|5е Б%ил(Б'еБ^^Б'е Б^^У (15)

где Q - значение Q-функции, полученное за выполнение перехода с помощью дей-

ствия А; Бт1агде(. - множество терминальных (целевых) состояний макродействия ^.

Пусть агенту а^ е С (б - некоторая группа агентов) поставлена задача

Т = (Тй,Та,Кд>,

(16)

где

УБ1 е Бт:Тй с Б1, (17)

где Бт - некоторое множество состояний, удовлетворяющих условию (17), являющихся целевыми для задачи Т. При этом агент а£ в текущий момент времени £ находится в состоянии . Соответственно, выполнение задачи Т предполагает прохождение траектории

^ ^ ^ ^ ^Г1 ^ ^ е Бт (18) на временном интервале [¿, т], где Б^. -начальное состояние агента а;, Б^1, ...,Ба~г -множество промежуточных состояний, -целевое состояние. Возможны следующие подходы к формированию траектории (18):

1. Выполнение переходов путем выполнения примитивных действий А с учетом значения Q-функции для множества (Б,А,Б'>. В случае, если задача Т ранее не решалась, достижение состояний е Бт возможно путем построения таблицы опыта Qal с нуля, т.к. имеющийся ситуативный опыт, полученный для решения иных задач, в данном случае неприменим.

2. Адаптация опыта , полученного при решении иных задач Тк, к = 1,...,Ы. Далее данный подход рассматривается более подробно.

Как уже ранее отмечалось, МАС5 - это множество макродействий, сформированных агентами а; при выполнении задач Тк. Для некоторого множества макродействий М = [Иа,Иь,Ис) может быть построен граф переходов в случае выполнения следующего условия:

Ма

Ма с ТагдеЬ ^In.it " ^ТагдеЬ

сБ^.^Б,

мь

Мь с ТагдеЬ ^In.it " ^ТагдеЬ

сБ^^Б,

°Iv.it) А

л

С*). (19)

Пример графа переходов для множества М приводится на рис. 2.

(5, (5, (5,

Мс

Мс с Тагде1 ^Ivit v ^Тагде1

" у сИа ЧТдгдв* /

1 Иь

1|| - СРЬ

! I1' а

.... {¡¡и /

-¡1 Е5ГЛУ; Е5)

Рис. 2. Граф переходов для множества макродействий

м =

На рис. 2 представлены следующие условные обозначения:

- - текущее состояние агента а;

- , ^пИ, - множества иниЦиализации макродействий ;

- ^ТагдеЬ, ^Тагдег, ^ТагдеЬ - множества терминальных состояний макродействий

Ма, Мс;

- - целевое состояние задачи Т, Б„ £ 5Т, где 5Т - множество целевых состояний задачи Т.

Таким образом, достижение состояний £ 5Т возможно путем последовательного выполнения макродействий ^ £ , для которых выполняется условие:

Описанная ситуация применима для случая, когда £ Б^^ Л Б*. £ Бт. В случаях, когда

£ БТагде1, (21)

то возможно формирование цепочки макродействий

< к, (22)

где ^ £ £ - расстояние

между состояниями

• (20)

Б^Т~£ Л ЧБ? £ Бт ^Тагдег п с ° >

(23)

которое в дальнейшем будет обозначаться как

у £ М. Соответственно, оставшийся путь

^ Бт_р ^----> Бт_а ^ Б? = Б?, где

т — а > т — Р, формируется путем реализации примитивных действий А;, в результате выполнения которых осуществляются переходы (Б?т~£,Ат_£,Бт_р>, ...,(Бт_а,Ат_а,Б1>. Рассматриваемая ситуация иллюстрируется на рис. 3.

На рис. 3 представлены следующие условные обозначения:

- Б{ - текущее состояние агента а (в момент получения задачи Г);

- ^, , Ит-е - макродействия, вызванные на временных интервалах Ь + ш, т — £;

- , ^£5^ - терминальные состояния макродействий ^, ;

- , Ат_а - примитивные действия, выполняемые для достижения целевого состояния Б! £ Бт;

- - состояние, в которое осуществляется переход из состояния путем выполнения примитивного действия Ат_$;

- Бт_р - одно из промежуточных состояний на траектории 5^т_£ ^ Б%_в ^ ••• ^

^ БI;

- Бт £ Бт - целевое состояние задачи Т;

- д.* - расстояние между состояниями

СТ

,•

л» е^;1

¿V

О - о

с^г-е с: С^г—е

с Targвt

о.—

■ А г

о-

^Г-Я

О

V

о

Рис. 3. Построение пути от терминального состояния макродействия до целевого состояния задачи Т

Ситуация, представленная на рис. 3, возможна и для промежуточных состояний траектории (18), возможный алгоритм действий в данной ситуации выглядит следующим образом:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Идентификация текущего состояния. Пусть - состояние, в котором оказался агент а в момент времени £ + ш, £ ^тогдеь, где £ - момент времени, в который агент а начал выполнение задачи Т, предполагающей достижение состояния £ Бт, ^тогдеь - множество терминальных состояний макродействия (активировано в момент времени £ + Бт - множество целевых состояний задачи Т. При этом £ Б^^Чу., т.е. из состояния не может быть запущено ни одно макродействие.

2. Формирование множества макродействий, доступных для активации в текущем состоянии. Определяется окрестность 0„с

радиусом г0 с центром в состоянии .

Формируется множество

М5Д(+Ш = {^к1^к:Б] £ Л Б] £ 5^},

1 1 (24)

если для окрестности Osдt+ы множество

= 0, (25)

то

Го.

ßt+ш

= (26)

т.е. радиус окрестности увеличивается на величину 5 е 1, при этом в случае выполнения условия (25) операция (26) будет осуществ-

ляться до тех пор, пока г0

ßt+w

< £, где £ е

Если множество M„ßt+u = 0 и в случае, когда

г0.

ßt+ш

= £, то достижение целевого состояния

задачи Т осуществляется путем выполнения множества примитивных действий

А = {At.....ANIAte {Sj^t+w,A1,St+v).....An е

(Sr-1,AN,Sr eST),t + u<t + y}. (27)

3. Поиск «ближайшего» макродействия. В случае если M„ßt+u Ф 0, то для активации выбирается макродействие

pi\ dt ^ min Ad(S?t+tü ,Sj е Sjxnit) ^ min, (28) где d„ - расстояние между состояниями , d(S?t+",Sj е S£it) - расстояние между текущим состоянием и множе-

ством состояний Sfnit, в которых может быть выполнена инициализация макродействия

4. Формирование цепочки примитивных действий для достижения состояния Sj е Sfnit, в котором может быть осуществлена активация макродействия Агент осуществляет переход от состояния к состоянию

Sk:Sk е S?nit А d(S?t+»,Sk) ^ min, (29) путем выполнения множества примитивных действий

А = {Аг.....Ац1Аг е ,A1,St+v).....An е

(St+P,AN,Sk),t + v<t + v<t + p}. (30) Итоговый алгоритм построения множества макродействий, выполнение которых позволяет достичь целевого состояния е ST, представлен на рис. 4 и 5. На рис. 4 состояние обозначено как Sa, окрестность Osßt+u> и

радиус r0 обозначены как О и г соответственно.

Рис. 4. Начало алгоритма применения уже имеющегося опыта решения иных задач, формализованного в виде макродействий, для решения текущей задачи Т

О

^ Конец ^

Рис. 5. Окончание алгоритма применения уже имеющегося опыта решения иных задач, формализованного в виде макродействий, для решения текущей задачи Т

После достижения целевого состояния Бк е Бт сформированная траектория

тт = .....е Бт} , (31)

транслируется в буфер памяти агента-менеджера, где И е [А, А - примитивное действие, ^ - макродействие.

Применение макродействий может обеспечить меньшее время достижения целевого состояния поставленной задачи в сравнении с решением ее «с нуля». В то же время нет гарантии, что сформированная траектория будет достаточно близка к оптимальной. В этой связи возможна реализация макродействий, основанных на применении состояний, включающих морфологическое описание пространства. На практике применение данного принципа заключается в следующем:

- пусть S0 - некоторое начальное состояние, S0 е I, Starget - некоторое целевое состояние,

Starget'-P{Starget)~1, (32)

где I - множество инициализации, fí - условие завершения некоторого макродействия т;

- S0eS, Starget е S, где S = {St} - некоторое множество состояний

Si'VSi3subS[ = (obj,rel), где subS1 - некоторое подсостояние состояния Si, subS^. с Si, obj - некоторый элемент окружающей среды, reí - связь элемента obj и агента a, i = l,SN, SNeM, j = 1,subSf, subSf е N;

- целевое состояние некоторой подзадачи subT:

Starget е VÍS(a) Л SU.bStarget = SU.bSsubY ,

(33)

где Vis(a) - область видимости агента а,

?nihSTarget е cTar3et ^UUJsubT c JsubT ■

В случае выполнения указанных выше условий макродействие m может быть преобразовано в макродействие т' с помощью неко-

f

торой функции f-m^m'. На практике функция /, например, может выполнять растяжение области I пропорционально расстоянию между

So и Star get.

Результаты

Проверка эффективности предложенного метода повторного применения имеющегося опыта решения задач, формализованного в виде макродействий, проводилась на примере решения задачи поиска интеллектуальными агентами выхода из лабиринта. Для сравнения был взят алгоритм обучения с подкреплением для централизованных многоагентных систем [6]. Для моделирования была использована среда Microsoft Unity. В качестве критерия оценки применялось время перемещения всех

агентов в состояние, соответствующее выходу из лабиринта. Для проведения испытаний было сгенерировано восемь карт различной размерности (15x15, 30x30, 45x45, 60x60, 75x75). Для каждой карты были сгенерированы сценарии, различающиеся количеством агентов, определяемым случайным образом в зависимости от размеров карты (для карты 15x15 - три агента, 30x30 - от трех до пяти, 60x60 - от трех до десяти, 75x75 - от трех до двенадцати), а также начальным положением агентов. При этом условная область покрытия коммуникационных систем агентов была ограничена семью ячейками (т.е. соответствует области 7x7). Пример применяемой карты размерности 15x15 представлен на рис. 6.

Рис. 6. Применяемая карта размерности 15 х 15

В разработанном ипйу-приложении также есть возможность получить вид от лица агента (рис. 7).

Рис. 7. Вид от лица агента

На рис. 7 также выделены границы препятствий, уже попадавших в область видимости агента.

Результаты, полученные в ходе выполнения эксперимента, иллюстрирует рис. 8, на котором представлена зависимость времени выхода трех агентов из лабиринта от номера итерации (попытки) для карты 75x75.

1300 1235 1170 1103 1040 973 910 843 730 715

mail_eema(f) -g-3» 455 Ш 325 260 195 130 63

maii(i)

\

—

Ж

\

■■■

•ш

-

_ J =

0 10 20 30 40 50 60 70 SO 90 100110520130140150160170Ш190200 Номер итерации

Рис. 8. Результаты эксперимента, проводимого для карты 75x75 и трех агентов

На рис. 8 приняты следующие условные обозначения: marl - алгоритм обучения с подкреплением для централизованных много-агентных систем [6], marl-eema - алгоритм обучения с подкреплением для централизованных многоагентных систем, в котором применялся предложенный метод повторного применения имеющегося опыта решения задач, формализованного в виде макродействий.

Как видно на рис. 8, уже к 50-й итерации многоагентная система, действующая согласно marl-eema, достигает результата в 325 с., при этом стандартный алгоритм marl достиг данного показателя по критерию времени лишь к 70- итерации. Преимущество marl-eema также сохраняется и к 100-й итерации (110 с. против 170 с., достигнутых marl). Показатели рассматриваемых алгоритмов сравнялись по критерию времени лишь 200-й итерации.

Полученные экспериментальные результаты свидетельствует о целесообразности применения разработанного метода обмена опытом в рамках алгоритмов многоагентного обучения с подкреплением [6].

Обсуждение

Таким образом, под классификацией опыта интеллектуального агента обозначим подход, согласно которому опыт интеллектуального агента может быть разделен на две основные группы - элементарный и ситуативный. При этом элементарный опыт является

базовым для агентов вне зависимости от конкретных практических задач, решаемых ими, т.к. предназначен для обеспечения их взаимодействия с окружающей средой с целью сохранения их целостности и работоспособности (например, опыт обхода препятствий относится к элементарному). Элементарный опыт обладает приоритетом по отношению к ситуативному опыту (опыт решения конкретных практических задач, например, поиск выхода из лабиринта) и занимает верхний уровень иерархии при такой классификации.

Как отмечалось выше, элементарный опыт является базовым для агента и предназначен для обработки ситуаций, в которых существует риск его повреждения или выхода из строя. Следовательно, опыт данного типа должен быть «врожденным» для агента, т.е. загружаться в его память на этапе сборки. Однако в процессе функционирования агента все же возможны ситуации (при этом вероятность их возникновения должна быть сведена к минимуму), которые не были ранее предусмотрены, т.е. агент не обладает опытом для их обработки. В этом случае агент может получить ущерб, возможно существенный, в результате которого он может выйти из строя, но при этом он может транслировать описание этой непредвиденной ситуации другим агентом, что позволит им избежать подобного сценария. Однако для того, чтобы другие агенты могли сделать правильные выводы из подобной ситуации, выполнить ее анализ, необходим набор специальных методов и алгоритмов, позволяющих одному агенту верно «расшифровать» опыт другого. Применение подобных методов также актуально и в случае с ситуативным опытом.

В известных примерах применения обучения с подкреплением для управления интеллектуальными агентами, как правило, используется множество примитивных действий, таких как «вперед», «назад» и т.д., а также применяется марковская модель (т.е. при выборе действия учитывается только текущее состояние). Пример использования марковской модели приведён в [7]. Подобный подход обладает следующими недостатками:

- низкая переносимость опыта, которая заключается в сложности применения накопленного опыта на разных объектах;

- большое время сходимости;

- сложность обработки ситуаций, когда выбор действия зависит также и от предыдущих состояний агента (не только от текущего).

Применение иерархического обучения с подкреплением (основано на применении макродействий) [8-10] могло бы устранить указанные недостатки, однако отсутствие механизма обмена опытом и адаптации макродействий для повторного применения снижало положительный эффект, который мог бы быть достигнут. Применение предложенного метода повторного применения имеющегося опыта решения задач, формализованного в виде макродействий в рамках алгоритма обучения с подкреплением для многоагентных систем, позволит получить выигрыш от внедрения иерархического обучения с подкреплением в полной мере.

Выводы

В работе представлен подход к «классификации опыта» для интеллектуальных агентов, согласно которому опыт интеллектуального агента может быть разделен на две группы -«элементарный опыт» и «ситуативный опыт». При этом «элементарный опыт» является базовым для агентов вне зависимости от конкретных практических задач, решаемых ими, т.к. предназначен для обеспечения их взаимодействия с окружающей средой с целью сохранения целостности и работоспособности агентов. «Элементарный опыт» обладает приоритетом по отношению к «ситуативному опыту». Также предложен метод повторного применения имеющегося опыта, отличающийся от аналогов возможностью формализации опыта в виде макродействий.

Литература

1. Саттон Р.С., Барто Э.Дж. Обучение с подкреплением: Введение. М.: ДМК Пресс, 2020. 552 с.

2. Рассел С., Норвиг П. Искусственный интеллект. Современный подход: пер. с англ. 2-е изд. М.: Вильямс, 2006. 1408 с.

3. Дубенко Ю.В. Аналитический обзор проблем многоагентного обучения с подкреплением // Вестник компьютерных и информационных технологий. 2020. Т. 17. № 6 (192). С. 48-56.

4. Дубенко Ю.В., Дышкант Е.Е., Гура Д.А. Анализ иерархического обучения с подкреплением для реализации поведенческих стратегий интеллектуальных агентов // Вестник компьютерных и информационных технологий. 2020. Т. 17. № 9 (195). С. 35-45.

5. Симанков В.С., Дубенко Ю.В. Системный анализ в иерархических интеллектуальных многоагентных системах // Вестник компьютерных и информационных технологий. 2021. Т. 18. № 3 (201). С. 33-46.

6. Foerster J.N. Deep multi-agent reinforcement learning [PhD thesis]. University of Oxford. 2018. URL: https://ora.ox.ac.uk/objects/uuid:a55621b3-53c0-4e1b-ad1c-92438b57ffa4

7. Hierarchical Reinforcement Learning for Robot Navigation using the Intelligent Space Concept /L.A. Jeni et al. // 11th Intern. Conf. on Intelligent Engineering Systems. Budapest, Hungary, 2007. P. 149 - 153. DOI: 10.1109/INES.2007.4283689

8. Еремеев А.П., Подогов И.Ю. Обобщенный метод иерархического подкрепленного обучения для интеллектуальных систем поддержки принятия решений // Программные продукты и системы. 2008. № 2. С. 35-39.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Ahilan S., Dayan P. Feudal Multi-Agent Hierarchies for Cooperative Reinforcement Learning // Proc. of the Workshop on Structure & Priors in Reinforcement Learning (SPiRL 2019) at ICLR 2019. New Orleans, LA, USA, 2019. May 06. P. 1 - 11.

10. Hierarchical Deep Multiagent Reinforcement Learning with Temporal Abstraction / H. Tang et al. 2018. URL: https://arxiv.org/abs/1809.09332

Поступила 10.12.2021; принята к публикации 21.02.2022 Информация об авторах

Дубенко Юрий Владимирович - канд. техн. наук, доцент кафедры информатики и вычислительной техники, Кубанский государственный технологический университет (350072, Россия, г. Краснодар, ул. Московская, 2), е-таД: scorpion-cool1@yandex.ru, тел. +7-918-675-4251, ORCГО: https://orcid.org/0000-0003-3205-994X

METHOD OF REUSE AND EXCHANGE OF EXPERIENCE IN THE COLLECTIVE INTERACTION OF INTELLIGENT AGENTS

Yu.V. Dubenko Kuban State Technological University, Krasnodar, Russia

Abstract: i determined the problems of exchange and reproduction of experience generated by different agents in the problem of multi-agent reinforcement learning. I briefly considered my other works in the field of multi-agent reinforcement learning and multi-agent systems, as well as conclusions from these works. I determined that among the problems of multiagent reinforcement learning are the problems of exchange and reproduction of experience generated by different agents. Here I considered a centralized multi-agent system based on the principles of reinforcement learning and described the types of agents that this system includes: an agent-manager with powerful hardware that manages a group of agents as part of the im-

plementation of reinforcement learning for centralized multi-agent systems, and a subordinate agent designed to directly solve practical problems. I give a standard algorithm for the exchange of experience between agents and propose solutions to the problem of the priority of applying experience gained in solving problems of various types and the problem of adapting and applying experience formalized in the form of macro-actions. I show that the use of macro-actions can provide a shorter time to reach the state of the task of exiting the labyrinth by agents compared to standard algorithms. I developed a computer model in the Unity environment to test the effectiveness of the proposed method of re-applying the existing experience in solving problems, formalized in the form of macro-actions, and presented the results of applying this model and an approach to the "classification of experience" for intelligent agents, according to which the experience of an intelligent agent can be divided into two groups - "elementary experience" and "situational experience"

Key words: hierarchical reinforcement learning, intelligent agent, multi-agent systems, elementary experience, situation-al experience

References

1. Sutton R.S., Barto E.J. "Reinforcement learning: an introduction", Moscow: DMK Press, 2020, 552 p.

2. Rassel S., Norvig P. "Artificial Intelligence. Modern approach", Moscow: Vil'yams, 2006, 1408 p.

3. Dubenko Yu.V. "Analytical review of the problems of multi-agent reinforcement learning", Bulletin of Computer and Information Technologies (Vestnik komp'yuternykh i informatsionnykh tekhnologiy), 2020, vol. 17, no. 6 (192), pp. 48-56.

4. Dubenko Yu.V., Dyshkant E.E., Gura D.A. "Analysis of hierarchical reinforcement learning for the implementation of behavioral strategies of intelligent agents", Bulletin of Computer and Information Technologies (Vestnik komp'yuternykh i informatsionnykh tekhnologiy), 2020, vol. 17, no. 9 (195), pp. 35-45.

5. Simankov V.S., Dubenko Yu.V. "System analysis in hierarchical intelligent multi-agent systems", Bulletin of Computer and Information Technologies (Vestnik komp'yuternykh i informatsionnykh tekhnologiy), 2021, vol. 18, no. 3 (201), pp. 33-46.

6. Foerster J.N. "Deep multi-agent reinforcement learning", PhD thesis, University of Oxford, 2018, available at: https://ora.ox.ac.ukyobjects/uuid:a55621b3-53c0-4e1b-ad1c-92438b57ffa4

7. Jeni L.A. et al. "Hierarchical reinforcement learning for robot navigation using the intelligent space concept", 11th Intern. Conf. on Intelligent Engineering Systems, Budapest, Hungary, 2007, pp. 149-153, DOI: 10.1109/INES.2007.4283689

8. Eremeev A. P., Podogov I. Yu. "A generalized method of hierarchical reinforced learning for intelligent decision support systems", Software Products and Systems (Programmnye produkty i sistemy), 2008, no. 2, pp. 35-39

9. Ahilan S., Dayan P. "Feudal multi-agent hierarchies for cooperative reinforcement learning", Proc. of the Workshop on Structure & Priors in Reinforcement Learning (SPiRL 2019) at ICLR 2019, 2019, New Orleans, LA, USA, pp. 1-11.

10. Tang H. et al. "Hierarchical deep multiagent reinforcement learning with temporal abstraction", 2018, available at: https://arxiv.org/abs/1809.09332.

Submitted 10.12.2021; revised 21.02.2022 Information about the author

Yuriy V. Dubenko, Cand. Sc. (Technical), Associate Professor, Kuban State Technological University (2 Moskovskaya str., Krasnodar 350072, Russia), e-mail: scorpioncool1@yandex.ru, tel.: +7-918-675-4251

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дубенко Ю.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дубенко Ю.В.

METHOD OF REUSE AND EXCHANGE OF EXPERIENCE IN THE COLLECTIVE INTERACTION OF INTELLIGENT AGENTS

Текст научной работы на тему «МЕТОД ПОВТОРНОГО ПРИМЕНЕНИЯ И ОБМЕНА ОПЫТОМ ПРИ КОЛЛЕКТИВНОМ ВЗАИМОДЕЙСТВИИ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ»