Научная статья на тему 'АЛГОРИТМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ ДЛЯ ДЕЦЕНТРАЛИЗОВАННЫХ МНОГОАГЕНТНЫХ СИСТЕМ, ОСНОВАННЫЙ НА ОБМЕНЕ ОПЫТОМ И ОБУЧЕНИИ АГЕНТОВ СЛУЧАЙНОМУ ВЗАИМОДЕЙСТВИЮ'

АЛГОРИТМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ ДЛЯ ДЕЦЕНТРАЛИЗОВАННЫХ МНОГОАГЕНТНЫХ СИСТЕМ, ОСНОВАННЫЙ НА ОБМЕНЕ ОПЫТОМ И ОБУЧЕНИИ АГЕНТОВ СЛУЧАЙНОМУ ВЗАИМОДЕЙСТВИЮ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
161
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ / МНОГОАГЕНТНЫЕ СИСТЕМЫ / СЛУЧАЙНОЕ ВЗАИМОДЕЙСТВИЕ / АГЕНТЫ-ЛИДЕРЫ / АГЕНТЫ-ПОДЧИНЁННЫЕ / ЛАБИРИНТЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дубенко Ю.В., Рудешко Н.А.

Представлен разработанный новый алгоритм обучения с подкреплением для децентрализованных многоагентных систем, основанный на обмене опытом и обучении агентов случайному взаимодействию. Определены основные проблемы многоагентного обучения с подкреплением. Описан класс децентрализованных многоагентных систем, основанных на случайном взаимодействии агентов, которое приводит к возникновению интеллектуального глобального поведения, не контролируемого отдельными агентами. Определена актуальная задача для децентрализованных систем, реализованных на основе парадигмы обучения с подкреплением. Указано, что конечная цель обучения взаимодействию между собой - максимизация среднего подкрепления. Предложены алгоритмы, применение которых ведёт к достижению этой цели, такие как алгоритм обучения агентов случайному взаимодействию, а также алгоритм формирования подгрупп агентов-подчиненных на основе «области видимости» агента-лидера. Для проверки эффективности предложенного алгоритма обучения с подкреплением для децентрализованных многоагентных систем, основанного на обмене опытом и обучении агентов случайному взаимодействию, была выбрана задача поиска агентами выхода из лабиринта. Приведены результаты выполнения алгоритма на модели, разработанной в среде Microsoft Unity. От имеющихся аналогов алгоритм отличается применением способа формирования подгрупп агентов-подчиненных на основании «области видимости» агента-лидера с целью снижения размерности «информационных сообщений» и с учетом аппаратной составляющей агента при реализации обмена опытом

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REINFORCEMENT LEARNING ALGORITHM FOR DECENTRALIZED MULTI-AGENT SYSTEMS BASED ON EXCHANGE OF EXPERIENCE AND TRAINING OF AGENTS IN RANDOM INTERACTION

Here we present the developed new reinforcement learning algorithm for decentralized multi-agent systems based on the exchange of experience and training agents for random interaction. We listed the main problems of multi-agent reinforcement learning. We described a class of decentralized multi-agent systems based on random interaction of agents, which leads to the emergence of intelligent global behavior not controlled by individual agents. We defined an urgent task for decentralized systems implemented on the basis of the reinforcement learning paradigm. We indicated that the ultimate goal of learning to interact with each other is to maximize the average reinforcement. We proposed algorithms, the application of which leads to the achievement of this goal, such as the algorithm for training agents in random interaction, as well as the algorithm for forming subgroups of subordinate agents based on the “visibility area” of the leader agent. To test the effectiveness of the proposed reinforcement learning algorithm for decentralized multi-agent systems, based on the exchange of experience and training agents for random interaction, we chose the task of finding agents to exit the maze. We presented the results of the algorithm execution on a model developed in the Microsoft Unity environment. The algorithm differs from the existing analogs by using the method of forming subgroups of subordinate agents based on the “visibility area” of the leader agent in order to reduce the dimension of “information messages” and taking into account the agent’s hardware component when implementing the exchange of experience

Текст научной работы на тему «АЛГОРИТМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ ДЛЯ ДЕЦЕНТРАЛИЗОВАННЫХ МНОГОАГЕНТНЫХ СИСТЕМ, ОСНОВАННЫЙ НА ОБМЕНЕ ОПЫТОМ И ОБУЧЕНИИ АГЕНТОВ СЛУЧАЙНОМУ ВЗАИМОДЕЙСТВИЮ»

DOI 10.36622/VSTU.2022.18.4.004 УДК 004.021

АЛГОРИТМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ ДЛЯ ДЕЦЕНТРАЛИЗОВАННЫХ МНОГОАГЕНТНЫХ СИСТЕМ, ОСНОВАННЫЙ НА ОБМЕНЕ ОПЫТОМ И ОБУЧЕНИИ АГЕНТОВ СЛУЧАЙНОМУ ВЗАИМОДЕЙСТВИЮ

Ю.В. Дубенко, Н.А. Рудешко Кубанский государственный технологический университет, г. Краснодар, Россия

Аннотация: представлен разработанный новый алгоритм обучения с подкреплением для децентрализованных многоагентных систем, основанный на обмене опытом и обучении агентов случайному взаимодействию. Определены основные проблемы многоагентного обучения с подкреплением. Описан класс децентрализованных многоагентных систем, основанных на случайном взаимодействии агентов, которое приводит к возникновению интеллектуального глобального поведения, не контролируемого отдельными агентами. Определена актуальная задача для децентрализованных систем, реализованных на основе парадигмы обучения с подкреплением. Указано, что конечная цель обучения взаимодействию между собой - максимизация среднего подкрепления. Предложены алгоритмы, применение которых ведёт к достижению этой цели, такие как алгоритм обучения агентов случайному взаимодействию, а также алгоритм формирования подгрупп агентов-подчиненных на основе «области видимости» агента-лидера. Для проверки эффективности предложенного алгоритма обучения с подкреплением для децентрализованных многоагентных систем, основанного на обмене опытом и обучении агентов случайному взаимодействию, была выбрана задача поиска агентами выхода из лабиринта. Приведены результаты выполнения алгоритма на модели, разработанной в среде Microsoft Unity. От имеющихся аналогов алгоритм отличается применением способа формирования подгрупп агентов-подчиненных на основании «области видимости» агента-лидера с целью снижения размерности «информационных сообщений» и с учетом аппаратной составляющей агента при реализации обмена опытом

Ключевые слова: обучение с подкреплением, многоагентные системы, случайное взаимодействие, агенты-лидеры, агенты-подчинённые, лабиринты

Введение

Существует класс задач, при решении которых лучших результатов возможно добиться путем применения организованной группы агентов - многоагентной системы. При этом одним из перспективных вариантов реализации поведенческих стратегий отдельных агентов является применение методов и алгоритмов парадигмы обучения с подкреплением. В данном случае на первый план выходит задача обеспечения координации между агентами в рамках выбранной парадигмы. Подробный анализ данной предметной области был проведен ранее в следующих наших работах:

- в статье [1] выполнен анализ проблем многоагентного обучения с подкреплением, предложены пути их решения;

- в статье [2] рассмотрены основные проблемы иерархического обучения с подкреплением;

- в статье [3] выполнен системный анализ иерархической интеллектуальной многоагент-ной системы в общем виде, а также ее основной структурной единицы - интеллектуального агента, определены его основные подсистемы.

По результатам анализа, проведенного в [1-3], определено, что к числу проблем много-агентного обучения с подкреплением относятся:

1. Проблема нестационарности внешней среды, возникающей вследствие действий других агентов.

2. Проблема экспоненциального роста количества возможных комбинаций совместных действий с увеличением количества агентов.

3. Проблема обмена и воспроизведения опыта, сгенерированного различными агентами.

В данной статье рассматриваются методы и алгоритмы, направленные на решение обозначенных проблем в децентрализованных многоагентных системах.

Исходный алгоритм

Существует класс децентрализованных многоагентных систем, основанных на «случайном взаимодействии агентов, которое приводит к возникновению интеллектуального глобального поведения, не контролируемого отдельными агентами» [4]. При этом архитектура отдельных интеллектуальных агентов, как правило, является технически не сложной,

© Дубенко Ю.В., Рудешко Н.А., 2022

благодаря чему возможно выполнение агентами лишь примитивных действий.

Пусть G = [а1, ...,aaN] - некоторая группа, состоящая из N гетерогенных равноправных агентов, сформированная для решения некоторой задачи Т, поставленной ЛПР, aN £ N. При этом каждый агент способен к выполнению некоторого набора примитивных действий А = {А1,А2, ...,AAn] (AN - число примитивных действий, допустимых к выполнению агентами группы G, AN £ N), реализация которых может привести к осуществлению перехода Sa ^ Бь (где Sa, Sb - некоторые состояния, Sa £ S, Sb £ S, S - множество допустимых состояний агентов £ G, i = 1,aN), за который агенту будет назначено подкрепление г £ [-1,1], на основании которого может быть вычислена величина ценности действия Q{Sa,A[5]. Однако в системах подобного рода величина подкрепления, полученного на некотором временном промежутке t подкрепления одним агентом, например, а1 £ G, может находиться в зависимости от величины подкрепления другого агента, а2, т.е. в этом случае r^ ^ min, ^ max. Таким образом, максимизация подкрепления агентом а2 выполняется за счет агента а1 против его воли (как следствие проблемы нестационарности внешней среды, возникающей в результате действий других агентов), при этом не факт, что в данном случае среднее подкрепление, полученное агентами группы G на временном промежутке t (г£), является максимальным. Таким образом, актуальной задачей для децентрализованных систем, реализованных на основе парадигмы обучения с подкреплением, является обучение агентов взаимодействию между собой, конечной целью которого является максимизация среднего подкрепления, т.е. rc ^ max. В данной работе предлагаются алгоритмы, применение которых ведет к достижению этой цели.

Алгоритм обучения агентов «случайному взаимодействию»

Реализация обучения «случайному взаимодействию» для группы G может сводиться к выполнению следующего алгоритма:

1. Идентификация агентами своих текущих состояний S"1, определение действий А"1, при этом

V^'3p(C) = £, i = 1.....N, £ £ (0,1), (1)

где р - вероятность того, что будет выбрано действие, для которого выполняется условие С = Q(s"l,A"l) ^ тах.

2. Формирование агентами а^ £ б «информационных сообщений» М"1 следующего вида:

М? = {Б^Аи.г^Б^АЧ), (2) где - состояние, в котором находился

агент а на предыдущем шаге в момент времени £ — 1; А"-1 - действие, которое агент а выбрал, находясь в состоянии - подкрепление, которое агент а получил за выполнение перехода ); Б" - состояние, в котором агент а находится в текущий момент времени А" - действие, которое агент а выберет, находясь в состоянии , в соответствии с текущей политикой.

3. Обмен «информационными сообщениями» М"1 между агентами а^ £ б.

4. Каждый агент а^ £ С осуществляет следующие действия:

- выполнение Уа^ случайной выборки из и^Т^м"7' (а;- £ в, ау Ф аг) множества данных

D

м.

Па1:Па1 с иУ-ТМ/Л М(' У-1 t

[1, [и^Т^м"7!], содержащих информацию о текущем состоянии и намерениях других агентов группы б (агенты ау);

- формирование «дополненных» состояний =

- выполнение действия А"1, для которого выполняется условие (2) (при этом в С вместо Б"1 подставляется Б"1 ), в случае, если У(Б*1', А"1): Q (б"1' ,Аа^ = у (т.е. для всех пар

(51"' ,А"1) @-функции принимают значения по умолчанию), действие А"1 выбирается случайным образом, где у £ М;

- формирование подкреплений г а1' <ц <ц за выполненные пары «состояние-

действие» (Б"1 ,А"');

- вычисление Q согласно [5].

Представленный выше алгоритм обладает недостатком, который заключается в зависимости размерности множества характеристик

состояния Б"1 от - чем больше мощность группы б, тем больше размерность множества , содержимое которого необходимо учитывать агентам при выборе действий Аг1.

Далее предложим основные варианты устранения представленного недостатка.

Снижение размерности «информационных

сообщений» с помощью алгоритма формирования подгрупп агентов-подчиненных на основе «области видимости» агента-лидера

Для устранения первого недостатка (зависимость размерности множества характеристик состояния агента от количества полученных «информационных сообщений» формата (1) от иных агентов группы (т.е. чем меньше агентов в группе, тем меньше размерность «информационного сообщения»)) может быть осуществлено разбиение группы G на отдельные подгруппы sGa. с G на основании некоторой функции ffrag(G), для реализации которого в искусственных многоагентных системах может быть использовано ранее понятие «области видимости» агента [6]. Исходя из этого, принцип построения подгрупп sGa. с G может заключаться в выполнении каждым агентом ai £ G следующих действий [6]:

1. Пусть G - группа агентов, G = {а¿}, где ai - некоторый интеллектуальный агент, i = 1, aN, aN £ M. Для Va; £ G выполняется расчет оценок р^. = /(p^f, Ра") (оценка аппаратных характеристик агента), где

а) p£f = /(pS-,Pa^Pa;) - оценка аппаратных характеристик интеллектуального агента:

- оценка вычислительной системы (учитываются вычислительные возможности центрального и графического процессоров, объем оперативной и постоянной памяти, мощность коммуникационного оборудования); р^ -оценка транспортной платформы (максимальная скорость, ускорение); - оценка объема энергозатрат при различных режимах работы вычислительной системы и транспортной платформы;

б) Pa" - оценка текущего состояния интеллектуального агента (объем заряда аккумуляторной батареи).

2. Для Vai £ G выполняется расчет оценок = f(pai,lVis(ai)\) (оценка характеристик

агента как потенциального лидера группы), где \yis(ai)\ - количество других агентов, находящихся в области видимости агента а¿.

3. Во множество Ам (множество агентов-лидеров, при этом под агентом-лидером понимается исключительно агент, вокруг которого формируется подгруппа, не обладающий при этом никакими дополнительными полномочиями в сравнении с другими агентами) добав-

ляются агенты а^.р^- > 9, где 0 £ ЕЛб = const.

4. Для Va; £ Ам формируются множества Еа. = Visfai).

5. Выполняется ранжирование элементов множества Ам по значению р^.

6. Из множества Ам выбираются агенты

ai'-Pcci ^ шах Л

Eai П U^"1 (Ва

\а; £

А

М,

^ min, (3)

где j = l,aN — 1, aN £ N. Достижение условия (3) возможно путем выполнения следующих действий:

- выбор at£ Ам, выбор a.j £ Еа.;

- если выполняется условие aj £ Ам Л Еа. с Uaj1^[1Eaj Л aj Ф аь, то Ам = Ам\аь (из множества Ам исключается агент аг), А^ = Ам + at, где А^ - множество резервных агентов-лидеров (данный этап необходим для формирования множества «свободных» агентов, которые в дальнейшем будут назначены агентами-лидерами более высокого уровня иерархии);

- если выполняется условие aj & Ам Л а^ £ Еа Л |а| > 1 Л min(Da.) Ф d, где а -множество агентов, в области видимости которых находится агент aj (включая а{), а с

Ам, min(Da.) Ф d- расстояние между at и

а;

Daj = ВД,

то

Еа. = Ea.\aj (из множества Еа. исключается агент aj );

- Va; £ Ам на основании множества Еа. формируется подгруппа sGa..

7. Если агент а^: aj £ А^ Л aj £ Еа, то он добавляется в подгруппу sGa в качестве аген-та-подчиненного путем выполнения множества действий, обозначенных в рамках этапа 6.

8. Агенты ai £ G Л ai & sGa записываются во множество Gwm и передаются в подчинение непосредственно ЛПР.

Блок-схема алгоритма формирования подгрупп на основе «области видимости» агента-лидера представлена на рис. 1.

Рассмотренный принцип формирования подгрупп на основании «областей видимости» агентов также поясняется на рис. 2.

Замечание: рассмотренный принцип разбиения группы агентов G на подгруппы sGi для децентрализованных многоагентных систем применяется лишь с целью снижения размерности «информационных сообщений», а агенты-лидеры исполняют исключительно

роль «центров», вокруг которых осуществляется формирование этих подгрупп.

Рис. 1. Блок-схема алгоритма формирования подгрупп на основе «области видимости» агента-лидера

Рис. 2. Пояснение принципа формирования подгрупп на основе «областей видимости» агентов

Для определения максимального количества агентов в подгруппе используется следу-

ющее соотношение tresponse < т, где tresponse - среднее время отклика агента-лидера на запрос (в мс), предполагающий назначение подкрепления агенту-подчиненному, а также новой tresponse =

f(PCM,P<M,PCM,IVis(M)l), РСМ - оценка характеристик вычислительной системы агента-лидера М, р1^ - оценка объема энергозатрат при различных режимах работы вычислительной системы, р^ - оценка производительности системы связи, Vis(M) - количество других агентов, находящихся в области видимости агента-лидера; т - некоторое пороговое значение, т £ М.

Обозначенный подход к реализации интеллектуальных многоагентных систем обладает следующими преимуществами: повышение эффективности управления большим числом агентов за счет иерархической структуры, позволяющим выполнить распределение вычислительных мощностей агентов-лидеров; снижение стоимости реализации системы за счет снижения множества выполняемых функций и упрощение комплектации агентов-подчиненных; в структуру системы могут входить подгруппы агентов с различной степенью централизации; снижение риска потери информации за счет использования агентов-лидеров в качестве хранилищ; в случае потери связи с ЛПР либо с агентом-лидером высшего уровня иерархии подгруппы агентов могут продолжить работу в автономном режиме.

Реализация обмена опытом в децентрализованных многоагентных системах

Синхронность действий в природных системах роевого интеллекта достигается в т.ч. путем повторения успешных действий соседей, которое может быть осуществлено путем выполнения «алгоритма обмена опытом в децентрализованных многоагентных системах»:

1. Агент a.i, находясь в состоянии St, выполняет действие At, в результате которого переходит в состояние St+1, получая за это положительное подкрепление rSt|^t|St+i.

2. Агент a.i загружает «кортеж опыта»

= (St

в свой буфер опыта Ва..

3. Агент a.i транслирует кортеж Еха. агентам a.j £ sGa., которые загружают его в собственные «буферы опыта» Ва..

4. Агенты aj £ sGa. транслируют кортежи (124) агентам ак £ sGa. и т.д.

5. В случае достижения агентом ак состояния St, он может применить действие At для получения максимального подкрепления (в случае если rSt|^t|St+1 > 0).

При реализации обозначенного алгоритма необходимо учитывать, что в кортежах опыта (4) содержатся данные о возможном подкреплении, необходимо определить, как эти сведения могут учитываться при реализации Q-обучения. В этом случае кортежи (4) могут быть модифицированы следующим образом:

Exat = QiSt'At'St+l)) (5)

Замечание: агент aj может применить кортеж опыта Еха., полученный от агента а¿, только в том случае, если А"1. А"1 £ А^ Л А^ £ фЛф£ФсЛа]£с, где с - класс агента ; Фс - множество типов обязанностей или действий, доступных для выполнения агенту, принадлежащему к классу с; ф - тип выполняемых действий, которому соответствует множество примитивных действий А^.

Более подробно используемый принцип реализации обмена опытом между агентами изложен в [6].

В итоге может быть сформирован новый «алгоритм обучения с подкреплением для децентрализованных многоагентных систем, основанный на обмене опытом и обучении агентов случайному взаимодействию», предусматривающий выполнение следующих этапов:

1. Разбиение агентов на подгруппы в соответствии с «алгоритмом формирования подгрупп на основе «области видимости» агента-лидера».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Обучение агентов «случайному взаимодействию» в соответствии с предложенным алгоритмом.

3. Применение в процессе функционирования системы алгоритма обмена опытом в децентрализованных многоагентных системах.

Эксперимент

Для проверки эффективности предложенного алгоритма обучения с подкреплением для децентрализованных многоагентных систем, основанного на обмене опытом и обучении агентов случайному взаимодействию, была выбрана задача поиска агентами выхода из лабиринта. Для сравнения были взяты следующие системы:

- децентрализованная многоагентная система, функционирование которой осуществляется в соответствии с предложенным алгоритмом обучения с подкреплением для децентрализованных многоагентных систем, основанным на обмене опытом и обучении агентов случайному взаимодействию (si);

- децентрализованная многоагентная система без обучения агентов случайному взаимодействию и обмена опытом (s2);

- децентрализованная многоагентная система с обучением случайному взаимодействию, но без обмена опытом между агентами (s3).

Для моделирования была использована среда Microsoft Unity. В качестве критерия оценки применялось время перемещения всех агентов в состояние, соответствующее выходу из лабиринта. Для проведения испытаний было сгенерировано восемь карт различной размерности (15x15, 30x30, 45x45, 60x60, 75x75). Для каждой карты были сгенерированы сценарии, различающиеся количеством агентов, определяемым случайным образом в зависимости от размеров карты (для карты 15x15 - три агента, 30x30 - от трех до пяти, 60x60 - от трех до десяти, 75x75 - от трех до двенадцати), а также начальным положением агентов. При этом условная область покрытия коммуникационных систем агентов была ограничена семью ячейками (т.е. соответствует области 7x7). Число проводимых опытов (итераций) - 200. Пример применяемой карты размерности 15x15 представлен на рис. 3.

Рис. 3. Применяемая карта размерности 15 х 15

Результаты, полученные в ходе выполнения эксперимента для трех агентов (для карты 15x15), представлены на рис. 4.

510 1 -1

к Hi

щ 4® ■ - -.

\

Sv

~ к 1

Щ - 1 ГГ г — _

1 Т-Ц-

30 40 50 60 70 SO 90 10» 110120 130 140 150 160 170 ISO 190 200

Номер итерации

Рис. 4. Результаты эксперимента, проводимого для карты 15x15 и трех агентов

Как видно на рис. 4, к двухсотой итерации достигнуто улучшение показателей системы s1 (в результате обучения) по критерию времени на 61,5 %. Для систем s2 и s3 были достигнуты следующие результаты: 13,4 %, 33,2 %.

Таким образом, обучение агентов случайному взаимодействию позволяет ускорить процесс обучения в 2,5 раза к двухсотой итерации. При этом комбинированное применение обучения случайному взаимодействию и обмена опытом между агентами позволяет ускорить процесс обучения в 4,7 раза.

Однако рассмотренные результаты из-за небольшого количества агентов не позволяют дать оценку эффективности разбиения группы агентов на отдельные подгруппы на основе «области видимости» агента-лидера при реализации обмена информационными сообщениями. Для этого приведем результаты эксперимента, проводимого для карты 75x75 для группы, состоящей из двенадцати агентов (см. рис. 5).

1200

; 1140

г 10S0

fc 1020

ь 960

и 900

340

m 730

ts гт =1® 720

к и 600

К 540

i- 430

□ 420

360

с. 300

240

ISO

к 120

-

-

.

ж, 1

-

-4

-

sjs, *

-

■ш.

i "

О 10 20 30 40 50 60 70 SO 90 10[11101201301401501601701S0190200 Номер итерации

Рис. 5. Результаты эксперимента, проводимого для карты 75x75 и двенадцати агентов

Как видно на рис. 5, применение разработанного алгоритма обучения с подкреплением для децентрализованных многоагентных систем, основанного на обмене опытом и обучении агентов случайному взаимодействию (система s1), позволило улучшить показатели по критерию времени к двухсотой итерации на 72,9 % (для s2 на 15,8 %, для s3 - на 39,4 %).

Полученные экспериментальные результаты свидетельствуют о более высокой эффективности по критерию времени разработанного алгоритма обучения с подкреплением для децентрализованных многоагентных систем, основанного на обмене опытом и обучении агентов случайному взаимодействию в сравнении с рассмотренными аналогами.

Заключение

В работе представлен разработанный новый алгоритм обучения с подкреплением для децентрализованных многоагентных систем, основанный на обмене опытом и обучении агентов случайному взаимодействию, отличия которого от аналогов заключаются в следующем:

- применение алгоритма формирования подгрупп агентов-подчиненных на основании «области видимости» агента-лидера с целью снижения размерности «информационных сообщений»;

- учет аппаратной составляющей агента (информация о которой формализована в виде множества типов обязанностей или действий, доступных для выполнения агенту) при реализации обмена опытом.

Результаты эксперимента, выполненного в среде Microsoft Unity, подтвердили эффективность предложенного гибридного алгоритма по критерию времени.

Литература

1. Дубенко Ю.В. Аналитический обзор проблем многоагентного обучения с подкреплением // Вестник компьютерных и информационных технологий. 2020. Т. 17. № 6 (192). С. 48-56.

2. Дубенко Ю.В., Дышкант Е.Е., Гура Д.А. Анализ иерархического обучения с подкреплением для реализации поведенческих стратегий интеллектуальных агентов // Вестник компьютерных и информационных технологий. 2020. Т. 17. № 9 (195). С. 35-45.

3. Симанков В.С., Дубенко Ю.В. Системный анализ в иерархических интеллектуальных многоагентных системах // Вестник компьютерных и информационных технологий. 2021. Т. 18. № 3 (201). С. 33-46.

4. Славин Б.Б. Технологии коллективного интеллекта // Проблемы управления. 2016. № 5. С. 2-9.

5. Саттон Р.С., Барто Э.Дж. Обучение с подкреплением: Введение. 2-е изд. М.: ДМК Пресс, 2020. 552 с.

6. Гибридный алгоритм формирования кратчайшей траектории, основанный на применении многоагентного

обучения с подкреплением и обмена опытом / Ю.В. Ду-бенко, Е.Е. Дышкант, Н.Н. Тимченко, Н.А. Рудешко// Вестник компьютерных и информационных технологий. 2021. Т. 18. № 11 (209). С. 13-26.

Поступила 17.06.2022; принята к публикации 19.08.2022

Информация об авторах

Дубенко Юрий Владимирович - канд. техн. наук, доцент кафедры информатики и вычислительной техники, Кубанский государственный технологический университет (350072, Россия, г. Краснодар, ул. Московская, 2), е-тай: scorpioncool1@yandex.ru, тел.+7-918-675-4251, ORCГО: https://orcid.org/0000-0003-3205-994X

Рудешко Никита Андреевич - аспирант кафедры информатики и вычислительной техники, Кубанский государственный технологический университет (350072, Россия, г. Краснодар, ул. Московская, 2), е-тай: nikita.rudeshko@yandex.ru, тел.+7-929-832-92-13

REINFORCEMENT LEARNING ALGORITHM FOR DECENTRALIZED MULTI-AGENT SYSTEMS BASED ON EXCHANGE OF EXPERIENCE AND TRAINING OF AGENTS IN

RANDOM INTERACTION

Yu.V. Dubenko, N.A. Rudeshko

Kuban State Technological University, Krasnodar, Russia

Abstract: here we present the developed new reinforcement learning algorithm for decentralized multi-agent systems based on the exchange of experience and training agents for random interaction. We listed the main problems of multi-agent reinforcement learning. We described a class of decentralized multi-agent systems based on random interaction of agents, which leads to the emergence of intelligent global behavior not controlled by individual agents. We defined an urgent task for decentralized systems implemented on the basis of the reinforcement learning paradigm. We indicated that the ultimate goal of learning to interact with each other is to maximize the average reinforcement. We proposed algorithms, the application of which leads to the achievement of this goal, such as the algorithm for training agents in random interaction, as well as the algorithm for forming subgroups of subordinate agents based on the "visibility area" of the leader agent. To test the effectiveness of the proposed reinforcement learning algorithm for decentralized multi-agent systems, based on the exchange of experience and training agents for random interaction, we chose the task of finding agents to exit the maze. We presented the results of the algorithm execution on a model developed in the Microsoft Unity environment. The algorithm differs from the existing analogs by using the method of forming subgroups of subordinate agents based on the "visibility area" of the leader agent in order to reduce the dimension of "information messages" and taking into account the agent's hardware component when implementing the exchange of experience

Key words: reinforcement learning, multi-agent systems, random interaction, agents-leaders, agents-subordinates, labyrinths

References

1. Dubenko Yu.V. "Analytical review of the problems of multi-agent reinforcement learning", Bulletin of Computer and Information Technologies (Vestnikkomp'yuternykh i informatsionnykh tekhnologiy), 2020, vol. 17, no. 6 (192), pp. 48-56.

2. Dubenko Yu.V., Dyshkant E.E., Gura D.A. "Analysis of hierarchical reinforcement learning for the implementation of behavioral strategies of intelligent agents", Bulletin of Computer and Information Technologies (Vestnik komp'yuternykh i informatsionnykh tekhnologiy), 2020, vol. 17, no. 9 (195), pp. 35-45.

3. Simankov V.S., Dubenko Yu.V. "System analysis in hierarchical intelligent multi-agent systems", Bulletin of Computer and Information Technologies (Vestnikkomp'yuternykh i informatsionnykh tekhnologiy), 2021, vol. 18, no. 3 (201), pp. 33-46.

4. Slavin B.B. "Technologies of collective intelligence", Problems of Management (Problemy upravleniya), 2016, no. 5, pp. 29.

5. Sutton R.S., Barto E.J. "Reinforcement Learning: An Introduction", Moscow: DMK Press, 2020, 552 p.

6. Dubenko Yu.V., Dyshkant E.E., Timchenko N.N., Rudeshko N.A. "A hybrid algorithm for the formation of the shortest trajectory based on the use of multi-agent reinforcement learning and experience exchange", Bulletin of Computer and Information Technologies (Vestnikkomp'yuternykh i informatsionnykh tekhnologiy), 2021, vol. 18, no. 11 (209), pp. 13-26.

Submitted 17.06.2022; revised 19.08.2022

Information about the authors

Yuriy V. Dubenko, Cand. Sc. (Technical), Associate Professor, Kuban State Technological University (2 Moskovskaya str., Krasnodar 350072, Russia), e-mail: scorpioncool1@yandex.ru, tel.: +7-918-675-4251, ORCID: https://orcid.org/0000-0003-3205-994X Nikita A. Rudeshko, graduate student, Kuban State Technological University (2 Moskovskaya str., Krasnodar 350072, Russia), e-mail: nikita.rudeshko@yandex.ru, tel.: +7-929-832-92-13

i Надоели баннеры? Вы всегда можете отключить рекламу.