Научная статья на тему 'Метод автоматической реорганизации структуры многоагентных систем, основанный на применении алгоритма симулированного закаливания'

Метод автоматической реорганизации структуры многоагентных систем, основанный на применении алгоритма симулированного закаливания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
многоагентная система / организационная структура / адаптация / алгоритм симулированного закаливания / обучение с подкреплением / multi-agent system / organizational structure / adaptation / simulated hardening algorithm / reinforcement learning

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Юрий Владимирович Дубенко, Евгений Евгеньевич Дышкант, Александр Анатольевич Обозовский

Актуальность и цели. Организационная структура многоагентной системы (МАС) включает множество ролей агентов, их горизонтальных и вертикальных связей, компонентов, управляющих их поведением, а также правил их функционирования. От выбора организационной структуры в значительной мере зависит эффективность многоагентной системы. В процессе функционирования МАС возможны ситуации (например, значительное изменение параметров окружающей среды), требующие выполнения ее реорганизации в автоматическом режиме. При этом имеющиеся решения в данной области обладают рядом существенных недостатков. Объектом исследования являются многоагентные системы. Предметом исследования являются методы реорганизации структуры многоагентной системы. Цель исследования – разработка метода автоматической реорганизации структуры МАС в условиях сложной, частично наблюдаемой, динамической окружающей среды. Материалы и методы. Использованы алгоритм симулированного закаливания и методы парадигмы обучения с подкреплением. Результаты. На основе применения алгоритма симулированного закаливания и парадигмы обучения с подкреплением разработан метод автоматической реорганизации структуры многоагентных систем, инициируемой при изменении параметров окружающей среды. Выводы. Разработанный метод может найти свое практическое применение при реализации следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта в компьютерных играх.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Юрий Владимирович Дубенко, Евгений Евгеньевич Дышкант, Александр Анатольевич Обозовский

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method for automatic reorganization of the structure of multi-agent systems, based on the application of the simulated hardening algorithm

Background. The organizational structure of a multi-agent system includes many roles of agents, their horizontal and vertical connections, components that control their behavior, as well as rules for their functioning. The efficiency of a multi-agent system largely depends on the choice of organizational structure. During the operation of the MAS, situations are possible (for example, a significant change in environmental parameters) that require its reorganization to be performed automatically. However, existing solutions in this area have a number of significant disadvantages. The object of research is multi-agent systems. The subject of the research is methods for reorganizing the structure of a multi-agent system. The goal of the work is to develop a method for automatically reorganizing the structure of the MAS in a complex, partially observable, dynamic environment. Materials and methods. Simulated hardening algorithm, reinforcement learning paradigm methods. Results. As a result, a method was developed for automatic reorganization of the structure of multi-agent systems, initiated when environmental parameters change, based on the use of a simulated hardening algorithm and a reinforcement learning paradigm. Conclusions. The developed method can find its practical application in the implementation of the following tasks: inspection (or patrolling) of infrastructure facilities by mobile robots; implementation of artificial intelligence in computer games.

Текст научной работы на тему «Метод автоматической реорганизации структуры многоагентных систем, основанный на применении алгоритма симулированного закаливания»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

COMPUTER SCIENCE, COMPUTER ENGINEERING AND CONTROL

УДК 004.81

doi: 10.21685/2072-3059-2024-1-1

Метод автоматической реорганизации структуры многоагентных систем, основанный на применении алгоритма симулированного закаливания

Ю. В. Дубенко1, Е. Е. Дышкант2, А. А. Обозовский3

1Кубанский государственный технологический университет, Краснодар, Россия 2Армавирский механико-технологический институт (филиал) Кубанского государственного технологического университета, Армавир, Краснодарский край, Россия 3Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С. М. Штеменко, Краснодар, Россия 1scorpioncool1@yandex.ru, 2ed0802@yandex.ru, 3mr.bolduin@list.ru

Аннотация. Актуальность и цели. Организационная структура многоагентной системы (МАС) включает множество ролей агентов, их горизонтальных и вертикальных связей, компонентов, управляющих их поведением, а также правил их функционирования. От выбора организационной структуры в значительной мере зависит эффективность многоагентной системы. В процессе функционирования МАС возможны ситуации (например, значительное изменение параметров окружающей среды), требующие выполнения ее реорганизации в автоматическом режиме. При этом имеющиеся решения в данной области обладают рядом существенных недостатков. Объектом исследования являются многоагентные системы. Предметом исследования являются методы реорганизации структуры многоагентной системы. Цель исследования - разработка метода автоматической реорганизации структуры МАС в условиях сложной, частично наблюдаемой, динамической окружающей среды. Материалы и методы. Использованы алгоритм симулированного закаливания и методы парадигмы обучения с подкреплением. Результаты. На основе применения алгоритма симулированного закаливания и парадигмы обучения с подкреплением разработан метод автоматической реорганизации структуры многоагентных систем, инициируемой при изменении параметров окружающей среды. Выводы. Разработанный метод может найти свое практическое применение при реализации следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта в компьютерных играх. Ключевые слова: многоагентная система, организационная структура, адаптация, алгоритм симулированного закаливания, обучение с подкреплением

© Дубенко Ю. В., Дышкант Е. Е., Обозовский А. А., 2024. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

Для цитирования: Дубенко Ю. В., Дышкант Е. Е., Обозовский А. А. Метод автоматической реорганизации структуры многоагентных систем, основанный на применении алгоритма симулированного закаливания // Известия высших учебных заведений. Поволжский регион. Технические науки. 2024. № 1. С. 5-18. doi: 10.21685/20723059-2024-1-1

Method for automatic reorganization of the structure of multi-agent systems, based on the application of the simulated hardening algorithm

Yu.V. Dubenko1, E.E. Dyshkant2, A.A. Obozovskiy3

:Kuban State Technological University, Krasnodar, Russia 2Armavir Mechanical and Technological Institute (branch) of the Kuban State Technological University, Armavir, Krasnodar region, Russia 3Krasnodar Higher Military Orders of Zhukov and the October Revolution Red Banner School named after Army General S.M. Shtemenko, Krasnodar, Russia

1scorpioncool1@yandex.ru, 2ed0802@yandex.ru, 3mr.bolduin@list.ru

Abstract. Background. The organizational structure of a multi-agent system includes many roles of agents, their horizontal and vertical connections, components that control their behavior, as well as rules for their functioning. The efficiency of a multi-agent system largely depends on the choice of organizational structure. During the operation of the MAS, situations are possible (for example, a significant change in environmental parameters) that require its reorganization to be performed automatically. However, existing solutions in this area have a number of significant disadvantages. The object of research is multi-agent systems. The subject of the research is methods for reorganizing the structure of a multi-agent system. The goal of the work is to develop a method for automatically reorganizing the structure of the MAS in a complex, partially observable, dynamic environment. Materials and methods. Simulated hardening algorithm, reinforcement learning paradigm methods. Results. As a result, a method was developed for automatic reorganization of the structure of multi-agent systems, initiated when environmental parameters change, based on the use of a simulated hardening algorithm and a reinforcement learning paradigm. Conclusions. The developed method can find its practical application in the implementation of the following tasks: inspection (or patrolling) of infrastructure facilities by mobile robots; implementation of artificial intelligence in computer games.

Keywords: multi-agent system, organizational structure, adaptation, simulated hardening algorithm, reinforcement learning

For citation: Dubenko Yu.V., Dyshkant E.E., Obozovskiy A.A. Method for automatic reorganization of the structure of multi-agent systems, based on the application of the simulated hardening algorithm. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2024;(1):5-18. (In Russ.). doi: 10.21685/2072-3059-2024-1-1

Введение

Организационная структура многоагентной системы (МАС) - это множество ролей агентов, их горизонтальных и вертикальных связей, компонентов, управляющих их поведением, а также правил их функционирования в рамках МАС [1]. От выбора организационной структуры во многом зависит эффективность МАС. В процессе функционирования МАС возможны ситуации (например, значительное изменение параметров окружающей среды), требующие выполнения ее реорганизации в автоматическом режиме. При этом под реорганизацией будем понимать как количественное (количество

групп агентов, их состав, метод количественной реорганизации рассматриваются в нашей статье [2]), так и конструктивное (принцип организации групп, характер распределения ролей между агентами) изменение организационной структуры МАС.

Вопросам реорганизации МАС посвящены статьи [3-6]. Однако предлагаемые в них решения обладают рядом недостатков: выполнение исключительно количественной реорганизации (число групп, количество включенных в них агентов) без внесения конструктивных изменений в структуру МАС (характер распределения ролей между агентами в группах) [3, 4]; отсутствие механизма самообучения при формировании структуры МАС, сложность применения в условиях неопределенности информации о параметрах окружающей среды [5, 6]; получаемая при реорганизации структура не является оптимальной [5, 6].

Рассматриваемая МАС обладает следующими характеристиками: гетерогенность, коммуникабельность агентов (имеют колесную или гусеничную транспортную платформу), формирование групп - множества агентов, объединенных единой целью и, в некоторых случаях, централизованным управлением. Задачи, решение которых планируется с применением МАС: обследование, патрулирование территории (с составлением ее карты); поиск целевого состояния.

Цель исследования - разработка метода автоматической реорганизации структуры МАС в условиях сложной, частично наблюдаемой, динамической окружающей среды.

Материалы и методы

Пусть S - некоторая МАС, функционирующая в окружающей среде E , объединяющая агентов множества =[а{} , i = 1,an , an е N, на которых могут быть возложены роли из множества R, классифицированные следующим образом:

1) управление Rcoord ={RControl, Rcom _ coord } , Rcoord с R , где Rcontrol -контроль над исполнением поставленной задачи, назначение вознаграждений агентам; Rcom coord - общая координация действий агентов и арбитраж коллизий (под коллизией понимается спорная ситуация между агентами);

2) декомпозиция распределение задач Rdec ={Rdec _task, Rdist _ task } , Rdec с R, где Rdec task - декомпозиция задач, поставленных лицом, принимающим решение (ЛПР), на отдельные подзадачи; Rdist task - распределение подзадач между агентами;

3) хранение и рассылка опыта Rrepi ={Rstor, Rmaii}, Rrepi с R, где Rstor - хранение опыта, Rmaii - репликация (рассылка) опыта;

4) непосредственное выполнение поставленных задач Rwork =

= {Rmining, Ranalis } , Rwork с R , где Rmining - добЫча даннЫх; Ranalis - обработка и анализ данных.

На множестве может быть сформировано множество групп

gn

={а}:Ог с А$ л пОг =0, ^ е N.

г=1

При этом МАС $ поставлена задача Т, для решения которой сформирована организационная структура 0$ ={А$,Е,Б = {а.,Е^ },Р} , где Б -

множество пар «агент-роль», ] = 1, Ям , Ям е N, Р - множество показателей эффективности организационной структуры 0$ . На множестве Р может

Рм

быть определен комплексный показатель эффективности р$ = ^ор^ Р^ , где

к=1

Р\ - некоторый показатель эффективности системы $, Рк е [0,1], Рк е Р, к = 1, Рм , Рм е N ; ОРк - коэффициент важности показателя Рк , оРк е[°Д].

Применим к 0$ принципы теории организаций [7], выделив следующие типы организационных структур: функциональная структура, дивизионная структура.

В рамках функциональной структуры предполагается назначение ролей некоторым функциональным группам (рис. 1), т.е.

Л

i+1

Vai, ai+i1 ai e Gz Л ai+j e Gz : (( = Я^ V| (K„ = Я„ V R Ф Яа IЛ Rg

Я*+1 = 1)V =l), (1)

((( = Яг+1 V Я, * ^+1)

где Еа - множество ролей агента а.; Еа+1 - множество ролей агента а.+1; Е8 - множество классов, которым принадлежат роли Е; е Е„ (имеются

аг+1

ввиду классы Есоог^ , Е^ес, Егер1, Ем/огк), т.е. все агенты некоторой группы могут иметь только одну роль Еj, либо им может быть назначено несколько ролей из одного класса [7].

Альтернативой функциональной структуре является дивизионная структура, ориентированная на конкретные задачи, обладающая большей адаптивностью к изменению состояния окружающей среды (рис. 2), для которой выполняется условие [7]:

Уа.,а,.+1|а е Ог ла^ е Ог :Е^ пЕам =0лЕЦ пЕ^ =0 . (2)

При этом функциональная структура направлена на максимизацию производительности МАС, а дивизионная - на обучение и адаптацию [7]. При этом МАС может сочетать признаки обоих структур, соответственно для нее могут быть выделены следующие характеристики: показатель выраженности

функциональной структуры с у е [0,1], показатель выраженности дивизионной структуры с^ е [0,1].

Рис. 1. Пример функциональной структуры МАС

Рис. 2. Дивизионная структура МАС Для оценки значений cf может быть использована следующая шкала

1) ог = 1, если Ну (Б ) = ^^Н е Б ) = 0 = Яа

л

N

Яа = 1У а. е л а.+1 е ), где Ну (<7г) - мера гетерогенности агентов группы £г по возложенным на них ролям в рамках некоторого класса ролей

а

, Ну )=—где е N , е N - количество агентов, имеющих а N

роль и соответственно, а^^1 < а N , е л Я2 е Яg ,

Я

g ={еоогё,ёве, гер1, ^ог^} ;

2) еу = 0, если Ну (Б ) = ^^Н ( \ £ е Б) = 1 л (^ = Я^ V

VДр. * Я^)

л

Да

.+1

= 1V

GN

Я ^^

= 1) е £г л аг+1 е £г . Промежуточные

значения Ну (Б)е(0,1) отображаются в интервал еу е (1,0). Для шкалы Бе существуют следующие ограничения:

1) все роли из множеств Я^ее и Ягер1 и ЯМ)ог^ должны быть распределены между агентами (при соблюдении условия (1)):

УЯу е Щее иЯгер1 иЯм>отк^ = а.у \ а. е £г ; (3)

2) роли Я у е Яеоог^ могут отсутствовать. Соответственно, если в системе Б отсутствуют агенты, на которых возложены роли из множества (класса) Яеоог^ , то система Б является децентрализованной, в ином случае -централизованной;

3) количество агентов aN должно быть достаточным, чтобы для каждой роли Яу или множества (класса) Яg сформировать полноценную группу

агентов £г , для которой выполняется условие |Сг| > 3 . Шкала Бе для оценки значений е^ :

1) е^ = 1, если Н^ (Б) = 1 л: Я^ = |я| , т.е. все роли из множества Я распределяются между агентами в группе £г , где Н^ (Б) - мера гетерогенности

группы £г , Н^ (Б ) = |!——-, при этом для £г выполняется условие (2); \Я\ * GN

Я£ - множество ролей, присвоенных агентам группы £г ;

2) еа = 0, если На (Б) = 0.2 л : ((| = 2) л (((у е л Яу е ) л

(+1 е Щ+1 л Щ +1 е ^ ) л (( * Щ+1)) л у Яаг = Я.

г=1

л

Промежуточные значения hd (S)e(0,2;1) отображаются в интервал

cd e (0,1).

Для шкалы SCd существуют следующие ограничения:

1) условия (2), (3), т.е. все роли из множеств Rdec uRrepi иRwork должны быть распределены между агентами. При этом допустимы ситуации, когда, например,

Яj,Яj+1 e rgz : Яj e (repl u Rwork ) Л Яj+1 e (Kdec u Rcoord 1;

2) полностью повторяет аналогичное ограничение для функциональной структуры.

Пусть Cs - комплексный показатель характера структуры МАС, Cs e [-1,1], при этом cf e[0,1] — Cs e [0,5;1], Cd e[1,0] — Cs e [-1; -0,5 ] . При Cs <-0,5 в структуре МАС имеются только признаки дивизионной структуры (система функционирует в режиме обучения), при Cs ^ 0,5 -функциональной структуры (система функционирует в основном режиме). При значениях Cs e (—0,5; 0,5) структура системы является смешанной, т.е.

имеет признаки (различной выраженности) как функциональной, так и дивизионной структуры.

Расчет значения Cs в этом случае выполняется следующим образом:

1) для всех Gz , для которых выполняется условие (1) (или (2)), определяется величина cf (или Cd) (при расчете в качестве Gn выбирается количество групп, удовлетворяющих условию (1) или (2));

Ф

2) cf * GNf,cd * GNd —>(-0.5,0.5), где GNf - число групп, для которых выполняется условие (1), GNd - число групп, для которых выполняется условие (2), ф - функция, выполняющая отображение в интервал (- 0,5;0,5) таким образом, что при cf * Gnf = cd * GNd — Ф = 0 , cf * Gnf > > cd * GNd — фe (0;0,5), cf * GNf < cd * GNd — фe (-0,5;0).

Очевидно, что множества показателей эффективности МАС в основном режиме и режиме обучения могут отличаться. Соответственно показатели Pk e P могут быть разделены на две группы: показатели эффективности обучения Pd, показатели производительности Pf . В зависимости от режима работы системы (режим обучения, основной режим) величина вклада Pk e Pd или Pk e Pf в значение комплексного показателя эффективности ps будет изменяться пропорционально значению Cs путем корректировки коэффициентов apk (например, при Cs > 0 aPk Т VP e Pf л лсPk ^ VP e Pd).

Таким образом, необходимо определить метод M : M : S,E,T,Os —Aps :¿Ps >0,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Aps - приращение комплексного показателя эффективности системы S,

¿PS = PS after M - PS until M; PS until M, PS after M - значения комплексного показателя ps до и после применения метода M .

В качестве триггеров, инициирующих процесс реорганизации S, могут рассматриваться колебания значений параметров окружающей среды ( E ), а также показателя эффективности ( ps ) за временной интервал [t -1, t]:

1) следствием изменения параметров окружающей среды на величину AEtt-1 является снижение значения комплексного показателя эффективности системы:

AEt,t-1 >5e Л |¿PSt,t-11 >5pS Л Ps ^, (4)

где 5e , 5ps - пороговые значения чувствительности системы к изменениям

параметров окружающей среды и комплексного показателя эффективности, 5e e К, 5ps e Ж . Возможная причина - система S не обучена адекватной

реакции на новые значения показателей окружающей среды и нуждается в адаптации путем увеличения выраженности признаков дивизионной структуры на величину aCs ^ AEt t-1, aCs < 0 ;

2) при стабильных параметрах окружающей среды имеет место снижение значения комплексного показателя эффективности системы:

aet,t-^5E Л |ap st,t5pS Л pS ^ . (5)

Возможная причина - система S в момент времени t находилась в режиме адаптации и Cs < 0, следовательно, ситуация pg может свидетельствовать о том, что S уже обучена, поскольку, если Cg < 0, при расчете pg имеет место условие Vcр ,ap |Pk e Pf лPk+1 e Pd — Aa = ap -ap < 0,

k k+1 J k k+1

т.е. вклад параметров, характеризующих эффективность процесса обучения, в данный момент выше.

Для определения оптимального соотношения AEtt-1, ¿PStt-1, ¿Cg

воспользуемся алгоритмом симулированного закаливания, имеющим следующие преимущества: простота реализации, удовлетворительные результаты при относительно небольшом количестве итераций, что делает его пригодным для применения при управлении в реальном времени [8]. При этом в качестве «энергетической функции» будем использовать комплексный показатель эффективности pg . Предложенный алгоритм представлен на рис. 3. При этом режим «охлаждения» T - экспоненциальный, структуры Ogt и Ogt+1 близки друг к другу, а «функция возмущения» F сформирована на основании парадигмы обучения с подкреплением [9]:

L Кортежи Ost,Et, Ps (0St),0St-1, Et-1, PS (0St-1) преобразуются в кортежи вида S^, Ast 1—st, St, r , где St - состояние МАС в момент времени t, St = Ogt,Et, pg (Ogt); ASt 1— St - действие, выполнение которого при-

вело к следующему преобразованию организационной структуры МАС -Ogt — ^ Ogt, A$t tt-j; Sf-j - состояние МАС в момент времени

t -1, St- = Ogt-i, Et-, ps (Ogt-i); r - подкрепление, полученное за переход

st-1 ^ st, r е [-U], r ~ aPst,t-i •

Рис. 3. Алгоритм оптимизации организационной структуры МАС

2. На основании VSM, ASt— ^, St, r вычисляется Q (St-i, AS(— ^)

ценность действия ^ ^^ при его выборе в состоянии Б—.

3. Выбор действия А при нахождении в состоянии S осуществляется при условии: А = а^тах2(Б, А).

где к - постоянная Больцмана; Т - значение «температуры» в момент времени ^.

Цель эксперимента: в результате выполнения компьютерного моделирования доказать эффективность применения предложенного метода автоматической реорганизации структуры МАС.

Основные параметры эксперимента:

1. Описание решаемой задачи. Достижение всеми агентами некоторого целевого положения на ограниченной территории (с наличием препятствий).

2. Описание окружающей среды. Виртуальный лабиринт (рис. 4), сформированный в среде Microsoft Unity, размерность лабиринта - 350 х 350 (под единицей размерности понимается клетка, соответствующая одному квадратному блоку, применяемому для формирования стен). При этом структура лабиринта меняется случайным образом, изменение типа (проход, стена) десяти случайных клеток (из числа исследованных агентами) происходит с периодичностью в 5 с. Также с вероятностью 50 % (не более одного раза в 60 с) могут измениться сразу 25 % клеток от общего числа исследованных агентами. В качестве показателя состояния окружающей среды (E) используется количество клеток (из числа исследованных агентами), изменивших тип. При этом порог чувствительности 5e (условие для запуска процесса реорганизации) установлен в 20 % от количества исследованных клеток (отслеживается с интервалом в 10 с.).

3. Тип применяемых агентов. Виртуальные агенты, имитирующие мобильных роботов на колесной транспортной платформе, оснащенных видеокамерой. При этом принятие решений о выборе действий (а также обучение) производится путем применения методов парадигмы обучения с подкреплением (Q-Learning) [9]. В данном случае под действиями агентов понимаются следующие: ехать вперед, назад, вправо, влево, а при определении состояния учитывается положение клетки в лабиринте, а также ее тип.

4. Число агентов: семьдесят восемь.

5. Механизм выбора стартовых положений агентов. Координаты стартовых положений генерируются случайным образом на каждой итерации (попытке).

6. Механизм выбора целевого состояния. Координаты целевого состояния выбираются случайным образом из множества заранее заданных значе-

Вычисление вероятности Pt — | t) производится по формуле

Результаты

ний (мощность множества - 25 элементов, координаты генерируются случайным образом) на каждой итерации.

Рис. 4. Фрагмент применяемой карты размерности 350 х 350

7. Число итераций (попыток): триста (при этом итерация считается выполненной в случае достижения критерия решения задачи).

8. Показатели эффективности метода. Для оценки эффективности МАС используется время выполнения поставленной задачи (на одной итерации; фиксируется после достижения критерия успешности выполнения поставленной задачи). При этом в процессе функционирования МАС в качестве показателей P\ е P, характеризующих ее текущую эффективность, используются: площадь исследованной территории (клеток за 10 с) (показатель производительности), изменение средней величины подкрепления, получаемого агентами за 10 с (показатель эффективности обучения) (т.е. если агент обучен, то вероятность получения отрицательного подкрепления меньше).

9. Критерий, позволяющий говорить об успешном выполнении поставленной задачи. Перемещение всех агентов в целевое состояние.

Результаты проведенного эксперимента представлены на рис. 5.

На рис. 5 приняты следующие условные обозначения: opt - МАС, с адаптивной структурой, реализованной с применением разработанного метода автоматической структурной реорганизации; func - МАС, имеющая функциональную структуру (не меняется на протяжении проводимого эксперимента); div - МАС, имеющая дивизионную структуру (не меняется на протяжении проводимого эксперимента).

Обсуждение

Как видно из рис. 5, многоагентная система, основанная на дивизионной структуре, до 80-й итерации быстрее обучается и показывает лучшую эффективность. Однако далее возможности прироста эффективности дивизионной структуры за счет адаптации снижаются, и уже к 300-й итерации показатели дивизионной структуры (div) и функциональной структуры (func), обладающей меньшими адаптационными возможностями, почти сравниваются. Соответственно недостатки применения обозначенных структур в статике на рис. 5 иллюстрируются явным образом:

- по мере обучения системы увеличение признаков функциональной структуры (и снижение дивизионной) позволило бы более эффективно применять полученный опыт для повышения производительности системы;

- низкая скорость обучения МАС, основанных на функциональной структуре, не позволяет в полной мере использовать их преимущества, связанные с максимизацией производительности.

Рис. 5. Результаты эксперимента (зависимость времени достижения критерия успешного выполнения задачи от номера итерации)

Благодаря гибкости адаптивной структуры (opt) удалось объединить преимущества функциональной и дивизионной организации, что выражается в лучшей эффективности по итогам выполнения трехсот итераций.

Лучшие результаты могут быть достигнуты путем объединения возможностей метода структурной реорганизации, представленного в данной статье, а также метода количественной реорганизации, описанного в [2].

Заключение

В результате был разработан метод автоматической реорганизации структуры многоагентных систем (в случае существенного изменения параметров окружающей среды), основанный на применении алгоритма симулированного закаливания, а также парадигмы обучения с подкреплением. Разработанный метод может найти свое практическое применение при реализа-

ции следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта

в компьютерных играх.

Список литературы

1. Horling B., Lesser V. A Survey of Multi-Agent Organizational Paradigms // The Knowledge Engineering Review. 2005. № 19 (04). P. 281-316.

2. Дубенко Ю. В., Дышкант Е. Е., Обозовский А. А. Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи // Известия высших учебных заведений. Поволжский регион. Технические науки. 2023. № 3. С. 18-30.

3. Bistaffa F., Farinelli F., Cerquides J., Rodriguez-Aguilar J., Ramchurn S. D. Anytime Coalition Structure Generation on Synergy Graphs. URL: https://www.researchgate.net/ publication/269092245_Anytime_coalition_structure_generation_on_synergy_graphs (дата обращения: 22.09.2023).

4. Sims M., Corkill D., Lesser V. Knowledgeable Automated Organization Design for Multi-Agent Systems. URL: http://mas.cs.umass.edu/Documents/07-43.pdf (дата обращения: 22.09.2023).

5. Rahwan T., Michalak T. P., Wooldridg M., Jennings N. R. Coalition structure generation: A survey // Artificial Intelligence. 2015. № 229. P. 139-174.

6. Mahani M. N. Strategic Structural Reorganization in Multi-agent Systems Inspired by Social Organization Theory : dissertation, Degree Level - Ph.D., Discipline - Electrical Engineering & Computer Science. University of Kansas, 2012. 105 p.

7. Дафт Р. Л. Теория организации : учебник по специальности «Менеджмент организации» / пер. с англ. Г. Ю. Любивовой ; под ред. Э. М. Короткова. М. : ЮНИТИ-ДАНА, 2006. 736 с.

8. Саймон Д. Алгоритмы эволюционной оптимизации / пер. с англ. А. В. Логунова. М. : ДМК Пресс, 2020. 1002 с.

9. Саттон Р. С., Барто Э. Дж. Обучение с подкреплением: введение. 2-е изд. / пер. с англ. А. А. Слинкина. М. : ДМК Пресс, 2020. 552 с.

References

1. Horling B., Lesser V.A Survey of Multi-Agent Organizational Paradigms. The Knowledge Engineering Review. 2005;(19):281-316.

2. Dubenko Yu.V., Dyshkant E.E., Obozovskiy A.A. A method for synthesizing the organizational structure of centralized multi-agent systems with the possibility of its automatic adaptation in case of changes in environmental parameters or the assigned task. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2023;(3):18-30. (In Russ.)

3. Bistaffa F., Farinelli F., Cerquides J., Rodriguez-Aguilar J., Ramchurn S.D. Anytime Coalition Structure Generation on Synergy Graphs. Available at: https://www.researchgate.net/publication/269092245_Anytime_coalition_structure_gen eration_on_synergy_graphs (accessed 22.09.2023).

4. Sims M., Corkill D., Lesser V. Knowledgeable Automated Organization Design for Multi-Agent Systems. Available at: http://mas.cs.umass.edu/Documents/07-43.pdf (accessed 22.09.2023).

5. Rahwan T., Michalak T.P., Wooldridg M., Jennings N.R. Coalition structure generation: A survey. Artificial Intelligence. 2015;(229):139-174.

6. Mahani M.N. Strategic Structural Reorganization in Multi-agent Systems Inspired by Social Organization Theory: dissertation, Degree Level - Ph.D., Discipline - Electrical Engineering & Computer Science. University of Kansas, 2012:105.

7. Daft R.L. Teoriya organizatsii: uchebnik po spetsial'nosti «Menedzhment organizatsii» = Organization theory: a textbook on the specialty "Organization Management". Transl. from Eng. G.Yu. Lyubivova; ed. by E.M. Korotkov. Moscow: YuNITI-DANA, 2006:736. (In Russ.)

8. Saymon D. Algoritmy evolyutsionnoy optimizatsii = Evolutionary optimization algorithms. Transl. from Eng. A.V. Logunov. Moscow: DMK Press, 2020:1002. (In Russ.)

9. Sutton R.S., Barto A.G. Obuchenie spodkrepleniem: vvedenie. 2-e izd. = Reinforcement learning: introduction. The 2nd edition. Transl. from Eng. Slinkin. Moscow: DMK Press, 2020:552. (In Russ.)

Информация об авторах / Information about the authors

Юрий Владимирович Дубенко кандидат технических наук, доцент, доцент кафедры информатики и вычислительной техники, Кубанский государственный технологический университет (Россия, г. Краснодар, ул. Московская, 2)

E-mail: scorpioncool1@yandex.ru

Евгений Евгеньевич Дышкант

кандидат технических наук, доцент кафедры внутризаводского электрооборудования и автоматики, Армавирский механико-технологический институт (филиал) Кубанского государственного технологического университета (Россия, Краснодарский край, г. Армавир, ул. Кирова, 127)

E-mail: ed0802@yandex.ru

Александр Анатольевич Обозовский преподаватель, Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С. М. Штеменко (Россия, г. Краснодар, ул. Красина, 4)

E-mail: mr.bolduin@list.ru

Yuriy V. Dubenko

Candidate of engineering sciences, associate professor, associate professor of the subdepartment of informatics and computer engineering, Kuban State Technological University (2 Moskovskaya street, Krasnodar, Russia)

Evgeniy E. Dyshkant Candidate of engineering sciences, associate professor of the sub-department of inplant electrical equipment and automation, Armavir Mechanical and Technological Institute (branch) of the Kuban State Technological University (127 Kirova street, Armavir, Krasnodar region, Russia)

Aleksandr A. Obozovskiy Lecturer, Krasnodar Higher Military Orders of Zhukov and the October Revolution Red Banner School named after Army General S.M. Shtemenko (4 Krasina street, Krasnodar, Russia)

Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.

Поступила в редакцию / Received 24.10.2023

Поступила после рецензирования и доработки / Revised 19.12.2023 Принята к публикации / Accepted 16.01.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.