Научная статья на тему 'Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи'

Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
16
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
многоагентная система / организационная структура / синтез / адаптация / биогеографический алгоритм / обучение с подкреплением / multi-agent system / organizational structure / synthesis / adaptation / biogeographical algorithm / reinforcement learning

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Юрий Владимирович Дубенко, Евгений Евгеньевич Дышкант, Александр Анатольевич Обозовский

Актуальность и цели. Объектом исследования являются многоагентные системы. Предмет исследования – методы синтеза организационной структуры многоагентной системы. Целью работы является разработка метода синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи. Материалы и методы. В работе использованы биогеографический алгоритм, методы парадигмы обучения с подкреплением. Результаты. В результате был разработан метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи, основанный на применении биогеографического алгоритма и парадигмы обучения с подкреплением. Выводы. Разработанный метод может найти свое практическое применение при реализации следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта в компьютерных играх.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A method of the organizational structure synthesis of centralized multi-agent systems with a possibility of its automatic adaptation in the event of changing the environment parameters or the set task

Background. The object of research is multi-agent systems. The subject of the research is the methods of synthesizing the organizational structure of a multi-agent system. The purpose of the work is to develop a method for synthesizing the organizational structure of centralized multi-agent systems with the possibility of its automatic adaptation in case of changes in environmental parameters or the task. Materials and methods. Biogeographic algorithm, reinforcement learning paradigm methods. Results. As a result, a method was developed for synthesizing the organizational structure of centralized multi-agent systems with the possibility of its automatic adaptation in the event of a change in the parameters of the environment or the task set, based on the use of a biogeographic algorithm and the reinforcement-learning paradigm. Conclusions. The developed method can find its practical application in the implementation of the following tasks: inspection (or pairing) of infrastructure objects by mobile robots; implementation of artificial intelligence in computer games.

Текст научной работы на тему «Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи»

УДК 004.81

doi: 10.21685/2072-3059-2023-3-2

Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи

Ю. В. Дубенко1, Е. Е. Дышкант2, А. А. Обозовский3

1Кубанский государственный технологический университет, Краснодар, Россия 2Армавирский государственный педагогический университет, Армавир, Краснодарский край, Россия 3Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С. М. Штеменко, Краснодар, Россия 1scorpioncool1@yandex.ru, 2ed0802@yandex.ru, 3mr.bolduin@list.ru

Аннотация. Актуальность и цели. Объектом исследования являются многоагентные системы. Предмет исследования - методы синтеза организационной структуры много-агентной системы. Целью работы является разработка метода синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи. Материалы и методы. В работе использованы биогеографический алгоритм, методы парадигмы обучения с подкреплением. Результаты. В результате был разработан метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи, основанный на применении биогеографического алгоритма и парадигмы обучения с подкреплением. Выводы. Разработанный метод может найти свое практическое применение при реализации следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта в компьютерных играх.

Ключевые слова: многоагентная система, организационная структура, синтез, адаптация, биогеографический алгоритм, обучение с подкреплением

Для цитирования: Дубенко Ю. В., Дышкант Е. Е., Обозовский А. А. Метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи // Известия высших учебных заведений. Поволжский регион. Технические науки. 2023. № 3. С. 18-30. doi: 10.21685/2072-3059-2023-3-2

A method of the organizational structure synthesis of centralized multi-agent systems with a possibility of its automatic adaptation in the event of changing the environment parameters or the set task

Yu.V. Dubenko1, E.E. Dyshkant2, A.A. Obozovskiy3

:Kuban State Technological University, Krasnodar, Russia 2Armavir State Pedagogical University, Armavir, Krasnodar Territory, Russia 3Krasnodar Higher Military Orders of Zhukov and the October Revolution Red Banner School named after Army General S.M. Shtemenko, Krasnodar, Russia 1scorpioncool1@yandex.ru, 2ed0802@yandex.ru, 3mr.bolduin@list.ru

© Дубенко Ю. В., Дышкант Е. Е., Обозовский А. А., 2023. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.

Abstract. Background. The object of research is multi-agent systems. The subject of the research is the methods of synthesizing the organizational structure of a multi-agent system. The purpose of the work is to develop a method for synthesizing the organizational structure of centralized multi-agent systems with the possibility of its automatic adaptation in case of changes in environmental parameters or the task. Materials and methods. Biogeo-graphic algorithm, reinforcement learning paradigm methods. Results. As a result, a method was developed for synthesizing the organizational structure of centralized multi-agent systems with the possibility of its automatic adaptation in the event of a change in the parameters of the environment or the task set, based on the use of a biogeographic algorithm and the reinforcement-learning paradigm. Conclusions. The developed method can find its practical application in the implementation of the following tasks: inspection (or pairing) of infrastructure objects by mobile robots; implementation of artificial intelligence in computer games.

Keywords: multi-agent system, organizational structure, synthesis, adaptation, biogeo-graphical algorithm, reinforcement learning

For citation: Dubenko Yu.V., Dyshkant E.E., Obozovskiy A.A. A method of the organizational structure synthesis of centralized multi-agent systems with a possibility of its automatic adaptation in the event of changing the environment parameters or the set task.

Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2023;(3):18-30. (In Russ.). doi: 10.21685/2072-3059-2023-3-2

Введение

Организационная структура многоагентной системы (МАС) - это совокупность ролей и связей агентов, компонентов, осуществляющих управление их поведением, а также правил, регламентирующих взаимодействие элементов системы [1]. Очевидно, что эффективность МАС во многом зависит от характеристик применяемой организационной структуры. В работах [2-6] рассматриваются различные методики синтеза организационных структур, однако их общим недостатком является низкая адаптивность (даже в случае незначительных изменений параметров окружающей среды или корректировки условий поставленной задачи необходим повторный запуск процедуры синтеза организационной структуры МАС). Необходимость адаптации организационной структуры МАС актуальна в следующих случаях:

1. Настройка (оптимизация) организационной структуры после этапа первоначальной генерации с помощью методов [2-6] (в частности, указанные методы определяют конфигурацию групп агентов расчетным путем, что может потребовать ее дальнейшей настройки уже в процессе выполнения задачи).

2. Реконфигурация групп агентов в случае, если один из агентов-менеджеров находится в неудовлетворительном техническом состоянии либо не справляется с поставленной задачей.

3. Автоматическая настройка организационной структуры в случае незначительных изменений параметров окружающей среды или поставленной задачи.

Таким образом, имеет место проблема автоматической адаптации организационной структуры централизованных МАС в условиях изменившихся параметров окружающей среды или поставленной задачи. Целью данного исследования является разработка методов решения обозначенной проблемы.

Материалы и методы

Пусть A - множество интеллектуальных агентов, A = {a{} , i = 1, An ,

f

An e N, обладающих набором ресурсов R: a, E ^ R , где о - характеристики аппаратного обеспечения агента a{; E - опыт, которым обладает агент a{ ; f - функция, выполняющая отображение пар a, E в R, при этом под ресурсом понимается некоторая услуга, которую может предоставить агент, например сбор, обработка, хранение, передача данных; T - поставленная задача; 0$ - организационная структура МАС S, сформированная на основе множества агентов A для решения задачи T; E - множество показателей эффективности системы S, E = {ej } , j = 1,EN , EN e N . Требуется разработать метод M : {S = {A, 0$ },T, E} ^ {Aej : Aej > 0} , предназначенный для формирования организационной структуры 0$ , где Ae j = ejfrefore - e jafter; tafter - значение показателя эффективности ej e E после применения метода M ; ejbefore - значение показателя эффективности ej e E до применения метода M .

Возьмем за основу метод «KB-ORG», предложенный в работе [4]. Он обладает следующими достоинствами и недостатками.

Достоинства: МАС рассматривается как двухуровневая формация, что позволяет строго дифференцировать процессы формирования групп агентов, связанные как с решением поставленной задачи, так и с координацией действий агентов.

Недостатки: в работе не рассматривается задача динамического изменения состава групп агентов в случае изменения параметров окружающей среды или поставленной задачи; рассматриваемый метод основан на строгих алгоритмах без возможности обучения.

Метод «KB-ORG» [4] предполагает формирование двухуровневой организационной структуры МАС, включающей:

1. Уровень координации (верхний уровень), предназначенный для управления действиями агентов с целью оптимизации процесса решения поставленной задачи T . Он является общим для всех МАС и лишь в незначительной степени зависит от предметной области задачи T . Уровень может быть представлен в виде множества:

Lcoord = {-^coord, Fcoord, {ai, rj ~}coord , Ecoord,G ={{Gk }, Ccoord } , (1)

где Rcoord - множество ролей уровня координации, например: агент-подчиненный (осуществляет непосредственное решение поставленной задачи в рамках прикладного уровня, агенту с таким типом обязанности может быть назначена роль прикладного уровня), агент-анализатор (выполняет декомпозицию поставленной задачи T на отдельные подзадачи), агент-менеджер (распределяет подзадачи между отдельными агентами-подчиненными, назначает им подкрепления на основании полученных результатов), агент-коммуникатор (обладает высокопроизводительной системой связи со значи-

тельной зоной покрытия, осуществляет передачу данных на дальние расстояния, может являться ретранслятором между группой агентов и удаленным центральным сервером или агентом-менеджером более высокого уровня иерархии), агент-репликатор (выполняет синхронизацию хранилищ знаний агентов группы), при этом следующие роли могут совмещаться как агентами-подчиненными, так и агентами-менеджерами: агент-анализатор, агент-репликатор, агент-коммуникатор; Fcoord - множество функций уровня координации, например, регламентирующих процедуры назначения ролей, а также взаимодействия между агентами в рамках данного уровня, T T

Fcoord : VR ^ min , где VR - объем ресурсов агентов множества Яд, затра-

RA RA

чиваемый на решение задачи T; {a;,r} - пары «агент ai - назначенная

coord

ему роль rj е Rcoord » ai е A, {ai, rj }coord : VRTa ^ min; Ecoord - множество показателей эффективности исполнения агентами ai ролей уровня координации, Ecoord с E, Ecoord = f (vRA ); G - сформированные группы, при этом

под группой понимается множество Ag, с A при ограничениях:

Gn eN

П AGk = 0, mGk : mGk с AGk Л mGk = ^ wGk : wGk с AGk Л

Jk

k=1

WGk

> 1Л

AGk I, CGk : Vai, a 1 ai e wGk, a e mGk 3ei e CGk , G : vAa ^ min , где

Л|<

ток - множество агентов-менеджеров группы О^, wоk - множество агентов-подчиненных группы Ок, Сок - коммуникационный граф группы Ок, е{ - ребро коммуникационного графа Сок, в качестве вершин которого выступают агент-подчиненный щ и агент-менеджер а , при этом под коммуникационным графом понимается направленный циклический граф, отражающий направления информационного обмена агентов некоторого множества; Ссоог^ - коммуникационный граф уровня координации при ограниче-

К

ZI G j=1 "e

W

_j=1 ej

ниях VCg, : Cg, с Ccoord , —---> min, где Ec - множество ребер

k k ^G,

ЕС

Сок

графа Со , - весовой коэффициент ребра е ■, представляющий величину

коэффициента использования канала связи между агентами, составляющими вершины ребра, по пропускной способности (информационная эффективность).

2. Прикладной уровень (нижний уровень), предназначенный для управления агентами в рамках решения задач конкретного типа. Структура прикладного уровня регламентируется содержанием поставленной задачи Т, которая имеет следующий формат: Т = От, Ет,Ят, где От - множество целевых показателей характеристик окружающей среды, Ет - целевые показа-

тели эффективности МАС, Rt - множество ресурсов (с указанием их объема -Vrt ), необходимых агентам для достижения обозначенных целевых характеристик окружающей среды и показателей эффективности МАС.

Структура прикладного уровня Lapp в целом соответствует (1), за исключением множества G, которое отсутствует. В качестве примеров ролей прикладного уровня могут быть рассмотрены следующие (для задачи визуального обследования территории и построения ее трехмерной модели): агент-сканер (выполняет формализацию и первичную обработку визуальных восприятий, полученных от сенсоров, например видеокамеры или лазерного сканера), агент-обработчик (выполняет трехмерную реконструкцию окружающей среды на основании данных, полученных от агента-сканера), агент-хранилище (осуществляет хранение трехмерных моделей, а также их передачу на центральный сервер). В рамках коммуникационного графа прикладного уровня агенты-сканеры будут соединены ребрами с агентами-обработчиками, связанными, в свою очередь, с агентами-хранилищами. Следовательно, для реализации рассматриваемой задачи необходимо некоторое число единиц следующих ресурсов: видеосъемка (или лазерное сканирование), вычислительные и коммуникационные ресурсы, память.

Таким образом, организационная структура МАС 0$ может быть описана следующим множеством: 0$ = {A,T,Lcoord,Lapp } | VRT ^ min .

\А Т

Замечание: объем потребляемых ресурсов У„ определяется расчетным путем.

Как уже ранее отмечалось, недостатком метода «KB-ORG» является его низкая адаптивность в случае изменения параметров окружающей среды или условий задачи. Для его устранения предлагается модифицировать рассматриваемый метод, добавив этап автоматической адаптации организационной структуры 0$ .

Обозначим ресурс агента Я как первичный ресурс (Я1), характеризующий аппаратную составляющую агента, а также его опыт (актуален как для агентов-менеджеров, так и для агентов-подчиненных). Выделим также вторичный ресурс Я, который рассчитывается для агентов-менеджеров и складывается из объемов первичных ресурсов агентов-подчиненных, входящих в его группу.

Для агентов обоих типов также может быть рассчитан такой показатель, как доход, характеризующий степень успешности агента, определяемый по следующим формулам:

1м> = I (Еарр ) kdamp , (2)

где I^ - доход агента-подчиненного; Еарр - множество показателей эффективности прикладного уровня; kdamp - коэффициент затухания, kdamp = /()е [0,1], Нт /(*) = 0; * - некоторый временной интервал,

* е[*т, (Х+А(], *те|*о, }, т = 0, тм , т м е N, _ = А;

I

m

= f ({(к e WGk }), (3)

где Im - доход агента-менеджера a е ; Gk - некоторая группа агентов, AGk <= A •

Целью любого агента-менеджера и агента-подчиненного является максимизация своего дохода, следовательно

(Iwa1 ^ max 1 Vai е wGk ) ( ( max 1 a е mGk ) •

Из (2) и (3) также следует зависимость дохода агента-менеджера от числа агентов-подчиненных, принадлежащих его группе, и, соответственно, от своего вторичного ресурса. Однако бесконтрольная вербовка агентов-подчиненных может привести к критической загрузке вычислительной и коммуникационной систем агента-менеджера (либо отдельного агента-коммуникатора). Из этого следует необходимость выделения показателей, характеризующих как потребность агента-менеджера в привлечении новых агентов-подчиненных, так и желание агентов-подчиненных покинуть группу данного агента-менеджера. Обозначенный принцип лежит в основе алгоритма биогеографической оптимизации [7], основанного на моделировании процесса миграции животных и заселения ими различных территорий. Смысл алгоритма заключается в анализе значения параметра привлекательности территории для миграции, который может зависеть от таких характеристик, как климат, объем пищевых ресурсов, степень заселенности территории (чем больше видов проживает на этой территории, тем менее привлекательной для миграции она становится). Применим обозначенный алгоритм к задаче формирования организационной структуры МАС, для этого введем следующие понятия:

1. Привлекательность агента-менеджера,

* = (/ (Im )* kload ))0,1] , (4)

характеризующая как готовность агентов-подчиненных к переходу под его управление, так и его желание принимать их, где kioad - коэффициент, характеризующий нагрузку на вычислительную систему агента-менеджера в момент времени t,

kload

= f(Lm И [0,1], (5)

lim f (Lm) = 0 , Lm - уровень нагрузки на вычислительную систему агента-

Lm

менеджера, t е [tx, tx + At], txe{to, tb..., t%}, x = 0, xN , x N е N, tx - tx4 =At.

Относительно целесообразности учета показателя kioad могут возникнуть сомнения в связи с его очевидной зависимостью от величины Im - снижение дохода агента-менеджера может являться следствием существенной загрузки его вычислительной системы (агент-менеджер не успевает оперативно обрабатывать все поступающие сообщения). Однако учет значения

данного показателя позволит вовремя идентифицировать наличие негативных тенденций, например, при равном значении дохода (1% = I%) в моменты времени ^ и ¿2 (¿2 > h) коэффициент нагрузки может отличаться

), что позволяет

(к&аЛ > к Lad ), как и число агентов-подчиненных (

Ah AG

говорить о постепенном исчерпании ресурса и нежелательности приема новых агентов-подчиненных в группу. Очевидно, что при равенстве значений е для двух агентов-менеджеров приоритет должен отдаваться тому, который находится ближе всего к данному агенту-подчиненному, поскольку большое расстояние между агентами указанных типов увеличивает риск снижения скорости передачи данных или потери связи и снижает полезность данного агента-подчиненного при решении задач, поставленных группе (перемещение такого территориально удаленного агента в сектор выполнения поставленной задачи может повлечь существенные издержки). Следовательно, привлекательность агента-менеджера должна рассматриваться в первую очередь с точки зрения агента-подчиненного с учетом расстояния между ними, в связи с чем введем в формулу (4) коэффициент удаленности агента-подчиненного от агента-менеджера kdist:

e = (f (Im )* kload * kdist ) —[0,1], (6)

где

kdist = f (dm ) —[0,1], (7)

lim f (dm ) = 0, dm - прямое расстояние между агентом-менеджером и

dw ^ ' um ^

агентом-подчиненным.

2. Недовольство агента-подчиненного, 6 = (f (Iw )* kcnst) —[0,1], характеризующее его желание перехода в другую группу. Недовольство агента-подчиненного возрастает с уменьшением получаемого дохода (индикатор того, что агент-менеджер не справляется со своими обязанностями либо по причине отсутствия опыта, либо в связи с высокой нагрузкой на его вычислительную систему - он просто не успевает обрабатывать всю информацию, получаемую от агентов-подчиненных), а также с увеличением расстояния до агента-менеджера.

Как уже ранее отмечалось, важность временного фактора может варьироваться в зависимости от поставленной задачи. Аналогичным образом можно говорить и о значении фактора расстояния между агентом-менеджером и агентами-подчиненными, который также может зависеть как от параметров их подсистем связи, так и характеристик окружающей среды (например, наличие массивных бетонных конструкций снижает качество связи). В зависимости от задачи также может меняться оптимальное количество агентов-подчиненных в группах. Данные обстоятельства позволяют утверждать, что адаптации показателей (4)-(7) целесообразна в зависимости от обозначенных выше факторов. Возможны следующие пути реализации данной задачи: определение функций (4)-(7) на основании экспертных оценок, однако в этом

случае велик риск получения неточных и субъективных значений; выполнение обучения на основании некоторой выборки данных, полученных опытным путем, однако нет уверенности в репрезентативности сформированной выборки, также возникает необходимость в дополнительном обучении в случае существенного изменения базы опыта; непрерывное обучение, при этом в качестве учителя выступает окружающая среда. На наш взгляд, в данном случае наиболее целесообразным является применение третьего подхода, а именно парадигмы обучения с подкреплением [8].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть S - множество состояний, в которых может находиться агент-

подчиненный ai е G , при этом состояние St ={IW, Im, kload, kdist} , Sa е S , где G - группа, которой принадлежит ai ; Iw - текущий доход агента ai ; Im - текущий доход его агента-менеджера aG ; kload - коэффициент загрузки aG; kdist - коэффициент удаленности aG; t е [tx, tx + At], tx е {to, tj,..., tXN}, x = 0, Xn , Tn е N, tx — tx_j = At. В момент времени t агент ai может выполнить следующие действия: остаться в группе G; перейти в группу Gk, Gk Ф G, k = 1, Gn _ 1, Gn - количество сформированных групп, Gn е N. В результате перехода St, Ak, S' агент ai получает некоторое подкрепление r$,Ak ,S' е [_1,1], где Ak - выполненное действие, k = 1, Gn . Для каждой пары St, Ak рассчитывается значение ценности действия Q(St, Ak) по следующей формуле [8]: Q (St, Ak ) Q (St, Ak )+a [ r+yQ (S', A')_Q (St, Ak )], где a - параметр скорости обучения; r = rSt Ak St+j = R(St, Ak,S') - подкрепление агента ai за реализацию перехода St ^ S'; R - функция подкреплений, уе [0,1] - значение дисконта. При этом lim R =

I forward ,

1 w

= 1 л lim R = _1, где Iwforward - доход, полученный агентом ai после

Iwforward ^0

осуществления перехода St ^ S'. В дальнейшем на основании Q(St, Ak) может быть реализована оптимальная стратегия (функция) поведения (п:Ak =n(St)) агента-подчиненного ai в плане выбора группы.

В результате для каждой задачи T получаем кортеж T, A, O, S, Q, п, где A - множество агентов МАС; O - организационная структура МАС; S - множество состояний агентов-подчиненных ai е A, S = {Sf}; St ={Iw, Im, kioad, kdist } = {Iw, e}; e - привлекательность агента-менеджера группы G (aG : at е G); Q - Q-таблица вида Q ={Sf, Ak ^ Qn } , n = 1,Qn , Qn е N; п - стратегия поведения агента ai.

Результаты

Цель эксперимента: в результате выполнения компьютерного моделирования доказать эффективность применения предложенного метода оптимизации организационной структуры, реализованного на основе биогеографическо-

го алгоритма, на примере централизованных МАС, основанных на применении парадигмы обучения с подкреплением с выполнением обмена опытом между агентами. Рассматриваемая многоагентная система и алгоритмы ее работы описываются в [9-11]. Основные параметры эксперимента приведены в табл. 1.

Таблица 1

Основные параметры эксперимента

Параметр Описание

Описание решаемой задачи Достижение всеми агентами некоторого целевого положения на ограниченной территории (с наличием препятствий).

Описание внешней среды Виртуальный лабиринт (рис. 1), сформированный в среде Microsoft Unity, при этом стены в лабиринте устанавливаются случайным образом. Размерность лабиринта 150 х 150. При этом под единицей размерности понимается клетка, соответствующая одному квадратному блоку, применяемому для формирования стен. Структура лабиринта на протяжении эксперимента меняется случайным образом (изменение типа одной случайной клетки происходит с периодичностью в 5 с)

Тип применяемых агентов Виртуальные агенты, имитирующие мобильных роботов на колесной транспортной платформе, оснащенных видеокамерой

Число агентов 26, при этом первоначальное формирование групп выполнялось на основании алгоритма «KB-ORG» [4], а также алгоритма приводимого в [10]. Случайное обездвижение агента-менеджера (имитация выхода из строя) выполнялось в среднем на 14 с (продолжительность времени обездвижения также выбиралась случайным образом из интервала 5-20 с, максимальное число одновременно обездвиженных агентов-менеджеров - два). Минимальное число агентов в группе -три (включая агента-менеджера)

Механизм выбора стартовых положений агентов Координаты стартовых положений генерируются случайным образом на каждой итерации

Механизм выбора целевого состояния Координаты целевого состояния генерируются случайным образом на каждой итерации

Число итераций (попыток) 200, при этом итерация считается выполненной в случае достижения критерия решения задачи

Имитация загруженности вычислительной системы агента-менеджера При назначении задач, а также при расчете подкреплений на каждого агента-подчиненного генерировалась задержка в 0,3 с

Имитация задержки в канале связи в зависимости от расстояния Агент-подчиненный получал информационные сообщения от агента-менеджера с задержкой из расчета 0,2 с на 5 клеток прямого расстояния между ними

Критерий оценки эффективности метода Время выполнения задачи (соответствует одной итерации)

Критерий, позволяющий утверждать, что задача решена успешно Перемещение всех агентов в целевое состояние

Рис. 1. Применяемая карта размерности 150 х 150 Результаты, полученные в ходе эксперимента, представлены на рис. 2.

Рис. 2. Результаты эксперимента (зависимость времени выхода всех агентов из лабиринта от номера итерации)

На рис. 2 приняты следующие условные обозначения: bg_opt - МАС [9-11] с применением разработанного метода адаптации организационной структуры; standart - МАС [9-11] без применения разработанного метода.

Обсуждение

Как видно на рис. 2, применение разработанного метода позволило уже к 50-й итерации уменьшить время выполнения поставленной задачи в среднем на 12,9 % в сравнении со стандартной системой, а к 200-й итерации этот показатель достиг 54,6 %. Полученный выигрыш в производительности обусловлен оптимизацией структуры групп, а также ее оперативной адаптацией к изменившимся условиям окружающей среды. Полученные экспериментальные данные свидетельствуют о целесообразности применения разработанного метода в централизованных МАС.

Разработанный метод может найти свое практическое применение при реализации следующих задач: обследование (или патрулирование) мобильными роботами инфраструктурных объектов; реализация искусственного интеллекта в компьютерных играх (например, следующих жанров: стратегии, «экшн», приключения).

Заключение

В результате исследования был разработан метод синтеза организационной структуры централизованных многоагентных систем с возможностью ее автоматической адаптации в случае изменения параметров окружающей среды или поставленной задачи, основанный на применении биогеографического алгоритма и парадигмы обучения с подкреплением.

Список литературы

1. Horling B., Lesser V. A Survey of Multi-Agent Organizational Paradigms // The Knowledge Engineering Review. 2005. Vol. 19 (04). P. 281-316.

2. Zhiqi Shen, Ling Yu, Han Yu. An Evolutionary Approach for Optimizing Hierarchical Multi-Agent System Organization / arXiv:1411.6202v1 [cs.MA] 22 Nov 2014. doi: 10.48550/arXiv.1411.6202

3. Bistaffa F., Farinelli A., Cerquides J. [et al.]. Anytime Coalition Structure Generation on Synergy Graphs // Conference: 2014 international conference on Autonomous agents and multi-agent systems. URL: https://www.researchgate.net/publication/ 269092245_Anytime_coalition_structure_generation_on_synergy_graphs (дата обращения: 22.01.2023).

4. Sims M., Corkill D., Lesser V. Knowledgeable Automated Organization Design for Multi-Agent Systems // Autonomous Agents and Multi-Agent Systems. 2008. Vol. 16(2). Р. 151-185. doi: 10.1007/s10458-007-9023-8

5. Rahwan T., Michalak Tomasz P., Wooldridg M., Jennings Nicholas R. Coalition structure generation: A survey // Artificial Intelligence. 2015. Vol. 229. P. 139-174.

6. Rahwan T., Michalak Tomasz P. Coalition Structure Generation on Graphs / arXiv:1410.6516. 2014. doi: 10.48550/arXiv.1410.6516

7. Саймон Д. Алгоритмы эволюционной оптимизации / пер. с англ. А. В. Логунова. М. : ДМК Пресс, 2020. 1002 с.

8. Саттон Р. С., Барто Э. Дж. Обучение с подкреплением: Введение. 2-е изд. / пер. с англ. А. А. Слинкина. М. : ДМК Пресс, 2020. 552 с.

9. Дубенко Ю. В. Метод повторного применения и обмена опытом при коллективном взаимодействии интеллектуальных агентов // Вестник Воронежского государственного технического университета. 2022. Т. 18, № 1. С. 62-72.

10. Дубенко Ю. В. Алгоритм коллективного взаимодействия интеллектуальных агентов в централизованных многоагентных системах // Вестник компьютерных и информационных технологий. 2022. Т. 19, № 10 (220). С. 30-42.

11. Дубенко Ю. В., Дышкант Е. Е., Тимченко Н. Н., Рудешко Н. А. Гибридный алгоритм формирования кратчайшей траектории, основанный на применении много-агентного обучения с подкреплением и обмена опытом // Вестник компьютерных и информационных технологий. 2021. Т. 18, № 11 (209). С. 13-26.

1. Horling B., Lesser V. A Survey of Multi-Agent Organizational Paradigms. The Knowledge Engineering Review. 2005;19(04):281-316.

2. Zhiqi Shen, Ling Yu, Han Yu. An Evolutionary Approach for Optimizing Hierarchical Multi-Agent System Organization / arXiv:1411.6202v1 [cs.MA] 22 Nov 2014. doi: 10.48550/arXiv.1411.6202

3. Bistaffa F., Farinelli A., Cerquides J. et al. Anytime Coalition Structure Generation on Synergy Graphs. Conference: 2014 international conference on Autonomous agents and multi-agent systems. Available at: https://www.researchgate.net/publication/ 269092245_Anytime_coalition_structure_generation_on_synergy_graphs (accessed 22.01.2023).

4. Sims M., Corkill D., Lesser V. Knowledgeable Automated Organization Design for Multi-Agent Systems. Autonomous Agents and Multi-Agent Systems. 2008;16(2):151-185. doi: 10.1007/s10458-007-9023-8

5. Rahwan T., Michalak Tomasz P., Wooldridg M., Jennings Nicholas R. Coalition structure generation: A survey. Artificial Intelligence. 2015;229:139-174.

6. Rahwan T., Michalak Tomasz P. Coalition Structure Generation on Graphs / arXiv:1410.6516. 2014. doi: 10.48550/arXiv.1410.6516

7. Saymon D. Algoritmy evolyutsionnoy optimizatsii = Evolutionary optimization algorithms. Traslated from English by A.V. Logunova. Moscow: DMK Press, 2020:1002. (In Russ.)

8. Satton R.S., Barto E.Dzh. Obuchenie s podkrepleniem: Vvedenie. 2-e izd. = Reinforcement learning: An introduction. 2nd ed. Traslated from English by A.A. Slinkina. Moscow: DMK Press, 2020:552. (In Russ.)

9. Dubenko Yu.V. Method of re-application and exchange of experience in collective interaction of intelligent agents. Vestnik Voronezhskogo gosudarstvennogo tekhnich-eskogo universiteta = Bulletin of Voronezh State Technical University. 2022;18(1):62-72. (In Russ.)

10. Dubenko Yu.V. Algorithm for collective interaction of intelligent agents in centralized multi-agent systems. Vestnik komp'yuternykh i in-formatsionnykh tekhnologiy = Bulletin of Computer and Information Technologies. 2022;19(10):30-42. (In Russ.)

11. Dubenko Yu.V., Dyshkant E.E., Timchenko N.N., Rudeshko N.A. Hybrid algorithm for generating the shortest trajectory based on the use of multi-agent reinforcement learning and experience sharing. Vestnik komp'yuternykh i informatsionnykh tekhnologiy = Bulletin of Computer and Information Technologies. 2021;18(11):13-26. (In Russ.)

References

Информация об авторах / Information about the authors

Юрий Владимирович Дубенко

кандидат технических наук, доцент, доцент кафедры информатики и вычислительной техники, Кубанский государственный технологический университет (Россия, г. Краснодар, ул. Московская, 2)

Yuriy V. Dubenko

Candidate of engineering sciences, associate professor, associate professor of the subdepartment of informatics and computer engineering, Kuban State Technological University (2 Moskovskaya street, Krasnodar, Russia)

E-mail: Scorpioncool1@yandex.ru

Евгений Евгеньевич Дышкант

кандидат технических наук, доцент кафедры информатики и информационных технологий обучения, Армавирский государственный педагогический университет (Россия, Краснодарский край, г. Армавир, ул. Розы Люксембург, 159)

E-mail: ed0802@yandex.ru

Александр Анатольевич Обозовский преподаватель, Краснодарское высшее военное орденов Жукова и Октябрьской Революции Краснознаменное училище имени генерала армии С. М. Штеменко (Россия, г. Краснодар, ул. Красина, 4)

E-mail: mr.bolduin@list.ru

Evgeniy E. Dyshkant Candidate of engineering sciences, associate professor of the sub-department of informatics and information technologies of education, Armavir State Pedagogical University (159 Rozy Lyuksemburg, Armavir, Krasnodar Territory, Russia)

Aleksandr A. Obozovskiy Lecturer, Krasnodar Higher Military Orders of Zhukov and the October Revolution Red Banner School named after Army General S.M. Shtemenko (4 Krasina, Krasnodar, Russia)

Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.

Поступила в редакцию / Received 09.03.2023

Поступила после рецензирования и доработки / Revised 24.04.2023 Принята к публикации / Accepted 15.06.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.