Компьютерные инструменты в образовании, 2015 № 6: 34-42 УДК: 519.712 http://ipo.spb.ru/journal
УПРАВЛЕНИЕ РОЕМ ДИНАМИЧЕСКИХ ОБЪЕКТОВ НА БАЗЕ МУЛЬТИАГЕНТНОГО ПОДХОДА*
Ерофеева Виктория Александровна, Иванский Юрий Владимирович,
Кияев Владимир Ильич
Аннотация
В статье рассматривается возможность применения технологий мультиагентных систем к задаче управления роем. Приводится описание ключевых особенностей роевого управления и протокола локального голосования, с помощью которого строится стратегия адаптивного управления в условиях неопределенностей, а также представлен алгоритм управления роем динамических объектов на основе достижения консенсуса.
Ключевые слова: мультиагентные технологии, роевое управление, роевой интеллект, протокол локального голосования, самоорганизация, адаптивные системы.
1. МУЛЬТИАГЕНТНЫЙ ПОДХОД И РОЕВОЕ УПРАВЛЕНИЕ
Технология мультиагентных систем (МАС) — это новая парадигма развития ИТ, ориентированная на совместное использование технологических и технических достижений и преимуществ, которые предоставляют возможности и методы искусственного интеллекта (ИИ), аппаратные и программные средства поддержки распределенности и открытости. В связи с этим, в настоящее время активно развиваются методы формирования и построения сложных адаптивных систем на базе мультиагентных методов и технологий [1]. Такие системы часто применяются для управления ансамблями (роями, swarms; стаями, flocks) динамических объектов [2, 3], выполняющих общую задачу или задачу с разделяющимися целями в условиях неопределенности [4]. В качестве исполнительных элементов таких систем используются робототехнические устройства различного назначения, которые могут действовать одновременно в трех средах: на земле (стационарные, колесные и гусеничные устройства), под водой (миниатюрные беспилотные подводные лодки, БППЛ) и в воздухе (беспилотные летательные аппараты, БПЛА).
Роевое управление представляет собой новый подход, изучающий возможности построения системы из совокупности автономных интеллектуальных агентов (роботов) для достижения коллективных целей, которые не могут быть достигнуты отдельным роботом или для которых коллективное выполнение поставленной задачи более эффективно. Основополагающей идеей роевого управления является «роевой интеллект» (РИ, Swarm Intelligence), широко наблюдаемый в природном мире: косяки рыб, колонии пчел,
* Работа выполнена при поддержке гранта РФФИ (проект № 15-08-02640).
информационные
СИСТЕМЫ
муравьев и прочие. Термин «роевой интеллект» был введён в 1989 году в контексте исследования системы клеточных «роботов» [5]. Роевой интеллект — это система, реализующая управление коллективным поведением децентрализованной самоорганизующейся совокупностью однородных объектов. Роевой интеллект рассматривается в теории искусственного интеллекта как метод «не до конца формализуемой оптимизации».
Суть роевого интеллекта состоит в том, что рой, состоящий из динамических объектов (агентов), обладает большими возможностями по сравнению с его отдельными индивидами. Посредством установления коммуникаций между членами роя и взаимодействия с внешней средой возможно решение задач, на выполнение которых у отдельного агента не хватает возможностей.
Рис. 1. Два вида роевого управления
Выделяют два вида роевого управления (рис. 1). Первый из них можно отнести к самоорганизующимся системам, характерным природным образованиям. Признаки биологической самоорганизации:
- каждая особь в рое не обладает индивидуальным сознанием и свободой выбора;
- правила поведения определяются генетическим набором, заложенным в каждую особь;
- квазиразумная деятельность роя направлена на сохранение роя как целого и обеспечение его безопасности;
- рой, как правило, состоит из представителей одного вида;
- роли особей в рое могут различаться (в колониях муравьёв, термитов, пчёл и т. д.).
Для такого роя нет какой-либо централизованной системы управления поведением каждой особи. Локальные и, в достаточной степени, случайные взаимодействия приводят к возникновению «квазиинтеллектуального» глобального поведения роя, которое может не контролироваться отдельными агентами. В этом случае мы имеем многоагентную систему, которая обладает самоорганизующимся поведением и которая, суммарно, должна проявлять некоторое «разумное» поведение.
Второй шд РИ предполагает наличие управления, причем управляющие воздействия могут поступать как от внешней по отношению к рою управляющей системы, так и от «назначенного» или «локального» лидера (агента), находящегося внутри роя. В первом случае «назначенный» лидер выполняет команды, поступающие от внешнего управляющего центра, а остальные агенты выполняют действия, подчиняясь достаточно простым правилам. Если агенты (роботы) перемещаются по плоскости с заданием образовать определенную конфигурацию, то правила могут быть следующими: расчет расстояния от начальной точки; выстраивание в группу; образование заданного градиента плотности; локализация. Если агенты перемещаются в пространстве, то они должны: держать дистанцию между собой и другим объектом; двигаться в том направлении, где находится ближайший объект; стремиться к центру массы группы ближайших объектов; постоянно «общаться с лидером». Среди основополагающих свойств управляемого роя обычно рассматривается масштабируемость, гибкость и надежность.
Рассмотрим набор критериев, которые являются отличительными чертами объектов роевой системы: агенты (роботы) являются автономными, то есть способны двигаться и взаимодействовать с окружающей средой без централизованного управления; задача должна выполняться в совокупности большим количеством объектов, это означает, что система должна быть разработана с учетом масштабируемости; рой состоит из однородных групп агентов (роботов), упор делается на большое количество одинаковых объектов, нежели на централизованно-управляемые гетерогенные объекты, где каждому агенту (роботу) назначена «персональная» роль.
В этом случае можно рассмотреть три возможные стратегии управления:
- централизованная — дистанционное управление с выделенной базовой станцией, лидер роя назначается из центрального узла;
- децентрализованная — лидер роя определяется на основе какого-либо алгоритма и не зависит от центральной управляющей станции;
- смешанная — совмещает в себе преимущества централизованной и децентрализованной стратегий путем выделения лидера роя на основе одного из алгоритмов с передачей прав управления оператору при необходимости.
2. ДИНАМИКА АГЕНТА, ПОТЕНЦИАЛ ДВИЖЕНИЯ, ПРЕДУПРЕЖДЕНИЕ СТОЛКНОВЕНИЙ
Достаточно многочисленное множество Б динамических объектов (агентов) (г = 1, п), совместное взаимодействие которых обеспечивает решение некоторого множества задач Р = р1,..., рт, будем называть роем. При этом вводятся следующие предположения:
• Все агенты ^ (г = 1,..., п) одинаковы.
• Агент е Б может осуществлять обмен сообщениями с некоторым подмножеством агентов Б[ е Б, находящихся в пределах некоторой зоны, ограниченной радиусом Я, которую обычно называют «зоной видимости». С помощью такого информационного обмена агенту ^ может быть доступна информация о состоянии агентов подмножества .
• Агент движется на расстоянии г от своих ближайших соседей.
• Для решения поставленных задач рг е Р оператор предоставляет каждому агенту
карту потенциалов, определяющую перспективность движения в определенном
направлении. Однако, у агентов нет сведений ^а^ичш преград на пути следования. По мере движения у каждого агента формируется собственная потенциальная картина мира.
• Движение каждого агента di характеризуется направлением %1 и значением потенциала выбранного пути .
• Каждый агент обладает базой знаний об окружающем мире, которую он пополняет по пути следования (на основе датчиков, методов компьютерного зрения, информации от соседей, пересчета значения потенциала пути и т. д.).
• Потенциальная функция характеризует возможность достижения цели х при сохранении движения в направлении х\. Например, при известном направлении на цель в] для агента г в момент времени Ь можно положить ц\ = ц\ (х\) = {х\, в]).
• Каждый агент при окончательном определении направления движения старается выбрать маршрут так, чтобы избежать столкновений. Например, можно задать функцию ф{хЬ), которая отклоняет движение в случайном направлении в том случае, если агент г обнаруживает препятствие в направлении х\ на расстоянии ближе г.
3. ПРОТОКОЛ ЛОКАЛЬНОГО ГОЛОСОВАНИЯ
Протокол локального голосования (алгоритм типа стохастической аппроксимации) был предложен в [6] для задачи достижения консенсуса в сети агентов. В [7, 8] алгоритм стохастической аппроксимации с постоянным размером шага исследовался для достижимости асимптотического среднеквадратического консенсуса в задаче с нелинейной динамикой в условиях изменяющейся топологии, помех и задержек. В [9, 10] протокол локального голосования был модернизирован для задач со стоимостными ограничениями на передачу информации в каналах связи между агентами. Эта задача представляет собой частный случай оптимизации нестационарного функционала типа среднего риска [11,12].
Для формирования управления каждый агент йг е Б в момент времени Ь = 0,1,2,... имеет зашумленную информацию о своем собственном направлении движения, усиленную (домноженную) на текущий потенциал своего маршрута:
у/4 = 8 г + ш Ьг 4, (1)
8 Ь = Ц ¡х \, (2)
и, если БФ 0, зашумленные наблюдения о направлениях движения соседей, также до-множенные на потенциалы маршрутов соседей:
У3 = 83 + шьг'3, 3 е Б\, (3)
где шЬ1•3, шЬ1 ,г — помехи (шум), а 0 < Нгг'3 < Н — целочисленная задержка, Н — максимально возможная задержка. Положим шЬг•3 = 0 и Н•3 = 0 для всех остальных пар (г,3), для которых они не были определены. Так как система начинает работу при Ь = 0, то неявное требование к множеству соседей: 3 е БЬ - Н•3 > 0.
Консенсусное мультиагентное управление, формируемое по «протоколу локального голосования», задается следующим соотношением [7]:
и\ = а Ь\3 (у';3 - у^), (4)
3 еБ\
где а — величина шага протокола управления, В\ с В\, Ьг'1 > 0 V1 е В\. Положим 1 = 0 для других пар (г, 1).
Динамика изменения направления движения объекта будет описываться разностным уравнением:
х\+1 = х\+/ и, 4) (5)
с управлением и\ е К, воздействие которого на изменение направления х\ определяется некоторой функцией /(•, •) : К3 х К3 — К3, формирующей окончательное управление в соответствии с процедурой избежания столкновений.
Обоснование работоспособности алгоритма (5) при достаточно общих статистических условиях о неопределенностях можно провести по аналогии, как в [8].
В качестве примера применения алгоритма рассмотрим следующую задачу: перемещение роя агентов из точки А в точку В в условиях неопределенности в отношении преград, встречающихся на пути следования (рис. 2).
Рой в начале движения Синхронизация движения Разделение роя при обходе препятствия
Рис. 2. Перемещение роя из точки А в точку В по протоколу локального голосования
Влияние потенциала на движение роя состоит в том, что при его существенном изменении объектам роя необходимо поменять свое направление в сторону, повышающую вероятность выполнения задачи. В частности, когда рой встречает преграду, у ближайшего к ней объекта значительно падает потенциал движения по выбранному им пути. В результате, рою необходимо изменить свое направление движения, что может быть достигнуто путем применения протокола локального голосования, рассмотренного выше.
Рассмотрим процесс расчета изменения траектории агентом при движении роя без препятствий из точки А в точку В (рис. 3). Отметим, что потенциал ц агентов, движущихся точно по направлению к цели, равен 1.
По своей сути, рассмотренный выше протокол локального голосования действует подобно природному поведению роя муравьев, пчёл и т.д. в аналогичной ситуации (рис. 4). Такой подход дает возможность применения принципов самоорганизации для управления группами роботизированных устройств.
4. АЛГОРИТМ УПРАВЛЕНИЯ РОЕМ ДИНАМИЧЕСКИХ ОБЪЕКТОВ
Предлагается использовать следующий обобщенный алгоритм управления роем агентов на основе консенсуса:
1. Все агенты, входящие в состав роя, получают из некоторого пункта управления задачу, стоящую перед роем.
Рис. 3. Расчет изменения траектории агентом
Рис. 4. Движение роя пчёл без преграды и с ней
2. Инициализация протокола голосования, установка связей между соседями, начало обмена сообщениями.
3. Каждый агент ^ 6 Б получает информацию о текущем направлении движения объектов роя, находящихся в зоне его видимости, и числовую характеристику потенциала их движения.
4. На основании собственных и полученных данных, определяемых формулами (1) и (3) соответственно, формируется управление по формуле (4).
5. Изменение направления движения по формуле (5) с применением функции избегания столкновений.
6. Пересчет потенциала движения qt на основе априорной информации агента и дополнительных сведений, получаемых при исследовании мира и от соседей.
Так как роевое управление построено на принципах самоорганизации, приведем алгоритм управления только отдельной особью роя (алг. 1).
Algorithm 1 Управление роем динамических объектов на основе консенсуса procedure SwarmControl начало выполнения, t=0; установка шага протокола а; repeat
GetDirectionsAndPotentials;
вычисление значений ytl'1 и ytl'j по формулам (1) и (3); формирование управления ut по формуле (4); CollisionAvoidance;
определение направления движения xt+\ по формуле (5); пересчет потенциала движения qt; t = t + 1;
until решение задачи не достигнуто; end procedure
> Получение направлений движения соседей и их потенциалов в асинхронном режиме
procedure GetDirectionsAndPotentials
for i = 0; i < size (self .neighbour List); i + + do
self.directions[i] = self.neighbourList[i].RequestDirection(); self.potentials[i] = self.neighbourList[i].RequestPotential(); end for end procedure
> Отправка своего направления движения x[ в ответ на запрос соседа function SendDirection return self.direction;
end function
> Отправка своего потенциала движения qt в ответ на запрос соседа function SendPotential return self.potential;
end function
5. ЗАКЛЮЧЕНИЕ
В заключение отметим, что управляющие и робототехнические комплексы на базе интеллектуальных встроенных систем, снабженных наборами необходимых датчиков, которые действуют в группах в условиях неопределенности и управление которыми осуществляется на описанных выше принципах МАУ, могут успешно использоваться для:
- активного мониторинга целостности, работоспособности, безопасности критически важных объектов и сетей;
- оперативного управления инцидентами в трех средах (на земле, под водой и в воздухе) с перераспределением ролей и локальных задач в ходе мониторинга и принятия текущих решений для решения общей задачи.
Список литературы
1. Rzevski G., Skobelev P. Managing Complexity. WIT Press, 2014.
2. LiW. Stability analysis of swarm with general topology // IEEE Trans. Syst. Man. Cybern. B. 2008. Vol. 38. No. 4. P. 1084-1097.
3. Tanner H.G., Jadbabaie A., Pappas G.J. Flocking in fixed and switching networks // IEEE Trans. Autom. Contr. 2007. Vol. 52. No. 5. P. 863-868.
4. Бендерская Е.Н., Граничин О.Н., Кияев В.И. Мультиагентный подход в вычислительных технологиях: новые грани параллелизма и суперкомпьютинг. // Сборник научных статей 8-й Международной научной конференции «Информационные технологии в бизнесе». СПб, изд-во «Инфо-да»: 7-13, 2013.
5. Beni G., Wang J. Swarm Intelligence in Cellular Robotic Systems, Proceed. NATO Advanced Workshop on Robots and Biological Systems, Tuscany, Italy, P. 26-30,1989.
6. Huang M. Stochastic approximation for consensus: a new approach via ergodic backward products. IEEE Transactions on Automatic Control, 57(12): 2994—3008, 2012.
7. Амелина Н.О., Фрадков А.Л. Приближенный консенсус в стохастической динамической сети с неполной информацией и задержками в измерениях. Автоматика и телемеханика, 2012. № 11. С. 6-29.
8. Amelina N., Fradkov A., Jiang Y., Vergados D.J. Approximate Consensus in Stochastic Networks with Application to Load Balancing // IEEE Transactions on Information Theory, April 2015, Vol. 61, Issue 4, pp. 1739-1752.
9. Амелина Н.О., Иванский Ю.В. Задача достижения дифференцированного консенсуса при стоимостных ограничениях // Вестник СПбГУ. Сер. 1: Математика. Механика. Астрономия, 2015. Т. 2(60). Вып. 4. C. 3-14.
10. Ivanskiy, Y., Amelina N., Granichin O., Granichina O., Jiang Y. Optimal step-size of a local voting protocol for differentiated consensuses achievement in a stochastic network with cost constraints // In: Proc. of the 2015 IEEE Conference on Control Applications, September 21-23, 2015, Sydney, Australia, pp. 1367-1372.
11. Granichin O., Amelina N. Simultaneous Perturbation Stochastic Approximation for Tracking under Unknown but Bounded Disturbances // IEEE Transactions on Automatic Control, vol. 60, issue 6, June 2015, pp. 1653-1658.
12. Amelina N., Erofeeva V., Granichin O., Malkovskii N. Simultaneous perturbation stochastic approximation in decentralized load balancing problem // In: Proc. of 1st IFAC Conference on Modelling, Identification and Control of Nonlinear Systems, June 24-26, 2015, Saint Petersburg, Russia. P. 946-951. (IFAC Proceedings Volumes (IFAC-PapersOnline) Volume 48, Issue 11).
SWARM CONTROL OF DYNAMIC OBJECTS BASED ON MULTI-AGENT TECHNOLOGIES
Erofeeva V. A., Ivanskiy Yu. V., Kiyaev V. I. Abstract
In this paper we study the possibility of multi-agent systems application to the problem of swarm control. We describe the key features of swarm control and adaptive control strategy under uncertain conditions based on local voting algorithm. We also propose a consensus-based algorithm to control a swarm of dynamic objects.
Keywords: multi-agent technologies, swarm control, swarm intelligence, local voting algorithm, self-organization, adaptive systems.
Ерофеева Виктория Александровна, аспирант кафедры системного программирования
математико-механического факультета СПбГУ,
victoria@grenka.net
Иванский Юрий Владимирович, аспирант кафедры системного программирования
математико-механического факультета СПбГУ
ivanskiy.yuriy@gmail.com
Кияев Владимир Ильич, кандидат физико-математических наук, доцент СПбГУ, профессор СПбГЭУ v.kiyaev@spbu.ru
© Наши авторы, 2015. Our authors, 2015.