DOI 10.25987^т2019Л5.1.003 УДК 629.7.017.2
РЕШЕНИЕ ЗАДАЧИ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ ДЛЯ ГРУППЫ АГЕНТОВ НА ОСНОВЕ ПРИНЦИПА РОЕВОГО ИНТЕЛЛЕКТА
С.В. Иванов1, Д.Г. Белоножко1, И.Д. Королев1, Н.Я. Половинчук2, М.Ю. Жукова3
краснодарское высшее военное училище им. С.М. Штеменко, г. Краснодар, Россия
2Московский государственный технический университет гражданской авиации (Ростовский филиал), г. Ростов-на-Дону, Россия
3Донской государственный технический университет, г. Ростов-на-Дону, Россия
Аннотация: рассматривается решение задачи оптимизации своих действий группой агентов в едином информационном пространстве. Актуальность данной проблемы заключается в том, что одиночный агент мультиагентной системы способен осуществлять ограниченный перечень действий, особенно в условиях, когда рассматриваются большие потоки информации и количество целевых задач несет крупномасштабный характер. Выполнение стоящих перед агентами сложных задач возможно только при условии объединения их в группы. В работе проведён анализ принципов управления группой агентов. Анализ принципов управления группой агентов показал, что для решения широкомасштабных многоцелевых задач управления движением группой агентов в едином информационном пространстве в условиях противодействия наиболее подходит структура децентрализованного управления, которая включает в себя метод роевого интеллектуального управления группой агентов. Метод роевого интеллектуального управления предусматривает обмен информацией как внутри группы, так и с внешней средой. Поэтому актуальной научной задачей является интеграция системы навигации, связи и управления движением агентов в составе мультиагентной системы. С целью получения оптимальной функции управления действиями мультиагентной системы в работе решена двухточечная краевая задача, получена оптимальная траектория движения агента в составе мультиагентной системы. Приведён пример, иллюстрирующий эффективность предложенного подхода
Ключевые слова: децентрализованная структура управления, мультиагентные интеллектуальные системы, летательный аппарат, оценивание, регуляризация, роевой интеллект
Введение
Актуальные вопросы оптимального управления группами агентов при переключении режимов их функционирования в едином информационном пространстве представляют собой наиболее интересные условия для экспериментальных изысканий и определения приоритетов развития. Так, алгоритмическое и программно-математическое обеспечение применяемой модели учитывает формальное представление критериев оптимизации, которые предъявляют высокие требования к точностным характеристикам измеряемых величин, а также к обеспечению высокой надежности систем с целью обеспечения достоверности информации, циркулирующей в едином информационном пространстве как между агентами внутри группы, так и с внешней средой.
Такой обмен достоверной информацией внутри группы агентов позволяет обеспечить требуемое качество выполнения целевых задач, стоящих перед агентами группы [1].
© Иванов С.В., Белоножко Д.Г., Королев И.Д., Половинчук Н.Я., Жукова М.Ю., 2019
Например, в условиях большого количества разнообразных задач, выполняемых летательными аппаратами (ЛА) различного назначения в полете необходимо учитывать их единое целевое назначение. Данное обстоятельство приводит к тому, что различные цели достигаются комплексами благодаря их объединению в группы для успешного выполнения поставленных перед ними задач.
Современная реализация группового движения ЛА приобретает все более сложный характер. Проблема группового управления мультиагентными системами в настоящее время особенно актуальна в связи с тем, что возможности одиночного агента весьма ограниченны, особенно в условиях, когда рассматриваются большие потоки информации и количество целевых задач несет крупномасштабный характер. Выполнение стоящих перед агентами сложных задач возможно только при условии объединения их в группы, где каждый из агентов работает автономно, но цель для всех является единой. Особенно в условиях их применения при перераспределении задач в группе агентов, на их автономную систему функционирования накладываются ограничения. Они связаны со спецификой решаемых задач и об-
ластью взаимного информационного обмена [2].
Важно учитывать то обстоятельство, что применение централизованного управления группой агентов несет за собой трудности взаимного обмена информацией между участниками группы [3]. Особенно остро встает вопрос, когда игра является антагонистической, т.е. рассмотрение взаимного движения системы «мультиагентная система - внешняя среда», предусматривает действия каждого агента в автономном режиме с целью обеспечения самостоятельного выполнения целевых задач. Факт, что нарушение канала обмена информацией между центральным агентом и другими участниками группы не должно привести к потере управления и срыву целевой задачи, стоящей перед группой, является ключевым при рассмотрении задач распределенного группового управления с децентрализованной структурой организации [4].
Анализ принципов управления группой агентов показал, что для решения широкомасштабных многоцелевых задач управления движением группой агентов в едином информационном пространстве в условиях противодействия наиболее подходит структура децентрализованного управления, которая включает в себя метод роевого интеллектуального управления группой агентов.
Метод роевого интеллектуального управления предусматривает обмен информации как внутри группы, так и с внешней средой.
Поэтому актуальной научной задачей является интеграция системы навигации, связи и управления движением мультиагентной системы.
Постановка задачи
Рассмотрим дифференциальную игру мультиагентной системы, в которой задействованы два агента у и г, перемещающиеся в пространстве { {¡,7]} (рис. 1) [5].
Совпадение агентов у и г отражается следующим уравнением:
у(в) = г(в ), (1)
где 9 - момент встречи.
Если встреча вовсе не осуществится, то полагаем
Примем, что целью противодействующего игрока является встреча точки т(1)с точкой т(2), и он заинтересован в том, чтобы это событие произошло как можно раньше. Уклоняющийся игрок, напротив, стремится избежать встречи или хотя бы предельно оттянуть её. Поэтому в данном случае в качестве платы у, которая оценит исход игры, является следующая функция:
7 = 6- ¿о , (2)
где ^0 - момент начала игры.
Таким образом, осуществившиеся в какой-то момент времени £ состояния у( £)и г( £) точек т( 1 ) и т(2)определяют позицию х(£) = { ( ) ( )}, реализовавшуюся в этот момент времени. Стратегией и (стратегией V) уклоняющегося игрока (противодействующего игрока) является правило, указывающее для любой возможной позиции х, в которой уфг, какая стратегия и (стратегия V) должна быть сообщена агенту у (агенту г) в тот момент когда в мультиагентной системе реализуется эта позиция. Каждая стратегия и отождествляется с некоторой вектор-функцией и(х), а каждая стратегия V - с некоторой вектор-функцией v(x), определенными для всех переменных х={у,г}, где уф-г. Тогда стратегии и(0 и v(t), реализующиеся в системе в текущий момент времени ^ при выборе уклоняющимся игроком стратегии и(х), а противодействующим игроком стратегии v(x), определяются равенствами
и[ £] = и(х[ £]), г[ £] = г(х[ £]). (3)
Множества {и} и {V} допустимых стратегий стесняются двумя условиями:
- векторы и и V, сопоставляемые позициям х правилом (3), должны удовлетворять неравенствам ||и||<ы, |М|<у;
- векторы и(х) и у(х) должны изменяться непрерывно с изменением х; более того, мы потребуем, чтобы вектор-функции и(х) и у(х) в каждой ограниченной замкнутой области пространства {х}, не содержащей точек х, где удовлетворяли условиям Липшица.
||и(х(1)) - и(х(2 ^ИН^М - х(2 ^ H\v(x(1))-v(x(2 ))Н <Л\\х(1)-х(2 )||.
(4)
Итак, множества {U} и {V} допустимых стратегий изображаются соответственно совокупности {u(x)} и {v(x)} всех вектор-функций u(x) и v(x), удовлетворяющих
\\u(x)\\<li, \\v(x)\\<v. (5)
Функционирование мультиагентной системы R описывается следующим уравнением взаимного движения:
x R — f(x r>
Ü, t),
(6)
где x j" — | x j" —, .11 xrn I , ü — | uu v I ,
IxrL, ...xrnIT - вектор состояния мультиагентной системы, состоящей из n агентов ri, i = 1,2,...,n.
Функционирование группы агентов отражено действиями динамических препятствий, осуществляющих активное информационное противоборство [4].
Динамическое состояние уклоняющегося агента y и противодействующего агента z в текущий момент времени t представлено в виде [6]:
x( t) — Iyr( t) Zr( t)|T. (7)
В сложных мультиагентных системах на управляющие воздействия накладываются следующие ограничения:
Umin(t) < U(t) < Umax(t) (8)
Vmini0 < V(0 < Vmaxi0, t E [t0,tk],
где U—Iui ■ ■ • unIT, V—V ■ ■ • VnIT.
Векторные функции управлений мультиа-гентной системы u(t) уклоняющегося и противодействующего игроков v(t) в текущий момент времени t представлены следующими соотношениями [7]:
j иП--кiU2(t)dt и j-kjvf (t)dt , (9)
L0 v0 J J
tk vP
где KiKj - соответствующие диагональные матрицы чувствительности.
Каждый агент ri(ui) формирует некоторые стратегии управления на заданном интервале времени T = tk - t0. В результате мультиагентная система изменяет свое состояние в зависимости от состояния внешней среды, что приводит к необходимости формирования управления в текущий момент времени, учитывая текущие условия обстановки, с целью оптимизации действий мультиагентной системы.
Предполагается, что каждый из агентов, описанных уравнением вида (6) формирует свои стратегии управления идентично всем участникам группы для достижения единой цели управления [8]. Стратегии управления уклоняющегося игрока y(t) и противодействующего игрока z(t) с учетом вектор-функции управляющих воздействий u(t), а также работу муль-тиагентной системы можно описать с помощью следующей системы дифференциальных уравнений вида [9]:
У(0 — fy(y , 0 + g u(u,y, z , 0, у(t0) — у0 ^ Z (0 — fz(z , 0 + gv(v,z,y, t) , z (t о— z о,
где - известные непрерыв-
ные и дифференцируемые достаточное количество раз функции своих аргументов; u, v -управляющие функции (uE Rr, v E Rp);
[ ) - независимая переменная - время; y0, z0, t0 - начальные условия и начальный момент времени поиска кратчайших и безопасных стратегий управления, согласно вышепринятому допущению известные уклоняющемуся игроку заранее; tk - незаданный заранее конечный момент времени.
Решение задачи
Для успешного поиска оптимальных стратегий управления мультиагентной системы в задаче синтеза терминально-оптимального управления группой агентов предполагается исходить из условия решения максиминной задачи [10, 11]:
( )
— L i(y,tk) + j; k(L 2(у, Z ,t) +
+1 (vT(t)KLv(t) - ut(t) k2u(t))) dt ,
maxumin v i
(11)
где Кь К2 - симметричные положительно определенные матрицы соответствующих раз-
« т
мерностей, - знак транспонирования.
В работе рассматривается решение задачи дифференциальной игры мультиагентной динамической системы на примере автономного агента в условиях противодействия внешней среды. В этих условиях необходимо построить стратегию управления уклоняющимся игроком и(0 в условии активного противодействия, учитывая принцип гарантированного наилучшего результата, формируемого по критерию обратной связи, когда противодействующий игрок может немедленно воспользоваться любым неоптимальным шагом, сделанным уклоняющимся агентом.
Целевой функцией в задаче группового управления мультиагентной распределенной системой является минимаксный критерий, позволяющий синтезировать закон группового управления с целью получения решения в функции текущих координат движения объектов. Данный закон позволяет получить решение задачи оптимального управления, обеспечивающий перевод мультиагентной системы Я из некоторого начального состояния в требуемое терминальное , т.е. в процессе группового движения системы «мультиагентная система - внешняя среда» с учётом заданных ограничений на вектор сетевого управления (8) и вектор обобщённых состояний (10), должны быть выполнены ограничения вида:
х(к) = хо, х^ь) = хк . (12)
Требуется получить решение только лишь с точки зрения интересов одного уклоняющегося агента. Тогда, сведем данную задачу к задаче поиска одностороннего управления и мультиагентной системы [10].
х(О = f(х, О + д(х, и, V, Ь) , х(¿о) = хо (13) хо = 1Уо го1т; х=1у гГ; хЕ Яп+т (14) / = ; д = ^идуV , (15)
где р(г,у,Ь) - "наилучшая" функция управления противодействующего агента.
Оптимальная стратегия уклоняющегося игрока и(Ь) реализуется из более узкого, в сравнении с (11), условия
т™{][и,\и(г,у,£)]}, (16)
с учетом терминальных условий гамильтониан имеет следующий вид [10]:
Н (х, и, V, Л, Ь) = — Ь2(х, Ь)К1г(х, Ь) + 0, 5 ит(Ь)К2и(0 + Лт1о [(х, 0 + (17) Лт (0 д (х , и,гг,ь),
— т^{Н[х,и,г,Л11]} = —т™{0,5иТК2и + Лд(х,и,гг,1)} = Н(х,Л,Ь), (18)
а вектор-функция управления
противодействующего игрока представлена следующим образом:
г(х,1) = КГ11о[^^]Т1л(1), (19)
где оптимальная фазовая траектория ( ) и вектор сопряженных переменных Л(£) описываются сопряженными уравнениями канонической двухточечной краевой задачи (ДТКЗ) [12]:
х(О = /(х, О — р(х, Ь)и(Ь) (20)
^) = й)Т к) — % (21)
где управление ( ) удовлетворяет уравнению
( ) ( ) ( ). (22)
В формуле (21) принято обозначение [12] [ ( ) ( )] [ ( ) ( )]
(23)
+а 1 / 2 хт( 1)х( Ь),
где ( ) - непрерывно-
дифференцируемая функция своих аргументов, дифференцируемая по совокупности аргументов, ( )- вектор измерений, { 1,1} - весовая матрица, характеризующая интенсивность помех в каналах измерений.
С учетом (20)-(23) уравнения квазиоптимального управления принимают вид
х(0 = [(х, 0 — (р(х, Ь)К-т^срт(х, Ь) Л(0,(24)
Л( 1) = {^)Тр[Н( 0—г(х,0] —
(25)
— 4%) (Ь) — ах (Ь),
при краевых условиях
( ) ,
( )
дУ[х&у^] дх(г±) '
где (съ), - матрицы Якоби соответствующей размерности.
Таким образом, чтобы найти оптимальную траекторию х(0, доставляющую минимум функционалу (11), необходимо решить ДТКЗ размерности 2п.
В случае, если ( ) и ( ) не фиксирова-дУХ^ил
= 0 , краевые условия имеют
ны, а
вид:
дх(гл)
( ) ( ) .
(26) В (31) для простоты обозначений опущен
аргумент , поскольку этот вектор остается неизменным при решении двухточечной краевой задачи. Необходимо найти такой вектор Л^, чтобы ( ) ) ( ( )
Введем функцию ( ) удовлетворяющую условию
Л(Л о( I ),Ь ) = (((х(Л о( Ь),Ь ). (32)
Величину Л о (Ь) по аналогии с [13] можно интерпретировать как такое начальное значение вектора X, которое обеспечивает решение краевой задачи на "текущем" отрезке [1 оД 1]. Из (32) следует, что искомое удовлетворяет равенству ( ) (28) Введем обозначения [13]:
Проведенный анализ выражения (25) дает возможность определить достаточные условия оптимальности, которые заключаются в необходимости рассмотрения положительных матриц чувствительности Р и К.
Решение уравнений движения в виде (24), (25) при условиях (26), (27) представляет собой достаточно сложную в вычислительном плане двухточечную краевую задачу.
Рассмотрим одно из конструктивных направлений ее решения на основе метода "переноса" граничных условий [12].
В дальнейшем для упрощения многоитерационной процедуры решения системы дифференциальных уравнений введем следующие обозначения, не нарушающие общность решения задачи [13]:
{'П£ы1]}т = ((х(Ь)) . (29)
Задача состоит в поиске такой функции управления, которая обеспечивала бы перевод мультиагентной системы из состояния ( ) в терминальное состояние ( ), с учетом следующих ограничений, действующих на объект управления [14]:
х(1о) = хо,, Л(Ь1) = (((х(Ь1)) . (30)
Обозначим
х = х(Ло, Ь) , Л = Л(Ло, Ь) (31)
х(Ло(0, 0 = и(0, ((и) = Л(Ло(Ь), Ь) = Х(0 . (33) С учетом (33) можно записать
_ дх(А0( г), г) СА0 дх(А0( г), г) , . Х( 1) = яз ^ д г (34)
дА(Ао(г),€)йА0 , дА(Ао(г),г)
Л( Ь) = —--— + -Тг-. (35)
Выражение (35) с учетом (33) имеет вид
- = ад(х(г)) = дд(х(г)) гдх(А0(г),г) а А0 ( ) аг дх [ дА0 аг (36)
+ д х(А0( г), ^
аг
Частные производные
дх(А0(г),г) дА(А0(г),г)
аг ' аг
вычисляются при фиксированном Ло( V) . Поэтому с учетом (24), (25), (33) можно записать
(дх(А0(г),г))
= /(х,0- р(х,Ь)К-^-рт * (и, Ь) А(Ь),
^^^ = ф)т Р[КЬ) - г(и,Ь)] — —ф т-( 0 — аи( Ь).
(37)
(38)
Подставляя (37), (38) в (35), (36), получим дх(А0(г),г) сА0
и =
■ +
+Г(х,1) - р(х,Ь)К- 1рт(х,1) ((х( 0)
решение системы (24), (25) для начальных условий ( ) ( ) .
А 0( Ь) = {
д<2(х( г)) дх(Л0(г), г) дЛ(Л0(г),г)
дх
йЛ0
(Л о( г), О]
дЛо }
X
Х{ -^и^л)-—р(х, Ь)К- V(X, Ь) (}(х(Ь)) ] + (40)
—ах( Ь)}.
Функции х(Ь) и Ао(Ь) с учетом (33) удовлетворяют начальным условиям
х(Ьо) = Хо, Ао(Ьо) = (((хо). (41)
При этом значения матриц чувствительности
х(Ао(Ь),Ь)/дАо, дА(Ао(Ь),Ь)/дАо, находящихся в правых частях уравнений (39), (40), определяются при условии (25)[13].
д \дх(Ло),т1 = дрг[х(Ло,(г),т),Л(Ло(г),т),т] х
дт \_ дЛо \ дх
х дх((Ло),т) др¿(Що,(г),т) ,Л(Ло(г),т),т] х
"" " (42)
дЛп
дЛ
х ^ ,те [Ьо, Ь]
д Г дЛ(Ло(г),т
дт I дЛ0 др2 [(х(Ло ,(г),т), Л(Ло(г),т),т,а
д х(Ло (г), т)
дх д Ло
д р 2 ЩЛо,(г), т),Л(Л о (г), т),т, а] д Л( Л о (г), т)
+
(43)
дЛ
дЛ0
[ ],
где
р г[х,А,Ь] =
(44)
/(х, Ь) - р(х, Ь) К-гр' (х , Ь) А(Ь),
р2 [х, А, Ь, а] = (др? Р [КЬ) — г(х , 0] —
т (45)
© »Ь) — а*( Ь).
Начальные условия х(Ьо) = Хо для системы уравнений (39) и (42) представлены в следующем виде:
дх(Ао, Ьо)
= О,
д А(Ао, Ьо)
= Е,
дЛ0 дЛ0
х(Ао(Ь), Ьо) = Хо,А(Ао(Ь), Ьо) = Ао(Ь), (46)
где [0] и Е - соответственно нулевая и единичная матрица порядка пхп [14].
Путем интегрирования уравнений движения в частных производных (42), (43), (46) решается задача оптимального управления дви-
жением мультиагентной системой в условиях активного противодействия.
Как показано в [12], без существенного ухудшения результатов можно воспользоваться упрощенной процедурой, заключающейся в совместном интегрировании (39), (40) и уравнений для матриц чувствительности следующего вида (для 1= т):
й \дх(Ло(г),г)1 _ др 1[х(г),(((х(г)),г]
М \_ дЛ0
дх(Ло( г), г)
д х
X
X
аяп
+
(47)
+
дрг[х(г),(((х(г)),г] дЛ(Ло(г),го) дЛ дЛ0 '
( \дЛ(Ло(г),г)1 _ др2[х(г),(((х(г)),г,а]
(г [ дЛо ] дх Х (48)
дх(Л о( г), г) д р 2[(х( г), (((х( г)), г, а]дЛ(Л о, г о)
X ■
дЛ0
дЛ
дЛ0
Соотношения (24), (25) при краевых условиях (26)-(28) либо формулы (39), (40) при начальных условиях (41) определяют алгоритмы квазиоптимального управления вектора состояния ( ). Полученные траектории согласованы с погрешностями исходных данных таким образом, что х(0 стремится к точному решению при в условиях управляемости системы
(10).
Следует отметить, что на практике не всегда имеется возможность определять а из соотношения (40), особенно в системах обработки информации, функционирующих в масштабе времени близком к реальному. В этом случае целесообразно назначить фиксированное значение а, обеспечивающее порядок убывания а(г| о) достаточный для построения регулирующего алгоритма [8], в частности, можно положить a=~|¡| о. В этом случае оценка вектора состояния х(0 будет не хуже, чем при самой неблагоприятной помеховой обстановке.
Сформированная двухточечная краевая задача трансформировалась в задачу одностороннего управления, без учета управления со стороны внешней среды, и управление мультиа-гентной системы строится по принципу наилучшего гарантированного результата [15].
Пример
С целью оценки эффективности рассмотренного подхода и возможности синтеза управления агентом в реальном времени было прове-
дено моделирование примера в математическом пакете прикладных программ МЛТЬЛБ [16].
В качестве агента использовалась модель движения беспилотного летательного аппарата (БЛА) [16].
Моделирование движения БЛА осуществлялось в соответствии с алгоритмом управления с интегральной адаптацией:
рх\ о ( и1 = сх-Я "
(
- К
2 т
К + т |(х1 - х*)-
V
Т
)|(х1 - х* ^,
С ((
(49)
1 + — || и, -х
V Т1
2т
с Рх1Я
+ К
V
1 1 (
+ — | х2
Т2 С
Г1 — + V х1
|(х2 - х*
* *
где х1 = х1 - скорость полета, а х2 = х2 - путевой угол.
При моделировании замкнутой системы с адаптивным регулятором использовалась математическая модель:
РХ
Я + тх
х\ =
х2 =-
т
т
2 т
х3 = х1 -С08(х2); х4 = • $т(х2),
тх,
(50)
где т и т2 - кусочно-постоянные внешние возмущения.
На рис. 2-5 представлены результаты моделирования динамики ЛА с адаптивным регулятором. Имитировался выход ЛА в заданный стационарный режим (путевой угол - 450 и скорость полета - 180 км/ч) с дальнейшим действием возмущений. Возмущения задавались кусочно-постоянными и изменялись следующим образом:
т = о, т = о,о < г < 50 с т = 500,т = 500,50< ? < 100с (51) т =-500,т2 = -500,100 < ? < 150с
т = 200,т = 0,150 < ? < 200с
165
160
0
50
150 200
Рис. 2. Переходной процесс скорости полета БЛА
100
46 44 42 40
м 38
ср
2 36 34 32 30 28
0
50
150 200
Рис. 3. Переходной процесс путевого угла БЛА
100 4, с
100 4с
Рис. 4. Переходной процесс тяги двигателя БЛА
100 4,с
Рис. 5. Переходной процесс скоростного угла крена БЛА
*
2
и 2 = агсэт
//, - с
1800
1600
1400
1200
1000
0
50
150
-20
-25
-30
-35
-40
0
50
50
Более подробный анализ результатов моделирования содержится в [16].
Выводы
Результаты численного моделирования демонстрируют высокую эффективность синтезированного адаптивного регулятора в задаче компенсации внешних возмущений и позволяют сделать вывод о возможности ее реализации в реальном масштабе времени на бортовых вычислительных средствах, что обеспечит высокий уровень интеллектуализации управления группой БЛА.
Полученные результаты подтвердили, что синтезированный алгоритм управления агентом, входящим в систему «мультиагентная система - внешняя среда» может быть эффективно использован для управления группой смешанных беспилотных летательных аппаратов, выполняющих разнородные функции при выполнении целевых задач по предназначению как в гражданских, так и военных целях.
Литература
1. Лобанов И.А., Рожнов А.В. Управление в едином информационно-управляющем поле смешанными и разнотипными группами пилотируемых и беспилотных летательных аппаратов при переключении режимов их функционирования // Перспективы развития и применения комплексов с беспилотными летательными аппаратами. 2016. С. 148-152.
2. Легович Ю.С., Максимов Д.Ю. Логические модели выбора решения в самоорганизующихся системах // Проблемы управления. 2013. № 3. С. 18-27.
3. Тимофеев А.В., Юсупов Р.М. Принципы построения интегрированных систем мультиагентной навигации и интеллектуального управления мехатронными роботами, 2011. C. 237-244.
4. Применение беспилотных летательных аппаратов при разведке труднодоступных и масштабных зон чрезвычайных ситуаций / И.М. Янников, П.М. Фомин, Т.Г. Габричидзе, А.В. Захаров // Вектор науки ТГУ. 2012. № 3 (21). C. 49-53.
5. Красовский Н.Н. Игровые задачи о встрече движений. М.: Наука, 1970. 420 с.
6. Половинчук Н.Я. Терминальное наведение баллистических летательных аппаратов: монография. МО РФ, 2001. 246 с.
7. Сейдж Э.П., Уайт Ч.С. Оптимальное управление системами. М.: Радио и связь, 1982. 398 с.
8. Абросимов В.К. Групповое движение интеллектуальных летательных аппаратов в антагонистической среде. М.: Наука, 2013. 168 с.
9. Половинчук Н.Я., Щербань И.В. Методы и алгоритмы терминального наведения баллистических летательных аппаратов: монография. МО РФ, 2013. 238 с.
10. Федоров В.В. Численные методы. М.: Наука, 1979. 56 с.
11. Барков В.В., Кочетков Ю.А. Краевая задача оптимального управления нелинейными детерминированными системами // Теория и системы управления. 1995. № 6. С. 90-95.
12. Бурлай И.В. Регулярные методы оценивания состояния объектов в динамической и кинематической постановке // Изв. РАН. ТиСУ. 2000. № 3. С. 17-23.
13. Половинчук Н.Я., Иванов С.В. Синтез алгоритма терминально-оптимального управления высокоскоростным маневрирующим летательным аппаратом // Двойные технологии. 2017. № 1. С. 43-44.
14. Половинчук Н.Я., Иванов С.В., Котельницкая Л.И. Синтез управления маневром уклонения беспилотным летательным аппаратом с учетом терминальных ограничений // Вестник Дон. гос. техн. ун-та. 2018. Т. 18. № 2. С. 190-200.
15. Щербань И.В., Иванов С.В., Щербань О.Г. Стратегия управления игроком-союзником в задаче нелинейной дифференциальной игры с терминальными ограничениями // Вестник Воронежского государственного технического университета. 2018. Т. 14. № 1. С. 21-27.
16. Свидетельство о государственной регистрации программы для ЭВМ «Программа для исследования автопилота по управлению боковым движением беспилотного летательного аппарата» № 2018661795 от 18.09.2018 г.
Поступила 11.09.2018; принята к публикации 04.02.2019 Информация об авторах
Иванов Станислав Валерьевич - канд. техн. наук, доцент, Краснодарское высшее военное училище им. С.М. Штеменко (350063, Россия, г. Краснодар, ул. Красина, д. 4), тел. 8-(918)-942-07-50, e-mail: [email protected]
Белоножко Дмитрий Григорьевич - адъюнкт, Краснодарское высшее военное училище им. С.М. Штеменко (350063, Россия, г. Краснодар, ул. Красина, д. 4), тел. +7 (914)-665-64-74, e-mail: [email protected]
Королев Игорь Дмитриевич - д-р техн. наук, профессор, Краснодарское высшее военное училище им. С.М. Штеменко (350063, Россия, г. Краснодар, ул. Красина, д. 4), тел. +7 (918)-311 -46-21, e-mail: [email protected]
Половинчук Николай Яковлевич - канд. техн. наук, профессор, Московский государственный технический университет гражданской авиации (Ростовский филиал) (344000, Россия, г. Ростов-на-Дону, проспект Шолохова, д. 262 В), тел. +7 (928)-603-63-12, e-mail: [email protected]
Жукова Мария Юрьевна - аспирант, Донской государственный технический университет (344000, Россия, г. Ростов-на-Дону, пл. Гагарина, д. 1), тел. +7 (928)-615-56-78, e-mail: [email protected]
SOLUTION TO THE PROBLEM OF DIFFERENTIAL GAME FOR A GROUP OF AGENTS BASED ON THE PRINCIPLE OF SWARM INTELLIGENCE
S.V. Ivanov1, D.G. Belonozhko1, I.D. Korolev1, N.Ya. Polovinchuk2, M.Yu. Zhukova3
1Shtemenko Krasnodar Higher Military School, Krasnodar, Russia 2Moscow State Technical University of Civil Aviation (Rostov branch), Rostov-on-don, Russia 3Don State Technical University, Rostov-on-don, Russia
Abstract: the solution of the problem of optimization of their actions by a group of agents in a single information space is considered. The urgency of this problem lies in the fact that a single agent of a multi-agent system is able to carry out a limited list of actions, especially in conditions when large streams of information are considered and the number of targets is large-scale. The implementation of complex tasks facing agents is possible only if they are combined into groups. The paper analyzes the principles of managing a group of agents. Analysis of the principles of managing a group of agents showed that for solving large-scale multi-purpose tasks of controlling the movement of a group of agents in a single information space, in the face of opposition, the structure of decentralized management, which includes the method of swarm intelligent control of a group of agents, is most suitable. The method of swarm intellectual control provides for the exchange of information both within the group and with the external environment. Therefore, the actual scientific task is the integration of the navigation system, communication and motion control of agents as part of a multi-agent system. In order to obtain the optimal function of controlling the actions of the multi-agent system, a two-point boundary-value problem was solved in the work, and an optimal trajectory of the agent's motion within the multi-agent system was obtained. An example is given illustrating the effectiveness of the proposed approach
Key words: decentralized control structure, multi-agent intelligent systems, aircraft, evaluation, regularization, swarm intelligence
References
1. Lobanov I.A. Rozhnov A.V. "Control in a single information-control field mixed and diverse groups of manned and unmanned aerial vehicles when switching modes of operation", Prospects for the development and use of complexes with unmanned aerial vehicles (Perspektivy razvitiya i primeneniya kompleksov s bespilotnyimy letatel'nyimy apparatamy), 2016, 148-152 p.
2. Legovich Yu., Maksimov D.Yu. "A Logical model of decision making in self-organizing systems", Control Problems (Problemy upravleniya), 2013, no. , pp. 18-27.
3. Timofeev A.V., Yusupov R.M. "Principles of construction of integrated systems of multi-agent navigation and intelligent control of mechatronic robots", ("Printsipy postroeniya integrirovannykh system mul'tiagentnoy navigatsii intellektualnogo upravleniya mekhatronnimi robotami"), 2011, pp. 237-244.
4. Yannikov I.M., Fomin P.M., Gabrichidze T.G., Zakharov, A.V. "The use of unmanned aerial vehicles in the exploration of hard-to-reach and large-scale emergency situations", Science Vector TSU (Vektor nauki TGU), 2012, no. 3 (21), pp. 49-53.
5. Krasovskiy N.N. "Game problems on the encounter of motions" ("Igrovie zadachi o vstreche dvigeniy"), Moscow, Nauka, 1970, 420 p.
6. Polovinchuk N.I. "Terminal guidance of ballistic aircraft. Monograph" ("Terminal'noe navedenie balisticheskikh le-tatel'nikh apparatov") Monografiya, MO RF, 2001, 246 p.
7. Sage, E.P., White C.S. "Optimal control systems", Moscow, Radio i svyaz', 1982, 398 p.
8. Abrosimov V.K. "Group movement of intelligent aircraft in an antagonistic environment" ("Gruppovoe dvizhenie intel-lektualnikh letatel'nikh apparatov v antoganisticheskoi srede"), Moscow, Nauka, 2013, 168 p.
9. Polovinchuk N.I., Shcherban' I. V. "Methods and algorithms of terminal guidance of ballistic aircraft. Monograph" ("Meto-dy i algoritmy terminal'nogo navedeniya balisticheskikh letatel'nykh apparatov"), Monografiya, MO RF, 2013, 238 p.
10. Fedorov V.V. "Numerical methods" ("Tsifrovye metodi"), Moscow, Nauka, 1979, 56 p.
11. Barkov V.V. "Boundary value problem of optimal control of nonlinear deterministic systems", Theory and control systems (Teoriya i sistemi upravleniya), 1995, no. 6, pp. 90-95.
12. Burlay I.V. "Regular methods of estimation of the state of objects in dynamic and kinematic statement", Theory and control systems (Teoriya i sistemi upravleniya), 2000, no. 3, pp. 75-81.
13. Polovinchuk N.Ya., Ivanov S.V. "Synthesis of an algorithm of terminal optimal control of high-speed maneuvering aircraft", ^e Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2018, no. 1, pp. 21-27.
14. Polovinchuk N.Ya., Ivanov S.V., Kotel'nitskaya L.I. "Synthesis synthesis of control of evasive maneuver unmanned aircraft subject to terminal constraints", Double Technologies (Dvoynye tehnologii), 2017, no. 1, pp. 43-44.
15. Shcherban' I.V., Ivanov S.V., Shcherban' O.G. "Strategy of controlling an ally player in the problem of nonlinear differential game with terminal constraints", Yhe Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2018, no. 1, pp. 21-27.
16. Polovinchuk N.Ya., Ivanov S.V. "The program for the study of the autopilot to control the lateral movement of an unmanned aerial vehicle", («Programma dlya issledovaniya avtopilota po upravleniyu bokovym dvizheniem bespilotnogo letatel'nogo apparata») Svidetel'stvo o gosudarstvennoj registracii programmy dlya EVM #2018661795, 18.09.2018.
Submitted 11.09.2018; revised 04.02.2019
Information about the authors
Stanislav V. Ivanov, Cand. Sc. (Technical), Associate Professor, Shtemenko Krasnodar Higher Military School (4 Krasina str., Krasnodar 350063, Russia), tel. +7(918)-942-07-50, e-mail: [email protected]
Dmitriy G. Belonozhko, Graduate Student, Shtemenko Krasnodar Higher Military School (4 Krasina str., Krasnodar 350063, Russia), tel. +7(914)-665-64-74, e-mail: [email protected]
Igor' D. Korolev, Dr. Sc. (Technical), Professor, Shtemenko Krasnodar Higher Military School (4 Krasina str., Krasnodar 350063, Russia), tel. +7(918)-311-46-21, e-mail: [email protected]
Nikolay Ya. Polovinchuk, Cand. Sc. (Technical), Professor, Moscow State Technical University of Civil Aircraft (Rostov Branch) (262 B Sholokhova str., Rostov-on-Don 344000, Russia), tel. +7(928)-603-63-12, e-mail: [email protected] Mariya Yu. Zhukova, Graduate Student, Don State Technical University (1 Gagarina sq., Rostov-on-don 344000, Russia), tel. +7(928)-615-56-78, e-mail: [email protected]