нализ и синтез систем управления
УДК 519.977.8 ЭС!: http://doi.org/10.25728/pu.2021.1.3
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ С НЕСКОЛЬКИМИ ПРЕСЛЕДОВАТЕЛЯМИ И ОДНИМ УКЛОНЯЮЩИМСЯ1
В.Н. Афанасьев, А.А. Семион
Аннотация. Рассматривается дифференциальная игра, в которой участвуют несколько игроков. Предполагается, что имеется некоторое пространство, в которое проникает некий игрок-злоумышленник, одновременно с этим появляются несколько игроков, задача которых заключается в том, чтобы перехватить злоумышленника. Злоумышленник при обнаружении преследователей пытается уклониться от встречи с ними. Динамика каждого объекта описывается стационарной линейной системой. С введением квадратического функционала и при рассмотрении задачи дифференциальной игры как проблемы оптимального управления решаются две подзадачи: первая — построение стратегии преследования злоумышленника с несколькими игроками, имеющими равную полную информацию об игре, вторая — при неполной информации о злоумышленнике, активно противодействующем получению преследователями полной информации о себе. Приведены результаты м оделирования. Полученные результаты рассмотренной задачи д ифференци-альной игры с нулевой суммой м огут быть полезными для исследования конечной стадии преследования, в которой участвуют несколько преследующих и один уклоняющийся.
Ключевые слова: дифференциальные игры, линейная динамика, оптимальное управление с обратной связью, функции Ляпунова, уравнение Риккати.
ВВЕДЕНИЕ
Теория дифференциальных игр как направление математической теории управления тесно связана с математической теорией оптимальных процессов, теорией игр, вариационным исчислением и теорией дифференциальных уравнений. Проблемы теории дифференциальных игр имеют своим источником такие актуальные прикладные задачи, как преследование одного управляемого объекта другим, приведение управляемого объекта в заданное состояние при неизвестных заранее возмущающих силах, задачи военного характера, экономические задачи и др. Становление теории дифференциальных игр связано с именами R.P. Isaacs [1, 2], J.V. Breakwell [3], Л.С. Понтрягина [4, 5], Е.Ф. Мищенко [6], Б.Н. Пшеничного [7] и многих
1 Работа выполнена при поддержке Российского Фонда Фундаментальных исследований (Проект 19-8-00535).
других зарубежных и советских ученых. С конца 70-х годов прошлого века появилась своего рода самостоятельная часть прикладной теории дифференциальных игр, в которой рассматриваются задачи преследования, задачи убегания, задачи защиты цели [8—19]. В работах Л.С. Понтрягина и Е.Ф. Мищенко [4—6] получены достаточные условия завершения преследования в л инейных дифференциальных играх. В исследованиях Н.Н. Красов-ского, А.И. Субботина [8], их учеников и сотрудников изучаются позиционные дифференциальные игры, для которых сформулированы задачи сближения и уклонения, предложены реализуемые на ЭВМ процедуры управления. Некоторое подведение итогов развития теории дифференциальных игр в приложении к конфликтно-управляемым системам на середину 70-х годов прошлого века содержится в книге Л.А. Петросяна [9]. Существенное развитие теория дифференциальных игр в приложении к задачам «преследования» претерпела вследствие работ А.А. Меликяна, Л.С. Виш-невецкого, Н.В. Овакимян [10—13], В.С. Пацко,
С.С. Кумкова [14, 15]. На 18-м и 19-м международных конгрессах по автоматическому управлению (International Federation of Automatic Control World Congress, IFAC WC) имелись отдельные секции, на которых рассматривались доклады, связанные с теорией дифференциальных игр и практикой применения этой теории к задачам управления в конфликтных состояниях [15—19].
В настоящей статье рассматривается дифференциальная игра, в которой участвуют несколько игроков. Предполагается, что имеется некоторое пространство, в которое проникает игрок-злоумышленник, одновременно с этим появляются несколько игроков, задача которых заключается в том, чтобы перехватить злоумышленника. Злоумышленник при обнаружении преследователей пытается уклониться от встречи с ними. Динамика каждого объекта описывается стационарной управляемой линейной системой. Отметим, что такая постановка задачи игры достаточно популярна. Так, например, в публикациях [19, 20] представлены разработанные и проанализированные распределенные игровые стратегии для подобных задач. Предлагаемые решения основаны на интеграции кооперативной теории управления и дифференциальной теории игр. В этих работах показано, что предлагаемые игровые стратегии с ненулевой суммой представляют собой решения Нэша по отношению к введенным функционалам качества, оценивающим действия игроков. В настоящей статье с введением квадратического функционала качества задача дифференциальной игры рассматривается как проблема оптимального управления [21], т. е. дифференциальной игры с нулевой суммой. Решаются подзадачи построения стратегии преследования злоумышленника с несколькими игроками, имеющими равную полную информацию об игре, и при неполной информации о злоумышленнике, активно противодействующем получению преследователям полной информации о себе. Приведены результаты моделирования. Исследуемая игра с нулевой суммой может быть полезна для исследования конечной стадии преследования, в которой участвуют несколько преследующих объектов и один уклоняющийся.
Материал статьи структурирован следующим образом. В § 1 осуществлена постановка задачи, в которой несколько преследователей и один злоумышленник. Преследователи пытаются поймать злоумышленника, в то время как последний пытается скрыться от них. Каждый из игроков способен обнаружить другого игрока в своем радиусе чувствительности. Таким образом, игра представляет собой игру с распределенной информацией. Сделаны предположения, исключающие случаи, когда злоумышленник не наблюдает ни одного пре-
следователя, или преследователи не наблюдают ни один объект в своем радиусе чувствительности.
Для оценки действий преследователей и злоумышленника, уклоняющегося от встречи с преследователями, в задаче с нулевой суммой водится общий функционал качества, который преследователи стремятся минимизировать, а уклоняющийся злоумышленник — максимизировать.
В § 2 рассматривается классическая дифференциальная игра, представляющая собой дифференциальную игру с глобальной информацией. Результат такой игры основан на теории оптимального управления. Доказывается теорема об условиях существования решений дифференциальной игры с нулевой суммой. В этом же разделе рассматривается дифференциальная игра с распределенной информацией.
В § 3 рассматривается ситуация, когда уклоняющийся злоумышленник создает искусственные помехи с целью помешать преследователям и получить преимущество в игре. Это означает, что преследователи будут получать информацию о положении уклоняющегося с шумами. А значит, и управления, построенные для преследователей, будут содержать этот шум. Таким образом, траектории, по которым преследователи будут настигать уклоняющегося, являются субоптимальными. К тому же, злоумышленник строит свою стратегию относительно всех преследователей, которых он «видит», т. е. старается убежать от центра масс всех преследователей, а так как их положения являются следствием воздействия шумов, то и траектория злоумышленника будет содержать шумовую составляющую.
В § 4 представлены результаты м атематическо-го моделирования задач дифференциальной игры «преследования» в различных постановках, рассмотренных в предыдущих разделах статьи.
1. ПОСТАНОВКА ЗАДАЧИ
В рассматриваемой задаче число игроков равно п + 1: п преследователей и один злоумышленник, уклоняющийся от преследователей. Каждый из игроков способен обнаружить другого игрока в своем радиусе чувствительности. Таким образом, игра является игрой с распределенной информацией. Сделаем несколько предположений.
Предположение 2.1. Пусть наблюдение между любой парой «преследователь — злоумышленник» взаимное, а наблюдение между двумя преследователями не обязательно взаимное.
Предположение 2.2. Пусть существует по крайней мере одна пара «преследователь — злоумышленник», такая что каждый член этой пары наблюдает другого и каждый преследователь наблюдает
по крайней мере одного другого партнера по преследованию.
Без этих предположений в рассматриваемой задаче возможны следующие нежелательные случаи: злоумышленник не наблюдает ни одного преследователя, или преследователи не наблюдают ни злоумышленника, ни одного из преследователей.
Предположим, что дифференциальная игра «задача преследования» имеет место в т-мерном Евклидовом пространстве, где положения игроков могут быть записаны через векторы: у(7) =
= МО, У2(Ъ, -, Ут(*)]Т, т- е. у(!) е Ят, — для злоумышленника и х.(() = [ху1(/), ..., Хт^)]", т. е. ху(7) е Ят, где у = 1, 2, ..., п, — для преследователей соответственно. Введем вектор гр) е Ят
= хр) - У(0, У = 1, 2, 3, ..., п,
значение которого соответствует расстоянию между злоумышленником и у-м преследователем. Этот вектор определяет «радиус чувствительности» каждого из игроков.
В более компактном виде, если хт = [, х^, ...,
тп т г т т тп
хп ] и г = [¿1 , ¿2 , ..., ¿п ], то
10) = хО) - 1п ® у(^).
Здесь 1п — вектор-столбец размера п х 1 с элементами, равными 1, и символ ® обозначает произведение Кронекера. В рассматриваемых далее задачах I е [¿0, ,].
Предположение 2.3. Сформулируем цели дифференциальной игры. Пусть имеется некоторое положительное число е < 1 такое, что:
— если в некоторый м омент 11, 10 < 11 < ,, в силу действий одного или нескольких преследователей выполняется условие ||гу(11)||2 < е, то игра останавливается, так как в результате преследования осуществлен перехват злоумышленника. Это является целью игры для преследователей;
— если же при любом I, где t0 < I < ,, ||г(1)||2 > е, т. е. условие перехвата не выполняется, то при I = , игра останавливается по истечении назначенного времени окончания игры. Это является целью игры для злоумышленника.
Пусть динамика дифференциальной игры описывается обыкновенным линейным дифференциальным уравнением [9, 10]
где ир(1) = ~|х(/) — вектор скоростей преследователей и и (I) = — у(1) — вектор скорости злоумыш-
е ш
ленника.
В случае игры с ненулевой суммой для системы (1) можно записать два функционала качества [19] — преследователи минимизируют первый, а злоумышленник максимизирует второй функционал качества:
Щ-), и()) = 2 +
+
1 ' 2
г (I) т др1 0 0 г (I)
ир (I) 0 гр10 ир( I) <и
1п ® ие(I) . 0 0 0 1п ® ие( I)
— для группы из п преследователей,
Ш), ие(-)) = "2 +
1
+ 1 [ 2
1с\
г (I) т -яе1 0 0 г (I)
ир( I) 0 0 0 ир( I)
1п ® ие( I) 0 0 ге1 1п ® ие(I)
сИ (3)
'рР
CCtZ(t) = ир(Ъ - 1п ® и(Х
(1)
— для уклоняющегося злоумышленника, где к к,, яр, Яе, гр, ге — положительны.
Так как первое слагаемое функционала (2) характеризует конечную «стоимость» дифференциальной игры, а параметр е определяет момент успешного перехвата, т. е. выполнение условия
||г(!1)||2 < е, ^ < ^ < , то с позиции преследователей невыполнение задачи перехвата должно оцениваться высоко. Учитывая последнее, в случае если е < 1, параметр к, может быть назначен в виде к, = 1/е. Для убегающего злоумышленника значение первого слагаемого функционала (3) оценивающего «стоимость» его игры в конечный момент времени, должно быть низким, т. е. параметр к, может быть назначен из условия к, = е.
Функционалы качества, записанные выше, означают, что преследователи пытаются минимизировать взвешенные расстояния между ними и убегающим злоумышленником с м инимальной затраченной энергией, в то время как убегающий злоумышленник стремится максимизировать взвешенные расстояния между ним и преследователями, затрачивая как можно меньшую энергию.
В отличие от работ [19, 20], в настоящей статье рассматривается дифференциальная игра с нулевой суммой. Предполагается, что существует общий функционал качества, такой что п преследователей стремятся минимизировать его, а злоумыш-
0
ленник, убегающий от преследования, — максимизировать его. Рассматривая дифференциальную игру как проблему оптимального управления [21], объединим функционалы (2) и (3):
1М-), «„(•), Ы(')) = /(£(•), и„(-)) - Ш-), и(-)) =
= 1 + 1 {{¿ашо) + итр(ъвир® -
(1п ® ир))'Р(1п ® ие(ЩЛ,
(4)
где ¥ = [кр/ + ке]!п, О = [дп + де]1п, Я = тп!п, р = т^
ер п
р п
кр, кер др, де, тр, те положительны, 1п — единичная матрица размерности п х п.
Существование оптимальных управлений рассматриваемой дифференциальной игры устанавливается положительной определенностью матриц ¥, О, Я и Р [22]. Как будет показано ниже, назначение параметров т и т таких, чтобы выполнялось
ре
условие тр < пте, соответствует случаю «сильных» преследователей, когда преследователи превосходят убегающего по своим динамическим возможностям.
Если игра представляется игрой с распределенной информацией, то для математического описания ситуаций или этапов дифференциальной игры введем, по аналогии с работой [19], «матрицу чувствительности»
5(0 =
1 ■%(0 ■%(О ... ^п(О ^10(О 1 sn(I) ... ^1п(I)
Эп0(О 5п 1(О sn2(О ... 1
рассматриваются. Функционал (4) для дифференциальной игры с нулевой суммой и распределенной информацией будет записан в п. 2.2.
В случае игры с глобальной информацией матрица чувствительности будет постоянна, а ее элементы — равны единице.
2. КЛАССИЧЕСКАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА И ИГРА С РАСПРЕДЕЛЕННОЙ ИНФОРМАЦИЕЙ
2.1. Классическая дифференциальная игра
Классическая дифференциальная игра представляет собой дифференциальную игру с глобальной информацией. Результат такой игры основан на теории оптимального управления, задачей которой является синтез таких управлений и° (I) и и° (I), при которых
/е(£, и° (I), и()) < ^(г, и° (I), и° (I)) < < ^(г, ир^), и° (I)).
Для классической дифференциальной игры с несколькими преследователями и линейной обратной связью результат представляется следующей теоремой.
Теорема 3.1. Дана дифференциальная игра с п преследователями и одним уклоняющимся от преследования злоумышленником с динамикой (1) и функционалом (4). Игра имеет цену при условии т < пт ,
ре
(5) если стратегии игроков определяются выражениями
где индекс 0 соответствует уклоняющемуся злоумышленнику, а индекс 1 ~п соответствует п преследователям. Параметр s¡j(t), I е [10, /], ¡, у = 0, 1, 2, ..., п (0 < s..(t) < 1), означает степень важности для ¡-го игрока информации, используемой им при выполнении задачи дифференциальной игры, о состоянии у-го игрока в момент времени I. В случае, если 0 < s..(t) < 1, то ¡-й игрок наблюдает у-го игрока, и если sJt) = 0, то ¡-й игрок не наблюдает у-го игрока. Поскольку каждый из игроков всегда наблюдает самого себя, то диагональные элементы матрицы (5) всегда постоянны и равны единице. Таким образом, на отдельных этапах информация, используемая игроками для выполнения задачи дифференциальной игры, может меняться, что отображается в соответствующих управляющих воздействиях злоумышленника и преследователей. Способы «определения степени важности», т. е. задача нахождения параметров матрицы £(/) в зависимости от условий игры, в данной статье не
и°р(1) = -1 Х(Ш, тр
иЦо = - ~т (1Т ® 1т)К(№),
пт
(6)
где
= -к(|)
-11п + --- (1п
тп
пте
К ® 1т)
К(1)
- №р + Я-е^^п'
Щ = [к, + К]!п.
'р/
ер п'
(7)
Доказательство этого утверждения содержится в Приложении.
Как видно из уравнения (7), матрица К(1) симметрическая. Из двух возможных решений уравнения (7) выбирается положительно определенная матрица К(1). Последнее устанавливается при определении условий существования оптимальных управлений в классической дифференциальной игре. Для этого введем в рассмотрение функцию
0
Ляпунова с положительно определенной симметрической матрицей К(!):
пт = гт(0К«Ж0.
В соответствии с теоремой Ляпунова, устойчивое решение матричного уравнения (7) будет, если выполняется условие
^УЩ) = /(ОЦд0| ^ + к(Ш +
+ zт(t)K(t) ^ I) [ < -гт(Щ + (8)
Уравнение (1) с управлениями (6) имеет вид: (__ гО) = Г-1 4 + -1- (1т ® 1т Л Щ)г(?). (9)
(И
I Гр пГе
Перепишем неравенство (8) с учетом уравнения (9):
гт(0
с
1
1
(¿К(<) + К(0 1п + -Г (1п ® 1п ® 1т) К(0 +
гр пге
+ Я + Яе!
- гт(№) Г11п - (1п ® 1т ® 1т) КЦШ < 0.
■Гр пге
Отметим, что при выполнении условия (10) управления (6) обеспечивают достижение функционала качества седловой точки, т. е.
ед-), и^О, и— <
< /Е(г0(-), и^О, и°(-)) < ед-), ир(-), и°(-)).
Из условия (10) следует логичный с точки зрения игры вывод, что чем больше игроков-преследователей, тем успешнее для них может оказаться исход игры.
Теорема 3.3. Дана дифференциальная игра с п преследователями и одним уклоняющимся от преследования с динамикой (1) и функционалом (4).
Обозначим через (I, г(*)) минимаксную величину,
достигаемую функционалом /Е(г(-), и°(•), ир)) при
оптимальных управлениях, реализованных с использованием обратной связи. Эта величина равна
4 (I, г«)) = 2 ?№(№), < I < ,,
где К(!) — симметрическая положительно определенная матрица, являющаяся решением уравнения (7) с краевым условием, заданным на правом конце.
Доказательство этого утверждения содержится в Приложении.
В случае, когда п = 1, т. е. преследователь один, управления (6) становятся равными
0/а кр( I) 0 ке (I)
ир (I) = - -р— ие (I) = - -а— г(!),
Учитывая уравнение (7), получим условие существования оптимальных управлений дифференциальной игры:
где параметры к(1) и к(1) находятся из решений
ре
уравнений (7), когда К(!) = [кр(/) + ке(!)]/т и п = 1:
11 -Л.(1 ® 1т®I)
Гр пГе
тжъ > 0.
Очевидно, что это условие выполняется, если матрица, стоящая в квадратных скобках, будет положительно определенной, т. е.
I > -1.,
Гр пГе
(10)
что можно получить соответствующим назначением параметров гр и ге, или матриц штрафа Я = гр1п и Р = пг I.
еп
Последнее сформулируем в виде следующей теоремы.
Теорема 3.2. Дифференциальная игра (1), (4) имеет цену, если матрицы штрафа функционала качества (4) Я и Р связаны соотношением Я < Р.
(Л» -
ък-(о
Г — Г '
ГГ
ер
Ге - Гр
ГГ
ер
ккО - 2 kp(г)ke(г) + яР = 0, Гр
49 = кр1,
(11)
+ 2 кр^) + ЯР = 0,
Ге
кр) = к,. (12)
2.2. Дифференциальная игра с распределенной информацией
Основной идеей построения стратегий для дифференциальной игры с распределенной информацией является то, что каждый игрок принимает решение на основе лишь той информации, которая доступна ему в данный момент времени. Динамика изменения информации, которой располагают игроки относительно друг друга и которая используется при формировании соответствующих
р
е
управляющих воздействий злоумышленника и преследователей, отображается «матрицей чувствительности» (5).
Запишем в общем виде формулу для вектора, обозначающего расстояние между у-м преследователем, злоумышленником и остальными преследователями:
п
1ру (I) = Хр) - X ^¡(0 - /(Ы) (13) ¡ = 1
Если убегающий злоумышленник наблюдает действия нескольких преследователей, то ему может быть доступна информация
(t) = Z ei(t)xi(t) - y(t). i= 1
(14)
В выражениях (13) и (14), так же, как и в работе [20], d..(t), f(t), e.(t) — коэффициенты, составлен-
v J .
ные из элементов матрицы (5), характеризующие соответствующую ситуацию наблюдений игроков относительно друг друга:
темы (1) и соответствующими квадратическими функционалами (2) и (3).
Перепишем выражения (15) и (16) в более компактной форме с помощью произведения Кроне-кера:
«0(0 = -R K(t){x(t) - [до ® 4М0 -- F(t) ® y(t)},
«°(t) = -P~\ ® Im) s
(17)
X КШЕ\1) ® 1т]х(1) - у(1)}. (18)
Здесь К(1) — решение уравнения (7), Е(1) = = [ег(1)...еп(1)]Т, ДО = [/!(<).../п(/)]Т, ДО = ЩЫ е е Япхп.
Подстановкой оптимальных управлений (15) и (16) в функционал (4) найдем выражение для этого функционала. После ряда преобразований полу-
чим:
4 (z(t), x(t), y(t)) = 1 z(tf)Fz(tf) +
dj(t) = [1 - j)] , -ДО = soj(t),
Z Sji(t)
i = 1
e,(t) = -S^L .
Jw n
Z S0i (t)
Стратегии для преследователей будут выглядеть так:
(t)=- ^ V (t)=
'p
= - k-t)
x/o - Z di(t)x.(t) - f(t)y(t)
i = 1
(15)
для у = 1, 2, ..., п.
Убегающий злоумышленник формирует управление, используя доступную информацию (14):
0 /л ке(I) ~ ,Л
и,0 (I) = - -е— ге (I) =
+ 2 J {xT(t)H(D(t), E(t))x(t)}dt +
+ 1 J {xT(t)L(D(t), E(t))y(t) +
2
+ yT(t)W(F(t))y(t)}dt,
(19)
где
H(D(t), E(t), K(t)) = Q + K(t)R K(t)
- K(t)R~lK(t)D(t) ® 4 - [ДО ® /m]TK(t)R"1K(t) + + [D(t) ® Im]TK(t)R~lK(t)D(t) ® ^ -- n[F(t) ® Im]T[( 1T ® Im)K(t)]T X
mJ Lv n m' ® Im)
X P1[( 1T ® I„)K(t)]F(t) ® Im,
L(D(t), E(t), F(t)) = 2[D(t) ® Im]TK(t)R_1K(t) x X [F(t) ® Im] - 2K(t)R"1K(t)[F(t) ® Im] -- 2( 1T ® Im)TQ + 2n[ET(t) ® Im)T X X [(1T ® Im)K(t)]TP~1[( 1T ® Im)K(t)],
ke( t)
Z ei(t)xi(t) - y(t)
i = 1
(16)
Параметры кр(0 и к() в выражениях (15) и (16)
ре
находятся из решений уравнений (11), (12), когда ДО = [кр(0 + кЩ1п и п = 1.
Отметим, что приведенные выражения для управляющих воздействий получены соответствующим синтезом с использованием динамики сис-
Щ(Д0, *(0) = пО + [ДО ® /m]TK(t)Я К(0 X
х ДО ® 1т - п[( 1Т ® 1т)т]ТР~\ 1Т ® 4)К(0.
Из представленного выше видно, что подынтегральное выражение функционала (19) учитывает как положения преследователей и уклоняющего -ся, так и взаимное расположение преследователей и уклоняющегося. Отметим, что значение этого функционала при оптимальных управлениях за-
n
0
0
p
e
e
висит от количества игроков, а также от элементов
d..(t), Ш), е.(г) соответствующих матриц Д7), Р(г), 1/11
Е(г), т. е. от того, как и какая информация доступна игрокам на протяжении игры.
В случае игры с одним преследователем и одним убегающим злоумышленником и с глобальной информацией (т. е. в случае классической дифференциальной игры, см. п. 2.1) параметры п = 1, Б(г) = 0, Е(г) = 1, и тогда управления (17) и (18) становятся такими же, как и (6). Функционал в этом случае принимает вид
4 (г(г)) = 1ЩЩ,) + 11 гт(г){ О + К(г)Я~1К(г) -
- К(г)Р~1К(г)}г(г)йг и 4? (г, г(г)), в соответствии с теоремой 3.3, равен
4(г, г(г)) = 1 гт(г)К(г)г(г),
< г <
Рассмотрим частный случай, возникающий в дифференциальной игре с распределенной информацией и бинарной м атрицей чувствительности (5). Выражение я/г) в этой матрице означает наблюдение игроком I игрока у в момент времени г. Так как матрица бинарная, то если я..(г) = 1, то игрок I наблюдает игрока у, и если я..(г) = 0, то игрок г не на-
.у
блюдает игрока у. Поскольку каждый из игроков всегда наблюдает самого себя, то диагональные элементы матрицы (5) всегда постоянны и равны единице.
Случай 1. Пусть у-й игрок-преследователь не наблюдает убегающего злоумышленника, т. е. Яу = 0, 9 = 0, и из выражения (17) имеем:
и°„ (г) = - ^
х,(г) - ^ йц(г)х(г)
г = 1
Это означает, что в этом случае у-й игрок-преследователь будет следовать за наблюдаемыми ближайшими преследователями.
Случай 2. Если у-й игрок-преследователь наблюдает убегающего злоумышленника, т. е. Яу = 1, ,у = 1, и допустим, что этот игрок не имеет информации о других преследователях, т. е. йу, = 0, то из
.у
выражения (16) имеем:
и°ру (г) = - крГг1 [х/0 - у(г)]. Гр
Это означает, что у-й игрок будет преследовать убегающего злоумышленника самостоятельно.
При рассмотрении стратегии для убегающего злоумышленника (18) отметим, что в случае, если
убегающий будет наблюдать нескольких преследователей в своем радиусе чувствительности, то он сформирует такое управление, чтобы попытаться «убежать» от центра масс всех обнаруженных преследователей.
3. ДИФФЕРЕНЦИАЛЬНАЯ ИГРА С ПОМЕХАМИ
Рассмотрим ситуацию в дифференциальной игре преследования, когда злоумышленник создает искусственные помехи с целью помешать преследователю и получить преимущество в игре. Это будет означать, что преследователи будут получать информацию о положении уклоняющегося злоумышленника с шумами. А значит и управления, построенные для преследователей, будут содержать этот шум. Таким образом, траектории, по которым преследователи будут настигать злоумышленника, являются субоптимальными. Кроме того, уклоняющийся злоумышленник строит свою стратегию относительно всех преследователей, которых он «видит», т. е. старается убежать от центра масс всех преследователей, а так как их положения являются следствием воздействия шумов, то и сам злоумышленник будет иметь траекторию, имеющую шумовую составляющую. Отметим, что на самого уклоняющегося злоумышленника не будут воздействовать создаваемые им помехи, и его стратегия управления по-прежнему зависит только лишь от положений самих преследователей.
Управления для преследователя и злоумышленника в дифференциальной игре с глобальной информацией будут определяться соответствующими выражениями
и(г) = - к_£И г(г),
ие(г) = ^
Пусть п(г) — помеха, создаваемая уклоняющимся злоумышленником. Пусть эта помеха является
«белым шумом» с характеристиками М[п(г)] = 0, т
М[пт(г)п(т)] = Щг)ь(г - т). С новыми условиями в дифференциальной игре преследователи будут «видеть» уклоняющегося по траектории у *(г) = = у(г) + п(г). Следует отметить, что при наличии шумов может возникнуть проблема с выполнением условия задачи перехвата, сформулированного в Предположении 2.3. Введем для рассматриваемого случая новое условие выполнения задачи перехвата:
Е[||г*(г1)||2] < е,
где Е [|| г*(г1)||2] — среднеквадратическое расстояние между злоумышленником и у-м преследователем,
р
р
или Е[Цг^О - п(1)||2] < е. Учитывая тот факт, что шум, выставляемый злоумышленником, «белый», поэтому Е[п (1)гу(?)] = 0, условие перехвата будет иметь вид:
Е[||г(!)||2] < е - N.
Из последнего выражения видно, что при N > е задача перехвата невыполнима.
Запишем вид стратегий управления в случае классической дифференциальной игры:
ир) = - Цй г «(I) = - ЦП [г(0 - п(0]. тр тр
Запишем уравнения стратегий игроков для случая дифференциальной игры с распределенной информацией:
иеО) = -
ке( I)
X е^хр) - у(1)
I = 1
Рис. 1. Процессы изменения параметров кр(г) и ке(г)
и/) = - ^
ХМ - X di.(t)xi(t) - Ш)у«(I)
¡= 1
Заметим, что в случае, когда преследователь «не видит» уклоняющегося злоумышленника, а значит, строит свою стратегию управления на основе тех преследователей, которые видят уклоняющегося злоумышленника, то его траектория все же будет иметь зашумленный вид вследствие зашумленности траекторий преследователей, на которые ориентируется этот преследователь.
4. ПРИМЕР
4.1. Классическая дифференциальная игра
Смоделируем дифференциальную игру, в которой каждый игрок имеет полную информацию, т. е. игру с глобальной информацией. Пусть имеется один злоумышленник, три преследователя. Тогда динамика дифференциальной игры при использовании синтезированных управлений описывается обыкновенным линейным дифференциальным уравнением
1^(0 = -^ - у(0), х1(«0) = [-3, 0]Т,
Ш тр
т,*2(0 = - (Х2о - у(|)), х2(«0) = [3, 0]Т, о1 тр
^(о = -^Т (х30 - У(1)), Х3с0) = [4, 1]Т,
ЦуО = - ^ { 1 [ Х1( I) + Х2 (I) + Х3( I)] - У (Г)\,
т
Здесь параметры кр(!) и ke(f) определяются решениями уравнений
0л(0 = -Яр + 1 кр (0 - 2 kп(f)ke(f),
тр ' е
Л р
р
кО = кр/ = 1/е,
У(0 = [0, 3]Т.
|ке« = "Яе - т"/2« + рpkp(f)ke(f),
ке(^/) = ке/ = 8'
Параметры тр = 1, те = 2, др = 1, де = 2, кр/ = 20, к/ = 0,05 — коэффициенты функционала качества вида (4); параметр, определяющий условие прекращения преследования, е = 0,04; I е [0,4].
На рис. 1. Представлены процессы изменения параметров кр(0 и ке(!).
На последующих рисунках представлены графики переходных процессов различных рассмотренных выше задач. На рис. 2 показаны траектории преследователей и уклоняющегося в классической игре без шумов и с шумами. Обе игры закончились перехватом злоумышленника, т. е. выполняется условие ||^(11)Ц < е, ^ < 4 с (на рис. 2, а ^ = 3,58 с, на рис. 2, б = 3 с, где с — условное машинное время).
При моделировании классической дифференциальной игры с центрированными шумами применяется исходная модель с теми же начальными условиями.
4.2. Дифференциальная игра с распределенной информацией
Предположим, что начальное положение игроков не изменилось и является таким же, как в п. 4.1. Проведем моделирование дифференциальной игры, в которой каждый игрок имеет ограниченную информацию о других игроках, участвующих в той же игре. Пусть мат-
е
рица чувствительности изменяется три раза во времени, что можно выразить таким образом:
=
10 0 1 0 111 0 0 11 10 0 1
ж =
10 11 0 111 10 11 10 0 1
ж =
1111 1111 1111 1111
В первый период времени злоумышленника «видит» только один возможный преследователь, двое других преследователей, не «видя» злоумышленника, «видят» первого преследователя и следуют за ним; в следующий период времени уклоняющегося злоумышленника видят
уже два преследователя и пытаются «поймать» его, в то время как оставшийся преследователь следует за другими преследователями. В конечный период времени каждый из игроков «видит» друг друга и сама дифференциальная игра становится игрой с глобальной информацией, т. е. классической дифференциальной игрой.
Как и в п. 4.1, воспользуемся случаем дифференциальной игры с распределенными стратегиями, взятым в качестве базового, и добавим шумы. Все операции по получению решения проводятся аналогично операциям в предыдущем разделе. На рис. 3 показаны траектории преследователей и уклоняющегося в игре с распределенными стратегиями без шумов и с шумами.
Рис. 2. Переходные процессы «задачи преследования» в простой игре: а — без ш умов (время окончания игры — 3,58 с); б — с шумами (время окончания игры — 3 с)
Рис. 3. Переходные процессы «задачи преследования» в игре с распределенной информацией: а — без ш умов (время окончания игры — 3,88 с); б — с шумами (время окончания игры — 4 с)
На представленных графиках рис. 3 показаны моменты подключения к преследованию уклоняющегося злоумышленника при вхождении в зоны чувствительности преследователей, т. е. в моменты его обнаружения. Графики, помещенные на рис. 3, а, показывают успешное выполнение задачи перехвата, т. е. выполняется условие ^-('^Ц2 < е, 'х < 4 с, 'х = 3,88 с. На рис. 3, б демонстрируется неуспешное выполнение задач перехвата, т. е. условия ||ы(')||2 > е, < I < I, и игра останавливается по истечении назначенного времени игры I = / = 4 с.
с краевым условием
т
Щ - 2дЫ 1 "лк«д: = к, + //
Оптимальные управления и являются точками стационарности гамильтониана, т. е.
дЩЫ ие, X ) = 0 д Н ) Ы ие, X ) = т > 0 (П 2)
ди 0 я 2 тр > 0 ( 2)
°ир дир
ЗАКЛЮЧЕНИЕ
дН( г, и р, и е, X ) = 0 д Н( г, ир и „ X ) = -0, -
В статье рассмотрена дифференциальная игра «преследование», в которой участвуют несколько игроков. Предполагается, что в некотором пространстве имеется игрок-злоумышленник, который при обнаружении других игроков, выполняющих роли преследователей, предпринимает попытки уклониться от встречи с последними. Динамика каждого объекта описывается стационарной линейной системой общего типа. В статье представлены решения построения стратегий для нескольких преследователей и одного уклоняющегося злоумышленника для двух подзадач — стратегии в ситуации, когда все игроки имеют полную информацию о состоянии всех участников игры, и при неполной информации об уклоняющемся злоумышленнике, активно противодействующем получению защитниками полной информации о себе. Рассмотрены также распределенные стратегии и некоторые частные случаи дифференциальной игры «преследования». Основной идеей построения стратегий для этой игры является то, что каждый игрок принимает решение на основе лишь той информации, которая доступна ему в данный момент времени. Полученные в работе теоретические положения проиллюстрированы результатами математического моделирования.
ПРИЛОЖЕНИЕ
Доказательство Теоремы 3.1. Запишем гамильтониан системы
Н(г, «р, и, X) = 2{гт(тр + ЯеМО + трыТОирО -
- пте(1п ® ыс('))т(1п ® ы^'))} + XT(')[Ыp(') - 1я ® ы^')].
Здесь X(') — сопряженная переменная [22], которая определяется как решение уравнения
Ъ X(') = -ми^| = -[др + яМ') (П.1)
дие
дие
= --птер < 0. (П.3)
Условия (П.2) и (П.3) определяют вид оптимальных управлений
ы0(') = -1 X«, ы0« = -± (1Т ® X«). (П.4)
тр пте
С учетом полученного, переменная X(') определяется из решения двухточечной краевой задачи (уравнения Эйлера — Лагранжа)
^ = [-}/т + ® ^т^О, ы0(') =
Ъ X(f) = -[др + ^(0, X/ = [кр/ + к/Ы/).
Поиск вспомогательной переменной X(') будем выполнять, применяя м етод прогонки [22]. Определим X(') с точностью до матрицы К^) в виде
X(') = К(')Ы(').
(П.5)
Полная производная выражения (П.5) будет иметь
вид
Ъ ^ = ЦК ' 4 Ы(1) + К(1) \йЫ ('^ =
йК 4 +
ы('). (П.6)
+ ко!"-11 + ± (1п ® 1Т ® 1т)! К(')
тр пте J
Приравнивая выражения (П.1) и (П.6), будем иметь: f КС) = -К(0 [-11т + пт ( 1п ® 1Т ® т] КО -
й
й)'
- [Яр + Че^т!
Щ = [кр/ + /т.
Учитывая выражения (П.4) и (П.5), управления принимают вид:
ыр(') = -1 К(')Ы('), Ы0(') =
-1( 1Т ® 1п)К(')Ы('). ♦
р
е
Доказательство Теоремы 3.3. Подставим в подынтегральную часть функционала
/E(z(-), up(-), u()) = 2zT(t)Fz(tf) + 1 j{zT(t)Qz(t) +
+ uT (t)Rup(t) — (1n ® ue(t))TP(\n ® ue(t))}^t
выражение й[г (г)К(г)г(г)]/йг, компенсировав его вне интеграла соотн Будем иметь:
теграла соотношением 0,5[zT(t)K(t)z(t) — zT (t)K(tf)z(tf)].
1 t
1 г t/
/E(z(-), u/), ug(0) = 2 z1(tf)Fz(tf) + 2 [z1(t)K(t)z(t) —
2 '
— zT(tf)K(tf)z(tf)] + 1 j {zT(t)Qz(t) + uJ(t)Ruit) —
2 t
tf
— (1n ® ue(t))TP(1n ® ue(t))}^t + 1 j ^zT(t) jК1} z(t) + + { ^ } K(t)z(t) + zT(t)K(t) j ddt} } dt. (П.7) Заметим, что при оптимальных управлениях
u0(t) = —RlK(t)z(t),
u°(t) = —P—1( 1T ® K(t)z(t)),
(П.8)
где
dtK(t) + K(t)[—R 1 + P 1(1n ® 1T )]K(t) + Q = 0,
K(tf) = F, (П.9)
уравнение динамики системы описывается выражением
> = [—R^1 + P_1( 1T ® !m)]K(t)z(t),
z(t0) = z0.
(П.10)
Так как через /Е (г, г(г)) была обозначена минимаксная величина функционала /Е(г(0, ир(г), ие(0), то выражение (П.7) при соответствующей подстановке выражений (П.8) и (П.10) с учетом уравнения (П.9) принимает вид:
40 (г, г(г)) = 2 гт(г)КШ0, < г < г,. ♦
ЛИТЕРАТУРА
1. Айзекс Р. Дифференциальные игры. — М.: Мир, 1967. — 480 с. [Isaacs, R. Differential Games. — N.-Y.: John Wiley and Sons, 1965.]
2. Isaacs, R.P. Games of Pursuit, Paper P-257. — RAND Corporation, Santa Monica, California. — 1951.
3. Breakwell, J.V., and Merz, A.W. Toward a Complete Solution of the Homicidal Chauffeur Game / Proceedings of the 1st International Conference on the Theory and Applications of Differential Games. — Amherst, Massachusetts, 1969.
4. Понтрягин Л. С. О линейных дифференциальных играх. 1 // Доклады Академии наук СССР. — 1967. — Т. 174. — № 6. — С. 1278—1280. [Pontryagin, L.S. O linejnyh differencial'nyh ig-rah. 1 // Doklady Akademii nauk SSSR. — 1967. — Vol. 174, no. 6. — S. 1278—1280. (In Russian)]
5. Понтрягин Л. С. О линейных дифференциальных играх. 2 // Доклады Академии наук СССР. — 1967. — Т. 175. — № 4. — С. 764—766. [Pontryagin, L.S. O linejnyh differencial'nyh igrah. 2 Doklady Akademii nauk SSSR. — 1967. — T. 175, no. 6. — S. 764—766. (In Russian)]
6. Мищенко Е.Ф. О некоторых игровых задачах преследования и уклонения от встречи / Автоматика и телемеханика. — 1972. — № 9. — С. 24—30. [Mishchenko, Ye.F. On Certain Game Problems of Pursuit and Evasion / Automation and Remote Control. — 1972. — Vol. 33, no. 9. — 1424—1429.]
7. Пшеничный Б.Н. Необходимые условия экстремума. — М.: Наука, 1969. — 150 с. [Pshenichnyj, B.N. Neobhodimye us-loviya ekstremuma. — M.: Nauka, 1969. — 150 s. (In Russian)]
8. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. — М.: Наука, 1974. — 455 с. [Krasovskij, N.N., Subbotin, A.I. Pozicionnye differencial'nye igry. — M.: Nauka, 1974. — 455 s. (In Russian)]
9. Петросян Л.А. Дифференциальные игры преследования. — Л.: Изд-во Ленингр. ун-та, 1977. — 224 с. [Petrosyan, L.A. Differencial'nye igry presledovaniya. — L.: Izd-vo Leningr. Un-ta, 1977. — 224 s. (In Russian)]
10. Вишневецкий Л.С, Меликян А.А. Оптимальное преследование на плоскости при наличии препятствия // Прикладная математика и механика. — 1982. — Т. 46, вып. 4. — C. 613—620. [Vishnevetskii, L.S., Melikian, A.A. Optimal Pursuit on a Plane in the Presence of an Obstacle / Journal of Applied Mathematics and Mechanics. — 1982. — Vol. 46, no. 4. — P. 485—490.]
11. Меликян А.А., Овакимян Н.В. Игровая задача простого преследования на двумерном конусе // Прикладная математика и механика. — 1991. — Т. 55, вып. 5. — С. 741—751. [Melikyan, A.A., Ovakimyan, N.V. A Simple Pursuit-and-Eva-sion Game on a Two-Dimensional Cone / Journal of Applied Mathematics and Mechanics. — 1991. — T. 55, no. 5. — P. 607—618.]
12. Melikyan, A.A. Geometry of Pursuit-Evasion Games on Two-Dimensional Manifolds // S. Jorgensen, M. Quincampoix (eds.) Annals of the International Society of Dynamic Games. — Boston: Birkhauser, 2007. — Vol. 9.
13. Hovakimyan, N, Melikyan, A.A. Geometry of Pursuit-Evasion on Second Order Rotation Surfaces // Dynamics and Control. — 2000. — No. 10. — P. 297—312.
14. Кумков С.С, Пацко В.С., С. Ле Менек Два слабых преследователя в игре против одного убегающего // Автоматика и телемеханика. — 2014. — № 10. — С. 73—96. [Kumkov, S.S., Patsko, V.S., Le Menec, S. Two Weak Pursuers in a Game Against a Single Evader / Automation and Remote Control. — 2014. — Vol. 75, no. 10. — P. 1770—1789.]
15. Kumkov, S.S., Le Menec, S., Patsko, V.S. Solvability Sets in Pursuit Problem with Two Pursuers and One Evader // Preprints of the 19th World Congress IFAC, Cape Town, South Africa. August 24—29, 2014. — P. 1543—1549.
16. Rusnak, I., Weiss, H, Hexner, G. Guidance Laws in Target— Missile—Defender Scenario with an Aggressive Defender // Preprints of the 19th World Congress IFAC, Milano (Italy), August 28. — September 2, 2011. — Р. 9349—9354.
17. Lin, W, Qu, Z, Simaan, M.A. A Design of Entrapment Strategies for the Distributed Pursuit-Evasion Game // Preprints of the 18th World Congress IFAC, Milano (Italy), August 28 — September 2, 2011. — Р. 9334—9339.
18. Kornev, D.V., Lukoyanov, N.Y. On Numerical Solution of Differential Games in Classes of Mixed Strategies // Preprints of the 18th World Congress IFAC. — Cape Town, South Africa, August 24—29, 2014. — P. 1569—1555.
19. Basar, T., Moon, J. Riccati Equations in Nash and Stackelberg Differential and Dynamic Games // Preprints of the 19th
World Congress IFAC, Toulouse, France, July 9—14, 2017. — Р. 9957—9964.
Статья представлена к публикации членом редколлегии Е.Я. Рубиновичем.
20. Qu, Z., Simaan, M. A design of distributed game strategies for networked agents / Proceedings of the 1st IFAC Workshop on Estimation and Control of Networked Systems (NecSys'09), Venice, Italy, 2009. - P. 270-275.
Афанасьев Валерий Николаевич — д-р техн. наук, Московский институт электроники и математики им. А.Н. Тихонова Национального исследовательского университета «Высшая школа экономики», И [email protected],
Поступила в редакцию 6.05.2020, после доработки 13.01.2021.
Принята к публикации 13.01.2021.
21. Ho, Y.C., Bryson, A.E., and Baron, S. Differential Games and Optimal Pursuit-Evasion Strategies / IEEE Trans. Automatic Control. - 1965. - Vol. AC-10. - P. 385-389.
22. Афанасьев В.Н., Колмановский В.Б., Носов В.Р. Математическая теория конструирования систем управления. — М.: Высш. шк., 2003. — 614 с. [Afanas'ev, V.N., Kolmanovskij, V.B., Nosov, V.R. Matematicheskaya teoriya konstruirovaniya sistem upravleniya. — M.: Vyssh. shk., 2003. — 614 s. (In Russian)]
Семион Александр Александрович — Московский институт электроники и математики им. А.Н. Тихонова Национального исследовательского университета «Высшая школа экономики», И [email protected].
DIFFERENTIAL GAMES OF PURSUIT WITH SEVERAL PURSUERS AND ONE EVADER
V.N. Afanas'ev and A.A. Semion
Higher School of Economics Tikhonov Moscow Institute of Electronics and Mathematics, Moscow, Russia
M [email protected], M [email protected]
Abstract. A differential game of several players is considered as follows. One player (attacker) penetrates some space, and several other players (pursuers) appear simultaneously to intercept the attacker. Upon detecting the pursuers, the attacker tries to evade them. The dynamics of each player are described by a time-invariant linear system of a general type with scalar control. A quadratic functional is introduced, and the differential game is treated as an optimal control problem. Two subproblems are solved as follows. The first subproblem is to construct a strategy for pursuing the attacker by several players who have complete equal information about the game. The second subproblem is to construct such a strategy under incomplete information about the attacker who is actively opposing the pursuers. The simulation results are presented. The zero-sum differential game solution can be used for studying the final stage of pursuit, in which several pursuers and one evader participate.
Keywords: differential games, linear dynamics, optimal feedback control, Nash equilibrium, Lyapunov functions, Riccati equation.
Funding. This work was supported by the Russian Foundation for Basic Research, project no. 19-8-00535.
Вишневский В.М. Математические модели и методы исследования гибридных сетей связи на основе лазерной и радиотехнологий: препринт / В.М. Вишневский, О.В. Семёнова, Д.В. Ефросинин. — М.: ИПУ РАН, 2020. — 120 с. — ISBN 978-5-91450-249-9.
Кульба В.В. Научно-организационная деятельность академика Е.А. Микрина в Институте проблем управления РАН / В.В. Куль-ба, Б.В. Павлов; [под общ. ред. чл.-корр. РАН Новикова Д.А.]. — М.: ИПУ РАН, 2020. — 52 с. — 200 экз. — ISBN 978-5-91450-250-5.
Проблемы управления безопасностью сложных систем: материалы XXVIII Международной конференции, 16 декабря 2020 г., Москва / Под общей редакцией А.О. Калашникова, В.В. Кульбы; Институт проблем управления им. В.А. Трапезникова РАН Минобрнауки РФ [и др.] — Москва: ИПУ РАН. — 2020. — 517 с. — 100 экз. — ISBN 978-5-91450-251-2.
Акинфиев В.К. Методы и инструментальные средства управления развитием компаний со сложной структурой активов: монография / В.К. Акинфиев, А.Д. Цвиркун; Институт проблем управления им. В.А. Трапезникова, Минобрнауки РФ. — Москва: ИПУ РАН, 2020. — 307 с. — ISBN 978-5-91450-243-7.
Новые издания ИПУ РАН