Научная статья на тему 'ДИФФЕРЕНЦИАЛЬНАЯ ИГРА «ПРЕСЛЕДОВАНИЕ–УКЛОНЕНИЕ» НА ОСНОВЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ'

ДИФФЕРЕНЦИАЛЬНАЯ ИГРА «ПРЕСЛЕДОВАНИЕ–УКЛОНЕНИЕ» НА ОСНОВЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ Текст научной статьи по специальности «Математика»

CC BY
5
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
оптимальное управление / машинное обучение / обучение с подкреплением / optimal control / machine learning / reinforcement learning

Аннотация научной статьи по математике, автор научной работы — С Н. Чуканов, И С. Чуканов, С В. Лейхтер

В работе рассмотрены алгоритмы оптимального управления, основанные на схемах обучения актор/критик с подкреплением (RL). Алгоритмы используются для решения задач преследования–уклонения (PE) дифференциальных игр. Работа фокусируется на реализации решения политики агента в соответствии с концепцией адаптивного динамического программирования. Суть решения задачи PE-игры заключается в получении политики управления каждого агента (преследователя и уклоняющегося) с обеих сторон игры. В работе предложен метод адаптивного динамического программирования (ADP) для решения равновесных политик Нэша в дифференциальных играх преследования– уклонения для двух игроков. Используется метод аппроксимации функции стоимости для расчёта параметров нейросети (NN) без непосредственного решения уравнения Гамильтона–Якоби.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIFFERENTIAL PURSUIT-EVASION GAME BASED ON REINFORCEMENT LEARNING

The paper discusses optimal control algorithms based on actor/critic reinforcement learning (RL) schemes. The algorithms are used to solve pursuit-evasion (PE) problems of differential games. The work focuses on the implementation of agent policy decisions in accordance with the concept of adaptive dynamic programming. The essence of solving the PE game problem is to obtain the control policy of each agent (pursuer and evader) on both sides of the game. The paper proposes an adaptive dynamic programming (ADP) method for solving Nash equilibrium policies in differential pursuit-evasion games for two players. The cost function approximation method is used to calculate the parameters of a neural network (NN) without directly solving the Hamilton–Jacoby equation.

Текст научной работы на тему «ДИФФЕРЕНЦИАЛЬНАЯ ИГРА «ПРЕСЛЕДОВАНИЕ–УКЛОНЕНИЕ» НА ОСНОВЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ»

УДК 004.85 DOI 10.24147/2222-8772.2024.3.84-93

ДИФФЕРЕНЦИАЛЬНАЯ ИГРА «ПРЕСЛЕДОВАНИЕ-УКЛОНЕНИЕ» НА ОСНОВЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

С.Н. Чуканов1

д.т.н., профессор, ведущий научный сотрудник, e-mail: [email protected]

И.С. Чуканов2 студент, e-mail: [email protected] С.В. Лейхтер3 старший преподаватель, e-mail: [email protected]

1 Омский филиал Института математики им. С.Л. Соболева СО РАН, Омск, Россия 2Уральский федеральный университет имени первого Президента России Б.Н. Ельцина,

Екатеринбург, Россия

3Омский государственный университет им. Ф.М. Достоевского, Омск, Россия

Аннотация. В работе рассмотрены алгоритмы оптимального управления, основанные на схемах обучения актор/критик с подкреплением (RL). Алгоритмы используются для решения задач преследования-уклонения (PE) дифференциальных игр. Работа фокусируется на реализации решения политики агента в соответствии с концепцией адаптивного динамического программирования. Суть решения задачи PE-игры заключается в получении политики управления каждого агента (преследователя и уклоняющегося) с обеих сторон игры. В работе предложен метод адаптивного динамического программирования (ADP) для решения равновесных политик Нэша в дифференциальных играх преследования-уклонения для двух игроков. Используется метод аппроксимации функции стоимости для расчёта параметров нейросети (NN) без непосредственного решения уравнения Гамильтона-Якоби.

Ключевые слова: оптимальное управление, машинное обучение, обучение с подкреплением.

Введение

В последние годы проблема преследования-уклонения (PE) привлекает большое внимание из-за её широкого применения в конкурентных играх, оптимизации ресурсов интернета вещей и военных атаках. Однако из-за конфронтации между сторонами преследования и уклонения в реальном времени традиционная теория одностороннего управления не может точно решить проблему. Хотя существующие алгоритмы могут решить проблему дифференциальной игры во многих сценариях, автономный алгоритм не может реагировать в реальном времени на информацию агентов PE-игры с высокой производительностью в реальном времени. Данная рабо-

та фокусируется на проблеме онлайн-игр РЕ и реализует решение политики агента в соответствии с концепцией адаптивного динамического программирования (ЛЭР).

Суть решения задачи РЕ-игры заключается в получении политики управления каждого агента с обеих сторон игры. В работе [1] Р. Айзекс ввёл в теорию игр современную теорию управления и создал дифференциальную теорию игр [2]. А. Фридман в работе [3] доказал существование седловых точек в дифференциальных играх, что позволило оптимизировать стратегии всех агентов в задаче РЕ. В работе [4] обсуждается единственность точки равновесия Нэша, так что аналитическое решение может быть получено для классической задачи дифференциальной игры.

В работе [5] П. Вербос и др. разработали структуры «актор-критик» для реализации алгоритмов в реальном времени, где механизмы обучения структур состоят из оценки и улучшения политики. В работе [6] Д. Берцекас и Дж. Цициклис представили методы обучения с подкреплением (ЯЬ) и сравнивают методы итерации политики (Р1) и итерации значений (VI) для динамических систем с дискретным временем, которые изначально применяют идею ЯЬ к проблеме систем управления. В работе [7] П. Вербос разработал подход ЯЬ на основе VI для управления динамическими системами с дискретным временем с обратной связью с использованием аппроксимации функции стоимости ^ЕЛ). Доказано, что метод VFA пригоден для поиска оптимального управления в онлайн для задач управления с дискретным временем.

В настоящей работе предлагается метод ЛЭР для онлайн-решения равновесных политик Нэша в дифференциальных играх преследования-уклонения для двух игроков.

1. Формулировка игры

Рассмотрим систему, содержащую два объекта и составляющую пару «преследователь-уклоняющийся».

Преследователь пытается схватить уклоняющегося, а уклоняющийся - уйти от преследователя. Игра «преследование-уклонение» в реальном времени представляет собой типичную задачу дифференциальной игры. Здесь уравнение движения каждого участника может быть выражено в виде пары дифференциальных уравнений, определённых в фиксированной системе координат. Игра с одним преследователем и одним уклоняющимся представляет собой типичную дифференциальную игру с нулевой суммой, поскольку выгоды обеих сторон исключают друг друга:

где хр,ир,хе,ие - переменные состояния и переменные управления двух игроков. Среди них переменная состояния содержит информацию о состоянии игроков, и могут существовать различные физические величины, представляющие действия игроков в соответствии с различными игровыми системами. Чтобы облегчить последующие операции в этой статье, переменные состояния здесь должны содержать информацию о местоположении агентов в каждом измерении. Переменные управления содержат элементы, которые реализованы для управления агентами в каждом измерении.

(1) (2)

В задаче РЕ-игры состояние относительного движения агентов очень важно. Итак, пусть 8 будет разницей в состояниях между двумя агентами:

8 = Хр — хе. (3)

Преследователь пытается сократить расстояние двух агентов, заложенное в 8, а уклоняющийся пытается его увеличить. Подставив уравнения (1) и (2) в уравнение (3) и вычислив его производную по времени, получим:

5 = А8 + В (ир — ие). (4)

Для формулировки игры «преследование-уклонение» (РЕ) с нулевой суммой построим функцию стоимости интегральной формы:

7 (8, ир, ие) = (8Т(^8 + Пр Крир — и^Кеие) ¿т,

где Q - матрица неотрицательно определённых коэффициентов, Rp и Re - положительно определённые матрицы. В интегральной функции 8ТQ8 - это термин, который измеряет относительное состояние системы (4) и используется для определения пределов расстояния между агентами, и^Rpup и ицReue обозначают масштабы потребления, соответствующие двум агентам, которые используются для реализации ограничений средств управления.

Функция стоимости задаётся следующим образом, когда агенты выполняют

оо

определённую политику: V (8) = f (8ТQ8 + Rpup — ицReue) dr.

о

Если и преследователь, и уклоняющийся применяют свои оптимальные стратегии на оптимальных путях, то оптимальное значение игры можно получить как:

оо

V* (8) = minmax J = minmax / (8ТQ8 + viRpup — иjReue) dr. iiii iiiit^- * '

Целью работы является выяснение политики управления каждого агента. Сложность работы заключается в поиске численного решения политики каждого агента, в котором важны этапы итерации политики и выбор подходящей аппроксимации функции стоимости. В обучении с подкреплением политика требует некоторых итеративных шагов.

р

е

Р

е

2. Решение игры «преследование-уклонение»

Заменим динамическую модель задачи РЕ-игры на принцип минимакса и получим аналитическое равновесие Нэша РЕ-игры.

РЕ-игра агентов рассматривается как своего рода дифференциальная игра, основанная на теории двустороннего оптимального управления. Оптимальные политики агентов получаются с использованием принципа минимакса. Дифференциальная игра относится к непрерывной игре с парой игроков в системах с непрерывным

временем. Каждый агент пытается достичь своей цели и увеличить свою выгоду. Игра закончится тем, что каждый участник достигнет политики равновесия Нэша. Используя теорему о минимаксе, мы можем гарантировать, что политика агентов является соответствующей оптимальной политикой.

В задаче РЕ-игры для двух игроков оптимальная политика преследователя пытается минимизировать функцию Гамильтона, тогда как политика уклоняющегося пытается максимизировать её. Следовательно, существует пара оптимальных политик (и*,и*е). Когда преследователь принимает решение и*, а уклоняющийся принимает решение и*е, игра достигает равновесия Нэша. Назовём (и*, и*) седловой точкой игры.

Из уравнений (1) и (2) имеем:

Н (5 (¿), ЧУ, ир, ие) = 8Т+ <ЯРир — иТКеие + V = = 5Т(^5 + иТКрир — иТЯеие + ЧУТ (А (хр — хе) + В (ир — ие)),

где Н (5 (¿), ЧУ, ир, ие) - гамильтониан, ир, ие - допустимые политики управления

дУ

преследователя и уклоняющегося соответственно; ЧУ = .

до

Можно получить оптимальное управление каждым агентом согласно стационар-

дН дН ному условию: —— = —— = 0.

оир оие

Вторая производная гамильтониана по ир, ие должна удовлетворять:

д2Н д2Н

— = 2ЯР > 0; —- = — 2Яе < 0. ощ ощ

Оптимальные управления агентов получаются в виде:

и1 = — 1 Я-1в Т ЧУ *; < = — 1К1В Т ЧУ *.

Значение У можно аналитически получено решением следующего уравнения Гаильтона-Якоби-Беллмана (ШВ):

6ТЯ8 + (и*р)Т Яри*р — (и*)Т Яеи*е + (ДУ*)Т (А8 + В (и*р — и*)) = 0.

Поскольку поведение двух агентов преследования-уклонения становится игрой с нулевой суммой, когда оба агента принимают свою оптимальную политику, которая называется теоретико-игровой политикой седловой точки, игра достигнет равновесия Нэша при этом условии.

Предположим, что У * удовлетворяет уравнению ШВ, в результате чего гамильтониан Н [5 (¿), ЧУ * ,и*,и*^ обращается в 0. Тогда гамильтониан Н (5 (¿), ЧУ*,ир, ие) преобразуется в

н (5 (г), ЧУ*,ир,ие)= = (ЧУ*)Тв (('ир — и;) — (ие — <)) + + 8Т(^8 + иТЯрЩ — (и*)Т Яри* — (иТЯеие — (и*)т Яеи*^ .

3. Численное решение РЕ-игры методом ЛБР 3.1. Итерация политики

Упростим функцию стоимости РЕ-игры:

оо

V (8 (1)) = у г (5 (г) ,ир (т) ,ие (т)) ¿т, г

для г (8 (т) , ир (т), ие (т)) = 8Т(^8 + Ярир — и^Яеие. Для заданного интервала Т можно записать:

г+т оо

^ V (Ф= I г (8 (г) ,ир (т) ,ие (т)) ¿т +/ т (8 (г) ,ир (т) ,ие (т)) ¿т = г г+т

г+т

= / г (8 (т) ,ир (т) ,ие (т)) ¿т + V (8 (I + Т)). г

Интервал Т рассматривается как параметр ЛБР. Разделим весь период \Ъ, то) на сегменты интервалов и предположим, что \Ъ, £ + Т] - к-й интервал РЕ-игры, т. е. £ = к ■ Т. Более того, политики, выполняемые двумя агентами в \Ъ,1 + Т] , равны

ир (8к) ,ие (8к) . Тогда имеем:

(к+1)Т

V (8к)= ! г (8,ир (8к) ,ие (8к)) <1т + V (8к+г).

кТ

Можно получить политики управления преследователя и уклоняющегося в виде:

ир = — 1К-1ВТУУ (8к); ие = —1 К- 1ВТУУ (8к).

Уравнения для V(г) (8к) образуют г-й итерационный цикл метода Р1 с политиками

(4 (¿) тг ПЕ (0) (0)

управления ир ,ие . Для РЕ-игры пусть ир ,ие являются допустимыми начальными управлениями преследователя и уклоняющегося. Функции V(г) (8к) и управления Ир), и^ при г ^ то будут сходиться к V* (8) ,и*,и*, соответственно. Игра достигает равновесия Нэша, когда элементы управления сходятся.

3.2. Аппроксимация функции стоимости

Для большинства игр PE уравнение HJB сложно решить аналитически или оно может вообще не иметь аналитического решения. Поэтому мы используем процесс аппроксимации для получения решения уравнения HJB. Метод фокусируется на аппроксимации функции значения, которая называется алгоритмом VFA (Value Function Approximation).

Предположим, что линейно независимое интегрирование набора базисных

функций (8) способно аппроксимировать функцию стоимости V, которая выра-

ь

жается как: V (8 (I)) = ^ Wj(pj (8) = тЬфь (8), где Ь обозначает количество со-

j=l

хранённых функций, а фь (#) образует вектор ¿-размерности базовых функций. т обозначает определяемые параметры нейронной сети, которая состоит из каждого элементаWj (] = 1,...,Ь).

Используя приведённую выше аппроксимацию функции стоимости (УРА) для функции стоимости, уравнение итерации политики можно выразить в виде:

г+т

Фь ($г) = ! г (8, ир, ие) <1т + тЬфь ($г+т). г

Представим дискретное время £ в виде £ = кТ и ф (8 (Ь)) = ф (8к); ф (8 (Ь + Т)) = ф (^+1) (индекс Ь для простоты опущен). Тогда

(т(г))Т Ф (8к) « 5ТЯ5к + (И(г) (8к))Т Ш(г) (8к), (5)

где Ф (8к) = р (8к) — ^^ (^к+1), 7 - коэффициент дисконтирования. Обновить политику управления можно по формулам:

4+1 = —1 К~1ВТ

(6)

Выражение для (т(г) )Т (5) представляет собой скалярное уравнение, тогда как вектор неизвестных параметров и/г) € Кь имеет Ь элементов. Следовательно, для нахождения необходимы данные за несколько временных шагов.

На шаге г алгоритма итерации стратегия управления фиксируется на уровне и = (8). В каждый момент времени к измеряется набор данных (8к, 8к+1,г (8 к ,Ь(г") (8 к))). Затем выполняется один шаг метода наименьших квадратов. Эта итерационная процедура повторяется до достижения параметров, соответствующих значению V* (8) = (чу*)т • р ($).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Численное моделирование

Рассмотрим проведение численного моделирования игры «преследование-уклонение». На основе общей модели движения исследуется задача преследования-уклонения, рассматривающая в качестве управления ускорение обоих игроков. Положение и скорость агентов отслеживаются онлайн как переменные состояния.

Рассмотрим задачу РЕ-игры в двумерном пространстве, динамическая модель которой будет следующей:

&рх 'Урх; &ру Vру; &рх; ^ру ^ру; (7)

&ех ^ex; &ey Vеу; ^ex ex; ^ey &ey, (8)

где spx, spy, vpx,vpy - координаты и скорости преследователя в направлениях х и у соответственно. Аналогично, sex, sey, vex,vey - это координаты и скорости уклоняющегося в направлениях х и у, соответственно; (apx,apy) и (aex,aey) - это пары ускорений двух агентов, которые обозначают политики управления двух агентов, соответственно.

Вычтем модель (7) из (8) и получим систему разностей, переменные состояния которой равны 8 = [lx, Avx, ly, Avy]. Среди них обозначают расстояние в направлениях х и у соответственно. Полная система разностной модели:

lx: A^x; AVx &px &ex; l y AVy; AVy ^py &ey •>

или

8 = A8 + В (ap - ae)

(9)

где

A

( 0 1 0 0 \ / 0 0

0 0 0 0 1 0

;B =

0 0 0 1 0 0

\ 0 0 0 0 ) V 0 1 )

Расстояние между двумя агентами можно рассматривать как условие захвата задачи РЕ-игры, которое задаётся следующим образом:

1 \J(Spx $ex) + (Spy $ey) .

Примем матрицу Q в виде Q = diag

1, 0, 1, 0

Rp = 0.3, Re = 1. Зна-

чения начальных состояний задаются в виде:

1; 0; 1; 0

Построим однослойную нейронную сеть следующим образом:

0>eü = 0>pü

v = E Wj <pj =

3=1

= wiix + w2lxAvx + w3Avx + W4 iy + w5 ly Avy + w6Avy.

(10)

Параметры w

(i)

w

(i)

w.

(i)

обновляются онлайн. Начальное значение

(ü)

каждой компоненты шу примем равным = 0.1 ■ (гапс!() — 0.5); ] = 1,..., 6. Функцию активации вектора критика выберем в виде:

V (S) =

l2x IxAvx Avx lyAvy Av2

0

i

тогда:

№ ($))

т

21 х 0 0 0

АУХ 1Х 0 0

0 2Аьх 0 0

0 0 21у 0

0 0 Аьу 1у

0 0 0 2Аь,

т

Примем политику управления в форме (6).

Для нахождения вектора т запишем систему уравнений для г-й итерации:

• Ф(1) = г (61,81+1, г (5ъ1ъ({> (5г)

• Ф(к) = г (5к, 5к+и г (4, к® (5к))) ;

(11)

Так как размерность вектора т® равна Ь = 6, то необходимо выполнение условия к ^ 6.

Сформируем матрицу

( Ф (1) \

Ф

\Ф(к) у

объединим скаляры г ($1, #1+1 ,г ($1, к® (8

и

в вектор

,г (к,8к+1,г (5к,к® (8к))) ,...

( г {81,81+1,г (81, к® (81))) \

Пет®

\г(8к,8к+1,г(8к,к® (8к))) / Тогда (11) можно записать в виде:

(т(г})Т Ф = Нет(г\

(12)

Представим решение (12) относительно т® как решение задачи минимизации выражения:

2 Г (т(г Лт ) т 2

+ ^ шш

2 V / 2 w(i)

т

с членом регуляризации А.Н. Тихонова [8] Г , где матрица Г выбирается

2

как скаляр а, кратный единичной матрице Г = а • I. Тогда решение для оценки го® может быть получено методом наименьших квадратов:

{п,®)Т = (ФтФ + а21)-1 Фт • Кеи,(г\

2 т\-1 жт

(13)

у

В результате получим: w* = [1.0; 0.5; 0.49; 1.0; 0.5; 0.5], т. е. функция стоимости аппроксимируется функцией:

V (5) = 1.0 ■ 12х + 0.5 ■ lxAvx + 0.49 ■ Av2x + 1.0l2y + 0.5 ■ lyAvy + 0.5 ■ Av¡.

Заключение

В работе обсуждается решение игры «преследование-уклонение» двух игроков. С помощью принципа минимакса получено аналитическое решение равновесия Нэ-ша и обсуждено необходимое условие, вызывающее возникновение захвата. Метод Р1 используется при решении онлайн-игры РЕ, а алгоритм УБЛ используется для предотвращения возможных неудобств при работе с уравнением ШВ. Нет необходимости знать матрицу системы для получения политик, и игра приближается к аналитическому равновесному решению Нэша, которое проверяется в моделировании.

В будущем предполагается изучать более сложные задачи РЕ-игр с большим количеством агентов. Случай, когда существует связь между переменными состояния или переменными управления, также заслуживает дальнейшего изучения.

Литература

1. Isaacs R. Games of Pursuit. Rand; Santa Monica: Dover Publication Inc. 1965. 384 p.

2. Чуканов С.Н., Чуканов И.С., Цыганенко В.Н. Дифференциальные игры. Омск: ОмГТУ, 2024. 160 с.

3. Friedman A. Differential Games. John Wiley & Sons Inc., 1971. 370 p.

4. Yu Z. Linear-quadratic optimal control and nonzero-sum differential game of forward-backward stochastic system // Asian Journal of Control. 2011. No. 14. P. 173185.

5. Werbos P.J., Miller W., Sutton R. A menu of designs for reinforcement learning over time // Neural Networks for Control. Cambridge, MA, USA: MIT Press, 1990. Vol. 3. P. 67-95.

6. Bertsekas D.P., Tsitsiklis J.N. Neuro-dynamic programming: An overview // Proceedings of the 1995 34th IEEE Conference on Decision and Control. New Orleans, LA, USA, 1315 December, 1995. Vol. 1. P. 560-564.

7. Werbos P. Approximate dynamic programming for realtime control and neural modelling // Handbook of Intelligent Control: Neural, Fuzzy and Adaptive Approaches. New York, NY, USA: Van Nostrand Reinhold, 1992. P. 493-525.

8. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1979. 285 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

DIFFERENTIAL PURSUIT-EVASION GAME BASED ON REINFORCEMENT

LEARNING

S.N. Chukanov1

Dr.Sc. (Technical), Professor, Leading Researcher, e-mail: [email protected]

I.S. Chukanov2 Student, e-mail: [email protected] S.V. Leykhter3 Assistant Professor, e-mail: [email protected]

1Omsk branch of Sobolev Institute of Mathematics of the SB RAS, Omsk, Russia 2Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg,

Russia

3Dostoevsky Omsk State University, Omsk, Russia

Abstract. The paper discusses optimal control algorithms based on actor/critic reinforcement learning (RL) schemes. The algorithms are used to solve pursuit-evasion (PE) problems of differential games. The work focuses on the implementation of agent policy decisions in accordance with the concept of adaptive dynamic programming. The essence of solving the PE game problem is to obtain the control policy of each agent (pursuer and evader) on both sides of the game. The paper proposes an adaptive dynamic programming (ADP) method for solving Nash equilibrium policies in differential pursuit-evasion games for two players. The cost function approximation method is used to calculate the parameters of a neural network (NN) without directly solving the Hamilton-Jacoby equation.

Keywords: optimal control, machine learning, reinforcement learning.

Дата поступления в редакцию: 01.05.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.