Известия Института математики и информатики УдГУ
2016. Вып. 2 (48)
УДК 517.977.1/8 © Д. В. Корпев
ЧИСЛЕННЫЕ МЕТОДЫ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР С НЕТЕРМИНАЛЬНОЙ ПЛАТОЙ1
Рассматриваются линейно-выпуклые позиционные дифференциальные игры с геометрическими ограничениями на управляющие воздействия и нетерминальной платой, оценивающей норму совокупности отклонений движения в заданные моменты времени от заданных целевых точек. Исследуются случаи наличия и отсутствия седловой точки в маленькой игре, а также присутствия дополнительных интегральных ограничений на управляющие воздействия. В каждом из перечисленных случаев строится численный метод для нахождения цены игры в подходящих классах стратегий и для построения соответствующих оптимальных законов управления. Численные методы базируются на попятных конструкциях выпуклых сверху оболочек вспомогательных программных функций. Множества определений этих функций аппроксимируются пиксельно, функции представляются таблично, выпуклая сверху оболочка строится приближенно как нижняя огибающая конечного семейства опорных гиперплоскостей к подграфикам этих функций. Обсуждаются детали программной реализации, ориентированной на современные вычислители. Приводятся результаты симуляций на модельных примерах.
Ключевые слова: теория управления, дифференциальные игры, позиционные стратегии, ресурсные ограничения.
Введение
Реальные процессы управления динамическими системами зачастую происходят в условиях неопределенностей, неполной информации и помех, источником которых может быть как неконтролируемая внешняя среда, так и сознательные действия некоторого лица, выступающего в роли противника. Как правило, необходимо обеспечить надлежащее качество управления, которое во многих случаях удобно оценивать при помощи подходящего показателя. Что касается будущей помехи, то заранее известна только лишь область возможных значений ее воздействий, поэтому из-за недостатка информации нельзя однозначно предсказать реакцию системы на управляющее воздействие. Вследствие этого ставятся задачи о построении такого способа управления по принципу обратной связи, которое бы гарантировало желаемый результат даже в ситуации самых неблагоприятных помех. Подобные задачи постоянно возникают в механике, экономике и других областях знаний. Математической теорией, в рамках которой формализуются эти задачи, является теория дифференциальных игр. Актуальность, теоретический интерес и практическая значимость управления в условиях помех обеспечивают интенсивное развитие этой теории и сопутствующих ей численных методов.
Теория дифференциальных игр активно развивается начиная с середины XX века. Становление этой теории в первую очередь связано с работами H. Н. Красовского, Л. С. Понтрягина, Б.Н. Пшеничного, R. Isaacs, W.H. Fleming и A. Friedman (см., например, [2, 35, 37, 40, 68-70, 72, 110-113, 117]). Свой вклад в развитие теории дифференциальных игр внесли Э.Г. Альбрехт, В. Д. Батухтин, Р. В. Гамкрелидзе, Н.Л. Григоренко, В. И. Жуковский, М.И. Зели-кин, А. Ф. Клейменов, А.Н. Красовский, A.B. Кряжимский, A.B. Куржанский, Ю.С. Ле-дяев, Н.Ю. Лукоянов, В. И. Максимов, A.A. Меликян, Е. Ф. Мищенко, М.С. Никольский, Ю. С. Осипов, В. С. Пацко, H. Н. Петров, Л .А. Петросян, Е. С. Пожарицкий, Е. С. Половинкин, А.И. Субботин, H.H. Субботина, A.M. Тарасьев, В.Е. Третьяков, В. И. Ухоботов, В.Н. Ушаков, А. Г. Ченцов, Ф.Л. Черноусько, A.A. Чикрий, C.B. Чистяков, М. Bar di, E.N. Barron, Т. Basar, L.D. Berkovitz, P. Bernhard, A. Blaquiere, A. Brvson, P. Cardaliaguet, R. J. Elliot, L.C. Evans, M. Falcone, Y. С. Ho, H. Ishii, N.J. Kalton, G. Leitmann, J. Lewin, J. Lin, P.-L. Lions,
1 Работа выполнена при поддержке программ Президиума РАН «Математическая теория управления» (проект 09-П-И015) и «Динамические системы и теория управления» (проект 12-П-И002), грантов РФФИ (проекты 1ЮИ2088-офи-м-2011, 14-01-31319-мол_а, 12-01-31247-мол_а), а также гранта Президента РФ в рамках программы государственной поддержки ведущих научных школ (проект НШ-5927.2012.1).
M. Quincampoix, E. Roxin, P. Saint-Pierre, P. E. Souganidis, P. Varaiya, и многие другие ученые (см., например, работы [3, 5, 20, 23, 26, 27, 31, 32, 38, 40, 42-44, 47, 48, 50, 52, 55, 56, 58, 61-67, 78, 79, 81-83, 89, 91, 93, 94, 96, 98-102, 105-108, 114, 117-119, 121-123, 126, 128, 129] и библиографии к ним). В результате этих исследований были сформулированы основные теоретические положения строгой математической формализации рассматриваемых задач, предложены способы обоснования существования цены игры (оптимального гарантированного результата) и седловой точки в различных классах стратегий, описаны характеристические свойства функции цены игры, определена структура оптимальных стратегий, намечены основные способы их построения.
Несмотря на интенсивное развитие, в математической теории управления и теории дифференциальных игр до сих пор содержится много нерешенных проблем, в особенности в части эффективных численных методов, а постоянное расширение области применения этой теории приводит к появлению новых задач.
Настоящая статья выполнена в рамках концепции позиционных дифференциальных игр, предложенной и развитой в работах Н.Н. Красовского и его учеников (см., например, [37, 40, 78, 79, 117, 128]). В статье рассматриваются три задачи управления с оптимальным гарантированным результатом в условиях помех. Предполагается, что динамическая система, подверженная воздействиям управления и неконтролируемой помехи, описывается линейными по фазовому вектору обыкновенными дифференциальными уравнениями. Возможности воздействий на систему как со стороны управления, так и со стороны помехи стеснены геометрическими ограничениями. Промежуток времени управления зафиксирован. Показатель качества процесса управления оценивает норму совокупности отклонений траектории движения в наперед заданные моменты времени от заданных целевых точек. Управление нацелено доставить этому показателю как можно меньшее значение. Заметим при этом, что поскольку действия помехи неизвестны, то, в частности, они могут быть самыми неблагоприятными, то есть направленными на максимизацию этого показателя. В соответствии с теоретико-игровомым подходом [2, 32-35, 37, 40, 47-49, 51, 78, 79, 117, 128] подобные задачи управления формализуются в дифференциальные игры, в которых управление интерпретируется как первый игрок, а помеха — как второй. Нетерминальная структура показателя, заключающаяся в оценивании состояния системы не только в конечный (терминальный), но и в промежуточные моменты времени, составляет одну из особенностей рассматриваемых дифференциальных игр. При этом предполагается, что показатель качества является позиционным [31, 117]. Это позволяет строить оптимальные стратегии управления по принципу обратной связи, то есть когда они опираются лишь на информацию о текущем состоянии (позиции) системы.
Кроме того, задачи отличаются друг от друга следующими дополнительными условиями:
(1) предполагается, что выполнено условие седловой точки в маленькой игре [37], известное также как условие Айзекса [2]; в этом случае соответствующая дифференциальная игра имеет цену и седловую точку в классах чистых позиционных стратегий управления игроков [117];
(2) условие седловой точки в маленькой игре может быть не выполнено; задача формализуется в дифференциальную игру в классах смешанных стратегий [32, 33, 117];
(3) предполагается, что дифференциальное уравнение, которое описывает динамическую систему, является линейным не только по фазовому вектору, но еще и по воздействиям как управления, так и помехи; при этом на возможности управления наложены дополнительные интегральные ограничения, характеризующие ресурсные запасы.
Цель работы — разработка и программная реализация эффективных универсальных численных методов для решения перечисленных задач. Под решением понимается численное построение функции цены соответствующей дифференциальной игры — величины оптимального гарантированного результата управления, а также законов управления по принципу обратной связи, которые аппроксимируют оптимальные стратегии управления и обеспечивают достижение результата не хуже оптимального гарантированного, с наперед заданной точностью.
Линейно-выпуклые позиционные дифференциальные игры с нетерминальной платой были хорошо изучены (см., например, [32-34, 38, 39, 47, 50, 116, 117]), однако полученные для них разрешающие конструкции ранее применялись для решения некоторых конкретных задач и не были доведены до универсальных программно реализуемых численных методов. Разработка и исследование эффективности таких методов составляет теоретическую значимость настоящей статьи.
Для решения линейно-выпуклых задач управления в условиях помех с оптимизацией нетерминального показателя качества позиционной структуры при смешанных ограничениях на управляющие воздействия были развиты конструкции выпуклых сверху оболочек, которые идейно восходят к стохастическому программному синтезу [37, 42]. Последние изначально были разработаны для задач без интегральных ограничений (см., например, [32, 38, 39, 47, 50, 117]). Для задач с интегральными ограничениями подобные построения рассматривались в работах [46, 48, 49], но для терминальных показателей качества. Исследования различных задач управления и дифференциальных игр при интегральных ограничениях на управляющие воздействия проводились, например, в работах [1, 9, 13, 16, 17, 19, 21, 24, 36, 41, 45, 46, 53, 54, 57-60, 71, 74, 75, 77, 80, 85-88, 95, 115, 120, 124, 125]. Постановки, которые бы объединяли в себе смешанные (геометрические и интегральные) ограничения на управляющие воздействия в сочетании с нетерминальным показателем качества рассматриваемой в статье структуры, ранее не исследовались. В связи с этим доказательство существования цены и седловой точки в дифференциальной игре, возникающей при строгой формализации такой задачи управления в условиях помех, а также разработка и обоснование разрешающей процедуры, доведенной до численного метода, представляют теоретический интерес.
Теоретические исследования дифференциальных игр всегда сопровождались разработкой численных методов оценивания и приближенного построения решений (см., например, [11, 12, 14, 15, 18, 22, 26, 55, 63, 67, 82-84, 89, 92, 97, 98, 103, 104, 109, 118, 119, 127]). Наибольшее продвижение в разработке эффективных численных методов было получено для линейно-выпуклых дифференциальных игр. Исследуемые в настоящей статье игры относятся к этому же классу.
Задачи оптимизации нетерминальных показателей качества рассматриваемого типа возникают во многих реальных процессах управления (см., например, [6-8]). Интерес к численным методам решения таких задач обусловлен тем, что из-за их сложной внутренней структуры редко когда удается в явном виде выписать репрезентативную формулу для функции цены — величины оптимального гарантированного результата. Круг задач с дополнительными интегральными (ресурсными) ограничениями, допускающих аналитическое решение, еще меньше. Представленные в статье универсальные численные методы и программный комплекс, реализующий их, позволяют при помощи современной высокопроизводительной вычислительной техники существенно расширить спектр задач, поддающихся моделированию и допускающих приближенное решение. Для демонстрации практической применимости разработанных методов приводятся результаты численных экспериментов на модельных примерах. Все эксперименты производились на гибридном вычислителе кластерного типа «Уран» Института математики и механики им. H.H. Красовского Уральского отделения Российской академии наук.
Статья выполнена в рамках концепции позиционных дифференциальных игр [35, 37, 38, 40, 78, 79, 117, 128].
Численные методы решения задач (1) и (2) основаны на процедуре из [47], ядром которой является попятное построение выпуклых сверху (вогнутых) оболочек вспомогательных функций из метода стохастического программного синтеза (см., например, [28, 37, 39, 42]). Важной особенностью этой процедуры является то, что в построениях используются лишь пространства, по размерности не превосходящие размерность фазового вектора системы вне зависимости от количества моментов времени оценки качества движения.
Для применения численного метода решения задачи (1) при решении задачи (2) используется метод введения вспомогательной модели-поводыря (см., например, [32, 33, 40, 117]). Во вспомогательных построениях возникает статическая матричная игра в смешанных стратегиях, которая решается при помощи модификации симплекс-метода из [130].
Чтобы получить разрешающую процедуру в задаче (3), следуя методологии из [48, 49], в дополнении к фазовому вектору вводится вспомогательная переменная, характеризующая ресурсные запасы управления, проводится дополнительная оптимизация по расходу ресурсов и применяются построения, учитывающие при помощи подхода из [47, 51] нетерминальную структуру показателя качества.
Обоснование этой процедуры, а вместе с тем и существования цены и оптимальных стратегий, составляющих седловую точку соответствующей дифференциальной игры, следует методологии, принятой в теории позиционных дифференциальных игр (см., например, [37, 117]), и опирается на введение вспомогательной модели; доказательство близости движений исходной системы и модели; доказательство и- и ^-стабильности системы вспомогательных величин, построенных для модели; переход к предельным конструкциям, наследующим свойства стабильности и дающим необходимые оценки. При этом оптимальные стратегии строятся методом экстремального сдвига (см., например, [37, 117]) на сопутствующие точки.
В основе разработанных численных методов лежит «пиксельное» представление компактных множеств, когда они покрываются равномерной конечной е-сетью, и все точки множества, входящие в окрестность радиуса е с центром в одном из узлов сети, отождествляются с этим узлом-пикселем. Таким образом, все компакты представляются в виде конечных наборов пикселей, а функции, определенные на этих компактах, хранятся в табличном виде. Выпуклые сверху оболочки функций приближенно строятся в виде нижней огибающей конечного семейства опорных гиперплоскостей к подграфикам этих функций.
Программная реализация численных методов выполнена с применением параллельных вычислений с общей памятью, позволяющих существенно повысить быстродействие программного комплекса и расширить его применимость к задачам, требующим большие вычислительные затраты.
Отдельные результаты, вошедшие в работу, были опубликованы в [134-145, 147, 148]. § 1. Позиционные дифференциальные игры в чистых стратегиях
В этой части в рамках подхода [37, 47, 51, 117] рассматривается антагонистическая дифференциальная игра, в которой динамическая система, подверженная управляющим воздействиям первого и второго игроков, описывается обыкновенными дифференциальными уравнениями, линейными по фазовому вектору. Воздействия игроков стеснены геометрическими ограничениями. Показатель качества процесса управления задан в виде позиционного функционала [117], оценивающего норму совокупности отклонений траектории движения в наперед заданные моменты времени от заданных целевых точек. Исследуется случай, когда выполняется условие седловой точки в маленькой игре (см., например, [37]), также известное как условие Айзекса [2]. Игра формализуется в классах чистых позиционных стратегий. Приводится процедура из [47], базирующаяся на попятном построении выпуклых сверху оболочек вспомогательных функций из метода стохастического программного синтеза [37], на основе которой строится численный метод для приближенного вычисления цены игры и построения ("-оптимальных законов управления по правилу экстремального сдвига [37, 117]. Оценивается алгоритмическая сложность метода, описываются детали программной реализации. Приводятся результаты численных экспериментов.
§1.1. Постановка задачи
Пусть движение динамической системы описывается уравнением
Здесь х — фазовый вектор; Ь — время; точка над символом обозначает производную по времени; А(Ь) и f (Ь,и,ь) — непрерывные по совокупности переменных матрица-функция и вектор-функция; и и V — управляющие воздействия первого и второго игроков. Моменты времени ¿о и $ зафиксированы, Ь* — момент начала, процесса управления. Величины и и V стеснены геометрическими ограничениями
хх = А(Ь)х + / (Ь, и, V), Ьо ^ Ь* ^ х е М", и е , V е М"-.
(1.1)
и е и, V е V,
(1.2)
где множества и и V компактны.
В данной части рассматривается случай, когда условие седловой точки в маленькой игре [37, с. 79] выполнено, то есть справедливо равенство
тттах (¡, /(Ь, и, у)) = тахтт (I, /(Ь, и, у)), (1.3)
каковы бы ни были вектор I € Мга и момент времени Ьо ^ Ь ^ §. Здесь и далее символ (■, •) обозначает скалярное произведение векторов. Случай, когда условие седловой точки в маленькой игре не предполагается выполненным, будет изложен в части 2.
Допустимыми реализациями управлений игроков считаем произвольные измеримые (по Борелю) функции и[Ь*[-]§) = (и(Ь) € И, Ь* ^ Ь < §} и у [£*[•]§) = {у(Ь) € V, Ь* ^ Ь < §}. Символ и [Ь* [•]§), используемый для обозначения реализации, призван подчеркнуть область определения этой функции. Обозначим
А^ = тах ||А(Ь)||е, А^ = тах \\/(Ь,и,у)\\в, Ак = тах{А^, Аf}.
Здесь и далее символ || ■ ||е обозначает евклидову норму вектора либо подчиненную по отношению к ней норму матрицы.
В пространстве переменных (Ь, х) определим компактное множество Кх возможных позиций системы (1.1):
Кх = В(Ь,х) € [Ьо,§] х Мга: ЦхЦв < (1 + Ко + х)ехр [(Ь - Ьо)Ак] - 1}, (1.5)
где % ^ 0 и К0 > 0 ^ некоторые постоянные. Пусть (Ь*,х*) € Кх, Ь* < §. Под движением, х [£*[•]§], порожденным из позиции (Ь*,х*) двпустимыми реализациями и [£*[•]§) и у [£*[•]§), понимаем абсолютно непрерывную функцию {х(Ь) € Кга, Ь* ^ Ь ^ §, х(Ь*) = х*}, которая при почти всех Ь* ^ Ь ^ § вместе си = и(Ь) и у = у(Ь) удовлетворяет уравнению (1.1). Заметим, что в согласии с (1.1)—(1.5) имеет место включение
(Ь,х(Ь)) € Кх, Ь* < Ь < §.
Пусть заданы моменты времени § г оценки качества движения х\Ь* [•]§]: Ь0 < §г < §г+1 ^ §, г = 1,..., N — 1, = § постоянные матрицы размерности йг х и (1 ^ йг ^ и), целевые векторы сг € Кга и нормы ^^(¡г,..., ¡^) в пространствах (йг + ... + й^)-мерных наборов (¡г, . .., N), составленных из (¿-мерных векторов ¡г, г = 1, ...,Ы. Обозначим
1г(Ь) = тт{г = 1,...,Ж: §г ^ Ь}, Ьо < Ь < §. (1.6)
Показатель качества, оценивающий движение х\Ь*[•]§], имеет вид
7(х[Ы-]§]) = Цн(г,)[ )(х(§Ки)) — сщ,)) ,...,Ом (х(§м) — с^). (1.7)
Пусть, кроме того, в пространствах переменных (¡г,ц) € К* хК существуют четные по ц нормы аг(1г, ц), г = 1,...,Ы — 1, для которых справедливы равенства
цг (¡г ,...,1м )= {¡г, Цг+\(1г+\,...,1м)), г = 1,...,Ы — 1. (1.8)
Тогда [47] показатель качества (1.7) является позиционным, [117, с. 43], то есть он может быть представлен в виде
7(х[Ь*[■]§]) = д(х[Ц-]Ь*],7(х[Г[-]§])), Ьо < Ь* < Ь* < §,
где функционал g при фиксированном первом аргументе непрерывен и не убывает по второму аргументу. Типичными примерами показателей, имеющих структуру (1.7), (1.8), являются
N
Yi(х[и[-Щ) = II) - Сг)
i=h(tt)
! N
ъ{х[Ц-Щ) = I Е ||A(x(tfi) - О) II2 \i=h(t* )
Yœ = max D (x(tii) - а) У,
i=h(t* ),...,N
где символ || • || обозначает какую-либо норму. Подобные показатели могут быть как заданы изначально, так и введены как аппроксимирующие для исходного показателя, который учитывает континуум значений x(t) (см., например, [47]).
Цель первого игрока — доставить показателю (1.7) как можно меньшее значение. Цель второго противоположна цели первого.
Согласно [37, с. 75; 117, с. 51] задача нахождения управления первого игрока, нацеленного на минимизацию показателя (1.7), и задача нахождения управления второго игрока, нацеленного на максимизацию этого же показателя, объединяются в антагонистическую дифференциальную игру двух лиц. При этом позиционная структура рассматриваемого показателя позволяет в момент времени t* G [t*,ti] игрокам в процессе формирования своих управляющих воздействий оптимизировать лишь значение Y(x[t* [•]$]). Благодаря описанной позиционности, а также существованию седловой точки в маленькой игре дифференциальная игра (1.1)—(1.8) имеет цену и седловую точку в классах чистых позиционных стратегий, информационным образом для которых служит текущая позиция игры (см. [31; 117, с. 65]).
Следуя формализации позиционной дифференциальной игры [31, 37, 117], (чистой) стратегией U первого игрока, называют произвольную функцию
U = {U(t,x,e) G U, (t,x) G Ko, e> 0}.
Величина e является параметром точности [37, с. 68], значение которого выбирается игроком до начала процесса управления, остается в ходе этого процесса неизменным и определяет точность решения задачи.
Законом управления U первого игрока, называют тройку (U,e, As), где As — разбиение отрезка времени [t*,ti]:
As = {tj : ti = t*, 0 < tj+i - tj < S, j = 1,...,k, tk+i = ti}. (1.9)
Из заданной позиции (t*,x*) G Ko такой закон U в паре с допустимей реализацией v[t*[^]ti) управления второго игрока однозначно формирует движение x[t*[-]ti] системы (1.1), которое определяется как решение пошаговых уравнений
x(t)= A(t)x(t) + f (t,uj,v(t)e, tj < t<tj+i, j = 1,...,k, (1.10)
при начальном условии x(ti) = x*. Начальное состояние x(tj) для отрезка tj ^ t ^ tj+i при j > 1 совпадает с конечным состоянием x(tj) для предыдущего отрезка tj_i ^ t ^ tj. Величи-uj U
Uj = U(tj,x(tj),e), tj ^ t<tj+i, j = 1,...,k. (1.11)
As U
управления первого игрока по принципу обратной связи в дискретной по времени схеме.
Гарантированным, результатом закона управления U для заданной позиции (t*,x*) G K0
( у се
r(U; t*,x*) = sup Y(x[t*[-]ti]). v[U [-]0)
Здесь верхняя грань берется по всем допустимым реализациям v[t*[-]$) второго игрока, 7(x [t* [•]$]) — значение показателя (1.7), реализовавшегося на движении x [t* [•]$], порожденном согласно (1.10), (1.11) законом U в паре с реализацией v[t*[-]$) из позиции (t*,x*). Соответственно, гарантированным результатом стратегии U называют величину
r(U; t*,x*) = limsup lim supГ(Ы — (U,e, As); t*,x*).
£—д5
Тогда оптимальным гарантированным результатом первого игрока называют величину
(t*,x*) — inf r(U; t*,x*),
U0
r(Uo x*).
Для ( > 0 закон управления U будем называть (-оптимальным, если
r(U; t*, x*) ^ Гп(t *,x*) + (.
Аналогичным образом с понятными изменениями рассматриваем закон управления V — — (V,£, As) второго игрока, где (чистая) стратегия V есть произвольная функция
V — {V(t,x,e) е V, (t,x) е Ko, е> 0},
е — параметр точности, а As — разбиение вида (1.9).
Гарантированным, результатом закона управления V для заданной позиции (t*,x*) е K0 называют величину
r(V; t*, x*) — inf 7 (x[t*[-]^]).
Здесь нижняя грань берется по всем допустимым реализациям u[t* [•]$), 7(x[t*[•]$]) — значение показателя [1.7), хеадизовавшегося на движении ^^^^^^том законом V в паре с реализацией u[t*[-]$) из начальной позиции (t*,x*).
V
r(V; ) — lim inf lim inf Г(V — (V,e, As); t*,x*).
£—0 S—0 Ag 7
Тогда оптимальным гарантированным результатом второго игрока называют величину
Г (t* ,x*) — supT(V; t*,x*),
V
V0
r(V0; t
*, x*) - rv
(t*,x*).
Для ( > 0 закон управле ния V будем назыв ать (-оптимальным, если
r(V; t*, x*) ^ rv(t*, x*) (.
Из результатов [31; 117, с. 51-73] вытекает, что оптимальные гарантированные результаты игроков совпадают, определяя цену дифференциальной игры (1.1)-(1.8):
r0(t
*,x*) — r«(t*,x*) — rv
(t*,x*). (1.12)
При этом игра имеет седловую точку (U0, V0), которая складывается из оптимальных стратегий игроков.
Цель данной части — разработка численного метода для нахождения цены ^(t* ,x*) и построения (-оптимальных законов управления игроков.
§ 1.2. Вспомогательная модель
Наряду с исходной системой (1.1) рассмотрим ее мод ель-копию:
w = A(t)w + f (t,u*,v*), to ^ t* ^ t<ti, w e M", u* e M"«, v* e M"« •
Величины u* и v* стеснены аналогичными (1.2) геометрическими ограничениями:
u* e U, v* e V, (1.14)
Допустимыми считаем измеримые реализации управлений u* [t*[-]$) = {u*(t) e U, t* ^ t < ti} и v* [t*[^]$) = {v*(t) e V, t* ^ t < В качестве множества возможных позиций (t,w) модели (1.13) будем рассматривать компакт Ki (1.5). Пусть
p(t, s) e argminmax (s, f (t, u,v)), q(t, s) e argmaxmin (s, f (t, u,v)),
u&U v£V
n(e, t) = {e + (t — to)eЫ1/2 exp [\A(t — to)], (L15)
t e [to,ti], s e M", e > 0,
где \a — константа, определенная в (1.4). Из результатов [37, леммы 25.3, 25.4] непосредственно вытекают следующие два утверждения.
ЛеммаИ. Для любого числа, e > 0 найдется такое число 5 > 0; что, каковы бы ни были
позиции (t*,x*) e Ki; (t*,w*) e Ki, t* <$, и момент времени t* e (t*,ti], t* — t* < 5, будет
[]
Пусть ^x* — w*\\e ^ n(e,t*). Пусть x [t*[•]*— движеуие сиытемы (1.1), порожденное из позиции (t*,x*) произвольной допустимой реализацией v\t*[]t*^ управления второго игрока и постоянной реализацией ue[t*[-]t*) = {ue = p(t*,x* — w*), t* ^ t < t*} управления первого w [t*[-]t*] — движение модели (1.13), порожденное из уозиции (t*,w*) произвольной допустимой реализацией u* [t*l]t*) и постоянной реализацией v^[t*[]t*) = {v® = q(t*,x* — w*), t* < t< t*}. Тогда
\\x(t*) — w(t*)\\E < n(e,t*).
Л e м м а 1.2. Для любого числа, e > 0 найдется такое число 5 > 0, что, каковы бы ни были
позиции (t*,x*) e Ki; (t*,w*) e Ki, t* <$, и момент времени t* e (t*,ti], t* — t* < 5, будет
у]
Пусть \\x* — w*\\e ^ n(e,t*). Пусть x\t*[-]t*} — движение сыстемы (1.1), порожденное из позиции (t*,x*) произвольной допустсмой реализац ией u[t*[]t*) упрайления первого игрока и постоянной реализацией ve[t*[-]t*) = {ve = q(t*,w* — x*), t* ^ t < t*} управления второго w [t*[-]t*] — движение модели (1.13), порожденное из уозиции (t*,w*) произвольной допустимей реализац ueüv* [t*l]t*) и постоянной реализацией u* [t*[-]t*) = {ue* = p(t*,w* — x*), t* < t< t*}. Тогда
\\x(t*) — w(t*)\\E < n(e,t*).
§ 1.3. Вычисление цены игры
Опишем данную в [47] процедуру для приближенного вычисления цены (1.12) дифференциальной игры (1.1)-(1.8).
Пусть для промежутка времени управления [t*,ti] зафиксировано разбиение As = {tjj^i1 вида (1.9), в которое включены все моменты tii оценки качества движения из показателя (1.7), то есть
e As, i = h(t*),...,N. (1.16)
Для m e M", j = 1,. ..,k обозначим
ftj+1 / \ A^j(t*,m) = / max min (m, ^(ti,r)f (r,u*,v*)) dr, (1-17)
Jt- VtEV m*€U
где Ф(г, т) — матрица Коши для уравнения х = А(г)х.
Попятно по шагам разбиения Д^ определяем множества С± (г*) векторов т € Мга и скалярные функции у±(г*,т), т € С±(г*), по следующим рекуррентным соотношениям. Пусть ] = к + 1, тогда
С++^г*) = {т: т = 0}, у++1(г*,т) = 0, т € (г*) = {т: т = ^^I, I € М^, ц*и(I) < 1}, ^^т) = -(т,см), т € С-+1 (г*).
Если 1 ^ j ^ к, тогда
С++ (г*) = С^+^г*), ф-(г*,т) = Дф-(г*,т) + у-+1(г*,т), т € С++ (г*),
у+(г*,т) = еопе Гф-(и, -)}(т), т € С+(г*), (1.18)
- о+(и) -
и далее, когда г- не совпадает ни с одним из моментов времени дг оценки качества движения, то есть г- < дн{1.),
С-(г*) = С+ (г*), у-(г*,т) = у+(г*,т), т € С~(г*), иначе, когда г- = д*, Н = Н(г-),
С-(г*) = {т: т = ит* + ФТ(д*,д)Д[г, и ^ 0,1 € М^, а*(1,и) < 1, т* € С+(г*)}, - + -
у-(г*,т) = тах [иу+(г*,т*) -(1,Б* с*)], т € С-(г*). '
(и,1,т*)\т
Здесь Н(-) — функция, определенная ранее в (1.6); верхний индекс «Т» обозначает транспонирование; (•) и а*(•) — нормы, сопряженные к (•) и а*(-) го (1.8); символ еопе [ф-(г*, •)]
)
обозначает выпуклую сверху (вогнутую) оболочку функции ф- (г*, •) = {ф- (г*, т), т € С+(г*)} на множестве С+ (г*), то есть минимальную из вогнутых функций, мажорирующих ф- (г* ,т) при т € С+ (г*); максимум в (1.19) для у-(г*, т) вычисляется по всем таким тройкам (и, I, т*), что V ^ 0 I € М^, а*(I, и) ^ 1, т* € С+(г*) и при этом ит* + ФТ(д*, д)Б~Т1 = т.
Известно [10, 47], что для любого j = 1,...,к + 1 построенные таким образом множества С±(г*) будут выпуклыми компактами в Мп, содержащими вектор т = 0, при этом у±(г*, 0) ^ 0, а функции у± (г*,т) будут по т € С± (г*) вогнутыми и ограниченными. Кроме того, здесь и всюду далее полагаем, что функции у±(г* ,т) непрерывны по т. Из результатов [10] следует, что это предположение, по крайней мере, выполнено, если единичные шары норм ц*(-), г = 1,...,Ж, являются строго выпуклыми, либо многогранниками, либо, в общем случае, Р-множествами [4]. Заметим также, что строгую выпуклость единичных шаров норм ц*(-) всегда можно обеспечить при помощи подходящей аппроксимации исходного показателя качества (1.7) (см. подробности в [10]). В этом случае дальнейшие рассуждения останутся неизменными, а полученный результат будет верен с точностью до погрешности указанной аппроксимации.
Для ш € Мга и j = 1, ...,к + 1 рассмотрим величины
е±(г*,ш) = тах [(т, Ф(д,г-)ш) + у±(г*,т)]. (1.20)
- тео±{и) -
Согласно [47] верны следующие утверждения относительно этих величин.
Лемма 1.3. Каковы бы ни были момент, времени г* € [го, д) и разбиение Д$ = {г-}к=+1 вида (1.9), (1.16), для любых = 1,...,к и ш € Мга имеем,
е+(г*,ь)),
а*(А,(ш - с*),е+ (г*,ш)), если г- = д*,
где Н = Н(г-).
, . е+ (г*,ш), если г- <д*,
е- (г* ,ш) = ^ -
Лемма 1.4 (и-стабильность). Каковы, бы ни были момент времени Ь* € разбие-
ние = {Ь]}к+ вида, (1.9), (1.16) и позиция (Ь]) € К1; ^ = 1,...,к, для любой постоянной Ь]+1) = {= V* € V, tj ^ Ь < tj+1}, найдется такая допустимая tj[-]]-+1) = {и*(Ь) € и, Ь] ^ Ь < что модель (1.13( из позиции (Ь],Wj)
под действием этих реализаций придет, в позицию +1 = w(tj+1)) € К1; для, которой
будет выполнено неравенство
реализации V* и*
) ^ в^+^Ь*^]+1).
Лемма 1.5 ^-стабильность). Каковы, бы ни были момент времени Ь* € [Ь0,$); разбиение А$ = {Ь]вида, (О), {1.16) и позиция (Ь],Wj) € К1; ^ = 1,...,к, для, любой постоянной реализации и*[Ь][■]Ь]+1( = {и*(Ь) = и* € и, Ь] ^ Ь < найдется такая допустимая
реализация V* [] +1) = € V, Ь] ^ Ь < Ь]+1}; что модель (1.13 ( из позиц ии (Ь] )
под действием этих реализаций придет, в позицию +1 = w(tj+1)) € К1; для которой
будет выполнено неравенство
) ^ в'+^Ь*^]+1).
Из лемм 1.1, 1.2 и 1.3-1.5 вытекает
Теорема 1.1. Для любого числа, £ > 0 найдется число 5* > 0 такое, что, каковы бы ни были позиция (Ь*,х*) € К0 и разбиение А$ вида (1.9), (1.16), 5 ^ 5*, будет выполнено неравенство
|Го(Ь*,х*) - в-(и,х*)\ ^ £.
Доказательства лемм 1.3-1.5 и теоремы 1.1 даны в [47], поэтому в тексте данной работы приведем лишь схему доказательства теоремы 1.1. Кроме того, в §3 будет сформулирована и доказана аналогичная теорема для случая наличия ресурсных ограничений на управляющие воздействия первого игрока.
Доказательство теоремы 1.1 опирается на факт существования цены Го(Ь*,х*) и седловой точки (По,Уо) дифференциальной игры (1.1)-(1.8). Для должным образом выбранных числа е > 0 и разбиения А& рассматривается эволюция величин в~ [Ь*,х(Ь])), ^ = 1,...,к + 1, вдоль движения системы, полученного в двух случаях. В первом случае второй игрок руководствуется законом управления V = (Уо,е,А$), а первый игрок, опираясь на информацию о реализовавшейся текущей позиции и назначенном управляющем воздействии второго игро-
и
С учетом леммы 1.3 получается оценка
в- (Ь* , х*) ^ ГМ (t*, х*)
Во втором случае первый игрок руководствуется законом управления и = (По,е, ), а второй игрок использует лемму 1.5 и v-cтaбильнocти. Получается оценка
в- (Ь*,х*) ^ (ь*, х*) +
Из двух последних неравенств, с учетом равенства (1.12), выводится
|Го(Ь*,х*) - в-(и,х*)\ ^ £.
§ 1.4. Построение (-оптимальных законов управления
Система величин (1.20) удобна не только для вычисления цены игры (1.1)-(1.8). На основе этих величин методом экстремального сдвига на сопутствующую точку [37, 117] построим (-оптимальные законы управления игроков.
Пусть зафиксированы момент начала процесса управления Ь* < разбиение А$ = {Ь] }к+ вида (1.9), (1.16), на базе этого разбиения построены множества С± (Ь*), функции (Ь*,ш),
т € С ± (г*), и в согласии с (1.20) определены величины е± (г*,ш), ш € Мга. Опираясь на систему величин е+ (г*,ш), j = 1,...,к, определим стратегию ПДб первого игрока так, чтобы при г = г - € Дs выполнялись соотношения
Ue5(tj,x,e) = и), (t j,x) £ Ко, e > 0,
(1.21)
где ue находится из условия экстремального сдвига на сопутствующую точку (wu) [37, 49]:
U = p(tj,sU), sU = x - wU, (wU,ф £ argmin [e+ (t*,w) + £].
||x—w\\2E+£2<!ri'2(£,tj)
(1.22)
Здесь функции ц(-) и p(-) определены в согласии с (1.15).
Учитывая определение (1.20) величины e+ (t*, w), вогнутость функции (t*, m), m £ G+ (t*), и теорему о минимаксе [90], получаем цепочку равенств:
min
||x—w\\E +i2^V2(e,tj)
[e+(t*,w)+ = rnn [e+ (t*,x - s)+ =
hIe+e^v2(s,tj)
min
HIE +?2 <V2(e,tj)
max [{m, )(x - s)) + y+(t*,m)] + £
meo+(u)
max
mea+(tt)
{^T(tf,tj)m,x) + y+(t*,m) - max [{Фт(§,tj)m,s)-£]
HIE +e^v2(s,tj)
из которой следует, что требуемая в (1.22) величина в] может быть найдена из соотношений
--n(e,tj),
mu £ argmax
mec+ (tt)
1 + ||Фт(^Л- )mu\\2b (Фт(1?, tj)m, x) + y+(i*, m) - r](e, tj)yjl + ||ФТ(1?, tj)m
(1.23)
j )mllE
Аналогичным образом с понятными изменениями наряду со стратегией ПД& первого игрока рассмотрим стратегию УД второго игрока, определяемую так, чтобы в точках г- разбиения Д^
ь-s
выполнялись соотношения
Ve4(tj,x,e) = j (tj,x) £ Ко, e > 0, j = 1,...,k,
(1.24)
где ve находится из условия экстремального сдвига на сопут ствующую точку (wj ):
vjj = q(tj,svj), sj = wj - x, (wj) £ argmax [e+ (t*,w)+ £]
II w—XI\E+i2^V2(e,tj)
(1.25)
Здесь функции r)(-) и q(-) определены в согласии с (1.15).
sjj
sj =
sj =
ффт(tf,tj )m
j
j )mj
■Л2
j )mj\\e
--V(e,ti),
mjj £ arg max
mec+(tt)
д/1 + ЦФ TW,tj)m
(1.26)
Имеют место следующие теоремы, которые с учетом лемм 1.1, 1.2 и 1.3-1.5 доказываются при помощи рассуждений, подобных приведенным при обосновании аналогичных утверждений в [117, с. 65-73] (см. также [37, с. 207-223]).
s
Теорема 1.2. Для любого числа ( > 0 найдутся число е* > 0 и функция 5*(е) > 0, 0 < е ^ е*, такие, что, каковы бы ни был и значение 0 < е ^ е*, позиц ия (t*,x*) € Ко, t* < системы (1.1) и разбиение As вида (1.9), (1.16), 5 ^ 5*(е), для значения показателя качества Y{x[t*[■]$]) (1.7), реализовавшегося на движении x[t* [■]$], порожденном согласно (1.10), (1.11) законом управления Ue = (UД ,е,А$) первого игрока, в па,ре с произвольной допустимой реализацией v[t*[■]$) упщвления второго игрока из позиции (t*,x*), будет выполняться неравенство
e-(t*, x*) ^ 7(x[t*[-]0]) - Z
Доказательство. Ограничимся схемой доказательства. Должным образом выбираются числа е* и функц ия 5* (е) > 0 0 < е ^ е*. Фиксируются произвольные число 0 < е ^ е* и разбиение As = {tj j+i, 5 ^ 5* (е). На каждом ш are tj ^ t < tj+ь j = 1,...,k разбиения As по реализовавшейся позиции (tj,x(tj)) на основе системы величин (1.20) согласно (1.22) определяется сопутствующая точка (wu, . На очередном интеришге tj ^ t < tj+i рассматриваются два движения: реальной системы (1.1) из позиции (tj,x(tj)) и воображаемой модели (1.13) из позиции (tj, w'j). Управление первого игрока в системе (1.1) назначается законом управления Ue,
а и а и
рока определяется реализацией v[t*[■]$). В воображаемой модели (1.13) реализация v* [tjHtj+i)
аи
ли (1.13), а реализация u* [tjHtj+i) определяется по лемме 1.4 о u-стабильности, обеспечивая необходимые гарантии относительно результата управления. □
Аналогичным образом с понятными изменениями доказывается
Теорема 1.3. Для любого числа, ( > 0 найдутся число е* > 0 и функц ия 5*(е) > 0, 0 < е ^ е*, такие, что, каковы бы ни был и значение 0 < е ^ е*, позиция (t*,x*) € Ко, t* < системы (1.1) и разбиение As вида (1.9), (1.16), 5 ^ 5*(е), для значения, показателя качества 7(x[t*[■]$]) (1.7), реализовавшегося на движении x[t*[•]$], порожденном законом уащвления, Ve = (Удg ,е, As) второго игрока, в па,ре с произвольной допустимой реализацией u\t*[■]$) упщвления первого игрока из позиции (t*,x*), будет выполняться неравенство
e-(t*,x*) < 7(x[t*[■]#]) + О
По теоремам 1.1, 1.2, 1.3, для любого наперед заданного ( > 0 при должном выборе значений параметра е > 0 и диаметра разбиения As законы Ue и Ve будут (-оптимальными.
§ 1.5. Программная реализация
При реализации описанной процедуры приближенного вычисления цены игры (1.1)—(1.8) возникают две основные проблемы. Первая обусловлена известными сложностями построения выпуклых сверху оболочек функций в (1.18). Вторая — трудоемкостью пересчета (1.19) при переходе через оценочные точки
В реализации используется «пиксельное» представление компактных множеств, когда они
е
е
образом, в разрабатываемом численном методе все компакты представляются в виде конечных наборов пикселей.
При j = k + 1 множество G++i(t*) = {m: m = 0} представляем в виде массива состоящего из одного нулевого вектора mn = 0, а функцию ^++i(t*,m) = 0, m € G++i(t*), — в виде ассоциативного массива <р++1, состоящего го одной пары (fn = 0, <n++i(m) = 0). Для построения аппроксимации множества G-+i(t*) перебираем с равномерным по всем координатам шагом Ai, начиная с l = 0, все такие l € , которые удовлетворяют условию ¡i*N (l) ^ 1, и получаем векторы m = (mi, ■■■, mn) € Кга, из которых покоординатным преобразованием
fhi = Ат round | ), г = 1,...,п, (1-27)
V Am, }
формируем массив G—+1 пиксельной аппроксимации мпожества Здесь round обо-
значает операцию округления до ближайшего целого числа, Am — параметр, характеризующий размер пикселя. Одновременно с массивом G-+i формируем ассоциативный массив <р-+1 пар (m,y-+1(m)), m £ G-+1, который задает табулированную функцию, аппроксимирующую i-+1(t*,m), m £ G++1(t*).
Далее, на очередном шаге 1 ^ j ^ к, копируем массив GJ+1 в массив G+ и вычисляем
табулированную функцию ф. аппроксимирующую ф ункцию фj (t* ,m), m £ G+ (t*). При этом для нахождения необходимых значений функции Афj(t*,m) используем пиксельные аппроксимации U и V компактов U и V с размерами пикселей, характеризуемыми параметрами Аи и Ау. После этого для табулированией функции ф. выполняем согласно (1.18) процедуру построения выпуклой сверху оболочки и получаем табулированную функцию <p+, аппроксимирующую j (t*,m), m £ G+ (t*).
В реализации для построения выпуклой сверху оболочки ip = conc [ф(-)] табулированной
функции ф = фф(гп), m £ G С Кга, используется следующая процедура. Опираясь на результаты выпуклого анализа (см., например, [73, с. 119]), оболочку аппроксимируем сверху опорными гиперплоскостями с фиксированным набором нормалей, в качестве которого используем семейство векторов к = (к1, К2 кга+1), лежащих та единичной (n + 1)-мерной полусфере:
к1 = cos(^1),
К2 = Sin(01 )cos(02),
Кз = Sin(01 )sin(02)cos(03),
Кп = 81п(01) ... Бт(фп-1)сОБ(фп), Кп+1 = 81п(ф1) ... 81п(фп-1)81п(фп),
где каждый угол ф^ г = 1,.. .,щ пробегает отрезок [0,^] с равномерным шагом Аф. Сначала по набору нормалей находим функции опорных гиперплоскостей к подграфику функции ф. Затем
для каждой точки т £ С ищем минимум их значений в этой точке и значение еопе[ф(-)](ш)
о
полагаем равным найденному минимуму. Обе части процедуры распараллеливаются: первая — по обрабатываемым нормалям, вторая — по обрабатываемым точкам массива С.
Затем в случае, когда не совпадает ни с одним из момент ов времени копируем массив С+ в массив С- и копируем ассоциативный массив (+ в ассоциативный массив .
В противном случае, когда tj = Н = ), производим пересчет (1.19). Вводим равномерное разбиение отрезка [0, шах {V ^ 0: а**(0,и) ^ 1}] с шагом А^. Для построения аппроксимации множества ) перебираем только те V, которые принадлежат этому разбиению. Для каждого очередного V перебираем с равномерным по всем координатам шагом Аг, начиная с I = 0, все такие I £ М^, которые удовлетворяют условию а**(I, V) ^ 1. Для очередных V и I, перебирая все т* = т* из массива С+, получаем векторы т £ Мп, из которых покоординатным преобразованием (1.27) формируем массив С- пиксельной аппроксимации множества С~^*).
Заметим, что этот пересчет возможно распараллелить, разбив массив С+ на равные части, каждая из которых будет обрабатываться на отдельном вычислительном ядре.
Одновременно с массивом С- в согласии с (1.19) формируем ассоциативный массив (р-
пар (т(т)) ,т £ С-, который задает табулированную функцию, аппроксимирующую ,т), т £ С-(£*). При этом для каждого т, получаемого в результате преобразования (1.27), по соответствующей ему тройке (V, т*,1) вычисляем значение ¡р~(т) = víp+ (т*) — — (I, О^с^) и производим проверку, содержится ли уже пиксель т в массиве С- (есть ли в ассоциативном массиве (р~ ключ т). Если нет, то в С- добавляем пиксель т, а в (р- добавляем пару (т, (р-(т) = <-р~(т)). В противном случае сравниваем значения (Р-(т) и (р~(т), а затем по ключу т в ассоциативном массиве (р- сохраняем большее из них. При проверке принадлежности ключа т ассоциативному массиву (р- удобно использовать структуру данных
«хеш-таблица», тогда время проверки, а также доступа к значению по ключу в среднем будет составлять O(n) [29, с. 282-315], где n — размерность вектора т.
Программная реализация выполнена на языке С++, с использованием библиотек из коллекции Boost С++ Libraries. Для хранения ассоциативных массивов используются хеш-таблицы из Boost::unordered. Для ускорения пересчета (1.19) применяются различные программные оптимизации. По умолчанию тип данных ublas::vector использует свободную память [76, с. 177180, 509-512] для хранения значений координат векторов т, что приводит к дополнительным обращениям к оператору выделения памяти при создании новых векторов. Использование bounded^arrav в качестве хранилища массива координат позволяет избежать этих затрат. Помимо этого, ускорить программную реализацию позволяет замена стандартной функции хеширования boost::functional::hash_value на аналогичную, но более эффективную по реализации.
Приведем оценки времени работы предлагаемой реализации процедуры вычисления цены дифференциальной игры (1.1)-(1.8). Положим
Аф = max ||ФТ(£, $)||оо, AD = max ||ДТ||оо, AU = max|Ы|оо, Ay = max IMIoo, te[to í=i,...,n" «e^ vev
A® = max{v ^ 0: a*(0, v) < 1}, i = 1,...,N - 1, A(f) = 1, Au = max A^,
i=1,...,N
A((i) = max{||l||TO : l e Mdi ,a*(l, 0) < 1}, i = 1,...,N - 1, A((N) = max{||l|U : l e (l) < 1}, Ai = max A,(i).
i=1,...,N
Здесь и далее в зависимости от контекста символ || • обозначает либо норму вектора, определяемую как максимум из модулей его координат, либо подчиненную по отношению к ней норму матрицы. Будем предполагать, что время вычисления каждой из встречающихся в процедуре векторных норм зависит линейно от размерности вектора.
Докажем вспомогательное
Утверждение 1.1. Пусть для множества M С Rn существует констант,а, Am > 0 такая, что
||т||те ^ AM, т e M.
Тогда, для, пиксельного представления M множества M с размером пик селя Am ^ Am/3 верна оценка, количества точек \M\ этого представления:
Доказательство. Множество М содержится в п-мерпом кубе с центром в начале координат и стороной 2Хм ■ Оценим \М\ сверху количеством точек в пиксельном представлении этого куба:
\M\ < [1 + 2
Хм А
M
n
< 13
Хм А
M
Здесь \х\ обозначает наименьшее целое число, не меньшее х. □
Утверждение 1.2. Время Т(1 вычисления табличной ф ункции по табличной функции составляет
Доказательство. Приведем псевдокод алгоритма вычисления приближенного значения выражения А—j(t*,m) при фиксированном m Е Кга в случае численного интегрирования методом трапеций. В комментариях справа для указанных в соответствующих строках операций даны оценки их времени выполнения, которые опираются на утверждение 1.1 и известные оценки времени выполнения операций с векторами и матрицами, а также доступа к элементам массивов и хеш-таблиц (см., например, [29]). В приводимых далее псевдокодах обозначения «end for» окончания циклов будут опущены для краткости.
procedure DeltaPsi(hi)
maxj —--<x>, maxj+i —--<x> > O(l)
for all Dt G V do ^((f^)
minj — <x>, minj+i — ^ > O(l)
for all «» € U do
minj — min [minj, (m, )f (tj,u*,v*))] > O(n2)
minj+i — min [minj+i, (m, ^(&,tj+i)f (tj+i,u*,v*))] > O(n2)
maxj — max [maxj ,minj] > O(l)
maxj+i — max [maxj+i, minj+i] > O(l)
return (maxj + maxj+i)(tj+i — tj)/2 > O(l)
Сопоставляя оценки времени выполнения отдельных операций, получаем, что приближенное значение Д^-, т) вычисляется за время О
Для любого т Е С±~, ] = 1,...,к + 1, справедлива оценка
\\т^ К\\т+ ЛфЛ^^ ... ^
< ЛфЛДЛ1(ЛN) + Л?)-1 + ... + 1) < (1.28)
< N - Н(Ъ) + 1)ЛфЛоЛ1Л?).
Заметим, что в случае, когда нормы о^и,^) и ц?(1м) являются, например, ¿^-нормами, то Л„ = 1, и не происходит экспоненциального роста областей С±~ в попятной процедуре построения системы величин (1.20).
Оценим время работы процедуры, используемой для построения выпуклой сверху оболочки (р+ = сопс ['фj (•)] функции гpj = гpj(т), т Е С+. Согласно утверждению 1.1 количество точек
(—-—-дФ ° 1 "-
Количество нормалей к равно О Параметры гиперплоскости, проходящей через за-
данную точку и имеющую заданную нормаль, могут быть вычислены за О (и). Таким образом, построение набора опорных гиперплоскостей, как и вычисление по этому набору значений
) N
п{~К^)П{ —л! ° 1 "-^п
Учитывая приведенные оценки и то, что процедура Бе^аРв! вызывается для каждого т Е получаем доказываемую оценку времени Т(1\ □
Утверждение 1.3. Время работы Т(22 реализации пересчета (1.19) для ] = 1, ...,к, т,аких, что tj = Ь = h(tj), составляет
о(л„ + „4 и + + "
Аи; V ) V А
Доказательство. Приведем алгоритм организации пересчета (1.19), записанный в виде псевдокода. Доказываемая оценка времени Tj ) получается путем сопоставления времени
выполнения отдельных операций. В псевдокоде используются функция PlXELs(set,precision), которая по данному множеству set строит его пиксельную аппроксимацию с размером пикселя, равным precision и функция R0UNDVECT0R(m, Am), выполняющая преобразование (1.27). □
a*h(l, 0) < 1}, Al) do
procedure RecalculatePhi dc — DhCh
for all (m*, (m*)) e do
for all l e Pixels({1 e xdl — ^D l Idc (l, dc)
for all v e PixeLs({v ^ 0: a*h(l,v) < 1}, ) do
m — vm * + xdl m — Round Vecto R(m, Am)
(m) — max Wj (m), vtp1+ (m*) - ldc]
>O ((
> O(n2dh) > O(dhn)
4(jV—/г+1)ЛфЛдЛ;Л Am
> O
dhmdh
> O(ndh)
> О (dh)
> O(n)
> O (n)
> O (n)
Утверждение 1.4. Время T(+v необходимое для построения массивов G++v Gk+1 и ассоциативных массивов <p++1, <р++1, составляет
2
Доказательство. Данный этап процедуры представляет собой упрощенную версию перебора (1.19). Обоснование оценки проводится по аналогии с доказательством утверждения 1.3. □
Утверждение 1.5. Итоговое время Т приближенного вычисления, величины е-,х*) (1.20) составляет
+ *(п'* + «Г и + ^ ■
А^ \Ах ) \ Ат
где d* = шах йь. Н=1,..,М
Доказательство. Итоговое время Т складывается из времени Т(1)> затрачиваемого
(2)
на каждом шаге ^ = к, к — 1,...,1, времен и Т , необходимого для осуще ствления N пересчетов (1.19), и времени непосредственного приближенного вычисления значения е— (Ь*,х*) по
□
§ 1.6. Примеры
Приведем результаты численных экспериментов.
Пример 1.1. Пусть движение динамической системы описывается уравнением
х 1 = Х2 + c(t)v, t t 0 < *<Л 4
ПС ААГ , to = t* =0 ^ t < V = 4,
х 2 = —0,5х1 — 0,05х2 + Ь\Ъ)и, (1.29)
х
= (x1,X2) £ R2, u £ R1, v £ R1,
где
1,5 + 1,5шз27г^ — 0,5), если t £ [0,5; 1,5], Ь^) = { 1,5 + 1,5шз27г^ — 2,5), если t £ [2,5; 3,5], 3, если иначе,
ф) =
1, ecлиt £ [0,6; 1,4] и [2,6; 3,4] 0,3, ,
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
и £ и = {—1, 0,1}, V £ V = {—1, 0,1}, (1.30)
заданы начальное условие
и показатель качества
х * = х(0) = (х1 (0),х2(0)) = (1,0) (1.31)
4 1/2
*[.]0]) = (]Т ||х(г) — сг\\1) , (1.32)
\\х(1) — сг\2
г=1 где
С1 = (0, —1), С2 = ( — 1, 0), С3 = (0, 1), С4 = (1,0).
В численных построениях использовались равномерное разбиение А^ отрезка времени управления [0, 4] с диаметром 5 = 0,001 и значение параметра точности е = 0,005. Для пиксельных представлений были выбраны значения параметров Ат = А[ = А^ = 0,01, Аф = п/200.
Множества С+ (t *) по построению изменяются только при переходе через моменты V оценки качества движения. В этой дифференциальной игре они оставались неизменными на полуинтервалах [0,1), [1, 2), [2, 3), [3, 4). Пиксельное представление множеств С+ (Ь *) для данной задачи приведено на рис. 1.
Найденное численно значение величины е—^*,х*), приближающее цену Го^*,х*) игры (1.29)—(1.32), составило 1,131. Ниже приводятся результаты трех симуляций процесса управления в этой игре.
(1) Управляющие воздействия игроков формировались согласно соотношениям (1.21)—(1.23) и (1.24)—(1.26). Реализовалось следующее значение показателя качества (1.32):
7 = (0,5742 + 0,6802 + 0,6262 + 0,2302)1/2 и 1,112 и *,х*) = 1,131.
(2) Управление первого игрока по-прежнему формировалось согласно (1.21)—(1.23), а управляющие воздействия второго назначались случайным равновероятным образом. Реализовалось значение показателя качества:
7 = (0,1752 + 0,2962 + 0,2202 + 0,0202)1/2 и 0,408 < *,х*) = 1,131.
(3) Управляющие воздействия первого игрока назначались случайным равновероятным образом, а управление второго формировалось согласно (1.24)—(1.26). Реализовавшееся значение показателя качества:
7 = (1,4502 + 2,4162 + 2,4552 + 3,3162)1/2 и 4,996 > *,х*) = 1,131.
Траектории реализовавшихся движений, полученные в первой (синяя линия) и второй (зеленая линия) симуляциях, приведены на рис. 2. Здесь и далее целевые точки обозначены черными крестиками. Круглые точки на траекториях соответствуют моментам времени оценки качества движения.
■
:
Г+ ^[0,1)
Г+ ^[1,2)
^2,3) 3 С[3,4) 4
1
-2
-3
-4
-3
-2
1
т1
Рис. 1. Пиксельное представление множеств для дифференциальной игры (1.29)^(1.32)
из примера 1.1
При м е р 1.2. Рассмотрим дифференциальную игру из [117, с. 1 11], описывающую движение материальной точки на плоскости под воздействием центральной силы, силы сопротивления, управляющей реактивной силы и динамической помехи. Движение динамической системы описывается уравнением Мещерского
х = -4е%!5 ж - 0,1е1/5 Х - 8и + 2,4вг/5у, Ь = и = 0 < t < $ = 4,
2 2 2 V /
х = (Х1 ,Х2) Е М2, и = (и1,и) Е М2, V = (У1,У2) Е М2,
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
"Ч I и2
«еи= {(иъи2) ем2: $ + $ < 1},
заданы начальное условие
(1.34)
х* = (х1(0),Х 1 (0),Х2(0),Х2(0)) = (0, 2, 2,1) (1.35)
и показатель качества
7ИЫ-]0]) = /т2(4)+Ж2(4). (1.36)
В этой игре показатель качества терминальный. Для ее численного решения существуют более эффективные алгоритмы (см., например, [117]). В настоящей работе игра (1.33) (1.36) использовалась в качестве тестовой, чтобы убедиться в корректности выполненной программной реализации.
Х2
1,5
1
0,5
0
-0,5
-1
-1,5
-2
-2 -1,5 -1 -0,5 0 0,5 1 1,5 XI
Рис. 2. Траектории реализовавшихся движений в первой (синяя .линия) и второй (зеленая .линия) симуляциях процесса управления в примере 1.1.
В численных построениях использовались равномерное разбиение Д^ отрезка времени управления [0, 4] с диаметр ом 5 = 0,005 и значение параметра точности е = 0,01. Для пиксельных представлений были выбраны значения параметров Дт = Д[ = Д^ = 0,03, Дф = п/31.
Найденное численно значение величины приближающее цену Го(£*,х*) игры
(1.33) (1.36), составило 0,799. Ниже приводятся результаты двух симуляций процесса управления в этой игре.
(1) Управляющие воздействия игроков формировались согласно соотношениям (1.21) (1.23) и (1.24) (1.26) соответственно. Реализовалось следующее значение показателя качества (1.36):
7 = л/0,0112 + 0,8262 и 0,826 и = 0,799.
Траектория движения, полученная в этом эксперименте, изображена на рис. 3 слева. В [117, с. 11] найденное приближенно значение цены игры (1.33)^(1.36) составило 0,79, при этом в результате симулирования процесса управления под действием оптимальных стратегией игроков было получено значение показателя качества 7 ~ 0,78.
(2) Управление первого игрока по-прежнему формировалось согласно (1.21) (1.23), а управ-
ляющие воздействия второго назначались случайным равновероятным образом. Реализовалось значение показателя качества:
7 = \/(—0,043)2 + (-0,057)2 и 0,071 < е]~(£*,ж*) = 0,799.
Полученная в этом случае траектория движения показана на рис. 3 справа.
Х2 2 1 0 -1 -2 -3
1................. ..................-
-3 -2 -1
Х2 2 1 0 -1 -2 3
Х1
321
Рис. 3. Траектории реализовавшихся движений, полученные в первой (слева) и второй (справа) симуляциях процесса управления в примере 1.2.
При м с р 1.3. Пусть движение динамической системы описывается уравнением X1 = х2,
х 2 = -0,05х1 + 0,01х3 + 2и1 + v1, г0 = г* = 0 ^ = 4,
Ж 3 = 2П2 +0,01^2,
х = (х1 ,х2,хз) € К3, и = (П1,П2) € К2, V = (^1,^2) € К2,
(1.37)
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
^ I (■,
(1.38)
u
е U ={(ui,u2) е R2: u1 + u2 < 1}
v е V = {(vi,V2) е R2: \vi\ < 0,5, |v21 < 1},
заданы начальное условие
x, = x(0) = (xi(0),x2(0),Х3(0)) = (1, -1, 0,1)
и показатель качества
7(ж[Ш<?]) = \/(xi(2) - l)2 + х%(2) + (жП4) + I)2 + х%(4).
(1.39)
(1.40)
В численных построениях использовались равномерное разбиение Д^ отрезка времени управления [0,4] с диаметром 5 = 0,0005 и значение параметра точности е = 0,001. Для пиксельных представлений были выбраны значения параметров Дт = Д[ = Д^ = 0,015, Дф = п/100.
Найденное численно значение величины в-(Ь*,х*), приближающее цену Го(г*,х*) игры (1.37) (1.40), составило 0,24. Ниже приводятся результаты трех симуляций процесса управления в этой игре.
(1) Управляющие воздействия игроков формировались согласно соотношениям (1.21)—(1.23) и (1.24)—(1.26) соответственно. Реализовалось следующее значение показателя качества (1.40):
7
= л/(-0ДЗ)2 + (-0,11)2 + 0,222 + (-0,007)2 и 0,27 и = 0,24.
(2) Управление первого игрока по-прежнему формировалось согласно (1.21)—(1.23), а управляющие воздействия второго назначались случайным равновероятным образом. Реализовалось значение показателя качества:
7
= л/(—0,11)2 + (-0,12)2 + 0Д32 + (-0,002)2 и 0)20 < = 0,24.
(3) Управляющие воздействия первого игрока назначались случайным равновероятным образом, а управление второго формировалось согласно (1.24)—(1.26). Реализовавшееся значение показателя качества:
7
= у/(—3,17)2 + (-2,01)2 + (-5,78)2 + (-2,56)2 и 7,35 > е^*, ж*) = 0,24.
Траектории реализовавшихся движений, полученные в первой (красная линия), второй (зеленая линия) и третьей (синяя линия) симуляциях, приведены на рис. 4.
Пример 1.4. Пусть движение динамической системы описывается уравнением
х 1 = Х2 + V!,
х2 = Хз + и1, ^ = t* = 0 ^ t< 4 = •&,
х 3 = и2 + V2, ' ' '
х = (Х1, Х2, Хз) Е М3, и = (и1, и2) Е М2, V = ^1, V2) Е М2,
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
и Е и = {(и1, и2) Е М2: |и11 < 1, Ы < 3}, V Е V = {V, V2) Е М2 : 2v2 + VI < 1},
заданы начальное условие
х* = х(0) = (0, 0, 0)
и показатель качества
7(х[^]0]) = (0,04(х3(1) - 1)2 + 0,16(Х2(2) - 2)2 + 0,1б(х1(3) - 3)2+
/ )2 / )2 п 1/2 (1'43) +Х1 (4) - 4)2 + (Х2(4) - 4)2) .
В численных построениях использовались равномерное разбиение А$ отрезка времени управления [0, 4] с диаметр ом 5 = 0,005 и значение параметра точности е = 0,01. Для пиксельных представлений были выбраны значения параметров Ат = А1 = Аи = 0,02, Аф = п/80.
Найденное численно значение величины е—^*,х*), приближающее цену Го^*,х*) игры (1.37)-(1.40), составило 0,874. Ниже приводятся результаты четырех симуляций процесса управления в этой игре.
(1) Управляющие воздействия игроков формировались согласно соотношениям (1.21)—(1.23)
и (1.24)—(1.26) соответственно. Реализовалось следующее значение показателя качест-
е
7 = ^0,04(0,125)2 + 0,16(1,115)2 + 0,16(0,616)2 + п 1/2
+ (0,68)2 + (0,213)4 и 0,876 и в-(и,х*) = 0,874.
Реализовавшееся движение представлено на рис. 5.
х2
0,5
-0,5
1
1,5
-2
1,5
ч А 1 1 N А
? \ 2 3 ? \
1
-1 -0,5
х1
Рис. 4. Траектории движений в первой (красная .линия), второй (зеленая .линия) и третьей (синяя .линия) симуляциях в примере 1.3.
(2) Управление первого игрока по-прежнему формировалось согласно (1.21) (1.23), а управляющие воздействия второго назначались «жадным» законом, который на каждом шаге ^ г < ¿7+1, ] = 1,...,к, разбиения Д^ осуществляет экстремальный сдвиг в противоположную от ближайшей целевой точки сторону:
v(t) е ал^шахшт {Бщ.) (х(^) - ещ.)) )/(^ ,и^)).
В этом случае реализовалось значение показателя качества
7 = ^0,04(0,316)2 + 0,16(0,468)2 + 0,16(1,658)2 + \ 1/2
+ (0,432)2 + (0,01)4 и 0,816 < е-(¿*,х*) = 0,874.
Реализовавшееся движение представлено на рис. 6. (3) Управление первого игрока формировалось согласно (1.21) (1.23), а управляющие воз-
Рис. 5. Реализовавшееся движение в первой симуляции в примере 1.4
Рис. 6. Реализовавшееся движение во второй симуляции в примере 1.4
действия второго были нулевыми. Реализовалось значение показателя качества
7 = ^0,04(0,19)2 + 0,16(0,477)2 + 0,16(1,314)2 + п 1/2
+ (0,04)2 + (0,04)4 и 0,563 < е-,х*) = 0,874.
Реализовавшееся движение представлено на рис. 7.
(4) Управляющие воздействия первого игрока были нулевыми, а управление второго формировалось согласно (1.24) (1.26). Реализовавшееся значение показателя качества:
7 = ^0,04(0,822)2 + 0,16(1,723)2 + 0,16(1,874)2 + п 1/2
+ (3,631)2 + (4,748)2) и 6,066 > е-(Ь*,х*) = 0,874. Реализовавшееся движение представлено на рис. 8.
4
3
-1
о 1 2 з г
Рис. 7. Реализовавшееся движение в третьей симуляции в примере 1.4
X
3
2
1 О -1 -2
§ 2. Позиционные дифференциальные игры в смешанных стратегиях
В этом параграфе, как и в § 1, рассматривается антагонистическая дифференциальная игра, в которой динамическая система, подверженная управляющим воздействиям первого и второго игроков, описывается обыкновенными дифференциальными уравнениями, линейными по фазовому вектору. Воздействия игроков стеснены геометрическими ограничениями. Позиционный показатель качества процесса управления оценивает норму совокупности отклонений траектории движения в наперед заданные моменты времени от заданных целевых точек. В отличие от § 1 условие еедловой точки в маленькой игре (см., например, [37]) может быть не выполнено. В рамках подхода [32 34, 37, 40, 117] игра формализуется в классах смешанных стратегий. Показывается, что после введения вспомогательной модели-поводыря численный метод, данный в § 1, оказывается применим и для решения игры в классах смешанных стратегий. При построении оптимальных стратегий игроков правило экстремального сдвига на сопутствующие точки обеспечивает необходимые гарантии качества управления поводырем, близость движений исходной системы и поводыря достигается при помощи конструкций из [30, 116]. Обсуждается программная реализация развиваемого численного метода, приводятся результаты компьютер-
XI (г) - -!-»» ...........................................................V.........................................................-
Х2(г) .......... .. хз(г) -------------- \ ( : _
\ ? *_________________ ч ;
-'-.-.._„_., ............
---------- : -------
|
о 1 2 з г
Рис. 8. Реализовавшееся движение в четвертой симуляции в примере 1.4
ного моделирования. §2.1. Постановка задачи
Пусть движение динамической системы описывается уравнением
x = A(t)x + f (t,u,v), to < t* < t<$, x e Rra, u e Rra", v e Rra".
xt
пую по времени; A(t) и f (t, u, v) — непрерывные по совокупности переменных матрица-функция uv
времени to и $ зафиксированы, t* — момент начала, процесса управления. Величины u и v стеснены геометрическими ограничениями
u Е U, v E V, (2.2)
где множества U и V компактны.
В отличие от § 1 рассмотрим случай, когда на систему (2.1) не накладывается условие (1.3) седловой точки в маленькой игре [37, с. 79], то есть могут существовать такие вектор l* Е Мга и момент времени t* Е [to,$], что
minmax{l*,f(t*,u,v)) =maxmin(l* ,f(t*,u,v)). (2.3)
Допустимыми считаем измеримые (по Борелю) реализации управлений u[t*[•]$) = {u(t) ЕU, t* ^ t < $} и v[t*[-]$) = {v(t) Е V, t* ^ t < $} первого и второго игроков соответственно.
(t, x)
множество Kx возможных позиций системы (2.1):
Kx = e(t,x) Е [to,$] х Rra: \\x\\e < (1 + Ro + x)exp [(t - to)\x] - lP, (2.4)
где % ^ On R0 > 0 ^ некоторые постоянные, Xk — константа из (1.4). Под движением x [t* [■]$], порожденным из позиции (t*,x*) Е Kx, t* < $, допустимыми реализациями u[t*[-]$) и v[t*[-]$), понимаем абсолютно непрерывную функцию {x(t) Е Мга, t* ^ t ^ $, x(t*) = x*}, которая при почти всех t* ^ t ^ $ вместе с u = u(t) и v = v(t) удовлетворяет уравнению (2.1).
Пусть, как и ранее, показатель качества, оценивающий реализовавшееся движение x[t* [•]$], имеет вид
Ч^Щ'Щ) = /h(t«)( Dh(tt )(x($Htt)) - Ch(tt)) ,...,DN (x($N) - c^, (2.5)
где $i — з&дшшыв моменты времени оценки качества движения такие, что t0 < $i < $i+\ ^ $, i = 1,...,N — 1, $n = Di — постоянные матрицы раз мерности di х n (1 ^ di ^ n); ci E Rra — целевые векторы,; /i(li,... ,In) — нормы в пространствах (di + ... + dN)-мерных наборов (li,..., In), составленных из d^Mepnbix векторов li, i = 1,...,N h(t) — следующая функция:
h(t) = min{i = 1,...,N: $i ^ t}, to < t < $. (2.6)
Предполагаем, что в пространствах (li,/) Е Mdi х R существуют четные по / нормы Oi(li,/), i = 1,...,N — 1, связанные равенствами
лi (li,... ,in )= Oi (li ,/i+i(li+i,...,lN)), i = 1,...,N - 1. (2.7)
В таком случае показатель качества (2.5) является позиционным, [117, с. 43] (см. также пояснения в подпараграфе 1.1).
Цель первого игрока — доставить показателю (2.5) как можно меньшее значение. Цель второго противоположна цели первого.
Поскольку на систему (2.1) не наложено условие седловой точки в маленькой игре, то дифференциальная игра (2.1)—(2.7) может не иметь цены в классах чистых позиционных стратегий U(t,x,e), V(t,x,e) [37], рассмотренных в §1. В таком случае уместно рассматривать формализацию игры в классах стратегий-контрстратегий и контрстратегий-стратегий [37], которые подразумевают дискриминацию одного из игроков по отношению к другому, либо в классах смешанных стратегий [32, 117], когда оба игрока равноправны. Этот параграф посвящен смешанным стратегиям.
Отметим, что процедура, описанная в § 1, может быть применена для решения дифференциальной игры (2.1)—(2.7) в классах контрстратегий-стратегий. А для случая стратегий-контрстратегий необходимо в этой процедуре переопределить вспомогательную функцию (1.17), переставив местами операции взятия максимума и минимума следующим образом:
Г гз+1
A^j(t*,m) = / min max (m, Ф($,r)f (t,u*,v*)) dr.
Jt. u* GU v*
eV N //
Более подробное описание и обоснование этих модификаций процедуры для контрстратегий дано в [131].
Поскольку компакты U и V могут быть приближены конечными множествами (см., например, [117]), то далее предполагаем, что U и V конечны изначально:
U = {u[r] е : r = 1,...,L], V = {v[s] е М"» : s = 1,...,M}.
Положим
L
P = {p = (Pi,..., Pl) е Rl : Pr ^ 0, r = 1,...,L, ZPr = 1},
r=l M
pM .
(2.8)
Q = {д = (д!,...,ды) е Мм: д3 ^ 0, в = 1,...,М, £ д3 = 1}.
8=1
Следуя конструкциям из [32, 117], опишем дифференциальную игру (2.1)—(2.7) в смешанных стратегиях с точки зрения первого игрока. Наряду с исходной системой (2.1) рассмотрим вспомогательную модель:
LM
(2.9)
y = A(t)y + f (t,u[r],v^)p**q**, to < t* < t<#
Г уеШп, р* е Р, д* е Q.
В процессе формирования управления первого игрока модель (2.9) будет играть роль поводыря [40, с. 248].
Смешанной стратегией и первого игрока назовем тройку (ри(-), р*и() д^(•)) функций
Ри = Рп(г,х,у,е) е Р, р*и = р*и(г,х,у,е) е Р, д*и = д*и(г,х,у,е) е (, г е [¿0,0], х е мп, у е мп, е > 0,
которые при фиксированных г и е измеримы по (х, у). Величина е является параметром точности, значение которого выбирается игроком до начала процесса управления, остается в ходе этого процесса неизменным и определяет точность решения задачи.
В рамках формализации дифференциальной игры (2.1)—(2.7) в классах смешанных стратегий игроки формируют реализации управлений, используя вероятностные механизмы. Будем предполагать, что в основу дальнейших построений положено достаточно богатое вероятностное пространство П = (П, Т, Р), где П = {ш} — множество элементарных событий, Т — ст-алгебра для этого множества, Р = Р(В), В е Т, — вероятностная мера. Пояснения отно-
П
с. 16-17; 33; 117, с. 250-254].
Законом управления Ы первого игрока назовем тройку (и, е, Дг), где Д$ — разбиение отрезка времени [г *,0]:
Дй = {¿з : К = г*, 0 < Ъ+1 - Ъ < 5, 3 = 1,...,к, гк+1 = 0}. (2.10)
Из заданных позиций (t*,x*) G K0 системы (2.1) и (t*,y*) G K1 модели (2.9) закон управления U в паре с допустимой случайной реализацией уш [t*[•]$) = {уш(t) G V, t* ^ t < ff, ш G Q} управления второго игрока порождает случайное движение (хш [t*[^]ff] ,уш [t*[^]ff]) комплекса (2.1), (2.9), которое определяется как решение следующих пошаговых уравнений:
х ш (t) = Л(г)хш (t) + f(t,uUj ,уш (t)),
L M
уш (t) = Л(1)уш + f (t,u[r],v[s] )p*ur t ,хш (tj ),уш (tj ),e)q*us {t3 ,хш (tj ),уш (tj ),e), (2.11)
r=1s=1
tj < t<tj+i, j = l,...,k,
при начальном условии хш(t1) = х*, уш(t1) = у*. Начальное состояние (хш(tj),yш(tj)) для отрезка tj ^ t ^ tj+1 при j > 1 совпадает с конечным состоянием (хш(tj),уш(tj)) для предыдущего отрезка tj-1 ^ t ^ tj. Величина ишj G U определяется в результате случайного испытания при условии
р(иш,j = ur | хш(tj), уш(tj)) = Pur(tj,хш(tj),уш(tj),e). (2.12)
Здесь и далее символ P(... | ... ) обозначает условную вероятность. Кроме того, предполагается, что на каждом шаге tj ^ t < tj+1 случайная реализация vu [t*[^]ff) является стохастически независимой от получаемой реализации иш [t*[-]ff) = {иш(t) = иш,j, tj ^ t < tj+1, j = 1,...,k, ш G Q}:
P(vM(t) G B I хш(tj), уш(tj), иш(tj)) = P(vM(t) G B I хш(tj), уш(tj))
для любого подмножества B С V.
Гарантированным результатом закона управления U для заданных позиций ^*,х*) G K0 и (t*,у*) G K1 и числа 0 < ß < 1 называют величину
Г(и ; t*, х*, у* ; ß) = sup mini a G R : p(j (х[/*[^]Т < a) ^ ß}. (2.13)
v„ [М'Ю L V J J
Здесь верхняя грань берется по всем допустимым реализациям vu [t*[•]$), 7(х[^*[^]) — значение показателя (2.5), реализовавшегося нз движении х [t*[•]ff], порожденном согласно (2.11), (2.12) законом U в паре с реализацией vu [t* [•ff из позиций (t*,х*) системы (2.1) и (t*,у*) модели (2.9).
Соответственно, гарантированным результатом стратегии U будет величина T(U; t*^*) = lim limsup lim sup limsupT(U = (U,e, As); t*,х*,у*; ß).
ß^1 П^О As
Тогда оптимальный гарантированный результат первого игрока определяется равенством
Ги^*,х*) — inf Г(и; t*,x*),
а стратегия U0 первого игрока оптимальна, если
r(Uo х* ).
Для Z > 0 0 < ß < 1 закон управления U первого игрока назовем ((, ß)-оптимальным, если
T(U; t*,х
*,у* — х* ; ß) ^ Ги(и,х*)+ (. (2.14)
Аналогичным образом, рассматривая дифференциальную игру (2.1)—(2.7) за второго игрока, вводим вспомогательную модель:
LM
Z = A(t)z + f (t, и[г], v[s])p*rq*s, to < t<ff,
r=1 s=1
z G Rra, p* G P, q* G Q.
Смешанной стратегией V второго игроке называем тройку (qv(•), pV(•), q*v(•)) функций
qv = qv(t,x,z,e) e Q, pV = pV(t,x,z,e) e P, qV = qV(t,x,z,e) e Q, t e [to,0], x e Rra, z e Rra, e > 0,
t e (x, z)
Закон управления V второго игрока, определяется тройкой (V, e, As). Из заданных позиций (t*, x*) e Ko системы (2.1) и (t*,z*) e модели (2.15), при допустимой случайной реализации иш [t*[•]$) = {иш(t) e U, t* ^ t < ш e Q} управления первого игрока, закон управления V порождает случайное движение [t* [^jz [t* [•]$]) комплекса (2.1), (2.15), которое определяется как решение пошаговых уравнений
x ш (t)= A(tx (t) + f(t , иш (t), ,
L M
Zш (t)= A(t^ш + f (t,ulr],v^)p*vr (tj ,xш (tj (tj ),e)q*vs(tj ,xш (tj (tj ),e), (2.16)
r=l s=l
tj < t<tj+i, j = l,...,k,
при начальном условии x(ti) = x*, z(ti) = z*. Величина vu:,j e V определяется в результате случайного испытания при условии
Р(уш ,j = v[s] | Xш (tj), Zш (tj)) = qvs (tj ,xш (tj (tj ),e). (2.17)
При этом предполагается, что случайная реализация иш [t* [•]$) является стохастически незавд-симой от получаемой реализации vш [t * [•]$) = {vш (t) = v^^j, tj ^ t < tj+i, j = l,...,k, ш e П}:
Р(иш (t) e B | Xш (tj ), Zш (tj), (tj)) = Р(иш (t) e B I Xш (tj), Zш (tj )) , tj < t<tj+1, j = l,...,k,
для любого подмножества B С U.
Гарантированным, результатом закона управления V для заданных (t*, x*) e K0, (t*, z*) e Ki и 0 < ß < 1 называют величину
r(V;t*,x*,z*;ß) = inf maxia e R: P(j{x[t*[^ ^ a) ^ ß}. (2.18)
Заметим, что в согласии с определениями (2.13) и (2.18) для любых законов управления U и V и при любых значениях 0,5 < ß < 1 справедливо неравенство
r(U; t*,x*,y*; ß) ^ r(V; t*,x*,z* = y*; ß). (2.19)
V
r(V; ) = lim lim inf lim inf liminfr(V = (V,e, As); t*,x*,z*; ß). ß^l e^0 \xt-zt\4nS^0 Ag
Тогда оптимальный гарантированный результат второго игрока, определяется равенством
rv (t *,x *) = supr(V; t *,x *),
V
V0
ВД; t
*, x *) - rv (t *,x *).
Закон управления V назовем ((, ß)-оптимальным, если
r(V; t*,x*,y* = x*; ß) ^ rv(t*,x*) - (. (2.20)
Известно [117, с. 257], что дифференциальная игра (2.1)—(2.7) имеет цену
r0(t *,x *) = ru(t *,x *) = rv(t *,x *) (2.21)
и седловую точку (U0,V0) в классах смешанных стратегий.
Цель данного параграфа — разработка численного метода для нахождения цены r0(t*,x*) и построения (Z, ß)-onTHManbnbix законов управления игроков.
§2.2. Вспомогательная дифференциальная игра
Рассмотрим вспомогательную дифференциальную игру для модели (2.9) с показателем качества (2.5). В этой игре р* трактуется как управляющее воздействие первого игрока, нацеленного минимизировать показатель (2.5), ад* — как управляющее воздействие второго, нацеленного максимизировать этот показатель.
Модель (2.9) удовлетворяет условию седловой точки в маленькой игре. Из результатов [31; 117, с. 51-73] вытекает, что вспомогательная игра (2.9), (2.5) имеет цепу Г0(ь*,у*) и седловую точку (р0(Ь,у,е),д**(Ь,у,е)) в классах чистых позиционных стратегий. Согласно теореме 1.1 цена Г0(Ь*,у*) может быть приближенно вычислена по процедуре, приведенной в подпарагра-фе 1.3.
Пусть для промежутка времени управления [ь*, $] зафиксировано разбиение А$ = {ьь} вида (2.10), в которое включены все моменты ^ оценки качества движения из показателя (2.5), то есть
^ е Ай, г = Ь(Ь*),...,К. (2.22)
Следуя построениям из подпараграфа 1.4, по системе величин (1.20) методом экстремального сдвига [37, 117] определим функцию рЦе( ■ ) так, чтобы при Ь = ьь е А$ выполнялись соотношения
ь м
р*иеЬ, у, е; А$) е ащтш тах( вЩ^Т/ (Ь )р*г д*), (2.23)
где
Г=1 3=1
)шги
= / 3
' ■ 11 - ' " 4 -,и||2
Ши е argmax
теО+(Ь*)
(ФТ(^, у) + т) - ф, + 3 = 1,...,к, у е Мга, е> 0.
Е
Рассмотрим во вспомогательной игре (2.9), (2.5) закон (рЦ^( ■ ; А$),е,А$), формирующий по шагам разбиения А$ вида (2.10), (2.22), па котором были построены величины (1.20), кусочно-постоянную реализацию управления первого игрока по правилу
р* (Ь)= р*ие{Ь, y(tj ),е ; Аг), ь < t<tj+l, з = 1,...,к.
Согласно теоремам 1.1, 1.2 данный закон управления является (-оптимальным. Это означает, что для любого числа ( > 0 найдутся такие число еу > 0 и фупкция 5у (е) > 0, 0 < е ^ еу, что, каковы бы ни были позиция (Ь5,у*) е К^ Ь* < значение 0 < е ^ еу и разбиение А$ вида (2.10), (2.22), 5 ^ 5у(е), закон (рЦе( ■ ]Аs),е,Аg) будет гарантировать для модели (2.9) неравенство
7(у[Ы-]0]) < Г0(Ь*,у*)+ С/2, (2.24)
какова бы ни случилась измеримая реализация д* [Ь* [■]$).
С другой стороны, рассматривая идентичную вспомогательную дифференциальную игру для модели (2.15) и показателя (2.5), базируясь на величинах (1.20), определим функцию д]е( ■ ; А$) так, чтобы в точках Ь разбиения А$ выполнялись соотношения
ьм
д:е(ь, г, е ; Ай) е ^тах тт/ в] (Ь )р*г д**), (2.25)
Г=1 3=1
2
где
4 = / ^
^1 + )ш»\\Е
е argmax
(т, Ф(0, *,-)<*> + т) + г?(е, ¿,0^/1 +
^ = 1,...,к, г е Мга, е> 0,
и соответствующий закон (д%е( ' ; Лг),е, Лг), формирующий реализацию управления второго игрока по правилу
д*(г) = д*ие(г^ ,г(г, ),е;А6), % < г<г+1, ] = 1,...,к.
Для любого числа ( > 0 найдутся такие число еI > 0 и функция 5*(е) > 0 0 < е ^ е%, что, каковы бы ни были начальная позиция (г*,г*) е К\, значение 0 < е ^ и разбиение Лг вида (2.10), (2.22), 5 ^ 5_*(е), закон (дие( ' ; Лг),е, Лг) будет гарантировать для г-модели неравенство
7^ П(г*,г*) - С/2, (2.26)
какова бы ни случилась измеримая реализация р* [г* [']$).
§ 2.3. Близость движений исходной системы и модели
В исходной дифференциальной игре (2.1)—(2.7) первый игрок, формируя случайное движение (хш [г*[']$],уш [г* [']$]) комплекса ]2.1), (2.9) согласно (2.11), может обеспечить подходящую близость между хш [£*[']$] и уш [г*[']$] за счет должного выбора функций ри(') и д^(') в своей смешанной стратегии и. С другой стороны, за счет выбоеа (') и рК') в смешанной стратегии V втояой игрок может ойнспечить близость хш [г*[']$] и гш [г*[']$] для соответствующего движения (хш [г* [']$],гш [г* [']$]) комплекса (2.1), (2.15) согласно (2.16). А именно, известен следующий результат [30, 116].
Лемма 2.1. Пусть в смешанной стратегии и = (ри('),ри('),ди(')) первого игрока функции ри = ри(г, х, у, е) и ди = д*и(г, х, у, е) определяются из условия
ь м ь м
х
у,ЕЕ f(г,иИ,уЫ)Ригд*иЛ = тпт&£(х -У,ЕЕ/(г,иИ,уЫ)Ргд*). (2-27)
Г=1 Э=1 Г=1 Э=1
Тогда, для, любых чисел А* > 0м0 < в < 1 найдутся такие числа, Ао > 0 и 5 > 0; что для любой начальной позиции (г*,х*) е К0, любого у* е Мга, удовлетворяющего условию
\\х* - у*\\Е ехр [-2Аа (г* - го)] ^ Ао, Аа = тах \\Л(г)\\в,
ге[го,
яюбого значения, е > 0 и любого разбиения Лг вида (2.10), для случайного движения (хш [г* [']$],уш [г*[Щ) {2.П), порожденного законом и = (и,е, Лг), будет выполняться неравенство
р(\\хш(г) - уш(г)\\Е ехр х - 2АА(г - го)] < А*, г е [г*,#]) ^ в,
каковы бы ни были функция, р*и(') в стратегии и и допустимая случайная реализация уш [г* [-]$) управления второго игрока.
Л е м м а 2.2. Пусть в смешанной стратегии V = д('),'**('), д**(')) второго игрока функции дь = дь(г,х,г,е) и р* = р**(г,х, г,е) определяются из условия
ь м ь м
(г - х,ЕЕ1 (г, и[Л,^])р1г = = тахт& ^ - х, Е Е / (г, и[г],У[з])Рг дэ). (2.28)
г=1 э=1 г=1 э=1
Тогда для любых чисел X* > 0м0 < в < I найдутся такие числа, Хо > 0 и 5 > 0, что для, любой начальной позиции (¿* ,х*) € Ко, любо го г* € Мга, удовлетворяющего условию
х^
- г* ||| ехр [ - 2Хл^* - ¿о)] ^ Хо,
любого значения, £ > 0 и любого разбиения вида (2.10), для случайного движения (хш [¿*[-]$],гш [¿^Щ) (2.16), порожденного законом V = (У,£, А$), будет выполняться неравенство
Р(||хш(¿) - гш(Ь)Ц2е ехр [ - 2ХА(1 - ¿о)] < X*, I € [¿*,§]) ^ в,
каковы бы ни были функция, (•) в стратегии V и допустимая случайная реализация пш [¿*[-]^) управления первого игрока.
§2.4. Вычисление цены игры, построение ((, в)-оптимальных законов управления
Пусть зафиксированы момент начала процесла управления ¿* < § и разбиение А$ = {¿3 вида (2.10), (2.22). Определим стратегию иД = (ри(•), р^('), яи(')) первого игрока, полагая, что функции Ри(-) и ди(') удовлетворяют условию (2.27), а функция ропределяется из условия экстремального сдвига (2.23) так, чтобы при Ь = ¿3 € А$ выполнялись соотношения
Р*и(Ъ ,х,У,£) = р*и(ь ,У,£; А), (¿3 ,х) € Ко, (¿3 ,у) € К\, £ > 0.
Аналогично: определим стратегию Vдg = д(•), рV(•), (•)) второго игрока, полагая, что функции (•) и р^(•) удовлетворяют условию (2.28), а функция дV(•) определяется из условия (2.25) так, чтобы в точках ¿3 разбиения А$ выполнялись соотношения
д*€(¿з,х,г,£) = д1е(1з,г,£; А8), (¿3,х) € Ко, (¿3,г) € КЪ£> 0.
Теорема 2.1. Для любых чисел ( > 0 и 0,5 < в < 1 найдутся такие число £* > 0 и функция 5(£) > 0 0 < £ ^ £*, что, каковы бы ни были начальная позиция (¿*,х*) € Ко, значение 0 < £ ^ £* и щзбиение А$ вида, (2.10), (2.22), 5 ^ 5(£), законы ЫД6 = (иД5,£,А$) и VД = ^Д ,£,А§) будут ((, в)-оптимальными и будет выполнено неравенство
|Го(^,х*) - в-(г*,х*)| ^ (.
Доказательство. Пусть ( > 0 0,5 < в < 1- Поскольку игра (2.1)—(2.7) имеет седловую точку (ио^о), существуют такие законы Ыо и Vо, что для начальной позиции (¿*,х*) € Ко выполняется
Г(Ыо ; ¿*, х*, у* = х*; в) ^ Го(и,х*) + (, ^ 2д,
Г(Vо; ¿*,х*,г* = х*; в) > Го(Ъ,х*) - (.
Пользуясь леммой 2.1, ^^^^^^^тностью )оказателя качества (2.5) и ^-оптимальностью (2.24) вспомогательного закона (риД( • ; А$),£, А$), найдем такие число £у > 0 и функцию 5'у(£) > 0, 0 < £ ^ £у, что для произвольных 0 < £ ^ £у и 0 <5 ^ 5'у (£) будут выполняться соотношения
р(|7№[•]§]) - 7(у[М-]§])| < (/2) > в, ч{у[ЦЩ) < го(¿*,у* = х*) + (/2. Отсюда, в согласии с (2.13), для закона ЫДб получаем
в < Р^|7(х[¿*[•]§]) - 7(у [¿*И§]) | < (/2) < Р(7(х[£*[•]§]) < гу(¿*,у* = х*)+ (У
Г(ЫД6; ¿*, х*, у* = х*; в) ^ Г^(¿*,у* = х*) + (. (2.30)
Рассматривая случай, когда в дифференциальной игре (2.1)—(2.7) управление первого игрока назначается согласно закону ЫДа второго — согласно V0, в силу неравенств (2.29), (2.19) и (2.30) имеем
Го(г*,х*) - ( ^ Г(^; ¿*,х*,г* = х*; в) ^ Г(ЫД5; ¿*,х*,у* = х*; в) ^ Г^(¿*,у* = х*) + (.
Аналогично: в силу леммы 2.2, непрерывности показателя (2.5) и ("-оптимальности (2.26) закона (qVe( ■ ; As),е, As) выберем такие число е* > 0 и функцию ô'z(е) > 0, 0 < е ^ е*, что при О < е ^ е* и 0 <S ^ 5'z (е) для гарантированного результата закона V^s получаем
Го(t*,z* — х*) " ^ r(VA^; t*— х*; Iе) ^ r(Uо; '1*,х*,у* = х*; в) ^ Го(^*,х*) + Таким образом, имеем |ro(t*,x*) - Г0(t *,y* — х* )| ^ 2(, следовательно,
Г0 (t* 1 х* ) — Го (t*,y* — х*).
Пользуясь теоремой 1.1, по числу £ — "выберем число 5' > 0 так, чтобы выполнялось неравенство
|Го(t*,y* — х*^ ei (t*,y* — х*^ ^
Положим
е* — шт{е*, е*}, 5(е) — min{5^(е), 5'z(е), 5'}, 0 < е ^ е*.
Тогда, каковы бы ни были 0 <е ^ е* и 0 <5 ^ 5(е), имеем
|Гo(t*,x*) - e-(t*,х*)1 ^ (, Г(ЫДв ; t* ,х*,у* — х*; в ) ^ Го^*,х*) + (, Г^Д. ; t в) > Г0(t* ,х*) -
С учетом (2.14), (2.20) и (2.21) законы ЫД5 и VДg являются (", в)-оптимадьными. □
§ 2.5. Программная реализация
Как показано выше, процедура вычисления цены дифференциальной игры (2.1)—(2.7) опирается на построение системы величин e±() из (1.20). Программная реализация этого построения описана в подпараграфе 1.5.
Дополнительный интерес представляет реализация вычислений соответствующих минимак-сов и максиминов по формулам (2.27) и (2.28). Опишем подпроцедуру для первого игрока. Заметим, что (2.27) можно переписать в следующем виде:
L M L M
У2У2((х - y,f (t,u[r],v[s])) Pur qU s) — «х - y,f (t,U[r],V[s]))pr qs) .
' ' p&p çeQ » »
r=1 s=1 r=1 s=1
Вводя вспомогательную (L x M)-матрицу A — (ars), в которой
ars — (х - y,f(t,u[r\v^)), r — 1,...,L, s — 1,...,M,
и учитывая определение (2.8) множеств P и Q, замечаем, что поиск минимакса (2.27) сводится
A
тегий. Цена и седловая точка этой игры могут быть, например, вычислены при помощи метода, предложенного в [130, с. 244-245], в основе которого лежит симплекс-метод [29, с. 892-906].
При формировании управляющих воздействий законами ЫД и V£^g, в согласии с (2.12) и (2.17) соответственно, в программной реализации значения величин и vuопределяются дискретными сллчайными величинами, описываемыми векторами pu(tj,хш(tj),уш(tj),е) и qv (tj,хш(tj),zw(tj),е), в результате (псевдо)случайных испытаний.
§ 2.6. Примеры
Приведем результаты компьютерного моделирования.
Пример 2.1. Рассмотрим для одной и той же динамической системы две дифференциальные игры, которые будут отличаться друг от друга показателями качества. Пусть движение динамической системы описывается уравнением
4 и (и + V)2 2 V п
Х = + —~+ 17^)' = = (2.31)
х € М1, и € М1, V € М1,
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
и € и = {-1,1}, V € V = {-1,1}, (2.32)
заданы начальное условие
х* = (х(0),х(0)) =(0, 0) (2.33)
и два показателя качества для первой и второй игры соответственно:
7(1)ИЫ'И) = V ж2(1) + х2(4), (2.34)
7(2) (х[¿*[^]§]) = |х(1)| + |х(2) - 0,51 + |х(4)|. (2.35)
В численных построениях использовались равномерное разбиение А^ отрезка времени управления [0, 4] с диаметром 5 = 0,001 и значение параметра точности £ = 0,005. Для пиксельных представлений были выбраны значения параметров Ат = Аг = А^ = 0,01, Аф = п/360.
Найденное численно значение величины е-- (¿*,х*), приближающее цепу Го(£*, х*) игры (2.31)—(2.34), составило 0,3553, а значение е-(2(¿*,х*) для игры (2.31)—(2.33), (2.35) составило 1,050. Ниже приводятся результаты трех симуляций процесса управления в каждой из этих игр.
(1) Управляющие воздействия игроков формировались определенными в теореме 2.1 законами ЫД(1), в первой игре и Ыд(2), — во второй. Реализовались следующие значения показателей качества (2.34) и (2.35):
7(1) = л/(0,0237)2 + (0,3551)2 и 0,3559 и (¿*,ж*) = 0,3553, 7(2) = 10,0051 + | - 0,545] + | - 0,516| и 1,066 и е~(2) (¿*,х*) = 1,050.
(2) Управляющие воздействия первого игрока по-прежнему формировались согласно ЫД^1
7 Д (2)
и Ыд^ соответственно, а управление второго назначалось случайным равновероятным образом. Реализовавшиеся значения показателей качества:
7(1) = л/(0,0237)2 + (-0,0049)2 и 0,0242 < е~{1)(¿*,ж*) = 0,3553, 7(2) = 10,0051 + | - 0,546| + 10,0341 и 0,585 < е~(2)(¿*,х*) = 1,050.
(3) Управляющие воздействия первого игрока назначались случайным равновероятным образом, а управление второго формировалось законами и соответственно. Реа-
лизовавшиеся значения показателей качества: г(1)
7(2) = 10,5051 + 11,5631 + |8,731| и 10,799 > е~(2) (¿*,х*) = 1,050.
7^ = л/(0,4935)2 + (8,2750)2 и 8,2897 > ег (1)(£*,ж*) = 0,3553,
X
1,5 1
0,5 0
-0,5 -1
-0,5 -0,25 0 0,25 0,5 X
Рис. 9. Траектории реализовавшихся движений, полученные в первой (синяя линия), второй (зеленая линия) и третьей (красная линия) симуляциях в примере 2.1 для игры (2.31) (2.34)
Траектории реализовавшихся движений, полученные в первой (синяя линия), второй (зеленая линия) и третьей (красная линия) симуляциях для игры (2.31) (2.34), приведены на рис. 9. Для игры (2.31) (2.33), (2.35) на рис. 10. Цели обозначены жирными вертикальными прямыми, круглые точки на траекториях соответствуют моментам времени оценки качества движения.
Рис. 10. Траектории реализовавшихся движений, полученные в первой (синяя линия), второй (зеленая линия) и третьей (красная линия) симуляциях в примере 2.1 для игры (2.31) (2.33), (2.35)
Пример 2.2. Рассмотрим дифференциальную игру, основанную на примере из [117,
с. 12-39, 274-309]. Пусть движение динамической системы описывается уравнениями
í = - + ЩTV to=t* = 0^t<i) = 2,
m1(t) v ' m1(t)
•• = 012f I ^ _ К А (2) 4- ^^
Г m2(í) m2(í) 2 m2(í)' (2.36)
u^ cos v(1) — u2^ sin v(1) u^ sin v(1) + u21) cos v(1)
(s,r) G R2 x R2, u = («(1),«(2)) G R2 x R2, v = (v(1),v*,v*) G R1 x R2 x R2,
управляющие воздействия первого и второго игроков стеснены геометрическими ограничениями
u(1), u(2), v*, v* G {(1,0), (0,1), (—1,0), (0, —1)}, —а? < v(1) < а0, (2.37)
заданы начальное условие
s(0) = (0, —2), S(0) = (2,0), т(0) = (—1,1), Т(0) = (0,4) (2.38)
и показатель качества
7 = \J(ri(0) - SiW)2 + (r2(0) - s2($))2. (2.39)
Игра рассматривалась при следующих значениях параметров: а1 = 0,2; K1 = —40; А1 = 0,5; N1 =4; в = —4; а2 = 0,4; K2 = —25; А2 = 0,4; N2 = 6; m¿(í) = m¿0 * exp[—A1Í]; i = 1, 2; mw = 1; Ш20 = 1.
В численных построениях использовались равномерное разбиение A¿ отрезка времени управления [0, 2] с диаметром 5 = 0,01 и значение параметра точности е = 0,05. Для пиксельных представлений были выбраны значения параметров Am = A¿ = A^ = 0,01, Аф = п/500.
Найденное численно значение величины e~[(t*,x*), приближающее цену Го(Ь*,х*) игры (2.36)—(2.39), составило 0,279. Ниже приводятся результаты трех симуляций процесса управления в этой игре, выполненных по той же схеме, что и в примере 2.1. В первой, второй и третьей симуляциях реализовались соответственно следующие значения показателя (2.39):
7 = у/(0,135 - (-0Д26))2 + ( - 0,940 - (—1,018))2 и 0,272 и = 0,279,
7 = \J(0,263 - 0,263)2 + ( - 1,004 - (—1,004))2 и 0 < = 0,279,
7 = \J(7,151 - (—1,351))2 + ( - 3,126 - (—0,691))2 и 8,843 > = 0,279.
Траектория реализовавшегося движения, полученная в первой симуляции, изображена на рис. 11, во второй — на рис. 12. Синяя линия отвечает переменной т, зеленая — перемен-s
движения. Первый игрок нацелен сблизить эти точки, второй — наоборот.
u
(1) = .(1) =
Рис. 11. Траектория реализовавшегося движения, полученная в первой симуляции в примере 2.2. Синяя линия отвечает переменной г, зеленая — переменной в
Рис. 12. Траектория реализовавшегося движения, полученная во второй симуляции в примере 2.2. Синяя линия отвечает переменной т,
в
§ 3. Задача оптимизации гарантии при ресурсных ограничениях
В этой части рассматривается линейно-выпуклая задача динамической оптимизации гарантии с позиционным показателем качества, оценивающим отклонения движения управляемой системы в наперед заданные моменты времени от заданных целевых точек, в условиях неопределенных помех. Воздействия управления стеснены геометрическими ограничениями, характеризующими мгновенные возможности управления, и интегральными, трактуемыми как ресурсные ограничения. На воздействия помехи наложены лишь геометрические ограничения. Задача, как и в §§1,2, формализуется в дифференциальную игру, в которой управление интерпретируется как первый игрок, а помеха как второй. Однако, поскольку возможности управления и помехи несимметричны, в этой игре первый игрок оказывается дискриминирован по отношению ко второму, относительно которого предполагается, что в каждый момент времени он располагает информацией не только о текущем значении фазового вектора, но и о ресурсных запасах первого игрока.
В этой части дана и обоснована процедура для приближенного вычисления оптимальных гарантированных результатов игроков (цены игры) и построения соответствующих оптимальных законов управления по принципу обратной связи. Процедура основывается на попятной конструкции выпуклых сверху оболочек вспомогательных программных функций. Приводятся результаты численных экспериментов на модельных примерах.
§ 3.1. Постановка задачи
Пусть движение динамической системы описывается уравнением
х = А(ь)х + в(ь)и + с(ф, ¿о < ь* < ь<$, х е М", и е , V е М"».
Здесь х — фазовый вектор; Ь — время; точка над символом обозначает производную по времени; А(Ь), В(Ь), С(¿) — непрерывные матрицы-функции; и — управляющее воздействие-, V — воздействие неконтролируемой помехи. Моменты времени Ь0 и $ зафиксированы, Ь* — момент начала процесса управления. Поскольку далее задача будет формализована в дифференциальную игру, управление будем трактовать как первого игрока, а помеху как второго.
Допустимой реализацией управления первого игрока считаем всякую измеримую (по Бо-релю) функцию и[Ь*[-]$) = {и(Ь) е , Ь* ^ Ь < $}, которая одновременно удовлетворяет
следующим геометрическому и интегральному ограничениям:
Ци(г)Ци < Ли, г» < г<$; у а(г)||и(г)||„йг < р». (3.2)
Реализацию = {у(г) € , г» < г < $} управления второго игрока считаем допусти-
мой, если она измерима и удовлетворяет только геометрическому ограничению
Мг)Цу < л^, г» < г<$. (з.з)
Здесь || • ||и и || • Ц — нормы в М"и и М"^ соответственно; Ли, — заданные постоянные; а(г) — скалярная, положительная, непрерывная на [¿о, $] функция.
Дополнительно к фазовому вектору х системы (3.1) введем переменную р, изменение которой описывается уравнением
р = -а(г)ЦпЦи, г» < г<$, р(г») = р(3.4) Тогда интегральное ограничение из (3.2) можно переписать в виде фазового ограничения:
0 < р < р».
Обозначим
Лк = тах [ПА(г)| + Л„ЦБ(г)|| + л^ЦС(г)||], (3.5)
где
||Л(г)|| = тах ЦЛ(г)хЦЕ, ЦБ(г)|| = тах ЦБ(г)и|Е, ЦС(г)|| = тах ЦС(¿)уЦе. Нж11-е <1 II
и\\и
<1 || V | V
Здесь и далее символ || • ||е обозначает евклидову норму.
В пространстве переменных (г, х,р) определим компактное множество Кх возможных позиций рассматриваемой динамической системы:
Кх = {(г,х,р) € [го,$] X М" х [0,ро + х]: ЦхЦе < (1 + Яо + х)ехр [(г - ¿о)Лк] - 1}, (3.6)
где х ^ 0 Я0 > 0, р0 > 0 — некоторые постоянные. Пусть (г*,x*,р*) € Кх, г» < $. Под движением х\Ь»[•]$], порожденным из позиции (г*,x*,р*) допустимыми реализациями и[•]$) и у [г»[•]$), понимаем абсолютно непрерывную функцию {х(г) € М", г» < г < $, х(г») = х*}, которая при почти всех г» < г < $ вместе си = и(г) и у = у (г) удовлетворяет уравнению (3.1). Заметим, что в согласии с (3.1)-(3.6) имеет место включение
(г,х(г),р(г)е € кх, р(г) = р» - £ а(г)||и(г)||„йг, г» < г < $.
Пусть заданы моменты времени $ г оценки качества движения х\Ь» [•]$]: г0 < $г < $г+1 < $, г = 1,..., N — 1, = $ постоянные матрицы Бг размерности йг х и (1 < йг < и), целевые векторы сг € М" и нормы ^^(¡г,..., ¡м) в пространствах (йг + ... + йм)-мерных наборов (¡г, ..., N), составленных из й^-мерных векторов ¡г, г = 1, ...,Ы. Пусть, кроме того, в пространствах переменных (¡г, р) € М^ х М существуют четные по р нормы аг(¡г,р), г = 1,...,Ж — 1, для которых справедливы равенства
рг (¡г ,...^м )= аг (¡г, рг+^г^^^^м)), г = 1,...,Ы - 1. (3.7)
Обозначим
1г(г) = тт[г = 1,...,Ж: $г ^ г}, го < г < $. (3.8)
Показатель качества, оценивающий движение х [г* [•]$], имеет вид
7(х[г^]$]) = р^,)( БКи )(х($Ки)) - сщ,)) ,...,Бм (х($м) - с^). (3.9)
Отметим, что рассматриваемый показатель качества 7 является позиционным (см. [117, с. 43; 47], а также пояснения в подпараграфе 1.1).
Задача первого игрока (управления) заключается в том, чтобы доставить показателю (3.9) как можно меньшее значение. Заметим, что поскольку действия второго игрока (помехи) неизвестны, то, в частности, они могут быть самыми неблагоприятными, то есть направленными на максимизацию этого показателя.
Дальнейшая формализация задачи следует теоретико-игровому подходу [37, 40, 117]. Под стратегией и первого игрока, понимаем произвольную функцию
и = {и(г,х,р,е) е мгаи, \\и(г,х,р,е)\\и < Хи, (г,х,р) е Ко,е> 0},
где величина е является параметром точности [37, с. 68], значение которого выбирается до начала процесса управления, остается в ходе этого процесса постоянным и определяет точность решения задачи.
Законом управления и первого игрока, называем тройку (и, е, Д^), где — разбиение отрезка времени [г*, $]:
Дй = {ъ: и = и, о < г,+1 - г, < 5, з = 1,...,к, гк+1 = 0}. (з.ю)
Из заданной позиции (г*,х*, р*) е Ко закон управления и в паре с допустимой реализацией V [£*[•]$) управления второго игрока однозначно формирует движение ^х[£*[-]$],р[£*[-]$] расширенной системы (3.1), (3.4) как решение пошаговых уравнений
1х(г) = А(г)х(г) + в (г)щ (г) + с (г)у(г), + ^ + . . ,
ти гз < г<гз+l, з = 1,...,k, (3.11)
р(г) = -а(г)\\из фу^
при начальном условии х(г1) = х*, р(г1) = р*. Начальное состояние (х(г,),р(г,)) для отрезка г, ^ г ^ г,+1 при з > 1 совпадает с конечным состоянием (х(г,), р(г,)) для предыдущего отрезка г—1 ^ г ^ г,, Величина и,(г) назначается законом и по правилу
Uj (i) = <
ГЧ+1
0, tj ^ t < tj+i, если 0 ^ p(tj) < а(т)\\u*\\udr,
Jtj
r tj+i
Uj, tj ^ t < tj+1, если p(tj) ^ a(r)\\u*\\udr,
Jt,
(3.12)
где
u* = U(tj ,x(tj ),p(tj ),e).
Гарантированный результат закона управления Ы для заданной позиции (t*,x*,p*) £ K0 определяется равенством Г(Ы; tj,xj,р*) = sup^[.]$) 7(x[t* [•]$]), где верхняя грань берется по всем допустимым реализациям v[t*[-]$) второго игрока, a 7(x[t*[^]ff]) — значение показателя (3.9), реализовавшегося на движении x[t*[•]$], порожденном, согласно (3.11), (3.12), законом Ы в паре с реализацией v [£*[•]$) из позиции (t*,x*,p*).
U
r(U; tj,x*,р*) = lim sup lim supr(U = (U,e, As); t*,x*,pj). (3.13)
£—0 д5
Тогда оптимальным гарантированным результатом первого игрока, будет
ru(tj,xj,pj) =infr(U; tj ,x*,p*), (3.14)
U0
r(Uo; t*,x*,p*) = r«(t*,x* ,р*).
Для ( > 0 закон управления Ы называем (-оптимальным, если
Г(Ы; г^^х^^р») <
) + с.
Аналогичным образом под стратегией V второго игрока, понимаем произвольную функцию
V = {V(г,х,р,е) € М™v, (г^^^)^ < Ль, (г,х,р) € Ко,е> 0},
а законом управления V второго игрока, называем тройку (V,е, А$). В данной формализации предполагаем, что первый игрок дискриминирован по отношению ко второму, а именно что
г
значении фазового вектора х(г), но и о величине р(г) первого игрока.
Из заданной позиции (г*,x*,р*) € Ко закон V в таре с допустимой реализацией и[г#[-]$)
управления первого игрока однозначно формирует движение ^х[г»[-]$], расширенной
системы (3.1), (3.4) как решение пошаговых уравнений
х(г) = Л(г)х(г) + б (г)и(г) + с (гу, . .. . . 1 ,
г^ <г<г^+1, ] = 1,...,к, (3.15)
p(t) = -a(t)\\u при начальном условии x(ti) = x*, p(t1) = р*. Здесь
v*
j = V{tj ,x(tj ),P(tj ),e)- (3-16)
Гарантированным, результатом закона управления V для заданной позиции (t*,x*,p*) называем величину
r(V; t*,x*,p*) = inf ^(x [/*[•]$]),
u[tt [-]#)
где нижняя грань берется по всем допустимым реадизациям u[t* [•]$), Y(x[t* [•]$]) — значение показателя (3.9), реализовавшегося на движении x[t* [•]$], порожденном, согласно (3.15), (3.16), законом V в паре с реализацией u[t*[^]$) из начальной позиции (t*,x*,p*).
Соответственно, гарантированным результатом стратегии V называем величину
р*) = lim inf lim inf Г (V = (V,e, A$); t*,x*,p*j. (3.17)
s—>-0 ¿—0 As
Тогда оптимальным гарантированным результатом второго игрока, будет
Г (t*,x*,p*) = supT(V; t*,x* ,р*), (3.18)
V
V0
Г( V0; t*,x*,p* ) = (t*,x* ,р*)-Для ( > 0 закон управления V называем (-оптимальным, если
r(V; t*,x*, р*) ^ (t*,x*,р*) С-
Целью данный части является разработка процедуры для нахождения оптимальных гарантированных результатов ru(t*,x*, р*) и Г(t*,x*, р*) первого и второго игроков соответственно, а также построения соответствующих "-оптимальных законов управления.
Заметим, что непосредственно из определений величин ru(t*,x*, р*) и Г(t*,x*, р*) вытекает неравенство
J- и
(t*, x*, р*) ^ 1 v (t*, x* 1 Р* ), (t*,x*,p*) е Ко. (3.19)
В процессе обоснования процедуры будет доказано, что оптимальные гарантированные результаты игроков совпадают и определяют цену
Го(t*, x*, р*) = Ги
(t*,x *,Р*) - Г v (t*,x*,p*), (t*,x*,р*) е Ко,
дифференциальной игры (3.1)-(3.9). Кроме того, будет установлено существование пары оптимальных стратегий (Uo, Vo), образующих седловую точку этой игры.
§ 3.2. Вспомогательная модель
Пусть го ^ г* < г* ^ § и д* ^ 0. Через и(г*,г*, д*) обозначим множество всех измеримых функций и* [£*[•]£*) = {и* (г) € М""и, г* ^ г < ¿*}, которые удовлетворяют условиям
|и*(г)\\„ ^ Ли, г* ^ г<г*, ! а(т)\\и* (т)\\„ Лт ^ д*
а через У(г*,г*) — множество измеримых функций V* [г*[^]г*) = (г*(£) € М^, г* ^ ^ < ¿*}-,
удовлетворяющих условию
\Мг)\\« < Л^, г* < г<г*.
Наряду с исходной расширенной системой (3.1), (3.4) рассмотрим ее модель-копию:
w = А(г^ + в(г)и* + с(г^*, д = —а(г)\\и*\\„, ¿о < г* < г<§; w(г*) = w*, д(г*) = д*.
В качестве множества возможных позиций (г, w, д) модели (3.20) рассматриваем компакт К2, определенный в (3.6). Соответственно, допустимыми реализациями воздействий и* и V* считаем функции и* [г*[-]$) € и (г* ,§,д*) и V* [г*[-]$) € У (г*,§). В последующих рассуждениях относительно первого игрока иногда будет удобно представить компоненту w фазового вектора д) модели (3.20) в виде суммы w = w(1) + w(2), где изменение переменных w(1) и w(2) описывается уравнениями
w(1) = А(г^(1) + в (г)и*, w(2) = A(г)w(2) + с (г^*. (3.21)
Пусть
р(г, в, г) € а^шт [(в, В(г)и) — т(г)\\и\\и], д(г, в) € а^шах(з,С(г^),
У и\\и
V У V
п(е,г) = [е + (г — го),)1/2ехр [аа(г — го)], ла = шах \\А(г)\\, (3-22)
г € [го,§], в € мга, г € м, е > о.
Лемма3.1. Для любого числа, е > 0 найдется такое число 5 > 0, что, каковы бы ни были позиции (г*,х*,р*) € К2, (г*^*,д*) € К2, г* < и момент времени г* € (г*,$], г* — г* < 5, будут справедливы следующие утверждения.
(1) Пусть р* ^ п(е,г*) и \\(х*,р*) — ^*,д*)\\в ^ ц(е,г*). Пусть (х[г*[-]г*], р[г*[^]г*]) — движение системы (3.1), (3.4), порожденное из позиции (г*,х*, р*) произвольной допустимой реализацией v[г*[•]г*) управления второго игрока, и постоянной реализацией ие [г*[-]г*) = {ие = р(г*,х* — w* ,р* — д*), г* ^ г < г*} управления первого игрока,
а ^ [г*[-]г*], д[г*[^г*]) — движенио модели (3.20), порожденное из позиции (г*^*,д*) произвольшй реализациейи* [г*[-]г*) € и(г*,г*, д*) и постоянной реализацией V* [г*[^]г*) = = {V* = д(г*,х* — w*), г* ^ г < г*}. Тогда,
\\[х(г*),р(г*)) — (ш(г*),д(г*))\\е < п(е,г*).
(2) Пусть р* < п(е,г*), w* = w+w(2) м \\х* —w(2)\\е ^ п(е,г*)• Пусть (х\Ь*[-]г*] ,р[г*[^]г*]) — движение системы (3.1), (ЗА), врожденное из позиции (г*,х*,р*) произвольной допустимой реализацией V [г * [[*) второго игрока в паре с нулевой реализацией и = 0 первого игрока, а г * [-]г* ],д[г * [^]г* ]) — движеное модели (3.20), порожденное из позиции (г *^ *,д *) произвольной реализ ацией и * [г * [-]г *) € и (г *,г *,д *) и постоянной реализацией V * [г * [-]г *) = = д(г *,х * — w *2)), г * < г<г *}. Тогда
\х(г*) — w(2)(г*)\е < п(е,г*).
Доказательство. Справедливость леммы вытекает из результатов [37, лемма 25.3]. □ Чтобы сформулировать аналогичное утверждение относительно второго игрока, удобно представить компоненту х фазового вектора (х,р) расширенной системы (3.1), (3.4) в виде суммы х = х(1) + х(2), где изменение переменных х(1) и х(2) описывается уравнениями
х(1) = Л(г)х(1) + б (г)и», х(2) = Л(г)х(2) + с (г)у». (3.23)
Л е м м а 3.2. Для любого числа, е > 0 найдется такое число 5 > 0, что, каковы бы ни были позиции (г»,х», р») € К2, (г*,w*,Q*) € К2, г» <$, и момент времени г» € (г#,$]; г» — г» < 5, будут справедливы, следующие утверждения.
(1) Пусть р» ^ п(е,г») и Ц(x*,р*) — (ш», з»)||е ^ п(е,г»). Пусть (х[г»[^]г^, ^[г»[*]г»]) — движение системы (3.1), (3.4), порожденное из позиции (г*,x*,р*) произвольной допустимой реализацией и[г»[^]г^) управления первого игрока и постоянной реализацией Vе [г»[-]г») =
= {Vе = д(г»— х»), г» ^ г < г»} управления второго игрока, а (ш[г»[■г], д[г»[^]г»]) —
движензе модели (Ъ.2$), порожденное из позиции (г*,w*,з*) ароизволъной реализацией V» € У^»^», з») и постоянной реализацией и» [г^г) = { и»=р(г»,'» — х»,3» — р»),
г» < г< г»}. Тогда
Ц(х^),^)) — ('(г»)^^))Це < п(е,г»).
(2) Пусть р» <п(е,г»), х» = х^ + х^ и Цх^ — ш»Це ^ п(е,г»)-Пусть (х^^] , ^ [г» [^]г»]) — движение системы (3.1), (3.4), порожденное из позиции (г»,х»,р») произвоиьной 3о-пустимой реализацией и\Ь»[^г») первого игрока и постоянной реализацией Vе[г»[■]г», = = {Vе = д(г»— х»), г» ^ г < г^} управления второго игрока, а (ш[г»[^г»], з[г»[^]г»]) — движение модели (3.20), порожденное из позиции (г*,w*,з*) произвольной реализацией V» [г»[^г») € У(г»,г», з») и нулевой реал,изацией, и» = 0. Тогда,
||х(2)(г») — ш(г»)||е < п(е,г»).
Доказательство. Справедливость леммы вытекает из результатов [37, лемма 25.4]. □ § 3.3. Величины e± и их свойства
Опишем процедуру для построения системы величин e±, на основе которой в дальнейшем будут определены "-оптимальные законы управления первого и второго игроков и будет дан способ приближенного вычисления оптимальных гарантированных результатов игроков в дифференциальной игре (3.1)—(3.9).
Пусть для промежутка времени управления [t*, $] зафиксировано разбиение A^ = {tj }k+1 вида (3.10), в которое включены все моменты оценки качества движения из показателя (3.9), то есть
е As, i = h(t*),...,N. (3.24)
Пусть j = 1,...,k, m е Rn, Q ^ 0 и % (q) = U (tj ,tj+1, q), Vj = V (tj ,tj+1). Положим
r tj+i
A^j(t*,m, q) = min maW (m, Ф($,т)(В(r)u*(т) + C(r)v*(r))}dr, (3.25)
'%j (0) Vj tj
где Ф($, r) — матрица Коши для vpавнения x = A(t)x, символ (•, •) обозначает скалярнве произведение вектвров, операции минимума и максимума берутся по функциям u* [tj [^tj+i) е %j(q) и v* [tj[•]tj+i) е Vj соответственно. Множества %j(q) и Vj слабокомпактны в пространстве L2(tj,tj+i) суммируемых с квадратом функций, поэтому рассматриваемые минимум и максимум достигаются. Заметим также, что функции A^j (t*,m, q), j = 1,...,k, непрерывны по
(m, Q) Q
Попятно по шагам разбиения A^ определим множества G±(t*) векторob m е Мга и скалярные функции (t*,m, q), m е G± (t*), q ^ 0, по следующим рекуррентным соотношениям.
При j = k + 1 имеем
G++i(t *) = {m: m = 0}, V++i(t*,m, ß) = 0, m e G++i(t*), q ^ 0, G-+i(t*) = {m: m = DTNl, l e , ß*N(l) < 1}, <p-+i(t*,m, qQ = -(m,ON), m e G-+i(t*), ß ^ 0.
Если 1 ^ j ^ k, тогда
G+ (t *) = G-+i(t*), v+(t *,m, q) = conc (t*, •, q)] (m), m e G+ (t *), q ^ 0,
J J G+(tt) J
где
Фз(t*,m, о) = min [Афз(t*,m,g — g') + <pi+1(t *,m,g')], m e G+ (t*), g ^ 0,
e'eRj (tt ,g) j
r tj+i
Rj(t*, g) = {g': max[0, g — \u a(r)dr] ^ g' ^ g}, (3.26)
tj
и далее, когда tj не совпадает ни с одним из моментов tii оценки качества движения, то есть tj < $h(tj),
G-(t*)= G+(t *), ipj(t*,m, g) = ^+(t*,m,g), m e G-(t*), g ^ 0, (3.27) иначе, когда tj = ti^ h = h(tj),
G-(t*) = {m: m = vm* + v ^ 0, l e , a*h(l,v) < 1, m* e G+(t*)},
Vi(t*,m,ß)= max (t*,m*,ß) - (l,Dhch)}, m e G-(t*), q ^ 0.
(v,l,m*)\m
(3.28)
Здесь h(-) — функция, определенная ранее в (3.8); верхний индекс «Т» обозначает транспонирование; fx*N(•) и &h(') — нормы, сопряженные к цn(•) и ah(•) из (3.7); при каждом фиксированном д ^ 0 символ conc \фj(t*, •,g)](m) обозначает выпуклую сверху (вогнутую) оболочку
G+(t.)
функции ^j(t*, •¡д) = fyj(t*,m, д), m £ G+(t*)} на множестве G+(t*), то есть минимальную из вогнутых функций, мажорирующих фj(t*,m, д) при m £ G+(t*); максимум в (3.28) вычисляется по всем таким тройкам (v, l, m*), что v ^ 0 l £ ah(l, v) ^ 1 m* £ G+ (t*) и при этом vm* + Фт(^, ti)Dhl l = m.
Можно проверить, что для любого j = 1,...,к + 1 построенные таким образом множества G±±(t*) будут выпуклыми компактами в Мга, содержащими m = 0, при этом (t*, 0, g) ^ 0, д ^ 0. Кроме того, здесь и всюду далее полагаем, что функции ¡±±(t*, m, д) непрерывны по сово-
(m, д) д
предположение, по крайней мере, выполнено, если единичные шары норм №*(•), i = 1,...,^, являются строго выпуклыми, либо многогранниками, либо, в общем случае, Р-множествами [4]. Заметим также, что строгую выпуклость единичных шаров норм №*(•) всегда можно обеспечить при помощи подходящей аппроксимации исходного показателя качества (3.9) (см. подробности в [10]). В этом случае дальнейшие рассуждения останутся неизменными, а полученный результат будет верен с точностью до погрешности указанной аппроксимации.
Для w £ Rn, д ^ 0и j = 1,...,к + 1 рассмотрим величины
e±(t*,w, д)= max [(m, ^("&,tj)w) + ¡±(t*,m, д)]. (3.29)
j meof (t,) j
Заметим, что в силу отмеченных выше свойств функций (t*,m, д), m £ G±±(t*), д ^ 0, эти
(w, д)
Следующие леммы устанавливают необходимые свойства величин e±±(t*,w, д).
Лемма 3.3. Каковы бы ни были момент, времени г» € [го, 0) и разбиение А$ = {г, вида, (3.10), (3.24), для любых ] = 1,..., к ' € Мга, з ^ 0 и Н = h(гj) имеем
-и ч 1е+ (г*,w,3), если гj <'0^
е- (г*,w,з) = j / п , ч +,. ^ , , (3-3°)
он(w — ен),е-(г*,w,з)), если гj = 0н.
Доказательство. Обоснование данной леммы, по сути, повторяет доказательство аналогичного утверждения из [47], сформулированного для случая, когда управляющие воздей-
□
Следующие две леммы доказываются по аналогии с теоремами 3 и 4 из [49], сформулированными для случая терминального показателя качества.
Лемма 3.4 (и-стабильность). Для любого числа, е > 0 существует ч,исло 5» > 0 такое, что, каковы, бы, ни были момент времени г» € [г0,0), разбиение А$ = {г,}к+1 вида, ,3.10), (3.24), 5 ^ 5% и позиц ия (г, з,) € К2, ^ = 1,...,к, для всякой реализации V» [г, [■]г,+1) € У,, найдется такая реализация и» [г,[■]гт+^ € и,(з,), что модель (3.20) из позиции (гj,Wj, з,) под действием этих реализаций придет, в позицию (гт^^т^ = w(гj+1), зт+1 = з(г,+1)) € К2, для которой будет выполнено неравенство
е+(г*,Щ, зт) ^ e-+l(г*,wj+l, зт+1) — е(гт+1 — гт). (3.31)
Л е м м а 3.5 ^-стабильность). Каковы, бы ни были момент времени г* € [г0, 0), разбиение А& = {г,}к+1 вида (3.10), (3.24) и позиция (г,, , зт) € К2, ] = 1,...,к, найдется реализация V* [г,[■]г,-+0 € У, такая, что при всякой реализации и* [г, [■]г,+1) € и,(з,) модель (3.20) из позиции (г,-, зт) под действием этих реализаций придет, в позицию (гт^^т^ = w(гj+1), зт+1 = з(гт+1)) € К2, для которой будет выполнено неравенство
е+ (г*,Щ, з-) ^ e-+l(г*,wj+l, з-+1). (3.32)
§ 3.4. Оптимальные гарантированные результаты и "-оптимальные законы управления
Пусть зафиксированы момент начала процесса управления г* < 0, разбиение А^ = {г-}к+1 вида (3.10), (3.24), на базе этого разбиения построены множества С±(г*), функции ^±~(г*, т, з), т € С±~(г*), з ^ 0 и в согласии с (3.29) определены величины e±(г*,w, з), w € Мп, з ^ 0. Опираясь на систему величин e+(г*,w, з), ^ = 1,...,к, определим стратегию иД , первого игрока так, чтобы при г = г- € А^ выполнялись соотношения
/ 10, если р < п(е, г-), , .
ие, (г- ,х,р,е) = { е р !(,Т), (г, ,х,р) € К1, е > 0, (3.33)
I ие, если иначе,
где ие находится из условия экстремального сдвига на сопутствующую точку (wjt, з") [37, 49]:
^и е — р(г,, , Гц!), — х ^^,, г и — р зи,
(Wj', з") € argmin e+(г*,w, з). (3-34)
\\(х,р)-(^,е)\\Е )
Здесь функции п(0 и р(^) определены в согласии с (3.22). Учитывая соотношения (3.29) и (3.34), выводим
Фт (0, г, )т"
^1 + ||Ф Т(0,Ъ)т
це
г'и(т) € argmax
Ги
^1 + ||ФТ(0,^)т\\2Е^г]2(е,^) - г2 - <р]-(Ъ,т, р - г) (Ът(0,г, )т,х) — - у/1 + ||ФТ(^И1|^?2(еЛ0 - (г](т))2 + <р+(ъ,т, р - Гз(т))
т" € argmax
тео+ (г*)
Обоснование схожих выкладок приведено, например, в [39, 137] и подпараграфе 1.4.
Лемма 3.6. Для любого числа ( > 0 найдутся чиело е* > 0 и функция 5*(е) > 0, 0 < е ^ е*, т,акие, что, каковы бы ни был и значение 0 < е ^ е*, позиция (Ь*,х*,р*) € К1; Ь* < расширенной системы (3.1), (3.4), разбиение вида (3.10), (3.24), 5 ^ 5*(е), и допустимая реализация V [£*[•]$) управления второго игрока, закон управления Ые = (иД ,е,А$) первого игрока будет гарантировать неравенства
е±(Ь*,х*,р*) ^ г±(х[**[•]#]) - С, (3.35)
где в соответствии с (3.8), (3.9)
7+(х [**[•]#]) = Ин(г2) ( Оцъ ){х($н{Ь)) - с^2)),.. .,ПМ (х(§м) - с^), 7" (х [ЦЩ) = ) ( )(Фц^ - сн(г1)) {х(г&м) - .
Доказательство. Положим
Аф = тах \\Ф(Ь,т)\\Е, Ав = тах \\В(т)\\, а* = т1п а(т), а* = тах а(т), Ь = АФАва"1.
(3.36)
Число е* > 0 выберем так, чтобы для любых хг,шг € Мп, \\хг - ш\е ^ (1 + 2Ь)п(е*,$), г = 1,..., N выполнялось неравенство
тах
1~ч{Щхг ~ Сг),.. - см)) - //¿(Д^ - ,... - См)) ^ (3.37)
Здесь п(') — функции из (3.22), /лг(-), г = 1,...,Ж, — нормы из показателя качества (3.9). Определим функцию 5(0) (е) > 0 е > 0, исходя из условия
а*Аад5(0) (е) < п(е,Ьо). (3.38)
г
Опираясь на лемму 3.1, определим функцию 5(3Л)(е) > 0 е € (0,е*]. Далее, возьмем числа г = 1,..., N1 2(^0) = С1 ^ Сг ^ • • • ^ См > 0, так, чтобы для любых г = 1,..., N — 1, ^ е М^ и 0 ^ V ^ Сг+1 (^ - Ьо) имело место неравенство
ъ(к,е) > аг(1г,е + V) - - §г), е ^ 0, (3.39)
где иг(-), г = 1,...,Ж - 1, — нормы из условия (3.7). Задавшись в лемме 3.4 числом е = (N, определим число 5(3.4) >0
5*(е) = т1п{5(0)(е), 5(3.1)(е), 5(3.4)}, е € (0,е*]. (3.40)
Пусть зафиксированы значение е € (0,е*^^иция (Ь*,х*, р*) € К1 и разбиение А$ = {Ьу}к=1
вида (3.10), (3.24), 5 ^ 5*(е). Рассмотрим движение ^х [Ь*[■]^ , ^[Ь*[■]^ расширенной системы (3.1), (3.4), сформированное по схеме (3.11), (3.12) из позиции (Ь*,х*, р*) законом управления Ые = (ид ,е,А$) первого игрока в паре с некоторой допустимой реализацией V [£*[•]$) управления второго игрока.
Обозначим ху = х(Ьу), ру = р(Ьу), ] = 1,...,к + 1. Через ]* обозначим минимальный индекс ] = 1,..., к для которого ру < п(е, Ьу)• Если такого яндекса нет, то полагаем ]* = к + 1.
Для каждого ] = 1,...,к рассмотрим движение )ш[з\ \Ьу[-]Ьу+1] , ду\ \Ьу[-]Ьу+1]^ модмли (3.20),
порождаемое из сопутствующей позиции (Ьу, ду) € К2 ^^^^гоацией V* [Ьу[•]Ьз+1), определяемой по лемме 3.1, в которой полагаем Ь* = Ьу, Ь* = Ьу+ь х* = ху, р* = ру, ш* = Шу, д* = ду, и реализацией и* [Ьу[-]Ьунайденной по V* [Ьу[-]Ьу+1) в согласии с леммой 3.4. Сопутствующая позиция (Ьу, ду) каждый раз назначается по следующему правилу: если
1 ^ 3 ^ 3* — 1 тара , з,) определяется го соотношений (3.34); если же 3* ^ 3 ^ к, то , з,) = = (w[j_1](г,), з-,_1](г,)). При этом для 3 = з*,...,к полагаем, что W[j](Ъ) = wjj1])(г) + w(2])(г), где
(1)т (2) - (г) и % /
при условиях
изменение переменных w(.])(г) и w(-/(г), г, ^ г ^ г,+1, описывается уравнениями вида (3.21),
Т (гТ*) = 0 w(j!*)] (гТ*) = —,
(3.41)
w(jL])(гj) = ^-_1](г,), W^(гj)= ^Т_1}(г,), 3 = 3 + 1,...,к.
Кроме того, в случае 3* = 1 полагавм w1 = х1 = х*, з1 = р1 = р*. Покажем, что для всех 3 = 1,... ,к справедливо неравенство
||х(г,+1) — w[J](г,+1)Пе < (1 + 2Ь)п(е,0). (3.42)
Для 3 < 3* это неравенство вытекает из первого утверждения леммы 3.1, если учесть включение из (3.34), определяющее в этом случае сопутствующую позицию (г,, з,), и условие (3.38) на выбор (3.40) функции 5*(е), обеспечивающее здесь неравенство
Ггз+1
ГЧ+1
р(г,) ^ а(т)Ци,Цийт.
Пусть 3 ^ 3*. В согласии с построениями выше и леммой 3.1 имеем
Цх(гТ+1) — w[,](г,+1)це < Цх(г,+1) — w,(г,+1)це + Цw(jL])(г,+1)це <
< п(е, 0) + Цw(jL]) (г,+1)||е.
(3.43)
Далее, учитывая соотношения (3.21), (3.36) и (3.41), выводим
ЦТ/(г,+1)Пе < [г+1 ||Ф(г,+1,т)В(т)и*(т)Цейт < Ь [ а(т)Ци*(т)Цийт <
о % а* ^ г А*
(3.44)
^ Ьз,) ^ 2Ьп(е,0).
Из оценок (3.43) и (3.44) заключаем, что неравенство (3.42) справедливо и для 3 ^ 3*-
Через 3(г), г = Н(г1),. ..,М, обозначим такое 3 = 1,...,к + 1, что г, = 0г. Кроме того, для краткости записи дальнейших выкладок будем использовать следующие обозначения:
1(х) = А(х(0г) — Сг,, 1(ш) = Бг (w ^ (г)_1](0г) — с,.
Покажем, что для всех 3 = 1,... ,к справедливо неравенство
е+ (г*^,,з,) ^цн(— (н(0 — г,), н = Н(г,+1). (3.45)
3
, з,) ^ е^+1{г*,Щ,](гj+l), зт](г,+0) — Сн(г,+1 — г,), н = Н(г,+1), 3 = 1,...,к.
Пользуясь соотношением (3.46) при 3 = к и определением (3.29) величины е_+1 (■), доказываем базу индукции:
е+^^к,зк) ^ е_+^г*,щк](0), зк](0)) — (м(0 — гк) = = Рм (М, — (м(0 — Ък).
Далее предположим, что неравенство (3.45) выполняется при 3 = $ + 1 $ = 1,...,к — 1, и докажем, что тогда оно справедливо для 3 =
В согласии с леммой 3.1 и определением сопутствующих позиций (¿ц, д^) имеем
ц+Л^'щц +1)> g[j](tj+l^ * е++1(^*'"^+1> дj+1)' 3 = !,...,к. (3.47)
В случае ¿8+1 = Н = Н(13+1), учитывая сначала неравенство (3.46), затем равенство (3.30) и неравенство (3.47), в силу неравенства (3.45) для 3 = в + 1 и справедливого в этом случае равенства Н(Ь3+1) = Н(£8+2) = Н выводим
е+ д * е-+1{и'Щ3](13+1)' д[з](1з+1)) - (н<¿8+1 - ts) * * е++1(£*^8+ь д8+1) - (н^8+1 - ¿8) * •••#) - Сн($ -
Иначе, если ¿8+1 = -&н, то имеем Н(^+2) -1 = Н(13+1) = Н, 3(Н) = в + 1. Тогда, вновь сначала используя неравенство (3.46), а затем равенство (3.30) и неравенство (3.47), учитывая далее монотонность нормы ин(-) по второму аргументу, неравенство (3.39) и неравенство (3.45) при 3 = в + 1, в согласии с соотношением (3.7) заключаем
е+ ,д8) * е-+1{и^[8](18+1)' д[8](}8+1)) - (н (¿8+1 - ¿8) *
^ ан{ 1Н\е++1(и^8+1' д8+0) - (н^8+1 - ¿8) > * ан' е++1 (¿*' ^^8+1, д8+1) + Сн+1^ - ¿8+1)) - Ш - ¿8) * * *н(4^+1 (4%-Ш-¿8) * ^(4^-••'№) -Ш -¿8)-
Итак, неравенство (3.45) доказано. Из этого неравенства при 3 = 1, принимая во внимание определение сопутствующей позиции (¿1^1 ^1), выводим
е+(£*'Ж*'Р*) * е+(£*^ьд1) * Цн(г2) Й^О'•••'¡Л - (н(ъ)($ - ¿1)- (3-48)
Доказываемое неравенство (3.35) для величины е+ р*) вытекает из неравенства (3.48),
если принять во внимание условие (3.37) выбора числа е* > 0 вместе с оценкой (3.42) и неравенство Сн(*2)(# - ¿о) < С/2-
Для доказательства неравенства (3.35) относительно величины е- (¿*,х*, р*) рассмотрим два случая: ¿1 = ^1) и ¿1 = ^(н )•
Пусть ¿1 = ^н(г1 )• Тогда Н{Ь1) = Н(£2), и из соотношений (3.30), (3.48), учитывая условие (3.37) с оценкой (3.42) и неравенство Сн(*1)(^ - ¿о) ^ С/2, получаем
е- (¿* ,х*'р*) = е+ (Ь*,х* ,р*) * цн(11) у-'1м) - Сн^)^ - ¿1) *
\ (7 (х) 7(ж)\ л
* (¡н(г1) '• •• '1м ) - ^ •
Пусть ¿1 = Тогда Н(^) = Н(£2) - 1 ./(Н^)) = 1, и имеет место следующая цепочка
неравенств:
е- х*, р*) = ) (1н()1), е+(^*,х*, р*^ * * аКЬ1){ ),е'^(^*'х*'р*) + (н(ъ)($ - ¿0) - Сн(*1 - ¿1) * * ^ )( ^ )'^2)ЙЙ)'- • • Л^)) - С/2 *
* ,, (¡(х) М ¡Ы} г12 * ,, (¡(х) ¡(х) ](х)\ г
* ^Н{Ьг)\К ¡н(1г)' ¡H(Í2 )'---'1М ) - 2 ^ ¡н(*1) '¡Н^)'---'1 N ) -
Здесь последовательно учтены равенство (3.30), условие (3.39) выбора величин г = неравенство (3.48) вместе с монотонностью нормы ^н(г1) (') 110 второму аргументу, а также соотношение (3.7), условие (3.37) выбора числа е* > 0 и оценка (3.42). □
Наряду со стратегией { ^^^^^го ^^^^^а ^^^^^^ассмотрим стратегию Уд{ второго игрока, определяемую так, чтобы в точках ¿ц разбиения Д^ выполнялись соотношения
(¿ц 'х' р' е) = уЩ' (Ц'х'Р) е К1' е> 0' 3 = 1'-..'к' (3.49)
где Vе находится из условия экстремального сдвига на сопутствующую точку (wv, з"):
V® = ч(г,,8"), в" = w'j — х, (wy, з") е а^шах е+(г*^,з). (3.50)
\\(хР)-(™,е)\\Е )
Здесь функции п(0 и ?(■) определены в согласии с (3.22). Учитывая соотношения (3.29) и (3.50), выводим
.11 .т.~Г / А . N " I I О
г" (т) е argшax
г"
3
^1 + ||ФТ(0,^И1|^?2(еЛО + т, р + г)
(ФТ(0,г, )т,х) + + у/1 + ||Фт(^И1|^?2(еЛ0 - (^(т))2 + т, р + г?(т))
ту е а^шах
тео+(г))
Лемма 3.7. Для любого числа ( > 0 найдутся число е* > 0 и функция 6*(е) > 0, 0 < е ^ е*, т,акие, что, каковы бы ни был и значение 0 < е ^ е*, позиц ия (г* ,х* ,р*) е К1; г* < 0, расширенной системы (3.1), (3.4), разбиение Дг вида, (3.10), (3.24), 6 ^ 6*(е), и допустимая реализация и[г*[-]0) управления первого игрока, закон управления Vе = (Уд5,е,Дг) второго игрока, будет гарантировать неравенства
е±(г*, х* ,р*) ^ (х[г*[-]0]) + (, где 7± (х[г*[^]0]) — обозначения из леммы 3.6.
Доказательство. Доказательство этой леммы проводится по аналогии с леммой 3.6 с опорой на леммы 3.2 и 3.5 вместо лемм 3.1 и 3.4 соответственно. □
Ниже потребуется рассматривать величины (3.29), построенные на различных разбиениях. Чтобы подчеркнуть, что величины е±(г*,w, з) построены на базе разбиения Дг, далее используем обозначение е^^*^, з; Дг).
Лемма 3.8. Для любого числа, £ > 0 найдется чиело 6 > 0 такое, ч,т,о, какие бы ни были позиция (г*,х*,р*) е к. и разбиения Дг1; Дг2 вида (3.10), (3.24), 61,62 ^ 6, будут выполняться неравенства
\е± (г*,x*, р* ; ДЙ1 ) е± (г* ,х* ,р*; ДЙ2 ) I ^ £.
Доказательство. Достаточно рассмотреть случай г* < 0. Пользуясь леммами 3.6 и 3.7, по числу ( = £/2 определим числа е*(3'6), е*(3'7) и функции 6*(3'6)(■), 6*(3'7)(-). Положим е = шт{е*(3'6),е*(3'7)}, 6 = шт{6*(3'6)(е),6*(3'7)(е)}. Зафиксируем позицию (г*,х*,р*) е К., г* < 0, значения 61,62 < 6 и рсзбиения Дг15 Дг2.
Рассмотрим движение х(1) [г*[-]0] расширенной системы (3.1), (3.4), порожденное из позиции (г*,х*,р*) законом и. = (Ц| ,е,Дг1) го леммы 3.6 в паре с законом VI = (Уд5 ,е,Дг2) из леммы 3.7. Имеем
е±(г*,х*,р*;Дг2) — £/2 < 7±(х(1) [г*[-]0]) < е±(г*,х*,р*;Дй1) + £/2.
С другой стороны, рассматривая движение х(2) [г*[^]0], порожденное из позиции (г*,х*,р*) законами и| = (Ц|6 ,е,Дг2 ) и VI = (Уд5 ,е,Дг1), получаем
е±(г*,х*,р*; Дг1) — £/2 ^ е±(г*,х*,р*;ДЙ2) + £/2.
Пусть (t*,x*,p*) € K\. Рассмотрим последовательность разбиений Agk, 6k — 0 при к — ж.
Из леммы 3.8 вытекает, что последовательности чисел e±(t*,x*, р*; Ask), к = 1, 2,..., сходятся:
е±(t*,x*,p*) = lim ef(t*,x*,p*;ASk), (3.51)
причем указанные пределы являются равномерными по (t*,x*, р*) € Ki и не зависят от выбора последовательности разбиений Ask. Таким образом, имеет место
Л е м м а 3.9. Для любого числа, £ > 0 существует ч,исло 6* > 0 такое, что, каковы бы ни были позиция (t*,x*,р*) € Ki и разбиение As вида (3.10), (3.24), 6 ^ 6*, будут выполнены, неравенства
|е (t*,x*,p*) e± (t*,x*,p*; As)| ^
Предельные величины (3.51) в определенном смысле наследуют свойства системы величин (3.29). Прежде всего, полагая в равенстве (3.30) j = 1 и переходя к пределу по измельчающимся разбиениям As, получаем, что величины (3.51) связаны аналогичным соотношением. Далее, в силу лемм 3.4 и 3.5 приходим к следующим утверждениям.
Лемма 3.10. Пусть е> 0 (t*,w*,g*) € Ki; t* < $ и t* € (t*,$]. Пусть интервал (t*,t*) не содержит моментов оценки качества движения из показателя (3.9). Тогда, для, всякой реализации v* [t*[-]t*) € V(t*,t*) найдется такая реализация u* [t*[-]t*) € U(t*,t*,g*), что модель (3.20) под действием этих реализаций перейдет из позиции (t*,w*, g*) в такую позицию (t*,w* = w(t*), g* = g(t*)) € Ki; для которой будет выполнено неравенство
e+(t*,w*, g*) ^ e-(t*,w*,g*) - e(t* - t*). (3.52)
Доказательство. Из леммы 3.4 по числу е найдем число 6*. Рассмотрим произвольную последовательность чисел i 0 при к — ж. Для каждого к = 1,2,... по числу применяя лемму 3.9, найдем число 6*. Пусть Ask — разбиение отрезка [t*,$] вида (3.10), (3.24), где 6k = min{6**,6*}. Пусть это разбиение содержит момент времени t*. Индекс этого момента в разбиении Ask обозначим j(k), то есть tj(k) = t*. Пусть A*k = {t* = ts+j(k)-i}ks-Jj(k)+2 — разбиение отрезка [t*,$], порожденное точками разбиения Ask. Тогда в согласии с леммой 3.9 имеем
|e+(t*,w*, g*) - e+ (t*,w*, g*;Ask)| ^ £k, |e-(t*,w,g) - e-(t*,w,g;A**k)| < , (t*,w,g) € Ki.
Кроме того, так как интервал (t*,t*) не содержит моментов $ оценки качества движения, в силу лемм 3.3 и 3.4 для реализации v* [t*[-]t*) € V(t* ,t*) при каждом к найдется такая реализация u*k) [t*[-]t*) € U(t*,t*, g*), которая будет обеспечивать неравенство
e-(k)(t* ,wk ,gk ;ASk) - e+ (t*,w* ,g*;ASk) = = e-(t*,wk, gk;A*k) - e+ (t*,w*, g*;Ask) < e(t* - t*).
Рассмотрим множество W = W(t*,t*,w*, g*) — область достижимости в пространстве переменных (w, g) к моменту t* для движений модели (3.20), порожденных яз позиции (t*,w*,g*) какой угодно реализацией из U(t*,t*, g*) в паре с реализацией v* [t* [-]t*). Множество W компактно (см., например, [25, с. 349]). Поэтому, переходя, если потребуется, к подпоследовательности, можно считать, что последовательность (wk, gk) € W сходится к (w*, g*) € W при к — ж Пусть u* [t*[-]t*] € U (t* ,t*, g*) — та реализация, которая вместе с v* [t*[-]t*] из позиции (t*,w*, g*) приводит модель (3.20) в позицию (t*,w*,g*). Имеем
e+(t*,w*,g*) ^ e+(t*,w*, g*;Ask) - £k ^ ^ e-(t*,wk, gk; A**k) - e(t* - t*) - £k > e-(t* ,wk, gk) - e(t* - t*) - 2£k.
В силу леммы 3.9 и непрерывности каждой из величин e—(t* ,w,g;A**k) по совокупности переменных (w, g) предельная величина e-(t*,w, g) также непрерывна по (w, g). Следовательно, переходя здесь к пределу при к — ж, получаем доказываемое неравенство (3.52). □
Аналогично доказывается
Лемма 3.11. Пусть (¿*'х*'р*) е К1; ¿* <•& и ¿* е (¿*'Щ. Пусть интервал (¿*^*) не содержит моментов оценки качества движения из показателя (3.9). Тогда, для, всякой реализации и* [¿*[ • ]£*) е и(¿*'¿*'д*) найдется такая реализация у* [¿*[ • е V(í*'í*); что модель (3.20) под действием этих реализаций перейдет из позиции (Ь*^*' д*) в такую позицию = w(t*)' д* = д(£*)) е К1; для которой будет выполнено неравенство
е+(Ь*^*' д*) ^ е-(¿*^*' д*)-
Опираясь па предельную величину е+(Ь* ' w' д), для (t 'х' р) е Ко, е > 0 определим стратегии и0 и У0 первого и второго игроков соответственно, исходя из следующих соотношений:
ио (* .х ,р,е)40't , <™*Р<ИеЛ'
'ви' Ги)' если иначе ' У0 ^ 'х 'р 'в) = д^ 'ву) '
где
ви = х - Wu' Ги = р - ди' (wu' ди) е а^шт e+(t^'д)
\\(х,р)-(т,в)\\Е
ву = wv - х' ' ду) е argшax е+^ ^'д)-
\\(х,р)-(т,в)\\Е
Здесь функции п( • ), р(• ) и д(• ) определены в согласии с (3.22).
Следующие два утверждения доказываются аналогично леммам 3.6 и 3.7, с опорой на леммы 3.10 и 3.11 вместо лемм 3.4 и 3.5.
Л е м м а 3.12. Для любого числа, ( > 0 найдутся такие число е* > 0 и функция 5*(е) > 0; 0 < е ^ е*' что, каковы бы ни были значение 0 < е ^ е*, позиция (¿*' х*' р*) е К0, ¿* < расширенной системы (3.1), (3.4), разбиение Дг вида (3.10), (3.24), 5 ^ 5*(е), и допустимая реализация • ]$) управления второго игрока, закон управления и0 = (и0' е' Дг) первого игрока, будет гарантировать неравенство
е-^*' х*' р*) * 7(х^*[ Щ) - (•
Л е м м а 3.13. Для любого числа, ( > 0 найдутся такие число е* > 0 и функц ия 5* (е) > 0, 0 < е ^ е* ' что, каковы бы ни были значение 0 < е ^ е*, позиц ия (¿*' х*' р*) е К0 расширенной системы (3.1), (3.4), разбиение Д§ вида (3.10), (3.24), 5 ^ 5*(е), и допустимая реализация и^*[ • ]$) управления первого игрока, закон управления V0 = (У0е ' е' Дг) второго игрока будет гарантировать неравенство
е-^*' х*' р*) ^ •]#]) + (•
Леммы 3.12 п 3.13 позволяют доказать следующее утверждение. Теорема 3.1. В рассматриваемой задаче (3.1)—(3.9) имеют место равенства - ( ¿* х
* ' р*) - Г и (¿* х
* ' р*) - Г V (¿*' х*' р*)' ^ * ' х*' р* ) е К0-
Стратегии Щ и являются оптимальными.
Доказательство. В силу леммы 3.12 по определению (3.13) величины гарантированного результата для стратегии и0 имеем
е «¿*'х*' р*) * Г(и0; ¿*'х*' р*)•
В силу леммы 3.13 по определению (3.17) величины гарантированного результата для стратегии У0 получаем
е (¿* 'х*' р*) ^ Г(у0 ; ¿* 'х* ' р*)•
Учитывая эти неравенства и определения (3.14) и (3.18) оптимальных гарантированных результатов, выводим цепочку неравенств:
ru(t*,х*,р*) ^ г(^о5t*,х*,р*) (t *,х*,р*) ^ ВД ; t*,х*,р*) ^ rv(i *, х*,р*),
которая, если принять во внимание неравенство (3.19), обращается в цепочку равенств. □ Из теоремы 3.1 и леммы 3.9 заключаем, что величина e^(t *,х*,р*;Д<$) из системы величин (3.29) с измельчением разбиения Д^ приближает цену ru(t*,х*,р*) = rv(t *,х*,р*) дифференциальной игры (3.1)-(3.9), причем равномерно относительно (t *,х*,р*) Е Ко. Стратегии (U0, V0) составляют седловую точку этой игры. Кроме того, по леммам 3.6 и 3.7, законы управления U = (U^g,£,Дб) и Vе = (V\Ä,е, )> построенные по системе величин (3.29) в согласии с соотношениями (3.33), (3.34) и (3.49), (3.50) соответственно, будут ("-оптимальными.
§ 3.5. Программная реализация
Предложенная процедура вычисления оптимального гарантированного результата (цены
"
реализована, опираясь на технику, описанную в подпараграфе 1.5, с нижеследующими ключевыми отличиями.
Во-первых, в данной части функции *, m, g), m Е G±(t*), g ^ 0, имеют дополнительный аргумент g, который при построении "-оптимальных законов может принимать значения из отрезка [0,р* + 2]. Вводим равномерное разбиение данного отрезка и строим табулированные функции tp± в точках этого разбиения.
Во -вторых, овыпукление вспомогательной функции фj (t*, m, g), m Е G+(t*), g ^ 0, ocy-
mg
В-третьих, отдельной подзадачей является вычисление значения функции Дфj(t*,m,g) из (3.25). Заметим, что
г tj+i
Дфj(t*,m,g)= min max / (m, Ф($,т)(В(r)u(r) + C(r)v(r))} dr =
Uj (p) Vj It-.
p j j (3 53)
ftj+i ftj+i x ' '
= maW (m, Ф(§,т)C(т)v(t)) dr + min / (m, Ф(#,т)B(т)и(т)) dr.
V Jtj U (e) Jt.
Введем равномерное разбиение Дк = {тготрезкa [tj,tj+i]:
Дк = {тг : тг = tj + (i - 1)Дt, Дt = (tj+1 - tj )/k, i = l,...,k + 1}.
Здесь для обозначения количества точек в разбиении, как и, например, в (3.10), используется k
Внося операцию max под знак интеграла и применяя формулу левых прямоугольников, вычисляем первое слагаемое из (3.53):
nj+i nj+i
max/ (m, Ф(-&,т )C (т )и(т)) dт = max/ (Cт (т )ФТ (§,т )m,v(т)) dт =
Vj Jtj Vj Jtj
r tj+i к
= j ^V\\Cт(т)ФТ(0,т)m\\V dт » \vД^ \\Cт(тг)ФТ(#,тг)m\\*v.
(3.54)
Г*3 +1
В случае когда д ^ а(т)Аи йт, второе слагаемое из (3.53) может быть вычислено аналогично (3.54):
Г '+1
ш1п / (ш, ф(0,т)В(т)и(т)} йт \\ВТЫ)ФТ(0,тЛш\\и. (3.55)
ftj+1
Пусть g< a(r)AU dr. Через Uj1(g) обозначим множество функций u[tj[ • ]tj+1) G Uj(g)
Jtj
таких, что они непрерывны справа и кусочно-постоянны с разрывами лишь, быть может, в точ-
гп+1
ках разбиения Дк. В этом случае, полагая mi = B ' (т)Ф (ff,т)mdr, i = 1,...,к, имеем
Jn
r tj+l Г tj+l
min / (m, Ф($,т)B(r)u(r)} dr & min / (m, Ф($,т)B(r)u(r)} dr =
Uj(e) Уtj j(e) Jtj
к к = min V"(mi,u(ri)} = min V"-\\mi\\*u\\u(n)\\u. j(e) j(e) i=l
Для i = 1,..., к обозначим
{1 Г7"^1 ■т:-r— / a(r) dr, если rrii Ф 0,
\\mi\\*uJTi
0, если mi = 0.
Рассмотрим вспомогательную задачу линейного программирования:
кк с = ^Pi ^ max, 0 ^ Pi ^ \u\mi\\U, ^aiPi ^ g.
i=l i=l
Эта задача может быть решена, например, при помощи симплекс-метода [29, с. 892-906]; обозначая решение символом с*, вычисляем второе слагаемое из (3.53):
т tj+1
min / (m, Ф0&,т)B(т)u(r)} dr &-с*. (3.56)
Uj (e) J tj
Объединяя результаты (3.54), (3.55) и (3.56), получаем приближение для Дфj(t*,m,p). § 3.6. Примеры
При помощи описанной выше программной реализации были получены нижеследующие результаты численных экспериментов на модельных примерах.
Пример 3.1. Пусть движение динамической системы описывается уравнением
X = b(t)u + c(t)v, to = t* = 0 < t<ff = 2,
x G R1, u G R1, v G R1, (3.57)
b(t) = 5 sin(3nt)(t - 1), c(t) = t/4, на реализацию управления первого игрока наложены геометрическое и интегральное ограничения
|иС0| < 1' 0 < ¿< 2; [ \и(т)| йт < р* = 1' (3.58)
0
на реализацию управления второго игрока наложено геометрическое ограничение
|у(¿) | < 1' 0 < ¿< 2' (3.59)
заданы начальное условие
x* = x(0) = -1,
и показатель качества
7ИЫ-]0]) = \/|ж(0,5)|2 + |ж(1) - 1|2 + |ж(1,5)|2 + \х(2) + 1|2. (3.61)
В численных построениях использовались равномерное разбиение Д$ отрезка времени управления [0' 2] с диаметр ом 5 = 0'005, значение параметра точности е = 0'025 и подходящие значения параметров пиксельных представлений. Найденное численно значение величины е-^*'х*'р*), приближающее оптимальные гарантированные результаты игроков, составляющих цену дифференциальной игры (3.57)^(3.61), составило 0,868. Приведем результаты трех симуляций процесса управления в этой задаче.
(1) Управляющие воздействия игроков формировались законом Ые = (иД ,е,Д$), построенным в согласии с соотношениями (3.33), (3.34), и законом Vе = (УД6 ,е, Дг), определенным согласно (3.49). При этом реализовалось следующее значение показателя качества (3.61):
7 = V10,07912 + | -0,786|2 + |0,165|2 + |0,316|2 и 0,866 и е-(Ь*,х*,р*) = 0,868.
(2) Управляющие воздействия первого игрока назначались «жадным» законом, который осуществляет экстремальный сдвиг на очередную цель, пока есть ресурс. Второй игрок руководствовался законом Vе. Реализовалось следующее значение показателя качества (3.61):
7 = V^ 0,006|2 + | - 0,560|2 + 10,59612 + |1,815|2 и 1,990 > е-(г*,х*,р*) = 0,868.
(3) Управляющие воздействия первого игрока назначались законом Ые, в то время как второй игрок формировал свои воздействия случайным образом. Реализовалось следующее значение показателя качества (3.61):
7 = V10,10412 + | - 0,687|2 + 10,107|2 + | - 0,005|2 и 0,703 < е-(г*,х*,р*) = 0,868.
Реализации движения и управлений игроков, полученные в этих симуляциях, приведены на рис. 13-15 соответственно. Цели обозначены крестиками. Круглые точки на реализациях движений соответствуют моментам времени оценки качества движения. Вместе с реализациями управлений первого и второго игроков на рисунках желтым цветом изображены графики функций Ъ(4) и с(Ь).
Пример 3.2. Пусть движение динамической системы описывается уравнением
Х1 = Х2 + C(t)V, 4 = 4 =0 < 4<л = 2 х2 = -0,5x1 -0,05x2 + ъ(г)п, 40 == 0 ^л = 2
Х = (Х1,Х2) е М2, и е М1, V е М1,
Ъ(.) = ( 2 + 2сов2п(4 - 0,5), если 4 е [0,5; 1,5], (3.62)
4, ,
(,) = Г 0,3, если 4 е [0,6; 1,4] 0, 1 , ,
на реализацию управления первого игрока наложены геометрическое и интегральное ограничения
|и(4)| < 1, 0 < г< 2; [ |и(г)|йг < р* = 1, (3.63)
0
на реализацию управления второго игрока наложено геометрическое ограничение
|v(t)| < 1, 0 < г< 2, (3.64)
заданы начальное условие
х* = (х1 (0), Х2(0)) = (0,5, 0,1), (3.65)
и показатель качества
ф[и[•]#]) = л/Ы~1)\2 + |ж2(1) - 0,512 + |ж1 (2) + 0,512 + |Ж2(2)|2. (3.66)
В численных построениях использовались равномерное разбиение Дг отрезка времени управления [0,2] с диаметром 5 = 0,01, значение параметра точности е = 0,05 и подходящие значения параметров пиксельных представлений. Найденное численно значение величины е— (Ь*,х*,р*), приближающее оптимальные гарантированные результаты игроков, составляющих цену дифференциальной игры (3.62)-(3.66), составило 0,702.
-0,5
и 2
ь(г)
-2
-4
0,5
1,5
Ф)
1
0,5 0
-0,5 -1
0,5
1,5
Рис. 13. Реализации движения и управлений игроков, полученные в первой симуляции в примере 3.1
г
V
г
0,5
-5 <-
* (
/ X
У \ / ч
-X
-0,5
-1
и 2
0,5
1,5
1
т
) 0,5 1 1,5
-2
-4
1
0,5 0
-0,5 1
Рис. 15. Реализации движения и управлений игроков, полученные в третьей симуляции в примере 3.1
г
V
0,5 0
-0,5
-1
-1,5
и 4 3 2 1 0 -1 -2
V
х1(г) х2(г) --
-------- >—
: \ \ ...... / *.......--Ч. \ ч / / ..
*.................. / \ \ / / /
0,5
0,5
1,5
» 1
1 1 И
) 0,5 1 1,5
с(г)
0,5
1,5
Рис. 16. Реализации движения и управлений игроков, полученные в первой симуляции в примере 3.2
В результате проведения трех симуляций процесса управления в этой задаче по аналогичной схеме, что и в примере 3.1, реализовались соответственно следующие значения показателя качества (3.66):
7 = V10,23512 + | - 0,59312 + |0,316|2 + | -0,170|2 и 0,731 и (и,х*,р*) = 0,702, 7 = л/|1Д53|2 + | - 0,94612 + |1,940|2 + | - 0,248|2 и 2,459 > е]~(£*,ж*,р*) = 0,702, 7 = л/|0,055|2 + | - 0,52512 + | - 0,055|2 + | - 0,110|2 и 0,542 < е^*, ж*, р*) = 0,702.
Реализации движения и управлений игроков, полученные в первой симуляции, приведены
г
г
на рис. 16. Вместе с реализациями управлений желтым цветом изображены графики функций b(t) и c(t).
§ 4. Программный комплекс для решения позиционных дифференциальных игр с нетерминальной платой
Разработанные в § § 1, 2 и 3 универсальные численные методы были реализованы в виде расширяемого программного комплекса, ориентированного на современные вычислители. Комплекс прошел процедуру государственной регистрации программы для ЭВМ, получено соответствующее свидетельство [141]. В этом параграфе приводятся используемые в комплексе технологии, описываются его основные функциональные возможности и компоненты.
§4.1. Используемые технологии
Программный комплекс для решения позиционных дифференциальных игр с нетерминальной платой реализован на языке программирования С++, что позволило написать достаточно эффективный и производительный код. Используются библиотеки из коллекции Boost С++ Libraries: Random, Serialization, Smart Ptr, Thread, Unordered, uBLAS и другие. Поддерживаются компиляторы GCC и Intel® С++ Compiler. Код для параллельных вычислений на графических ускорителях (GPU) с архитектурой CUDA компилируется при помощи NVCC. Сборка проекта осуществляется СМаке. Комплекс ориентирован на дистрибутивы Linux, BSD и подобные им операционные системы, поскольку они широко используются на современных кластерных вычислителях, являются свободно распространяемыми и позволяют установить все необходимые для работы комплекса зависимости.
Комплекс реализован в виде библиотеки, что позволяет использовать его в рамках других программ, тем самым существенно расширяя область его применимости. Однако С++, в силу его особенностей, не всегда является удобным языком для описания и проведения численных экспериментов с последующим сохранением результатов. Поэтому для библиотеки была выполнена «обертка» на языке программирования Python. Этот язык, благодаря удобному и краткому синтаксису, большому количеству математических библиотек и удобным средствам проведения исследований и экспериментов, таким как IPvthon Notebook (Jupvter), получил широкое распространение среди ученых.
Программный комплекс разрабатывался с использованием редактора Vim и системы контроля версий Git.
§ 4.2. Функциональные возможности
Лежащие в основе программных реализаций процедуры являются универсальными в том смысле, что рассчитаны на общий случай и в принципе позволяют решать задачи произвольной размерности с любыми значениями параметров, поскольку не используют узкоспециализированные алгоритмы, которые в конкретных задачах могли бы привести к более быстрому и/или точному решению. Возникающие из-за универсальности повышенные требования к вычислительным ресурсам, с одной стороны, решаются в комплексе при помощи эффективного распараллеливания и ориентирования на современные многоядерные многопроцессорные вычислительные архитектуры, а с другой — при помощи гибкой и расширяемой структуры комплекса, позволяющей для некоторых этапов вычислений заменить численные построения точной формулой, полученной аналитически, например путем учета специфики конкретной задачи.
Для решения одной из рассмотренных в § § 1, 2 и 3 задачи в программном комплексе необходимо задать дифференциальное уравнение, описывающее движение управляемой динамической системы, ограничения на воздействия, начальные условия, показатель качества, размер шага по времени, значение параметра точности, параметры «пиксельной» аппроксимации и количество нормалей для аппроксимации выпуклых сверху оболочек. В результате работы программы пользователь получит следующую информацию: априорно вычисленное значение цены игры — оптимального гарантированного результата, реализовавшееся движение системы, реализовавшиеся управления, реализовавшееся значение показателя качества.
При помощи дополнительных настроек работу комплекса можно корректировать различными способами: изменять степень подробности сообщений о выполняемых на текущем этапе действиях; задавать используемое число параллельно исполняемых вычислительных потоков; указывать, строить ли выпуклые сверху оболочки средствами CPU либо GPU.
Численное построение вспомогательных таблично заданных функций для сокращения времени работы программы может осуществляться целиком в оперативной памяти. Однако с ростом размерности фазового вектора, уменьшением шага по времени и уменьшением размеров «пикселей» для размещения всех табличных функции в оперативной памяти может не хватить места, поэтому предусмотрен режим, в котором каждая вновь полученная табличная функция выгружается на жесткий диск, а позже по надобности, например при формировании оптимального управления, автоматически подгружается обратно.
В некоторых частных случаях, исходя из дополнительных соображений, можно заключить, что процедура построений выпуклых сверху оболочек не требуется в силу того, что овыпукля-емые функции уже изначально будут вогнутыми. Для таких случаев с целью ускорения счета в комплексе предусмотрен механизм отключения этой процедуры.
Результаты численных экспериментов могут быть сохранены в различных форматах, в том числе совместимых с системой визуализации Gnuplot, позволяющей создавать рисунки, пригодные для размещения в научных публикациях. Все иллюстрации, приведенные в настоящей статье, получены именно таким образом.
Программный комплекс позволяет для линейно-выпуклых дифференциальных игр с нетерминальной платой не только осуществлять построение и моделирование решений, но и изучать поведение оптимальных законов управления в паре с неоптимальными. В комплексе реализованы такие дополнительные законы управления, как нулевой (значения управляющих воздействий всегда полагаются нулевыми), случайный (формируемые воздействия выбираются из возможных значений случайным равновероятным способом), жадный (осуществляется экстремальный сдвиг на очередную целевую точку) и программный (реализуются заранее предопределенные значения управляющих воздействий). Кроме того, предусмотрены интерфейсы расширения, позволяющие задать произвольный закон управления и при помощи численных экспериментов изучить его свойства.
§ 4.3. Состав программного комплекса
Разработанный программный комплекс содержит в себе следующие основные компоненты:
• классы, описывающие параметры задач и численных построений;
•
тата и построения оптимальных законов управления;
ния выпуклой сверху оболочки, сохранения на жесткий диск, экспортирования в формат
Gnuplot;
Полная база исходных кодов комплекса составляет приблизительно 30 тысяч строк.
Список литературы
1. Азимов А.Я. Об одном способе преследования в линейных дифференциальных играх с интегральными ограничениями // Известия АН СССР. Техническая кибернетика. 1974. № 2. С. .'*> 1 .''>">.
2. Айзеке Р. Дифференциальные игры. М.: Мир, 1967. 479 с.
3. Альбрехт Э.Г. Построение приближенных решений некоторых квазилинейных дифференциальных игр // Труды Института математики и механики УрО РАН. 2000. Т. 6. № 1. С. 27-38.
4. Балашов М.В. О Р-свойстве выпуклых компактов // Математические заметки. 2002. Т. 71. № 3. С. 323-333. DOI: 10.4213/mzm349
5. Батухтин В.Д. Экстремальное прицеливание в нелинейной игре сближения // Доклады АН СССР. 1972. Т. 207. № 1. С. 11-14.
6. Бердышев К).II. Об одной задаче последовательной оптимизации без декомпозиции во времени // Кибернетика. 1987. № 4. С. 32-35.
7. Бердышев К).II. Об одной задаче последовательного сближения нелинейной управляемой системы третьего порядка с группой движущихся точек // Прикладная математика и механика. 2002. Т. 66. № 5. С. 742-752.
8. Бердышев К).II.. Ченцов А.Г. Оптимизация взвешенного критерия в одной задаче управления // Кибернетика. 1986. № 1. С. 59-64.
9. Боткин Н.Д. Дифференциальная игра преследования со смешанными ограничениями на управления // Автоматика и телемеханика. 1992. № 6. С. 12-19.
10. Гомоюнов M.II.. Лукоянов Н.Ю. Об устойчивости одной процедуры решения задачи управления на минимакс позиционного функционала // Труды Института математики и механики УрО РАН. 2014. Т. 20. № 1. С. 68-82.
11. Горнов А.Ю. Вычислительные технологии решения задач оптимального управления. Новосибирск: Наука, 2009. 279 с.
12. Горнов А.Ю., Тятюшкин А.И., Финкелынтейн Е.А. Численные методы решения прикладных задач оптимального управления // Журнал вычислительной математики и математической физики.
2013. Т. 53. № 12. С. 2014-2028. DOI: 10.7868/S0044466913120077
13. Григоренко Н.Л. О структуре одного класса дифференциальных игр с общими интегральными ограничениями // Управляемые системы. 1974. № 12. С. 23-31.
14. Григоренко Н.Л., Камзолкин Д.В., Лукьянова Л.Н. Численный алгоритм решения одной нестационарной задачи оптимального управления // Труды Института математики и механики УрО РАН. 2011. Т. 17. № 1. С. 53-59.
15. Григоренко Н.Л., Киселев Ю.Н., Лагунова Н.В., Силин Д.Б., Тринько Н.Г. Методы решения дифференциальных игр // Математическое моделирование. М.: Изд-во МГУ, 1993. С. 296-316.
16. Дарьин А.Н., Куржанский А.Б. Метод динамического программирования в задачах синтеза управлений при разнотипных и двойных ограничениях // Проблемы управления и приложения (техника, производство, экономика): труды международной конференции. Т. 2: Управление и оптимизация. Минск, 16-20 апреля 2005. С. 51-65.
17. Дарьин А.Н., Куржанский А.Б. Управление в условиях неопределенности при двойных ограничениях // Дифференциальные уравнения. 2003. № 11. С. 1474-1486.
18. Двуреченский П.Е., Иванов Г.Е. Алгоритмы вычисления операторов Минковского и их применение в дифференциальных играх // Журнал вычислительной математики и математической физики.
2014. Т. 54. № 2. С. 224-255. DOI: 10.7868/S0044466914020057
19. Дыхта В.А., Самсонюк О.П. Оптимальное импульсное управление с приложениями. М.: Физмат-лит, 2003. 256 с.
20. Жуковский В.П., Чикрий A.A. Линейно-квадратичные дифференциальные игры. Киев: Наукова думка, 1994. 241 с.
21. Завалищин С.Т., Сесекин А.Н. Импульсные процессы. Модели и приложения. М.: Наука, 1991. 256 с.
22. Иванов Г.Е., Казеев В.А. Минимаксный алгоритм построения оптимальной стратегии управления в дифференциальной игре с липшицевой платой / / Журнал вычислительной математики и математической физики. 2011. Т. 51. № 4. С. 594-619.
23. Иванов Г.Е., Половинкин Е.С. О сильно выпуклых линейных дифференциальных играх // Дифференциальные уравнения. 1995. Т. 31. № 10. С. 1641-1648.
24. Игнатенко А.П. Об одной задаче преследования при интегрально-геометрических ограничениях // Теорш оптимальных рпнень. 2007. № 6. С. 74-79.
25. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974. 479 с.
26. Исакова Е.А., Логунова Г.В., Пацко B.C. Построение стабильных мостов в линейной дифференциальной игре с фиксированным моментом окончания / / Алгоритмы и программы решения линейных дифференциальных игр / Под ред. А.И. Субботина, B.C. Пацко. Свердловск: УНЦ АН СССР, 1984. С. 127-158.
27. Клейменов А.Ф. Неантагонистические позиционные дифференциальные игры. Екатеринбург: Наука, 1993. 185 с.
28. Коврижных А.Ю. К задаче конфликтного управления с квазипозиционным функционалом // Труды Института математики и механики УрО РАН. 2000. Т. 6. № 2. С. 394-412.
29. Кормен Т., Лейзерсоп Ч., Рпвест Р., Штайп К. Алгоритмы: построение и анализ. М.: Вильяме, 2005. 1296 с.
30. Красовский A.A., Красовский А.Н. Нелинейная позиционная дифференциальная игра в классе смешанных стратегий // Труды Математического института имени В.А. Стеклова. 2012. Т. 277. С. 144-151.
31. Красовский А.Н. О позиционном минимаксном управлении // Прикладная математика и механика. 1980. Т. 44. № 4. С. 602-610.
32. Красовский А.Н. Построение смешанных стратегий на основе стохастических программ // Прикладная математика и механика. 1987. Т. 51. № 2. С. 186-192.
33. Красовский А.Н. Синтез смешанных стратегий управления. Свердловск: УрГУ, 1988. 151 с.
34. Красовский А.Н., Решетова Т.Н. Управление при дефиците информации: Учебное пособие. Свердловск: УрГУ, 1990. 104 с.
35. Красовский H.H. Игровые задачи о встрече движений. М.: Наука, 1970. 420 с.
36. Красовский H.H. К задаче об успокоении линейной системы при минимальной интенсивности управления // Прикладная математика и механика. 1965. Т. 29. № 2. С. 218-225.
37. Красовский H.H. Управление динамической системой. М.: Наука, 1985. 516 с.
38. Красовский H.H., Лукоянов Н.Ю. Задача конфликтного управления с наследственной информацией // Прикладная математика и механика. 1996. Т. 60. № 6. С. 885-900.
39. Красовский H.H., Решетова Т.Н. О программном синтезе гарантированного управления // Проблемы управления и теория информации. 1988. Т. 17. № 6. С. 333-343.
40. Красовский H.H., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974. 456 с.
41. Красовский H.H., Третьяков В.Е. К задаче о преследовании в случае ограничений на импульсы управляющих сил // Дифференциальные уравнения. 1966. Т. 2. № 5. С. 587-599.
42. Красовский А.Н., Красовский H.H., Третьяков В.Е. Стохастический программный синтез для позиционной дифференциальной игры // Прикладная математика и механика. 1981. Т. 45. № 4. С. 579-586.
43. Кряжимский A.B. К теории позиционных дифференциальных игр сближения-уклонения // Доклады АН СССР. 1978. Т. 239. № 4. С. 779-782.
44. Куржанский A.B. Управление и наблюдение в условиях неопределенности. М.: Наука, 1977. 392 с.
45. Ледяев Ю.С. Регулярные дифференциальные игры со смешанными ограничениями на управления // Труды Математического института имени В.А. Стеклова. 1985. Т. 167. С. 207-215.
46. Локшин М.Д. О дифференциальных играх с интегральными ограничениями на управляющие воздействия // Дифференциальные уравнения. 1992. Т. 28. № 11. С. 1952-1961.
47. Лукоянов Н.Ю. К вопросу вычисления цены дифференциальной игры для позиционного функционала // Прикладная математика и механика. 1998. Т. 62. № 2. С. 188-198.
48. Лукоянов Н.Ю. К задаче конфликтного управления при смешанных ограничениях // Прикладная математика и механика. 1995. Т. 59. № 6. С. 955-964.
49. Лукоянов Н.Ю. О задаче конфликтного управления при смешанных ограничениях на управляющие воздействия // Дифференциальные уравнения. 1995. Т. 31. № 9. С. 1473-1482.
50. Лукоянов Н.Ю. О построении цены позиционной дифференциальной игры // Дифференциальные уравнения. 2001. Т. 37. № 1. С. 18-26.
51. Лукоянов Н.Ю. Одна дифференциальная игра с нетерминальной платой // Известия РАН. Теория и системы управления. 1997. № 1. С. 85-90.
52. Максимов В.И. О существовании седловой точки в дифференциально-разностной игре сближения-уклонения // Прикладная математика и механика. 1978. Т. 42. № 1. С. 15-22.
53. Мамадалиев П. Об одной задаче преследования с интегральными ограничениями на управления игроков // Сибирский математический журнал. 2015. Т. 56. № 1. С. 129-148.
54. Мезенцев A.B. Дифференциальные игры с интегральными ограничениями на управления. М.: Изд-во МГУ, 1988. 135 с.
55. Михалев Д.К., Ушаков В.Н. О двух алгоритмах приближенного построения множества позиционного поглощения в игровой задаче сближения // Автоматика и телемеханика. 2007. № 11. С. 178— 194.
56. Мищенко Е.Ф. Задачи преследования и уклонения от встречи в теории дифференциальных игр // Известия АН СССР. Техническая кибернетика. 1971. № 5. С. 3-9.
57. Никольский М.С. Линейные дифференциальные игры преследования с интегральными ограничениями // Дифференциальные уравнения. 1992. Т. 28. № 2. С. 219-223.
58. Никольский М.С. Первый прямой метод Л.С. Понтрягина в дифференциальных играх. М.: Изд-во МГУ, 1984. 65 с.
59. Никольский М.С. Прямой метод в линейных дифференциальных играх с интегральными ограничениями // Управляемые системы. 1969. № 2. С. 49-58.
60. Никольский М.С. Прямой метод в линейных дифференциальных играх с общими интегральными ограничениями // Дифференциальные уравнения. 1972. Т. 8. № 6. С. 964-971.
61. Осипов Ю.С. Дифференциальные игры систем с последействием // Доклады АН СССР. 1971. Т. 196. № 4. С. 779-782.
62. Осипов Ю.С., Пименов В.Г. О позиционном управлении при последействии в управляющих силах // Прикладная математика и механика. 1981. Т. 45. № 2. С. 223-229.
63. Пацко B.C., Турова В.Л. Численное решение дифференциальных игр на плоскости. Екатеринбург: Изд-во УрО РАН, 1995. 77 с.
64. Петров H.H. О существовании значения игры преследования // Доклады АН СССР. 1970. Т. 190. № 6. С. 621-624.
65. Петров H.H. Об одной задаче преследования группы убегающих // Автоматика и телемеханика. 1996. № 6. С. 48-54.
66. Петросян Л.А. Дифференциальные игры преследования. Л.: Изд-во Ленинградского гос. ун-та, 1977. 222 с.
67. Иоловинкин Е.С., Иванов Г.Е., Балашов М.В., Константинов Р.В., Хорев A.B. Алгоритмы численного решения линейных дифференциальных игр // Математический сборник. 2001. Т. 192. № 10. С. 95-122. DOI: 10.4213/sm604
68. Понтрягин Л.С. О линейных дифференциальных играх. I // Доклады АН СССР. 1967. Т. 174. № 6. С. 1278-1280.
69. Понтрягин Л.С. О линейных дифференциальных играх. II // Доклады АН СССР. 1967. Т. 175. № 4. С. 764-766.
70. Пшеничный Б.П. Структура дифференциальных игр // Доклады АН СССР. 1969. Т. 184. № 2. С. 285-187.
71. Пшеничный Б.Н., Онопчук Ю.Н. Линейные дифференциальные игры с интегральными ограничениями // Известия АН СССР. Техническая кибернетика. 1968. № 1. С. 13-22.
72. Пшеничный Б.П., Сагайдак .\I.II. О дифференциальных играх с фиксированным временем // Кибернетика. 1970. № 2. С. 54-63.
73. Рокафеллар Р. Выпуклый анализ. М.: Мир, 1973. 469 с.
74. Саматов Б.Т. Задача преследования-убегания при интегрально-геометрических ограничениях на управления преследователя // Автоматика и телемеханика. 2013. № 7. С. 17-28.
75. Соломатин A.M., Ушаков В.П. Конструирование множества позиционного поглощения в линейной игре с интегральными ограничениями // Управление и оценивание в динамических системах. 1982. С. 74-89.
76. Страуструп Б. Язык программирования С++. Специальное издание. М.: Бином, 2011. 1136 с.
77. Субботин А.И., Ушаков В.П. Альтернатива для дифференциальной игры сближения-уклонения при интегральных ограничениях на управления игроков / / Прикладная математика и механика. 1975. Т. 39. № 3. С. 387-396.
78. Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. М.: Наука, 1981. 288 с.
79. Субботин А.П. Минимаксные неравенства и уравнения Гамильтона-Якоби. М.: Наука, 1991. 216 с.
80. Субботина H.H., Субботин А.П. Альтернатива для дифференциальной игры сближения-уклонения при ограничениях на импульсы управлений игроков / / Прикладная математика и механика. 1975. Т. 39. № 3. С. 397-406.
81. Субботина H.H. Метод характеристик для уравнений Гамильтона-Якоби и его приложения в динамической оптимизации // Современная математика и ее приложения. 2004. Т. 20. № 10. С. 3-132.
82. Тарасьев A.M. Аппроксимационные схемы построения минимаксных решений уравнений Гамильтона-Якоби // Прикладная математика и механика. 1994. Т. 58. № 2. С. 22-36.
83. Тарасьев A.M., Успенский A.A., Ушаков В.П. Аппроксимационные схемы и конечно-разностные операторы для построения обобщенных решений уравнений Гамильтона-Якоби // Известия РАН: Техническая кибернетика. 1994. № 3. С. 173-185.
84. Тарасьев A.M., Успенский A.A., Ушаков В.Н. Конечно-разностный метод построения функции оптимального гарантированного результата / / Гагаринские научные чтения по космонавтике и авиации. 1991. Сборник трудов. М.: Наука, 1992. С. 166-172.
85. Ухоботов В.И. Об одном классе дифференциальных игр с интегральным ограничением // Прикладная математика и механика. 1977. Т. 41. № 5. С. 819-824.
86. Ухоботов В.И. Однотипная линейная игра со смешанными ограничениями на управления // Прикладная математика и механика. 1987. Т. 51. № 2. С. 179-185.
87. Ухоботов В.И., Гущин Д.В. Об одном классе однотипных дифференциальных игр со смешанными ограничениями на управления // Вестник Удмуртского государственного университета. Математика. Механика. Компьютерные науки. 2010. № 3. С. 81-86. DOI: 10.20537/vml00310
88. Ушаков В.Н. Экстремальные стратегии в дифференциальных играх с интегральными ограничениями // Прикладная математика и механика. 1972. Т. 36. № 1. С. 15-23.
89. Ушаков В.Н., Хрипунов А.П. О приближенном построении решений в игровых задачах управления // Прикладная математика и механика. 1997. Т. 61. № 3. С. 413-421.
90. Фань Цзи. Теоремы о минимаксе // Бесконечные антагонистические игры. 1963. С. 31-39.
91. Чепцов А.Г. Об игровой задаче сближения в заданный момент времени // Математический сборник. 1976. Т. 99. № 3. С. 394-420.
92. Черноусько Ф.Л. Оценивание фазового состояния динамических систем. Метод эллипсоидов. М.: Наука, 1988. 319 с.
93. Черноусько Ф.Л., Меликян А.А. Игровые задачи управления и поиска. М.: Наука, 1978. 270 с.
94. Чикрий А. А. Конфликтно управляемые процессы. Киев: Наукова думка, 1992. 384 с.
95. Чикрий А.А, Белоусов А.А. О линейных дифференциальных играх с выпуклыми интегральными ограничениями // Труды Института математики и механики УрО РАН. 2013. Т. 19. № 4. С. 308-319.
96. Чистяков С.В. К решению игровых задач преследования // Прикладная математика и механика. 1977. Т. 41. № 5. С. 825-832.
97. Alton К., Mitchell I.M. Fast marching methods for stationary Hamilton-Jacobi equations with axis-aligned anisotropy // SIAM J. Numer. Anal. 2008. Vol. 47. No. 1. P. 363-385.
98. Bardi M., Falcone M., Soravia P. Numerical methods for pursuit-evasion games via viscosity solutions // Stochastic and differential games. Annals of the International Society of Dynamic Games. Vol. 4. Boston: Birkhauser, 1999. P. 105-175. DOI: 10.1007/978-1-4612-1592-9^3
99. Barron E.N. Differential games with maximum cost // Nonlinear Analysis: Theory, Methods and Applications. 1990. Vol. 14. No. 11. P. 971-989. DOI: 10.1016/0362-546X(90)90113-U
100. Basar Т., Bernhard P. H-infinity optimal control and related minimax design problems: a dynamic game approach. Boston: Birkhauser, 1995. 428 p.
101. Berkovitz L.D. Characterization of the values of differential games // Applied Mathematics and Optimization. 1988. Vol. 17. Issue 1. P. 177-183. DOI: 10.1007/BF01448365
102. Blaquiere A., Gerard F., Leitmann G. Quantitative and qualitative games. New York etc.: Academic Press, 1969. 172 p.
103. Botkin N.D., Hoffmann K.-H., Turova V.L. Stable numerical schemes for solving Hamilton-Jacobi-Bellman-Isaacs equations // SIAM J. Sci. Comput. 2011. Vol. 33. Issue 2. P. 992-1007.
DOI: 10.1137/100801068
104. Cardaliaguet P., Quincampoix M., Saint-Pierre P. Numerical methods for optimal control and differential games. Ceremade CNRS URA 749, University of Paris Dauphine, 1995.
105. Cardaliaguet P., Quincampoix M., Saint-Pierre P. Set-valued numerical analysis for optimal control and differential games // Stochastic and differential games. Annals of the International Society of Dynamic Games. Vol. 4. Boston: Birkhauser, 1999. P. 177-247. DOI: 10.1007/978-1-4612-1592-9^4
106. Chernousko F.L., Ananievski I.M., Reshmin S.A. Control of nonlinear dynamical systems. Methods and applications. Berlin-Heidelberg: Springer, 2008. 396 p. DOI: 10.1007/978-3-540-70784-4
107. Elliot R.J., Kalton N.J. The existence of value for differential games // Memoirs of the American Mathematical Society. 1972. No. 126. 67 p. DOI: 10.1090/memo/0126
108. Evans L.C., Ishii H. Differential games and nonlinear first order PDE on bounded domains // Manuscripta Mathematica. 1984. Vol. 49. Issue 2. P. 109-139. DOI: 10.1007/BF01168747
109. Falcone M. Recent results in the approximation of nonlinear optimal control problems / / Large-scale scientific computing. Lecture Notes in Computer Science. Vol. 8353. Berlin-Heidelberg: Springer, 2014. P. 15-32. DOI: 10.1007/978-3-662-43880-0^2
110. Fleming W.H. A note on differential games of prescribed duration // Contributions to the Theory of Games. Annals of Mathematical Studies. 1957. Vol. 3. P. 407-416.
111. Fleming W.H. The convergence problem for differential games. // Journal of Mathematical Analysis and Applications. 1961. Vol. 3. Issue 1. P. 102-116. DOI: 10.1016/0022-247X(61)90009-9
112. Fleming W.H. The convergence problem for differential games // Advances in Game Theory. (AM-52) (Annals of Mathematics Studies). Princeton: Princeton University Press, 1964. P. 195-210.
113. Friedman A. Differential games. New York: Wiley Interscience, 1971. 350 p.
114. Ho Y.C., Bryson A., Baron S. Differential games and optimal pursuit-evasion strategies // IEEE Trans. Autom. Contr. 1965. Vol. 10. Issue 4. P. 385-389. DOI: 10.1109/TAC.1965.1098197
115. Ibragimov G.I., Azamov A.A., Khakestari M. Solution of a linear pursuit-evasion game with integral constraints // ANZIAM Journal. 2010. Vol. 52. P. E59-E75.
DOI: 10.21914/anziamj.v52i0.3605
116.
117.
118.
119.
120.
121.
122.
123.
124.
125.
126.
127.
128.
129.
130.
131.
132.
133.
134.
135.
136.
137.
138.
139.
140.
Krasovskii A.N., Choi Y.S. Stochastic control with the leaders-stabilizers. Yekaterinburg: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, 2001. 51 p. Krasovskii A.N., Krasovskii N.N. Control under lack of information. Berlin etc.: Birkhauser, 1995. 322 p. Kumkov S.S., Patsko V.S. Construction of singular surfaces in linear differential games // Advances in dynamic games and applications. Annals of the International Society of Dynamic Games. Vol. 6. Basel: Birkhauser, 2001. P. 185-202. DOI: 10.1007/978-1-4612-0155-7
Kurzhanski А.В., Valyi I. Ellipsoidal calculus for estimation and control. Boston: Birkhauser, 1996. XV+321 p.
Kurzhanski А.В., Varaiya P. Dynamics and control of trajectory tubes. Springer, 2014. 445 p. Lewin J. Differential games: Theory and methods for solving game problems with singular surfaces. New York: Springer-Verlag, 1994. 242 p.
Lions P.-L., Souganidis P.E. Differential games, optimal control and directional derivatives of viscosity solutions of Bellman's and Isaacs' equations // SIAM Journal on Control and Optimization. 1985. Vol. 23. Issue 4. P. 566-583. DOI: 10.1137/0323036
Melikyan A.A. Generalaized characteristics of first order PDEs: Applications in optimal control and differential games. Boston: Birkhauser, 1998. 310 p.
Miller В., Rubinovich E.Y. Impulsive control in continuous and discrete-continuous systems. New York: Kluwer Academic / Plenum Publishers, 2003. 447 p.
Motta M., Rampazzo F. Space-time trajectories of nonlinear systems driven by ordinary and impulsive controls // Differential and Integral Equations. 1995. Vol. 8. No. 2. P. 269-288.
Roxin E. Axiomatic approach in differential games // Journal of Optimization Theory and Applications. 1969. Vol. 3. Issue 3. P. 153-163. DOI: 10.1007/BF00929440
Sethian J.A. Level set methods and fast marching methods: Evolving interfaces in computational geometry, fluid mechanics, computer vision, and materials science. Cambridge University Press, 1999. 404 p.
Subbotin A.I. Generalized solutions of first-order PDEs: The dynamical optimization perspective. Boston etc.: Birkhauser, 1995. 312 p.
Varaiya P., Lin J. Existence of saddle points in differential games // SIAM Journal on Control. 1969. Vol. 7. Issue 1. P. 141-157. DOI: 10.1137/0307011
Williams J.D. The compleat strategyst. New York: McGraw-Hill, 1966. 268 p.
Гомоюнов M.II.. Корнев Д.В. К вопросу вычисления цены дифференциальной игры в классе контрстратегий // Труды Института математики и механики УрО РАН. 2013. Т. 19. № 1. С. 59-68. Гомоюнов М.И., Корнев Д.В., Лукоянов Н.Ю. К задаче позиционной оптимизации гарантии при запаздывании в управлении / / Труды XII Всероссийского совещания по проблемам управления (ВСПУ-2014). М.: ИПУ РАН, 2014. С. 1268-1279.
Гомоюнов М.И., Корнев Д.В., Лукоянов Н.Ю. О численном решении задачи управления на ми-нимакс позиционного функционала // Труды Института математики и механики УрО РАН. 2014. Т. 20. № 3. С. 58-75.
Корнев Д.В. К вопросу о программной реализации решения дифференциальной игры с нетерминальной платой // Современные проблемы математики: Труды 42-й Региональной молодежной конференции. Екатеринбург: УрО РАН, 2011. С. 34-37.
Корнев Д.В. О численном решении дифференциальных игр на минимакс позиционного функционала в классах смешанных стратегий // Динамика систем и процессы управления: Тез. докл. Междунар. конф., посвящ. 90-летию со дня рождения акад. Н.Н. Красовского. Екатеринбург, 2014. С. 111-113.
Корнев Д.В. О численном решении дифференциальных игр с нетерминальной платой // Современные проблемы математики: Тез. Международной (43-й Всероссийской) молодежной школы-конференции. Екатеринбург: Институт математики и механики УрО РАН, 2012. С. 136-138. Корнев Д.В. О численном решении позиционных дифференциальных игр с нетерминальной платой // Автоматика и телемеханика. 2012. № 11. С. 60-75.
Корнев Д.В. Об одном численном методе решения задач конфликтного управления // Известия Института математики и информатики УдГУ. 2012. № 1 (39). С. 67-68.
Корнев Д.В. Об одном численном методе решения позиционных дифференциальных игр в смешанных стратегиях // Вестник Тамбовского университета. Естественные и технические науки. 2013. Т. 18. № 5-2. С. 2556-2558.
Корнев Д.В. Об оптимизации гарантии при интегральных ограничениях на управляющие воздействия и нетерминальном показателе качества / / Труды XII Всероссийского совещания по проблемам управления (ВСПУ-2014). М.: ИПУ РАН, 2014. С. 2059-2070.
141. Корнев Д.В. Свидетельство о государственной регистрации программы для ЭВМ № 2015614531 «Программный комплекс для решения позиционных дифференциальных игр с нетерминальной платой». Федеральная служба по интеллектуальной собственности (Роспатент). Зарегистрировано 20.04.2015.
142. Корнев Д.В., Лукоянов Н.Ю. К задаче динамической оптимизации гарантии при геометрических и интегральных ограничениях на возможности управления / / Теория управления и теория обобщенных решений уравнений Гамильтона—Якоби: Тез. докл. II Междунар. семинара, посвященного 70-летию со дня рождения акад. А.И. Субботина. Екатеринбург, Россия, 1-3 апреля, 2015. Екатеринбург: ИММ УрО РАН, УрФУ, 2015. С. 94-95.
143. Корнев Д.В., Лукоянов Н.Ю. К задаче управления на минимакс позиционного функционала при геометрических и интегральных ограничениях на управляющие воздействия / / Труды Института математики и механики УрО РАН. 2015. Т. 21. № 2. С. 87-101.
144. Корнев Д.В., Лукоянов Н.Ю. О численном решении дифференциальных игр с нетерминальной платой в классах смешанных стратегий / / Вестник Удмуртского университета. Математика. Механика. Компьютерные науки. 2013. № 3. С. 34-48. DOI: 10.20537/vml30304
145. Корнев Д.В., Лукоянов Н.Ю. Численные методы решения линейных позиционных дифференциальных игр с нетерминальной платой // Алгоритмический анализ неустойчивых задач: Тезисы докладов Международной конференции, посвященной памяти В.К. Иванова. Екатеринбург: ИММ УрО РАН, 2011. С. 248.
146. Gomoyunov M.I., Kornev D.V., Lukoyanov N.Y. Game theory applications to guarantee optimization in dynamical systems with control delays // International Game Theory Review. 2014. Vol. 16. Issue 02. 1440010. 19 p. DOI: 10.1142/S0219198914400106
147. Kornev D., Lukoyanov N. On numerical solution of differential games in classes of mixed strategies // IFAC Proceedings Volumes. 2014. Vol. 47. Issue 3. P. 1550-1555.
DOI: 10.3182/20140824-6-ZA-1003.02208
148. Kornev D., Lukoyanov N. On numerical solving of differential games with nonterminal payoff // IFAC Proceedings Volumes. 2012. Vol. 45. Issue 25. P. 71-76. DOI: 10.3182/20120913-4-IT-4027.00026
Поступила в редакцию 01.10.2016
Корнев Дмитрий Васильевич, к. ф.-м. п., научный сотрудник, отдел динамических систем, Институт математики и механики УрО РАН им. Н. Н. Красовского, 620219, Россия, г. Екатеринбург, ул. С. Ковалевской, 16.
E-mail: d.v.kornev@gmail.com D. V. Kornev
Numerical methods for solving differential games with nonterminal payoff
Keywords: control theory, differential games, feedback strategies, resource constraints. MSC2010: 49N35, 49N70, 49L20
Linear convex positional differential games with geometric constraints on control actions and nonterminal payoff which evaluates a norm of a set of motion deviations at given instants of time from given target points are considered. Cases when the saddle point in a small game is either present or absent together with possible presence of additional integral constraints on control actions are studied. In each of these cases numerical methods for calculating the game value in appropriate classes of strategies and for constructing corresponding optimal control laws are elaborated. Numerical methods are based on backward constructions of upper convex hulls of auxiliary program functions. Domains of these functions are approximated by a pixel method, functions are stored as tables, upper convex hull is computed approximately as a lower envelope of a finite family of supporting hyperplanes to subgraphs of these functions. Details of software implementation for modern computational systems are discussed. Results of simulations in model examples are given.
REFERENCES
1. Azimov A.Ya. On one way of pursuit in linear differential games with integral constraints, Izvestiya Akademii Nauk SSSR. Tekhnicheskaya Kibernetika, 1974, no. 2, pp. 31-35 (in Russian).
2. Isaacs R. Differential games, New York: John Wiley and Sons, 1965. Translated under the title Differentsial'nye igry, Moscow: Mir, 1967, 479 p.
3. Al'brekht E.G. Constructing the approximate solutions of some quasilinear differential games, Proc. Steklov Inst. Math., 2000, suppl. 1, pp. S24-S34.
4. Balashov M.V. On the P-property of compact convex sets, Mathematical Notes, 2002, vol. 71, issue 3, pp. 295-304. DOI: 10.1023/A:1014864822124
5. Batukhtin V.D. Extremal aiming in a nonlinear convergence game, Soviet Mathematics. Doklady, 1972, vol. 13, pp. 1427-1431.
6. Berdyshev Yu.I. Problem of successive optimization without time decomposition, Cybernetics, 1987, vol. 23, issue 4, pp. 474-479. DOI: 10.1007/BF01078903
7. Berdyshev Yu.I. A problem of the sequential approach to a group of moving points by a third-order non-linear control system, J. Appl. Math. Mech., 2002, vol. 66, issue 5, pp. 709-718.
DOI: 10.1016/S0021-8928(02)90001-8
8. Berdyshev Yu.I., Chentsov A.G. Optimization of a weighted criterion function in one control problem, Cybernetics, 1986, vol. 22, issue 1, pp. 67-74. DOI: 10.1007/BF01078629
9. Botkin N.D. Differential pursuit game with mixed control constraints, Automation and Remote Control, 1992, vol. 53, no. 6, part 1, pp. 793-800.
10. Gomoyunov M.I., Lukoyanov N.Yu. On the stability of a procedure for solving a minimax control problem for a positional functional, Proceedings of the Steklov Institute of Mathematics, 2015, vol. 288, suppl. 1, pp. 54-69. DOI: 10.1134/S0081543815020078
11. Gornov A.Yu. Vychislitel'nye tekhnologii resheniya zadach optimal'nogo upravleniya (Computational technologies of solving optimal control problems), Novosibirsk: Nauka, 2009, 279 p.
12. Gornov A.Yu., Tyatyushkin A.I., Finkelstein E.A. Numerical methods for solving applied optimal control problems, Computational Mathematics and Mathematical Physics, 2013, vol. 53, issue 12, pp. 1825-1838. DOI: 10.1134/S0965542513120063
13. Grigorenko NX. On structure of one class of differential games with common integral constraints, Upravlyaemye Sistemy, 1974, no. 12, pp. 23-31 (in Russian).
14. Grigorenko NX., Kamzolkin D.V., Luk'yanova L.N. A numerical algorithm for solving a nonstationary problem of optimal control, Proceedings of the Steklov Institute of Mathematics, 2011, vol. 275, suppl. 1, pp. 49-56. DOI: 10.1134/S0081543811090045
15. Grigorenko NX., Kiselev Yu.N., Lagunova N.V., Silin D.B., Trin'ko N.G. Solution methods for differential games, Computational Mathematics and Modeling, 1996, vol. 7, issue 1, pp. 101-116.
DOI: 10.1007/BF01128750
16. Dar'in A.N., Kurzhanskii A.B. Method of dynamical programming in problems of control synthesis under polytypic and double contstraints, Problemy upravleniya i prilozheniya (tekhnika, proizvodstvo, ekonomika): trudy mezhdunarodnoi konferentsii (Control problems and applications (engineering, manufacturing, economics): proceedings of international conference), vol. 2, Minsk, 2005, pp. 51-65 (in Russian).
17. Dar'in A.N., Kurzhanskii A.B. Control under indeterminacy and double constraints, Differential Equations, 2003, vol. 39, issue 11, pp. 1554-1567. DOI: 10.1023/B:DIEQ.0000019347.24930.a3
18. Dvurechenskii P.E., Ivanov G.E. Algorithms for computing Minkowski operators and their application in differential games, Computational Mathematics and Mathematical Physics, 2014, vol. 54, issue 2, pp. 235-264. DOI: 10.1134/S0965542514020055
19. Dykhta V.A., Samsonyuk O.N. Optimal'noe impul'snoe upravlenie s prilozheniyami (Optimal impulse control and its applications), Moscow: Fizmatlit, 2003, 256 p.
20. Zhukovskii V.I., Chikrii A.A. Lineino-kvadratichnye differentsial'nye igry (Linear quadratic differential games), Kiev: Naukova dumka, 1994, 241 p.
21. Zavalishchin S.T., Sesekin A.N. Impul'snye protsessy. Modeli i prilozheniya (Impulse procesess. Models and applications), Moscow: Nauka, 1991, 256 p.
22. Ivanov G.E., Kazeev V.A. Minimax algorithm for constructing an optimal control strategy in differential games with a Lipschitz payoff, Computational Mathematics and Mathematical Physics, 2011, vol. 51, issue 4, pp. 550-574. DOI: 10.1134/S0965542511040075
23. Ivanov G.E., Polovinkin E.S. On strongly convex linear differential games, Differentsial'nye uravneniya, 1995, vol. 31, no. 10, pp. 1641-1648 (in Russian).
24. Ignatenko A.P. On one approach problem with integral-geometry constraints, Teoriya optimal'nykh reshenii, 2007, no. 6, pp. 74-79 (in Russian).
25. Ioffe A.D., Tikhomirov V.M. Teoriya ekstremal'nykh zadach (Theory of extremal problems), Moscow: Nauka, 1974, 479 p.
26. Isakova E. A., Logunova G.V., Patsko V.S. Computation of stable bridges for linear differential games with fixed time of termination, Algoritmy i programmy resheniya lineinykh differentsial'nykh igr, Sverdlovsk: Ural Scientific Center, 1984, pp. 127-158 (in Russian).
27. Kleimenov A.F. Neantagonisticheskie pozitsionnye differentsial'nye igry (Nonantagonistic positional differential games), Yekaterinburg: Nauka, 1993, 185 p.
28. Kovrizhnykh A.Yu. On the problem of conflict control with a quasipositional functional, Proceedings of the Steklov Institute of Mathematics, 2000, suppl. 2, pp. S79-S93.
29. Cormen T.H., Leiserson C.E., Rivest R.L., Stein C. Introduction to Algorithms, MIT press, 2001, 1202 p. Translated under the title Algoritmy: postroenie i analiz, Moscow: Vil'yams, 2005, 1296 p.
30. Krasovskii A.A., Krasovskii A.N. Nonlinear positional differential game in the class of mixed strategies, Proceedings of the Steklov Institute of Mathematics, 2012, vol. 277, issue 1, pp. 137-143.
DOI: 10.1134/S0081543812040098
31. Krasovskii A.N. On minimax position control, Journal of Applied Mathematics and Mechanics, 1980, vol. 44, issue 4, pp. 425-430. DOI: 10.1016/0021-8928(80)90028-3
32. Krasovskii A.N. Construction of mixed strategies on the basis of stochastic programs, Journal of Applied Mathematics and Mechanics, 1987, vol. 51, issue 2, pp. 144-149. DOI: 10.1016/0021-8928(87)90055-4
33. Krasovskii A.N. Sintez smeshannykh strategii upravleniya (Synthesis of mixed control strategies), Sverdlovsk: Ural State University, 1988, 151 p.
34. Krasovskii A.N., Reshetova T.N. Upravlenie pri defitsite informatsii: Uchebnoe posobie (Control under lack of information: textbook), Sverdlovsk: Ural State University, 1990, 104 p.
35. Krasovskii N.N. Igrovye zadachi o vstreche dvizhenii (Game-theoretical problems of meeting of motions), Moscow: Nauka, 1970, 420 p.
36. Krasovskii N.N. On the problem of damping of a linear system under minimum control intensity, Journal of Applied Mathematics and Mechanics, 1965, vol. 29, issue 2, pp. 245-253.
DOI: 10.1016/0021-8928(65)90028-6
37. Krasovskii N.N. Upravlenie dinamicheskoi sistemoi (Control of a dynamic system), Moscow: Nauka, 1985, 516 p.
38. Krasovskii N.N., Lukoyanov N.Yu. Problem of conflict control with hereditary information, Journal of Applied Mathematics and Mechanics, 1996, vol. 60, no. 6, pp. 869-882.
DOI: 10.1016/S0021-8928(96)00109-8
39. Krasovskii N.N., Reshetova T.N. On the program synthesis of a guaranteed control, Problems of Control and Information Theory, 1988, vol. 17, no. 6, pp. 1-11.
40. Krasovskii N.N., Subbotin A.I. Pozitsionnye differentsial'nye igry (Positional differential games), Moscow: Nauka, 1974, 456 p.
41. Krasovskii N.N., Tret'yakov V.E. To a pursuit problem under constraints on impulses of control forces, Differentsial'nye Uravneniya, 1966, vol. 2, no. 5, pp. 587-599 (in Russian).
42. Krasovskii A.N., Krasovskii N.N., Tret'yakov V.E. Stochastic programmed design for a deterministic positional differential game, Journal of Applied Mathematics and Mechanics, 1981, vol. 45, issue 4, pp. 425-430. DOI: 10.1016/0021-8928(81)90081-2
43. Kryazhimskii A.V. On the theory of positional differential games of approach-evasion, Doklady Akad. Nauk SSSR, 1978, vol. 239, no. 4, pp. 779-782 (in Russian).
44. Kurzhanskii A.B. Upravlenie i nablyudenie v usloviyakh neopredelennosti (Control and observation under conditions of uncertainty), Moscow: Nauka, 1977, 392 p.
45. Ledyaev Yu.S. Regular differential games with mixed constraints on the controls, Proceedings of the Steklov Institute of Mathematics, 1986, vol. 167, pp. 233-242.
46. Lokshin M.D. Differential games with integral restrictions on the controlling actions, Differential Equations, 1992, vol. 28, no. 11, pp. 1602-1610.
47. Lukoyanov N.Yu. The problem of computing the value of a differential game for a positional functional, Journal of Applied Mathematics and Mechanics, 1998, vol. 62, issue 2, pp. 177-186.
DOI: 10.1016/S0021-8928(98)00023-9
48. Lukoyanov N.Yu. The problem of conflicting control with mixed constraints, Journal of Applied Mathematics and Mechanics, 1995, vol. 59, no. 6, pp. 911-919. DOI: 10.1016/0021-8928(95)00124-7
49. Lukoyanov N.Yu. A conflict control problem under mixed restrictions on control actions, Differential Equations, 1995, vol. 31, no. 9, pp. 1427-1436.
50. Lukoyanov N.Yu. How to compute the value of a positional differential game, Differential Equations, 2001, vol. 37, issue 1, pp. 17-26. DOI: 10.1023/A:1019260029465
51. Lukoyanov N.Yu. A differential game with nonterminal cost, Journal of Computer and Systems Sciences International, 1997, vol. 36, no. 1, pp. 77-82.
52. Maksimov V.I. On the existence of a saddle point in a difference-differential encounter-evasion game, Journal of Applied Mathematics and Mechanics, 1978, vol. 42, no. 1, pp. 13-20.
DOI: 10.1016/0021-8928(78)90083-7
53. Mamadaliev N. On a pursuit problem with integral constraints on the players' controls, Siberian Mathematical Journal, 2015, vol. 56, issue 1, pp. 107-124. DOI: 10.1134/S0037446615010115
54. Mezentsev A.V. Differentsial'nye igry s integral'nymi ogranicheniyami na upravleniya (Differential games with integral control constraints), Moscow: Moscow State University, 1988, 135 p.
55. Mikhalev D.K., Ushakov V.N. Two algorithms for approximate construction of the set of positional absorption in the game problem of pursuit, Automation and Remote Control, 2007, vol. 68, issue 11, pp. 2056-2070. DOI: 10.1134/S0005117907110136
56. Mishchenko E.F. Pursuit and evasion problems in differential games theory, Izvestiya Akademii Nauk
SSSR. Tekhnicheskaya Kibernetika, 1971, no. 5, pp. 3-9 (in Russian).
57. Nikol'skii M.S. Linear differential pursuit games with integral constraints, Differential Equations, 1992, vol. 28, no. 2, pp. 190-193.
58. Nikol'skii M.S. Pervyi pryamoi metod L.S. Pontryagina v differentsial'nykh igrakh (The first direct method of L.S. Pontryagin in differential games), Moscow: Moscow State University, 1984, 65 p.
59. Nikol'skii M.S. A direct method in linear differential games with integral constraints, Upravlyaemye Sistemy, 1969, no. 2, pp. 49-58 (in Russian).
60. Nikol'skii M.S. A direct method in linear differential games with general integral constraints, Differentsial'nye Uravneniya, 1972, vol. 8, no. 6, pp. 964-971 (in Russian).
61. Osipov Yu.S. Differential games of systems with aftereffect, Doklady Akad. Nauk SSSR, 1971, vol. 196, no. 4, pp. 779-782 (in Russian).
62. Osipov Yu.S., Pimenov V.G. On positional control under aftereffect in the controlling forces, Journal of Applied Mathematics and Mechanics, 1981, vol. 45, issue 2, pp. 159-163.
DOI: 10.1016/0021-8928(81)90028-9
63. Patsko V.S., Turova V.L. Chislennoe reshenie differentsial 'nykh igr na ploskosti (Numerical solving of differential games on a plain), Yekaterinburg: Ural Branch of the Russian Academy of Sciences, 1995, 77 p.
64. Petrov N.N. About existence of the value of a pursuit game, Doklady Akad. Nauk SSSR, 1970, vol. 190, no. 6, pp. 621-624 (in Russian).
65. Petrov N.N. On a group pursuit problem, Automation and Remote Control, 1996, vol. 57, no. 6, pp. 808-813.
66. Petrosyan L.A. Differentsial'nye igry presledovaniya (Pursuit differential games), Leningrad: Leningrad State University, 1977, 222 p.
67. Polovinkin E.S., Ivanov G.E., Balashov M.V., Konstantinov R.V., Khorev A.V. An algorithm for the numerical solution of linear differential games, Sbornik: Mathematics, 2001, vol. 192, no. 10, pp. 1515-1542. DOI: 10.1070/SM2001vl92nl0ABEH000604
68. Pontryagin L.S. About linear differential games. I, Doklady Akad. Nauk SSSR, 1967, vol. 174, no. 6, pp. 1278-1280 (in Russian).
69. Pontryagin L.S. About linear differential games. II, Doklady Akad. Nauk SSSR, 1967, vol. 175, no. 4, pp. 764-766 (in Russian).
70. Pshenichnyi B.N. Structure of differential games, Doklady Akad. Nauk SSSR, 1969, vol. 184, no. 2, pp. 285-187 (in Russian).
71. Pshenichnyi B.N., Onopchuk Yu.N. Linear differential games with integral constraints, Izvestiya Akademii Nauk SSSR. Tekhnicheskaya Kibernetika, 1968, no. 1, pp. 13-22 (in Russian).
72. Pshenichnyi B.N., Sagaidak M.I. Differential games of prescribed duration, Cybernetics, 1970, vol. 6, issue 2, pp. 72-83. DOI: 10.1007/BF01070503
73. Rokafellar R. Convex analysis, Princeton: Princeton University Press, 1970. Translated under the title Vypuklyi analiz, Moscow: Mir, 1973, 469 p.
74. Samatov B.T. The pursuit-evasion problem under integral-geometric constraints on pursuer controls, Automation and Remote Control, 2013, vol. 74, issue 7, pp. 1072-1081. DOI: 10.1134/S0005117913070023
75. Solomatin A.M., Ushakov V.N. Construction of a positional absorption set in a linear game with integral constraints, Upravlenie i Otsenivanie v Dinamicheskikh Sistemakh, 1982, pp. 74-89 (in Russian).
76. Straustrup B. The C++ programming language: special edition, Addison Wesley, 2000,1029 p. Translated under the title Yazyk programmirovaniya C++. Spetsial'noe izdanie, Moscow: Binom, 2011, 1136 p.
77. Subbotin A.I., Ushakov V.N. Alternative for an encounter-evasion differential game with integral constraints on the players'controls, Journal of Applied Mathematics and Mechanics, 1975, vol. 39, issue 3, pp. 367-375. DOI: 10.1016/0021-8928(75)90001-5
78. Subbotin A.I., Chentsov A.G. Optimizatsiya garantii v zadachakh upravleniya (Optimization of guarantee in control problems), Moscow: Nauka, 1981, 288 p.
79. Subbotin A.I. Minimaksnye neravenstva i uravneniya Gamil'tona Yakobi (Minimax inequalities and Hamilton-Jacobi equations), Moscow: Nauka, 1991, 216 p.
80. Subbotina N.N., Subbotin A.I. Alternative for the encounter-evasion differential game with constraints on the momenta of the players' controls, Journal of Applied Mathematics and Mechanics, 1975, vol. 39, issue 3, pp. 376-385. DOI: 10.1016/0021-8928(75)90002-7
81. Subbotina N.N. The method of characteristics for Hamilton-Jacobi equations and applications to dynamical optimization, Journal of Mathematical Sciences, 2004, vol. 135, issue 3, pp. 2955-3091. DOI: 10.1007/sl0958-006-0146-2
82. Taras'ev A.M. Approximation schemes for constructing minimax solutions of Hamilton-Jacobi equations, Journal of Applied Mathematics and Mechanics, 1994, vol. 58, issue 2, pp. 207-221.
DOI: 10.1016/0021-8928(94)90049-3
83. Taras'ev A.M., Uspenskii A. A., Ushakov V.N. Approximation schemes and finite-difference operators for constructing generalized solutions of Hamilton-Jacobi equations, Izv. Ross. Akad. Nauk, Tekh. Kibern., 1994, no. 3, pp. 173-185 (in Russian).
84. Taras'ev A.M., Uspenskii A.A., Ushakov V.N. Finite-difference method of constructing functions of optimal guaranteed result, Gagarinskie nauchnye chteniya po kosmonavtike % aviatsii. 1991 (Gagarin Readings on space and aviation), Moscow: Nauka, 1992, pp. 166-172.
85. Ukhobotov V.I. On a class of differential games with an integral constraint, Journal of Applied Mathematics and Mechanics, 1977, vol. 41, issue 5, pp. 838-844. DOI: 10.1016/0021-8928(77)90166-6
86. Ukhobotov V.I. A type of linear game with mixed constraints on the controls, Journal of Applied Mathematics and Mechanics, 1987, vol. 51, issue 2, pp. 139-144. DOI: 10.1016/0021-8928(87)90054-2
87. Ukhobotov V.I., Gushchin D.V. About one class of similar differential game with mixed limitations, Vestn. Udmurt. Univ. Mat. Mekh. Komp'yut. Nauki, 2010, issue 3, pp. 81-86 (in Russian).
DOI: 10.20537/vml00310
88. Ushakov V.N. Extremal strategies in differential games with integral constraints, Journal of Applied Mathematics and Mechanics, 1972, vol. 36, issue 1, pp. 12-19. DOI: 10.1016/0021-8928(72)90076-7
89. Ushakov V.N., Khripunov A.P. Approximate construction of solutions in game-theoretic control problems, Journal of Applied Mathematics and Mechanics, 1997, vol. 61, issue 3, pp. 401-408.
DOI: 10.1016/S0021-8928(97)00051-8
90. Fan Ky. Minimax theorems, Proceedings of the National Academy of Sciences of the United States of America, 1953, vol. 39, no. 1, pp. 42-47.
91. Chentsov A.G. On a game problem of converging at a given instant of time, Mathematics of the USSR-Sbornik, 1976, vol. 28, no. 3, pp. 353-376. DOI: 10.1070/SM1976v028n03ABEH001657
92. Chernous'ko FX. Otsenivanie fazovogo sostoyaniya dinamicheskikh sistem. Metod ellipsoidov (Phase state estimation in dynamical systems. Method of ellipsoids), Moscow: Nauka, 1988, 319 p.
93. Chernous'ko FX., Melikyan A.A. Igrovye zadachi upravleniya i poiska (Game problems of control and search), Moscow: Nauka, 1978, 270 p.
94. Chikrii A.A. Conflict controlled processes, Springer Netherlands, 1997, XX+404 p. DOI: 10.1007/978-94-017-1135-7
95. Chikrii A.A, Belousov A. A. On linear differential games with convex integral constraints, Tr. Inst. Mat. Mekh. Ural. Otd. Ross. Akad. Nauk, 2013, vol. 19, no. 4, pp. 308-319 (in Russian).
96. Chistyakov S.V. On solving pursuit game problems, Journal of Applied Mathematics and Mechanics, 1977, vol. 41, issue 5, pp. 845-852. DOI: 10.1016/0021-8928(77)90167-8
97. Alton K., Mitchell I.M. Fast marching methods for stationary Hamilton-Jacobi equations with axis-aligned anisotropy, SI AM J. Numer. Anal., 2008, vol. 47, no. 1, pp. 363-385.
98. Bardi M., Falcone M., Soravia P. Numerical methods for pursuit-evasion games via viscosity solutions, Stochastic and differential games, Annals of the International Society of Dynamic Games, vol. 4, Boston: Birkhauser, 1999, pp. 105-175. DOI: 10.1007/978-1-4612-1592-9^3
99. Barron E.N. Differential games with maximum cost, Nonlinear Analysis: Theory, Methods and Applications, 1990, vol. 14, issue 11, pp. 971-989. DOI: 10.1016/0362-546X(90)90113-U
100. Basar T., Bernhard P. H-infinity optimal control and related minimax design problems: a dynamic game approach, Boston: Birkhauser, 1995, 428 p.
101. Berkovitz L.D. Characterization of the values of differential games, Applied Mathematics and Optimization, 1988, vol. 17, issue 1, pp. 177-183. DOI: 10.1007/BF01448365
102. Blaquiere A., Gerard F., Leitmann G. Quantitative and qualitative games, New York etc.: Academic Press, 1969. 172 p.
103. Botkin N.D., Hoffmann K.-H., Turova VX. Stable numerical schemes for solving Hamilton-Jacobi-Bellman-Isaacs equations, SIAM J. Sci. Comput., 2011, vol. 33, issue 2, pp. 992-1007.
DOI: 10.1137/100801068
104. Cardaliaguet P., Quincampoix M., Saint-Pierre P. Numerical methods for optimal control and differential games, Ceremade CNRS URA 749, University of Paris Dauphine, 1995.
105. Cardaliaguet P., Quincampoix M., Saint-Pierre P. Set-valued numerical analysis for optimal control and differential games, Stochastic and differential games, Annals of the International Society of Dynamic Games, vol. 4, Boston: Birkhauser, 1999, pp. 177-247. DOI: 10.1007/978-1-4612-1592-9^4
106. Chernousko FX., Ananievski I.M., Reshmin S.A. Control of nonlinear dynamical systems. Methods and applications, Berlin-Heidelberg: Springer, 2008, 396 p. DOI: 10.1007/978-3-540-70784-4
107. Elliot R.J., Kalton N.J. The existence of value for differential games, Memoirs of the American Mathematical Society, 1972, no. 126, 67 p. DOI: 10.1090/memo/0126
108. Evans L.C., Ishii H. Differential games and nonlinear first order PDE on bounded domains, Manuscripta Mathematica, 1984, vol. 49, issue 2, pp. 109-139. DOI: 10.1007/BF01168747
109. Falcone M. Recent results in the approximation of nonlinear optimal control problems, Large-scale
scientific computing, Lecture Notes in Computer Science, vol. 8353, Berlin-Heidelberg: Springer, 2014, pp. 15-32. DOI: 10.1007/978-3-662-43880-0_2
110. Fleming W.H. A note on differential games of prescribed duration, Contributions to the Theory of Games, Annals of Mathematical Studies, 1957, vol. 3, pp. 407-416.
111. Fleming W.H. The convergence problem for differential games, Journal of Mathematical Analysis and Applications, 1961, vol. 3, issue 1, pp. 102-116. DOI: 10.1016/0022-247X(61)90009-9
112. Fleming W.H. The convergence problem for differential games, Advances in Game Theory. (AM-52) (Annals of Mathematics Studies), Princeton: Princeton University Press, 1964, pp. 195-210.
113. Friedman A. Differential games, New York: Wiley Interscience, 1971, 350 p.
114. Ho Y.C., Bryson A., Baron S. Differential games and optimal pursuit-evasion strategies, IEEE Trans. Autom. Contr., 1965, vol. 10, issue 4, pp. 385-389. DOI: 10.1109/TAC. 1965.1098197
115. Ibragimov G.I., Azamov A.A., Khakestari M. Solution of a linear pursuit-evasion game with integral constraints, ANZIAM Journal, 2010, vol. 52, pp. E59-E75. DOI: 10.21914/anziamj.v52i0.3605
116. Krasovskii A.N., Choi Y.S. Stochastic control with the leaders-stabilizers, Yekaterinburg: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, 2001, 51 p.
117. Krasovskii A.N., Krasovskii N.N. Control under lack of information, Berlin etc.: Birkhauser, 1995. 322 p.
118. Kumkov S.S., Patsko V.S. Construction of singular surfaces in linear differential games, Advances in dynamic games and applications, Annals of the International Society of Dynamic Games, vol. 6, Basel: Birkhauser, 2001. pp. 185-202. DOI: 10.1007/978-1-4612-0155-7
119. Kurzhanski A.B., Valyi I. Ellipsoidal calculus for estimation and control, Boston: Birkhauser, 1996, XV+321 p.
120. Kurzhanski A.B., Varaiya P. Dynamics and control of trajectory tubes, Springer, 2014, 445 p.
121. Lewin J. Differential games: Theory and methods for solving game problems with singular surfaces, New York: Springer-Verlag, 1994, 242 p.
122. Lions P.-L., Souganidis P.E. Differential games, optimal control and directional derivatives of viscosity solutions of Bellman's and Isaacs' equations, SIAM Journal on Control and Optimization, 1985, vol. 23, issue 4, pp. 566-583. DOI: 10.1137/0323036
123. Melikyan A. A. Generalaized characteristics of first order PDEs: Applications in optimal control and differential games, Boston: Birkhauser, 1998, 310 p.
124. Miller B., Rubinovich E.Y. Impulsive control in continuous and discrete-continuous systems, New York: Kluwer Academic / Plenum Publishers, 2003, 447 p.
125. Motta M., Rampazzo F. Space-time trajectories of nonlinear systems driven by ordinary and impulsive controls, Differential and Integral Equations, 1995, vol. 8, no. 2, pp. 269-288.
126. Roxin E. Axiomatic approach in differential games, Journal of Optimization Theory and Applications, 1969, vol. 3, issue 3, pp. 153-163. DOI: 10.1007/BF00929440
127. Sethian J. A. Level set methods and fast marching methods: Evolving interfaces in computational geometry, fluid mechanics, computer vision, and materials science, Cambridge University Press, 1999, 404 p.
128. Subbotin A.I. Generalized solutions of first-order PDEs: The dynamical optimization perspective, Boston etc.: Birkhauser, 1995, 312 p.
129. Varaiya P., Lin J. Existence of saddle points in differential games, SIAM Journal on Control, 1969, vol. 7, issue 1, pp. 141-157. DOI: 10.1137/0307011
130. Williams J.D. The compleat strategyst, New York: McGraw-Hill, 1966, 268 p.
131. Gomoyunov M.I., Kornev D.V. On calculating the value of a differential game in the class of counterstra-tegies, Tr. Inst. Mat. Mekh. Ural. Otd. Ross. Akad. Nauk, 2013, vol. 19, no. I, pp 59-68 (in Russian).
132. Gomoyunov M.I., Kornev D.V., Lukoyanov N.Yu. To the problem of positional guarantee optimization under conditions of delayed control, Trudy XII Vserossiiskogo soveshchaniya po problemam upravleniya (VSPU 2014) (Proceedings of XII All-Russian Conference on Control Problems (RCCP-2014)), Moscow: Institute of Control Sciences of RAS, 2014, pp. 1268-1279 (in Russian).
133. Gomoyunov M.I., Kornev D.V., Lukoyanov N.Yu. On the numerical solution of a minimax control problem with a positional functional, Proceedings of the Steklov Institute of Mathematics, 2015, vol. 291, suppl. I, pp. 77-95. DOI: 10.1134/S0081543815090060
134. Kornev D.V. On the question of program realization of a solution of a differential game with the nonterminal payoff, Sovremennye problemy matematiki: Trudy 42-i Regional'noi molodezhnoi konferentsii (Contemporary Problems of Mathematics: Proceedings of the 42th Regional Youth Conference), Yekaterinburg: Ural Branch of the Russian Academy of Sciences, 2011, pp. 34-37 (in Russian).
135. Kornev D.V. On numerical solving differential games on minimax of a positional functional in classes of mixed strategies, Systems Dynamics and Control Processes (SDCP'2014), Proceedings of International Conference dedicated to the 90th anniversary of Academician N.N. Krasovskii, Russia, Yekaterinburg, Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, Ural Federal University, September 15-20, 2014, pp. 111-113 (in Russian).
136. Kornev D.V. On numerical solving differential games with nonterminal payoff, Sovremennye problemy matematiki: Tezisy Mezhdunarodnoi (43-i Vserossiiskoi) molodezhnoi shkoly-konferentsii (Contemporary Problems of Mathematics: Abstracts of the 43th All-Russian Youth Conference), Yekaterinburg: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, 2012, pp. 136-138 (in Russian).
137. Kornev D.V. On numerical solution of positional differential games with nonterminal payoff, Automation and Remote Control, 2012, vol. 73, issue 11, pp. 1808-1821. DOI: 10.1134/S0005117912110045
138. Kornev D.V. On a numerical method of solving conflict control problems, Izv. Inst. Mat. Inform. Udmurt. Cos. Univ., 2012, no. 1 (39), pp. 67-68 (in Russian).
139. Kornev D.V. About on numerical method for solving positional differential games in mixed strategies, Vestn. Tambov. Univ. Ser. Estestv. Tekh. Nauki, 2013, vol. 18, no. 5-2, pp. 2556-2558 (in Russian).
140. Kornev D.V. About guarantee optimization under integral constraints on control actions and nonterminal quality index, Trudy XII Vserossiiskogo soveshchaniya po problemam upravleniya (VSPU 2014) (Proceedings of XII All-Russian Conference on Control Problems (RCCP-2014)), Moscow: Institute of Control Sciences of RAS, 2014, pp. 2059-2070 (in Russian).
141. Kornev D.V. Programmnyi kompleks dlya resheniya pozitsionnykh differentsial'nykh igr s neterminal'noi platoi (The program complex for solving positional differential games with nonterminal payoff). Patent RF, no. 2015614531, 2015.
142. Kornev D.V., Lukoyanov N.Yu. To the problem of dynamical guarantee optimization under geometrical and integral constraints on control capabilities, Absracts of II International Seminar "Control Theory and Theory of Generalized Solutions of Hamilton Jacobi Equations" (CGS'2015) dedicated to the 70th anniversary of Academician A.I. Subbotin, Russia, Yekaterinburg, Institute of Mathematics and Mechanics. Ural Branch of the Russian Academy of Sciences, Ural Federal University, April 1-3, 2015, pp. 94-95 (in Russian).
143. Kornev D.V., Lukoyanov N.Yu. On a minimax control problem for a positional functional under geometric and integral constraints on control actions, Proceedings of the Steklov Institute of Mathematics, 2015, vol. 293, issue 2, pp. 85-100. DOI: 10.1134/S0081543816050096
144. Kornev D.V., Lukoyanov N.Yu. On numerical solution of differential games with nonterminal payoff in classes of mixed strategies, Vestn. Udmurt. Univ. Mat. Mekh. Komp'yut. Nauki, 2013, issue 3, pp. 34-48 (in Russian). DOI: 10.20537/vml30304
145. Kornev D.V., Lukoyanov N.Yu. Numerical methods of solving linear positional differential games with nonterminal payoff, Algoritmicheskii analiz neustoichivykh zadach: Tezisy dokladov Mezhdunarodnoi konferentsii, posvyashchennoi pamyati V.K. Ivanova (Algorithmic analysis of problems: abstacts of international conference dedicated to the memory of V.K. Ivanov), Yekaterinburg: Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, 2011, p. 248.
146. Gomoyunov M.I., Kornev D.V., Lukoyanov N.Yu. Game theory applications to guarantee optimization in dynamical systems with control delays, International Game Theory Review, 2014, vol. 16, issue 02, 1440010, 19 p. DOI: 10.1142/S0219198914400106
147. Kornev D., Lukoyanov N. On numerical solution of differential games in classes of mixed strategies, IFAC Proceedings Volumes, 2014, vol. 47, issue 3, pp. 1550-1555. DOI: 10.3182/20140824-6-ZA-1003.02208
148. Kornev D., Lukoyanov N. On numerical solving of differential games with nonterminal payoff, IFAC Proceedings Volumes, 2012, vol. 45, issue 25, pp. 71-76. DOI: 10.3182/20120913-4-IT-4027.00026
Received 01.10.2016
Kornev Dmitrii VasiPevich, Candidate of Physics and Mathematics, Researcher, Department of Dynamic Systems, N.N. Krasovskii Institute of Mathematics and Mechanics, Ural Branch of the Russian Academy of Sciences, ul. S. Kovalevskoi, 16, Yekaterinburg, 620219, Russia. E-mail: d.v.kornev@gmail.com