Научная статья на тему 'Игровая задача преследования уклонения для трех участников'

Игровая задача преследования уклонения для трех участников Текст научной статьи по специальности «Математика»

CC BY
375
92
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Ученые записки ЦАГИ
ВАК
Область наук

Аннотация научной статьи по математике, автор научной работы — Мельц И. О., Сурженко А. С.

Рассмотрены постановка и метод численного решения игровой задачи преследования уклонения для двух преследователей и одного уклоняющегося. В задаче требуется определить оптимальные траекторное управление и моменты однократных выстрелов преследователей по уклоняющемуся. Считается, что функции, определяющие эффективность выстрелов, зависят только от дальности и имеют один максимум. Задача решается с использованием динамического программирования. Приводятся примеры решения задачи для объектов, совершающих простое движение в плоскости с постоянными скоростями.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Игровая задача преследования уклонения для трех участников»

Том XXXVI

УЧЕНЫЕ ЗАПИСКИ ЦАГИ 2 00 5

№ 3 — 4

УДК 518.9

ИГРОВАЯ ЗАДАЧА ПРЕСЛЕДОВАНИЯ — УКЛОНЕНИЯ ДЛЯ ТРЕХ УЧАСТНИКОВ

И. О. МЕЛЬЦ, А. С. СУРЖЕНКО

Рассмотрены постановка и метод численного решения игровой задачи преследования — уклонения для двух преследователей и одного уклоняющегося. В задаче требуется определить оптимальные траекторное управление и моменты однократных выстрелов преследователей по уклоняющемуся. Считается, что функции, определяющие эффективность выстрелов, зависят только от дальности и имеют один максимум. Задача решается с использованием динамического программирования. Приводятся примеры решения задачи для объектов, совершающих простое движение в плоскости с постоянными скоростями.

Различные варианты игровых задач преследования — уклонения неоднократно рассматривались в литературе (см., например, [1] — [4]). Для одной из разновидностей этих задач плата представляет собой максимальное на заданном интервале времени значение некоторой унимодальной функции фазовых координат, которое преследующий объект Р максимизирует, а уклоняющийся объект Е минимизирует путем оптимального синтеза управления [4]. Достижение на заданном интервале максимального значения функции, задающей плату, определяет оптимальные моменты выстрелов Р по Е.

Здесь рассматривается задача именно такого типа, но для одного уклоняющегося Е и двух преследующих Р1 и Р2 объектов — задача 2 х 1. Причем каждый из преследователей может осуществить один выстрел по уклоняющемуся. Для решения задачи используется метод динамического программирования [5]. Вводится не одна, а три функции Беллмана: S — для игры 2 х 1;

$1 — для игры, в которой Е уклоняется только от р 5*2 — для аналогичной игры Р2 и Е. Знания функций 5, $1, 52 достаточно для расчета оптимальных траекторий и определения моментов выстрелов со стороны Р1 и Р2 на Е. Эта вычислительная схема допускает естественное обобщение для задачи с большим числом участников.

В качестве примера, который иллюстрирует работоспособность рассмотренной вычислительной схемы, приводятся результаты решения задачи 2 х 1 для объектов, совершающих простое движение в плоскости. Простым, согласно [1], принято называть движение с постоянной скоростью и безынерционным управлением направлением движения. Интересно, что при некоторых начальных условиях выявляется эффект, присущий групповой игре. Один из преследователей, достигая на оптимальной траектории в некоторый момент времени максимального значения возможной эффективности своего выстрела по Е, не осуществляет его. Продолжая преследование и осуществляя свой выстрел позже с меньшей эффективностью, чем максимально возможная, он обеспечивает более благоприятные условия для выстрела другого преследователя. За счет этого суммарная эффективность выстрелов обоих преследователей становится выше.

1. Постановка задачи. Рассмотрим дифференциальную игру преследования — уклонения. Объекты Р1 и Р2 преследуют объект Е. Уравнения движения всех трех объектов имеют вид

х = /1(х,и1) + /2(х,и2) + /3(х,у). (1.1)

Здесь х — вектор фазовых координат, их, и2, V— векторы управления 1\. Р2, Е. На уп-

равления могут быть наложены ограничения, которые нужно учитывать при решении задачи.

В ходе игры объекты 1\ и Р2 осуществляют однократные выстрелы по Е. Обозначим через Wi эффективность выстрела I] по Е. а через тг — момент его осуществления. Функция

Щ=Щ(х), /=1,2 (1.2)

есть условная вероятность поражения.

Введем на принятом для расчетов интервале времени [ О, Т7] сечения

/ =!к {^к = 0. N. /0 = 0, /у = /|. которые ограничивают выбор т1 и х2. При решении задачи для

любых начальных условий продолжительность игры может быть ограничена некоторым значением АТ. При этом цена игры для начальных условий будет зависеть от этого ограничения: £ = £(Л Т).

Для каждого сечения tk введем узлы х. Максимально возможная продолжительность игры для этих сечений равна

Дг* = Т-Ь= (К-к)А(. (1.3)

Окончанию игры соответствует момент времени ^ = тах(х15 х2), определяющий ее фактическую продолжительность, а в момент времени t = тт (т,. т2) происходит переход к игре 1x1, т. е. к игре один против одного. При т1 = т2 переход к игре 1 х 1 не происходит.

Зададим плату игры функцией

Е = Е(Щ,ГГ2), (1.4)

монотонно возрастающей по обоим аргументам. Целью управления 1\ и Р2 является

максимизация платы путем синтеза и1 = и1 (л\ А//;) и выбора хг = хг (х, А//;). /' = 1, 2.

Известно [1], что если уравнения движения объектов имеют вид (1.1), т. е. управления сторон входят порознь в аддитивные слагаемые правых частей уравнений движения, то в дифференциальной игре с полной информацией и платой вида (1.4) существует седловая точка по управлению, которое задано синтезом. Будем считать, что в рассматриваемой задаче при достаточно малых значениях А/ такая точка существует, т. е., что то же самое, существует седловая точка для локальных минимаксных задач, которые рассматриваются ниже в п. 2.

Существование седловой точки при численном решении этих локальных минимаксных задач

означает совпадение, по крайней мере, с определенной точностью, нижней и верхней цены игры.

Поставленной задаче для начального условия х при заданном интервале (1.3) соответствует цена игры или функция Беллмана:

5”(х, А^) = тттах^. (1-5)

V Щ,112

т1’т2

Рассмотрим решение задачи методом динамического программирования [5]. Для этого нужно задать узлы сетки в пространстве фазовых координат х. Решение будет состоять из двух этапов. На первом этапе вычисляются функции 5”, Л',. Л2. на втором — вычисляются траектории и определяются т1 и т2.

Для рассматриваемой схемы динамического программирования для любого значения х продолжительность игры, начинающейся в момент времени была обозначена как А!к (1.3).

2. Схема динамического программирования для вычисления функции Беллмана.

Пусть в сечении (к для интервала игры известны функции Беллмана X, Функция

X (х, Дгк) определяет цену игры (1.5) для поставленной игры 2 х1. Функции (х, Дtk) и «2 (х, Дtk) определяют цену игр преследования — уклонения 1 х1 [4]. Моменты выстрелов Т1 и Т2 удовлетворяют условию:

{к - т 1 - *Ы , {к - т 2 - *Ы •

В сечении = Т имеем краевые условия:

«(х,0) = р (Г, (х) ,Щ (х)), (21)

X, (х,0) = Я\ (х), «2 (х,0) = (х)• •

Рассмотрим соответствующую методу динамического программирования вычислительную схему для расчета функций X, Х1, Х2 в сечении ^-1 для интервала игры Д^-1, считая эти функции известными в сечении ^к •

Для обоснования предлагаемой схемы отметим свойство функции X и сформулируем два утверждения, которые выделяют возможные сочетания Т1 и Т2 • Функция Беллмана X в рассматриваемой задаче не может убывать при увеличении интервала игры

X(х, Д%-1 )> X(х, Дгк ), (2-2)

и максимальная продолжительность игры ограничена условием (2.2). Это связано с тем, что параметрами т1, т2 внутри интервалов Д^-1 и Дtk (Дtk-1 > Д^к) распоряжаются Р1 и Р2. Увеличение введенного интервала игры не препятствует преследователям ограничить

фактическую продолжительность игры путем выбора Т и Т2, если им это увеличение не

выгодно. Таким свойством обладают и функции Х!, X2 [4]

Сформулируем теперь утверждения.

1. Если в точке х выполняется условие

X(х, Дtk-l)>X(х, ^к), (23)

то

тахт, (х, Дtk-l) = tN = Т• (24)

2. Если в точке х выполняется условие

X(X, Дк-1 ) = X(х Дtк )> X(х ДЧ+1), (2^5)

т, (x, Дк-1) = т, (х Д^ Д, (26)

где индекс г принимает значение 1 или 2, либо оба значения.

Первое утверждение следует из того, что увеличение интервала игры не увеличило бы цены игры, если бы весь интервал не был использован для преследования. Второе утверждение означает, что если при увеличении интервала игры ее цена не возрастает, то и не возрастает фактическая продолжительность игры.

Для вычисления функций X, Sl, X2 рассмотрим на основании (2.3) — (2.6) возможные

сочетания значений Т1 и Т2, которые используются в процедуре расчетов и наилучшее из

то

которых с позиции преследователей должно быть впоследствии выбрано в качестве оптимального. Каждому из сочетаний соответствует одна из следующих задач.

Задача 0: тах(т|. т2) = /Л-. тт(х1, х2 ) > . В этом случае управление сторон в точке

х, tk_l определяется из решения задачи

тттахХ(х + Ах, Л%). (2-7)

V щ, 112

Здесь и далее Ах = ^Ах^ (х, и^Ах^ (х, и2)Ахз (х, г;)| — приращение х, заданного в

сечении tk_-^, при переходе на шаге А/ в сечение 1к при постоянных щ, и2, V в соответствии с (1.1).

Решение задачи (2.7) определяет для точки х, tk_-^ значение управлений и{ °1. и^2 \ ,

соответствующее значение и цену игры

=Х(0)(х, А%_1)= Х(0)(х + Ах(0), А^). (2.8)

Задача Г. т, = 1Х. т2 = >к_\. В этой задаче определяется

тштахХ^хч-Ах, А^). (2.9)

V 11\

Решение задачи (2.9) дает и^, г/11. Ах^ и цену игры 2x1

Х«=Х«(х,А^_1)= ^(х + Ах^, А^), Г2(х)). (2.10)

Используя решение задачи (2.9), получим также

Х1(х, А%_1) = тах|х1|х + Ах^, А%), ^(х, А%)|. (2.11)

Задача 2: х1 = . т2=tN. Эта задача аналогична предыдущей, и вместо (2.9) имеем

тттахХ^ (х + Ах, А^). (2.12)

V и2

Цена игры для задачи 2x1 определяется как

х(2)=^2)(х,А^_1)= р(щ(х), Х2(х + Ах(2), Аг*)), (2.13)

а цена игры 1x1 равна

Х2(х, А%_1) = тах|х2(х + Ах(1), А^|, Х2(х, А^)|. (2.14)

Задача 3: тах (т,. т2) = /Л-. тт (т,. т2 ) < Iк_]. Эта задача носит условный характер, так как

управления определять не нужно, а цена игры равна

=Х(3)(х, А%_1) = Х(х, Мк). (2.15)

Сопоставление (2.8), (2.10), (2.13) и (2.15) позволяет теперь определить цену игры для

задачи 2 х 1 в точке х, tk_l следующим образом:

Х(х, ДГ*_!) =

тах

Х(1), Х(2),

(2.16)

3. Расчет оптимальных траекторий и определение моментов стрельбы. Для расчета оптимальных траекторий должны быть вычислены значения функций X, Л',. Л2 для всех узлов сетки в пространстве фазовых координат и времени. Используя интерполяцию этих функций и решая заново задачи (2.7), (2.9), (2.12), можно определить для текущей точки х на траектории в момент времени ^ оптимальные управления и интегрировать уравнения движения (1.1). Необходимо также установить правила определения т1 и т2. В текущей точке траектории в момент времени !к возможны следующие варианты:

Т1 = Т2 = Т1 > Т2 =

При выполнении условия

т1=^ьт2>^ь Ч>к’Ч>к-

8{х, Мк) = р(Щ(х),Ж2(х))

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(3.1)

имеем первый вариант — т, = т2 = tk и момент времени 1к соответствует окончанию игры. Если выполняется условие

Х(х, Д^) = ,р(х1(х, Аґк), 1¥2(х)),

(3.2)

то имеем второй вариант — т2 = и момент времени !к является моментом перехода к игре 1x1 для Рх и Л. В дальнейшем для расчета движения этих объектов и определения т1 используется 5^.

При выполнении условия

Х(х, Аґк) = р(і¥1(х), Х2(х, Дг*))

(3.3)

реализуется третий вариант — т1 = !к и момент времени !к является моментом перехода к игре 1x1 для Р2 и Л. В дальнейшем для расчета движения этих объектов и определения т2 используется Л 2.

Если ни одно из условий (3.1) — (3.3) не выполнено, то точке х, (к соответствует четвертый вариант и для определения оптимальных управлений г/1, и2. V используется функция

X.

Момент окончания игры 1x1 определяется условием

Х;(х, Агг) = Щ(х).

4. Задача для объектов при простом движении в плоскости с постоянной скоростью. Взаимное относительное движение Р\, Р2 мЕъ плоскости описывается уравнениями:

Г\ = УЕ СОЭ О ~У^ СОЭ фІ5 г2 =1/ЕСОз(0-а)-1/Г2СО8ф2, х = (Уг віпс^ -УЕ зіп0)Д1 ~(у2 зіпф2 -УЕ зіп(0 -а))/г2 .

(4.1)

Обозначения приведены на рис. 1. Вектор фазовых координат имеет компоненты г^,г2,а, а управлениями являются (р,. ф2.0.

Уравнения (4.1) соответствуют виду (1.1). В качестве функций (1.2) примем

Щ = Щ (г ) = -

1-

(г- г*)

1 = 1, 2,

(4.2)

где 0 < р, < 1, дг > 0, г* > 0.

Функция (1.4), задающая безусловную вероятность поражения Е, имеет вид:

р = 1 -(1 - Щ )(1 - Щ ).

(4.3)

Решение задачи 1 х 1 очевидно и зависит от соотношения V, и УЕ.

1. При V < VE любой из преследователей при любых начальных условиях в начальный момент времени сразу осуществляет выстрел по уклоняющемуся. Фактическая продолжительность игры при этом равна нулю. В результате имеем:

^ (г, т - к) = Щ (г), т (г, т - к) = к.

2. При V > VE задача 1 х 1 имеет следующее решение:

(4.4)

р, ,если

V - V.

< т - и

д, (|г -г^| -(V - VE)(т - ^))

,если

V - V.

(4.5)

(г, т - tk ) =

tk +

* *

г - г 1 1 -

,если

т ,если

V - VE

V - VE

> т - tu

(4.6)

Здесь преследующий и уклоняющийся объекты совершают движение вдоль соединяющей их прямой, и если г < г*, то /*1 вынужден «убегать» от Е, а тот в свою очередь — «догонять» его.

Таким образом, при численном решении задачи 1 х 1 в каждом сечении tk (к = 0, N)

функции Беллмана «1 и «2 вычисляются в соответствии с (4.4) — (4.6).

Для вычисления функции « в сечении tk-1 необходимо решать задачу 0. Используем для этой цели первый член разложения этой функции в ряд Тейлора относительно точки г_, г2, а в сечении tk:

о/ * * * * \ о/ * \ . С« 4 С«

«(г +ДТ1, г2 +Дг2, а + Аа, Atk) = «(>1, г^, а, ) + —Аг1 + — Дг2 + —Да, (4.7)

сг^ с?2 да

где Д^, Д^, Да определяются с использованием (4.1) при достаточно малом значении Дt:

1

Дг1 =(VE cos 0-V1cos ф1 )Дt, Дг2 =(VE cos (0-а)-V2cos ф2 )Дt, Да = ((V1sin ф1 - VE sin0)/г1 -(V2sin ф2 - Ук sin(0-а))/г2 )Дt.

(4.8)

Таким образом, для определения оптимальных управлений ф1, ф2,0 необходимо решить задачу

minmаx

0 ф1,ф2

ТЛ с« V с« . ТЛ с« V2 с« .

-У1—cos ф1 +——sin ф1 - У2—cos ф2 —-—Sin ф2-

сг

г1 са

сг

+ Vu

с« с« 1 с« .

-cosа-------------sinа

сг1 сг2

г1 са

> ( cos0 + VE

с« .

—sin а

чсг2

(

г2 са

cos а 1

V г2 г1 )

са

sin 0

(4.9)

Минимаксное значение выражения, стоящего в скобках, достигается при следующих значениях синусов и косинусов углов ф1, ф2, 0:

sin ф1 =

sin ф2 =

sin 0 = -

I

а2 + Ь2

, cos ф1 =

-, cos ф2 =

/

у1а2 + Ь2 с

cos 0 = -

(4.10)

где

с« , 1 с« с«

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а =--------, Ь =----------, с =----------,

сг

г1 са ’

сг

с« с« sin а с« с« .

е =----------+ cos а-------------------------------------------------, / = -sin а

сг1 сг2 г1 са сг2

_1

г 2 са ’ cos а 1

са

Проинтегрировав теперь (4.1) на шаге Дt с управлениями (4.10), получим приращения

Дг1(0), Дг2(0), Да(0). Значение функции Беллмана в точке г1 +Дг1(0), г2 +Дг2(0), а + Да(0) между

узлами принятой сетки может быть вычислено с использованием квадратической интерполяции. Численное решение рассматриваемой задачи было проведено для трех вариантов скоростей

V > VE > V?.

В пространстве ^, г^, а была принята сетка в области значений фазовых координат 0,3 < г < 4 (/ = 1, 2), 0 < а < 180°. Общее число узлов этой сетки составило 15 х15 х 22 = 4950. Параметры р,, , г в формуле (4.2) имели следующие значения: р1 = р2 = 0.8; д1 = д2 = 3.1;

г* = г* = 0.5.

Для всех примеров расчет функций Беллмана на этой сетке был осуществлен в обратном времени от tN = т = 20 с шагом Дt = 0.2 до ^ = 0. Расчет траекторий осуществлялся с тем же

шагом Дt = 0.2 до момента времени tf = тт(т1, Т2), т. е. до момента перехода от задачи 2 х 1

к задаче 1 х 1, решение которой определяется формулами (4.4) — (4.6).

Поскольку опыт расчетов для игровых задач подобного рода с использованием схемы динамического программирования крайне невелик, приведем результаты достаточно подробно.

Вариант 1: У1 = У2 = 0.2; УЕ = 0.22.

Оптимальные траектории объектов в плоскости для начальных условий ги = 1, /2о = 2.5, а = 135° показаны на рис. 2. На этом рисунке, как и на аналогичных рисунках ниже, показаны траектории р Р2 и Е на плоскости.

Игра заканчивается одновременным осуществлением Р1 и Р2 выстрелов (т1 =т2 = 11.2) по Е. Нетрудно

при

У < Уе

всегда

Рис. 2

Рис. 3

показать, что Действительно,

если один из преследователей произвел свой выстрел, то второй после этого в игре 1x1, как было отмечено выше, производит выстрел тут же. Это уже — эффект группы.

На рис. 3 для принятых в этом примере начальных условий приведены зависимость цены игры от возможной продолжительности игры S = S(АТ), зависимости фазовых координат и управлений от времени. На рис. 4 показаны зависимости от времени S (t), Щ (t), Щ2 (t) и

Т(t) = Т(Щ ^), Ж2 ^)). Значение функции Т^ = 11.2)

совпадает со значением S, что соответствует правилу определения момента стрельбы (3.1).

Первое, что обращает на себя внимание в этом примере,— это прямолинейность траекторий. Выбранное в начальный момент времени каждым из объектов направление движения практически не изменяется до конца игры, причем в момент осуществления выстрелов управления ф1, ф2, что нетрудно доказать, равны нулю.

Отличие от нуля на графике связано с вычислительными погрешностями из-за достаточно грубой сетки, принятой для расчетов. Зависимость S = S (АТ) говорит, что

стационарное значение цены игры устанавливается к АТ = 11.2. Именно до этого момента времени осуществляется преследование при свободном времени.

Цена игры вдоль оптимальной траектории должна оставаться постоянной. В этом отношении вид полученной зависимости S О) является идеальным.

Наиболее же интересным в рассмотренном примере является то, что Р1, достигнув максимального на траектории значения Щ[, не спешит производить выстрел по Е, а продолжает его преследование. При этом Щ начинает убывать. Однако, несмотря на это, суммарная эффективность воздействия Р1 и Р2 на Е увеличивается за счет более энергичного возрастания величины Щ2 , которое обеспечивается продолжением участия в игре Р1. Этот пример является иллюстрацией эффекта группы в задачах преследования — уклонения.

На рис. 5—7 в качестве иллюстрации приведены сечения функции Беллмана в зависимости от одной из фазовых координат при фиксированных значениях других для различных значений Т. Вариант 2: У1 = У2 = 0.25; УЕ = 0.22.

Рис. 4

При таком соотношении скоростей каждый из преследователей, очевидно, осуществляет выстрел по Е либо при достижении максимально возможного значения эффективности Щ = рі, либо в момент окончания игры, если имеется ограничение на время преследования. Для начальных условий г10 = 1.4, г2о = 1, ао = 20° оптимальные значения т и х2 равны: Т = 20 = Т, г2 = 17.4. Иллюстрации к этому приведены в той же последовательности, что и для предыдущего примера, на рис. 8 —10.

Из зависимости ^ ^(АТ) на рис. 11 следует, что окончание игры происходит из-за

принятого ограничения на время преследования.

Рис. 5

5

0.9

0.8

0.7

0.6

0.5

0.4

5

0.9

0.8

0.7

0.6

0.5

0.4

1 =и, 1,^,3 ,7

// /

А 1,0; а = 12С ° ■

І ч

2

Рис. 6

\ 1 \Т =0,1,3, 5,7

£ /

>г 0,8; а = 120°

8.0

7.0

6.0

5.0

4.0

3.0

2.0 1.0 0.0

к

к

1

Г2

1

-3.0 -2.0

• 1.0 0.0 1.0 2.0

Рис. 8

Рис. 9

2

Рис. 7

ю

Рис. 10

.0.5 -------------------------------------------------------------------------------

-10 -1.5 -1.0 -0.5 0.0 05 1.0 и 2.0

Рис. 11

0 2 4 6 АТ

Рис. 12

Вариант 3: У1 = 0.25; У2 = 0.2; УЕ = 0,22.

Результаты расчетов для начальных условий ги = 1.6, ?2о = 1, ао = 80° представлены на рис. 11 —13. В этом случае верно неравенство т1 >т2. Здесь т1 = 20 = Т, т2 = 7.8. В этом примере, как и в рассмотренном выше, также проявляется эффект группы: Р2, достигнув максимального на траектории значения Щ, не осуществляет выстрел Е, а продолжает преследование. Поведение функции

Р (х) = Р ($1 (X(х), Т - хк), Ж2 (х(X)))

на рис. 13 иллюстрирует правило определения первого момента стрельбы (3.2).

Выводы. Разработана вычислительная схема динамического программирования для решения игровой задачи преследования — уклонения 2 х 1 с оптимизацией моментов осуществления выстрелов по уклоняющемуся объекту.

Для расчета оптимальных траекторий и определения оптимальных моментов стрельбы, соответствующих заданным начальным условиям, в каждом узле сетки в пространстве фазовых координат и времени должны быть рассчитаны три функции Беллмана.

Проведено численное решение задачи для объектов, совершающих простое движение на плоскости с постоянными скоростями. Результаты расчетов показали работоспособность предложенной схемы.

Авторы выражают благодарность Н. М. Гревцову за полезные замечания, учтенные при оформлении статьи.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА

1. Айзекс Р. Дифференциальные игры. — М.: Мир. — 1967.

2. Симакова Э. Н. Об одной дифференциальной игре преследования // Автоматика и телемеханика. — 1967, № 2.

3. Желнин Ю. Н., Шилов Ю. Я. Нелинейная игровая задача преследования на плоскости // Ученые записки ЦАГИ. — 1974. Т. V, № 5.

4. Кузьмин В. П. Численное решение уравнения Беллмана для игровой задачи преследования на плоскости // Ученые записки ЦАГИ. — 1978. Т. IX, № 3.

5. Беллман Р., Калаба Р. Динамическое программирование и современная теория управления. — М.: Наука. — 1966.

i Надоели баннеры? Вы всегда можете отключить рекламу.