Научная статья на тему 'Принятие решений в одной гибридной двухшаговой задаче динамического управления'

Принятие решений в одной гибридной двухшаговой задаче динамического управления Текст научной статьи по специальности «Математика»

CC BY
85
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАДАЧА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ / НЕАНТАГОНИСТИЧЕСКАЯ ПОЗИЦИОННАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА / НЭШЕВСКОЕ РАВНОВЕСИЕ / ТИПЫ ПОВЕДЕНИЯ / OPTIMAL CONTROL PROBLEM / NON-ANTAGONISTIC POSITIONAL DIFFERENTIAL GAME / NASH EQUILIBRIUM / PLAYERS' BEHAVIOR TYPES

Аннотация научной статьи по математике, автор научной работы — Клейменов Анатолий Федорович

Уравнения движения управляемой системы в рассматриваемой двухшаговой задаче на фиксированном промежутке времени содержат управления либо одного игрока, либо двух игроков одновременно. На первом шаге (этапе) управляемого процесса (от начального момента до некоторого заданного момента) на систему действует управление только первого игрока, который решает задачу оптимального управления с заданным терминальным функционалом. В начале второго шага (этапа) процесса первый игрок решает, будет второй игрок участвовать в процессе управления на оставшемся промежутке времени, или нет. При этом предполагается, что за участие второй игрок должен выплатить первому платеж в некотором размере. Если «да», то оба игрока разыгрывают неантагонистическую дифференциальную игру, в которой в качестве решения принимается равновесие по Нэшу. Кроме того, возможно использование игроками «ненормальных» типов поведения, что может позволить игрокам увеличить выигрыши. Если «нет», то первый игрок по-прежнему решает задачу оптимального управления до окончания процесса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DECISION-MAKING IN A HYBRID TWO-STEP PROBLEM OF DYNAMIC CONTROL

The equations of motion of the controlled system in the two-step problem under consideration at a fixed time interval contain the controls of either one player or two players. In the first step (stage) of the controlled process (from the initial moment to a certain predetermined moment), only the first player controls the system, which solves the problem of optimal control with a given terminal functional. In the second step (stage) of the process, the first player decides whether the second player will participate in the control process for the remainder of the time, or not. It is assumed that for participation the second player must pay the first side payment in a fixed amount. If «yes», then a non-antagonistic positional differential game is played out, in which the Nash equilibrium is taken as the solution. In addition, players can use «abnormal» behaviors, which can allow players to increase their winnings. If « no », then until the end of the process continues to solve the problem optimal control.

Текст научной работы на тему «Принятие решений в одной гибридной двухшаговой задаче динамического управления»

ISSN 1810-0198. Вестник Тамбовского университета. Серия: естественные и технические науки

Том 23, № 123

2018

DOI: 10.20310/1810-0198-2018-23-123-415-423 УДК 517.977

ПРИНЯТИЕ РЕШЕНИЙ В ОДНОЙ ГИБРИДНОЙ ДВУХШАГОВОЙ ЗАДАЧЕ ДИНАМИЧЕСКОГО УПРАВЛЕНИЯ

^ А. Ф. Клейменов

ФГБУН «Институт математики и механики им. H.H. Красовского» Уральского отделения Российской академии наук 620990. Российская Федерация, г. Екатеринбург, ул. С. Ковалевской. 16 E-mail: kleiraenov@imra.uran.ru

Аннотация. Уравнения движения управляемой системы в рассматриваемой двухшаговой задаче на фиксированном промежутке времени содержат управления либо одного игрока, либо двух игроков одновременно. На первом шаге (этапе) управляемого процесса (от начального момента до некоторого заданного момента) на систему действует управление только первого игрока, который решает задачу оптимального управления с заданным терминальным функционалом. В начале второго шага (этапа) процесса первый игрок решает, будет второй игрок участвовать в процессе управления на оставшемся промежутке времени, или нет. При этом предполагается, что за участие второй игрок должен выплатить первому платеж в некотором размере. Если «да», то оба игрока разыгрывают неантагонистическую дифференциальную игру, в которой в качестве решения принимается равновесие по Нэшу. Кроме того, возможно использование игроками «ненормальных» типов поведения, что может позволить игрокам увеличить выигрыши. Если «нет», то первый игрок по-прежнему решает задачу оптимального управления до окончания процесса. Ключевые слова: задача оптимального управления; не антагонистическая позиционная дифференциальная игра; нэшевское равновесие; типы поведения

1. Постановка задачи

Рассматривается двухшаговая задача принятия решений в управляемой системе, динамика которой на заданном промежутке описывается обыкновенными диф-

ференциальными уравнениями (см., например, [1,2]). Максимальное число участников управляемого процесса (игроков) равно двум (игрок Р2 и игрок Р3). Позиционные

Работа выполнена при финансовой поддержке Программы УрО РАН (проект № 18-1-1-10).

стратегии II [ х, е-^/^еНЦ и V [ х, е-^/32)ь4Ц, игроков Р2 и РЗ соответ-

ственно, а также движения, порожденные этими стратегиями, определяются аналогично [3-5].

Предполагается, что на первом шаге процесса (от начального момента ¿0 до заданного момента Т, £о < Т < д) правая часть уравнений движения содержит управляющее воздействие и, Р° только игрока Р2, который решает задачу оптимального

управления на отрезке ]£0, Т' с заданным терминальным функционалом выигрыша 1\.

Игрок РЗ располагает ресурсом управления V, <5 и имеет заданный тер-

минальный функционал выигрыша 12. В момент Т игрок Р2 должен решить, будет участвовать игрок РЗ в управляемом процессе на оставшемся промежутке времени ]Т,д', или нет. Если игрок Р2 решил, что игрок РЗ участвовать не будет, то на отрезке ]Т, д' он продолжает решать задачу оптимального управления; при этом его выигрыш, получаемый в конечной точке оптимальной траектории х°) х^ обозначим через I®. Предполагается, что за участие в управляемом процессе на отрезке ]Т, д~ игрок РЗ выплачивает игроку Р2 платеж в размере Ь единиц. И если участие состоится, то игроки на отрезке ]Т, разыгрывают неантагонистическую позиционную дифференциальную игру (НПДИ) двух лиц, в которой игрок Р2 распоряжается выбором управления уже из другого множества и, Р. а игрок РЗ распоряжается выбором управления V, и)£+0 При этом множество Р —> Р° выбирается так, что два множества - векторограмма уравнений динамики дифференциальной игры (где и 0 Р, V 0 и векторограмма уравнений динамики задачи оптимального управления (где и 0 Р°) - совпадают. Полагаем, что в игре НПДИ игроки выбирают одно из Р)Л^Р-Ьрешений [5] игры; выигрыши игроков, получаемые в конечной точке ж*)г?+ траектории х*) % порожденной выбранным Р)ЛгР-Ьрсшением, обозначим через для игрока Р2, и через Ц для игрока РЗ. (Заметим, здесь выигрыши игроков считаются трансфсрабельными [1]).

Условие 1. Игрок Р2 принимает решение, что игрок РЗ участвует в управляемом процессе на промежутке времени ]Т, , если имеют место следующие два неравенства

по Ь>1°1, (1)

Г2 Ь>1°2, (2)

где - значение функционала 12 в точке х°)т9Чг

Неравенство (1) означает, что при участии игрока РЗ в процессе игрок Р2 получает выигрыш (с учетом платежа в размере Ь ) больший, чем сели это участие не состоится. Неравенство (2) означает, что игроку РЗ также выгодно участвовать в процессе, даже заплатив за это игроку Р2 платеж Ь.

Задача 1. Найти траекторию ж*) х^ порожденную Р)АГ£Ц-решением, и Ь > 1 такие, что выполняются неравенства (1) и (2).

В общем случае Задача 1 решений не имеет. Однако может случиться, что использование игроками так называемых «ненормальных» типов поведения (см. [6-10]) приведет к тому, что множество решений Задачи 1 станет непустым.

В [6,7] предполагалось, что помимо обычного, нормального (nor), типа поведения, ориентированного на максимизацию собственных функционалов выигрыша, игроки могут использовать другие типы поведения, а именно: альтруистический ( alt), агрессивный (адд) и парадоксальный (par). В работе парадоксальный тип не будет использоваться.

Определение 1. Игрок Р2 придерживается на отрезке ]£*, t*' альтруистического (агрессивного) типа поведения по отношению к игроку РЗ, если на этом отрезке действия игрока Р2 направлены на максимизацию (минимизацию) функционала /2 игрока РЗ.

Аналогично определяются альтруистический и агрессивный типы поведения игрока РЗ по отношению к игроку Р2.

Согласно [9, 10], в разыгрываемой игре полагаем, что одновременно с выбором позиционной стратегии каждый игрок выбирает также свою индикаторную функцию, определенную на отрезке и принимающую значение в множестве {nor, alt, agg}. Индикаторную функцию игрока Pi обозначим символом оц ; ]£а,$* t }nor, alt, agg\\, г [ 2, 3. Если индикаторная функция игрока принимает значение, скажем, alt на некотором отрезке времени, то этот игрок действует на этом отрезке как альтруист по отношению к своему партнеру.

Таким образом, в каждый момент времени t 0 ]io, может реализоваться одна из 9 различных пар типов поведения игроков )ai)i+k-ft2)£-Hf начиная с )пог, пиг+ и заканчивая )agg,agg-\r При этом в двух парах )nor, alt+ и )alt, nor+ интересы игроков совпадают и игроки решают командные задачи управления (team problems). В других двух парах )nor, agg+ и )agg, пог+ игроки имеют противоположные интересы и разыгрывают антагонистические дифференциальные игры. В остальных пяти парах имеем неантагонистические дифференциальные игры.

Примем, что формирование управлений игроков на фиксированном промежутке времени при фиксированной парс типов поведения игроков происходит согласно условиям.

Условие 2. Если пара типов поведения игроков порождает на данном промежутке времени командную задачу управления, то управления игроков доставляют решение этой задачи. Если пара типов поведения игроков порождает антагонистическую дифференциальную игру, то управления игроков доставляют седловую точку этой игры. Если пара типов поведения игроков порождает неантагонистическую дифференциальную игру, то управления игроков доставляют одно из P)NE-\-pemeaий этой игры.

Условие 3. Если две различных пары типов поведения игроков порождают одну и ту же траекторию, то выбирается та из них, для которой суммарное время использования игроками ненормальных типов поведения меньше.

Итак, в рассматриваемой игре с различными типами поведения игроков игрок Р2 управляет выбором пары действий {позиционная стратегия, индикаторная функция}: )U, Q'i) хН- а игрок РЗ управляет выбором пары действий )V, «2) хНт- Далее НПДИ с типами поведения обозначаем через НПДИсТП.

Определение 2. Пара })£7°, о^) а^) образует ВТ -решение игры

НПДИсТП, если найдется порожденная парой траектория хвт) и найдется Р)МЕ-\-решение в соответствующей игре НПДИ, порождающее траекторию хр) такие, что

а1)хвт)'д-Н-> (7г:)^Р)^-Нг •[ 2,3. (3)

Если в игре НПДИ, возникающей на втором шаге исходной задачи, допустить возможность использования игроками различных типов поведения, то в получающейся игре НПДИсТП аналог Задачи 1 можно сформулировать так:

Задача 2. Найти траекторию х*) порожденную ВТ -решением, и Ь > 1 такие, что выполняются неравенства (1) и (2).

2. Пример

Рассмотрим следующий пример гибридной управляемой системы на плоскости с динамикой простых движений и при наличии фазовых ограничений.

На первом шаге (этапе) решается следующая задача оптимального управления для игрока Р2 :

х[ и, \ц\ с За, 1 С £ С Г, ж)1+[ х0, Ь [ сг1)х)Т+1г (4)

На втором шаге (этапе) решается неантагонистическая позиционная дифференциальная игра двух игроков Р2 и РЗ :

х [ и 0 г?, х,и, V 0 Р2, \и\ с \гД С а, Т С Ь С "в, хт,

I, [ <Т1)х)0Ъ 12 [ Н

Пусть функционалы выигрыша игроков имеют вид:

и [ 26 \х)д+ а1\ г[ 2,3. (6)

То есть, цель игрока Рг - привести вектор х)$+ как можно ближе к целевой точке

а».

Зададим следующие начальные условия и значения параметров: д [ 6.1, а [ 2, х0[ )1,На(1)[ ) : .6,8.7-Ьг «(2) [ >7.6,8.7+ Т [ 1.: 7158 (рис. 1).

Опишем фазовые ограничения. Траекториям систем (4), (5) запрещается заходить во внутренность множества 5*, которое получается удалением из четырехугольника аЬсЛ отрезка ¿е. Множество 8 состоит из двух частей 5\ и то есть, 5* [ { 5'2.

Координаты точек, задающих фазовые ограничения, следующие: а [ ) 6,5+ Ь [ ) 2.6,8.7+ с [ )4.6,6.3+ А [ ) 2.6,2.3^ е [ )2.36,7.39+ Можно проверить, что точки а и с? лежат на отрезке а(1'0. точка с - на отрезке ¿а}2'1 и точка е - на отрезке Ьс.

На первом шаге решение задачи оптимального управления для игрока Р2 на отрезке ]1, Т' порождает траекторию - отрезок Од,.

На втором шаге имеем систему (5), где I 0 ]1.: 7158,6', ж)1.: 7158+[ <1.

а 0 Ь

с

а

т _5 к

е

т

9-ю

п

Рис. 1. Множество достижимости

Если же на втором шаге игроки Р2 и РЗ разыгрывают игру НПДИ, то необходимо найти Р)МЕ-\~решения игры. Прежде всего отмстим, что функции цены 71)^, х-\-и аНг 1 С £ С г?, ж 0 В2 Б вспомогательных антагонистических игр 1 и 2 (см. [5], с. 21) в данном примере будут

1г )*.

П26 26

а«\,

р3

ШБ \ и

если ха

в противном случае

(7)

где г [ 2,3, а через рз х, а^ Г обозначено^наименьшее из двух расстояний от точки х до точки а*1', одно из которых вычисляется при обходе множества Б по часовой стрелке, а другое - при обходе о против часовой стрелки.

Величина 7^, х-\- (7) представляет собою гарантированный выигрыш игрока Рг в позиции )£, игры. Известно (см. [5], с. 25), что для каждой NЕ- и Р)А}Е^ траектории точка £[ 0 является точкой максимума функции 7г)^, ж)¿-Иг

б 6

Мно^^ство достижимости системы (5), построенное для момента д [ 6.1, содержит точ^, ограниченные двухзвепником ас1с и дугой окружности радиуса 8.07906, а также дугрй, соединяющей эту окружность со стороной аЪ четырехугольника (рис. 1). Кроме т^го, в множество достижимости входят точки отрезка (1е. а также точки двух полукру^рв с центрами в точках ей с.

Если втором шаге игрок Р2 до момента д решает задачу оптимального управления, т^ристема (5) приходит в состояние р, в котором [ 23.94518, Щ [ 1.65896.

о2

ъ р

к 42

о а

Нетрудно проверить, что в игре НПДИ с нормальным типом поведения игроков траектория ж)£+< 1, £ 0 ]1.: 7158,6' (точка й) будет единственной N Е- траекторией, а, следовательно, и единственной Р)А}Е^ траекторией; выигрыши игроков на ней равны I* [ Ц [ 5.86611. Очевидно, что Задача 1 решений не имеет.

Перейдем теперь к игре НПДИсТП, полагая, что игроки Р2 и РЗ могут проявлять альтруизм или агрессию по отношению к другому игроку в течение некоторых промежутков времени, причем допускается случай взаимной агрессии.

Сразу, опуская полное доказательство, отмстим, что концы траекторий, порожденных ВТ-решениями игры, составляют множества и (Рис.1). В частности, в множестве 0-2 полуинтервал \gh-\- образован концами траекторий, порожденных неулуч-шаемыми по Парето РТ-решениями ( Р)РТ+решениями в терминологии работы [10]).

Опишем процедуру построения ВТ -решения, приводящего в точку д.

Рассмотрим траекторию с1ед; выигрыши игроков на ней составляют Д [ 7.24764, 12 [ 8.97458, то есть каждый игрок выигрывает больше, чем на единственной Р)МЕ-Ь траектории. Если удастся построить индикаторные функции-программы игроков, обеспечивающие движение по этой траектории, то тем самым будет построено РТ-решение.

На стороне с1е найдем точку га, равноудаленную от точки о'-1-1 как при обходе множества по часовой стрелке, так и при обходе £¡1 против часовой стрелки. Найдем также точку п, равноудаленную от точки аУ2} как при обходе множества 32 по часовой стрелке, так и при обходе 32 против часовой стрелки. Получим т[ )1.17782, 5.1: 525+ тг [ ) 2.3:618,2.72662+

Если двигаться по траектории /1ед с максимальной скоростью при £ 0 ]1.: 7158,6', то время попадания в точку п будет £ [ 2.2: 783, в точку т будет £ [ 3.716: 8, а в точку е будет £ [ 4.95987. Далее, при £ 0 ]1.: 7158,2.2:783' обе функции цены 71)£, ж+и 72)£,х+(7) убывают; при £ 0 ]2.2: 783,3.716: 8" функция 72)£, ж+возрастает, а функция 71)£, ж+убывает; при £0 ]3.716: 8,4.95987' обе функции возрастают; наконец, при £0 ]4.95987,6' 72)£, ж+убывает, а 72 )£, ж+возрастает.

Проверяем, что на участке <1п траектории с1ед пара )адд, 033+является единственной парой типов поведения, осуществляющей движение на участке в соответствии с Условием 2; это будет движение, порожденное Р)АГР+решением игры. На участке пт две пары осуществляют движение в соответствии с Условием 2, а именно )аИ1пог+ и )а/£, ард+ однако согласно Условию 3 остается только пара )аН, гаог+; она определяет командную задачу управления. На следующем участке те будут уже четыре пары «кандидатов» )тгог, пог+ )а/£, пог+ )пог1аИ+ и )аИ, а/£+ однако согласно Условию 3 три последних пары отбрасываются; оставшаяся пара определяет неантагонистическую игру и движение порождено Р) Лг Р+решением. Наконец, на участке ед единственной парой будет )тгог, а/£+ определяющая командную задачу управления; движение представляет максимальный сдвиг в направлении точки д.

Таким образом, построены индикаторные функции-программы игроков

«!*)£+[ }адд,г® ]1.: 7158,2.2: 783£ 0 ]2.2: 783, 3.716: 8^тгог, £ 0 ] 3.716: 8,6'||, (8)

а2*)£+[ }адд^$ ]1.: 7158, 2.2: 783-Нгеог, £ 0 ]2.2: 783: 4.95987-|^аг£, £ 0 ]4.95987,6'||. (9)

Обозначим через )£/*, V*-|-napy стратегий игроков, порождающую траекторию cleg при t 0 ]1.: 7158,6' и согласованную с построенными индикаторными функциями. Тогда пара действий })£/*, ft!*) «2*) (8),(9) доставляет ВТ -решение.

На этом ВТ1-решении выигрыши игроков составляют I* [ 7.24764, Р, [ 8.97458. Нетрудно видеть, траектория deg и число L [ 8 доставляют решение Задачи 2.

Описание других решений Задачи 2 опускаем.

СПИСОК ЛИТЕРАТУРЫ

1. Петросян Л.А., Зенкевич H.A., Шевкопляс Е.В. Теория игр. СПб.: БХВ-Петербург. 2012.

2. Kort P.M., Wrzaczek S. Optimal firm growth under the threat of entry // Eur. J. Oper. Res. 2015. Vol. 246 (1). P. 281-292.

3. Красовский H.H., Субботин А.И. Позиционные дифференциальные игры. M.: Наука, 1974. 456 с.

4. Красовский H.H. Управление динамической системой. М. : Наука, 1985.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Клейменов А.Ф. Не антагонистические позиционные дифференциальные игры. Екатеринбург: Наука, 1993.

6. Клейменов А.Ф. О решениях в неантагонистической позиционной дифференциальной игре // Прикладная математика и механика. 1997. Т. 61. Вып. 5. С. 739-746.

7. Kleimenov A.F., Kryazhimskii А. V. Normal Behavior, Altruism and Aggression in Cooperative Game Dynamics. Interim Report IR-98-076. Laxenburg: I1ASA, 1998. 47 p.

8. Kleimenov A.F. An Approach to Building Dynamics for Repeated Bimatrix 2 02 Games Involving Various Behavior Types // Leitman G. (ed.) Dynamic and Control. London: Gordon and Breach. 1998. P. 195-204.

9. Клейменов А.Ф. Альтруистическое поведение в неантагонистической позиционной дифференциальной игре // Математическая теория игр и ее приложения. 2015. Т. 7. Вып. 4. С. 40-55.

10. Клейменов А. Ф. Применение альтруистического и агрессивного типов поведения в неантагонистической позиционной дифференциальной игре двух лиц на плоскости // Труды Института математики и механики Уральского отделения РАН. 2017. Т. 23. № 4. С. 181-191.

Поступила в редакцию 19 апреля 2018 г.

Прошла рецензирование 23 мая 2018 г.

Принята в печать 19 июня 2018 г.

Клейменов Анатолий Федорович, Институт математики и механики им. H.H. Кра-совского Уральского отделения Российской академии наук, г. Екатеринбург, Российская Федерация, доктор физико-математических наук, ведущий научный сотрудник, e-mail: kleimenov@imm.uran.ru

Для цитирования: Клейменов А.Ф. Принятие решений в одной гибридной двухшаговой задаче динамического управления // Вестник Тамбовского университета. Серия: естественные и технические науки. Тамбов, 2018. Т. 23. № 123. С. 415-423. БОГ: 10.20310/1810-0198-2018-23-123-415-423

DOI: 10.20310/1810-0198-2018-23-123-415-423

DECISION-MAKING IN A HYBRID TWO-STEP PROBLEM OF DYNAMIC CONTROL

A. F. Kleimenov

N.N. Krasovskii Institiute of Mathematics and Mechanics of the Ural Branch of the Russian Academy of Sciences 16 S. Kovalevskoy St., Yekaterinburg 620990, Russian Federation E-mail: kleiraenovQirnra.uran.ru

Abstract. The equations of motion of the controlled system in the two-step problem under consideration at a fixed time interval contain the controls of either one player or two players. In the first step (stage) of the controlled process (from the initial moment to a certain predetermined moment), only the first player controls the system, which solves the problem of optimal control with a given terminal functional. In the second step (stage) of the process, the first player decides whether the second player will participate in the control process for the remainder of the time, or not. It is assumed that for participation the second player must pay the first side payment in a fixed amount. If «yes», then a non-ant agonistic positional differential game is played out, in which the Nash equilibrium is taken as the solution. In addition, players can use «abnormal» behaviors, which can allow players to increase their winnings. If « no », then until the end of the process continues to solve the problem optimal control. Keywords: optimal control problem; non-antagonistic positional differential game; Nash equilibrium: players' behavior types

REFERENCES

1. Petrosyan L.A.. Zenkevich N.A., Shevkoplyas E. V. Teoriya igr [Game Theory]. St. Petersburg, BKHV-Peterburg Publ., 2012. (In Russian).

2. Kort P.M., Wrzaczek S. Optimal firm growth under the threat of entry. Eur. J. Oper. Res., 2015. vol. 246 (1), pp. 281-292.

3. Krasovskiy N.N., Subbotin A.I. Pozitsionnye differentsial'nye igry [Positional Differentional Games]. Moscow, Nauka Publ., 1974, 456 p. (In Russian).

4. Krasovskiy N.N. Upravlenie dinamicheskoy sistemoy [Control of a Dynamic System]. Moscow, Nauka Publ., 1985. (In Russian).

5. Kleymenov A.F. Neantagonisticheskie pozitsionnye differentsial'nye igry [Non ant agonistic Positional Differential Games]. Yekaterinburg, Nauka Publ., 1993. (In Russian).

6. Kleymenov A.F. O resheniyakh v neantagonisticheskoy pozitsionnoy different si al'noy igre [On solutions in a n on ant agonistic positional differential game]. Prikladnaya matematika i mekhanika -Journal of Applied Mathematics and Mechanics, 1997, vol. 61, no. 5, pp. 739-746. (In Russian).

7. Kleimenov A.F., Kryazhimskii A.V. Normal Behavior, Altruism and Aggression in Cooperative Game Dynamics. Interim Report IR~g8~076. Laxenburg, IIASA, 1998, 47 p.

The work is supported by the UrB RAS Program (project № 18-1-1-10).

8. Kleimenov A.F. An Approach to Building Dynamics for Repeated Bimatrix 2 02 Games Involving Various Behavior Types. In: Leitman G. (ed.) Dynamic and Control. London, Gordon and Breach. 1998, pp. 195-204.

9. Kleymenov A.F. Al'truisticheskoe povedenie v neantagonisticheskoy pozitsionnoy differen-tsial'noy igre [Altruistic behavior in a non-ant agonistic positional differential game]. Mate m ati ches-kaya teoriya igr i ee prilozheniya - Mathematical Theory of Games and Its Applications, 2015, vol. 7, no. 4, pp. 40-55. (In Russian).

10. Kleymenov A.F. Primenenie abtruisticheskogo i agressivnogo tipov povedeniya v neantagonisticheskoy pozitsionnoy differentsial'noy igre dvukh lits na ploskosti [Application of the altruistic and aggressive types of behavior in a two-person non-zero-sum positional differential game on the plane]. Trudy Instituta matematiki i mekhaniki Ural'skogo otdeleniya RAN - Proceedings of the Steklov Institute of Mathematics, 2017, vol. 23, no. 4, pp. 181-191. (In Russian).

Received 19 April 2018 Reviewed 23 May 2018 Accepted for press 19 June 2018

Kleimenov Anatolii Fedorovich. N.N. Krasovskii Institiute of Mathematics and Mechanics of the Ural Branch of the Russian Academy of Sciences, Yekaterinburg, the Russian Federation. Doctor of Physics and Mathematics, Leading Researcher, e-mail: kleimenov@imm.uran.ru

For citation: Kleimenov A.F. Prinyatie resheniy v odnoy gibridnoy dvuhshagovoy zadache dinamicheskogo upravleniya [Decision-making in a hybrid two-step problem of dynamic control]. Vestnik Tambovskogo universiteta. Seriya: estestvennye i tekhnicheskie nauki - Tambov University Reports. Series: Natural and Technical Sciences, 2018, vol. 23, no. 123, pp. 415-423. DOI: 10.20310/1810-0198-2018-23-123-415-423 (In Russian, Abstr. in Engl.).

i Надоели баннеры? Вы всегда можете отключить рекламу.