Научная статья на тему 'Неантагонистические дифференциальные игры с различными типами поведения игроков'

Неантагонистические дифференциальные игры с различными типами поведения игроков Текст научной статьи по специальности «Математика»

CC BY
224
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕАНТАГОНИСТИЧЕСКАЯ ПОЗИЦИОННАЯ ДИФФЕРЕНЦИАЛЬНАЯ ИГРА / ТЕРМИНАЛЬНЫЕ ПОКАЗАТЕЛИ КАЧЕСТВА / ФАЗОВЫЕ ОГРАНИЧЕНИЯ / ТИПЫ ПОВЕДЕНИЯ ИГРОКОВ / НЭШЕВСКИЕ РЕШЕНИЯ / NON-ANTAGONISTIC POSITIONAL DIFFERENTIAL GAME / TERMINAL COST FUNCTIONALS / PHASE CONSTRAINTS / PLAYERS' BEHAVIOR TYPES / NASH SOLUTION

Аннотация научной статьи по математике, автор научной работы — Клейменов Анатолий Федорович

Для неантагонистической позиционной дифференциальной игры двух лиц рассматриваются экстремальные типы взаимодействия игроков: нормальный, альтруистический, агрессивный. Предположение о том, что игроки по ходу игры могут переключать свое поведение с одного типа на другой, приводит к новым решениям игры. Приводится пример игры с фазовыми ограничениями, в которой применение одним из игроков альтруистического типа поведения в течение определенного промежутка времени приводит в итоге к увеличению выигрышей обоих игроков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NON-ANTAGONISTIC DIFFERENTIAL GAMES WITH VARIOUS BEHAVIOR TYPES

Extreme types of interaction of players such as: normal, altruistic, aggressive are considered in non-antagonistic two-person positional differential game. The assumption that during the game the players can switch the behavior from one type to another leads to new solutions of problem. Example game with phase constraints is considered in which the use altruistic behavior of one of the players during a certain period of time eventually leads to an increase in both players’ winnings.

Текст научной работы на тему «Неантагонистические дифференциальные игры с различными типами поведения игроков»

УДК 517.977.1

НЕАНТАГОНИСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ С РАЗЛИЧНЫМИ ТИПАМИ ПОВЕДЕНИЯ ИГРОКОВ

© А.Ф. Клейменов

Ключевые слова: неантагонистическая позиционная дифференциальная игра; терминальные показатели качества; фазовые ограничения; типы поведения игроков; нэшев-ские решения.

Для неантагонистической позиционной дифференциальной игры двух лиц рассматриваются экстремальные типы взаимодействия игроков: нормальный, альтруистический, агрессивный. Предположение о том, что игроки по ходу игры могут переключать свое поведение с одного типа на другой, приводит к новым решениям игры. Приводится пример игры с фазовыми ограничениями, в которой применение одним из игроков альтруистического типа поведения в течение определенного промежутка времени приводит в итоге к увеличению выигрышей обоих игроков.

Динамика неантагонистической позиционной дифференциальной игры (НПДИ) описывается уравнением

Х = / (£, х,и, V), £ € , х(£0) = х0, (1)

где х € Кп - фазовый вектор; управления первого и второго игроков и и V стеснены ограничениями и € Р € сошрРР и V € Q € сошрШ , $ - заданный момент окончания игры. Функционалы качества игроков имеют вид:

/ = ъ(х(#)), i = 1, 2. (2)

Предполагается, что оба игрока имеют информацию о текущей позиции (£, х) игры. Формализация НПДИ, включающая описание позиционных стратегий игроков, а также порождаемых этими стратегиями из начальной позиции (£о,Хо) конструктивных и предельных движений, основана на результатах [1, 2] и подробно описана в [3]. Дополнительно предполагается, что помимо обычного, нормального, типа поведения, ориентированного на максимизацию показателей (2), игроки могут использовать другие типы поведения, введенные в работах [4, 5]. В частности, это альтруистический и агрессивный типы. Приведем соответствующие определения.

Определение 1. Скажем, что игрок 1 придерживается на отрезке [£*,£*] альтруистического (агрессивного) типа поведения по отношению к игроку 2, если на этом отрезке действия игрока 1 направлены на максимизацию (минимизацию) функционала /2 игрока 2.

Аналогично определяются альтруистический и агрессивный типы поведения игрока 2 по отношению к игроку 1. Заметим, что агрессивный тип поведения игроков фактически используется в НПДИ в форме стратегий наказания, содержащихся в структуре решений игры (см., например, [3]).

Использование игроками возможности переключения по ходу игры своего поведения с одного типа на другой в повторяющейся биматричной 2 х 2 игре позволило в работах [5, 6] получить новые решения этой игры. Распространение указанного подхода на неантагонистические позиционные дифференциальные игры приводит к новым постановкам задач. В частности, представляет интерес, как трансформируются выигрыши игроков, получаемые на нэшевских решениях. Актуальной становится задача минимизации времени «ненормального» поведения при условии достижения требуемого результата.

Приведем пример НПДИ двух лиц с фазовыми ограничениями, в которой применение одним из игроков в течение определенного промежутка времени поведения альтруистического типа приводит в итоге к увеличению выигрышей обоих игроков. Пусть динамика (1) имеет вид

х = и + V, х,и, V € Е2, ||и|| ^ 1, ^ 1, 0 ^ £ ^ $, ж[£о] = х0, а функционалы качества (2) суть

/ = -||(х($) - а

-а«1

г = 1,2,

(3)

(4)

т. е. цель игрока г - привести вектор х($) как можно ближе к целевой точке а(г) .

Зададим значения параметров игры: $ = 2.5, х0 = (0,0),а(1) = (7.0,5.0),а(2) = (-7.0, 5.0) . Далее принимаем следующее дополнительное условие. Круг Б радиуса 2 с центром в точке М = (0, 2.5) задает фазовое ограничение в игре: траекториям запрещается заходить внутрь круга Б .

На рис. 1 кривые ^2^2 и вместе с дугой АС2С1А1 малой окружности и ду-

гой D2QDl большой окружности ограничивают множество достижимости системы (3), построенное для момента $ = 2.5 . Заметим, что обозначения точек, симметричных относительно оси ординат, отличаются только индексами. Учитывая симметрию, дальнейшее описание производится в основном для правой половины рисунка. Прямая ОС1 является касательной к окружности; В - точка малой окружности, ближайшая к а(1) ; длина кривой ОС1В1А1 равна радиусу большой окружности. Вычисления показывают: С1 = = (1.2, 0.9) , В1 = (1.88, 3.17), А1 = (1.36, 3.96) (здесь и ниже указываются приближенные числовые значения).

х

2

б

Рис. 1.

При нормальном типе поведения обоих игроков следующая траектория х(£) = 0, £ € € [0, 2.5] , будет нэшевской; на ней игроки получат выигрыши /1 = /2 = -8.60. Другая траектория, изображенная линией ОС1В1А1 не является нэшевской, поскольку в точке В игрок 1 получает максимальный на траектории выигрыш (равный -5.43) и не будет заинтересован в дальнейшем отслеживании траектории до точки А1 . Также не является нэшевской траектория, изображенная линией ОС1В1 : теперь уже игрок 2 не соглашается на

отслеживание траектории, поскольку в конечной точке Bi он получает выигрыш, равный -9.47, что меньше, чем в точке O .

Допустим теперь, что игрок 1 имеет возможность использовать в течение некоторого промежутка времени альтруистический тип поведения по отношению к игроку 2. Тогда найдем точку Ei на малой окружности, удовлетворяющую условию: наикратчайшее расстояние от точки Ei до точки а(2) , вычисленное при начале движения по малой окружности по часовой стрелке, равно длине отрезка Oa(2) . Получаем E1 = (1.43, 3.90) .

Рассмотрим стратегии игроков 1 и 2, порождающие единственное предельное движение, изображенное линией OC1B1A1 . И рассмотрим следующую последовательность (программу) выбора игроком 1 типов поведения: при t € [0, 2.01) - нормальный, при t € [2.01, t*) -альтруистический, при t € [t*, 2.5] - снова нормальный. Здесь t* € [2.45, 2.5] . Приведенные числа имеют следующий смысл. Число t = 2.01 - момент прихода в точку B1 , число t = = 2.45 - момент прихода в точку E1 . Нетрудно видеть, что при любом t* € [2.45, 2.5] оба игрока заинтересованы в реализации указанной стратегии и указанной программы выбора игроком 1 типов поведения. И соответствующая траектория OC1B1A1 является нэшевской. Выигрыши игроков на ней составляют /1 = -8.50, /2 = -5.75 , то есть выигрыши обоих игроков увеличились по сравнению с игрой при нормальном типе поведения обоих игроков. Заметим, что при t* = 2.45 время «ненормального» поведения минимально и составляет 2.44 ед. Разумеется, траектория OC2B2A2 также является нэшевской с минимальным временем «ненормального» поведения, равным 2.44 ед.

ЛИТЕРАТУРА

1. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука, 1974.

2. Красовский Н.Н. Управление динамической системой. М.: Наука, 1985.

3. Клейменов А.Ф. Неантагонистические позиционные дифференциальные игры. Екатеринбург: Наука, 1993.

4. Клейменов А.Ф. О решениях в неантагонистической позиционной дифференциальной игре // Прикладная математика и механика. 1997. Т. 61. Вып. 5. С. 739-746.

5. Kleimenov, A.F., Kryazhimskii A.V. Normal Behavior, Altruism and Aggression in Cooperative Game Dynamics, Interim Report IR-98-076, Laxenburg: IIASA, 1998. 47 p.

6. Kleimenov, A.F. An Approach to Building Dynamics for Repeated Bimatrix 2x2 Games Involving Various Behavior Types // In: Dynamic and Control, (Leitman G., ed), London: Gordon and Breach, 1998. Р. 195-204.

БЛАГОДАРНОСТИ: Работа выполнена в рамках Программы Президиума РАН «Математические задачи современной теории управления».

Поступила в редакцию 29 мая 2015 г.

Kleimenov A.F. NON-ANTAGONISTIC DIFFERENTIAL GAMES WITH VARIOUS BEHAVIOR TYPES

Extreme types of interaction of players such as: normal, altruistic, aggressive are considered in non-antagonistic two-person positional differential game. The assumption that during the game the players can switch the behavior from one type to another leads to new solutions of problem. Example game with phase constraints is considered in which the use altruistic behavior of one of the players during a certain period of time eventually leads to an increase in both players' winnings.

Key words: non-antagonistic positional differential game; terminal cost functionals; phase constraints; players' behavior types; Nash solution.

Клейменов Анатолий Федорович, Институт математики и механики им. Н.Н.Красовского УрО РАН, Екатеринбург, Российская Федерация, доктор физико-математических наук, ведущий научный сотрудник, e-mail: kleimenov@imm.uran.ru

Kleimenov Anatolii Fedorovich, Institute for Mathematics and Mechanics named after N.N. Krasovskii

of UB RAS, Ekaterinburg, the Russian Federation, Doctor of Physics and Mathematics, Leading Researcher, e-mail: kleimenov@imm.uran.ru

УДК 519.853.3

ИСПОЛЬЗОВАНИЕ ПАРАМЕТРИЧЕСКОГО ОПИСАНИЯ СУБДИФФЕРЕНЦИАЛА В МОДИФИЦИРОВАННОМ МЕТОДЕ СИМПЛЕКСНЫХ ПОГРУЖЕНИЙ

© А.В. Колосницын

Ключевые слова: модифицированных метод симплексных погружений; субдифференциал выпуклой функции; результирующая секущая плоскость.

В статье рассматривается модифицированный метод симплексных погружений, который относится к классу методов центрированных сечений. Особенностью метода является оценка слабой скорости сходимости, которая зависит только от числа отсеченных секущей плоскостью вершин симплекса, который аппроксимирует множество допустимых решений. Чем больше вершин отсекает секущая плоскость, тем выше скорость сходимости метода. Используя данную оценку скорости сходимости, метод симплексных погружений снабжается критерием выбора секущей плоскости, отсекающей наибольшее число вершин симплекса. Полученный модифицированный метод применяется для решения специального класса задач выпуклой недифференцируемой оптимизации, состоящий из двух типов функций. При этом возникает необходимость в параметрическом описании субдифференциалов функций из введенного класса задач для возможности определения секущей плоскости, которая отсекает наибольшее число вершин симплекса, что позволяет ускорить поиск решения. Искомые секущие плоскости формируются посредством решения вспомогательных минимаксных задач. Приводятся результаты численного тестирования модифицированного алгоритма метода симплексных погружений.

Введение

Метод симплексных погружений, исследования которого впервые были опубликованы в работах Е.Г. Анциферова и В.П. Булатова [1], представляет собой аналог известного метода эллипсоидов и отличается от последнего лишь видом аппроксимирующих решение множеств. Вместо эллипсоидов используются n -мерные симплексы. Отметим, что метод эллипсоидов сыграл важную роль в теории сложности задач математического программирования и позволил в 1979 г. Л.Г. Хачияну построить и обосновать первый полиномиальный алгоритм решения задачи линейного программирования с рациональными коэффициентами [2]. Идеи метода эллипсоидов развивались в работах Н.З. Шора [3] как частного случая алгоритма с растяжением пространства, а также в работах Д.Б. Юдина и А.С. Немиров-ского [4] как метода последовательных отсечений.

В [5] рассматривается метод симплексных погружений с учетом нескольких секущих плоскостей, на основе которого автором разработана и представлена в настоящей статье модификация метода симплексных погружений для решения задач выпуклой недифферен-цируемой оптимизации, учитывающая возможную неоднозначность выбора секущей плоскости.

i Надоели баннеры? Вы всегда можете отключить рекламу.