Представление динамической матричной игры в форме задачи конфликтного управления

Данилов Н. Н.

УДК 518.9

ПРЕДСТАВЛЕНИЕ ДИНАМИЧЕСКОИ МАТРИЧНОИ ИГРЫ В ФОРМЕ ЗАДАЧИ КОНФЛИКТНОГО УПРАВЛЕНИЯ

Н. Н. Данилов

В работе определяется класс динамических матричных игр, описываемых разностными уравнениями, вдоль траектории которых задана матрица выигрышей игроков. Вводятся новые понятия стратегии, сед-ловой точки и цена игры. Найдено необходимое и достаточное условие оптимальности стратегий.

In the work the class of dynamic matrix games described by the difference equations, along trajectory of which the payoff matrix ofplayers is set, is defined. New concepts of strategy, saddle point and game price are introduced. The necessary and sufficient condition of optimality of strategy is found.

Ключевые слова: матричные игры, модель задачи оптимального управления, стратегии, седловая точка, значение, игра.

Исследования поддержаны грантом «РФФИ-Кузбасс» № 07-01-96022

В работе определяется класс динамических матричных игр, описываемых разностными уравнениями, вдоль траектории которых задана матрица выигрышей игроков. Вводятся новые понятия стратегии, седловой точки и цена игры. Найдено необходимое и достаточное условие оптимальности стратегий.

Пусть переменная *, которую будем называть «временем», принимает лишь дискретные значения: 1=0,1,.,.,Т. Рассмотрим некоторую управляемую систему, изменение состояния которой происходит в дискретные моменты времени t и описывается уравнением

*(*) = Г (*(* —1), «(*), « (*)), t = 1,..., т (1)

из заданного начального состояния: х0 = х(0). (2)

В (1)-(2) *(*) е Як - вектор состояния;

и1(*) е Я11, и 2 (*) е И12 — векторы управления в момент

/г : Як х Я х Я1 ^ Як — вектор-функция, характеризующая динамические возможности системы.

Предполагается, что управляющие параметры удовлетворяют условиям:

и1(*) е и{, и2(*) е и2, * = 1,...,т, (3)

где и 1 ^ Я1', и2 ^ Я12 — заданные непустые множества.

Соотношения (1)-(3) определяют дискретную систему с двумя управлениями. Будем считать, что выбором управления

и1(0 = {ul(1),..., и1(т)} распоряжается игрок I, а выбором управления

и 2 () = {и 2 (1Х..., « 2(Т)}

- игрок II. Множества допустимых управлений игроков есть соответственно:

и1 = и1 х... х иТ, и2 = и1 х... х и2т.

Предполагается, что каждой паре управлений (и1 (•), и 2(-)) е и1 х и2 соответствует единственная последовательность

*(•) = {х0, *(1),..., х(Т)}

решений системы (1)-(2), которую будем называть траекторией. Множество всех траекторий системы

(1)-(2) обозначим X(х0, Т).

Целью игрока I является максимизация значения функции:

H = 2 в(x(i - 1), u (i), u2 (i)),

(4)

t=1

где 6 — функция, предписывающая этому игроку на каждом шаге (в каждом состоянии х(*)) его выигрыш в матричной игре:

а12 ... а1

* * а^ ... а

с at

ип

h( x(t)) =

a

4

tt

aa

V m1 m2

t = 1,..., T. (5)

mn

(в( х0) = 0), где m и п конечные числа.

Так как в разных состояниях х(ї) матрица к(х(ї)) разная, то в случае необходимости мы будем записывать аІ = аІ (х(ї)). Целью игрока II является минимизация значения функции (4).

Определение 1. Стратегией игрока I (II) будем называть отображение р1 (р2), которое каждому шагу ї и реализуемому на этом шаге состоянию х(ї) ставит в соответствие некоторое допустимое на этом шаге управление

и1 (ї +1) є и(+1 (и 2 (ї +1) є и2+1) и номер і (і) выбранной строки (столбца) матрицы h.

Стратегии игроков можно представить так:

Р(0 = {(иі(1Х іі),...,(иі(^ X іт)},

Р2 () = {(и2 (1), |1),...,(и2 (Т), Іт Ж

где ії ё | — номера выбранных в момент ї (в состоянии х(ї)) строки и столбца матрицы ^х(ї)) (ї=1,... ,Т). Множества стратегий игроков обозначим соответственно Ф1 ё Ф 2.

Совокупность

Г(x0,T) = (Х(x0); Ф1, Ф2; H,

(6)

где ^ (X0) — символическое обозначение системы (1)-(2), назовем многошаговой конечной антагони-

|_^естникКемГУ

стической игрой (или коротко - динамической матричной игрой).

Протекание игры Г(х0,Т) можно представить следующим образом. Игроки выбирают некоторые стратегии - ср1(•) е Ф1, р2 (•) еФ 2. Далее вычисляется траектория

*(•) = х(х0, и1(), и2()) = {х0, х(1),...,х(Т)} как решение системы (1)-(2), соответствующее ситуации (р1 ( • ), р2 ( • )). Затем по формуле (4) вычисляется выигрыш игрока I вдоль этой траектории х( • ) :

Н = Н(х", р (• ), рг(-)) = К(х()) = £а'Л,

*=1

где а\— элемент матрицы Н(х(.*)), предопределенный стратегиями р1 ( • ) е р2 ( • ).

Выигрыш игрока II вдоль этой же траектории

т

равен числу — X а*.

*=1

В классической теории игр изучаются так называемые матричные игры. С практической точки зрения, матричная игра - это статическая математическая модель, с помощью которой можно определить оптимальное поведение двух конфликтующих сторон, имеющих противоположные интересы и конечное число стратегий (решений, альтернатив). Матричные игры имеют достаточно широкое применение (см., напр., [1-4]). Поскольку процессы принятия решения в социально-экономических и других системах имеют динамический характер, то возникает необходимость обобщения класса матричных игр так, чтобы учитывались временные факторы. Игра вида (6) и представляет такое обобщение.

В данной статье исследуется вопрос о принципе оптимальности в игре Г(х0, Т): как себя должны вести игроки, чтобы получить как можно большие выигрыши?

Пусть игроками выбраны управления и1 ( •), и2 (• ) и вычислена соответствующая им траектория х (• ) системы (1)-(2). Стратегии, соответствующие этим управлениям, имеют вид:

р(0 = {(«к* ), 1), * = 1,..., Т},

Р2О = {(«2 (*), Л), * = 1,..., Т}.

Введем следующие обозначения:

1 = {1,...,т}, J = {1,...,п};

I = 1 х...хI, J = /х...х J.

т т

Определение________2. Пару стратегий

(р1 ( • ), р2 ( • )) е Ф1 х Ф 2 назовем седловой точкой

игры вдоль траектории х ( • ), если существуют такие

последовательности Ь} е1, {il,..., к} е >1,

А А

что для любых {1,..., 1т} е1, {_/!,...,/т} е J выполняются условия

аа(х (*)) - аЬ<(х (*)) - аЬ,(х (t)), (7)

* = 1,..., Т.

Из этого определения следует, что если вдоль траектории х( ) = {х0, х(1),..., х(Т)} в какой-то из моментов *=1,...,Т неравенство (7) не выполняется, т. е. в статической матричной игре к(х(.*)) нет седло-вой точки, то седловая точка вдоль траектории х( ) не существует.

Множество всех траекторий, вдоль которых существует седловая точка, обозначим символом Х(х0, Т) (Х(х0, Т) с Х(х0, Т)).

Для фиксированного t неравенство (7) определяет седловую точку (1 , /) в статической матричной

игре Н( х (*)). Таким образом, существование седловой точки вдоль траектории х (• ) предполагает существование седловых точек во всех матричных играх И(х(*)), * = 1,...,Т.

Из неравенства (7) получаем: для всех

{11 ^.^ Ь } е I, {/1,. ^ /Т } е ^

(х(*)) - (х(*)) - £а£л (х(*)).

* =1 *=1 *=1

Для х ( • ) е Х(х0, Т) число

и( х 0 , р1 (• ), р2 ( • )) = X а\/ (х (*)) (8)

*=1

назовем ценой игры вдоль траектории х ( •).

Предположим, что Х(х0, Т) Ф 0. Каждой траектории х ( • ) е Х(х0, Т) соответствует своя седловая точка (р ( • ), р2 ( • )). В отличие от статической игры вида к(х(.*)), седловые точки, соответствующие разным траекториям из Х(х0, Т), вообще говоря, не обладают свойствами взаимозаменяемости и эквивалентности. Действительно, пусть

~( •хадеХ(х“,Тх а (р( хр2ох р2(•))—

соответствующие седловые точки. Нельзя утверждать, что пары (р1(), р2( )) е (р1(• ), р2( )) образуют седловую точку (взаимозаменяемость), так как необязательно траектории х'(• ) = х(х°, «1( • ), «2(• )) и х'(•) = х(х°, щ(•), «2( • )) принадлежат множеству Х(х0, Т) и нельзя утверждать, что

X аЬ (х'(*)) = X а17(х"(*))

*=1 *=1

(эквивалентность). По этой причине множество всех седловых точек, соответствующих траекториям из

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

множества Х(х0, Т), будем обозначать символом

Ф (а не Ф1 х Ф 2, т. к. не все пары из этого множества будут седловыми точками). Из всего сказанного выше следует, что цену игры вдоль траектории можно представить как функцию

(9)

(10)

и(x0,-) : Ф^ R1.

Введем в рассмотрение два числа:

u(x0) = max min и(x0, р(0, р20)

Pl(-)eOl ^2(')еФ2

- нижняя цена игры Г( x0, T),

u(x0) = min max и(x °, р((), р2())

^2(')еФ2 й(')бФ1

- верхняя цена игры r(x0, T) (здесь Ф1(Ф 2) -множество всех стратегий первого (второго) игрока,

входящих в Ф ).

В дальнейшем, для простоты, будем предполагать, что экстремумы в (9) и (10) существуют (в противном случае, вместо «седловой точки» следует говорить о « S - седловой точке»).

Стратегии, на которых достигаются внешние экстремумы в (9) и (10), назовем максиминной и минимаксной стратегиями первого и второго игроков соответственно.

Можно показать, что в игре Г( x0, T)

maX U(x^ Ф(1 Ф2()) <

ф(-)еФ! (ф(-)ЕФ 2

- ,min maX U(x0, Фl('), Ф2())

Ф2(')еФ 2 ф(')еФ(

и в случае строгого неравенства в (11) максиминная и минимаксная пары стратегий не являются устойчивыми против индивидуальных отклонений игроков от нее. Напротив, равенство

(11)

maX U(x , Ф('), Ф2()) =

^(■)eOi Ф(')еФ 2

= maX U(x0, Фl('),

ф(,)еФ 2 ф(0еФ1

(12)

u( x 0) = X at< j<( x *(t))

t=1

(14)

как будет показано ниже, порождает устойчивую пару стратегий.

Определение 3. Если выполнено равенство (12), то соответствующие ему максиминную и минимаксную стратегии назовем оптимальными стратегиями (будем обозначать их р1 (•) е р2 (•)) первого и второго игроков, пару (р1 (•), р2 (•)) — седловой точкой игры Г( х0, Т), а число и(х0) = и(х0, р^), р2*(•)) = и(х0) = и(х0) - (13)

ценой игры Г( х0, Т).

* / \ /0 * / \ * / \\

Пусть х (•) = х(х , «1 (•), и2()) — траектория

системы (1)-(2), соответствующая седловой точке

(р1 (•), р2 (•)). Тогда цена (13) вычисляется как:

где (г, /, ) — седловая точка статической матричной игры Н( х *(*)), * = 1,..., Т.

Теорема. Пара стратегий (р1* (•), р2* (•)) является седловой точкой игры Г(х0, Т) тогда и только то-

гда, когда для любых (р1 (•) ёФ1, (р2 (•) е Ф 2 выполнены неравенства

U(ФСХ ф2(0) ^ U(ф( (•),

ф2(0) 2 U(x0, ф1 (•), ф2(0).

Доказательство. Необходимость. Пусть

(р< (•), р< (•)) - седловая точка игры Г(x0, T). По

определению 3,

и( x0,1, Ф2) =

= max min и(x0, ф1(•), ф2(-)) = (15)

Ф(-)бФ1 ФСОбФ 2

= ^min maX U(x^ фl('), ф2())

ФгСОеФ2 ф(-)еФ1

и внешние экстремумы достигаются на стратегиях

Р*(^),Р2*(^)-

Пусть внутренний экстремум в левой части (15) достигается на стратегии р< (•) :

max min и(x°, ф((), ф2(0) =

ф(0еФ1 ф2(^)еФ 2

= max и(x0, *(•), ф2(•)) = и(x0, **(•), ф<)).

)еФ(

Из последнего равенства получаем: и( x 0, Р( (•), р2 (•)) < и( x 0, р* (•), р2 (^)) для всех р( (•) е Ф( . (16)

Пусть внутренний экстремум в правой части (15) достигается на стратегии р( (•):

min max и(x0, ф1 (•), ф2 (•)) =

ф2( 0еФ 2 ф(( 0е®1

= min о(х0, ф/(0, ф2(•)) = и(х0, ф(0, ф2*(0).

фМеФ 2

Из последнего равенства получаем:

U(x“, р( (•), р2 (^)) > и(x“, р( (•), р2* (^))

для всех р2 (•) е Ф 2. (17)

По условию (15):

U(x0, р*(0, р<(•)) = и(x0, р((•), р<(0). (18)

Применяя (16) и (17), напишем:

и(x0, ф(-), x < и(X0, x x =

= и(x0, ф/О, ф*)) < и(<0, ф<), ф2(-)) для всех

р( (•) i Ф(, р2 (•) i Ф2. Отсюда (15), (18): и(x0, ф(-), ф*<< <

< и(X0, ф (•), ф2 (•)) < и(х0, ф (•), ф2 (•))

для всех р( (•) е Ф(, р2 (•) е Ф2.

Достаточность. Пусть выполнены неравенства (14). Левое неравенство в (14) верно для всех

р( (•) е Ф(. Поэтому

max и(x“, Рl(•), р^)) <и(x“, Рl*(•), р^(^)). (19)

р (•)еФ(

Поскольку для всех р2 (•) е Ф 2

min max u(x , фО), ф2(-)) 2

Ф2 (')еФ2 ф(-)еФ1

- max U(x0, Фl('), Ф2(•)),

ф (')еФ1

то, в частности,

max U(x0, Фl('), ф2(')) -

ф2(-) еФ 2 ФОО еФ1

< « U(x0 фl(•), ф2«.

ф(-)еФ1

Получили (19):

max U(x0, Ф1(О ф2( )) -

ф2 (")еФ2 ф(')еФ1 (20)

— —(— , ф«, О*)).

Рассмотрим теперь правую часть (14) и, рассуждая аналогично, получаем:

и(x0, ф(.), ф2*(0) <

(21)

- max U(x0, фl('), ф2(')).

Ф ОеФ1 ф2 ОеФ2

Сравнение (20) и (21) показывает, что

,mii max U(X0, Фl('), Ф2(')) -

ф2(')еФ 2 Ф(')еФ1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- —ax U(x0 , Ф1 ('), Ф2 (')).

ФОФо ф2(-)еФ2

Но всегда справедливо неравенство (11), так что в последнем соотношении имеет место строгое равенство, следовательно, (рО (•), р2 (•)) — седловая точка игры Г( x0, T). Теорема доказана.

Неравенство (14) наглядно показывает устойчивость пары стратегий (рО (•), р2 (•)) против индивидуальных отклонений игроков: игрок, выбравший другую стратегию (при условии, что противник придерживается стратегии «со звездочкой»), наказывает разве что себя. Поскольку неравенство (14) более соответствует свойству седловой точки, чем определение 3, то его можно использовать в качест-

ве определения оптимальных стратегий игроков в игре Г( х0, Т).

Соотношения (13) и (14) представляют собой обобщение принципа минимакса, используемого в статических матричных играх в качестве правила выбора оптимальных стратегий.

Из теории матричных игр известно, что если в игре к(х(.*)) нижняя цена не равна верхней цене, то седловая точка отсутствует. В таких случаях существование оптимальных стратегий достигается путем введения смешанных стратегий. Поэтому естественным является определение и изучение смешанного расширения игры Г(х0, Т). Ввиду ограниченности объема данной статьи, результаты исследования игры Г(х0, Т) в классе смешанных стратегий здесь не приводятся.

Литература

1. Нейман, Дж. Теория игр и экономическое поведение / Дж. Нейман, О. Моргенштерн - М.: Наука,

1970. - 707 с.

2. Оуэн, Г. Теория игр / Г. Оуэн. - М.: Мир,

1971. - 230 с.

3. Воробьев, Н. Н. Теория игр. Лекции для эко-номистов-кибернетиков / Н. Н. Воробьев. - Л.: Изд-во ЛГУ, 1974. - 160 с.

4. Данилов, Н. Н. Теоретико-игровое моделирование конфликтных ситуаций / Н. Н. Данилов. -Томск: Изд-во Томск. ун-та, 2005. - 119 с.

5. Данилов, Н. Н. Основы математической теории оптимальных процессов / Н. Н. Данилов, В. В. Мешечкин. - Кемерово: Кузбассвузиздат, 2004. - 219 с.

Рецензент - В. Я. Карташов - д-р техн. наук, профессор, ГОУ ВПО «Кемеровский государственный университет».

Представление динамической матричной игры в форме задачи конфликтного управления Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Данилов Н. Н.

Похожие темы научных работ по математике , автор научной работы — Данилов Н. Н.

Текст научной работы на тему «Представление динамической матричной игры в форме задачи конфликтного управления»