УДК 519.837.3 ББК 22.18
ЛИНЕЙНО-КВАДРАТИЧНЫЕ НЕАНТАГОНИСТИЧЕСКИЕ ДИСКРЕТНЫЕ ИГРЫ 1
Тур А. В. 2
(Факультет прикладной математики - процессов управления, Санкт-Петербургский государственный университет, Санкт-Петербург)
Рассмотрены линейно-квадратичные неантагонистические дискретные игры. Введены необходимые и достаточные условия существования равновесия по Нэшу. Получены различные кооперативные решения. Исследовано условие Д.В.К. Янга в линейноквадратичных дискретных играх. В качестве примера рассмотрена модель планирования производства в условиях конкуренции.
Ключевые слова: линейно-квадратичные дискретные игры, равновесие по Нэшу, кооперативные игры, условие Д.В.К. Янга.
Введение
Систематические исследования решений линейно-
квадратичных дифференциальных игр обычно связывают с выходом работы [1]. В этой работе большое внимание уделено формализму бескоалиционных линейно-квадратичных дифференциальных игр многих лиц, получены условия существования решений бескоалиционных игр в различных классах стратегий. Однако во многих приложениях сама постановка задач диктует необходимость объединения игроков в коалиции. Поэтому исследование кооперативных дифференциальных игр
1 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. - 2009. - Т. 1. №3».
2 Анна Викторовна Тур, аспирант ([email protected]).
является актуальной задачей. В данной работе рассматривается кооперативный вариант линейно-квадратичных дискретных игр с бесконечным временем окончания.
Рассмотрим дискретную линейно-квадратичную неантагонистическую игру п лиц, состояние которой в каждый момент времени характеризуется вектором х(к), изменяющимся во времени в соответствии с системой уравнений
П
х(к + 1) =А(к)х(к) + ^ Б%(к)и%(к),
(1)
к ^ к0, к0 € Т+, х(к0) = х0,
где х € Ят - вектор-столбец, и% € Кг - вектор-столбец управления игрока г, г = 1,... ,п ; А(к),Б%(к) € Z(Т+) - (т х т) и (т х г) - матрицы соответственно, х(к0) = х0 - начальное состояние, Т+ - множество неотрицательных целых чисел, Z(Т+) -множество ограниченных на Т+ матриц.
Обозначим через N = {1,... ,п} множество всех игроков. Выигрыш игрока г € N обозначим через 3%(к0,х0,и), где и = (и1,..., ип). Будем предполагать, что выигрыш игрока г имеет вид:
3% (ко, хо, и) —
(2)
(хт(к)Р%(к)х(к) + ит(к)К%(к)и(к)), Уг = 1,... ,п,
к=ко
где Р%(к) = Рт(к), Е%(к) = Щ(к) € Z(Т+) - (т х т) и (г х г)
- матрицы соответственно, г = 1,... ,п.
Определение 1. Набор стратегий вида
(3) {и%(к,х) = М%(к)х(к), г = 1,...,п}
будем называть допустимым, если выполняются условия:
1)М%(к) € Z (Т+) У г = 1,...,п;
2) Система (1), замкнутая набором стратегий (3), т. е. система
П
х(к + 1) = (А(к) + ^ Бг(к)Ыг(к))х(к)
г=1
равномерно асимптотически устойчива (при к ^ <х) [4].
Предполагается, что игроки выбирают только допустимые стратегии вида иг(к,х) = Мг(к)х(к), к ^ к0, і = 1,... ,п. Обозначим построенную выше игру Г(ко,Хо). Это обозначение показывает, что игра началась в момент времени к = ко из состояния х(ко) = хо.
1. Теорема о существовании равновесия по Нэшу
Найдем решение бескоалиционной игры Г(к0,х0). В качестве принципа оптимальности будем рассматривать равновесие по Нэшу [6].
Определение 2. Набор стратегий
{иМЕ(к, х) = ММЕ(к)х(к), г = 1,... ,п}
называется равновесием по Нэшу, если этот набор допустим в смысле определения 1 и имеет место
3г(к0, х0, иМЕ) ^ 3г(к0, х0, иМЕ/иг), г = 1,... ,п,
где иг - любая стратегия игрока i, такая что набор стратегий {иМЕ/иг} принадлежит классу допустимых.
Здесь {иМЕ/иг} - такой набор стратегий, что все игроки ^ = г
МЕ
используют стратегии иМЕ, а игрок г - стратегию иг.
В теореме 1 приведены необходимые и достаточные условия для существования равновесия по Нэшу в игре Г(к0,х0). Пусть Q+(T+) С Z(Т+) - множество положительных ограниченных на Т+ матриц.
Теорема 1. Для того, чтобы в игре r(k0,x0) существовало равновесие по Нэшу, необходимо и достаточно, чтобы:
1) Система матричных уравнений
( П
(A(k) + Y Bi(k)MtNE(k))TQt(k + 1)-
i=1
n
■ (A(k) + Y Bi(k)MNE (k))-
i=1
- @i(k) - Pi(k) - MNE(k)TRi(k)MNE(k) = 0,
MNE (k) = -(-Ri(k) + BT (k)Qi(k + 1)Bi(k))-1^
■ BT (k)Qi(k + 1)(A(k) + Y Bj (k)MNE (k)), i = 1,...,n
j=i
была разрешима относительно {MNE (k), &i(k)} e Z (T+), в виде вещественных, ограниченных матриц размерности r х т и т х тсоответственно, где &i(k) - симметричны для любого i e N.
2) Набор стратегий
(4) {uNE = MNE(k)x(k), i = 1,... ,n}
был бы допустимым в смысле определения 1.
3) (-Ri(k) + Bi(k)Oi(k + l)Bi(k)) e Q+(T+ ), i = ^ ...,n.
Тогда набор стратегий (4) будет являться равновесием по Нэшу в игре r(k0, х0), при этом выигрыш игрока i в равновесии равен
Ji(k0,x0,uNE) = -xTQi(k0)x0, i = 1,... ,n.
Доказательство. Необходимость. Пусть ситуация
uNE = (uNE ,...,uNE)
является равновесием по Нэшу. Тогда для любых i = 1,... ,n, и Ui имеет место неравенство:
Ji(ko,xo,uNE/ui) ^ Ji(ko,xo,uNE).
Ясно, что uNE является оптимальным управлением в следующей задаче:
x(k + 1) = (A(k) + Y Bj (k)MNE (k))x(k) + Bi(k)ui(k)
j=i
с начальным условием x(ko) = xo и функционалом Ji. В [4] выведены условия для существования единственного оптимального управления в такого рода задаче. Согласно [4]
{uNE = -(-Ri(k)+BT (k)Qi(k+1)Bi(k))-1Bj (k)Qi(k+1)(A(k) +
+ ^ Бу (к)И3МЕ (к))х(к), г = 1,...,п],
где О^к) - симметричные ограниченные матрицы т-го порядка, для которых выполнены условия
(A(k) + Y Bi(k)MNE(k))T@i(k + 1)(A(k) + Y Bi(k)MNE(k))
i=1 i=1
- Qi(k) - Pi(k) - MNE(k)TRi(k)MNE(k) = 0,
MNE (k) = -(-Ri(k) + BT (k)Qi(k + 1)Bi(k))-1BT (k)@i (k + 1>
(A(k) + Y Bj(k)MNE(k)), i = 1,..., n,
j=i
(-Кг(к) + (к)Ог(к + 1)Бг(к)) € Q+(T+).
Откуда и следует необходимость теоремы.
Достаточность. Доказательство достаточности также следует из [4]. Для этого нужно отметить, что при замыкании системы (1) набором допустимых управлений [пМЕ/иг}, она превратится в систему с одним управлением:
(5) х(к + 1) = (А(к) + £ Бу (к)И^Е (к))х(к) + Бг(к)щ (к).
У=г
Для щ существуют такие Ы^Е(к) и Ог(к) - симметричная, что для них выполняется
' П П
(А(к) + £ Бг(к)ИгМЕ (к))Т О(к + 1)(А(к) + £ Бг(к)ИгМЕ (к))-
г=1 г=1
- Ог(к) - Рг(к) - ИгМЕ(к)ТЯг(к)ИгМЕ(к) = 0,
<
ИгМЕ (к) = -(-Ег(к) + БТ (к)вг(к + 1)Бг(к))-1БТ (к)@г (к + 1>
■ (А(к) + £ Бу(к)И^Е(к)), г = 1,..., п,
у=г
(-Щ(к) + ^(к)°г(к + 1)Бг(к)) € Я+(т+).
Тогда согласно [10], п^Е(к) - оптимальное управление для системы (5) с функционалом Jг, т. е.
,1г(к0, х0, пМЕ/щ) ^ <1г(к0, х0,пМЕ), г = 1,... ,п.
Поэтому набор управлений (4) будет являться равновесием по Нэшу.
Простые вычисления показывают, что выигрыши игроков в ситуации равновесия по Нэшу будут равны:
Jг(k0,x0,uNE) = -хТОг(ко)хо, г = 1,... ,п.
2. Теоремы о существовании набора стратегий, доставляющего максимум произвольной сумме функционалов
Пусть Б С N, в = |Б|, г\,... ,г3 - игроки, входящие в коалицию 5. Введем обозначение
<1Я(к0,х0,и) = ^^(ко,хо,п), где и = (и\,... ,ип). геЯ
ия(к) =
иі
вя = (ВП,.. .,віа ^
\иь/
( Яіі О. .. О
рт = £ Р, Ят = О яі2 . .. О
ієт \ о О. .. Яів)
ГО
Тогда Зт = £ Зі = £ (хТ(к)Рт(к)х(к) +
іЄТ к=ко
иТТ (к) Я я (к) и я (к)).
Теорема 2. Для того, чтобы существовал единственный набор стратегий
{и0 = М0(к)х, і є 5},
доставляющий максимум З8(к0,х0,и) при фиксированном наборе стратегий
{Щ = Му(к)х, і /Б}
, необходимо и достаточно, чтобы:
1) Система матричных уравнений
' (А(к) + £ В3 (к)М(к) + Вт(к)мт(к))Твт(к + 1)
з/т
■ (А(к) + £ Вз(к)М(к) + Вт(к)М0(к)) - вт(к)-
з/т
- Рт(к) - М0(к)ТЯт(к)М0(к) = 0,
М0 (к) = -(-Ят (к) + ВТ (к)вт(к + 1)Вт (к))-1^
■ ВТ(к)вт(к + 1)(А(к) + £ Вз(к)Мз(к))
з/т
была разрешима относительно {М°(к), 0т(к)} в виде вещественных, ограниченных матриц размерности гв х т и т х т, соответственно, где 0т(к) - симметрична.
2) Набор стратегий
(6) и0(к) = {% = М3(к)х, з £ Б, и0 = М0(к)х(к), г е Б},
где М0(к) - і-й блок матрицы М0(к)
(М0(к)\
М0 (к)
, был
\М° (к))
бы допустимым в смысле определения 1.
3) (-Ет(к) + Б?(к)0т(к + 1)Бт(к)) е Я+(Г+).
Тогда набор стратегий (6) доставляет максимум 3т(к0,х0,и). И 3 т (ко,хо,и0) = -х? 0т (ко)хо.
146
Доказательство. Замкнем систему (1) допустимым набором управлений и(к) = {■% = М) (к)х, і /Б, щ = Мі(к)х(к), і/Б,}:
х(к + 1) = (А(к) + £ втМ(к))х(к)+£ Бі(к)щ(к). і/я і/я
Или
(7) х(к + 1) = (А(к) + £ Бі (к) М] (к))х(к) + Бя (к)ия (к),
і/я
где и я (к) =
(Мі, (к)\ Мі2 (к) \Мі„(к))
х(к).
Тогда систему (7) можно рассмотреть как систему с одним управлением пя(к) и функционалом 3я. Согласно [4], чтобы у этой системе существовало единственное управление, доставляющее максимум 3я, необходимо и достаточно, чтобы:
1) Система матричных уравнений
' (А(к) + £ Б] (к)М] (к) + Бя (к)МЯ (к))Т Єя (к + 1)-і/я ■ (А(к) + £ Б] (к)М] (к) + Бя (к)М0 (к)) - Єя (к) і/я
- Ря(к) - М0(к)ТЯя(к)М0(к) = 0,
М0 (к) = -(-Яя (к) + БТ (к)Єя (к + 1)Бя (к))-1^
■ БТ (к)Єя (к + 1)(А(к) + £ Бі (к) Мі (к))
была разрешима относительно{М0(к), 0я(к)} в виде вещественных, ограниченных матриц размерности те х т и т х т, соответственно, где 0я(к) - симметрична.
2) Управление п%(к) = М0(к)х(к) было бы допустимым в смысле определения 1.
3) (-Ея(к) + Б?(к)0я(к + 1)Бя(к)) е Я+(Т+).
Тогда управление п°8 (к) доставляет максимум функционалу 3я и
3я(к0,х0,п0) = —х?0я(ко)хо, где п°(к) = {п^ = М^(к)х, ] е Б, п0 = М0(к)х(к), геБ, }, что и требовалось доказать.
3. Кооперативный случай дискретной игры
Перейдем теперь к рассмотрению кооперативного варианта игры. Для этого предположим, что игроки имеют возможность образовать максимальную коалицию с целью обеспечения максимального суммарного выигрыша. На основе теоремы 2 построим решения дискретной кооперативной игры.
3.1. ПРОПОРЦИОНАЛЬНОЕ РЕШЕНИЕ
Предположим, что игроки договорились совместно достичь максимального суммарного выигрыша:
N
3N(ко, х0, п(к)) = £ 3г(к0,х0,п(к)).
г=1
Пусть набор стратегий nN = (п^^,... ,п^^), где ^ = М^ (к)х(к), г = 1,... ,п, доставляет максимум 3N, т. е.
N ^N
п” = arg тах 3 ”.
щ,г=1,...,п
Тогда согласно теореме 2 можем найти Мм (к)
(МN (к)\
м.N (к)
\МN (к))
из системы
(А(к) + БИ (к) Мм (к))Т Єн (к + 1)(А(к) + Бм (к) Мм (к))-
- Єм(к) - PN(к) - Мм(к)ТЯм(к)Мм(к) = 0,
<
Мм (к) = -(-Ям (к) + Б1 (к)Єм (к + 1)Бм (к)) 1■
^ ■ Бтм(к)Єм(к + 1)А(к).
Максимальное значение 3N будет
3 м (ко,хо,им (к)) = -хТ Єм (к0)х0.
Пусть пр р - стратегия игрока г, максимизирующая его выигрыш при условии, что остальные игроки используют стратегии ^, т. е.
«гор = ащт&х3і,(им/щ), і = 1,... ,п.
щ
Если управление пр существует, то согласно теореме 2
149
можем найти Mfrop(k) из системы
' (A(k) + £ Bj(k)MjN(k) + Bl(k)^fop)T@i,prop(k + 1).
jeN,j=i
■ (A(k)+ £ Bj(k)MjN(k)Bi(k)Mprop) - Qiprop(k)-
jeN,j=i
f - Pi(k) - Mprop(k)TRi(k)Mprop(k)=0,
Mprop(k) — -(-Ri(k)+ BT (k)Qi,prop(k + 1)Bi(k))-1BT (k)■
■ &i,prop(k + 1)(A(k) + £ ^ Bj(k)MN(k)), i £ N.
j€N,j=i
При этом
Ji(k0,x0,u /щ ) — xq ®ipropxQ.
Введем обозначения
Xi — Ji(ko,xo,uN/Uprop), i — 1,...,n,
n
л — £ Xi.
i=1
Тогда, согласно определению пропорционального решения игры [8], выигрыш каждого игрока будет определяться следующим образом:
aprop — X JN (k0,x0,uN).
Вектор
aprop — (Oprop ,...,apnrop)
будем называть пропорциональным решением дискретной игры.
150
3.2. РЕШЕНИЯ, ОСНОВАННЫЕ НА ПОСТРОЕНИИ
ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ
Решения кооперативных дискретных игр, основанные на построении характеристической функции, в достаточной степени объективно отражают вклад каждого игрока в достижение коалициями максимально результата.
Для определенной линейно-квадратичной дискретной игры Г(ко,хо) характеристическую функцию
будем строить по следующему правилу (см., например, [7]):
случае построенная таким образом характеристическая функция не является супераддитивной.
Обозначим
у(Б, х0) :2м ^ Я
ь(Б,х0) = тах 33(имЕ/и3).
щ,іЄ3
иі,і Є Б}. Заметим, что в общем
{и*}іея = а^ тах 33(имЕ/и3).
щ,іЄ.3
Тогда, если набор стратегий
[и* = М*(к)х, і Є Б}
существует, то согласно теореме 2, М* (к) =
можно
\м; (V
найти из системы
' (A(k) + £Bj(k)MNE(k) + Bs(k)M*s(k))T@*s(k + 1)(A(k) + j/S
+ £ Bj(k)MNE(k) + Bs(k)MS(k)) - @*s(k) - Ps(k)-
j/S
- MS(k)TRs(k)MS(k) = 0,
MS (k) = -(-Rs (k) + BT (k)e% (k + 1)Bs (k))-lBT (k)
■ e$(k + 1)(A(k) + £ Bj(k)MNE(k)). j/s
При этом
J S (ko,xo,uNE/uS) = -xT QS xo.
Согласно определению характеристической функции получаем
v(S,xo) = -xT QS xo.
После определения характеристической функции для каждой коалиции мы можем воспользоваться любым из известных принципов оптимальности, таких как вектор Шепли, C-ядро и др.
4. Условие Д.В.К. Янга для линейно-квадратичных
дискретных игр
Конкретизируем условие Д.В.К. Янга [10] для линейноквадратичных дискретных игр. Тем самым мы получим условие, страхующее игроков от распада максимальной коалиции N.
Пусть набор стратегий uN = (uN,..., uN) доставляет максимум JN. Траекторию x*(k), которая реализуется при замыкании системы (1) набором стратегий uN, будем называть оптимальной. 152
Определим множество дележей в дискретной кооперативной игре:
С = [ір(ко,хо) = (<рі(ко,хо),.. .,іри(ко,хо)) :
П
£ірі(ко,хо) = у(Ы,хо), ірі(ко,хо) ^ у(і,хо), і = 1,...,п}.
І=1
Обозначим через М С С - кооперативный принцип оптимальности.
Пусть Г(к, х*(к)) подыгра игры Г(к0,х0), которая начинается в момент времени к из состояния х*(к). В этой подыгре введем характеристическую функцию у(Б,х*(к)) таким же образом, как она была введена в игре Г(к0,х0). И множество дележей подыгры равно
С (х*(к)) = {<р(к, х*(к)) = (<р\(к, х*(к)),..., $п(к, х*(к))) :
П
£<рІ(к,х*(к))= ь(М,х*(к)), <рІ(к,х*(к)) ^ь(і,х*(к)), і = 1,...,п}.
І=1
Обозначим через М(х*(к)) С С(х*(к)) принцип оптимальности М С С, реализуемый в подыгре Г(к,х*(к)).
Определение 3. Пусть <р(к0 ,х0) Є М, тогда вектор-функцию в (к) = (@\(к),..., вп(к)), к ^ к0 назовем процедурой распределения дележа (ПРД) если,
ГО
<Рі(ко, хо) = £ ві(к), і = 1,...,п.
к=ко
Интерпретация ПРД следующая: ві(к) - выплата игроку і на шаге к.
Определение 4. Вектор-функция в (к) = (в\(к),..., вп(к)) называется состоятельной во времени ПРД, если при любом I ^ к0 выполняется следующее равенство
I
Рг(ко,Хо) = £ вг(к) + рг(1 + 1,Х* (I + 1)),г = 1, . . . ,П,
к=ко
где <Рг(ко,Хо) € М, рг(1 + 1,Х*(1 + 1) € М(х* (I + 1)).
Эти понятия впервые введены в [2], [3]. В определении 3 значение рг(к0,х0) представляет собой сумму двух слагаемых. Первое является «накопленным выигрышем» игрока г к моменту времени I +1, если выплаты сделаны согласно ПРД в (к), а второе является выигрышем игрока г в подыгре Г(1 + 1,х*(1 + 1)) при условии, что при решении подыгры Г(1 + 1,х*(1 + 1)) используется тот же принцип оптимальности, что и при решении игры Г(ко,хо).
Теорема 3. Вектор-функция в (к) = (в\(к),... ,вп (к)), где
(8) вг(к) = рг(к,Х*(к)) — рг(к + 1,Х*(к + 1)), г = 1,...,п
является состоятельной во времени ПРД.
Доказательство. Покажем сначала, что вектор вг(к), определенный в (8), является ПРД. Из равномерной асимптотической устойчивости системы (1) имеем:
оо оо
£ вг(к) = £ (рг(к,х*(к))—рг(к+1,х*(к+1))) = рг(ко,хо) —
к=ко к=ко
— рг(ю,х*(ю)) = Рг (ко,хо).
Покажем теперь, что вг(к) является состоятельной во времени 154
ПРД:
I I
£ вг (к)+Рг(1+1,Х*(1+1))= £ (рг(к,Х*(к))—рг(к+1,Х*(к+1)))+
к=ко к=ко
+рг(1+1, х*(1+1)) = рг(ко, хо)—рг(1+1, х*(1+1))+рг(1+1, х* (1+1)) =
= рг (ко,хо).
Теорема доказана. Предположим, что если на шаге к происходит распад максимальной коалиции, то игроки узнают об этом до выбора ими стратегий иг(к).
Определение 5. Дележ р(к0,х0) =
(р\(к0, х0),..., рп(к0, Хо)) удовлетворяет условию Д.В.К. Янга [10], если выполнено неравенство
I
(9) £ вг(к) + у(г,х*(1 + 1)) ^ у(г,хо), г = 1,...,п
к=ко
при любом I ^ к0, где в(к) = (в\(к),..., вп(к)) состоятельная во времени ПРД, соответствующая дележу р(к0,х0).
Интерпретировать (9) можно следующим образом: до момента I + 1 игроки образуют максимальную коалицию и используют стратегии, максимизирующие суммарный выигрыш, получа-
I
ют при этом «накопленные выигрыши» ^ вг(к) согласно ПРД
к=ко
в (к). В момент I + 1 происходит распад максимальной коалиции, и в подыгре Г(1 + 1,х*(1 + 1)) игрок г, играя индивидуально, получает выигрыш у(г, х*(1 +1)). Таким образом, условие (9) гарантируют, что в случае распада максимальной коалиции в момент 1+1, игроки получат не меньше, чем если бы играли индивидуально изначально.
Выведем достаточное условие для выполнения условия Д.В.К. Янга в линейно-квадратичных дискретных играх. Заметим, что
I
52 ві(к) + у(і, х*(1 + 1)) - у(і, хо) =
к=ко
= Е (ві(к) + у(і, х*(к + 1)) - у(і, х*(к))).
к=ко
Тогда для выполнения условия Янга достаточно, чтобы
ві(к) + у(і,х*(к + 1)) — у(і,х*(к)) ^ 0 і = 1,...,п, к ^ к0.
В разделе 3.2. было показано, что в линейно-квадратичной дискретной игре у(і, х*(к)) можно определить по следующему правилу
у(і,х*(к)) = —х*т (к)0*(к)х*(к), где 0* (к) - решение системы матричных уравнений
'(А(к) + £ Б3 (к)М*Е (к)+ Ві(к)М*(к))т 0*(к + 1). І^,і=і
■ (А(к) + + £ В3 (к)М*Е (к) + Ві(к)М*(к)) — 0*(к) —
jЄ■N,j=i
— Рі(к) — М*(к)т Ея (к)М*(к) = 0,
М*(к) = —(—Ея (к) + В? (к)0* (к + 1)Вз (к))-1вТ (к)
■ 0* (к + 1)(А(к)+ £ Bj (к)М*Е (к)).
jЄN,j=i
Тогда
вг(к) + у(г, к + 1) - у(г, к) = вг(к) + х *Т (к)0* (к)х * (к) —
— х *Т (к + 1)0* (к + 1)х * (к + 1) = вг(к) + х *Т (к)(0* (к) —
(А(к) + £ В3 (к)Мгм )Т 0* (к + 1)(А(к) + £ В3 (к)Мгм ))х * (к),
г=1 г=1
где Мм(к) =
(мN (к)\ МN (к)
\м* (к)!
согласно разделу 3.1 находятся из си-
стемы:
(А(к) + Вм (к)Мм (к))Т 0м (к + 1)(А(к) + Вм (к)Мм (к)) —
— 0м (к) — Рм (к) — Мм (к)Т Ем (к)Мм (к) = 0,
Мм (к) = —( — Ем (к) + вм (к)0м (к + 1)Вм (к)) 1-
■ вм (к)0м (к + 1)А(к).
Получаем, что если
П
вг(к)+ х *Т (к)(0* (к) — (А(к) + £ В3 (к)Мгм )Т 0* (к + 1)(А(к)+
г=1
+ £ в3 (к)Мгм))х* (к) > 0
г=1
выполнено для всех г = 1,...,п и при всех к ^ ко, то дележ будет удовлетворять условию Д.В.К. Янга.
5. Пример
Рассмотрим пример планирования производства в условиях конкуренции. Решение данного примера для случая непрерывного времени можно найти в [1]. Предполагаем, что функция спроса имеет вид:
где а - положительная постоянная и дг(к), г € {1, 2} - скорость роста производства фирмы г. Пусть для рыночной цены имеет место следующее уравнение
р(к + 1) = в(а - [ді(к) + д2(к) - р(к)); р(0) = ро > 0.
Здесь в € [0, то) - заданный параметр. Доход фирмы г полагается равным р(к)дг(к). Для простоты будем предполагать, что производственные затраты обеих фирм описываются одной и той же функцией
где с - заданный параметр. Пусть р > 0 - параметр дисконтирования.
Цель фирмы г заключается в нахождении такого программного управления дг ^ 0, которое доставляет максимум функционалу
при условии, что система развивается в соответствии с динамикой
(10) и дг(к) ^ 0 для всех к ^ 0. После замены
(10)
д(к) = а - [ді(к) + д2(к)},
к=0
к
х2(к) = (в (а - с) - с)
к+1 1 \ 2
1 + р
\ к
иі(к) = ( 1~Гр) (д*(к) - р(к) + с),
\ к
и2(к) = ( (д*(к) - р(к) + с)
задача сводится к виду (1)-(2) с матрицами
А =
^-3в (т+р) 0
V
Бг =
о о/ , К = - 2, Хо
ро - с
т+р)2 (в(а - с) - с)
Согласно теореме 1 для нахождения равновесия по Нэшу необходимо решить систему
(А(к) + Бі(к)М^Е (к) + Б2(к)М?Е (к))т вг(к + 1).
■ (А(к) + Бі(к)М^Е(к) + Б2(к)М?Е(к)) - вг(к)-
- Рг(к) - МгМЕ(к)тКг(к)МгМЕ(к) = 0,
МгМЕ (к) = -(-Ег(к) + БІТ (к)вг(к + 1)Бг(к))-1БТ (к)
■ &г(к + 1)(А(к) + Б,(к)М^Е(к)), і = 1, 2, ; = і.
1
Тогда ситуация имЕ = (имЕ ,имЕ) является равновесием по Нэшу, где
имЕ(к, х) = МмЕ(к)х(к). Выигрыши равны
3г = —хТ 0г(ко)хо.
Непосредственной проверкой можно показать, что при в =
и*Е(к, х) = (0,014026995 -0,06919932097) х(к),
и*Е(к, х) = (0,014026995 -0,06919932097) х(к), и соответствующие выигрыши равны
= = _ Т /-0,5211388670 0,1042843108 \
3і = 32 = Х^ 0,1042843108 -0,5166690544) Хо.
Перейдем к рассмотрению кооперативного варианта. Для нахождения 3м можем пользоваться теоремой 3. Тогда необходимо решить систему
' (А(к) + БМ + БМ)твм(к + 1)(А(к) + БМ + Б2МN)-
- вм(к) - Рм(к) - Мм(к)тЕм(к)Мм(к) = 0,
<
Мм (к) = -(-ЕМ (к) + БМ (к)вм (к + 1)БМ (к)) 1■
, ■ БМ(к)вм(к + 1)А(к).
Набор стратегий доставляющий максимум 3м имеет вид
им = им = (0,02832460 -0,1397247874) х(к).
Для вычисление оптимального дележа с использованием характеристической функции имеем:
у(1 2 хо) = 3м = -хТ (—1,042486890 0,2095871811\
У(12,хо) 3 х^ 0,2095871811 —1,038317865/ хо,
Т (—0,5211388670 0,1042843108 \
у(1,х° = у(2,х° = х0 ( 0,1042843108 —0,5166690544) хо(
В случае хо = 11 , значения характеристической функ-
ции равны у(1,2,хо) = 1,661630393, у(1,хо) = у(2,хо) = 0,82923936.
Вектор Шепли [5] имеет вид =
(0,8308151965; 0,8308151965).
Проверим теперь выполнение условия Д.В.К. Янга в нашем примере. Имеем
(. *(1Л, *т(1Л (—0,52124345 0,10479359 \
V(,,х (к)) = —х (к) ( 0 ,Ю4793590 —0,519158933) х (к)'
= -1/2х*Т П,)(—°5211Ш67° 0Д042843Ю8 \ ...
Ф (к) / (кМ 0,1042843108 — 0,5166690544) х (к)(
Тогда
П
вг(к) + х *Т (к)(0г (к) — (А(к) + £ Б3 (к)Мгм )Т 0г(к + 1)(А(к)+
г=1
п
+ £ Б3 (к)Мгм ))х * (к) = ф!Н(к) — ф!\к + 1) + х *Т (к)(0г(к) — г=1
n n
-(A(k)+£ Bj(k)MN)Tвг(к+1)(А(к)+£ Bj(k)MN))x*(k) =
i=i г=1
= *T(k) (0,0001°0235408157 -0,00049449080455 \ *(k) > 0
= x (k)y-0,00049449080455 0,0024394701238552) X (k) > 0
поскольку это выполнено для всех i = 1,... ,n и при всех k > ko, то дележ будет удовлетворять условию Д.В.К. Янга.
Литература
1. ЗЕНКЕВИЧ Н.А., ПЕТРОСЯН Л.А. Дифференциальные игры в менеджменте// Научные доклады Научноисследовательского института менеджмента СПбГУ. -2006. - №38(R). - С. 6-8.
2. ПЕТРОСЯН Л.А. Построение сильно динамически устойчивых решений в кооперативных дифференциальных играх// Вестн. С.-Петерб. ун-та. - 1992. - №4. - С. 33-38.
3. ПЕТРОСЯН Л.А., ДАНИЛОВ Н.Н. Устойчивость решений в неантагонистических дифференциальных играх с трансферабельными выигрышами. Вестн. Ленингр. ун-та.
- 1979.-№1.-С. 46-54.
4. СМИРНОВ Е.Я. Стабилизация программных движений. -СПб:Изд-во С.-Петербургского университета, 1997.
5. BASAR T., OLSDER G.J. Non-cooperative differential games. - Academic Press, 1992.
6. NASH J. Non-cooperative Games// Ann. of Math. - 1951. -V. 54. - P. 286-295.
7. PETROSJAN L.A., ZACCOUR G. Time-consistent Shapley value allocation of pollution cost reduction// Journal of Economic Dynamic and Control. - 2003. - V. 27. - P. 381-398.
8. PETROSJAN L.A., YEUNG D.W.K. Proportional Time-Consistent Solution in Differential Games// Extended Abstracts Volume of the 2-nd International Conference "Logic,
Game Theory and Social Choice". - 2001. St Petersburg State University. - P. 254-256.
9. SHAPLEY L.S. A Value for n-Person Games // Contributions to the Theory of Games II. Princeton: Princeton University Press, 1953. - P. 307-317.
10. YEUNG D.W.K. An Irrational-Behavior-Proof Condition in Cooperative Defferential Games// IGTR. - 2007. - V. 9. - №1.
- P. 5-7.
LINEAR-QUADRATIC NON-ANTAGONISTIC DISCRETE-TIME DYNAMIC GAMES
Anna Tur, Faculty of Applied Mathematics and Control Processes, Saint-Petersburg State University, post-graduate student ([email protected]).
Abstract: Linear-quadratic discrete-time dynamic games are considered. The necessary and sufficient conditions of the existence of Nash equilibrium in such class of games are presented. Different cooperative solutions are obtained. D.W.K. Yeung’s condition for linear-quadratic discrete-time dynamic games is studied. As an example, the model of production planning under competition is examined.
Keywords: linear-quadratic games, Nash equilibrium, cooperative games, D.W.K. Yeung’s condition.