УДК 519.18 Н. Н. Данилов, Л. П. Иноземцева
МОДЕЛИРОВАНИЕ ДИНАМИЧЕСКИХ БИМАТРИЧНЫХ ИГР В ФОРМЕ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ И ИХ ПРИМЕНЕНИЕ В ЭКОНОМИКЕ
Посвящена разработке математической модели нового класса динамических биматричных игр как обобщения статических биматричных игр с учетом влияния фактора времени. Предназначение биматричных игр как моделей принятия оптимального решения заключается в исследовании проблем в социально-экономических, политических и других сферах, характеризуемых как активные системы, с целью выработки оптимального поведения двух сторон с пересекающимися (но не антагонистическими) интересами. Благодаря построенной обобщенной модели существенно расширяется область практического применения биматричных игр, повышаются адекватность модели к исследуемому объекту и качество получаемых результатов. Этим объясняется актуальность данной работы. Основными результатами исследования являются построенная в форме модели многошаговой задачи оптимального управления динамическая биматричная игра; разработка нового класса комбинированных смешанных стратегий и определение в нем принципа оптимальности (обобщение принципа равновесия по Нэшу); установление факта существования равновесной траектории в динамических матричных играх в классе комбинированных стратегий; разработка вычислительной схемы для равновесной траектории; моделирование процесса производственного инвестирования предприятий-дуополистов в форме динамической биматричной игры в качестве апробации общей модели. Полученные в данной работе результаты могут быть полезными в дальнейшем применении модели динамических биматричных игр в таких сложных средах принятия управленческих решений, как стохастическая и неопределенность.
Ключевые слова: математические модели, биматричные игры, управление, стратегия, уравнение движения, равновесная траектория, динамическое программирование, производство, дуополия, инвестиции, уравнение движения.
N. N. Danilov, L. P. Inozemtseva
Modeling of Dynamic Bimatrix Games in the Form of Problems of Optimal Management and Their Application in the Economy
The article is dedicated to development of a new mathematical model of dynamic bimatrix games as a generalization of static bimatrix games, providing for the time factor. The purpose of bimatrix games, as models of optimal decision-making, is to study problems in socio-economic, political and other fields, characterized as active systems, in order to develop optimal behavior on both sides with overlapping (but not antagonistic) interests. Thanks to the generalized model described in the article, practical application of bimatrix games is
ДАНИЛОВ Николай Николаевич - д. ф.-м. н., проф., зав. каф. прикладной математики Кемеровского государственного университета.
E-mail: danilovnn@mail.ru
DANILOV Nikolay Nikolaevich - Doctor of Physical and Mathematical Sciences, Professor, Head of the Department of Applied Mathematics, Kemerovo State University.
E-mail: danilovnn@mail.ru
ИНОЗЕМЦЕВА Лилия Петровна - к. э. н, доц. каф. финансов и кредита Кемеровского государственного университета.
E-mail: lipetin@yandex.ru
INOZEMTSEVA Lilia Petrovna - Candidate of Economical Sciences, Associate Professor, Department of Finance and Credit, Kemerovo State University.
E-mail: lipetin@yandex.ru
significantly expanded, adequacy of the model to a subject under study and quality of results are improved. This explains the relevance of this work. The main results of the study are: bimatrix game built in the form of the model of a multi-step problem of optimal management; development of a new class of strategies (combined pure and mixed strategies) and definition therein of the optimality principle (generalization of the Nash equilibrium); establishing the existence of equilibrium path in dynamic matrix games in the class of combined strategies; development of calculational scheme of equilibrium trajectory; modeling of a process of investment in companies-duopolists in the form of dynamic bimatrix game (as a way of testing of the generalized model). The results of this work may be useful in the future studies of dynamic models of bimatrix games in such difficult fields of business management decision-making as stochastic and uncertainty.
Keywords: mathematical models, bimatrix games, management, strategy, movement equation, equilibrium trajectory, dynamic programming, production, duopoly, investment, equation of motion.
Введение
Матричные игры как математические модели конфликтных ситуаций имеют достаточно обширное практическое применение. Исторически развитие теории матричных игр, как и всей теории игр [1-17], шло от статических моделей к динамическим. Как обобщения статических игр на определенном этапе развития теории появились классы динамических антагонистических, бескоалиционных и кооперативных игр, которые описываются с помощью дифференциальных или разностных уравнений. Переложение результатов теории статических игр на их динамические аналоги невозможно без разрешения проблем, связанных с особенностями динамических процессов. Прежде всего это учет пространственно-временной среды развития игры и обобщение принципов оптимального поведения игроков. В работах [14-15] был введен новый класс игровых моделей, названный динамическими матричными играми, как обобщение классических матричных игр с учетом фактора времени. Такое обобщение представляется естественным как с теоретической точки зрения - динамические антагонистические игры, которые в свое время были построены путем введения динамики в бесконечные антагонистические игры, так и с практической точки зрения - расширение области приложения теории матричных игр. В [14-15] была построена модель многошаговой матричной игры, определены основные понятия, введен класс комбинированных стратегий и доказано существование оптимальной траектории.
Объектом исследования является класс биматричных игр как математических моделей неантагонистических задач принятия решения. Статические биматричные игры не могут применяться для моделирования динамических процессов.
Цель работы - построение и исследование математической модели биматричной игры с учетом влияния фактора времени в форме задачи оптимального процесса с двумя параметрами управления [18].
Поставленная цель исследования достигается путем решения следующих задач: разработки модели динамической матричной игры из двух составляющих: статической биматричной игры и многошаговой модели оптимальных процессов; введения нового класса комбинированных смешанных стратегий и определения в нем ситуации равновесия как принципа оптимальности; исследования вопроса существования равновесных траекторий в динамических биматричных играх в классе комбинированных стратегий; апробации результатов исследования на примере задачи производственного инвестирования для пред-приятий-дуополистов.
Ввиду ограниченного объема статьи лемма и теорема, касающиеся существования равновесной траектории, приведены без доказательства. По этой же причине решение модельного примера приведено схематично.
Построение модели динамической биматричной игры (ДБИ)
При построении модели ДБИ будем применять схему динамических матричных игр из работ [14-15]. Рассмотрим некоторую управляемую систему, изменение состояния которой происходит в дискретные моменты времени и описывается уравнением
х(г +1) = f (х(г), и{, и'2), I = 0,1,...,Г -1, из заданного начального состояния
х(0) = х0.
(1)
(2)
В (1)-(2) х(()еЯк - вектор состояния; и{ е я'1, и'2 е я'2 - векторы управления в момент /': ЯкхЯ'1 - вектор-функция, характеризующая динамические возможности системы.
Предполагается, что управляющие параметры удовлетворяют условиям
4 еи/, и'2 е и2, г = 0,1,...,Г -1, (3)
где и[ с ^, и2 с ^2 - конечные непустые множества.
Соотношения (1)-(3) определяют дискретную (по времени) систему с двумя управлениями. Будем считать, что выбором управления и1 = {и0,..., ит-1} распоряжается игрок I, а выбором управления и2 = {и0,...,и^1} - игрок II. Множества значений допустимых управлений игроков на всем интервале времени соответственно есть
и1 = и? х... х и1-1, и2 = и2 х ...х иТ-1.
Предполагается, что каждой паре управлений (м1, м2)еи1хи2 соответствует единственная последовательность
х() = х(-,х°,и1,и2) = {х°,х(1),..., х(Т)}
решений системы (1)-(2), которую будем называть траекторией. Множество всех траекторий системы (1)-(2) обозначим Х(х0, Т). Введем в рассмотрение множество
G( х(г -1), г) = {х(/) = х(г, х(г -1), и[-1, м2-1) | х(г -1) е G(х(г - 2), г -1), ы[-1 еи[-1, и'2-1 еи2-1},
, Т (будем считать,
которое будем называть множеством достижимости /-го уровня, t=1, что 0(х(-1),0)= х0). Множество
т
G(x0, Т) = и G( х(г -1), г)
г=1
будем называть множеством достижимости системы (1)-(3). Считается, что х0еG(х0, Т) по определению.
Пусть в каждой точке х=х(/) (/=1, ..., Т) множества достижимости G(х0, Т) системы (1)-(3) определены матрицы выигрышей первого и второго игроков соответственно:
(4)
'ап( х(г)) а12( )) . . <*!„ (X(t)) "
¡ь( X^)) = а21( х0)) а22( x(t)) . . а2п (Х0))
Ка„1( х(Ф ат2( x(t)) . . атп(х(о:>,
' Ьп( х(г)) Ьц( х(г)) . . ЪХп (х(г)) ^
к1( х(г)) = Ьц( х^)) Ьц( х(.)) . . Ь2п (х(0)
V Кх( х0)) Ь„1( х(.)) . . Ьтп (х(0),
(5)
(А1(х0)= ||0|| тхп) и (^(х0)= ||0||тхп) - тхп-матрицы с нулевыми элементами, где т и п конечные числа; в общем случае т = т(х(/)), п=п(х(/))). Целью каждого игрока является максимизация значения своей функции выигрыша:
х(),1,3) = £ аи (х(0),
(6)
t=1
F2(x(■),I,^ = £Ь^ (х(г)), (7)
г=1
где I = t = 1,..., Т}, 3 = {/, t=1, Т} - последовательности чистых стратегий игроков, выбираемых ими в матричных играх hl(x(t)), h2(x(t)), t = 1, .Т.
Чистой комбинированной стратегией (чистой к-стратегией) игрока I (II) назовем любое отображение ф^) ф2()), которое каждому состоянию х(ф) ставит в соответствие некоторый номер it (/) строки (столбца) матрицы h1(x(t)), (h2(x(t))) и некоторое допустимое (на Ф-м шаге) управление и' еЦ' (и'2 еи'2), г = 0,1,...,Г -1.
Множества всех чистых к-стратегий игроков обозначим символами Ф Ф2. Совокупность
^Б (х°,Г) = (£ (х°,Г); Ф„ Ф 2; F2}, (8)
где Х(х°, Т) - символическое обозначение системы (1)-(2), которую назовем динамической биматричной игрой (ДБИ).
Смешанные стратегии игроков в играх hl(x(t)) и h2(x(t)) обозначим символами £ = (%{,...,),П = (П,...,Пп), а их множества - соответственно Z и Н. Введем в рассмотрение Т-кратные прямые произведения
z = г х... х г, н = н х... х н.
Смешанной комбинированной стратегией (смешанной к-стратегией) игрока I (II) в игре ГБ(Х°, Т) назовем любое отображение ^2(0), которое каждому состоянию х(ф) ставит в соответствие некоторую смешанную стратегию £ (/О в игре hl(x(t)) (h2(x(t))) и некоторое допустимое (на Ф-м шаге) управление и{ е и[ (и'2 е и'2), г = 0,1,...,Г -1.
Пара )) = (^,и(х(/)))(^2(х(/)) = (П,и'2(х(/)))) является сечением стратегии щ2()) в момент Ф. Стратегию ^20) как отображение множества G(x°, Т) во множестве ZxU1 (HxU2) будем представлять в виде
^(■) = л,«!(■)) Ш0 = (п,м-))),
где £={Ф =1,., T}6Z, щ(() = {и{ (х(0),! = 0,1,..., Т -1} е и1, (ц = {цф, ф =1,., Т}е^, и2() = {ы'2 (х(!% t = 0,1,...,Г -1} е и2).
Следовательно, в начальном состоянии х° матричная игра h(x°) не определена, а в конечный момент времени Т не определены множества и\ и и\. Множества всех смешанных к-стратегий игроков обозначим символами Ч2. В каждой ситуации ^(^еЧ^Ч выигрыши игроков определяются как
Т т п
К1(х(-),^,П) = £££ хШЦ, (9)
г=1 г=1 ]=1
Т т п
К2(х(-и,п) = Ш Ь (хШЩ, (10)
I=11=1=1
где х() - траектория системы (1)-(2), порожденная допустимыми управлениями и^), и20
В дальнейшем, говоря о к-стратегиях, в игре (8) будем иметь в виду смешанные к-стра-тегии.
Принцип оптимальности в ДБИ
Под принципом оптимального поведения игроков в динамической биматричной игре естественно понимать принцип равновесия по Нэшу, поскольку биматричная игра является частным случаем бескоалиционной игры [1-6]. В таких играх исключается совместный выбор стратегий, поэтому игроки выбирают свои стратегии индивидуально с целью максимизации своих выигрышей.
Для того, чтобы определить понятие ситуации равновесия в игре ГБ(х°, Т), сначала введем понятия «максиминных стратегий вдоль траектории» и «ситуации равновесия вдоль траектории».
Пусть *(•)=x(%x0,Mj(-),u20)),u1(^)eü1 u2(')eP2 - произвольная траектория системы (1)-(2). Смешанные стратегии % е Z и п е H назовем максиминными стратегиями первого и второго игроков соответственно вдоль траектории x(-), если каждые их компоненты<р, п', t = 1,2,...,T являются максиминными стратегиями в статических играх hl(x(t)), h2(x(t)), t = 1,... T.
Как следует из этого определения, максиминными вдоль траектории x(-) являются именно те смешанные стратегии f = (f1,f2,...,fT) и п = (n1,V2,...,VT), на компонентах которых достигаются внешние экстремумы в выражениях
max min K (х(-),£,ц), max min K2(x(-),^,n),
^eZ neH n<sH ^eZ
то есть
maxminK1(x(-),^,n) = minK1(x(-),^ ,n), (11)
^eZ neH n^H '
maxmin K2(x(-),£,n) = min K2(x(-),£,n).
Ввиду компактности множеств смешанных стратегий Z и H достигаются все экстремумы, т. е. существуют максиминные стратегии вдоль каждой траектории.
Предположим, что игра ГБ(х°, T) развивается по траектории x(-) и игроки выбрали максиминные вдоль нее стратегии % е Z и п е H. Тогда по окончании игры выигрыши игроков равны числам
T m n
Kixi-Un) = £££ j xmtfj), (13)
t=1 i=1 j=1
к2(х(-и ,п)=ЕЕЕ ь (хт'п). (14)
I=11=1 ]=1
Как и в статических биматричных играх, можно показать, что ситуация не явля-
ется устойчивой в том смысле, что одновременное отклонение игроков от этой ситуации может увеличить их выигрыши.
Будем говорить, что пара смешанных стратегий (£, п)еZхн является равновесной вдоль траектории х(), если для любых других смешанных стратегий ;еZ и nеH справедливы неравенства:
К(х(й,п) > К( х(-),ш, (15)
К2( х(и,п) * к2(х(и,п). (16)
Как следует из этого, ситуация равновесия, если она существует, является устойчивой против индивидуальных отклонений от нее, так как «уклонист» лишь уменьшает свой выигрыш. Напротив, одновременное отклонение обоих игроков от этой ситуации равновесия может привести к увеличению обоих выигрышей.
Лемма. Вдоль любой траектории в игре ГБ(х°, Т) существует ситуация равновесия в смешанных стратегиях.
Ввиду ограничения объема статьи лемму приводим без доказательства.
Выигрыши игроков в ситуациях равновесия вдоль разных траекторий разные.
Существование равновесной траектории
Равновесная по Нэшу траектория в игре ГБ(х0, Т) в классе комбинированных стратегий вида и щ2() определяется следующим образом.
Будем говорить, что пара комбинированных стратегий щ (•) = (и*(•),§*), у*2 () = (и*2(-),п"') является ситуацией равновесия в динамической биматричной игре ГБ(х0, Т), если выполняются следующие условия:
1) вдоль траектории х*() = х(,х0,и*(),и"2(-)) справедливы неравенства:
К1(х*(•),§*) > К1(х*) для любых ^еЪ, К2(х"(•),§*,ц*) > К2(х"(•),§*,ц) для любых пе^
2) К(х(-,X0,и*(■),и'2(-)),4'П) >К(х(,X0,иО,и2(■)),§*,П) для любых и1(^)еЦ1; К2(х(-,х0,и*(•),
и2 (■)),£">*) > к2(х(-,X0,и(■),м2(•)),§*) для любых и2()еиг
В этом случае траектория х*() = х(,х0,м*(),м2(-)) называется равновесной (по Нэшу) в игре ГБ(х°, Т).
В приведенном определении первое условие - это условие равновесности пар смешанных стратегий (£*,п*) вдоль траектории х*(•), а второе условие - это условие равновесности пары допустимых управлений (и* (), и^ ()) в игре ГБ(х°, Т). Как видно, здесь принцип равновесия использован дважды: сначала на множестве смешанных стратегий ZxH, а во-втором - на множестве допустимых управлений и *и. Характеризуя ситуацию равновесия ( ), ^( )) в классе комбинированных стратегий в игре ГБ(х°, Т), можно заметить, что в отличие от обычных динамических бескоалиционных игр многих лиц (когда функции выигрышей игроков изначально задаются на всем интервале времени аналитически), она имеет две степени устойчивости: первое - это устойчивость пары (£*,п*) против индивидуальных отклонений игроков на множествах Z, ^ второе - устойчивость пары (и* (), и^ ()) против индивидуальных отклонений игроков на множествах и, и.
Теорема. Чтобы в динамической биматричной игре ГБ(х°, Т) существовала равновесная в классе комбинированных стратегий траектория, достаточно, чтобы множества и{, и'2, г = 1,2,...,Г были конечными.
Вычисление равновесной траектории в ДБИ
Особенность вычислительной схемы для равновесной траектории в игре.
ГБ(х°, Т) заключается в сложной структуре к-стратегий вида = (и^), £) и ^2(-) = (и2(-), п). Каждая такая стратегия состоит из теоретико-игровых (£ и п) и управляющих и1(^) и и2(-) со -ставляющих. Чтобы ситуация из к-стратегий (^ (), ^2(')) была равновесной в игре ГБ(х°, Т), нужно, чтобы пара (£*, п*) была сформирована из равновесных по Нэшу смешанных стратегий последовательности статистических биматричных игр [^(х(/)), ^(х(Щ вида (4)-(5), а пара (и1*(), и*()) была ситуацией равновесия в динамической бескоалиционной игре, описываемой соотношениями (1)-(3), (9), (10). В связи с этим вычисление равновесной траектории в ДБИ ГБ(х°, Т) в классе к-стратегий состоит из двух этапов:
1) вычисление ситуаций равновесия вдоль траекторий в игре ГБ(х°, Т) (которые существуют согласно лемме);
2) вычисление равновесной в игре ГБ(х°, Т) траектории (которая существует в условиях теоремы).
На первом этапе, как это вытекает из доказательства леммы, требуется последовательное выполнение следующих действий:
- выбрать пару допустимых управлений и^) еи1 и и2(-) еи2;
- вычислить траекторию х(-)= х(-,х°, и1(^), и2(•)) системы (1)-(2), соответствующую выбранным управлениям и1(^) и и2(-);
- для каждой точки х(ф) траектории х(-)= х(% х°, и1(^), и2(-)) = {х°, х(1),..., х(Т)} вычислить максиминные стратегии % = ) и п = (Пп2 ,...,ПТ) из условий (11)-(12);
- из множества всех максиминных вдоль траектории х(-) стратегий вида найти ситуацию равновесия вдоль траектории х() (из условий (15)-(16)).
На втором этапе среди всех траекторий системы (1)-(3), с вычисленными на первом этапе значениями критериев (9) и (10) найти траекторию, которая является равновесной в ДБИ ГБ(х°, Т). Для этой цели можно применить вычислительную схему, разработанную на основе метода динамического программирования в работе [14] для принципа минимакса в классе к-стратегий. Возможность применения этого метода следует из того факта, что принцип равновесия по Нэшу является частным случаем принципа минимакса из теории антагонистических игр.
Управление производственными инвестициями в условиях дуополии
Покажем применение модели ДБИ в задаче выявления эффективного способа управления производственными инвестициями в условиях рынка, характеризуемого как дуополия.
Дуополия [19] - это разновидность рынка, когда существуют лишь две конкурирующие между собой фирмы, захватившие рыночную власть (имеют определяющую долю рынка) по выпускающим ими товарам.
Планируется деятельность двух предприятий, выпускающих один и тот же товар и имеющих общий рынок сбыта, в течение Т лет, каждое из которых состоит из двух производственных подразделений и имеет начальное инвестиционное средство (обозначим х01 и х°2). Каждый год средства ик предприятия к (к =1,2), вложенные в первое подразделение, приносят к концу года объем выпуска, равный у*(ик). Мы будем считать, что объем выпуска подразделений однозначно определяется объемом вложенных средств. Доход, полученный от этого выпуска, направляется на конечное и производственное потребление. Часть, которая направляется на производство, составляет $ (ик) < ик и вкладывается в производство двух подразделений на следующий год. Аналогично, если ик вкладывается в развитие второго подразделения, получаем соответственно /2 (ик) и ^ (ик). По истечении года каждое из двух предприятий перераспределяет полученные средства между своими подразделениями. Предприятия используют только собственные средства, т. е. заемных средств нет. Заметим, что здесь анализируется зависимость выпуска товара только от капитала, как одного из основных факторов (наряду с такими, как труд, земля и препринимательская деятельность [20].
Задача каждого предприятия состоит в определении оптимального способа распределения инвестиций между своими подразделениями в течение всего планового периода. Применяемые в качестве руководства при выборе конкретного варианта управления инвестициями принципы оптимальности должны, во-первых, быть реалистичными, т. е учитывать особенности среды и тех условий, которые сопровождают процесс производства; во-вторых, отражать содержательое представление о предпочтительности на множестве всех допустимых управлений.
При построении математической модели этой задачи будем исходить из следующих предположений:
1) существует лишь конечное число реальных вариантов распределения средств в начале каждого года каждым из двух предприятий;
2) с учетом последовательного (во времени) распределения инвестиций доход за плановый период вычисляется с дисконтом.
Заметим, что между двумя предприятиями-дуополистами прямого противостояния (антагонизма) нет, но доход каждого из них зависит от объема выпуска и продажной цены на товар другого; каждое предприятие-дуополист стремится максимизировать свой собственный доход. Поэтому изложенную выше задачу будем моделировать как динамическую биматричную игру, а в качестве принципа оптимальности применять равновесие по Нэшу.
Обозначим через хк() объем средств предприятия к (к =1,2), направляемых в год Ф на развитие производства двух его подразделений (при Ф=0 хк(Ф)=х°к); и1 (г) - объем средств, направляемых на первое подразделение предприятия к (на второе подразделение направляется хк( -1) - П()). Обозначим ик(0 = {0 < и!{(0 < хк( -1)} конечное множество вариантов инвестиций, направляемых на первое подразделение предприятия к в год ф. Будем считать, что для любого Ф= 0,1,..., Т у первого предприятия таких вариантов I (т. е. множество и1(Ф) состоит из ^элементов вида )), а у второго предприятия - г (т. е. множество и2(Ф) состоит из г элементов вида и\()). Множества и1(Ф) и П2(Ф) будем называть множествами допустимых управлений первого и второго предприятий соответственно в год ф. Тогда множествами допустимых управлений предприятий на всем отрезке времени [0, Т] (на всем периоде планирования) являются множества
и1 = и !(1) х... х и\Г); и2 = и 2(1) х... х и2(Г).
Как известно [21], потоки денежных поступлений должны рассчитываться с учетом годовых процентных ставок и дисконтирования. Годовая ставка, равная доходности инвестиций, в нашей задаче равна
xk(t -1) -uk(t) „
dk (t) = —i-f-^, t = 1,2,...,T,
uk (t)
а дисконтирующий множитель есть 1/(1+dk(t)).
Под фазовым состоянием в рассматриваемой задаче будем понимать вектор x(t) = (x'(t), x2(t)). Доход предприятий в состоянии x(t) (в год t) будем вычислять по формуле:
—-1—- Г fk (uk (t)) + fk (x(t -1) - uk (t))] pk (x(t)), k = 1,2, [ 1 + dk (t я Г J
где pk(x(t)) - цена товара предприятия k. Так как при направлении на первое подразделение средств в объеме u^ (t), инвестиции во второе подразделение определяются однозначно как xk (t -1) - u1 (t) = u\ (t), то в дальнейшем вместо U (t) будем использовать uk(t).
Математическая модель инвестирования имеет форму многошаговой задачи оптимального управления (в векторной форме):
x(t) = <p1(u(t)) + <p2(x(t -1) -u(t)), t = 1,2,...,T; x(0) = x0, u(t) e U(t), t = 1,2,...,T; t 1
-7777[(t)) + fi(x(t -1) - u(t))]]x(t)) ^ max,
Ш1 + d (t)]tL
где xeR2, ueR2, ф ф d, f f и p - двумерные вектор-функции. В координатной форме эта модель выглядит так:
xk(t) = qk(uk(t)) + (xk(t -1) - uk(t)), k = 1,2; t = 1,2,...,T;xk(0) = xk, k = 1,2; (17)
uk(t) eUk(t), k = 1,2; t = 1,2,...,T;
T 1
Hk (xk (■)) = У fk (uk(t)) + ft (xk (t -1) - uk (t))] pk (x(t)) ^ max, k = 1,2.
1=1 [1 + d (t)]t
В дуополии (как и в олигополии) предприятия не только сами определяют объем выпуска, но и имеют некоторую власть над ценообразованием. Однако в отличие от монополиста дуополист не обладает полной властью над ценообразованием, так как имеется конкуренция между предприятиями. Поэтому конечный успех дуополиста зависит существенным образом от его решения относительно цены товара.
Для определенности будем считать, что у предприятия I в любой момент t имеется m реальных вариантов выбора цены своего товара: p\(x(t)),p\(x(t)),...,plm(x(t)); а у предприятия II - n реальных вариантов выбора цены своего товара: pj2(x(t)),p2(x(t)),...,pl(x(t)) (x(t)=x'(t), x2(t)). Величина
pk x)=
P;(x) - Р/(x) f Р/Сx) - Р/(x) ^
Pl( x)
Р/С x) = -
V
pj ( x)
называется относительной доходностью цены pj(x) (pj (x)) первого (второго) предприятия против цены pj (x) (p1(x)). Это есть аналог сравнительных вариаций по объему выпуска в дуополии [19].
Введем следующие обозначения:
4 ( x(t)) = ^ . Г fV(t )) + f\(x\t -1) - u\t ))] pi ( x(t )), t = 1 ,2,...,T, [1 + d (t )] Г J
- доходность первого предприятия в состоянии x(t) = (x'(t), x2(t)) при выборе им цены
pj(x(t)), а вторым предприятием - цены pj (x(t)). Здесь зависимость ajj (x(t)) от поведения
1 2
второго предприятия отражается зависимостью pj ( x(t )) от pj ( x(t));
aj (X{t » = lt Г f^t )) + f22(x2(t -1) - u 2(t ))! P)i (х(* )), t = 1,2,...,T, [1 + d (t)] L J
- доходность второго предприятия в состоянии x(t) = (x'(t), x2(t)) при выборе им цены
р2(х(0), а первым предприятием - цены р\(х^)). Здесь зависимость а2(х(^) от поведения первого предприятия отражается зависимостью р 2 (х^)) от р)( х
Составим следующую матрицу доходности предприятий в состоянии х(0 (/ = 1,2,..., Т):
' (^(х«),с2 (х(0)) ... (Сп(х(0),<$„(х(0)) Л [А (х{1)), А2 (х(1))] = (С21 (х(')), С221 (х(1))) ... Сп (х(1)),С22й (х(*)))
(с^1(х(г)),С21(х(г)))... (сСтп(х(г)),с2тп(х(г)))
В дальнейшем будем считать, что такая матрица вычислена во всех допустимых состояниях х(0 eG(x0, Т) (где G(x0, Т) - множество достижимости в задаче (17)).
Построенная биматричная игра [А'(х(/)), А2(х(/))] определяет объемы доходов предприятий в зависимости от того, какую цену своего товара они определяют в состоянии х().
Формально развитие производственного процесса на модели (17) можно представить так. В каждом состоянии х() вдоль траектории х(-) = х(х0, х(1),..., х(Т)) предприятия разыгрывают биматричную игру [А'(х(/)), А2(х(/))], в которой предприятие 1 (игрок I) выбирает одну из т строк (что соответствует выбору одной из цен р\(х^)), I = 1,...,т), а второепредприятие (игрокП) выбирает один из п столбиков (что соответствует выбору одной из цен р2 (х^)), ] = 1,...,п). В результате предприятияполучают выигрыши (х(ф и а2(х(ф, соответствующие выбранным ценовым показателям. В результате, вдоль траектории х(^) = (х'(^), х2(}) (х!(-) = х(,х0,м1(-)),х2() = х(-,х1,и2(-)), которую можно также представить как х(-) = (х0,х(1),..., х(Т)), игроки получают соответственно выигрыши
Н\х(-)) = ^а{к (х(1)), Н2(х(-)) = (х(г)),
где ¡, ]г - выбираемые игроками стратегии в игре [А'(х(0), А2(х())], / =1,., Т.
Исходя из всего сказанного, модель (17) можно представить как следующую динамическую биматричную игру:
Хк ^) = ^ (ик ^)) + (хк ( -1) - ик ^)), к = 1,2; I = 1,2,...;
Тхк(0)=
хк, к = 1,2;
ик(t) еЦкк = 1,2; I = 1,2,...,Т;
Нк(*(•)) = £а^ (х(1)), к = 1,2.
(18)
Числовой пример
Рассмотрим игру (18) при следующих числовых значениях ее параметров:
х1(г) = 0,7м1(г) + 0,5(х1(г -1) - и1 (0), г = 1,2,3; х2 0) = 0,8м2 (г) + 0,6(х2 (г -1) - и2 (г)), г = 1,2,3; х01 = 1, х02 = 1,2; их(г) е и) = {0,8Дг -1), 0,3х\г -1), 0,5х\г -1)}, г = 1,2,3; и2(0 е и2(г) = {0,5х2( г -1), 0,7х2(г -1), 0,4х2(г -1)}, г = 1,2,3;
(*(0) =
а2 у, (*(,)) =
1
[1 + а)] 1
■ [2м1 (,) +1,8(х1 (, -1) - и1 (,))]р1 (х(,)),
[1,5и2 (,) + 2,1(х2 (, -1) - и2 (,))]р2 (х(,)),
[1 + а 2(,)]'
I,,], = 1,2; , = 1,2,3. (19)
Для нахождения ситуации равновесия в полученной динамической биматричной игре используем вычислительную схему, приведенную выше.
t=1
г=1
г=1
Для выбора в момент t = 1 допустимых управлений и'(1) и и2(1) определим вид множеств
и !(1) = {0,8x0; 0,3x1; 0,5x0) = {0,8; 0,3; 0,5};
и2(1) = {0,5x2; 0,7х02; 0,4х20} = {0,6; 0,84; 0,48}.
Вычислим траектории х() = (х1(-),х2()), исходящие из начального состояния х0 = (х\, Х0) = (1; 1,2) и соответствующие всем парам управлений из множества и1 хи2 = = {и!(1) х и2(1), и 1(2) х и2 (2), и!(3) х и2(3)} (ввиду ограничения объема статьи выкладки опускаем):
х() = (х\- ; 1; 0,8),х2(- ; 1,2; 0,6)) = {(1; 1,2),(0,66; 0,84),(0,49; 0,62),(0,41; 0,49)}.
В каждом из трех состояний х(1) = (0,66; 0,84), х(2) = (0,49; 0,62), х(3) = (0,41; 0,49) вычислим матрицы выигрышей [А'(х(/)),А2(х())], t =1,2,3. Для этого доходности аРф и аР(/) положим постоянными и равными одному и тому же числу 0,08 (например годовая ставка по депозитному вкладу).
Предположим, что первый игрок в состоянии (0,66;0,84) может выбрать одну из двух цен р = 0,004 или р1 = 0,005, а второй игрок - = 0,003 или р2 = 0,006. Вычислим элементы матрицы А'(х'(1)) и А2(х2(1)) (ввиду ограничения объема статьи выкладки опускаем):
1 1 (0,45 - 0,9 ^ 2 2 (0,66 -1,32
А\х\\)) = | I, А2(х2(1)) = |
У0,72 0,36) у0,69 0,34
В точке х(1) = (0,66;0,84) биматричная игра имеет вид:
1 2 ((0,45; 0,66) (-0,9; -1,32)^
[ А(х(1)), А2( х(1))] = Г Ч (20)
(0,72; 0,69) (0,36; 0,34) ) V '
Для нахождения максиминной смешанной стратегии = ) первого игрока в игре (20) решаем следующую систему:
0,45^ + 0,72«2* = V1, -0,9^4 0,36«2* = V1,
+ £ = 1, 0, 0,
где V - значение игры А'(х'(1)) в смешанных стратегиях.
Решая эту систему, получаем:
$ =__= -036 = 0,23; $ = 1 - 0,23 = 0,77;
0,45 - 0,9 - 0,72 - 0,36 -1,53
V _ 0,45 ■ (-0,36) -(-0,9) ■ 0,72 _ -0,49 _ 0 32
V 0,45 - 0,9 - 0,72 - 0,36 -1,53 ' '
Аналогично найдем максиминную смешанную стратегию п" = (п* >Пг) второго игрока в игре (20), решая систему:
0,69п" -1,32п" = V2,
0,66^" + о,з4п" = V2, п1*+ п""=1;
, 0,34 +1,32 1,66 , п =-=-= 0,72; п2 = 1 -0,72 = 0,28.
0,66 +1,32 + 0,69 - 0,34 2,3
2 _ 0,66 ■ 0,36 - (-1,32) ■ 0,69 _ 1,15 _ 0 5 V _ 0,66 +1,32 + 0,69-0,34 _ 2,3 _ , '
Вычисленные в игре (20) максиминные смешанные стратегии (0,23; 0,77) и п* (0,72; 0,28) согласно леммы пункта являются равновесными. При этом стратегиям £** и п* соответствуют ожидаемые выигрыши, равные v1= 0,32 и v2= 0,5.
Максиминные смешанные стратегии и ожидаемые выигрыши в состояниях и вычисляются аналогично.
Выполняя аналогичные действия для остальных состояний в момент, соответствующий оставшимся восьми ситуациям вида, можно найти предпочтительное с точки зрения ожидаемых выигрышей равновесное состояние. Из этого состояния, как из начального, повторяется приведенная выше итерация при t=2 и далее при t=3.
Применяя далее вычислительную схему, разработанную на основе метода динамического программирования в [14], находим существующую (согласно утверждению теоремы) равновесную в игре (19) ситуацию = (и* (■),£* () = (и*(-),п*) в классе ком-
бинированных стратегий. При этом траектория х*(-) = (х0, х*(1), х*(2), х*(3)), порожденная управлениями щ(-)и и*(), является равновесной в игре (19). Заметим, что в приведенной вычислительной схеме присутствует характерная для метода динамического программирования проблема, связанная с большой размерностью.
Заключение
В настоящее время в теории игр наиболее интенсивно развиваются динамические (дифференциальные и многошаговые) игры [11, 13-17]. Исследования дифференциальных игр дают мощные теоретические результаты, а многошаговых - результаты, более приближенные к практическому применению.
В дифференциальных бескоалиционных играх двух лиц множества значений управляющих параметров считаются непрерывными (по элементам) и, как правило, компактными. В данной работе построена модель многошаговых биматричных игр с конечными множествами стратегий.
В прикладных задачах принятия решения или выявления эффективных способов управления (в области экономики, социологии, техники и др.), как правило, идет речь о выборе (решения, управления) из конечного множества наиболее реальных вариантов. С этой точки зрения введенный в работе класс игровых моделей, во-первых, имеет очевидную практическую значимость, во-вторых, расширяет область применения биматричных игр как моделей принятия эффективных управленческих решений. Полученные в статье результаты будут полезными при моделировании подобных задач в стохастической среде и в условиях полной неопределенности.
Л и т е р а т у р а
1. Нейман Дж. фон. Теория игр и экономическое поведение. - М.: Наука, 1970. - 707 с.
2. Льюс Р. Д., Райфа Х. Игры и решения. - М.: ИЛ, 1961. - 642 с.
3. Оуэн Г. Теория игр. - М.: Мир, 1971. - 230 с.
4. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. - М.: Наука, 1984. - 495 с.
5. Геймейер Ю. Б. Игры с непротивоположными интересами. - М.: Наука, 1976. - 327 с.
6. Петросян Л. А. Теория игр. - М.: Высшая школа. - 1998. - 304 с.
7. Айзекс Р. Дифференциальные игры. - М.: Мир, 1967. - 480 с.
8. Понтрягин Л. С. Линейные дифференциальные игры преследования // Матем. сб., 1980. Т. 112, № 3. - С. 307-330.
9. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. - М.: Наука, 1974. -518 с.
10. Петросян Л. А. Дифференциальные игры преследования. - Л.: Изд-во Ленингр. ун-та, 1977. - 224 с.
11. Петросян Л. А., Томский Г. В. Динамические игры и их приложения. - Л.: Изд-во Ленингр. ун-та, 1982. - 252 с.
12. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения. -Томск, Изд-во Томск. ун-та, 1985. - 276 с.
13. Зенкевич Н. А., Петросян Л. А., Янг Д. В. К. Динамические игры и их приложения в менеджменте: учеб. пособие. - СПб.: Высшая школа. менеджмента, 2009. - 415 с.
14. Данилов Н. Н. Динамические матричные игры. Обоснование применения принципа минимакса в классе чистых комбинированных стратегий // Вестн. Кемер. ун-та, 2012. Вып. 2 (50). - С. 42-49.
15. Данилов Н. Н. Динамические матричные игры и их смешанное расширение // Вестн. Кемер. ун-та, 2014. Вып. 2 (58). - С. 62-69.
16. Колокольцов В. Н., Малафеев О. А. Математическое моделирование многоагентных систем конкуренции и кооперации (теория игр для всех). - СПб., Лань, 2015. - 640 с.
17. Мазалов В. В. Математическая теория игр и приложения. - СПб., Лань, 2015. - 448 с.
18. Понтрягин Л. С. Математическая теория оптимальных процессов. - М.: Наука, 1983. - 393 с.
19. Данилов Н. Н. Курс математической экономики. - М.: Высшая школа. - 2006. - 407 с.
20. Иноземцева Л. П. Финансы в структурно-логических схемах. - Новосибирск, Изд-во СО РАН, 2004. - 227 с.
21. Четыркин Е. М. Финансовая математика. - М.: Дело, 2001. - 397 с.
R e f e r e n c e s
1. Neiman Dzh. fon. Teoriia igr i ekonomicheskoe povedenie. - M.: Nauka, 1970. - 707 s.
2. L'ius R. D., Raifa Kh. Igry i resheniia. - M.: IL, 1961. - 642 s.
3. Ouen G. Teoriia igr. - M.: Mir, 1971. - 230 s.
4. Vorob'ev N. N. Osnovy teorii igr. Beskoalitsionnye igry. - M.: Nauka, 1984. - 495 s.
5. Geimeier Iu. B. Igry s neprotivopolozhnymi interesami. - M.: Nauka, 1976. - 327 s.
6. Petrosian L. A. Teoriia igr. - M.: Vysshaia shkola. - 1998. - 304 s.
7. Aizeks R. Differentsial'nye igry. - M.: Mir, 1967. - 480 s.
8. Pontriagin L. S. Lineinye differentsial'nye igry presledovaniia // Matem. sb., 1980. T. 112, № 3.
- S. 307-330.
9. Krasovskii N. N., Subbotin A. I. Pozitsionnye differentsial'nye igry. - M.: Nauka, 1974. - 518 s.
10. Petrosian L. A. Differentsial'nye igry presledovaniia. - L.: Izd-vo Leningr. un-ta, 1977. - 224 s.
11. Petrosian L. A., Tomskii G. V. Dinamicheskie igry i ikh prilozheniia. - L.: Izd-vo Leningr. un-ta, 1982. - 252 s.
12. Petrosian L. A., Danilov N. N. Kooperativnye differentsial'nye igry i ikh prilozheniia. - Tomsk, Izd-vo Tomsk. un-ta, 1985. - 276 s.
13. Zenkevich N. A., Petrosian L. A., Iang D. V. K. Dinamicheskie igry i ikh prilozheniia v menedzhmente: ucheb. posobie. - SPb.: Vysshaia shkola menedzhmenta, 2009. - 415 s.
14. Danilov N. N. Dinamicheskie matrichnye igry. Obosnovanie primeneniia printsipa minimaksa v klasse chistykh kombinirovannykh strategii // Vestn. Kemer. un-ta, 2012. Vyp. 2 (50). - S. 42-49.
15. Danilov N. N. Dinamicheskie matrichnye igry i ikh smeshannoe rasshirenie // Vestn. Kemer. un-ta, 2014. Vyp. 2 (58). - S. 62-69.
16. Kolokol'tsov V. N., Malafeev O. A. Matematicheskoe modelirovanie mnogoagentnykh sistem konkurentsii i kooperatsii (teoriia igr dlia vsekh). - SPb., Lan', 2015. - 640 s.
17. Mazalov V. V. Matematicheskaia teoriia igr i prilozheniia. - SPb., Lan', 2015. - 448 s.
18. Pontriagin L. S. Matematicheskaia teoriia optimal'nykh protsessov. - M.: Nauka, 1983. - 393 s.
19. Danilov N. N. Kurs matematicheskoi ekonomiki. - M.: Vysshaia shkola. - 2006. - 407 s.
20. Inozemtseva L. P. Finansy v strukturno-logicheskikh skhemakh. - Novosibirsk, Izd-vo SO RAN, 2004.
- 227 s.
21. Chetyrkin E. M. Finansovaia matematika. - M.: Delo, 2001. - 397 s.
^SHir^îr