Дизайн механизма координации игроков в динамической игре с целью максимизации эффективности системы их взаимодействия

Пичугин Артем Олегович; Романников Александр Николаевич

ДИЗАЙН МЕХАНИЗМА КООРДИНАЦИИ ИГРОКОВ В ДИНАМИЧЕСКОЙ ИГРЕ С ЦЕЛЬЮ МАКСИМИЗАЦИИ ЭФФЕКТИВНОСТИ СИСТЕМЫ ИХ ВЗАИМОДЕЙСТВИЯ

УДК: 330.42

Артем Олегович Пичугин,

аспирант кафедры Прикладной математики МЭСИ Тел.: 8 (905) 780-30-46 Эл. почта: aopichugin@gmail.com

Александр Николаевич Романников,

к.э.н., доцент кафедры Прикладной

математики МЭСИ

Тел.: 8 (903) 120-83-10

Эл. почта: anromannikov@mesi.ru

Нередко в рамках своей деятельности те или иные субъекты вынуждены взаимодействовать с другими субъектами одной системы. И это взаимодействие может иметь антагонистический характер, несмотря на то, что они находятся в рамках одной системы, и игра, которой описывается взаимодействие в системы, не является игрой с нулевой суммой. В статье предлагается механизм, который позволяет изменить взаимодействие игроков с антагонизма на кооперацию.

Ключевые слова: дизайн механизмов, теория игр, конфликт, антагонизм, кооперация.

Artem O. Pichugin,

Postgraduate student of the Department of Applied Mathematics MESI Tel.: 8 (905) 780-30-46 E-mail: aopichugin@gmail.com

Alexander N. Romannikov,

PhD in Economics, Associate Professor of the Department of Applied Mathematics MESI

Tel.: 8 (903) 120-83-10 anromannikov@mesi.ru

DESIGN MECHANISM OF PLAYERS' COORDINATION IN DYNAMIC GAME FOR MAXIMIZING THE EFFECTIVENESS OF THEIR INTERACTIONS

Quite often within the activity subjects are compelled to interact with other subjects of one system. And this interaction can have antagonistic character in spite of the fact that they are within one system, and game by which interaction in systems is described, isn't game with the zero sum. In the article the mechanism which allows to change interaction of players from antagonism to cooperation is offered.

Keywords: design mechanism, game theory, conflict, antagonism, cooperation.

1. Введение

Человек в течение своей жизни нередко становится частью различного рода ситуаций, в которых его интересы оказываются отличными от интересов других людей, с которыми приходится взаимодействовать в рамках одной системы. Такого рода ситуации называются конфликтами, и их изучением занимается теория игр.

Стандартный анализ с точки зрения теории игр включает в себя рассмотрение последствий принятия решений одним игроком при условии, что второй игрок поступит определенным образом. При этом, как правило, под игроком понимается лицо, принимающее решение в рамках рассматриваемого конфликта (игры). Однако в любой игре неявным образом всегда присутствует еще одно лицо - создатель игры, или иначе разработчик механизма.

В статье [1] дается следующее определение механизму:

«Механизм... задает множество выборов экономических субъектов и связанные с каждым из этих выборов результаты. В этом смысле механизм задает систему стимулов и близок тем самым к понятию экономического института, который тоже за счет создания правил структурирует выигрыши от тех или иных стратегий, выстраивая систему стимулов».

Например, если говорить о такой классической задаче теории игр как «Дилемма заключенного» [2], то таким третьим неявным игроком является государство, которое сконструировало законы (механизм) таким образом, что они максимизируют его выгоду (в данном случае предполагается, что государство заинтересовано в привлечении к ответственности всех лиц, совершивших преступление). В то же время, в другой классической задаче теории игр «Битва полов» [3] таким третьим неявным игроком можно считать Природу, которая заложила в человеческий организм желание совместного времяпрепровождения с близким человеком, несмотря на заложенный этой же Природой эгоизм.

Тем не менее, свойство Природы таково, что она сконструировала законы максимально возможного универсального характера [4]. Это означает, что в каких-то отдельных и конкретных ситуациях могут возникать негативные эффекты, снижающие потенциальную эффективность взаимодействия лиц.

Из этого следует, что для повышения эффективности в таких случаях необходимо вмешательство человека. Человек должен взять на себя роль разработчика механизма, позволяющего повысить эффективность рассматриваемой системы взаимодействия.

Основной проблемой, которая мешает эффективности системы взаимодействия, является недостаток координации и кооперации игроков [5].

2. Разработка эффективного механизма координации и кооперации

Рассмотрим дискретную динамическую игру с неполной информацией. Предположим, что в настоящий момент эта игра является антагонистической, что означает в общечеловеческом понимании ситуацию острого конфликта: потери одного игрока являются приобретениями другого.

Основная задача состоит в том, чтобы разработать такой механизм, который бы обеспечивал создание таких условий этой игры, при которых бы достигался максимум эффективности системы взаимодействия игроков. Иными словами, цель механизма - создать условия, в которых игроки смогли бы прийти к согласию относительно новых условий исходной игры, обеспечивающих координацию и кооперацию, а не антагонизм.

Разработка любого продукта начинается с формулирования требований к этому продукту. В данном случае требования будут выглядеть следующим образом.

1. Игроки должны желать координации

Это требование означает, что разрабатываемый механизм должен обеспечить существование непустого множества стратегий игроков, приводящих к заданному уровню эффективности системы взаимодействия. Формально это требование выглядит следующим образом:

у1(Х*) < у1(хе) - с, (хе) (1)

где V, - полезность игрока 1, с, - затраты игрока 1, х* - текущая оптимальная стратегия,

хе - эффективная стратегия.

Иными словами, полезность от текущей оптимальной стратегии каждого игрока должна быть не больше полезности от эффективной стратегии за вычетом затрат на ее достижение.

2. Игроки должны выбирать сходящиеся стратегии

Это требование означает, что разрабатываемый механизм должен обеспечить сходимость стратегий игроков к достижению согласия относительно новых условий исходной игры. Формально это требование выглядит следующим образом:

Иш(С, - С-1) = 0 (2)

где С, - предложение игрока в период времени

Иными словами, каждая последующая стратегия игрока должна приводить к все меньшим колебаниям предлагаемых условий игры вплоть до полного согласия относительно последней их версии.

3. Игроки должны быть уверены в соблюдении новых условий игры

Это требование означает, что разрабатываемый механизм должен обеспечить выгоду использования новых условий игры в каждый из последующих моментов времени для всех игроков. Формально это требование выглядит следующим образом:

vf(x*) < ^(хе) - сТг(хе) (3)

т

где V, - полезность игрока 1 в постпереговорный период,

т

с, - затраты игрока 1 в постпереговорный период.

Иными словами, механизм должен иметь систему стимулов (как отрицательных, так и положительных), обеспечивающих использование новой системы правил вплоть до достижения заданного уровня эффективности системы взаимодействия.

Необходимость удовлетворения первого требования к механизму означает, что при отсутствии в настоящий момент такого непустого множества стратегий игроков необходимо сконструировать дополнительную игру, направленную на допереговорный период, которая бы создавала своего рода это «окно возможностей».

Например, это может означать реализацию определенных действий игроком, которые бы корректировали значения функции полезности другого игрока от эффективной стратегии в сторону его увеличения. Так, в рамках системы взаимодействия «общество-государство» первый игрок может реализовать стратегию всеобщей забастовки, принудив тем самым государство вступить в координацию с обществом для дальнейшего достижения заданной эффективности взаимодействия.

Необходимость удовлетворения второго требования к механизму упирается в вопрос о возможных причинах выхода игроков из процесса переговоров по созданию новых условий игры. К таким причинам можно отнести:

• исчезновение «окна возможностей» согласно первому требованию,

• истечение времени, отведенного на процесс создания новых условий игры,

• новые условия игры созданы.

Исчезновение «окна возможностей» при этом может быть связано, во-первых, с увеличением издержек по координации, как минимум, одного из игрока. На практике это означает, совершение игроком ка-

кой-либо деструктивной стратегии, снижающей желание дальнейшей координации. А во-вторых, с неверной оценкой уровня полезности другого игрока от реализации совместной эффективной стратегии. На практике это означает безуспешность попыток со стороны одного из игроков добиться дополнительных уступок со стороны другого.

Как видно, полностью уйти от антагонизма в рамках конфликтных ситуаций сложно. Гораздо проще только лишь свести изначальную антагонистическую игру к условно-антагонистической. Это означает, что целиком игра является кооперативной, однако содержит в себе подмножества антагонистических игр, в рамках которых игроки стараются максимизировать свое благосостояние за счет благосостояния другого игрока.

Необходимость удовлетворения третьего требования к механизму означает, что он должен включать в себя игру, направленную в постпереговорный период. На практике это означает, что игроки по результатам переговорного процесса должны иметь набор санкций, которые будут применяться в случае нарушения новых условий игр каким-либо игроком.

Таким образом, описанные выше рассуждения можно выразить в виде принципиальной схемы разрабатываемого механизма, представленной на рис. 1.

Остановимся на каждой из этих игр подробнее и дадим формальное описание каждой с учетом описанных выше требований к механизму.

Рис. 1. Принципиальная схема механизма координации игроков

а. Игра, принуждающая к переговорам

В первую очередь необходимо отметить, что инициатором игры принуждения к переговорам будет тот игрок, кто недоволен текущим равновесным состоянием в системе взаимодействия. Недоволен он может быть, оценивая издержки упущенных возможностей, то есть, оценивая разность полезностей текущего значения функции полезности и его значения в эффективном состоянии системы взаимодействия. Формально это означает, что:

у,(хе) - уг(х*) > е (4)

где е - пороговое значение, при котором игрок предпримет действия по принуждению.

Предположим для простоты, Игрок 1 имеет две произвольных стратегии в игре принуждения: Стратегия 1 и Стратегия 2. Игрок 2 в то же время также имеет две стратегии: Участие в переговорах и Неучастие в переговорах. Тогда игру принуждения можно будет описать в форме, представленной в табл. 1.

Для того чтобы игра принуждения была успешной, необходимо, чтобы Игрок 2 в ходе реализации игры выбрал стратегию Переговоров. В зависимости от возможностей управления Игрок 1 может выбрать один из следующих способов конструирования соответствующих условий игры принуждения:

1. Имеется возможность напрямую влиять на любое из значений функции полезности Игрока 2. Тогда необходимо изменить эти значения в соответствии со следующими условиями:

Ь11 > Ь12 (5) Ь21 > Ь22 (5)

Таким образом, тогда для Игрока 2 стратегия Переговоров окажется строго доминирующей.

2. Имеется возможность напрямую влиять только на одно из зна-

чений функции полезности в рамках каждой стратегии Игрока 2. Известен принцип, по которому Игрок 2 принимает решение. Например, для максиминного подхода необходимо изменить указанные выше значения в соответствии со следующими условиями:

min{bn} > min(b12> (6)

Таким образом, тогда для Игрока 2 стратегия Переговоров окажется более выгодной с точки зрения максиминного подхода.

3. Имеется возможность напрямую влиять на все значения своей (Игрока 1) функции полезности. Имеется возможность напрямую влиять на два значения функции полезности Игрока 2 в рамках реализации доминирующей стратегии Игрока 1. Тогда необходимо изменить указанные выше параметры в соответствии со следующими условиями:

aii > a-ii

ai2 > a-i2 (7)

bii > bi2

Таким образом, в этом случае Игрок i создает такую стратегию, которая является для него доминирующей, и в рамках которой он способен управлять значениями полезности Игрока 2. В условиях наличия доминирующей стратегии Игрока i другой игрок вынужден выбирать всего из тех двух значений, которыми управляет Игрок i.

б. Динамическая игра переговоров

Эта динамическая игра описывается следующим образом. Существует набор переговорных параметров X, который входит в функцию полезности - f('X) - игроков. Игроки осуществляют ход по очереди. Ход заключается в том, что игроком предлагается матрица затрат [mxn] по переговорным параметрам, где m - число игроков, а n - число переговорных параметров. Также в рамках своего хода игрок может либо согласиться с предложением,

Таблица 1

Платежная матрица игры принуждения к переговорам

Переговоры Не-Переговоры

Стратегия 1 (an; bn) (ai2; bi2)

Стратегия 2 (a2i; b2i) (a22; b22)

выдвинутым другим игроком, либо внести свое предложение.

Очевидно, что в таком виде игра не будет обладать свойством сходимости. В описанных условиях каждый из игроков будет максимизировать свою функцию полезности, сводя к нулю свой вектор затрат, и увеличивая затраты других игроков так, что они обеспечат максимум его функции полезности.

Это означает, что в игру нужно внести дополнительные элементы, обеспечивающие требование сходимости этой динамической игры. Таким дополнительным элементом может являться дисконтирующий фактор: каждый последующий ход игроков несет в себе все меньшую полезность. На практике это может означать, что все игроки несут всё большие потери, связанные с организацией игры переговоров.

Необходимо отметить, что эта динамическая игра проходит на фоне игры, принуждения к переговорам. И условия, достигнутые в принуждающей игре, могут оказывать давление на скорость принятия решений в переговорной игре. Например, в рамках системы «общество-государство» первый игрок может выбрать стратегию забастовки, которая позволит принудить второго игрока использовать стратегию переговоров. Забастовка не является в рамках системы взаимодействия выгодной для обоих игроков, все несут издержки и с каждым тактом времени всё большие.

Таким образом, исходя из наличия в игре дисконтирующего фактора, последовательность действий в рамках этой динамической игры для достижения эффективного состояния будет следующей:

1. Каждый игрок формирует идеальное с его точки зрения предложение.

2. Полученные от каждого из игроков предложения синтезируются в одно композитное предложение.

3. Каждый из игроков демонстрирует свою функцию полезности вместе с ограничениями на затраты других игроков (платежи ему) относительно каждого переговорного параметра.

4. Производится оптимизация матрицы затрат, начальное состоя-

ние которой задается композитным предложением, с целью достижения максимально возможной суммы значений функций полезности игроков.

Стоит еще раз обратить внимание на то, что описанный алгоритм, является работающим только в условиях наличия дисконтирующего фактора, так как именно он обеспечивает сходимость стратегий игроков.

Игрок, формируя с его точки зрения идеальное предложение, демонстрирует другим игрокам свои предпочтения. Для чего ему это делать? Для него это является выгодной стратегией в описанных условиях, так как он заинтересован в наискорейшем окончании игры переговоров ввиду дисконтирующего фактора. По этой же причине он готов будет продемонстрировать другим игрокам свою функцию полезности.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, максимум открытости информации в данном случае соответствует минимуму времени динамической игры переговоров, что тем самым означает сходимость стратегий игроков.

в. игра, принуждающая к соблюдению новых условий

Как уже было сказано, все предыдущие действия не будут иметь совершенно никакого смысла, если не будет обеспечено в последующий период времени выполнение условий взаимодействия, о которых договорились игроки.

Это означает, что необходима дополнительная игра, которая принуждает игроков к соблюдению условий. В рамках этой игры (см. табл. 2) у каждого из игроков имеется две стратегии: «Соблюдать» и «Не соблюдать» новые условия игры.

Исходя из логики происходящего, будет разумно предположить, что одностороннее отклонение от соблюдения условий будет приносить игроку дополнительную полезность по сравнению со случаем, когда оба игрока будут соблюдать условия. С другой стороны, второй

игрок будет получать пониженную полезность в то время, когда первый игрок в одностороннем порядке выберет несоблюдение условий. Случай, когда оба игрока не соблюдают условия, приводит систему в состояние статуса-кво - того состояния, с которого начались попытки наладить координацию. Исходя из этого, для обоих игроков этот случай будет нежелателен. В рамках описанной логики платежи игроков должны будут описываться следующими соотношениями:

a21 > a11 > a12 > a22 bj2 > b„ > b21 > b22

(8)

В предположении, что игроки будут пользоваться критерием мак-симина, в игре будет существовать равновесное состояние в виде обоюдного соблюдения новых условий взаимодействия в рамках системы.

Основной задачей в конструировании такой игры является то, чтобы состояние обоюдного соблюдения условий было выгоднее для игроков состояния обоюдного несоблюдения условий.

Заключение

Таким образом, в конечном итоге в рамках этой статьи был продемонстрирован подход к разработке механизма координации игроков в динамической игре. Координация игроков в ней рассматривалась в качестве необходимого и достаточного условия повышения эффективности системы взаимодействия.

В рамках статьи также был получен вывод, что этот механизм должен включать в себя три игры:

1. игра, принуждающая к переговорам;

2. динамическая игра переговоров;

3. игра, принуждающая к соблюдению новых условий взаимодействия.

Первая игра направлена на пред-переговорный период, третья игра,

Таблица 2

Платежная матрица игры принуждения к соблюдению условий

Соблюдать Не соблюдать

Соблюдать (an; b„) (a12; b12)

Не соблюдать (a21; b21) (a22; b22)

наоборот, на постпереговорный период, а вторая игра представляет непосредственно переговоры. Существование каждой из игр в механизме продиктовано требованиями к нему.

К каждой игре в статье представлены требования, выполнение которых необходимо для того, чтобы описанный механизм функционировал и достигал заданной цели.

Литература

1. Измалков С., Сонин К., Юд-кевич М. Теория экономических механизмов (Нобелевская премия по экономике 2007 г.) // «Вопросы экономики» - 2008 -№ 1 - С. 4-26

2. Вирхоф Т. Дилемма торговца: Непрерывная дилемма заключенного // Заметки компьютерных наук 93/02, Факультет Математических и компьютерных наук Эйндховенско-го университета технологий - 1998

3. Фуденберг Д., Тироль Ж. Теория игр, MIT Press - 1991

4. Архипкин В.Г., Тимофеев В.П. Естественно-научная картина мира: Учеб. пособие/ Краснояр. гос. ун-т: Красноярск - 2002 - 320 с.

5. Фенг Г. Координация: Эффективный рабочий механизм общественной системы - С дискуссией об общественной ответственности инженеров - Центральный южный университет - 2006.

References

1. Izmalkov S., Sonin K., Jud-kevich M. Theory of Design Mechanism (Nobel prize on Economy 2007) // «Voprosy Ekonomiki» - 2008 - № 1 - P. 4-26

2. Verhoeff T. The Trader's Dilemma: A Continuous Version of the Prisoner's Dilemma // Computing Science Notes 93/02, Faculty of Mathematics and Computing Science Eindhoven University of Technology - 1998

3. Fudenberg D., Tirole J. Game theory, MIT Press - 1991

4. Arhipkin V.G., Timofeev V.P. - Natural Scientific World: Tutorial/ Krasnoyarsk gos. universitet: Krasnoyarsk, 2002. 320 p.

5. Feng Guo. Coordination: The Effective Working Mechanism Of Social System--With A Discussion On The Social Responsibilities Of Engineers -Centralnyj yuzhnyj universitet - 2006.

Аннотация научной статьи по математике, автор научной работы — Пичугин Артем Олегович, Романников Александр Николаевич

Похожие темы научных работ по математике , автор научной работы — Пичугин Артем Олегович, Романников Александр Николаевич

DESIGN MECHANISM OF PLAYERS’ COORDINATION IN DYNAMIC GAME FOR MAXIMIZING THE EFFECTIVENESS OF THEIR INTERACTIONS

Текст научной работы на тему «Дизайн механизма координации игроков в динамической игре с целью максимизации эффективности системы их взаимодействия»