Научная статья на тему 'Численное решение бескоалиционных матричных игр'

Численное решение бескоалиционных матричных игр Текст научной статьи по специальности «Математика»

CC BY
349
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕНЗОР / ЛИНЕЙНОЕ ПРОГРАММИРОВАНИЕ / РАВНОВЕСИЕ ПО НЭШУ / МАТРИЧНАЯ ИГРА / СМЕШАННЫЕ СТРАТЕГИИ / ТЕОРИЯ ДВОЙСТВЕННОСТИ / МНОЖИТЕЛИ ЛАГРАНЖА / ГЛОБАЛЬНЫЙ МАКСИМУМ / ТЕНЗОРНОЕ ПРОИЗВЕДЕНИЕ

Аннотация научной статьи по математике, автор научной работы — Васильев Н. С.

Предложен игровой алгоритм поиска равновесия по Нэшу в матричных играх многих лиц, в которых игроки применяют смешанные стратегии. Алгоритм основан на использовании методов линейного программирования и теории двойственности. Для построения алгоритма введена многоэкстремальная задача математического программирования, с помощью которой определена более простая вспомогательная бескоалиционная игра. Для достижения равновесия в исходной игре все участники конфликта поочередно, на итерациях алгоритма, обмениваются информацией о выборах своих стратегий в зависимости от складывающихся ситуаций во вспомогательной игре. Для апробации алгоритма проведено численное решение игры трех лиц. Библ. 6.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Численное решение бескоалиционных матричных игр»

НАУЧНОЕ ИЗДАНИЕ МГТУ ИМ. Н. Э. БАУМАНА

НАУКА и ОБРАЗОВАНИЕ

Эл № ФС77 • 48211. Государственная регистрация №0421200025. ISSN 1994-0408

электронный научно-технический журнал

Численное решение бескоалиционных матричных игр

# 08, август 2013

Б01: 10.7463/0813.0587745

Васильев Н. С.

УДК 519.85

Россия, МГТУ им. Н.Э. Баумана nik8519@yandex.ru

1. ВВЕДЕНИЕ

Поиск ситуации равновесия по Нэшу матричной игры в смешанных стратегиях игроков обычно проводится методом полного перебора [1, 2], вообще говоря, не приемлемого для практического применения. Этот подход имеет экспоненциальную сложность вычислений: нужно решить 2т систем линейных уравнений и неравенств, где т - общее число чистых стратегий всех участников игры. В работе предложен и апробирован игровой алгоритм, который, предполагается, имеет полиномиальную сложность.

В бескоалиционной матричной игре п лиц каждый игрок к=1,2,.. ,,п располагает конечным множеством чистых стратегий гк,гк е {1,2,...,тк}. Игра полностью определяется заданием функций выигрыша игроков, которые будем представлять ковариантными тензорами п-го

Л к к

ранга Агг ..А . (Координаты тензора А равны величинам выигрышей к-го игрока в зависимости от выбора всеми игроками своих чистых стратегий ц,г2,...,гп.)

Рассматривается смешанное расширение игры, в котором всегда существует равновесие по Нэшу (см. [1, 2]). Именно, каждый игрок применяет смешанную стратегию, т.е. выбирает случайную величину, принимающую значения в его множестве чистых стратегий. Смешанные стратегии будем отождествлять с вероятностными распределениями рк. С

вероятностью р'к игрок к выбирает свою г-ю, г = гк е {1,2,...,тк}, чистую стратегию. По смыслу, векторы рк (контравариантные тензоры первого ранга) принадлежат симплексам

тк

X к = {рк : рк > 0, £ рк = 1}.

г=1

В принятых обозначениях средние выигрыши игроков, которые они стремятся, по возможности, увеличить, могут быть записаны как тензорные произведения

Аи^р2-Р:,к=и-«. (1)

В соответствии с обычными соглашениями в выражениях (1) опущен знак суммирования, которое проводится по совпадающим верхним и нижним индексам.

Напомним (см. [1],[2]), что ситуацией равновесия по Нэшу, называется набор стратегий

игроков р* = (р*,р*...,р*), удовлетворяющий условию (Ук)Акр* | рк < Акр*, в котором, для упрощения записи, выражение (1) обозначено как Акр, а Акр | рк - то же тензорное произведение, что и (1),р=р*, в котором вместо сомножителя р* взято рк .

Цель работы - построение игрового алгоритма поиска одного из равновесий по Нэшу. Под этим понимается приводящая к равновесию многошаговая вычислительная схема, моделирующая процесс игры как поочередный выбор ее участниками своих стратегий.

2. МЕТОД ПОИСКА РАВНОВЕСИЯ

Поиск равновесия игры сведем к решению следующей многоэкстремальной задачи математического программирования. Требуется найти глобальный максимум целевой функции

Р(Р,и) = Е(А^.р!Р2...Р1: -ик)^max (2)

к=1 12 " Р-"

по переменнымр,и, р = (р1,р2,...,рп), и = (м1,и2,...,ип), удовлетворяющим ограничениям

(У к = 1,2,..., п) Акр || рк < иквк, Рк еЪ к. (3)

В левой части неравенств (3) Акр || рк - тензорное произведение (1), из которого исключен к-й сомножитель рк, а ек - ковариантный тензор первого ранга размерности тк с координатами, равными единице.

Очевидна следующая

Теорема 1. Глобальный максимум целевой функции (2) на множестве (3), имеющий значение, равное нулю, достигается лишь в точках (р*,и*), отвечающих ситуациям равновесия игры р*, в которых координаты вектора и* - величины средних выигрышей игроков.

Соотношения (2),(3) дают основание для рассмотрения следующей игры п лиц, в которой участники к=1,2,...,п при выборе своих стратегий (рк,ук),Ук = и || ик, (вектор Ук получен из и исключением к-й координаты) "руководствуются" целевыми функциями (ср. с (2)):

(E AL.i„ )pi rt-p'n -E uj ^ max (4)

при ограничениях

k=i j*k Pk мщ

(У/ ф к) < п]в], ^^ еХ * . (5)

При любых фиксированных стратегиях партнеров каждая из функций выигрыша (4) является линейной по переменной (рк, Ук), представляющей стратегию, выбираемую к-м

игроком. Таким образом, имеем набор (4, 5), £=1,2,...,п, взаимосвязанных задач линейного программирования (ЛП). Можно также считать (и это делается в дальнейшем), что стратегиями игроков являются лишь векторы рк,к = 1,2,...,п. В самом деле, ситуация игрыр

однозначно определяет вектор и. Поэтому бескоалиционная игра (4, 5), к=1,2,...,п, как и исходная игра, также является матричной.

Замечание 1. При п=2 и АУ + А?^ = 0 имеем антагонистическую игру, для которой

задачи ЛП (4),(5) взаимно двойственны [3]. Их решение (р*,р*) дает искомую ситуацию равновесия (см. [1-3]).

Замечание 2. Всякая ситуация равновесия (р',у[) в игре (4, 5) дает точку максимума функции (2), V = (у1,у2,...,Уп),(Ук)ук = и || ик, по каждой из переменных (рк,ук) при

фиксированных значениях остальных переменных.

Ввиду замечания 2 равновесия по Нэшу в игре (4, 5) будем называть стационарными точками целевой функции Г (см. (2)).

Игра (4, 5) намного проще исходной задачи. В ней игроки приходят к равновесию, поочередно делая свои "ходы" (т.е. выбирая свои стратегии на шагах =0,1,...), начиная игру из произвольной начальной ситуации р(0):

Теорема 2. Пусть игроки к=1,2,...,п поочередно, на шагах =0,1,..., изменяют свои стратегии так, чтобы рк(7 +1) было решением задачи ЛП(4),(5), к=1,2,...,п, в которой

фиксированы все векторы, р/ (7), ] ф к, а р/ (7 +1) = р/ (7), ] ф к. Тогда р(1) ^ р*, 7 ^ да, где

р * - некоторая ситуация равновесия в игре (4, 5).

Доказательство. Значения целевой функции (2), Г(р(0,и(0),7 = 0,1,..., по построению образуют монотонно возрастающую, а, следовательно, сходящуюся последовательность. Ввиду компактности множеств смешанных стратегий игроков можно считать, что последовательность {р(7), 7 = 0,1,...} также сходится к некоторому вектору р * (см. подобные рассуждения в [4]). Предельный переход в ограничениях и целевых функциях задач

ЛП (4),(5) показывает, что координаты р* вектора р служат решениями всех этих задач, а р* является равновесием игры (4),(5).

Через Л'к,у = 1,2,...,тк, обозначим двойственные переменные, с помощью которых

снимаются ограничения в форме неравенств (3) при решении экстремальной задачи (2),(3) методом множителей Лагранжа. Введем функцию Лагранжа, которая, по определению, имеет вид (см. [5])

п тк

Ь(Р,и,Л) = Р(р,и) + (Щ -(Акр || Рк)-).

к=1 у=1

Рассмотрим также множители Лагранжа, Л^ = (Л--,- = 1,2,...,т-),у Ф к, - двойственные переменные в задачах ЛП (4),(5), к=1,2,...,«. Анализ двойственных к (4),(5) задач ЛП (см. [3]) показывает, что переменные Л - удовлетворяют ограничениям Л - е! у, к, у = 1,2,..., п, у Ф к.

Необходимые условия экстремума в задаче (2),(3) также приводят к ограничению Лк е !к.

Далее для упрощения записи будем опускать переменные и,\ и упоминать лишь о переменной р, говоря об оптимизации функции (2) на множестве (3) или об игре (4),(5). Пусть р* является стационарной точкой функции (2), а Л*,Лк = (Л*-,] Ф к), -

соответствующие векторы двойственных переменных в задачах (2, 3) и (4, 5), р=р*, к=1,2,...,п, соответственно.

Замечание 3. Имеют место равенства Л* = Л—,к,у = 1,2,...,п,у Ф к.

Согласно замечанию 2 итерационный процесс из теоремы 2, сходясь к стационарной точке функции ¥, вообще говоря, не дает решения исходной игры. Для выхода из областей притяжения стационарных точек функции (2) с целью нахождения глобального максимума (см. теорему 1) будем использовать следующее свойство экстремальной задачи (2, 3).

Теорема 3. Стационарная точка р=р* целевой функции (2) является равновесием по Нэшу в исходной игровой задаче тогда и только тогда, когда найдутся такие множители Лагранжа, что Л* = р*,к = 1,2,...,п.

Доказательство. Достаточность указанного условия следует из теоремы 1 ввиду того, что Ь(р, и, р) = 0 и Р (р*, и *) = Ь(р *, и *, р *) = 0.

Пусть теперь р* является равновесием по Нэшу. Тогда выполняются условия дополняющей нежесткости (см. [1]-[3]) с множителями р*:

(Уу)р*- (и* - (Акр* || Р*)у) = 0, которым удовлетворяют и множители Лагранжа Л—. Отсюда следует, что функция Лагранжа Ьк (р, и, Л) (ввиду Лук = Лк по замечанию 3) , построенная для задачи ЛП (4, 5),

р] = р*, / ф к, имеет минимум Л = р* по двойственной переменной. Более того, взяв

Л^ = р*, / ф к, получим (сумма Е и] сокращается):

] Фк п

К(р*\ рк,и,р*) = Е Аррк-Ер](Ар" || р])| рк = Акр^ рк.

]=1 /Фк

По определению ситуации равновесия, точка рк = р* является максимумом функции

Акр* | рк = К(р*| рк,и,р*) на множестве рк еХк. Таким образом (см. [4, с. 219]), пара

(р*,р*) является седловой точкой функции Лагранжа Ьк(р*| рк,и,Л) по переменным рк,Л.

Следовательно, векторы Л/ = р *, / Ф к, являются множителями Лагранжа. Проведенные

рассуждения справедливы при любом к=1,2,.,п. Теорема доказана.

Замечание 4. В достаточном условии теоремы 3 можно потребовать выполнение условия Л*/ = р*,/ = 1,2,...,п,/ Фк, лишь для одного из игроков £=1,2,...,п.

3. АЛГОРИТМ ПОИСКА РАВНОВЕСИЯ

В соответствии с теоремами 1-3 и замечаниями 3, 4 предлагается использовать следующую многошаговую схему поиска равновесия.

Этап 0. Задать произвольно начальную ситуацию игры 0р .

Этап 1. Каждому участнику игры (4),(5) поочередно, в порядке нумерации, выбрать свою оптимальную (в текущей ситуации) стратегию и сообщить ее партнерам. По достижении некоторой ситуации равновесия р' проверить выполнение условия р' = Л. Если это так, то СТОП. Иначе перейти к выполнению этапа 2.

Этап 2. Найти номер ^ одного из игроков, для которого имеется наибольшее число совпадающих векторов прямых р' || р8 и двойственных Л' = (Л^, ] Ф з) переменных.

Игроку з применить стратегию, оптимальную в ситуации Л , и сообщить ее всем остальным участникам игры. Перейти к этапу 1.

Поясним сказанное. На этапе 1 разворачивается итерационный процесс, рассмотренный в теореме 2. По теореме 3 выполнение проверяемого условия означает достижимость одной из искомых ситуаций равновесия по Нэшу в исходной игре. Вычисления оптимальных стратегий игроков и отвечающих им двойственных переменных будем проводить с помощью симплекс-метода (см. [3]).

Вычислительный эксперимент. Пусть п=3, т1 = т2 = т3 = 3. Для записи функции выигрыша любого, к-го игрока, использована матрица платежей, номера строк г и столбцов]

которой совпадают с номерами чистых стратегий игроков к1, к2 соответственно ( к1 < к2, к1, к2 ф к). Элемент у этой матрицы представляет собой строку чисел, равных выигрышам к-го игрока в зависимости от выбора им чистых стратегий ¡к = 1,2,...,тк соответственно. Итак, пусть платежные матрицы игроков к=1,2,...,п имеют вид

( (2,2,2) (-1,1,-2) (3,1,-1) ^ ((2,-2,2) (3,-1,-2) (5,1,-1)

(1,0,-1) (1,2,-1) (2,-1,1)

А

(1,-4,-1) (1,2,-1) (-3,-3,2)

((-1,-2,-1) (-2,1,1) (-3,1,-1) (-2,1,1) (1,2,-1) (2,-1,1)

Л

(-3,-3,0) (2,2,1) (2,3,-2)) V (3,-3,1) (-4,-2,1) (-2,3,-2)) \ (-3,3,2) (2,-2,-3) (1,-2,1)

Например, игрок 1 получает платежи 2,-1,1 в ситуациях (1,2,3), (2,2,3), (3,2,3) соответственно, т.е. при условии, что остальные участники игры (к1 = 2,к2 = 3) применяют стратегии I = /2 = 2, у = 13 = 3.

Возьмем начальную ситуацию 0рк = (0.33,0.33,0.34), к = 1,2,3. На этапе 1 получаем

стационарную точку р:

Р1 =

( 0.59 ^ 0.41

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V 0 у

Р2 =

( 0.54 ^ 0.18

V 0.28 у

Р3 =

( 0.13^1 0.45

V 041у

(Значение целевой функции Р=-0.27.) На этапе 2 игрок 8=2 имеет стратегию (0.67,0.33,0), оптимальную в ситуации Л2 = ((0.6,0.4,0),(0,0.73,0.27)).

Последующие вычисления этапа 1 дают новую стационарную точку 2 р :

Р1 =

( 0.36 ^ 0.64

V 0 у

, 2Р 2 =

( 0.84 ^ 0.16

V 0 у

Р3 =

( 0.08 ^ 0.54 0.37

в которой 0.2. Двойственные переменные равны

((0.57V0^ ((0 ^

л; =

vv

0 0.43

0

V1 уу

Л'2 =

1

^ 0 у

0.78 0.22

((0^ (0.49^

Л3 =

у

1

^ 0 у

0.42 0.09

у

Вновь выбирая игрока 8=2, найдем его стратегию (0,1,0), оптимальную в ситуации

Л2 = (Л'21, Л23).

Выполнив вычисления этапа 1, найдем очередную стационарную точку 3р и отвечающие ей двойственные переменные (при этом 0.19):

((0.9Л (0 ^ ((0.58V0М ((1 V0^ ((1 V0^

Р =

^ 0.1у

V0 у V

0.63 0.37

Л1 =

уу

0.42

^ 0 у

V 0 уу

Л 2 =

\л У

Л 3 =

V УУ

\Л у

V УУ

0

1

1

0

1

0

1

На этапе 2 берем теперь 5=3, так как только у третьего игрока имеются совпадающие

векторы прямых и двойственных переменных: Л32 = 3р2. Оптимальная для ситуации Л3

стратегия игрока 3 равна (0,0,1).

Следуя предложенной схеме, последовательно находим стационарные точки (со

значениями Г=-0.004 и Г=-0.12 соответственно)

р =

(( 0.75 ^ 0.25

(0.5^ ( 0 ^

0.5

0.62 0.38

((0.94^ (0^

р =

уу

vv

0 0.06

1

( 0 ^ 0.62 0.38

На этапе 2, в ситуации 4 р, было выбрано 5=2, а в ситуации 5 р - 5=3. В результате получаем

искомое равновесие р :

р1 =

(1 ^ 0

V 0 у

, р2 =

( 0 ^ 1

V 0 у

> р3 =

( 0.6 ^ 0.4

V 0 у

Всего в процессе работы алгоритма было решено около двадцати задач ЛП, в которых текущие ситуации каждый раз использовались в качестве начальных приближений.

Заключение. Задачи ЛП имеют полиномиальную сложность решения (см. [6]). Это дает основание предположить, что предложенный в работе алгоритм имеет такую же вычислительную сложность.

СПИСОК ЛИТЕРАТУРЫ

1. Петросян Л.А., Зенкевич Н.А., Семина Е.А. Теория игр. М.: Высшая школа, 1998. 304 с.

2. Васин А.А., Морозов В.В. Теория игр и модели математической экономики. М.: Изд-во МГУ, 2005. 278 с.

3. Ашманов С.А. Линейное программирование. М.: Наука, 1981. 340 с.

4. Васильев Ф.П. Численные методы решения экстремальных задач. М.: Наука, 1980. 518 с.

5. Иоффе А.Д., Тихомиров В.М. Теория экстремальных задач. М.: Наука, 1974. 481 с.

6. Хачиян Л.Г. Полиномиальный алгоритм в линейном программировании //Докл. АН СССР. 1979. Т. 244, № 5. С. 1093-1096.

0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

0

SCIENCE and EDUCATION

EL № FS77 - 48211. №0421200025. ISSN 1994-0408

Numerical solution of coalition-free matrix games

# 08, August 2013

DOI: 10.7463/0813.0587745

Vasil'ev N.S.

Bauman Moscow State Technical University, 105005, Moscow, Russian Federation

nik8519@yandex.ru

Publications with keywords: tensor, linear programming, Nash equilibrium, matrix game, mixed strategy, duality theory, Lagrange multiplie, global maximum, tensor product Publications with words: tensor, linear programming, Nash equilibrium, matrix game, mixed strategy, duality theory, Lagrange multiplie, global maximum, tensor product

A general case of weakly investigated N-person matrix games was considered in this paper. The brute force Nash equilibrium method for mixed strategies, known in case of N = 2, was successfully generalized. Computational complexity of this algorithm is unacceptable; this algorithm is reduced to solving exponentially increasing (depending on the number of strategies) number of completed linear systems, where the number of variables also exponentially depends on N. The new playing equilibrium algorithm based on the methods of linear programming and duality theory was proposed in this work. The algorithm was developed with the use of a more simple auxiliary coalition-free game introduced by means of some problem of mathematical programming. An example of the numerical solution of a 3-person game is given in the article.

References

1. Petrosyan L.A., Zenkevich N.A., Semina E.A. Teoriya igr [Game theory]. Moscow, Vysshaya shkola, 1998. 304 p.

2. Vasin A.A., Morozov V.V. Teoriya igr i modeli matematicheskoy ekonomiki [Game theory and models of mathematical economics]. Moscow, MSU Publ., 2005. 278 p.

3. Ashmanov S.A. Lineynoeprogrammirovanie [Linear programming]. Moscow, Nauka, 1981. 340 p.

4. Vasil'ev F.P. Chislennye metody resheniya ekstremal'nykh zadach [Numerical methods for solving extremal problems]. Moscowm, Nauka, 1980. 518 p.

5. Ioffe A.D., Tikhomirov V.M. Teoriya ekstremal'nykh zadach [The theory of extremal problems]. Moscow, Nauka, 1974. 481 p.

6. Khachiyan L.G. Polinomial'nyy algoritm v lineynom programmirovanii [A polynomial algorithm in linear programming ]. Doklady Akademiia Nauk SSSR, 1979, vol. 244, no. 5, pp. 10931096. (English translation: Soviet Mathematics Doklady, 1979, vol. 20, pp. 191-194.)

i Надоели баннеры? Вы всегда можете отключить рекламу.