Научная статья на тему 'Численное решение биматричных игр'

Численное решение биматричных игр Текст научной статьи по специальности «Математика»

CC BY
524
115
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Васильев Николай Семенович

Предложен эффективный игровой алгоритм поиска равновесия по Нэшу в биматричных играх, основанный на методах линейного программирования и теории двойственности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Numerical Solution of Bi-matrix Games

An efficient game algorithm is offered for searching the equilibrium by Nash in bimatrix games, which is based on methods of the linear programming and duality theory. Refs.6.

Текст научной работы на тему «Численное решение биматричных игр»

УДК 519.85

Н. С. Васильев

ЧИСЛЕННОЕ РЕШЕНИЕ БИМАТРИЧНЫХ ИГР

Предложен эффективный игровой алгоритм поиска равновесия по Нэшу в биматричных играх, основанный на методах линейного программирования и теории двойственности.

Поиск ситуации равновесия по Нэшу биматричной игры в смешанных стратегиях игроков обычно проводится с помощью метода полного перебора [1, 2]. Для этого строятся системы линейных алгебраических уравнений (СЛАУ) вида

Л'д' = ие; р'Т Б' = ье'Т;

< £р, = 1;

ге/

£ 4 = 1

зеJ

относительно неизвестных р', д', и, V, в которых векторы е, ее таковы, что имеют все координаты, равные единице, множества значений индексов I С {1, 2,..., т}, 7 С {1, 2,..., п}, а Л', Б' являются подматрицами платежных матриц игроков Л, Б, имеющих размер т х п. Здесь т (п) — число чистых стратегий первого (второго) игрока. Пара (р', д') есть искомая ситуация равновесия в смешанных стратегиях лишь при условии того, что указанная СЛАУ имеет неотрицательное решение р' ^ 0, д' ^ 0. Таким образом, для поиска равновесия игры требуется решить 2т+п систем. Экспоненциальная сложность метода перебора делает его практически неприменимым. В статье предложен алгоритм предположительно полиномиальной сложности, апробированный в вычислительных экспериментах.

Постановка задачи. В биматричной игре [1,2] каждый игрок располагает конечным множеством чистых стратегий. Игра полностью определяется т х п матрицами Л, Б, которые являются табличным заданием функций выигрыша игроков 1 и 2. Игрок 1 выбирает строку г, одновременно с ним игрок 2 выбирает столбец ]. После этого игрок 1 получает выигрыш а^, а игрок 2 — выигрыш .

Смешанная стратегия игрока — это случайная величина, принимающая значения в множестве его чистых стратегий. Смешанную стратегию будем отождествлять с выбираемым игроком 1 (игроком 2) вероятностным распределением р(д): игрок 1 (игрок 2) с вероятностью

pi (qj) выбирает свою i-ю (j-ю) чистую стратегию (i = 1, 2 ,...,m; j = 1, 2,... ,n).

При использовании смешанных стратегий игроки по возможности стремятся увеличить свои средние выигрыши, которые, будучи записанными в матричной форме, имеют вид pTAq, pTBq. При этом множества смешанных стратегий игроков образуют симплексы размерности m — 1 и n — 1 соответственно. Сказанное кратко выразим в форме включений p Е Sp, q Е Sq, где, напомним, симплекс — это

г m ч

Sp = P : P > O^Pi = 1 ^ i=1

Ситуацией равновесия по Нэшу в смешанных стратегиях называется пара (p*, q*), удовлетворяющая условию

(Vp, q) pTAq* < p *T Aq*, p *T Bq < p *T Bq * .

В игре всегда существует хотя бы одна ситуация равновесия в смешанных стратегиях [1, 2]. Цель настоящей работы — разработка игрового алгоритма поиска одного из равновесий. Под этим понимается многошаговая схема, моделирующая процесс игры как поочередный выбор своих стратегий ее участниками, приводящий к равновесию по Нэшу.

Метод поиска равновесия. Поиск равновесия игры сведем к решению следующей многоэкстремальной задачи математического программирования. Требуется найти глобальный максимум целевой функции

F(p, u, q, v) = pT(A + B)q — u — v ^ max (1)

p,u,q,v

при ограничениях

pTB < ueT, Aq < ve', p Е Sp, q Е Sq. (2)

Очевидна следующая

Теорема 1. Глобальный максимум целевой функции (1) на множестве (2), имеющий значение, равное нулю, достигается лишь в точках (p*,u*, q*,v*), отвечающих ситуациям равновесия игры (p*,q*), в которых величины v*,u* — средние выигрыши игроков 1 и 2 соответственно.

Сформулированный результат дает основание для рассмотрения следующей игры двух лиц, в которой участники при выборе своих стратегий (p, u) и (q, v) руководствуются целевыми функциями

pT(A + B)q — u ^ max (3)

p,u: pTB^ueT ,p€£p

И pT(A + B)q - v ^ max (4)

q,v: Aq^ve,q€£g

соответственно.

При любой фиксированной стратегии партнера каждая из функций выигрыша (3), (4) является линейной по переменной (р, и) или (д, V), представляющей выбираемую этим игроком стратегию. Таким образом, (3), (4) — это взаимосвязанные задачи линейного программирования (ЛП).

Замечание 1. В случае Л + Б = 0 задачи ЛП (3), (4) взаимно двойственны [3]. Как известно [1, 2], их решение дает ситуацию равновесия исходной, в указанном случае, антагонистической игры.

Замечание 2. Всякая ситуация равновесия (р', и', д', V') в игре (3), (4) есть точка максимума функции (1) по каждой из переменных х = (р, и) или у = (д, V) в отдельности при фиксированном значении (у' или х') другой переменной.

Теорема 2. Если в ситуации равновесия (р', и', д', V') обе задачи ЛП (3) (д = д') и (4) (р = р') имеют единственное решение, то точка (р', и',д'^') является локальным максимумом функции (1) на множестве (2) по совокупности переменных.

Доказательство. Рассмотрим приращение целевой функции (1) в точке (р', и', д', V'). По условию теоремы имеющееся билинейное слагаемое имеет более высокий порядок малости по сравнению с линейными, являющимися приращениями целевых функций (3), (4) в их точках максимума. Поэтому приращение отрицательно при малых вариациях переменных (р, и, д, V). Следовательно, по любому допустимому направлению функция (1) локально убывает.

Равновесия по Нэшу в игре (3), (4) будем называть стационарными точками целевой функции ^ (ввиду теоремы 2 и замечания 2).

Игровая задача (3), (4) намного проще исходной, так как в ней игроки приходят к равновесию, поочередно делая свои "ходы", начиная игру из произвольной начальной ситуации.

Теорема 3. Пусть вектор рт — решение задачи (3), д = д4, дт — решение задачи (4), р = рг, Ь = 0,1,..., причем элемент д0 € выбран произвольно. Тогда р1 ^ р', д4 ^ д', Ь ^ ж, где векторы (р', д') определяют некоторую ситуацию равновесия в игре (3), (4).

Доказательство. Значения целевой функции (1) ^(рт, ит, д4, V4), Ь = 0,1,..., по построению образуют монотонно возрастающую, а следовательно, сходящуюся последовательность. Ввиду компактности множеств смешанных стратегий игроков можно считать, что последовательность {р4,д4} также сходится [4]. Предельный переход в условиях задач ЛП (3), (4) показывает, что пара (р', д') служит решением задач ЛП (3), (4), т.е. является равновесием.

Через А, ^ обозначим двойственные переменные в экстремальной задаче (1), (2), с помощью которых снимаются ограничения [5] в форме

неравенств в условиях (2). Введем функцию Лагранжа, которая по определению имеет вид [5]

Ь = Г(р, д, и, V) + (иет — ртВ)А + ц(ье' — Ад).

Множители Лагранжа А, ц являются также двойственными переменными в задачах ЛП (3), (4). Исходя из двойственных к ним задач ЛП [3], несложно убедиться, что двойственные переменные удовлетворяют ограничениям ц € Т,р, А € .

Для упрощения записи далее будем опускать переменные и,ь и упоминать лишь о паре переменных (р,д), говоря об оптимизации функции (1) на множестве (2). Пусть (р*,д*) — стационарная точка функции (1), а А*, ц* — соответствующие двойственные переменные в задачах ЛП (3) (р = р*) и (4) (д = д*).

Согласно теореме 2 и замечанию 2, итерационный процесс из теоремы 3, сходясь к стационарной точке функции Г, вообще говоря, не дает решения исходной игры. Для того чтобы выходить из областей притяжения стационарных точек функции (1) с целью попадания в искомый глобальный максимум, будем использовать следующее свойство экстремальной задачи (1), (2).

Теорема 4. Ситуация (р*,д*) является равновесием по Нэшу в исходной игровой задаче тогда и только тогда, когда в стационарной точке целевой функции (1) р* = ц*, д* = А*.

Доказательство. Ситуация равновесия (р*,д*) является точкой глобального экстремума Г (см. теорему 1). В ней значения функций Лагранжа Ь и Г совпадают [5], поэтому с учетом включений ц € Т,р, А € получим

0 = г = Ь =(р* — ц*)т Ад* + р*т В (д* — А*).

Отсюда следует, что нулевой уровень целевой функции достигается при выборе множителей Лагранжа ц* = р*, А* = д*.

Обратное утверждение доказывается аналогичными рассуждениями, применяемыми к точкам экстремума целевых функций в задачах ЛП (3), (4). В случае задачи (3), д* = А*, имеем

р*т (А + В )д* — и* = р*т (А + В)д* — и* + (и*ет — р*т В) А* = р*т Ад*.

Для задачи (4) получим р*тВд*. Сложив найденные значения и вычтя величину, которая дважды вошла в эту сумму, вычислим значение целевой функции (1) в рассматриваемой точке:

Г = р*т Ад* + р*т Вд* — р*т (А + В)д* = 0.

Применение теоремы 1 завершает доказательство.

Замечание 3. Игра (3), (4) является матричной и поэтому имеет конечное множество равновесий по Нэшу. В достаточном условии теоремы 4 можно потребовать выполнения лишь одного из равенств p* = или q* = Л*, так как другое в этом случае обязано выполняться.

Докажем это. Пусть для определенности q* = Л**. Тогда по условию дополняющей нежесткости

(Vj)(p*TB - u*)jq* = 0

заключаем, что

max p*Bq = u*. (5)

qeSq

Оптимизация (3) эквивалентна поиску максимума функции Лагран-жа задачи (3), т.е. [5]

pT(A + B)q* - u + (ueT - pTB)q* = pTAq* ^ max.

peSp

Так как решение этой задачи есть точка p*, то вместе с (5) это доказывает равновесность пары стратегий (p*, q*) в исходной игре. По теореме 1 и необходимому условию из теоремы 4 заключаем, что p* = .

Алгоритм поиска равновесия. В соответствии с теоремами 3, 4 и замечанием 3 предлагается использовать следующую многошаговую схему поиска равновесия.

Этап 0. Один из игроков, пусть это игрок 2, первым выбирает одну из своих смешанных стратегий q0 Е и сообщает ее игроку 1.

Этап 1. Оба игрока, начиная с игрока 1, поочередно выбирают свои оптимальные (в текущих ситуациях) стратегии в игре (3), (4) и сообщают их партнеру. По достижении некоторой ситуации равновесия (p', q') перейти к выполнению этапа 2.

Этап 2. Если q' = Л', то один из игроков, пусть это игрок 2, изменяет свое решение — вместо стратегии q' применяет стратегию Л' и сообщает ее игроку 1. Перейти к действиям этапа 1.

На этапе 1 разворачивается итерационный процесс из теоремы 3. Если проверяемое на этапе 2 условие не выполнено, то ситуация (p', q') есть искомое равновесие по Нэшу исходной игры (замечание 3).

Вычислительный пример. Пусть m = n = 4, а платежи игроков представлены матрицей ((a^, bj)) вида

/ (1, 3) (1, 2) (0,1) (3,1) \

(3.2) (2,3) (2,0) (0,1)

(2.3) (1,0) (1,2) (3,1) . \(1,0) (3,2) (0,2) (2,3)7

Этап 0. Возьмем q0 = (0, 0,5, 0,5, 0).

Этап 1. Вычисления дают ситуацию (p',q'): p' = (0, 0,33, 0, 0,67), q' = (0, 0,67, 0,33, 0), в которой F = —0,33. Двойственные переменные Л' = (0, 0,67, 0, 0,33), ц' = (0, 0, 0, 1).

Этап 2. Заменим стратегию q' на Л' (при этом изменилось значение целевой функции на F = —0,45) и выполним вычисления этапа 1. В результате найдем искомое равновесие

p* = (0,33, 0, 0, 0,67), q* = (0, 0,33, 0, 0,67), v* = 2,33, u* = 2.

Всего потребовалось решить четыре задачи ЛП. Заключение. Задачи ЛП имеют полиномиальную сложность решения [6]. Это дает основание предположить, что предложенный в работе алгоритм имеет такую же вычислительную сложность.

СПИСОК ЛИТЕРАТУРЫ

1. Петросян Л. А., Зенкевич Н. А., Семина Е. А. Теория игр. - М.: Высш. шк., 1998.

2. В о л к о в И. К., З а г о р у й к о Е. А. Исследование операций. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2004.

3. Ашманов С. А. Линейное программирование. - М.: Наука, 1981.

4. В а с и л ь е в Ф. П. Численные методы решения экстремальных задач. - М.: Наука, 1980.

5. И о ф ф е А. Д., Т и х о м и р о в В. М. Теория экстремальных задач. - М.: Наука, 1974.

6. Х а ч и я н Л. Г. Полиномиальный алгоритм в линейном программировании // ДАН СССР. - 1979. - T. 244. - C. 1093-1096.

Статья поступила в редакцию 24.12.2007

Николай Семенович Васильев окончил МГУ им. М.В. Ломоносова в 1974 г. Д-р физ.-мат. наук, профессор кафедры "Высшая математика" МГТУ им. Н.Э. Баумана. Автор более 50 научных работ в области теории оптимального управления и моделирования распределенных телекоммуникационных систем.

N.S. Vasiliev graduated from the Lomonosov Moscow State University in 1974. D. Sc. (Phys.-Math.), professor of "Higher Mathematics" department of the Bauman Moscow State Technical University. Author of more than 50 publications in the field of theory of optimal control and simulation of distributed telecommunication systems.

i Надоели баннеры? Вы всегда можете отключить рекламу.