Научная статья на тему 'Обратная задача в теории 2x2 игр'

Обратная задача в теории 2x2 игр Текст научной статьи по специальности «Математика»

CC BY
291
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАТНАЯ ЗАДАЧА / ПЛАТЁЖНАЯ МАТРИЦА / ВЕРОЯТНОСТИ ВЫИГРЫШЕЙ

Аннотация научной статьи по математике, автор научной работы — Верещагина Е.И.

В данной работе рассматривается обратная задача для антагонистической игры. Предполагается, что вероятности выигрышей известны и требуется восстановить платежную матрицу. Доказывается, что решение задачи существует. Вводится понятие эквивалентности решений. Показывается, что в случае оптимальной игры класс эквивалентных решений единственен.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обратная задача в теории 2x2 игр»

ОБРАТНАЯ ЗАДАЧА В ТЕОРИИ 2 х 2 - ИГР THE INVERSE PROBLEM IN 2 х 2 - GAMES THEORY

Е.И. Верещагина

ст. преподаватель

Нижегородский государственный технический университет

им. Р.Е. Алексеева кафедра «Высшая математика» e-mail: vereshagina. evgenij a@rambler.ru

Аннотация: В данной работе рассматривается обратная задача для антагонистической 2 х 2 - игры. Предполагается, что вероятности выигрышей известны и требуется восстановить платежную матрицу. Доказывается, что решение задачи существует. Вводится понятие эквивалентности решений. Показывается, что в случае оптимальной игры класс эквивалентных решений единственен.

Abstract: In this paper the inverse problem of a two player antagonistic 2 х 2 - game is considered. It is assumed that the win probabilities are known and we need to reconstruct the payoff matrix. The existence of the solution is proved. The notion of equivalent solutions is introduced. It is shown that in the case of optimal play class of equivalent solutions is unique.

Ключевые слова: обратная задача, платёжная матрица, вероятности выигрышей.

Key words: inverse problem, payoff matrix, win probability.

В работах [1] и [2] автором был рассмотрен один из вариантов обратной задачи для антагонистической m х n - игры двух лиц, принципиально отличный от варианта, рассмотренного более пятидесяти лет назад в статье Х. Боненбласта, С. Карлина и Л. Шепли [3]. Были поставлены и частично решены возникающие при этом вопросы.

В этой статье мы рассмотрим ранее не разобранный случай 2 х 2 - игры. Этот случай интересен тем, что естественно напрашивающиеся при этом вопросы допускают исчерпывающие решения и не требует громоздких вычислений.

Приведем основные определения и требования к исходным данным в рассматриваемой нами обратной задачи.

Исходными данными в обратной задаче является набор вероятностей выигрышей. Требуется восстановить платежную матрицу А = {а^) вместе с

вероятностями стратегий р1,р2 и q1,q2 игроков.

Достаточно, впрочем, ограничиться восстановлением матрицы

вероятностей В =

Ъп Ъ

12

Ъ Ъ

V 21 22

, каждый элемент которой Ъ ^ = р и есть

вероятность выигрыша ау, т.к. р1 = Ъ11 + Ъ12, р2 = Ъ21 + Ъ22, q1 = Ъ11 + Ъ21 и

q 2 = Ъ12 + Ъ22 .

Предполагается, что игроки применяют смешанные стратегии.

Заведомо исключаются варианты, когда хотя бы одна из вероятностей равна нулю. Это условие естественно, так как стратегии с нулевыми вероятностями в игре не используются, и их исключение из рассмотрения просто меняет формат игры.

Исследование именно этого варианта обратной задачи вызвано следующим соображением. В длинной серии реализации игры сторонний наблюдатель фиксирует исходы (выигрыши) реализаций. Это даёт возможность узнать с достаточной степенью точности вероятности этих выигрышей. Тем самым наблюдатель находится в ситуации, описываемой обратной задачей.

Отметим, что вообще говоря, игра может быть неоптимальной. Например, когда в качестве одного из игроков выступает «природа».

В наиболее простом случае предполагается, что выигрыши можно различить друг от друга. Однако не следует исключать возможности наличия

одинаковых выигрышей. Несмотря на то, что они могут иметь разные вероятности, наблюдатель фиксирует их как один и тот же выигрыш, т.е. он в качестве исходной информации располагает суммой вероятностей одинаковых выигрышей.

Таким образом, удобно классифицировать исходные данные, отнеся их к четырем классам, когда известен набор либо четырех вероятностей (все выигрыши различимы), либо трех вероятностей и т.д.

Тривиальный вариант - когда все выигрыши одинаковые, т.е. в качестве исходной информации наблюдатель располагает одной вероятностью, равной единице.

В работах [1] и [2] рассматривался случай наличия максимально возможного количества исходных вероятностей, т.е. предполагалось, что все выигрыши различимы (для т х п - игры это тп вероятностей), поскольку остальные случаи ведут к весьма громоздким вычислениям. Здесь же эти случаи разбираются полностью.

Как всегда в математике возникают вопросы существования решений и их единственности. В связи с этим последующее изложение разбито на несколько пунктов.

В пункте I приводится доказательство существования решения обратной задачи.

В пункте II исследуется вопрос о том, с какой точностью определяется решение. Показывается, что решение обратной задачи не единственно. Вводится естественное понятие эквивалентности решений. Число классов эквивалентных решений, тем не менее, может быть более одного. Хотя в наиболее интересных случаях число классов равно единице.

Так в пункте III предполагается, что игра реализуется оптимальным образом, и делается вывод, что действительно класс эквивалентных решений единственный.

В пункте IV приводятся примеры, иллюстрирующие полученные результаты.

I. Обратимся к вопросу существования решений, т.е. существование матрицы вероятностей В с заданным множеством элементов.

Сделаем одно предварительное замечание относительно матрицы вероятностей В .

Лемма: Определитель матрицы вероятностей равен нулю.

Доказательство: очевидно, из представления матрицы В

Р^ 2Л

Рг ql Р2 qг.

Таким образом, естественно считать, что при решении обратной задачи исходные данные должны удовлетворять этому условию. Это значит, что для четверки вероятностей а, Ъ, с, d должно выполняться одно из требований ad = Ъс, аЪ = cd или ас = bd.

Теорема: При заданном наборе вероятностей решение обратной задачи существует.

Доказательство:

1) Пусть известны четыре вероятности а, Ъ, с, d, для которых, очевидно, можно считать, что а > Ъ > с > d.

Требование леммы означает, что ad = Ъс.

С точностью до перестановки строк, столбцов и (или) транспонирования, матрица В определяется как:

га Ъл

В =

V с d^

а вероятности, с которыми игроки выбирают свои чистые стратегии таковы:

р1 = а + Ъ, р2 = с + d, q1 = а + с, q2 = Ъ + d. Проверка того, что а = р^, Ъ = р^2, с = р2q1, d = р2q2 проводится тривиально. Например,

р1д1 ={а + Ъ)-{а + с) = а2 + ас + аЪ + Ъс = а2 + аЪ + ас + аё = а -{а + Ъ + с + d) = а . Аналогично проверяются и остальные равенства.

2) Если известны только три вероятности а, Ъ, с, то четвертую можно восстановить, «расщепляя» одну из исходных. А именно ту, которая

соответствует сумме вероятностей одинаковых выигрышей. Поскольку нам неизвестно, какой среди выигрышей встречается дважды, то «расщепляться» может как а, так и Ь, или с.

Например, если положить а = х1 + х2 (х1 < а V/ = 1,2) и подобрать х1 и

{Х1 * с — Х2 * Ь

(очевидно, разрешимая), то

Х1 Х2 — а

тем самым можно получить четверку вероятностей х1, х2, Ь, с, которые являются исходными данными обратной задачи, и мы приходим к предыдущему случаю.

Аналогично поступаем в случае, когда известно две вероятности а, Ь. «Расщепим» а на три слагаемых вида:

а = х + х + у, где х < а, у < а. Потребуем, чтобы для четверки чисел х, х, у, Ь выполнялось равенство уЬ = х2. Последнее перепишется как {а - 2х)• Ь = х2. Это квадратное

уравнение имеет корень х = -Ь + л[Ь .

Т.к. 0 < Ь < 1 условие 0 < х, у < а выполняется, и мы можем однозначно определить четверку чисел х, х, у, Ь и тем самым свести к случаю, когда все четыре выигрыша различимы.

И наконец, когда исходная информация состоит из одной вероятности (единицы), то в качестве матрицы вероятностей можно взять

матрицу В

а/4 1/4л

Вероятности стратегий игроков таковы

.1/4 1/4

Р1 = Р2 = 41 = 42 = V2 .

Замечание. Для того чтобы ответить на вопрос существования решений в случае игр другого формата условия - определитель матрицы вероятностей равен нулю - будет недостаточно.

II. Перейдем к вопросу о том, с какой точностью определяется решение. Сразу же надо отметить, что решение обратной задачи не

А

Например, если

а11 а12

V а21 а22 У

'22 12

V а21 а11 У

Р1

Р2

единственно. Так, например, из одного решения можно получить другие, изменяя нумерацию стратегий игроков, что равносильно перестановке строк (столбцов) в матрице А. Естественно считать эти решения эквивалентными и не различать их в дальнейшем. Кроме того, когда нам неизвестно, какого игрока считать первым, допустимо транспонирование платежной матрицы А. При этом наборы вероятностей стратегий игроков не меняются. Также возможна в матрице А перестановка равновозможных выигрышей.

Р1

р2 это одно решение и скажем вероятности

ql q2

А' =

выигрышей а11 и а22 совпадают (т.е. = р2q2), то

ql q2

доставляет другое решение. Решения, получаемые друг из друга таким образом, мы также будем считать эквивалентными. Возникает вопрос, а могут ли быть у обратной задачи с одними и теми же исходными данными не эквивалентные решения. Далее именно этим вопросом мы и будем заниматься.

Фактически нахождение решений осуществляется следующим образом. Если известны все четыре вероятности, то, как мы видели выше с точностью до перестановки строк, столбцов и (или) транспонирования, т.е. с точностью до эквивалентности, решение обратной задачи единственное.

Однако ситуация меняется в случае, когда набор вероятностей неполон. Возможно появление неэквивалентных решений. Покажем это.

Поскольку методика нахождения решений в общем виде для всех возможностей та же самая, достаточно рассмотрения одного из них. Остальные же случаи проиллюстрируем на конкретных примерах.

Обратимся к случаю, когда известно три вероятности: а,Ъ,с (а > Ъ > с). Восстановление четвертой вероятности производится «расщеплением» одной

из вероятностей а, Ь, с, как было упомянуто выше. При этом возможны различные варианты. Отметим некоторые из них.

Пусть «расщепляется» вероятность а (а = х1 + х2, х1 > х2). Это дает

нам следующие варианты:

х1 > х2 > Ь > с, х1 > Ь > х2 > с, х1 > Ь > с > х2,

Ь > х1 > х2 > с, Ь > х1 > с > х2, Ь > с > х1 > х2.

Чтобы четверка чисел х1, х2, Ь, с являлась исходными данными

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

обратной задачи, для каждой возможности потребуем выполнения условия

I х1 • с — х2 • Ь I х1 • х2 — Ь • с или < .

I х1 ^ъ х2 — а I х1 ^ъ х2 — а

По крайне мере, первая из этих систем всегда разрешима относительно х1 и х2 , и обе системы имеют конечное число решений. Отсюда следует конечность числа решений для обратной задачи. Далее проводится проверка решений на эквивалентность. Оказывается, что среди них возможны неэквивалентные решения, т.е. существенно различные решения, в которых вероятности стратегий могут не совпадать. Соответствующий пример приведен ниже в пункте IV.

Случаи, когда в качестве исходной информации известна одна или две вероятности разбираются аналогично. Получены следующие результаты.

Если известны две вероятности (т.е. в платежной матрице имеется, либо три одинаковых выигрыша, либо две пары одинаковых выигрышей), то в каждом варианте возможно бесконечное множество решений, зависящее от одного параметра.

В случае совпадения всех четырех выигрышей, также имеется бесконечное множество решений, связанное с произволом в выборе вероятностей стратегий.

И в том и в другом случае возможно наличие неэквивалентных решений. Иллюстрирующий пример также приводится ниже в пункте IV.

III. В этом пункте мы предполагаем, что игроки выбирают оптимальные стратегии. Очевидно, что выигрыши ау должны измеряться не

в номинальной шкале, а описываться действительными числами, чтобы их можно было сравнивать по величине.

Как уже отмечалось выше, причины, по которым игроки выбирают вероятностное распределение на множестве чистых стратегий, остаются при рассмотрении обратной задачи на втором плане. Поэтому для того чтобы из полученного нами решения получить информацию об интеллекте игроков, мы всегда можем, поскольку алгоритмы нахождения оптимального решения в матричной 2 х 2 - игре хорошо известны, сравнить полученное решение обратной задачи с решением, соответствующим оптимальному поведению игроков.

Пусть игра задана платежной матрицей А =

^ а 11 а12^

V а21 а22 У

Поскольку мы интересуемся оптимальным решением в смешанных стратегиях, то нужно исключить игры, где имеется седловая точка в чистых стратегиях. Таким образом, будем считать, что а22 > а21, а11 > а12.

Следующее замечание общего характера будет полезно при нижеследующем рассмотрении: нахождение вероятностей, с которыми игроки выбирают свои чистые стратегии, приводит к тому же результату, и для матрицы А' , отличающейся от матрицы А началом отсчета выигрышей, а также масштабом их измерения. ([4])

В частности можно обратить один из выигрышей в нуль, а один из отличных от него в единицу, т.е. элементы матрицы А можно подвергнуть линейному преобразованию.

Как было показано ранее, решение обратной задачи в случае, когда известны все четыре вероятности, определяется однозначно с точностью до эквивалентности. Соответственно, чтобы ответить на вопрос играют ли игроки оптимально или нет, достаточно сравнить его с решением, соответствующим оптимальному поведению игроков.

Если исходная информация содержит три вероятности, то, согласно пункту II, обратная задача имеет конечное число решений. Каждому из них с точностью до линейного преобразования соответствует платежная матрица вида:

1) А

0 0

V1 а22 У

или 2) А'

01

V а 21

0

Поскольку в 1) наблюдается явное доминирование строк (столбцов), то в этом случае вопрос о нахождении оптимального решения в смешанных стратегиях не стоит, т.е. игроки заведомо играют неоптимально.

Из 2) следует, что оптимальное решение определяется однозначно:

Р =

а

21

1

V а'21 + 1 а'21 + 1У

Л _ /

и в =

1

а

21

V а21 + 1 а21 + 1

Поэтому мы всегда из полученных ранее решений, где платежная матрица имеет вид 2) оставляем только одно, соответствующее оптимальному решению.

Если в платежной матрице имеется три одинаковых выигрыша, то

(0 0>|

линейными преобразованиями её всегда можно привести к виду А = .

V 0 1У

Поскольку вторая строка доминирует первую строку, значит, игроки играют неоптимально.

Для игр, в которых платежная матрица содержит две пары одинаковых выигрышей. С точностью до линейных преобразований матрица А примет вид

А =

00 11

или А =

01

V1 0У

Вышесказанное замечание позволяет нам отбросить из рассмотрения 00

игру с матрицей А

V1 1У

Заметим, что в случае, когда А' = а/4 1/4л

(0 1 ^

оптимальное решение

V1 0У

получается при В

. Вероятности выбора стратегий игроками

v1/4 1/4у

будут таковы р1 = р2 = q1 = q2 = 1/2.

И наконец, когда исходная информация состоит из одной вероятности (единицы), имеется бесчисленное множество оптимальных решений. Однако практического интереса этот случай не представляет.

Отсюда, можно сделать вывод, что за исключением отмеченного выше случая, требование оптимальности и информация о том, что игроки применяют смешанные стратегии, позволяет среди множества решений выявить единственное решение, соответствующее оптимальному.

IV. Приведем примеры, иллюстрирующие методику решения обратной задачи.

Пусть известны вероятности появления выигрышей, а также сами выигрыши.

Пример 1.

Таблица 1.

Выигрыши и частоты появления выигрышей

Выигрыши 0 3 5

Частота появления выигрыша 30/64 25/64 9/64

Предположим, что «расщепляется» вероятность 30/64. Тогда

х1 + х2 = 30/64 (х1 > х2).

Чтобы четверка чисел х1, х2,25/64,9/64 являлась исходными данными

обратной задачи, по крайней мере, должно выполняться одно из требований

Гх1 • х2 = 25/64 • 9/64 Гх1 • 9/64 = х2 • 25/64 л / или Л .

[ х1 + х2 = 30/64 [ х1 + х2 = 30/64

Первая система дает решение

В =

25/64 1^64

15/64 9/64

и соответствующая ему платежная матрица с вероятностями выбора стратегий игроками такова

ГЪ 0

А

0 5

5/8

3/8

5 3 8 8

Решая вторую систему, получаем

В =

^25/64 375/1088Л 9/64 135/1088

А2 =

и

г3 О 5 0 17 255

V'

у

25/34 9/34

32 544

Рассмотрение остальных вариантов «расщепления» проводится аналогично и даст следующие результаты

А =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

03 53

V

у

39 25

64 64

10/13 3/13

А 4 =

03

V5 5У

55/64 9/64

6 5

И И

Очевидно, что полученные решения с разными наборами вероятностей стратегий относятся к разным классам эквивалентных решений (т.к. у эквивалентных решений набор вероятностей стратегий один и тот же). Отметим, что при их нахождении требование оптимальности не учитывалось. Если же предположить, что игроки играют оптимально, то из приведенных решений надо сохранить только решение с матрицей А1. Пример 2.

Таблица 2.

Выигрыши и частоты появления выигрышей

Выигрыши 0 1

Частота появления выигрыша 2/20 18/20

Известны две вероятности. Как уже отмечалось, это возможно, когда либо один из выигрышей встречается трижды, либо оба по два раза.

Пусть выигрыш 1 встречается трижды с вероятностями х1, х2, х3

(Х1 > Х2 > Х3 ) .

Рассмотрим один из вариантов взаимного расположения элементов:

х1 > х2 > х3 > 220 .

Имеет место система

Х1 • 2/20 XX 2 ^Х 3

2 Л3

х1 + х2 + х3 = 18/20

или

[(х3 + ^20 )• (х2 + ^20) = ^20

х1 + х2 + х3 = 18/20

где 0 < х / < 18/20, V/ = 1,3.

Имеется целый интервал решений системы, зависящих от одного параметра

Х1 —

Хл

Х2 • (18/20 - Х2)

Х2 + 220

2/20

где 0 < х2 < 18/20 .

х2 + 220

^20

С точностью до эквивалентности соответствующая им матрица вероятностей примет вид

В =

X1 XX 2

V Х3 2/20

и вероятности выбора стратегий игроками таковы

Р

Хо

220

v х2 + 220 х2 + 220

и

Q = (18/ 20 - х2,2/20 + Х2 ).

Так как набор вероятностей стратегий для каждого игрока непрерывно зависит от параметра х2 , то число классов эквивалентных решений бесконечно. В других случаях «расщепления» картина аналогичная.

В этом варианте как было отмечено раньше оптимальных решений нет.

Библиографический список

1. Верещагина Е.И. О единственности решения обратной задачи антагонистической игры с различными элементами платёжной матрицы // Труды Нижегородского государственного технического университета им. Р.Е. Алексеева / НГТУ. - Н. Новгород, 2011. №1 (86). С. 346-352.

2. Верещагина Е.И. Об одной обратной задаче теории игр // Вестник Нижегородского университета им. Н.И. Лобачевского / Издательство Нижегородского госуниверситета. - Н. Новгород, 2013. №4 (1). С. 194-198.

3. H.F. Bohnenblust, S. Karlin, L.S. Shapley, Solutions of discrete two-person games, Contributions to the theory of games 1 (1950), Princeton, 51-72. (Имеется русский перевод в сборнике Матричные игры: сб. переводов; под ред. Н.Н. Воробьева. - М.: Государственное издательство физико-математической литературы, 1961. - 280 с.)

4. Петросян Л.А. Теория игр / Л.А. Петросян, Н.А. Зенкевич, Е.В. Шевкопляс. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2012. - 432 с.

5. Воробьев Н.Н. Основы теории игр. Бескоалиционные игры / Н.Н. Воробьев. - М.: Наука. Главная редакция физико-математической литературы, 1984. - 496 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.