Имитационное моделирование задачи о дуэли трёх лиц
Т.А. Гробер, М.А. Колотиенко Донской государственный технический университет
Аннотация: В рамках теории игр проведен анализ задачи о дуэли трех лиц, основанный на полученных в ходе имитационного моделирования данных. Разработаны математические модели для различных формулировок начальных условий игры (случайный, либо фиксированный выбор активного игрока), создающие перспективы применения исследования в политической и судебной практиках, а также в качестве аналитического аппарата для изучения теории эволюции.
Ключевые слова: труэль, имитационное моделирование, игра, дуэль трех лиц, цепь Маркова, вариативность естественного отбора, матрица переходных вероятностей, фундаментальная матрица, стохастический процесс, дилемма трех заключенных, теория игр, коалиционные игры.
В общем случае, игры типа дуэлей, в которых каждый из двух игроков имеет целью устранить противника, являются довольно распространенной задачей из теории игр. В классической модели данной антагонистической игры рассматривается двое участников с заданной вероятностью устранения противника, которая может зависеть от дополнительных условий (например, расстояния между игроками). В зависимости от этих дополнительных условий, можно провести расчет оптимальной тактики для каждого игрока. Задача существенно усложняется при добавлении игроков.
Дуэль трёх лиц впервые сформулирована в сборнике математических головоломок Киннейрда, в 1946 году [1]. Ее решение изначально сводилось к расчету вероятности выигрыша для каждого игрока, при заданных, но не оглашенных оппонентам, значениях вероятности устранения соперника. При этом очередность хода не устанавливалась. Как ясно из условия, данная задача является дискретной антагонистической игрой, а поочередность ходов определяет ее как динамическую.
Термин «труэль» был впервые введен американским экономистом Мартином Шубриком в 1964 году на страницах книги «Теория игр и соответствующие подходы к социальному поведению» [2].
В последнее время дуэль трёх лиц стала очень популярной темой в Интернете. Особенно ею увлекаются студенты и молодые учёные [3]. Это связано с тем, что теория игр во многих вузах стала обязательным предметом.
Итак, под термином «труэль» будем понимать соперничество трёх игроков. Им присвоены некоторые значения меткости - вероятности устранения соперника за один выстрел. На каждой стадии игры выбирается активный игрок (правила выбора активного игрока: либо случайным образом, либо по предварительной договорённости между игроками об их участии). Активный игрок выбирает соперника для устранения или пропускает ход. Считаем, что количество патронов бесконечно, а вероятности устранения у каждого из игроков не зависят от времени.
Случайный выбор активного игрока: математическая модель
Обозначим условно трех игроков, как А, В, С и вероятности устранения противника (меткости) за единичный ход, как, а, b, и с соответственно.
Математической моделью игры является цепь Маркова с пространством состояний: Е = {ABC, АВ, АС, ВС, Д Б, С ), начальным состоянием ABC и матрицей переходных вероятностей (примером является таблица № 1).
Таблица № 1
Матрица переходных вероятностей
№ 0 1 2 3 4 5 6
Состояния системы ABC AB AC BC A B C
0 ABC P00 P01 P02 P03 0 0 0
1 AB 0 P11 0 0 P14 P15 0
2 AC 0 0 P22 0 P24 0 P26
3 BC 0 0 0 P33 0 P35 P36
4 A 0 0 0 0 1 0 0
5 B 0 0 0 0 0 1 0
6 C 0 0 0 0 0 0 1
Поясним некоторые обозначения:
• состоянием ABC соответствует тому, что активны три игрока,
• состоянием AB - дуэль происходит между игроками А и В, игрок С выбыл как проигравший или игроку А, или игроку В,
• состоянием A означает, что победителем «труэли» является игрок А.
Здесь следует заметить, что под записью Pij понимаем вероятность перехода из состояния i в состояние j, которые, в большинстве своём, вычисляются по формулам полной вероятности. Под вероятностями «самоперехода» Pii понимаем вероятность пропуска хода активного игрока
[4].
Для переходных вероятностей справедливы следующие равенства:
где под записью Р^Рд^Р^понимаем вероятность попадания игроком А в игрока В, С или пропуск им хода.
В качестве иллюстрации зависимости вероятности выигрыша в «труэли» от меткости, приведем диаграмму 1, основываясь на случайно генерируемых программой значениях.
Очевидно, что имеющий наибольший показатель меткости игрок, соответственно обладает и наибольшей вероятностью выигрыша в данной
модели. К аналогичным выводам можно прийти, анализируя преобразованную фундаментальную матрицу, заданную следующим образом
Стоит отметить, что для получения фундаментальной матрицы необходимо привести к каноническому виду матрицу переходных состояний. После всех преобразований получим матрицу, в которой строки соответствуют невозвратным состояниям, а столбцы - всем поглощающим состояниям, приведенным ниже:
где I- единичная матрица, размерность которой совпадает с числом поглощающих состояний, Q - квадратная подматрица вероятностей переходов на множестве невозвратных состояний матрицы Р, получающаяся вычёркиванием строк и столбцов, соответствующих поглощающим состояниям, Я - прямоугольная подматрица переходов из невозвратных состояний в поглощающие; 0 - нулевая подматрица.
При а=0,8, Ь=0,6, с=0,4 фундаментальная матрица примет вид:
[5]:
л-
о,
Рис. 1.- Диаграмма 1.
Таблица № 2
Фундаментальная матрица при заданных значениях а, Ь, с
1,666667 0 0,740741 1,111111
0 1,428571 0 0
0 0 1,666667 0
0 0 0 2
Если необходимо получить общее среднее количество раз попадания системы в то или иное состояние до поглощения, то фундаментальную матрицу N необходимо умножить на единичный вектор-столбец. В нашем случае система более 3-х раз (3,518519) оказывается в состоянии, когда все игроки активны (0-е состояние) и т.д.
Таблица № 3
Общее среднее количество попаданий в «-состояние
3,518519 0
1,428571 1
1,666667 2
2 3
Так как, одной из характеристик цепи Маркова является условная вероятность попадания процесса в заданное состояние Р в момент времени
(п+1) из состояния соответствующего моменту п, то в ходе исследования представилось возможным ответить на вопрос, в какое из невозвратных состояний система попадает раньше.
Для этого фундаментальную матрицу умножим на матрицу переходов из невозвратных состояний в поглощающие, выражаемые как:
Строки матрицы В соответствуют невозвратным состояниям, а столбцы - всем поглощающим состояниям.
Например, при заданных значениях меткости а=0,8 , Ь=0,6 , с=0,4 имеем скорости перехода в невозвратные состояния, данные в таблице № 4.
Полученные элементы матрицы показывают, что из 2-го состояния в 4-е можно попасть быстрее всего. Из 1-го в 4-е можно попасть чуть менее быстро. А значит, при заданных исходных значениях а, Ь, с, шансы на победу больше всего у игрока А.
Таблица № 4
Скорости перехода в невозвратные состояния
4 5 6
0,30 0,33 0,37 0
0,57 0,43 0,00 1
0,67 0,00 0,33 2
0,00 0,60 0,40 3
Результаты экспериментов с различными значениями меткости игроков, генерируемые программой, можно представить в виде диаграммы 2.
Рис. 2.- Диаграмма 2.
На диаграмме 2 по вертикали указана вероятность попадания в возможные невозвратные состояния, а по горизонтали - в предшествующие переходные состояния. Очевидно, что наибольшее значение имеет вероятность перехода из состояний 2 (АС) в состояние 4 (А).
Было проведено порядка 100 численных экспериментов и, с расхождением порядка 0,0001, полученные результаты согласуются с данными, полученными аналитически.
Таким образом, сравнивая аналитическое решение задачи и имитационное, замечаем, что они имеют одинаковые ответы.
:
Предположим, что игроки не будут выбирать цели случайным образом, а будут использовать некую стратегию. Например, активный игрок на каждом шаге стремится исключить из игры сильнейшего из соперников. Назовём её
стратегией устранения наиболее опасного противника.
На представленной ниже диаграмме 3 наглядно отражен возникающий парадокс - игрок, с минимальным значением меткости, при использовании этой стратегии участниками «труэли», с наибольшей вероятностью оказывается победителем.
Рис. 3.- Диаграмма 3.
Необходимо заметить, что данная стратегия выполняется при плавно убывающих значениях меткости.
При рассмотрении модели, в которой меткость игрока А много больше, нежели у его оппонентов при прочих равных условиях, получим распределение победителей, соответствующее диаграмме:
Рис. 4.- Диаграмма 4.
Как видно, определенная ранее закономерность нарушается: в данном случае сильнейший игрок оставляет за собой победу, а шансы на выигрыш оставшихся участников сопоставимы друг с другом.
Математическая модель выбора активного игрока по
предварительной договорённости между игроками об их участии
Далее рассмотрим модель, в которой три игрока, придерживающиеся разных мнений по какому-то вопросу, стремятся переубедить друг друга в беседе один на один. Это возможно, например, на предвыборных теледебатах. Или же, в судебной практике по статье 42 ГПК РФ, согласно которой третьи лица, заявляющие самостоятельные требования относительно предмета спора, могут вступить в дело до принятия судебного постановления судом первой инстанции. Они пользуются всеми правами и несут все обязанности истца.
В этом случае величина a (b, c) интерпретируется как вероятность того, что игрок A (B, C соответственно) убеждает другого игрока в том, что его мнение единственно верное. Предположим, что игроки не будут выбирать цели случайным образом, а будут использовать некую стратегию выбора соперников, чтобы победить наверняка.
Допуская возможность сговора игроков, необходимо учитывать 10 состояний системы F. = (ABC, AAR, ЛАС, ARB, RRC, RCC, ACQ AAA, RRR, CCC).
Данной цепи соответствует матрица переходов, представленная в таблице № 5.
Таблица № 5
Матрица переходов
№ 0 1 2 3 4 5 6 7 8 9
Состояния системы AB C AA в AB B AA C AC C BB C BC C AA A BB B CC C
0 ABC Puv P0Í PQZ P¡M) ^fll Pqü 0 0 0
1 AAB 0 Рц Pl2 0 0 0 0 Pl 7 0
2 ABB 0 Рг i P22 0 0 0 0 0 ?t s 0
3 AAC 0 0 0 Раз Pa4 0 0 P37 0 0
4 ACC 0 0 0 ÜM 0 0 0 0 Дз
5 BBC 0 0 0 0 0 pJJ p« 0 P 0
6 BCC 0 0 0 0 0 Püä 0 0
7 AAA 0 0 0 0 0 0 0 0 0 0
8 BBB 0 0 0 0 0 0 0 0 0 0
9 CCC 0 0 0 0 0 0 0 0 0 0
Под записью Р-понимаем вероятность перехода из состояния I в состояние которые, в большинстве своём, вычисляются по формулам полной вероятности. Под вероятностями «самоперехода» Рц понимаем вероятность пропуска хода активного игрока.
Для переходных вероятностей справедливы следующие равенства:
= рг,
Ра = 7*
ík = j^ffi
Fit
Jk-j-
fe =7С
^В - дП^ЛС
К*. = kl - Й + hl - &
3
3
Л,
В данном случае, возможно, рассмотреть задачу в контексте дилеммы «заключенных» для трех лиц, где кооперация со слабейшим игроком наиболее не выгодна, так как его выгода непропорционально возрастает в случае нарушения условий соглашения. Распределение победителей имеет вид, отраженный на диаграмме 5:
Рис. 5.- Диаграмма 5.
Однако, постепенно приближая значения меткости, можно наблюдать следующую закономерность:
Рис. 6.- Сравнительные диаграммы 6.
Изменения, отраженные на диаграммах зависимости шансов выигрыша от величины показателя меткости, иллюстрируют смену характера поведения модели при уменьшении разрыва между качествами игроков. Очевидно, что при этом вероятность выигрыша слабейшего игрока превалирует.
Практическая применимость модели
При больших размерностях подобной игры аналитический метод требует сложных вычислений, связанных с преобразованием матрицы переходных вероятностей, для получения фундаментальной матрицы за счёт
перестановки соответствующих строк и столбцов. Разумного алгоритма в этом случае в литературе, доступной нам, не обнаружено.
В этом случае приемлемой альтернативой является метод имитационного моделирования, о котором шла речь в этой статье.
Несомненно, при моделировании поставленной задачи на практике возникает множество дополнительных сторонних факторов: так, например, необходим учет тяжести нанесенного урона. Иными словами, к состояниям «активный участник» и «выбывший участник» может быть прибавлена категория «участник с измененными характеристиками», кардинально меняющая существующую концепцию, как, например, в работах [6], [7],[8].
Однако, проводимые на протяжении многих лет изучения методов решения задачи «труэли» создали почву для разработок в сфере анализа стратегий голосования в многопартийных выборах, где описываемый парадокс необходимо учитывать при прогнозировании поведенческой стратегии избирателей. Или же, в судебной практике с третьими лицами, заявляющими самостоятельные требования по предмету спора.
Так же, аналитический аппарат данной модели применим к изучению процессов эволюции, в ходе которых, как известно, возникали парадоксальные явления выживания слабейших звеньев пищевых цепочек, а так же логически не объяснимые мутации. Тем самым в природе достигается вариативность видов, позволяющая существовать даже крайне уязвимым особям, и целым популяциям, однако, одновременно нарушающая постулат Ч.Дарвина «о выживании сильнейшего». Таким образом, изучение математической модели «труэли» обеспечило прорыв в разрешении одного из самых противоречивых вопросов биологии - «сохранение вариативности при постоянном отборе». Развитие инструментария для моделирования и
исследования сложных систем и объектов в последнее время представляет особый интерес [9], [10].
Литература
1. Encyclopedia of Puzzles and Pastimes, edited by Clark Kinnaird. New York: Grosset and Dunlap, Inc., 1946, p.431.
2. Martin Shubik. Game Theory and Related Approaches to Social Behavior. New York: John Wiley & Sons, 1964, pp. 380-384.
3. Richard A. Epstein. The Theory of Gambling and Statistical Logic, Revised Edition. Houston: Gulf Professional Publishing, 2014, pp. 304-314.
4. R. Toral, P. Amengual Distribution of winners in truel games. Instituto Mediterraneo de Estudios Avanzados (IMEDEA) CSIC-UIB Ed. Mateu Orla, Campus UIB E-07122 Palma de Mallorca Spain: IMEDEA, 2005. URL: digital.csic.es>bitstream/10261/7439/2/paper.pdf
5. Д. Кемени, Дж. Снелл. Конечные цепи Маркова. Москва: Наука, 1970, 272 с.
6. Leonard M. Wapner. Unexpected Expectations: The Curiosities of a Mathematical Crystal Ball. FloridaCRC Press, 2012, p. 125.
7. D. M. Kilgour, The simultaneous truel. International Journal of Game Theory. USA: 1971, pp. 229-242.
8. Martin Gardner, (October 1959). "Mathematical Games: Problems involving questions of probability and ambiguity". Scientific American. pp. 174-182.
9. Астанин С.В., Драгныш Н.В., Жуковская Н.К. Вложенные метаграфы как модели сложных объектов // Инженерный вестник Дона, 2012, №4 (часть 2) URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1434.
10. Гинис Л.А. Развитие инструментария когнитивного моделирования для исследования сложных систем // Инженерный вестник Дона, 2013, №3 URL: ivdon.ru/ru/magazine/archive/n3y2013/1806.
References
1. Encyclopedia of Puzzles and Pastimes, edited by Clark Kinnaird. New York: Grosset and Dunlap, Inc., 1946, p.431.
2. Martin Shubik. Game Theory and Related Approaches to Social Behavior. New York: John Wiley & Sons, 1964, pp. 380-384.
3. Richard A. Epstein The Theory of Gambling and Statistical Logic, Revised Edition. Houston: Gulf Professional Publishing, 2014, pp. 304-314.
4. R. Toral, P. Amengual Distribution of winners in truel games. Instituto Mediterraneo de Estudios Avanzados (IMEDEA) CSIC-UIB Ed. Mateu Orla, Campus UIB E-07122 Palma de Mallorca Spain: IMEDEA, 2005. URL: digital.csic.es>bitstream/10261/7439/2/paper.pdf
5. D. Kemeni, Dzh. Snell. Konechnye cepi Markova. [Finite Markov chains.], Moskva: Nauka, 1970, p. 272.
6. Leonard M. Wapner. Unexpected Expectations: The Curiosities of a Mathematical Crystal Ball. FloridaCRC Press, 2012, p. 125.
7. D. M. Kilgour, The simultaneous truel. International Journal of Game Theory. USA: 1971, pp. 229-242.
8. Martin Gardner, (October 1959). "Mathematical Games: Problems involving questions of probability and ambiguity". Scientific American. pp. 174-182.
9. Astanin S.V., Dragnish N.V., Zhukovsky N.K. Inzenernyj vestnik Dona (Rus), 2012, №4 (part 2). URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1434.
10. Ginis L.A. Inzenernyj vestnik Dona (Rus), 2013, №3. URL: ivdon.ru/ru/magazine/archive/n3y2013/1806.