УДК 517.2
ВЕРОЯТНОСТНЫЕ ОЦЕНКИ И ЭФФЕКТИВНЫЕ СТРАТЕГИИ В САЛОННЫХ ИГРАХ
1 2 © 2010 г. В.Г. Ильичев , А.А. Зеленин
1 Южный научный центр РАН, ул. Чехова, 41, г. Ростов-на-Дону, 344006,
2Ростовский филиал Московского государственного технического университет гражданской авиации, пр. Шолохова, 268, г. Ростов-на-Дону, 344009, office@rfmstuca. т
1Southeren Scientific Centre RAS, Chekhov St., 41, Rostov-on-Don, 344006
2Rostov Branch of Moscow State Technical University of Civil Aviation, Sholokhov Ave, 268, Rostov-on-Don, 344009, office@rfmstuca. ru
На примере салонной игры (преферанса) предложены эффективные стратегии. Рассчитано потенциальное число взяток при взятии прикупа. Если ожидаемая оценка больше некоторого порогового значения (~ 6,5), то следует заказывать игру. Приведены примеры оценки типичных сложных раскладов.
Ключевые слова: вероятность, сила комбинации, максимин, порог.
We propose an effective strategy for playing parlor game (preference). For preference we calculate a potential number of tricks when taking the widow. If the expected estimate is above some prescribed threshold (~ 6,5), the player should take the widow. We give some examples of typical complex combinations.
Keywords: probability, combination strength, minimax, threshold.
Осторожные и рискованные стратегии
Классическая теория игр с неполной информацией анализирует содержание достаточно простых в комбинаторном плане игр [1]. Так, в покере вся техника игры сводится к теоретико-вероятностному определению правильного выбора одношаговой стратегии (блефовать или не блефовать, повышать или не повышать ставку и т.д.). Напротив, имеются игры [2] с
полной информацией, которые являются полностью детерминированными (шахматы и др.). Промежуточное положение занимают популярные игры - преферанс, домино и др. Здесь требуется как-то использовать объективные вероятностные оценки для построения оптимальной комбинаторной стратегии. На примере преферанса приведем достаточно полное решение данной задачи.
В настоящее время появилось много книг, в которых излагаются технические приемы игры в преферанс. Однако эти навыки - лишь тактическая составляющая игры. Для высокого уровня игры большое значение имеет и стратегическая сторона дела. Так, в [3] приведены вероятности реализации того или иного количества взяток для сложных (дырявых) комбинаций карт определенной масти (например, пики). В частности, комбинация туз+король+валет (ТКВ) с вероятностью «0,31 набирает 3 взятки, с вероятностью « 0,69 - 2. Эти вероятности зависят от распределения остальных 5 пик на руках вистующих. Данная информация полезна при принятии решения о заказе количества взяток играющим (п или п +1) уже после приобретения прикупа.
Гораздо чаще игрокам приходится принимать решение о том, следует ли брать прикуп или нет. По сути, это основной вопрос преферанса: говорить раз (брать прикуп) или говорить пас (не брать), когда на руках игрока нет явных 6 и более взяток.
Ниже на примере варианта игры «Ростов» обсудим эту проблему. Предварительно напомним общеизвестный факт, что в данном варианте заказывать игру и не добирать потом одну взятку весьма убыточно. Так, в случае шестерной («шестерика») при недоборе 1 взятки («пятак») проигрыш состоит из штрафных вистов за недобор одной взятки - 3x10 = 30 ; за «подсад в гору» - 20х 3/4 = 15; потерь от того, что вистующие взяли 5 взяток - 5 х 2 = 10 .
Следовательно, в случае неудачи игрок теряет 55 вистов. Отсюда следует осторожный
Принцип 1. Лучше проиграть распасы с 9 взятками, чем сыграть «пятак».
Действительно, при 9 взятках проигрыш - 45 вистов, что и подтверждает данный принцип.
Если бы игра в преферанс состояла из одной партии, то следовало бы действовать по принципу 1. В реальности же пуля включает в себя большое количество (пул) партий, и не исключено, что это может привести к модификации принципа 1. Так оно и происходит: имея крупные карты на руках, целесообразно придерживаться более смелой стратегии
Принцип 2. Лучше сыграть «пятак» + «шестерик», чем 2 раза проиграть распасы.
В самом деле в 1-м случае убыток игрока (в вистах) составляет: «пятак» = -55; «шестерик»= =+ 20 х 3/4 -8=+7. В целом - 48.
Далее средний проигрыш с крупными картами на распасах равен 30 вистов. Поэтому во 2-м случае убыток - 60.
Теперь ясно, что 1-й случай более предпочтителен.
Из приведенных выше простых арифметических соображений следует: последователь принципа 1 будет слишком часто играть и проигрывать распасы. Сторонник принципа 2 будет их играть редко, поскольку зачастую берет прикуп, когда на руках меньше гарантированных 6 взяток.
Здесь самое трудное - провести грань в ситуациях, где заведомо не нужно рисковать (пас), а где, напротив, целесообразно это сделать (раз). Перейдем к решению данной проблемы, основанному на вероятно-
стных свойствах прикупа и эвристического понятия силы карточной комбинации.
Расклад и вероятностные свойства прикупа
Обсудим вероятностные свойства расположения мастей в прикупе (р) в зависимости от состава мастей на 10 картах играющего. Пусть а, Ь, с, ё - количество карт в пике (п), трефе (т), бубне (б) и черве (ч) на руках игрока. Можно считать, что 2 карты прикупа являются последовательной случайной выборкой из оставшихся 22 карт. Этот набор содержит 8 - а, 8 - Ь, 8 - с, 8 - ё
карт перечисленных мастей. Отсюда получаем вероятности реализации тех или иных прикупов. Так, вероятность одновременного нахождения 2 пик в прикупе
8 - а 7 - а Р11 =-х"
22
21
одной пики и одной трефы -
8 - а 8 - Ь 8 - Ь 8 - а
Р] 9 =-X--1--X- .
12 22 21 22 21
В табл. 1 приведены указанные вероятности для 6 основных раскладов (Я = аЬсё). Несколько удивительно, что здесь вероятность нахождения хотя бы одной пиковой карты в прикупе больше 1/3.
Таблица 1
Вероятности прикупа в зависимости от расклада
р R
3322 3331 4321 4330 4420 4411
п+п Р11 0,04 0,04 0,03 0,03 0,03 0,03
Т+Т Р22 0,04 0,04 0,04 0,04 0,03 0,03
б+б Рзз 0,06 0,04 0,06 0,04 0,06 0,09
Ч+Ч, Р44 0,06 0,09 0,09 0,12 0,12 0,09
п+т, Р12 0,11 0,11 0,09 0,09 0,07 0,07
п+6, Р13 0,13 0,11 0,10 0,09 0,10 0,12
п+4, Р14 0,13 0,15 0,12 0,14 0,14 0,12
т+6, Р23 0,13 0,11 0,13 0,11 0,10 0,12
т+4, Р24 0,13 0,15 0,15 0,17 0,14 0,12
б+4, Р34 0,16 0,15 0,18 0,17 0,21 0,21
Сила комбинации
Определим силу (5) произвольной комбинации карт в определенной масти (например, в пике). 5 - это потенциальное количество взяток, которое может дать эта комбинация играющему независимо от расположения остальных карт данной масти на руках 2 вистующих. Считаем, что игра происходит в открытую, а все ходы первым делает играющий (неважно, взял ли он предыдущую взятку или нет). Играющий выбирает порядок ходов с целью максимизации числа своих взяток при конкретном расположении карт вистующих.
Формально обозначим через I,У1,У2 - наборы карт играющего и 2 вистующих. Всякий выбранный порядок ходов игроками задается некоторыми перестановками Р, 0, 02 . Положим 7 = Р(1), У1 = 0(Г1),
К 2 = 22(К 2), тогда однозначно определено количество
взяток играющего K = K (I, V1, V 2). S вычисляется с помощью максиминной формулы:
S(I, VI, V2) = max min K(~, Fl, ~2). (1)
P V\V2
В частности, пусть !=ТД10 (туз +дама +десятка) -комбинация играющего, а V1=K7 и V2=B98 - карты вистующих. Заметим, что у 1-го вистующего имеется всего 2 карты. В этом случае при разыгрывании последней карты он пропускает ход, поэтому S(I ,V1,V2) =2.
При !=ТД10, V1=КВ7 и V2=98 получаем S(I ,V1,V 2) =1.
Очевидно, наименьшие значения S реализуются, когда один из вистующих имеет длинную масть - карты, являющиеся дополнением набора I в масти пика.
Иногда в практической игре вистующие могут сами делать ход (в пику), тогда количество взяток у играющего может и увеличиться. Следовательно, формула (1) доставляет оценку снизу реальной силы. При фиксированной комбинации играющего будем многократно имитировать различные варианты случайного распределения пики на руках пары вистующих. Например, пусть ТД10 - исходная комбинация играющего, тогда каждый (i-й) вариант вистующих (В1 и В2) создается по правилу: с вероятностью 1/2 карта X передается В1,- или В2„ где X пробегает значения К, В, 9, 8, 7.
С учетом вероятностного распределения карт вистующих определим среднюю силу выражением:
^(I) = 1 SN=1 S(I,V1t ,V2t), (2)
где N - количество вариантов (N - достаточно большое число).
Ниже, для краткости, под термином «сила» будем подразумевать именно среднюю силу. Теперь ее значение может быть и нецелым числом, удобно реализовать её вычисление на миникомпьютере (время расчета одной преферансной силы для N = 3000 составляет менее 1 с). Так, сила ТД10 равна 1,58 (в подобных случаях будем писать кратко ТД10=1,58). Для этой комбинации такая величина её силы представляется довольно естественной.
Перейдем к расчету потенциальной силы прикупа. Пусть на руках игрока имеется некоторая комбинация в пике I силы Z =Z(I). После того как он взял прикуп, возможны 3 случая.
1. Если в прикупе нет карт пиковой масти, то комбинация остается прежней и её сила, конечно, не изменяется.
2. Если в прикупе имеется 1 карта пиковой масти, то возникает расширенная комбинация I+ =I+X. Разумеется, таких расширений может быть несколько (m штук). Например, для 1=ТД10 имеем 5 возможных
комбинаций: I+ = ТКД10, ТДВ10, ТД109, ТД108, ТД107. Представляет интерес задача: каким будет
среднее значение силы I+ ? По сути, требуется вычислить среднее арифметическое по всем допустимым X: Z+ (I) = — 2 Z (I + X).
m x
Наибольшая «прибавка» Z+(I) - Z(I) возникает для слабых комбинаций I.
3. Пусть в прикупе оказались 2 карты пиковой масти, тогда рассмотрим расширенную комбинацию
I++ =1+Х+У (всего т штук). Определим среднюю силу I++ как среднее арифметическое по всем допустимым X и У: Z++ (I ) = — 2 Z (I + X + У ).
тх ,У
Для ряда конкретных комбинаций (табл. 2-7), содержащих туза или короля, приведем значения Z, Z+, .
Таблица 2
Сила комбинаций с 1 или 2 картами
Z I
Т К ТК ТД ТВ КД КВ
Z 1,00 0,000 2,00 1,03 1,00 1,00 0,07
Z+ 1,15 0,45 2,23 1,77 1,46 1,60 1,22
Z++ 1,49 1,2 3,51 3,09 2,94 3,06 2,68
Таблица 3
Сила ТК-комбинаций
Z I
ТКД ТКВ ТК10 ТК9-ТК7 ТК 87 ТК 987
Z 3,00 2,31 2,06 2,00 3,28 4,75
Z+ 3,9- 3,52 3,42 3,40 4,81 6,00
Z+ + 5,00 4,85 4,85 4,85 6,00 7,00
Таблица 4
Сила ТД-комбинаций
Z I
тдв ТД10 ТД9 ТД8-ТД7 ТД 87 ТД 987
Z 2,06 1,58 1,38 1,31 2,37 3,98
Z+ 3,22 2,92 2,85 2,82 4,31 5,67
Z++ 4,55 4,47 4,47 4,47 5,75 7,00
Таблица 5
Сила ТВ-комбинаций
Z I
ТВ10 ТВ 9 ТВ8-ТВ7 ТВ 87 ТВ 987
Z 1,19 1,06 1,06 2,25 3,75
Z+ 2,85 2,7 2,67 4,13 5,67
Z++ 4,33 4,33 4,33 5,75 7,00
Таблица 6
Сила КД-комбинаций
Z I
КДВ КД10 КД9 КД8-КД7 КД 87 КД 987
Z 2,00 1,39 1,13 1,06 2,37 3,75
Z+ 3,12 2,9 2,82 2,80 4,13 5,33
Z++ 4,40 4,32 4,32 4,32 5,50 6,67
Сила КВ-комбинаций
Z I
КВ10 КВ9 КВ8 КВ7 КВ 87 КВ 987
Z 1,07 0,74 0,63 0,58 1,49 3,24
Z+ 2,52 2,35 2,29 2,72 3,87 5,17
Z++ 4,18 4,15 4,15 4,15 5,42 6,67
Для любой комбинации I имеет место неравенство 2(I) < 2+(I) < 2++ (I) и, вероятно, справедливо
„+,„ 2 (I) + 2+) соотношение 2 (I) <-.
Сила расклада
Рассмотрим комбинации на 10 исходных картах игрока: 11 в пике, 12 в трефе, 13 в бубне и 14 в черве. Игроку требуется принять решение, что заказывать: раз или пас? Наивный подход заключается в подсчете суммы сил всех комбинаций = 2(Д) + 2+ 2+ 2и
соблюдении правила, основанного на принципе действия персептрона [4].
Правило 1. Если 5 больше некоторого порога (5 или 6 или др.), то следует говорить раз.
Как определить требуемое значение порога?
Пусть (5) - вероятность сыграть ровно к взяток, когда исходная сила карт играющего равнялась 5 . Разумеется, набор взяток осуществляется после взятия прикупа и сноса 2 слабейших карт. Если имеется конкретный расклад ( Я1 ) силы 5 , то указанные вероятности существуют и могут быть рассчитаны, например, методом Монте-Карло. Не исключено, что для другого расклада Я2 силы 5 вероятности {Чк (5)} окажутся другими. В этом случае для расчета объективных вероятностей { (5) } следует осред-нить субъективные {Чк (5)} по всем раскладам одной и той же силы 5 .
Далее пусть играющий сказал раз (заказал игру), а сыграл к взяток. Обозначим через 8к соответствующий «доход» при минимальном заказе (6 взяток). Например, 85 = -55 и 86 = +7. Тогда средний доход
10
игрока с исходной силой карт 5 Д(5) = 2 8к0к (5).
к=0
Практически построить функцию Д(5) затруднительно. Тем не менее следующие ее свойства представляются весьма правдоподобными. При малых 5 данная функция отрицательна, при больших - положительна. Вероятно, Д(5) - возрастающая функция от аргумента 5 . Тогда значение порога совпадает с наименьшим значением 5, при котором Д(5) > 0.
Однако такой алгоритм слабо (или совсем неявно) учитывает «волшебную» мощь прикупа. Так, в частности, получается, что комбинация КВ практически не усиливает 5 . Тем не менее согласно табл. 2 с приходом своих карт КВ быстро набирает силу. Поэтому
Таблица 7 с учетом прикупа следует ориентироваться на ожидаемую оценку (на 12 картах):
Е = рп(!1++ +!3 + + Р22 (I +I2+ +!3 +^) + + Рзз(! + Ь +!3++ +^) + Р44(к +12 +Iз +I4+) + + Рl2(Il+ +I2 +Ц +14) + Рlз(Il+ +12 +Iз+ +I4) + + Рl4(Il+ +12 +Iз + 4) +
+ Р23^1 + ^2. +Iз +14) + Р24(Л +I2 +Iз +I4) +
+ Р34(Ь +12 +I3+ +4) .
В этой сумме каждое большое слагаемое отвечает за один из 10 вариантов прикупа согласно приведенной выше табл. 1; а вероятности этих событий {Ру }
берутся из столбца расклада Я = II!3!4 .
Отметим, что сила каждой комбинации ^ и
14, связанных общей суммой карт (10), увеличивается
на 0,1^0,2. Действительно, при аддитивных ограничениях невозможно появление «длинных мастей» (одновременно в пике, трефе, бубне и черве) на руках вистующих, которые минимизируют количество взяток играющего. После сноса 2 слабейших карт величина Е несколько снижается, но не более чем на 0,2 .
Приведем ожидаемые оценки для ряда исходных наборов комбинаций.
1. Для расклада вида 4321 рассмотрим: /1 =Т987, 12 =ТВ7, 13 =КД, 14 =К.
Сумма исходной силы равна всего лишь 5=4,30=2,24+1,06+1+0,0.
Для подсчета ожидаемой силы расклада потребуются значения 7+ =4,06 и Il+ + =5,75, а остальные требуемые силы приведены в табл. 2-7. С учетом вероятностей 3-го столбца табл. 1 получаем Е и 6,4. Это существенно больше, чем исходная оценка. Но достаточно ли этого, чтобы сказать раз?
2. Для расклада 3331 приведем набор комбинаций: 71 =ТД7, 12 =ТВ7, 73 =ТВ7, 14 =Т. Исходная оценка довольно скромная 5=4,43. Для
подсчета ожидаемой оценки будем использовать ту же схему, но с учетом 2-го столбца табл. 1. Итак, получаем Е и 6,7.
3. Рассмотрим расклад вида 3322: 7l =ТД7, 12 =ТД7, 7з =КД, 14 =КД. Здесь исходная оценка 5=4,62, ожидаемая -
Е и 6,8.
4. Рассмотрим расклад вида 4330: 71 =ТКДВ, 12 =КВ7, 73 =КВ7, 74 =пусто. Исходная оценка 5=5,14, а при подсчете ожидаемой суммы (внимание!!!) необходимо задать количественные значения !4, , I++ и для червы. С помощью компьютера находим универсальные (для любой отсутствующей масти) константы 14 =0, I +=0,12
и !4"+ =0,33. Получаем Е и7,2.
5. Рассмотрим расклад вида 4420: 71 =КД87, 12 =КВ87, 73 =КВ, 14 =пусто. Исходная сумма 3,9, а ожидаемая - 6,15.
6. Рассмотрим расклад вида 4411:
^ =КД87, 12 =КВ87, /3 =К, /4 =К.
Исходная сумма 3,86, ожидаемая - 6,0.
Окончательно более адекватным представляется эвристическое
Правило 2. Если Е больше некоторого порога, то следует говорить раз.
Здесь, как и ранее, чтобы определить значение порога следует построить свою функцию среднего до-10
хода 0.(Е) = 2 8кРк (Е), где Рк (Е) - вероятность сыг-
к=0
рать ровно к взяток, когда ожидаемая сила карт игрока равнялась Е . Тогда значение порога - это наименьшее Е , при котором ЗДЕ) > 0. К сожалению,
эффективно построить О(Е) затруднительно.
Для рассматриваемых раскладов - промежуточных между 5 и 6-й взятками - наибольшие значения принимают Р5 и Р6. Эмпирический опыт показывает, что при значении порога 6,5 (и, по крайней мере, своем 1-м ходе) число удачных «шестериков» более чем в 8 раз превосходит количество неудачных «пятаков». Это покрывает издержки рискованной стратегии ((+7) х 8 - 55 х 1>0).
Поэтому в примерах 2-4 следует говорить раз, в остальных случаях - пас.
Выводы
1. Если вдруг при соблюдении правила 2 в практике преферансной игры обнаружатся убытки, то игроку следует просто несколько увеличить порог. Не исключено, что такая процедура «обивания порогов» может затянуться. Поэтому актуальна проблема: какое значение порога приносит наибольший доход?
2. Кратко обсудим другую салонную игру - домино. В комбинаторном плане домино сложнее преферанса. Действительно, в преферансе игра идет «масть в масть», поэтому ее масти оказываются в достаточной мере изолированными. А в домино каждый камень представляет собой своеобразный «переходник» от одной масти (0, 1, 2, 3, 4, 5, 6) к другой.
Поступила в редакцию
При анализе игры домино целесообразно выделить 2 простые (чистые) стратегии - оборонительную и наступательную. При 1-й стратегии игрок ходит так, чтобы на оставшихся у него камнях было наибольшее разнообразие мастей. Он полагает, что данная стратегия позволяет ему минимизировать вероятность пропуска хода в будущем. Во 2-й стратегии игрок действует «однообразно»: выставляет камни (оказывает давление) одной и той же мастью, например, 1 (1 - давление). Он полагает, что вскоре «обескровит» набор камней противника, и тот пропустит очередной ход.
Практика игры выработала следующий эвристический принцип: атакующая стратегия более эффективна, чем оборонительная.
Строгое обоснование этого принципа является открытой теоретико-вероятностной и одновременно комбинаторной проблемой.
В общем случае эффективная стратегия представляет собой синтез обеих чистых стратегий, в котором доминирующую роль играет активная наступательная тактика. Эта основная идея порождает определенные закономерности [5]. Так, пусть игрок X производил 1 -давление. В результате оказались выложенными 6 костей масти 1, а последний камень (единичный конец) этой масти находится на руках X. Позже обстоятельства вынудили его расстаться с этим камнем масти 1. Довольно неожиданно, что после этого можно вычислить одну из его оставшихся костяшек.
Основная теорема игры в домино. Пусть концевая костяшка игрока X имела вид 1 п, тогда у него еще
остался камень масти п.
Практика показала, что это правило реализуется в более чем 70 % случаев.
Литература
1. Фон Нейман Дж., Моргенштерн О. Теория игр и эконо-
мическое поведение. М., 1970. 707 с.
2. Куммер Б. Игры на графах. М., 1982. 112 с.
3. Лесной Д.С. Русский преферанс. М., 2007. 696 с.
4. Розенблатт Ф. Принципы нейродинамики. М., 1965. 460 с.
5. Ильичев В.Г. Принципы игры в домино // Наука и жизнь.
2007. № 4. С 128-130.
_22 декабря 2009 г.