Научная статья на тему 'Рефлексивные игры: трансформация структур информированности'

Рефлексивные игры: трансформация структур информированности Текст научной статьи по специальности «Кибернетика»

CC BY
147
28
Поделиться
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
РЕФЛЕКСИВНЫЕ ИГРЫ / ИНФОРМАЦИОННОЕ РАВНОВЕСИЕ / ТРАНСФОРМАЦИЯ СТРУКТУРЫ ИНФОРМИРОВАННОСТИ

Аннотация научной статьи по кибернетике, автор научной работы — Чхартишвили Александр Гедеванович

Построена теоретико-игровая модель рефлексивного принятия решений. Отмечено, что если рефлексивная игра в нормальной форме повторяется несколько раз, то некоторые (или даже все) агенты могут наблюдать результаты (действия оппонентов, значения целевых функций и др.), отличные от ожидаемых, и структура информированности игры меняется. Рассмотрены три проблемы: структура информированности, основанные на ней действия агентов, трансформация структуры информированности.

REFLEXIVE GAMES: INFORMATIONAL STRUCTURE TRANSFORMATION

A game-theoretical model of reflexive decision-making is built. If a normal form reflexive game is repeated several times, some (or even all) agents may observe the results such as choices of opponents, values of goal functions etc., different from the expected one. In such case, the informational structure of the game is changed. The paper discusses three problems: informational structure, actions of the agents based on it, and informational structure transformation.

Текст научной работы на тему «Рефлексивные игры: трансформация структур информированности»

УДК 519.8

РЕФЛЕКСИВНЫЕ ИГРЫ: ТРАНСФОРМАЦИЯ СТРУКТУР ИНФОРМИРОВАННОСТИ

А.Г. Чхартишвили

Построена теоретико-игровая модель рефлексивного принятия решений. Отмечено, что если рефлексивная игра в нормальной форме повторяется несколько раз, то некоторые (или даже все) агенты могут наблюдать результаты (действия оппонентов, значения целевых функций и др.), отличные от ожидаемых, и структура информированности игры меняется. Рассмотрены три проблемы: структура информированности, основанные на ней действия агентов, трансформация структуры информированности.

Ключевые слова: рефлексивные игры, информационное равновесие, трансформация структуры информированности.

ВВЕДЕНИЕ

Для начала сформулируем задачу, которая могла бы встретиться1 на олимпиаде по математике для школьников.

Условие задачи. Трое друзей играют в игру со следующими правилами. Третий задумывает два (возможно, совпадающих) целых числа в промежутке от 1 до 9 включительно и сообщает первому сумму этих чисел, а второму — их произведение. Затем третий спрашивает: «Какие числа задуманы?» Первый и второй должны назвать эти числа либо ответить «не знаю» (отвечают одновременно и не обмениваясь какой-либо информацией).

Оба ответили на вопрос одинаково: «Не знаю». Третий повторил вопрос: какие числа задуманы? Первый и второй, подумав, опять ответили: «Не знаю». Третий опять повторил вопрос и получил тот же ответ. Так повторялось семь раз, а на восьмой первый назвал задуманные числа.

Вопрос задачи: какие числа были задуманы?

Эта задача (в дальнейшем для ее обозначения будем употреблять курсив) послужит для иллюстрации вводимых по ходу статьи понятий и конструкций.

Ясно, что для ответа на вопрос задачи необходимо описать, как изменялась информированность первого и второго игроков (в частности, каким образом первый игрок от неполной информированности о ситуации — ведь он знал лишь сумму чисел — пришел к полной информированности). Для этого, в свою очередь, необходимо описать эту

1 Если и встретилась, то автору это не известно.

информированность (в том числе ее рефлексивный компонент — информированность об информированности оппонента), а также связь между информированностью и ответами игроков.

Обсуждению этих трех проблем (структура информированности, действия игроков на ее основании, изменение информированности) и посвящена данная статья. Отметим, что она продолжает серию работ (см., например, работы [1—4]), в которых принятие решений в условиях неполной информированности моделируется при помощи аппарата рефлексивных игр. Принципиальная новизна состоит в рассмотрении множественной структуры информированности, позволяющей моделировать динамику — см. далее.

Отметим, что альтернативным подходом к моделированию ситуаций с неполной информированностью является подход в русле байесовых игр, подробно изложенный, например, в статье [5] (см. также [6]).

1. СТРУКТУРА ИНФОРМИРОВАННОСТИ

Опишем структуру информированности агентов в ситуации неполной информированности. Сначала приведем формальное описание — в терминах множеств, их элементов, отображений. Затем (в § 2) поясним введенные понятия на примерах, обращаясь к задаче.

Пусть в ситуации участвует п субъектов, будем их называть реальными агентами. Введем следующие понятия и множества (множества далее будем считать конечными):

© — множество состояний природы;

А, — множество возможных экземпляров /-го агента, / е N = {1, ..., п}; ровно один из них реальный, прочие являются фантомными агентами2 [1—4];

А = А и ...^ А — множество всех агентов;

1 П 7

О с © х А, х ... х А — множество возможных

1 П

миров.

В каждом возможном мире ю = (ю0, юр ..., юп) имеет место определенное состояние природы ю0 е © и определенные экземпляры ю, е А, каждого агента. Будем говорить, что агент ю, принадлежит миру ю или входит в мир ю.

Далее:

П — функция информированности агента, которая каждому агенту а е А ставит в соответствие множество миров п(а) с О, которые агент считает возможными в силу своей информированности;

ю* е О — реальный мир. Один из возможных миров является реальным, т. е. характеризуется тем состоянием природы ю*0 и теми агентами ю*, которые существуют на самом деле.

Входящие в реальный мир агенты являются реальными, прочие экземпляры агентов — фантомные.

Будем считать, что выполнены следующее условия.

Условие 1 (идентичности агента). V/ е N, Уа, е Ар Ую е п(а) имеет место ю, = а,, т. е. каждый агент входит во все миры, которые он считает возможными. ♦

Далее, для каждого мира ю следующим образом определим множество миров и агентов Дю), связанных с миром ю.

Мир ю' связан с миром ю1, если существуют конечные последовательности миров ю2, ..., ют и агентов а, , ..., а,- такие, что

Ч ’ ‘т ’

а,1 = юк , к = 1, ..., т юк + 1 е п(а,к), к = 1, ..., т - 1, ю' е п(а, ).

‘т

Агент связан с миром ю', если он входит в мир, связанный с миром ю'.

Понятие миров и агентов, связанных с данным миром, позволяет определить

Условие 2 (единства мира). ю е 1(ю*), а е 1(ю*) для любого мира ю е О и любого агента а е А, т. е.

2 Здесь и далее экземпляры агента будем, как правило, так-

же называть агентами.

каждый мир и каждый агент связан с реальным миром. ♦

Назовем (множественной) структурой информированности набор (©, А1, ..., Ап, О, ю*, п( •)), где

О с © х А1 х ... х Ап, ю* е О, п А1 х ... х Ап ^ 2П и выполнены условия идентичности агента и единства мира (здесь через 2п обозначено множество всех подмножеств О).

В работах [1—4] рассматривалась точечная структура информированности, в которой каждый агент считает возможным лишь один мир, т. е. для каждого а е А множество п(а) состоит ровно из одного элемента.

Назовем структуру информированности правильной, если для любого агента существует хотя бы один мир, который агент считает возможным: Уа е А п(а) ф 0.

Назовем структуру информированности регулярной, если агент считает возможными все миры, в которые входит: Ую е О, V/ е N ю е п(ю,).

Иначе говоря, правильность означает следующее: нет агента, который находится в полностью неопределенной ситуации. Регулярность же означает следующее: нет агента, который заблуждается настолько, что в его сознании вообще нет мира, в который он входит.

Нетрудно показать, что каждая регулярная структура информированности является правильной. Действительно, возьмем произвольного агента. Из условия единства мира следует существование мира, в который входит данный агент; из условия регулярности следует, что этот мир является для агента возможным. В силу произвольности агента это доказывает правильность структуры.

2. ГРАФ СТРУКТУРЫ ИНФОРМИРОВАННОСТИ

Структуру информированности можно наглядно изображать в виде ориентированного графа с вершинами двух типов — миры (прямоугольники) и агенты (круги), реальный мир выделен особо. Стрелка от агента к миру означает, что данный агент входит в данный мир. Стрелка от мира к агенту означает, что данный агент считает данный мир возможным. Стрелка с двумя остриями является сокращенным обозначением двух стрелок — от агента к миру и от мира к агенту. Легко видеть, что для правильных структур информированности к каждому агенту идет хотя бы одна стрелка, а для регулярных все стрелки являются двойными.

Обратимся к задаче и приведем пример структуры информированности.

Пример 1. Пусть задумана пара чисел (6, 6). Тогда структура информированности имеет вид, изображенный на рис. 1. Каждый круг отмечен индексом і є N = {1, 2}, означающим, что данный

Рис. 1. Задумана пара (6, 6)

Рис. 2. Задумана пара (4, 4)

агент является экземпляром і-го агента. Каждый прямоугольник отмечен парой задуманных чисел. Поскольку в реальности задумана пара (6, 6), соответствующая вершина затемнена (если бы была задумана любая другая из отмеченных на рис. 1 пар, рисунок остался бы таким же с точностью до маркировки реального мира).

Реальный второй агент знает произведение задуманных чисел 36, поэтому наряду с истинной парой (6, 6) он считает возможной пару (4, 9). Реальный первый агент знает сумму чисел 12, поэтому он считает возможными пары (3, 9), (4, 8), (5, 7) и (6, 6).

В мире, где была задумана пара (4, 9), первый (фантомный) агент считает также возможными пары (5, 8) и (6, 7).

Для мира, в котором задумана одна из пар (3, 9), (4, 8), (5, 7), (5, 8) и (6, 7), второй агент знает эту пару (поскольку она однозначно определяется на основе известного ему произведения задуманных чисел).

Пример 2. Пусть задумана пара чисел (4, 4). Тогда структура информированности имеет вид, изображенный на рис. 2. В этом нетрудно убедиться, последовательно перебирая все пары чисел с данными суммами и произведениями.

3. РАЗЛИЧНЫЕ АСПЕКТЫ ИНФОРМИРОВАННОСТИ

В терминах структуры информированности можно формализовать различные аспекты информированности агентов. В рамках данной работы остановимся на трех из них.

Рассмотрим /-го и у-го агентов в мире ю.

Одинаковая информированность агентов. Будем называть агентов одинаково информированными, если совпадают множества миров, которые они считают возможными:

П(ю,-) = П(юу).

Адекватная информированность одного агента о другом. У /-го агента существует множество миров, которые он считает возможными; в каждом из этих миров существует свой экземпляр у-го агента. Эти экземпляры могут совпадать либо не совпадать друг с другом и с у-м агентом. Будем говорить, что /-й агент адекватно информирован о у-м агенте, если такое совпадение имеет место:

е П(ю,) ^ = юг

Большая либо меньшая информированность одного агента по сравнению с другим. Понятно, что наиболее информирован (в данном мире) тот агент, для которого единственно возможный мир — данный, если такой агент существует. В более сложных случаях не всегда можно сравнивать агентов по критерию их большей информированности. Однако естественно считать, что /-й агент более информирован, чему-й агент, если выполнены следующие два условия:

ю е п(ю,) (/-й агент считает возможным мир, в который входит);

п(ю,) С 'п(юу) (множество возможных миров у-го агента шире, т. е. больше неопределенность).

4. ИНФОРМАЦИОННОЕ РАВНОВЕСИЕ

Если наряду со структурой информированности (характеризующей информированность агентов) заданы целевые функции (характеризующие интересы агентов) и их возможные действия, то можно задаться традиционным для теории игр (см., например, работы [7, 9]) вопросом: какие действия выберут агенты? Далее предлагается ответ на этот вопрос.

Пусть 9 е © — состояние природы, а х. е X. — действие, выбираемое /-м агентом. Действия вы-

бираются агентами одновременно и независимо, т. е. рассматривается игра в нормальной форме.

Пусть, далее, /(9, х1, ..., хп), / е N, — целевые функции агентов, и структура информированнос-

„3

ти является правильной .

Тогда назовем информационным равновесием набор функций х,: А, ^ X., / е N, таких, что

Х‘(а,) е Л^тах min /(юо, Х1К), ..., х. - М - 1),

X £ X} шеп(а()

х Х{ + 1(юг + ^ ..., Хп(юп)).

Это означает, что каждый агент максимизирует свой наихудший результат во всех мирах, которые он считает возможными.

Отметим, что это определение информационного равновесия представляет собой обобщение информационного равновесия в случае точечной структуры информированности (см. работы [1, 3, 4]), которое, в свою очередь, является обобщением равновесия Нэша — наиболее общепринятой концепции решения в некооперативных играх.

Для иллюстрации понятия информационного равновесия вновь обратимся к задаче. В ней у каждого из агентов существует возможность либо назвать задуманные числа, либо сказать «не знаю» (что будем обозначать прочерком: {—}). Таким образом, множества возможных действий обоих агентов имеет вид Х1 = Х2 = © и {—}, где © = {(а, Ь)|а е {1, ..., 9}, Ь е {1, ..., 9}}.

Целевые функции агентов (в данном случае они совпадают) определим следующим образом (здесь / = 1, 2):

/(9, хр х2) =

1, если (х1 = х2 = 9) или (х1 = 9, х2 = {-}) или (х1 = {-}, х2 = 9);

0, если х1 = х2 = {—};

_ -1 в остальных случаях.

Иными словами, агенты получают выигрыш 1 в случае, если хотя бы один из них верно назвал задуманные числа, а второй при этом не ошибся. Если оба сказали «не знаю», то каждый получает выигрыш 0. Если хотя бы один агент неверно назвал задуманные числа, оба получают выигрыш —1.

Тогда информационное равновесие имеет следующий вид: агент сообщает пару чисел в том и только том случае, когда он считает возможным ровно один мир (т. е. точно знает, какая пара чисел задумана). В противном случае он говорит «не знаю».

5. ТРАНСФОРМАЦИЯ СТРУКТУР ИНФОРМИРОВАННОСТИ

Структура информированности представляет собой своего рода «моментальный снимок» взаимной информированности агентов. Ясно, что с течением времени информированность может меняться. В ряде работ последних лет были рассмотрены модели изменения структуры информированности под влиянием сообщений [2] либо наблюдения агентами тех или иных результатов игры [8]. Однако в этих моделях допускалась возможность достаточно радикального отказа агентов от имеющейся информированности в пользу новой. По сути, агенты при этом предполагались в большой степени забывчивыми либо неуверенными в своей информированности.

Здесь мы опишем трансформацию структуры информированности игры вследствие наблюдения агентами ее результатов. При этом мы считаем, что сохраняется вся имеющаяся у агентов информированность, не противоречащая новым наблюдениям.

Напомним, что мы рассматриваем игру в нормальной форме, т. е. ходы выбираются агентами одновременно и независимо. Если в результате игры информированность агентов меняется, то каждую следующую игру (если она состоится) агенты разыграют с новой информированностью независимо от предыдущих и последующих.

Пусть у /-го реального агента имеется являющаяся общим знанием функция наблюдения wj = = W‘.(9, х1, ..., хп) (подробнее о функции наблюдения в точечном случае см. в работе [4]). Смысл ее

„4

следующий: если в мире, в который входит агент а. е А., имеет место состояние природы 9 и агенты выбрали действия (х1, ..., хп), то агент а. наблюдает значение wi е V., где V. — множество возможных наблюдений экземпляров /-го агента.

Суть трансформации структуры информированности состоит (вкратце) в следующем: для каждого агента а е А (как реального, так и фантомного), модифицируется множество миров п(а), которые он считает возможными. Модификация состоит в том, что исключаются те миры, для которых значение функции наблюдения принимает значение, отличное от наблюдаемого агентом. При этом может оказаться, что агенту поступают разные «сигналы» (разные значения функции наблюдения) из разных миров. В этом случае агент «исчезает», и вместо него «возникает» несколько агентов, каждый со своей информированностью (см.

Если структура не является правильной, то существует агент, который не считает возможным ни один из миров. Моделирование действий такого агента выходит за рамки данной работы.

Напомним, что в каждый мир входит ровно один экземпляр г-го агента, г е N.

мирах из множества Н, а сами эти значения обоз-

Рис. 3. При трансформации структуры информированности число агентов может меняться

Рис. 4. При трансформации свойство регулярности структуры информированности сохраняется

Рис. 5. После первого вопроса и ответов (задумана пара (4, 4))

рис. 3, в прямоугольниках приведены значения функции наблюдения).

Теперь опишем правило трансформации структуры информированности подробнее — в предположении, что существует единственное информационное равновесие х, в результате реализации которого функция наблюдения каждого агента принимает определенное значение в каждом мире ю: м>і = ^.(ю0, х1(ш1), •••, х„(ю„)). Тогда значение функции наблюдения зависит лишь от мира ю, т. е. wi = ^.(ю).

Пусть имеется агент а, є А,, і є N. Опишем процедуру трансформации его информированности. Будем использовать обозначение Н(а,) = {ю є П|ю, = а,} для множества миров, в которые входит агент а,. Далее, обозначим через М = М (а,) число попарно различных значений функции наблюдения wi на

1 2 М

начим wi , wi , ..., wi .

Тогда в результате трансформации вместо агента а, образуется (т. е. добавляется в множество А,)

М агентов, обозначим их а1, а2, ..., аМ, причем

связи этих агентов с мирами задаются следующими двумя соотношениями для каждого к є {1, ..., М}:

Н( а к) := {ю є Н(а>,(ю) П( ак) := {ю є г|Ц)К(ю) =

к л

: wi },

к л wi }.

Агент а. при этом удаляется из множества А..

После выполнения описанной процедуры для всех агентов а е А, из множеств О и А удаляются все миры и агенты, не связанные с реальным миром. Тем самым завершается изменение структуры информированности в результате наблюдения агентами результатов взаимодействия.

Для регулярных структур информированности множества Н(а) и п (а) совпадают, поэтому совпадают и множества Н( ак) и п( ак). Отсюда вытекает, что при трансформации свойство регулярности структуры информированности сохраняется, т. е. регулярная структура трансформируется в регулярную структуру (рис. 4).

Обратимся к задаче и рассмотрим продолжение примера 1 (см. рис. 1). Функции наблюдения обоих агентов таковы: агент узнает сообщение оппонента и свой выигрыш. Как было показано в § 4, агент называет конкретную пару чисел лишь тогда, когда точно знает ее (т. е. лишь один мир считает возможным). Поэтому после первого вопроса и ответов структура информированности примет вид, представленный на рис. 5: удалены миры, в которых один из агентов называл конкретную пару чи-

Рис. 6. После первого вопроса и ответов (задумана пара (6, 6))

Рис. 7. После седьмого вопроса и ответов (задумана пара (6, 6))

сел. Видно, что теперь первый агент точно знает, какие числа задуманы.

Рассмотрим теперь продолжение примера 2 (см. рис. 2). Здесь после первого вопроса и ответов структура информированности примет вид, показанный на рис. 6.

Как нетрудно убедиться, для достижения полной информированности одного из агентов потребуется ровно семь вопросов и ответов (рис. 7).

Тем самым, мы ответили на вопрос задачи — была задумана пара (4, 4).

Строго говоря, для исчерпывающего ответа надо рассмотреть все возможные варианты задуманных пар чисел. Однако нетрудно убедиться, что лишь для одного из них — (4, 4) — ровно через семь вопросов и ответов достигается полная информированность.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрена структура информированности агентов в рефлексивной игре и показано, как она меняется в результате наблюдения агентами результатов своих действий. Перспек-

тивное направление дальнейших исследований состоит в моделировании изменения информированности в результате сообщений внешних по отношению к множеству агентов субъектов (в том числе с целью информационного управления [4]), коммуникаций агентов между собой и пр.

В § 5 показано, что свойство регулярности структуры информированности при ее трансформации сохраняется. Представляет интерес исследование и других свойств структуры информированности (а также информационного равновесия) и условий сохранения этих свойств при трансформации.

ЛИТЕРАТУРА

1. Новиков Д.А., Чхартишвили А.Г. Рефлексивные игры. — М.: СИНТЕГ, 2003. — 158 с.

2. Романько АД., Чхартишвили А.Г. Моделирование информационных воздействий в рефлексивных играх: простые сообщения // Сб. тр. ВГАСУ. — Воронеж, 2006. — С. 157—167.

3. Чхартишвили А.Г. Информационное равновесие // Управление большими системами. — 2003. — Вып. 3. — С. 100—119.

4. Чхартишвили А.Г. Теоретико-игровые модели информационного управления. — М.: ПМСОФТ, 2004. — 227 с.

5. Aumann R. Interactive epistemology I: Knowledge // International Journal of Game Theory. — 1999. — Vol. 28, N 5. — P. 263—300.

6. Aumann R, Heifetz A. Incomplete Information / Handbook of Game Theory. Vol. 3, ed. by R.J. Aumann and S. Hart. — Amsterdam: Elsevier, 2002. — P. 1665—1686.

7. Губко М.В., Новиков Д.А. Теория игр в управлении организационными системами. — М.: СИНТЕГ, 2002. — 148 с.

8. Новиков Д.А. Математические модели формирования и функционирования команд. — М.: Физматлит, 2008. — 184 с.

9. Myerson R.B. Game theory: analysis of conflict. — London: Harvard Univ. Press, 2001. — 568 p.

Статья представлена к публикации членом редколлегии

Д.А. Новиковым.

Чхартишвили Александр Гедеванович — д-р физ.-мат. наук, вед.

науч. сотрудник, Институт проблем управления им. В.А. Трапезникова РАН, г. Москва, S (495) 334-90-51,

e-mail: sandro ch@mail.ru

“Новая

книга

Воронин А.А., Губко М.В., Мишин С.П., Новиков Д.А. Математические модели организаций. — М.: Ленанд, 2008. — 360 с.

Настоящее учебное пособие представляет собой введение в математическую теорию управления организационными системами и предназначено для студентов вузов и аспирантов управленческих специальностей, а также для научных и практических работников.

Дано определение модели, приведена классификация видов моделей и методов моделирования, перечислены функции моделирования и требования к моделям. Рассмотрены этапы построения и исследования математических моделей, сформулированы задачи оптимизации и обсуждены проблемы устойчивости и адекватности моделей. Приведены общая модель управления и технология решения соответствующих задач моделирования.

Приведены минимально необходимые и используемые при построении моделей функционирования организаций сведения из теории принятия решений, в том числе, в условиях природной и игровой неопределенности. Рассмотрены основные подходы и результаты исследований теоретико-игровых задач стимулирования.

Дан обзор моделей иерархических структур, описаны базовая и общая модель иерархии управления, формулируются и решаются задачи синтеза оптимальных иерархических организационных структур. Каждая глава завершается списком тем для самостоятельного изучения, снабженным необходимыми библиографическими ссылками. При формировании списков используемой и рекомендуемой для изучения литературы авторы стремились при наличии такой возможности приводить источники, тексты которых имеются в свободном доступе в Интернете.