НЕОБХОДИМЫЕ И ДОСТАТОЧНЫЕ УСЛОВИЯ СТАЦИОНАРНОСТИ ЛИНЕЙНЫХ РЕФЛЕКСИВНЫХ ОТОБРАЖЕНИЙ
Казанцев С.Б.
(Институт проблем управления РАН, Москва) sergert@mail.ru
Введение
В работе рассматриваются свойства линейных рефлексивных отображений игр двух лиц, в которых целевые функции игроков представляются многочленами второй степени. Получены условия стационарности рефлексивных отображений.
1. Понятия рефлексивной игры и информационного равновесия
Предположим, что информированность агентов описывается информационной структурой I = (І1, 1I п) , где
I, = (в, ,в, ,в,,...) - структура информированности 7-го агента, в 7 Є ^ - его представления о состоянии природы, в, є О - его представления о представлениях,-го агента, в,к є О - представления 7-го агента о том, что ,-ый агент думает о представлениях к-го агента и т.д. в общем случае до бесконечности [1], ,
7,,,к є N = {1,2,...,п}. Если задана структура информированности I, то тем самым задана и структура информированности каждого из агентов (как реальных, так и фантомных - то есть существующих в сознании других реальных и фантомных агентов). Выбор т-агентом, где Т - некоторая последовательность индексов из множества N своего действия хт в рамках гипотезы рационального поведения определяется его структурой информированности Іт, поэтому, имея эту структуру, можно смоделировать его рассуждения и определить его действие. Выбирая свое действие, агент моделирует действия других агентов (осуществляет рефлексию). Поэто-
му при определении исхода игры необходимо учитывать действия как реальных, так и фантомных агентов.
Обозначим Е+ - множество всевозможных конечных последовательностей индексов из N Е - объединение Е+ с пустой последовательностью, |0 - количество индексов в последовательности о (для пустой последовательности принимается равным нулю).
Рефлексивная игра в нормальной форме задается кортежем [Ы, (X. )геЫ, (/ (•))и=м, I}, где N - множество игроков (агентов), X, -множество допустимых действий /-го игрока, _/.(-): О XX' ® Ж1 -его целевая функция, X' = П X, , г е Ы, I - структура информиро-
геЫ
ванности [1]. Определим равновесие этой игры. Набор действий хт , т е Е+, называется информационным равновесием [1], если выполнены следующие условия:
1. структура информированности I имеет конечную сложность V, то есть, дерево I содержит конечный набор попарно различных поддеревьев [1];
2. VА,т е ^ хх — хц ;
3. "/ е Ы, "о е Е
х0 е Аг§т ах /г (вог , ХОг1 ’•••’ Хог,г-1, Уг, Хо/,г+1 ’•••’ Хогп ) .
Будем рассматривать регулярные структуры информированности [1], для задания которых введем вспомогательное понятие регулярного конечного дерева (РКД), которое определим рекур-рентно. Пусть в игре участвуют п агентов. Если (в простейшем случае) все агенты одинаково информированы, то структура информированности имеет сложность п и единичную глубину. Будем представлять эту ситуацию в виде дерева, состоящего из корневой вершины, п ребер и п висячих вершин. Далее РКД может «расти» следующим образом: к каждой висячей вершине тг, т е X, присоединяется ровно (п - 1) ребро, при этом возникает (п - 1) висячая вершина ту, у — 1, ..., г - 1, г + 1, ..., п. Построенное РКД будем интерпретировать так: если имеется висячая вершина тг, т е X, то тг-агент одинаково информирован с т-агентом (если т - пустая
последовательность, то t-агент является реальным, и его субъективные представления совпадают с объективными).
Напомним, что, во-первых, максимальная глубина k, РКД i-го реального агента в [1] названа рангом его рефлексии. Во-вторых, любая конечная регулярная информационная структура однозначно (с учетом аксиомы автоинформированности [1] - V i е N V t, s е S Qma = Q-na ) задается перечислением своих висячих вершин.
2. Рефлексивные отображения
Обозначим множество параметрических (параметр - вектор д = (в], Q2, ■■■, дп) е W п) равновесий Нэша
(1) Ev(fl) = {{x,m, еN е X’ | V i е N, V у, е Xi
f,(0b Xi(d), Хп(д)) >fi(Ob Xi(d), xt_](d), уi, Xi+1(d), Хп(д))}, а объединение этих множеств по всевозможным представлениям о значении состоянии природы обозначим
EN = • EN (Q1, в2 5 вп ).
(в^,..., в„ )eWn
Предположим, что на нижнем уровне {в-} е N конечной регулярной структуры информированности имеет место субъективное общее знание [1] фантомных агентов. Тогда с точки зрения ti-агента возможными являются равновесия их игры из множества EN({0^j}j еN). Введем множество наилучших ответов i-го агента на выбор оппонентами действий из множества Х4 при множестве W возможных состояний природы:
(2) BR,(Q X_t) = • Arg max f (в, x, , x_ ), i е N,
а также следующие величины и множества
(3) En = • En (d),
д eWn
(4) X0 = Proji En, i е N,
(5) X_ = ^Xk , i е N, k = 0, 1, 2,
J &
где
(6) Xk = BRj(W, Xk"1), k = 1, 2, ... , i e N.
Отображение БЯг(•, ): О XX..г ® X. называется рефлексивным отображением г-го агента, / е N [1].
Утверждение 1 (Утв. 14 в [1]). Xk с Xk+l, к = 0, 1, ... , г е N
то есть с ростом ранга рефлексии множества (6) возможных наилучших ответов агентов не сужаются.
3. Проблема максимального ранга рефлексии
Таким образом, информационное равновесие может быть вычислено следующим образом. Если на нижнем уровне конечной регулярной структуры информированности имеет место субъективное общее знание, то исходом игры соответствующих фантомных агентов будет параметрическое равновесие Нэша (1). Обозначим это равновесие g, g е X'. Тогда агенты следующего (более высокого) уровня выберут действия, являющиеся в рамках их информированности наилучшими ответами на обстановку, соответствующую этому равновесию. Аналогичным образом поступят агенты следующего уровня и т.д., вплоть до реальных агентов. Поясним описанную конструкцию на примере двух агентов. Если на нижнем уровне РКД имеется равновесие g, то с точки зрения, например, первого - реального - агента он должен выбрать действие х1 = БЯ1(в1, БК2(в12, ... БЩдм, g))) (г — 1 или 2 в зависимости от четности глубины РКД). В общем же случае действия реальных и фантомных агентов будут описываться системой итерированных отображений (6), начальной точкой для которых будет параметрическое равновесие Нэша, сложившееся на нижнем уровне РКД.
Рассуждения о свойствах рефлексивных отображений оказываются существенными при рассмотрении задачи о максимальном целесообразном субъективном ранге рефлексии, в рамках которой для каждого реального агента требуется определить минимальный ранг рефлексии, при котором он охватывает все многообразие своих возможных выигрышей в рефлексивной игре (при различных вариантах своей структуры информированности). Данная задача является математической формулировкой вопроса о том, какова «оптимальная» глубина рефлексии.
Интуитивно кажется, что чем выше ранг рефлексии агента, тем для него «лучше», и идеалом является бесконечная глубина реф-
лексии. Однако на самом деле ответ не столь очевиден. Во-первых, существуют информационные ограничения, которые делают бессмысленными большие значения рангов рефлексии [1]. Во-вторых, существуют многочисленные примеры (см. [1]), свидетельствующие, что увеличение ранга рефлексии агента не всегда приводит к увеличению его выигрыша. Помимо этих двух качественных доводов, можно привести несколько формальных.
Рефлексивное отображение г-го агента называется стационарным, если Xk = Xk+1, к = 0, 1, ... .
Утверждение 2 (Утв. 16 в [1]). Если рефлексивные отображения агентов стационарны, то максимальный целесообразный ранг рефлексии равен двум и множество действий г-го агента, которые могут быть реализованы как компоненты информационного равновесия, составляет X0, г е N. При этом множество информационных равновесий составляет Е = П X”.
геЫ
Таким образом, если рефлексивные отображения стационарны, то увеличивать ранг рефлексии, свыше второго, не имеет смысла. Исследуем условия стационарности рефлексивных отображений для игр двух лиц.
4. Линейные рефлексивные отображения в играх двух лиц
Рассмотрим целевые функции агентов, являющиеся многочленами второй степени по действиям агентов:
(7) / (в, х1, х2) = 9 г (в )хг 2 + У г (в К х; + Л г (в К >
(8) в еО = [а, Ь ] с ,
функции (рг, , Л! непрерывны, причем потребуем, чтобы выпол-
нялось условие наличия максимума у целевых функций:
(9) 9г (в )< 0,в е О и условие
(10) 4 9 2 (в 2 ^ (в! )-У 2 (в 2 У (в! )* 0, "в19 в2 еО ,
которое, как мы увидим в дальнейшем, гарантирует конечность множества субъективных равновесий.
64
Множества допустимых действий агентов:
(11) X, =[1,, Я, ]с Я',
Вычислим производные целевых функций (7):
/
(12) /г х> (в, х1, х2) = (в )х, + У, (в )х; + Лг (в )•
Функции наилучших ответов в рассматриваемом случае явля-
ются линейными:
(13)
(14)
БЯг (в, х,) =
У, {в )х, + У, {в)
' 2ф, {в) :
если -
У,{в )х, + У,{в) 29, {в)
є X,.
(15)
пит ч о У’{в )х, + У,{в) о
БЯ, (в, х,) = Я,, если-------------------^-------> Я,
‘ 29, (в) '
БЯ (в ) , У,(в х + У,(в) ,
БЯ, (в, х,) = Ь,, если------------------—-------< Ь,
29, (в)
Будем считать далее, что выполняется условие (13), то есть, максимумы парабол из семейств /, лежат в X, при любом
х, є Хі •
Множество субъективных равновесий (Нэша) игры на нижнем уровне является решением системы уравнений:
х 2 = БЯ2 (в 2, х1) = -У2 (в2 )х + Л 2 (в2)
(16)
(17)
Х1 = БЯ1(в1, Х2 ) =
292 {в 2)
У1 {в1 )х 2 + у 1 (в1 ) ' 29, (в,)
при различных значениях параметров в1, в 2 е О .
Решая систему уравнений (16), (17) получаем множество равновесий:
(18) X,0(в,,ву )= У (в ^ в)) 29*(<9* У (в ^ , вгв е О .
' 49* (в* 9г (в г )- V* (в* Vг (в г ) '
Заметим, что, в силу непрерывности функций 9,, у,, Л, и определения множества О, множество X,0 является отрезком Я1. Подставим (18) в (16), (17):
(19) *(в - в*-в '*=- рй X0 (в --в*)-рй ■ в' ’в * ’в ;е°.
Подставляя (19) в (16), (17), получаем выражение для преобразования множества X.0 в X.2:
X, - п,
(20) X,2(в,,в,,в,‘,в,!)=- У , ,лл .-------------,—т
' ' 2р, (в;) * 2р, (в /)
= _ V, (в,! Н у*(в 1) ^ 0 - п в) 1 п, (в'-) =
2р,(в,2) [ 2р*(в;) ' 2р*(в 1) 0 2р,(в2)
= Л44X,° (в,.в; )+ X,0 (в,2,в,')[ 1 - ^УУфл
2р,(вг)2р*(в*) ' ' ,у' ’■ 2р,(в2)2р*(в;)
V у
в г ,в 1. ,в 1.1,в г 2 е О .
' ] ] г
Утверждение 3. Рефлексивное отображение игры (7), (8), (9),
(10), (11), (13) стационарно тогда и только тогда, когда для всех в, ,в ■ е О выполняется вложение:
г*
(21) 0 £ УМ £ 1.
2р,(в,) 29Ж)
Доказательство утверждения 3^ Достаточно показать, что преобразование (20) множества X,0 в X,2 оставляет его неизменным.
Учитывая, что множества XIе являются отрезками Я1, а, следовательно, выпуклы, это утверждение следует непосредственно из (20). Утверждение 3 доказано.
Проиллюстрируем полученные результаты для случая
Равенство (13) запишется в виде: ВЯ, (в, х ■) =--------------.
2 А,
На рисунках 1 и 2 представлены различные варианты графиков функций наилучших ответов. Пересечение семейств прямых является множеством субъективных равновесий игры. Нас интересуют только такие взаимные расположения семейств ВЯг (в, х* ) , при
которых проекции множества их пересечения на оси конечны.
Вариант 1 (рис. 1.1, 1.3). Все прямые одного из семейств имеют положительный наклон, другого - отрицательный. Отображение в обоих случаях не стационарно.
Вариант 2 (рис. 1.2, 1.4). Прямые обоих семейств имеют одинаковый знак наклона, но модуль наклона второго семейства больше, чем первого. Отображение в обоих случаях не стационарно.
Вариант 3 (рис. 1.5, 1.6, 1.7, 1.8, 1.9). В том случае, если хотя бы одно из семейств содержит прямые различного знака наклона, отображение не стационарно.
Вариант 4 (рис. 2.1, 2.2). Прямые обоих семейств имеют одинаковый знак наклона, модуль наклона первого семейства больше, чем второго. Отображение в обоих случаях является стационарным, если проекции множества пересечения семейств совпадают с множествами возможных действий.
9г (в ) = Аг ,в еО , пг (в ) = Вг ,в еО , Аг * 0 Вг - числ^ У г (в )
непрерывная функция на О .
I? I а
Рис• 1 Нестационарные линейные рефлексивные отображения
В таблице 1 приведены различные варианты взаимного расположения семейств прямых на плоскости х1Хх2. Через Мь М2 обозначены максимумы модулей углов наклона семейств. Цветом выделены ячейки, которым соответствует стационарное рефлексивное отображение.
БЯ1 Знак наклона прямых
«+» «-» «+» и «-»
БЯ2 Знак наклона прямых «+» М1>М2
М1<М2
«-» М^1>М^2
М^1<М^2
«+» и «-»
Таблица 1 Варианты взаимного расположения семейств прямых наилучших ответов
Из таблицы 1 видно, что стационарным рефлексивным отображениям соответствуют семейства прямых, удовлетворяющие
прямых имеют положительный наклон, наклон первого семейства
"01,02 е О - "01,02 е О, - оба семейства прямых имеют отрицательный наклон, наклон первого семейства больше, чем второго (рис. 2.1). Полученные неравенства равносильны (21).
5. Пример
Пусть целевые функции имеют вид (7), причем
Неравенство (21) не выполняется. Следовательно, рефлексивное отображение соответствует графику 1.3 и нестационарно.
Изменим коэффициенты целевых функций игроков следующим образом:
с тем, чтобы выполнялось (21) (по сравнению с предыдущим случаем изменились 91 и у 2). Рефлексивное отображение соответствует графику 2.1 и является стационарным (выполняются условия
условиям: 0 <
У 2 (0 2 ) £ 29 (01 ) 292 (02 ) У (01 )
, "01,02 еО, - оба семейства
больше, чем второго (рис. 2.2),
9,(0) = -1, У 1(0) = -0, Л,(0) = 0. 9 20 ) = -У 2 (0 ) = 0 ■ Л 2 (0 ) = <>■
91(0) = -1, У1(0) = -0 , ЛА0) = 0, 92(0 ) = - ^ У 2 (0) = -0 , Л 2 (0) = 0,
(21), (13)) при р <^2, Ц <
а
2 - а
Y, *1 *
Р
2 - р:
а
2-а2
*2 *-
Р
2 - р‘
Заключение
В настоящей работе получены необходимые и достаточные условия стационарности линейных рефлексивных отображений (утверждение 3) для игр двух лиц, что, в силу утверждения 2 позволяет ограничиться рассмотрением моделей, в которых ранг рефлексии агентов не превышает двух. Перспективным направлением дальнейших исследований представляется получение условий стационарности нелинейных рефлексивных отображений для игр многих лиц.
Литература
1. НОВИКОВ Д А., ЧХАРТИШВИЛИ А.Г. Рефлексивные игры. М.: Синтег, 2003. - 160 с.