Научная статья на тему 'Метод рефлексивных разбиений в моделях группового поведения и управления'

Метод рефлексивных разбиений в моделях группового поведения и управления Текст научной статьи по специальности «Математика»

CC BY
569
109
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
ТЕОРИЯ ИГР / КОЛЛЕКТИВНОЕ ПОВЕДЕНИЕ / ПРИНЯТИЕ РЕШЕНИЙ / РЕФЛЕКСИЯ / ИНФОРМАЦИОННОЕ УПРАВЛЕНИЕ / GAME THEORY / COLLECTIVE BEHAVIOR / DECISION-MAKING / REFLEXION / INFORMATIONAL CONTROL

Аннотация научной статьи по математике, автор научной работы — Корепанов Всеволод Олегович, Новиков Дмитрий Александрович

Предложен метод рефлексивных разбиений множества рациональных агентов, осуществляющих совместную деятельность, на подмножества, соответствующие различным рангам их рефлексии. Приведены примеры информационного управления в различных задачах принятия коллективных решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод рефлексивных разбиений в моделях группового поведения и управления»

У

правление в социально-экономических системах

УДК 519

МЕТОД РЕФЛЕКСИВНЫХ РАЗБИЕНИЙ В МОДЕЛЯХ ГРУППОВОГО ПОВЕДЕНИЯ И УПРАВЛЕНИЯ

В.О. Корепанов, Д.А. Новиков

Предложен метод рефлексивных разбиений множества рациональных агентов, осуществляющих совместную деятельность, на подмножества, соответствующие различным рангам их рефлексии. Приведены примеры информационного управления в различных задачах принятия коллективных решений.

Ключевые слова: теория игр, коллективное поведение, принятие решений, рефлексия, информационное управление.

ВВЕДЕНИЕ

Традиционно в теоретико-игровых моделях и (или) в моделях принятия коллективных решений используется одно из двух предположений о взаимной информированности агентов. Либо считается, что вся существенная информация и принципы принятия агентами решений всем им известны, всем известно, что всем это известно и т. д. (так называемая концепция общего знания). Либо предполагается, что каждый агент следует некоторой процедуре принятия решений и «не задумывается» над тем, что знают и как ведут себя остальные агенты. Первый подход традиционен для теории игр (см., например, работы [1—3]), второй — для моделей коллективного поведения (см., например, работы [4—6]).

Но между двумя этими «крайностями» существует достаточно большое разнообразие возможных ситуаций. Предположим, что некоторый агент осуществил акт рефлексии — попытался спрогнозировать поведение других агентов и выбирает свои действия с учетом этого прогноза (будем считать, что он обладает первым рангом рефлексии). Другой агент (обладающий вторым рангом рефлексии) может предположить существование агентов первого ранга и прогнозировать их поведение. И так далее. Возникает вопрос — как поведение коллектива агентов зависит от их распределения по рангам рефлексии, т. е. от того, сколько в коллективе имеется агентов того или иного ранга? Если долями рефлексирующих агентов можно управлять, то каковы эти доли, оптимальные в смысле того или иного критерия эффективности, определенного на множестве действий агентов?

Для ответа на эти и другие вопросы в статье рассматривается метод рефлексивных разбиений множества рациональных агентов, осуществляющих совместную деятельность, на подмножества, соответствующие различным рангам их рефлексии.

1. . ПОВЕДЕНИЯ

Описание модели. Рассмотрим множество N = = {1, 2, ..., n}, состоящее из n агентов. Агент i выбирает свое действие x. е Я1 (для простоты здесь и далее, если не оговорено особо, считается, что ограничения на действия агентов отсутствуют). Вектор x = (xp x2, ..., xn) е Яп действий агентов, называемый ситуацией игры [1], определяет их выигрыши, задаваемые целевыми функциями F(x), где

F-0): Яп ^ Я1.

Рациональность поведения агента заключается в стремлении к максимизации своей целевой функции выбором собственного действия [1]:

х. е BRi(x_i) = Argmax F(y, x—), i е N, (1)

y eS1

где x-t = (x1, ..., x. - 1, x. + 1, ..., xn) е Яп - 1 — обстановка игры для i-го агента, BRj(-) — его наилучший ответ (best response) [3], i е N. Предположим, что функции FC) таковы, что для любого агента при любой обстановке игры существует единственный наилучший ответ.

Теория игр. Из выражения (1) следует, что наилучший ответ каждого агента зависит в общем случае от обстановки игры, поэтому трудно однозначно сказать априори, какое действие выберет

!"?"" ?@Q

конкретный агент. Основным предметом теории игр — см. работы [1—4] — является поиск равновесия (решения игры), определяемого как устойчивый в том или ином (оговариваемом в каждом конкретном случае) смысле исход взаимодействия агентов — вектор их равновесных действий [1]. Введение определенных предположений об информированности агентов (той информации, которой они обладают на момент выбора действий) приводит к соответствующим концепциям равновесия.

Так, например, если считать, что каждый агент ориентируется на наихудшую для него обстановку игры, то получим равновесие в гарантирующих стратегиях [1]. Если считать, что все описание игры (множество агентов, их целевые функции и множества допустимых действий) является общим знанием [2] среди агентов, принимающих решения однократно, одновременно и независимо, то можно использовать концепцию равновесия Нэша, в рамках которой равновесием называется такой век-„ N

тор действий x , что действие каждого агента является наилучшим ответом на нэшевскую обстановку:

xN е BRІ(xNi), I е N. (2)

Коллективное поведение. В отличие от теории игр, теория коллективного (группового) поведения — см. работы [4—6] — занимается исследованием динамики поведения рациональных агентов при достаточно слабых предположениях относительно их информированности. Так, например, не всегда требуется наличие среди агентов общего знания относительно множества агентов, множеств допустимых действий и целевых функций оппонентов. Или агенты не обязаны предсказывать поведение всех оппонентов, как это имеет место в теории игр. Более того, зачастую агенты, принимая решения, могут «не знать о существовании» других агентов или иметь о них агрегированную информацию. Поэтому далее при рассмотрении рефлексивных моделей группового поведения и управления будем ориентироваться на случай, когда каждый агент в общем случае имеет агрегированную информацию о результатах деятельности своих оппонентов.

Наиболее распространенной моделью динамики коллективного поведения служит модель индикаторного поведения [5, 6], суть которой заключается в следующем. Предположим, что каждый агент в момент времени t наблюдает действия всех

агентов {xt-1 Е N, выбранные в предыдущий момент времени t — 1, t = 1, 2, ... (начальный вектор действий x0 = (x01, x2, ..., xn) считается заданным).

Каждый агент может рассчитать свое текущее положение цели — такое его действие, которое максимизировало бы его целевую функцию при усло-

вии, что в текущем периоде все агенты выбрали бы те же действия, что и в предыдущем:

wi•(x--1) = ащшахР(у, x--1), I е N. (3)

У Е*1

В частном случае агент может иметь агрегированную информацию Q(xt 1) о действиях других или всех агентов. В этом случае выражение (3) примет вид wi.(x--1) = аг§шах ^(у, Q(y, x--1)), / е N.

У Е Ш1

В рамках гипотезы индикаторного поведения каждый агент в каждый момент времени будет делать «шаг» от своей предыдущей стратегии к текущему положению цели:

t t- 1, t г / t- 1ч t- 1-.

Xi = xi + уг ^.( X-1 ) - xi ],

I е N t = 1, 2, ... , (4)

где yІ е [0; 1] — «размеры шагов». Очевидно, что,

если = 0, то динамика отсутствует; если = 1, то

каждый агент на каждом шаге выбирает свой наилучший ответ (см. выражение (1)), однако в последнем случае соответствующая динамика может быть неустойчивой. Условия сходимости процедуры (4), области притяжения равновесий, условия

на размеры шагов {}, обеспечивающие сходимость, и ряд других можно найти в книгах [5, 6].

Подходы теории коллективного поведения и теории игр согласованы в том смысле, что и та, и другая исследуют поведение рациональных агентов (сравните выражения (1) и (4)), а равновесия игры, как правило, являются и равновесиями динамических процедур коллективного поведения (например, равновесие Нэша (2) является равновесием динамики (4) коллективного поведения).

Рефлексия. Различают стратегическую и информационную рефлексию [2]. Информационная рефлексия — процесс и результат размышлений агента об информированности других агентов, стратегическая рефлексия — процесс и результат размышлений агента о принципах принятия решений другими агентами.

В рамках теоретико-игровой модели отказ от предположения о наличии среди агентов общего знания приводит к моделям рефлексивных игр [2]. При этом равновесие Нэша «превращается» в более общее информационное равновесие, в рамках которого каждый агент осуществляет информационную рефлексию — при принятии решений использует не только свою информацию о существенных параметрах, но и свои представления о представлениях других агентов об этих параметрах, представления о представлениях и т. д. [2]. Поэтому интересно рассмотреть «по аналогии» эффектов стратегической рефлексии.

2. РЕФЛЕКСИВНЫЕ РАЗБИЕНИЯ

Отметим, что в рамках гипотезы индикаторного поведения неявно предполагается, что агент, выбирая свои действия в соответствии с процедурой (4), не задумывается о том, что и другие агенты действуют так же. Если бы он об этом задумался (осуществил рефлексию), то ему следовало бы искать, принимая решения в момент времени t, наилучший ответ на прогнозируемые им в рамках выражения (4) действия других агентов; т. е., положение цели определялось бы уже не выражением (3), а следующим образом:

wi(х-.) = ащшах^(У, х-.),

У ЕШ1

где x-i определяется выражением (4). Будем полагать, что рефлексирующий агент первого ранга считает всех остальных нерефлексирующими (что соответствует традиции рефлексивных игр, в рамках которой считается, что агент, имеющий некоторый ранг стратегической рефлексии, считает всех остальных имеющими ранг на единицу меньше его собственного [2]).

Аналогично можно рассматривать агентов и более высоких рангов рефлексии. Для этого определим К = {Л^, N1, ..., Nm} — разбиение множества агентов N, где N. — множество агентов /-го ранга

рефлексии, / = 0, т, т — максимальный ранг рефлексии. Назовем К рефлексивным разбиением.

Будем считать, что агент некоторого ранга рефлексии к достоверно знает множества (или долю — см. далее) агентов всех более низких рангов к' (где к' < к — 1) и считает всех агентов своего и больших рангов (к'' 1 к) имеющими ранг на единицу меньше его ранга (т. е. ранг к — 1). Этим отражается предположение, что агент не допускает существования агентов, имеющих такой же или более высокий ранг рефлексии, чем он сам. При этом агент может неправильно оценивать множества агентов к — 1-го, к-го и более высоких рангов рефлексии.

3. РЕФЛЕКСИВНАЯ МОДЕЛЬ КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ

Пусть задан вектор х0 начальных действий агентов. Рассмотрим следующую динамическую рефлексивную модель принятия ими решений, параллельно помня при этом, что соответствующие выражения для одношаговой «игровой» модели могут быть получены как частный случай, в котором решения принимаются однократно при у- = 1, і є N.

Нулевой ранг рефлексии. Будем считать, что агенты с нулевым рангом рефлексии (принадлежа-

щие множеству N0) выбирают свои действия, считая, что действия остальных агентов будут такими же, что и в предыдущем периоде. Другими словами, из выражения (4) следует, что

t t - 1 I t Г / t - 1 \ t - 1 1

X. = X. + у. X-. ) — X. ],

/ е ^, t = 1, 2, ... (5)

Если рефлексирующих агентов нет (N0 = Щ, то в итоге все агенты пронаблюдают реализованную

траекторию (х0, ..., У, ...) векторов действий агентов, определяемых выражением (5).

Первый ранг рефлексии. Агент у, обладающий первым рангом рефлексии (у е N1), считает всех остальных агентов обладающими нулевым рангом рефлексии и в соответствии с выражением (5) «предсказывает» их выбор. Поэтому его собственный выбор х 1. будет ориентирован на наилучший

ответ на ту обстановку, которая с его точки зрения должна сложиться:

х 1; = х]1 + у] ^.(х-.) — х1]-1 ], у е ^. (6) Для агента у е N прогнозируемой является траектория (х0, ..., (х 1., х-у), ...), а на самом деле реализуется траектория (х0, ..., (х 1. Е ^, xt Е щ), ...);

т. е. реализованная траектория может не совпадать с траекториями, прогнозируемыми как агентами нулевого, так и первого рангов рефлексии. О возможном несовпадении прогнозируемой и реализованной траекторий (и последствиях такого несовпадения) речь пойдет далее — см. § 5, «условие стабильности рефлексивного разбиения».

Второй ранг рефлексии. Будем считать, что каждый агент у, обладающий вторым рангом рефлексии (у е N2), знает достоверно множество ^ и считает всех агентов из множества ^ и N2\{j} обладающими первым рангом рефлексии (отметим, что в общем случае, когда имеются несколько агентов второго ранга рефлексии, данный агент ошибочно приписывает им первый ранг). В силу этого он может «прогнозировать» поведение всех своих оппонентов. Поэтому его выбор будет наилучшим ответом на ту обстановку, которая с его точки зрения должна сложиться:

|’'\t f'\t — 1| t Г / t 1 t \

х2у = х2у + у. [М].(х. Е щ0 , х1 I Е Щ и N2) —

— х2)-1 ], у е N2. (7)

Агенты нулевого и первого рангов рефлексии будут вести себя в соответствии с выражениями (5) и (6) соответственно.

Для агента у е Щ прогнозируемой служит траектория (х0, ..., (х2., х1 Е N1 и ЩМ]}, ^ Е ^), ...), а на

самом деле реализуется траектория (х0, ..., (х2-Е N ,

2

х lt Е Щ , Xt Е N0 ), ...).

к-й ранг рефлексии (к < т). Поведение агентов к-го ранга рефлексии описывается аналогично рассмотренным выше трем случаям (нулевого, первого и второго максимальных рангов рефлексии) с учетом следующей структуры информированности агентов. Обозначим К]к — субъективное рефлексивное разбиение — представления агента у, обладающего к-м рангом рефлексии, о разбиении всех агентов на ранги рефлексии:

К]к = (..., Nk-2, Nk- 1 и Nk и ... и Nm\ О} ,

к

{у}, 0,^ ), у е Nk. (8)

т — к — 1

Отметим, что в рамках выражения (8) агент, обладающий к-м рангом рефлексии, обладает правильными представлениями о рангах рефлексии всех агентов, имеющих строго меньшие ранги рефлексии.

В частном случае — когда агенты однородны (имеют одинаковые целевые функции, множества допустимых действий и т. д.) — иногда можно ограничиться предположением о том, что рефлексирующий агент знает лишь общее число (или долю) агентов, имеющих те или иные меньшие ранги рефлексии.

Структура информированности определяется совокупностью субъективных рефлексивных разбиений всех агентов. Если предположить, что представления агентов о рангах рефлексии друг друга описываются выражением (8), то структура информированности однозначно задается рефлексивным разбиением К.

Таким образом, в рамках предложенной рефлексивной модели коллективного поведения (РМКП) последовательность векторов действий агентов однозначно определяется заданием кортежа {^(ОЬ Е N К), состоящего из множества

агентов N, их целевых функций {^(‘)}. Е N и рефлексивного разбиения К.

Введенная здесь общая РМКП вряд ли допускает получение в ее рамках каких-либо столь же общих аналитических выводов. Тем не менее, она может служить базисом для создания частных аналитических или общих имитационных моделей (например, в соответствии с классификацией, приведенной в работе [7]), позволяющих описывать и прогнозировать групповое поведение (людей, мобильных роботов, программных агентов) в разнообразных ситуациях — см., например, рефлексивные имитационные модели эвакуации [8], рефлексивные модели транспортных потоков [9] и

примеры в § 6 настоящей работы. Аналитические результаты можно надеяться получить, вводя те или иные упрощающие предположения. Например, далее рассматривается «игровая» модель с однородными агентами и агрегированным влиянием обстановки игры на выигрыш каждого из них.

4. «ИГРА» ОДНОРОДНЫХ АГЕНТОВ

Пусть:

— все агенты из множества N имеют одинаковые целевые функции (F.(‘) = /(•), i е N);

— целевая функция i-го агента зависит от его действия x. (причем она непрерывна и вогнута по этой переменной) и от агрегированной ситуации Q(x), где Q(-): Яп ^ Я1 — симметричная функция своих аргументов;

— агенты принимают решения однократно (поэтому верхний индекс, соответствующий первому периоду времени, далее будем опускать);

— начальный вектор действий x0 и рефлексивное разбиение К фиксированы.

Агенты нулевого ранга рефлексии в соответствии с выражением (5) выберут действия

x. = argmax. f(y, Q(y, x°i)), i е N0. (9)

y eS1

Агенты первого ранга рефлексии в соответствии с выражением (6) выберут действия

x1. = argmax f(y, Q(y, x .)), j е N1.

y eS1

Агенты второго ранга рефлексии в соответствии с выражением (7) выберут действия

x2. = arg max f(y, Q(y, x e n0 , x11 e n. и n2\ш ^

y eS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

j е NT

И так далее. Агенты m-го ранга рефлексии в соответствии со своим субъективным рефлексивным разбиением (8) выберут действия

xm. = arg max f(y, Q(y, xl e n0 , x 1; e n. , -,

y eS

x[m- 1 ]l e Nm_ . u N„\Ш )), j е Nm-

Вектор действий агентов зависит от функций

f(‘) и Q(-), а также вектора начальных действий x0 и рефлексивного разбиения К. Если первые три параметра фиксированы, то вектор действий агентов зависит только от рефлексивного разбиения:

x*(К) = (x;e N , x11e n , x2;e n , ..., xm;e N ). (10)

0 12 m

Следовательно, изменяя рефлексивное разбиение, можно менять действия агентов, т. е. осуществлять рефлексивное управление (см. также теоретикоигровые модели рефлексивного управления [2, 10]).

б. ЗАДАЧА УПРАВЛЕНИЯ

Рассмотрим рефлексивное разбиение в качестве управляющего параметра. Можно сформулировать задачу управляемости: пусть задано множество 3 допустимых рефлексивных разбиений; требуется

найти множество X(3) = U x(K) векторов дейс-

К e 3

твий агентов, которые могут быть реализованы в результате рефлексивного управления. Обратной является задача поиска «минимального» в том или ином смысле множества допустимых рефлексивных разбиений, позволяющего реализовать заданный вектор действий агентов.

Рассмотрим теперь собственно задачу управления. Пусть предпочтения управляющего органа — центра — описываются его действительнозначной целевой функцией F0(Q(x *)), заданной на множестве агрегированных ситуаций, т. е. F0(-): Я1 ^ Я1. Тогда, воспользовавшись выражением (10), эффективность рефлексивного разбиения К можно определить как

К(К) = F,(Q(x *(К))).

Следовательно, формально задачу рефлексивного управления (в терминах рефлексивных разбиений) можно сформулировать в виде:

К(К) ^ max. (11)

К e 3

Обозначим n. = |N| — число агентов i-го ранга

рефлексии, i = 0, m . В силу однородности агентов и симметричности функции Q('), при введении ряда дополнительных предположений (например, об одинаковости начальных действий всех агентов и т. п.) эффективность рефлексивного разбиения определяется (m + 1)-м числом: n0, n1, ..., nm. Следовательно, задача (16) примет вид:

К(К) ^ max . (12)

I m I

I n«a 0 Z ni = NI

[ i = 0 J

При большом числе агентов задачу (12) иногда удобно формулировать в терминах долей агентов q. = n/N, имеющих тот или иной ранг рефлексии

i = 0, m .

Обозначим Km — максимальное значение критерия эффективности в задаче (11) при фиксированном максимальном ранге рефлексии m. По аналогии с тем, как это делалось для моделей стратегической рефлексии в работе [2], можно сформулировать задачу о максимальном целесообразном ранге рефлексии — таком, больше которого центру (в смысле задачи управляемости или (и) эффек-

тивности рефлексивного управления) использовать не имеет смысла:

m* = min{m |m е Arg max Kw}.

w = 0, 1, 2,...

Обсудим согласованность субъективных рефлексивных разбиений агентов. Предположим, что каждый агент наблюдает только агрегированную ситуацию. Как ранее отмечалось при рассмотрении общей РМКП, прогнозируемые агентами траектории могут отличаться от реализованной. Это может служить для агентов основанием для того, чтобы усомниться в правильности своих субъективных рефлексивных разбиений. Если агенты наблюдают (помимо собственных действий) только агрегированную ситуацию игры, то по аналогии с условием стабильности информационного управления (см. работу [10]) можно ввести условие стабильности рефлексивного разбиения — потребовать, чтобы агрегированная ситуация для реализованной траектории совпадала с прогнозируемыми агрегированными ситуациями для всех агентов.

При фиксированном рефлексивном разбиении К е 3 реализуется вектор действий, определяемый выражением (10). Соответственно, реализуется агрегированная ситуация Q(x *(К)).

С точки зрения j-го агента, обладающего k-м рангом рефлексии, реализуется вектор

xjk (K.k) = (xl e N0 , x 1l e N. , x2l e N2 , ..., x[k- 1 ]l e Nk_ . u Nku ... u Nm\{j} , xkj),

j е N*, k = 0, m .

Условие стабильности рефлексивного разбиения К е 3 примет вид:

Q(x.* (К.*)) = Q(x*(К)), j е N*, k = 0, m . (13)

Задачу рефлексивного управления (11) можно ставить на множестве стабильных рефлексивных управлений (если таковое не пусто). Содержательно это будет означать, что центр формирует такое оптимальное разбиение агентов по рангам рефлексии, что ни один из агентов на основании наблюдения результатов «игры» не имеет оснований усомниться в справедливости своих представлений о рангах рефлексии оппонентов.

В заключение настоящего параграфа кратко обсудим, каким образом центр может управлять разбиением агентов по рангам рефлексии. На сегодня в литературе описаны два возможных подхода. Один из них предполагает, что агенты безусловно верят центру и воспринимают сообщаемую им информацию как истинную, независимо от своих первоначальных представлений. Тогда центр, последовательно сообщая ту или иную информацию различным группам агентов, может формировать

различные (но не любые! — см. статью [11]) структуры информированности (см. также примеры в работах [2, 10]). Другой подход заключается в том, что агенты не просто заменяют свои представления теми, которые сообщает центр, а сообщения центра лишь снижают для агентов неопределенность — сокращают множество возможных с их точки зрения «миров» [12]. В целом, разработка моделей формирования структур информированности агентов под влиянием поступающей к ним информации представляется чрезвычайно перспективным направлением будущих исследований.

6. ПРИМЕРЫ

Рассмотрим ряд примеров, иллюстрирующих эффекты рефлексии в моделях группового поведения.

6.1. Олигополия Курно

В модели олигополии Курно [13] агенты принимают решения об объеме выпускаемой ими продукции в условиях, когда ее рыночная цена является известной убывающей функцией суммарного предложения (объема выпуска, объема производства): Р(х) = а — Ь0(х), где

С(х) = 2 X, а и Ь — известные неотрицательные кон-

I Е N

станты.

Целевая функция г-го агента представляет собой разность между выручкой от продаж (равной произведению цены на объем производства) и квадратичными затратами на производство:

/<х„ (2(х)) = (а - Ь0(х))х,. - (х,.)2/2, г е N.

Если бы целевые функции агентов были среди них общим знанием, то равновесию Нэша их игры соответствовали бы одинаковые действия:

і є N

1 1 + Ь + пЬ’

которые приводили бы к равновесному объему выпуска

0(хк) = -——-—- и равновесной цене Дх*) = , а (1 + Ь ) . 1 + Ь + пЬ 1 + Ь + пЬ

Точке Парето, максимизирующей сумму целевых функций агентов, соответствуют действия:

р

X, =

■, і є N

1 + 2пЬ'

которые приводят к эффективному объему выпуска

0(хР) = , па и эффективной цене Р(хР) = а(1 + пЬ) .

1 + 2пЬ 1 + 2пЬ

При этом /(хР) = 2 а , Ь > /(х*) = а (1 + 2 Ъ) , т. е.

2 (1 + 2 пЬ) 2 (1 + Ь + пЬ )2

выигрыш каждого агента в точке Парето не меньше, чем в точке Нэша.

Рассмотрим числовой пример. Пусть п = 10, а = 2,1,

Ь = 0,1, у| = 0,5. Тогда xN = 1, 0(А = 10, Дх*) = 1,1,

хР = 0,7, 0(хР) = 7, Р(хР) = 1,4, /(хР) = 0,735 > /х*) = 0,6.

Проанализируем динамику коллективного поведения. Пусть фиксирован вектор х0 начальных объемов

производства. В соответствии с выражением (4) изменение во времени действий, выбираемых агентами, будет описываться следующим выражением:

, ,- 1 , , X,- = X; + У;

а - Ь £ х;

,-1

ч

,-1

1 + 2Ь ;

і є N, і = 1, 2, ... (14)

В соответствии с выражением (14) действия агентов будут сходиться к равновесию Нэша.

Перейдем теперь к рефлексивному случаю. При за-

„ 0

данном векторе начальных действий х агенты нулевого ранга рефлексии выберут действия х; = А + Вх° , і є N0,

. а-ЬО (х°) „ Ь А

где А = —-—^ ’, В = -——- . Агенты первого ранга

1 + 2Ь ’ 1 + 2Ь '

рефлексии выберут действия

х1у. = А1 + В2 х° ,

і є

N.

л _ а( 1 + 3Ь)-Ьиа + Ь2О(х°)(и-2)

где -------------------7.--------- .

(1 + 2Ь )2

Пусть в рассматриваемом числовом примере все на-

чальные действия агентов одинаковы: х;

= 0,5, і є N

Тогда х = 31/24 = 1,291(6), х! = 103,5/144 = 0,71875, что гораздо ближе к Парето-эффективным действиям. Варьируя число агентов первого уровня, можно менять сумму действий агентов от -7,2 до -12,9. Этому диапазону принадлежат равновесные по Нэшу действия, но не принадлежит точка Парето; т. е. при векторе начальных действий х0 = 0,5, г е N наличия агентов первого ранга рефлексии недостаточно для реализации путем рефлексивного управления Парето-оптимальной точки. Но вполне достаточно для реализации соответствующего равновесию Нэша суммарного объема производства — для этого доля рефлексирующих агентов первого уровня должна быть около 49 %.

Возможность реализации точки Парето зависит от вектора начальных действий: например, первый ранг рефлексии является максимальным целесообразным для реализации точки Парето при векторе начальных

действий х0 = 0,2, г е N. Тогда х; = 1,5, х1у. = 0,55, и при доле агентов первого ранга рефлексии, равной примерно 84 %, на рынке установится эффективная цена ДхР). Однако такая ситуация не будет стабильной в смысле условия (13).

Если все начальные действия агентов одинаковы, то рефлексивное разбиение задается лишь числом агентов с соответствующим рангом рефлексии, поэтому, опуская индексы, соответствующие номерам агентов, можно записать, что агенты второго ранга рефлексии выберут действия

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

х2 =

1 + 2Ь

[а — Ьи0х — Ь(и

1)х1].

Итого, получаем, что в зависимости от рефлексивного разбиения реализуется суммарное действие О(и1, и2) =

= (и — и, — и-)х + и,х1 + и-х2 = —1— [(а — Ь(и —1) х0) х

12 1 2 1 + 2Ь

а

а

0

х(и — и1 — и2) + -—-—- [а(1 + 3Ь) — иаЬ + Ь2х0(и — 1)2]и1 +

1

1 + 2Ь

[а — Ьи0(и — и1 — и2)х]и2].

1 + 2Ь

Исследуем зависимость объема выпуска 0(п1, п2) от числа рефлексирующих агентов первого и второго ранга и зададимся вопросом, при каких значениях (п1, п2) суммарный объем выпуска соответствует равновесному по Нэшу, т. е. когда выполняется 0(п1, п2) = 0(х*) в зави-

0

симости от начальных действий агентов х .

Для рассматриваемого примера кривая АВ пересечения графика 0(п1, п2) и «нэшевской» плоскости 0 = 10 приведена на рис. 1. Оказывается, что эта кривая не зависит от х0 — ее формула в плоскости 0 = 10:

п - 1

и1 = 1 — и2 —

1 + -

Ь~+Т "А 2ЬП "2

и2 1

Из рис. 1 видно, что введение даже только агентов первого ранга увеличивает суммарный объем производства.

Отметим, что в смысле «стабильности», если имеет место динамика, то если на первом шаге агенты попадают в точку Нэша, то и в дальнейшем ни у одного из них (ни у нерефлексирующего, ни у рефлексирующего) нет оснований для изменения своих действий.

Если же мы ищем такое число рефлексирующих агентов, чтобы объем производства был равен отличному от 0(х*) значению, например объему, соответствующему Парето-оптимальной ситуации, то кривая АВ будет меняться в зависимости от х0. Оказывается что в рассматриваемом примере кривая пересечения 0(п1, п2) с любой плоскостью — это кривая второго порядка.

Сформулируем теперь задачу следующим образом — выбором рефлексивного разбиения реализовать требуемый суммарный объем производства, например, равный 12 (больше 0(х*)). Предположим, что в начальный момент времени агенты не осуществляли производства (х0 = 0). Достичь требуемого объема можно — см. рис. 2.

Если х0 я 0,305, то кривая АВ касается плоскости п1 = 0 (точка С на рис. 3), т. е., в этом случае при наличии только агентов нулевого и второго рангов рефлексии можно достичь требуемого суммарного объема производства.

Таким образом, в модели олигополии Курно введение рефлексирующих агентов позволяет увеличить суммарный объем производства и (или) реализовать его Па-рето-эффективное значение.

6.2. Задача о консенсусе

Содержательная интерпретация «задачи о консенсусе» следующая: действиям агентов соответствуют их положения на прямой (координаты в пространстве, мнения и др. — см. обзоры в работах [14—16]), агрегированной ситуации — среднее значение координат агентов:

0(х) = 1 V х.. Целевой функцией агента будем считать

п * Е N '

его «отклонение» от агрегированной ситуации:

(29) /(х, 0(х)) = -(х. - 0(х))2, г е N

Рис. 2. «Реализация» требуемого суммарного объема производства

Рис. 3. «Реализация» требуемого суммарного объема производства в отсутствии агентов первого ранга (точка С

Критерием эффективности будем считать «дисперсию» положений агентов (в данном примере целевая функция центра зависит не только от агрегированной ситуации игры, но и от всего вектора действий агентов):

Таблица 1

Д(х) = -± 2 («*) - X)2.

п і Е N '

(15)

С теоретико-игровой точки зрения ситуация тривиальна — если бы целевые функции агентов были бы среди них общим знанием, то агенты легко вычислили бы, что равновесием Нэша является любой вектор одинаковых действий. Отметим, что при этом полностью отсутствует конфликт интересов агентов, а любое равновесие Нэша однопериодной игры одновременно максимизирует и критерий эффективности (15). Однако в случае (даже одношагового) коллективного поведения агентов в условиях неполной их информированности все не так просто.

Ранг 0. При заданных начальных положениях агентов х0 г-й агент в соответствии с выражением (9) выберет действие

х, =

1

1

X х0 = -Ч-

4-1. ] п - 1

і * *

(пО(х°) - х0), і є Щ, (16)

равное среднему положению остальных агентов. Сделанный вывод остается в силе и в случае, когда целевые функции агентов зависят не от агрегированной ситуации, а от агрегированной обстановки: £(х;, 0;(х-;)) =

= -(X - Є,(х-,)) , где О/х-) =

1

п - 1

N.

Из выражения (16) следует, что 0(х) = 0(х ), т. е. среднее значение координат агентов не изменяется, а значение критерия эффективности возрастает в (и — 1)2

раз: Д(х) =

1

;Д(х°).

(и- 1)

Ранг 1. Пусть имеются и1 агентов, обладающих первым рангом рефлексии, а остальные и0 = и — и1 агентов имеют нулевой ранг. Агенты нулевого ранга рефлексии выберут действия, определяемые выражением (16), а агенты первого ранга — следующие действия:

х1 =

пО( х)-

1

2 / -л \ /'і/' 0ч 0

п (п - 2) О(х ) + х^ ( п - 1 )2

І є Щ.

Если все агенты обладают первым рангом рефлексии, то О(х1у. € N = С(х) = О(х°), т. е. среднее значение координат агентов не изменяется (такой случай является идеальным в смысле стабильности рефлексивного разбиения — все агенты наблюдают ожидаемые значения). Значение критерия эффективности возрастает еще в

1

і Д(х) =

1

■Д(х°).

(и - 1) раз: Дх1. € „) =

7 6* (и- 1Г (и- 1)"

Рассмотрим пример — пусть и = 2. Получаем, что в зависимости от своих рангов рефлексии агенты выберут действия, представленные в табл. 1. Видно, что:

— вектор действий обоих агентов, обладающих вторым рангом рефлексии, совпадает с вектором действий нерефлексирующих агентов;

— при одинаковых рангах рефлексии обоих агентов значение критерия эффективности не зависит от ранга;

Действия агентов при п = 2

Агент 1 Агент 2

Начальные действия 0 х1 02 х

Ранг рефлексии 0 02 х 0 х1

1 0 х1 0 х2

2 0 х2 0 х1

— все четыре возможные комбинации действий агентов исчерпываются нулевым и первым рангами их рефлексии;

— максимальное (равное нулю) значение критерия эффективности (15) достигается в случае, когда один из агентов (любой) имеет нулевой ранг рефлексии, а другой агент — первый ранг.

Следовательно, в рассматриваемом примере максимальный целесообразный ранг рефлексии равен единице.

6.3. Активная экспертиза

Рассматриваемый здесь пример свидетельствует, что наличие рефлексирующих агентов может приводить к последствиям, негативным, условно говоря, с точки зрения группы в целом (см. также модели формирования команд в работе [17]).

Содержательная интерпретация модели активной экспертизы следующая: имеются и экспертов — агентов, сообщающих информацию организатору экспертизы —

центру. Центр принимает решение 0(х) = 1 у х, рави ; е N '

ное среднему арифметическому мнений агентов.

Пусть на сообщения агентов наложено требование неотрицательности. Целевой функцией агента будем считать «отклонение» итогового мнения от его начального (истинного) мнения [18]:

Д(х„ С(х)) = -(х0 - (2(х))2, г е N.

Пусть агенты упорядочены по возрастанию их на-

0,0, ,0 чальных мнений: хх < х2 < ... < хп.

С теоретико-игровой точки зрения, если бы целевые функции агентов были среди них общим знанием, то

агенты легко вычислили бы равновесие Нэша: = 0,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• 1----л N 0

г = 1, и - 1 , хп = ихп .

Определим множество агентов М(х0) = | г е N1 х 0 >

> - У х° и у 1

Ранг 0. При заданных начальных мнениях агентов х0, они в соответствии с выражением (9) выберут действия

00 х,. = тах <! пх; - У х; , 0

I * і

і є N.

(17)

п

і є

х

п

Таблица 2

Действия агентов

Вычислим Q(x) = I x; — 1 I I х0 .

i е M(x0) i Е M(x0)1 # ‘

Ранг 1. Пусть имеются « агентов, обладающих первым рангом рефлексии, а остальные «0 = « — « агентов имеют нулевой ранг. Агенты нулевого ранга рефлексии выберут действия, определяемые выражением (17), а агенты первого ранга — следующие действия:

xlj = maxJ «xj — I xj; 0 1, j е Nj. (18)

^ lЕ M(x0)\{j} ^

Рассмотрим числовой пример. Пусть имеются 10 агентов, чьи начальные мнения равны их номеру. Действия агентов приведены в табл. 2.

Варьируя число рефлексирующих агентов первого ранга (от 0 до 10), центр может менять результаты экспертизы (одиннадцать возможных точек) от 0 до 16,5. Отметим, что этот диапазон шире, чем интервал истинных мнений экспертов (сравните с результатами анализа информационной рефлексии в задачах экспертизы [19]), т. е. центр, осуществляя рефлексивное управление, имеет значительные возможности по манипулированию результатами экспертизы.

Ранг 2. Агенты второго ранга рефлексии выберут действия:

«х0 — I х1; —

l е Ni и N2 п M(x0)\{j}

- I xz]; 01, j е N2. (19)

l Е N0 п M(x0)\{j} ^

Пусть центр использует следующее рефлексивное разбиение: N0 = {1, 2, 3, 4, 5}, Nj = {6, 7, 8, 9}, N2 = {10}. Тогда в соответствии с выражениями (17) — (19) все агенты, кроме десятого, выберут нулевые действия, а десятый агент — действие, равное 100; т. е. в рассматриваемом примере второго ранга рефлексии достаточно, чтобы получить ситуацию, совпадающую с равновесной по Нэшу.

6.4. Транспортные потоки и модель эвакуации

Рассмотрим помещение, в котором находятся « агентов. В помещении имеются два выхода, условно назовем их «левым» (L) и «правым» (R). Время выхода определяется моментом времени, когда из данного выхода вышел последний агент, направившийся к нему. Каждый агент однократно принимает решение, из какого выхода он будет выходить. Скорости движения всех агентов в отсутствие «пробок» примем одинаковыми. Обозна-

чим их (и*) — число агентов, направившихся к левому (правому) выходу, иь + и* = и.

Пусть известна зависимость Т(к) времени выхода в зависимости от числа агентов к 1 0. Зависимость эту будем считать непрерывной, выпуклой (отражение эффекта «пробок») и равной нулю в нуле (когда имеется один агент, «пробки» отсутствуют, и он покидает помещение без задержек). Обозначим через Ть (Т*) время движения агента до левого (правого) выхода, причем Ть > Т*, т. е. правый выход расположен ближе левого. Итак, полное время выхода налево Т(их) = Ть + Т(их), направо Т(и*) = Т* + Т(и*).

Оптимальное в смысле времени эвакуации Т* — покидания помещения последним из агентов (а именно этот критерий используется в моделях эвакуации) — распределение агентов по направлениям движения (иЬ; и^) является решением следующей системы уравнений (см. также рис. 4):

Т( иЬ) + ТЬ = Т( иД) + TR, иЬ + иR = и.

Минимальное время эвакуации

Т* = Т( иЬ) + Ть = Т( иR) + Т*. (20)

Рассмотрим теперь коллективное поведение агентов, считая, что каждый из них стремится покинуть помещение как можно скорее. Агенты нулевого ранга рефлексии будут выбирать правый выход (до него они в рамках введенных предположений доберутся быстрее), агенты первого ранга рефлексии, прогнзируя, что в правом выходе агенты нулевого ранга создадут пробку, выберут левый выход.

Время выхода в зависимости от числа агентов первого ранга рефлексии (рис. 5)

Т 1(и1) = тах{Т(и1) + Тх; Т(и — и1) + Т*}. (21)

Видно, что как малое, так и очень большое число рефлексирующих агентов плохо, так как увеличивает

Рис. 4. Зависимость времени эвакуации от числа агентов, выбирающих правый или левый выход

Рис. 5. Зависимость времени эвакуации от числа агентов первого ранга рефлексии

время эвакуации (см. рис. 5); т. е. существует оптимальное число рефлексирующих агентов, при котором время эвакуации минимально.

Из свойств функции Т(-) и предположения Ть > Т* следует, что минимум выражения (21) достигается при числе агентов первого ранга рефлексии и1, определяемом из соотношения

Т( и1) + Ть = Т(и — и1) + Т*.

Последнее условие совпадает с условием (20), т. е. и1 = иЬ, Т 1( и1) = Т *, значит, первый ранг рефлексии является максимальным целесообразным в рамках рассматриваемой модели.

В рассматриваемой модели можно добавлять агентов второго, третьего и более высоких рангов рефлексии, однако это вряд ли целесообразно, так как не позволит улучшить уже достигнутое путем введения агентов первого ранга значение времени эвакуации (20). Описание имитационных моделей транспортных потоков и эвакуации можно найти в работах [8, 9, 20].

6.5. Фондовый рынок: пример возможных расширений модели

Обсудим возможные расширения описанного метода рефлексивных разбиений, а именно — на примере частной модели фондового рынка рассмотрим стратегическую рефлексию агентов «над» их равновесными по Нэшу стратегиями. Фондовый рынок представляет собой объект моделирования, для которого наиболее часто используют «рефлексивные» рассуждения — см., например, работы [21, 22]. В работе [23] рассмотрена теоретико-игровая модель фондового рынка, в которой каждый агент в каждый момент времени обладает некоторым количеством (для которого выполняются динамические балансовые ограничения) денег и актива, который он может приобретать или продавать по сложившейся на рынке цене. Последняя зависит как от тренда 0 (внешний фактор, являющийся общим знанием), так и от соотношения между спросом и предложением — с ростом спроса рыночная цена на актив растет, с ростом предложения — падает. В указанной работе показано, что в условиях общего знания агентов обо всех парамет-

рах игры структура равновесия Нэша такова: либо все агенты приобретают актив на все имеющиеся у них средства (если они тем самым «увеличивают» относительную цену актива), либо все агенты продают все имеющиеся у них активы (если они тем самым «уменьшают» относительную цену актива).

Рассмотрим следующую модель. Пусть каждый агент обладает в начальный момент времени суммой и° > 0 и активом х° > 0. В соответствии с результатами работы [23] в начальный момент времени у агента имеются две альтернативы: либо приобрести актив на всю сумму и°, либо продать все х° единиц актива (рынок при этом не ограничен).

В зависимости от действий х агента сложится следующая цена: если все агенты приобретают актив, то цена р будет р+ = р° + 0 + апх°; если агенты продают актив, то цена р будет р = р° + 0 - а п х°, где а — коэффициент зависимости цены от спроса-предложения.

Начальное значение целевой функции агента и° + х°р°, конечное:

• (х° + и°/р°)р+ - и°, если актив приобретается с намерением последующей продажи;

• и° + х°р°, если актив продается;

• и° + х°( р° + 0), если агент не предпринимает никаких действий.

Для того чтобы выяснить, какое из трех действий (покупать, продавать или ничего не делать) предпримет рациональный агент, необходимо сравнить три полученные величины. Получаем, что, если имеет место положительный тренд (0 > 0) или если тренд отсутствует (0 = 0), то актив следует приобретать. При отрицательном тренде (0 < 0) дело обстоит сложнее, а именно актив следует приобретать при условии

р0 м0

0 >

апх°,

()

р0 х0 + м0

которое означает, что если агенты, приобретая актив и повышая тем самым его цену в следующем периоде, могут «перебороть» отрицательный тренд, то актив следует приобретать. В противном случае актив им следует продавать.

Если подходить более корректно и исследовать все соотношения между параметрами, т. е. для каждого из трех действий найти условия, при которых данное действие оптимально, то получим, что рациональный агент должен придерживаться следующего алгоритма: приобретать актив, если выполнено условие (22), и продавать его, если верно обратное соотношение. Интересно, что пассивное поведение — не предпринимать никаких действий — невыгодно ни при одной комбинации параметров модели.

Качественный вывод из проведенного анализа следующий. Существование постоянного тренда цены актива относительно «стоимости» денег приводит к тому, что, если этот тренд положительный, то следует вкладывать все деньги в приобретение актива. Если тренд отрицательный, то наоборот — целесообразно избавляться от актива. Возможность влияния агентами на цену актива путем своих действий (покупки или продажи) приводит к тому, что приобретать актив в случае отрицательного тренда имеет смысл только в том случае, если этими действиями можно «преодолеть» тренд.

Итак, мы описали равновесие Нэша агентов. Рассмотрим теперь рассуждения рефлексирующего агента первого ранга. Если выполнено условие (22), то он может спрогнозировать, что все агенты нулевого ранга будут приобретать актив. Если условие (22) не выполнено, то он может спрогнозировать, что все агенты нулевого ранга будут продавать актив (цена на него упадет) и ему выгодно действовать так же. Получаем, что действия рефлексирующих агентов будут такие же, как и нерефлексирующих, т. е. в рассмотренной модели добавление рефлексирующих агентов любого ранга не меняет рыночной цены.

Сделанный вывод следует из того, что мы рассмотрели достаточно «интеллектуальных» нерефлексирующих агентов. Действительно, предполагалось, что они способны прогнозировать изменение рыночной цены в зависимости от своих действий.

Рассмотрим другую модель с менее «интеллектуальными» агентами нулевого ранга, а именно предположим, что они ориентируются лишь на знак тренда. Тогда при положительном тренде агенты нулевого ранга будут приобретать актив, в результате чего его цена будет расти, и рефлексирующим агентам лишь остается следовать их примеру. Ситуация меняется при отрицательном тренде — агенты нулевого ранга будут продавать актив, в результате чего цена «еще более снизится». Но, рефлексирующие агенты могут попытаться своими действиями (приобретая актив) «переломить тренд». Для этого, правда, им необходимо быть уверенными, что доля # рефлексирующих агентов является среди них общим знанием и что эта доля достаточна для того, чтобы цена выросла. Последнее условие по аналогии с условием (22) можно записать в виде:

0 >

р 0 и 0 р0 х0 + и0

+ ап(1 - 2#)х°.

1

2 2апх

р0 и0 ■р0 х0 + и 0

0

(23)

Отметим, что критическая доля # * рефлексирующих агентов составляет не менее половины от общего числа агентов (условие # * < 1 эквивалентно условию (22)). Рассмотрим числовой пример. Пусть и = 100, и0 = 1000, р0 = 10, х0 = 100, а = 0,001, 0 = —1. Условие (22) выполнено. Из выражения (23) находим # * = 53 %.

Подчеркнем, что предположение о том, что доля рефлексирующих агентов является среди них общим знанием, противоречит введенному ранее предположению о структуре субъективных рефлексивных разбиений (см. выражение (8)), так как последнее предполагает, что рефлексирующие агенты «не знают о существовании» других агентов того же ранга рефлексии (и более высоких рангов). К росту рыночной цены при отрицательном тренде будет приводить любое рефлексивное разбиение, при котором доли рефлексирующих агентов любых рангов (кроме нулевого) в сумме превышают # *, и эта информация является общим знанием среди рефлексирующих агентов соответствующих уровней. Данное утверждение, имеющее прозрачные содержательные интерпретации, свидетельствует, что структура субъективных рефлексивных разбиений, определяемая выражением (8), не является единственно возможной и адекватной всем моделям, представляющим интерес для практи-

ки; т. е., перспективным направлением будущих исследований представляется рассмотрение и других структур субъективных рефлексивных разбиений.

ЗАКЛЮЧЕНИЕ

Таким образом, метод рефлексивных разбиений множества рациональных агентов на подмножества агентов, обладающих различными рангами стратегической рефлексии, позволяет:

• с точки зрения теории принятия решений — расширить класс моделей коллективного поведения интеллектуальных агентов, осуществляющих совместную деятельность в условиях неполной информированности и отсутствия общего знания;

• с дескриптивной точки зрения — расширить множество ситуаций, которые в рамках модели могут быть «объяснены» как устойчивые исходы взаимодействия агентов; соответственно, в рамках задач управления — расширить область управляемости;

• с нормативной точки зрения — ставить и решать задачи группового управления путем подбора структуры информированности агентов. Анализ рассмотренных примеров позволяет

констатировать, что наличие рефлексирующих агентов может изменять групповое поведение самым разным образом.

В примере «Олигополия Курно» (п. 6.1) при определенном диапазоне значений начальный действий агентов можно реализовать эффективные по Парето или равновесные по Нэшу уровни производства путем введения агентов первого и второго рангов рефлексии.

В примере «Задача о консенсусе» (п. 6.2) введение рефлексирующих агентов расширяет множество векторов действий, выбираемых агентами, и приводит к росту значения критерия эффективности.

В примере «Активная экспертиза» (п. 6.3) наличие рефлексирующих агентов даже первого ранга существенно расширяет диапазон возможных результатов экспертизы. Второй ранг рефлексии позволяет реализовать равновесие Нэша.

В примере «Транспортные потоки и модель эвакуации» (п. 6.4) наличие рефлексирующих агентов первого ранга позволяет достичь минимального (оптимального с «централизованной» точки зрения) времени эвакуации.

В примере «Фондовый рынок» (п. 6.5) показано, что изменить ситуацию (по сравнению с нерефлексивным принятием решений) может только определенная «критическая масса» рефлексирующих агентов.

В заключение отметим, что в настоящей работе:

• почти не рассматривались агенты со вторым и более высокими рангами рефлексии (либо они

превышают максимальный целесообразный ранг, либо соответствующие модели получаются слишком сложными для получения аналитических выводов);

• считалось, что агенты любого ранга рефлексии достаточно «интеллектуальны» — они выбирают действия, стремясь максимизировать свои целевые функции. Можно допустить наличие и менее интеллектуальных агентов — агентов-имитаторов (условно, обладающих минус первым рангом рефлексии), действия которых определяются известной функцией от текущих или прошлых действий других агентов (примеры: выбор действия, равного среднему арифметическому действий остальных агентов; или агентов, связанных с данным; или некоторого другого фиксированного агента). Наверное, такие модели могут адекватно описывать такое явление как диффузия инноваций и др.;

• явно недостаточное внимание уделено условиям стабильности.

Представляется перспективным установление соответствия и совместное развитие метода рефлексивных разбиений с теорией когнитивных иерархий (в которой рангам рефлексии соответствуют когнитивные уровни и используется вероятностная модель — игрок некоторого уровня считает остальных распределенными по более низким уровням в соответствии с распределением Пуассона) — направление, активно развиваемое в экспериментальной экономике и поведенческой теории игр (см., например, работы [24, 25].

Кроме того, задачи управления, поиска максимального целесообразного ранга рефлексии и ряд других можно и нужно ставить и решать в рамках и иных (отличных от рассмотренных здесь) модификаций предложенной рефлексивной модели коллективного поведения, что представляется перспективным направлением будущих исследований. В первую очередь, это — задачи активного прогноза [26], в рамках которого агенты по информации центра о будущем состоянии системы «восстанавливают» текущее состояние и на основании этой новой информации принимают решения. Здесь введение рефлексивных разбиений выглядит весьма многообещающим.

ЛИТЕРАТУРА

1. Губко М.В., Новиков Д.А. Теория игр в управлении организационными системами. — М.: СИНТЕГ, 2002.

2. Новиков Д.А., Чхартишвили А.Г. Рефлексивные игры. — М.: СИНТЕГ, 2003.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Myerson R. Game theory: analysis of conflict. — London: Harvard Univ. Press, 1991.

4. Васин А.А. Некооперативные игры в природе и обществе. — М.: МАКС Пресс, 2005.

5. Малишевский А.В. Качественные модели в теории сложных систем. — М.: Наука, 1998.

6. Опойцев В.И. Равновесие и устойчивость в моделях коллективного поведения. — М.: Наука, 1977.

7. Новиков Д.А. «Когнитивные игры»: линейная импульсная модель // Проблемы управления. 2008. — № 3. — С. 14—22.

8. Корепанов В.О. О влиянии рефлексивных агентов с общим знанием на транспортный поток / Тр. 52-й науч. конф. МФТИ «Современные проблемы фундаментальных и прикладных наук». Ч. I. Радиотехника и кибернетика. — М., 2009. — Т. 2. — С. 69—71.

9. Корепанов В.О. Влияние рефлексивных агентов на транспортный поток / Тр. междунар. науч.-практ. конф. «Теория активных систем». Т. II. — М.: иПу РАН, 2009. — С. 122—125.

10. Чхартишвили А.Г. Теоретико-игровые модели информационного управления. — М.: ПмСоФТ, 2005.

11. Романько А.Д., Чхартишвили А.Г. Моделирование информационных воздействий в рефлексивных играх: простые сообщения // Сб. тр. ВГАСУ. 2006. — С. 157—167.

12. Чхартишвили А.Г. Рефлексивные игры: трансформация структур информированности // Проблемы управления. — 2008. — № 5. — С. 43—48.

13. Mas-Collel A., Whinston M., Green J. Microeconomic theory. — N.-Y.: Oxford Univ. Press, 1995.

14. Чеботарев П.Ю., Агаев Р.П. Согласование характеристик в многоагентных системах и спектры лапласовских матриц орграфов // Автоматика и телемеханика. — 2009. — № 3. — С. 136—151.

15. Shoham Y., Leyton-Brown K. Multiagent systems: Algorithmic, Game-Theoretical and Logical Foundations. — Cambridge: Cambridge University Press, 2009.

16. Wei R. Consensus Seeking, Formation Keeping and Trajectory Tracking in Multiple Vehicle Cooperative Control. PhD Dissertation. — Brigham Young University, 2004.

17. Новиков Д.А. Математические модели формирования и функционирования команд. — М.: Физматлит, 2007.

18. Новиков Д.А. Теория управления организационными системами / 2-е изд. — М.: Физматлит, 2007.

19. Новиков Д.А., Чхартишвили А.Г. Прикладные модели информационного управления. — М.: ИПУ РАН, 2004.

20. Корепанов В.О. Модель рефлексивного группового управления в организационных системах / Тр. VII молодежной школы-конференции «Управление большими системами». — Пермь: ПГТУ, 2010. — Т. 1. — С. 287—294.

21. Ерешко Ф.И. Моделирование рефлексивных стратегий в управляемых системах. — М.: ВЦ РАН, 2001.

22. Сорос Д. Алхимия финансов. — М.: ИНфРА-М, 1999.

23. Зинченко В.И., Новиков Д.А., Старостенко В.В. Об одной теоретико-игровой модели фондового рынка // Тр. IV междунар. конф. «Современные сложные системы управления». — Тверь, ТГТУ, 2004. — С. 294—297.

24. Explaining Focal Points: Cognitive Hierarchy Theory versus Team Reasonin / N. Bardsley, J. Mehta, C. Starmer, R. Sug-den // CeDEx Discussion Paper Series / The University of Nottigham. — Nottigham, 2008. — CeDEx Discussion Paper No 17. — 56 p.

25. Camerer C., Ho T., Chong J. A Cognitive hierarchy model of games // The Quarterly Journal of Economics. — 2004. — № 8. — P. 861—898.

26. Новиков Д.А., Чхартишвили А.Г. Активный прогноз. — М.: ИПУ РАН, 2002.

Статья представлена к публикации членом редколлегии Ф.Т. Алескеровым.

Корепанов Всеволод Олегович — ст. математик,

® (495) 334-90-51, И moskvo@gmail.com,

Новиков Дмитрий Александрович — чл.-корр. РАН, зам. директора по научной работе,

® (495) 334-75-69, И novikov@ipu.ru,

Институт проблем управления РАН им. В.А. Трапезникова, г. Москва.

i Надоели баннеры? Вы всегда можете отключить рекламу.