УДК 519.865.7 ББК 22.18
УПРАВЛЕНИЕ РЕФЛЕКСИВНЫМ ПОВЕДЕНИЕМ АГЕНТОВ В МОДЕЛИ ОЛИГОПОЛИИ КУРНО1
Корепанов В. О.2
(Учреждение Российской академии наук Институт проблем управления им. В. А. Трапезникова РАН, Москва)
Рассматривается модель рефлексивного поведения агентов на рынке в олигополии Курно. Агенты разбиваются на классы по уровню рефлексии, причем поведение различных классов существенно отличается. Установившаяся после действий агентов рыночная цена зависит от количества (доли) агентов в каждом классе. Рассматривается возможность управления рыночной ценой с помощью варьирования распределения агентов по уровням рефлексии. Исследуются свойства оптимальных управлений, приводится обсуждение полученных результатов.
Ключевые слова: олигополия Курно, рефлексивное поведение, метод рефлексивных разбиений, управление рыночной ценой.
1. Введение
Классическая экономическая теория опирается на концепцию рыночного равновесия [25]. Рыночное равновесие весьма привлекательно с точки зрения общественного блага, в частности, широко известны условия существования и эффективности рыночного равновесия (см., к примеру, [10]). Но само по себе рыночное равновесие является лишь математической абстрак-
1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект 10-07-00104).
2 Всеволод Олегович Корепанов, аспирант (moskvo@yandex.ru).
цией - оно не имеет смысла без указания механизма его реализации посредством действий участников рынка.
В настоящее время существует обширная литература по механизмам реализации рыночного равновесия (см. обзор в [21]). Пожалуй, самым известным механизмом приближенной реализации рыночного равновесия является олигополия Курно
[17] - модель конкуренции производителей. Для предсказания поведения агентов в олигополии Курно используется концепция равновесия Нэша [23]. Равновесная по Нэшу цена при одном производителе (случай монополии) далеко отстоит от цены рыночного равновесия, но с ростом числа производителей цена, поддерживаемая их равновесными по Нэшу действиями, стремится к рыночной.
Однако также давно известно, что реальные действия экономических агентов зачастую не объясняются ни равновесием Нэша, ни даже стремлением к максимизации функции полезности [22]. Так, в реальности (в частности на финансовых рынках) далеко не всегда наблюдается сходимость установившейся на рынке цены к фундаментальной, справедливой цене даже в условиях, близких к совершенной конкуренции (при большом количестве участников рынка), о чём свидетельствуют исследования [11, 18, 22].
В рамках концепции ограниченной рациональности агентов
[27]: в условиях недостатка времени или большого объёма информации (большого числа агентов) равновесие Нэша заменяется более простыми алгоритмами поведения.
Одной из концепций ограниченной рациональности является так называемое «рефлексивное» поведение [7]. Рефлексия в этом подходе понимается как попытка агента предсказать информированность и действия своих оппонентов с целью устранения игровой неопределённости [7] при принятии им решения и выборе наилучшего ответа на действия оппонентов. С точки зрения рефлексивного поведения равновесие Нэша требует бесконечной глубины рефлексии, поскольку является предельной точкой отображения наилучших ответов [1]. Ограниченность ранга рефлексии при принятии решений экономическими
агентами является одним из проявлений их ограниченной рациональности.
Ограниченная рациональность порождает проблему неэффективности. Тогда как рыночное равновесие эффективно по Парето (что традиционно служит одним из доводов в пользу свободной конкуренции), рефлексивные субъекты в силу неадекватной информированности о механизмах ценообразования и своего иррационального поведения могут принимать решения, приводящие к неэффективным исходам [13, 20]. Следовательно, на рынке, где действуют агенты с ограниченной рациональностью, возникает потребность в регулировании. Поскольку причина неэффективности лежит в неадекватной информированности и ограниченной рациональности агентов, адекватным методом рыночного регулирования представляется так называемое информационное управление [7, 9].
Информационное управление - это воздействие на структуру информированности агентов, осуществляемое с целью изменения информационного равновесия. В рамках данной работы под информационным равновесием можно понимать ситуацию, сложившуюся на рынке в результате действий агентов, опирающихся на имеющуюся у них информацию и механизм рефлексивного поведения. В [7, 9] также отмечается, что рефлексивное управление - это вид информационного управления, при котором влиянию подвергается только информация агента об информированности других агентов и их моделях принятия решений. В данной работе после описания механизма рефлексивных размышлений агентов рефлексивное управление будет производиться только за счёт изменения ранга рефлексии агентов.
В литературе описаны исследования олигополии Курно с введением различных типов агентов [15, 19, 26], но эти работы исследуют динамические постановки игры и различные варианты стабильных равновесий. В то же время в работах [28, 29] базовые типы агентов очень похожи на модели агентов с рефлексивным поведением в настоящей статье, но в упомянутых работах рассматривается не олигополия Курно, а в основном матричные эволюционные игры. Модель [14] в ключевых идеях
повторяет предлагаемый подход рефлексивного управления, но является частным случаем общей модели [5]. Работы [12, 14, 16] и упомянутые ранее в абзаце подтверждают актуальность исследования данных моделей в современной науке.
Таким образом, в настоящей работе формулируется и исследуется модель рефлексивного управления агентами в олигополии Курно, то есть вместо модели производителей, которую предложил Курно, в олигополию вводятся рефлексирующие производители и ставится проблема управления ценой. Данная модель есть частный случай метода рефлексивных разбиений [5]. Ставится и решается задача регулирования рынка методами информационного (рефлексивного) управления. Определяется рыночная цена и действия агентов в зависимости от их распределения по рангам рефлексии и, таким образом, определяется возможность рефлексивного воздействия на игроков. Находится минимальный ранг рефлексии агентов, при котором управляющий орган (регулятор рынка, Центр) получает максимальные возможности по управлению установившейся ценой, а также доказывается, что эффективная рыночная цена всегда достижима с помощью рефлексивного управления. В заключении обсуждаются и перспективы развития теоретической модели и возможности реализации рефлексивного управления на практике.
2. Модель олигополии Курно
Олигополия Курно — экономическая модель рыночной конкуренции. Основные положения модели (см. [2]):
• на рынке действует фиксированное число п > 1 агентов (фирм), выпускающих одинаковый продукт;
• вход на рынок новых фирм и выход из него отсутствуют;
• фирмы действуют без кооперации, одновременно выбирая объемы выпуска;
• фирмы максимизируют свою прибыль.
Общее количество фирм на рынке п предполагается известным всем участникам. Функции издержек фирм могут быть различными и также предполагаются известными всем участни-
кам. Функция спроса представляет собой линейную убывающую функцию от цены продукта.
Обозначим объем производства /-й фирмы-агента через а/. Рассмотрим модель олигополии Курно с квадратичными функциями издержек. Тогда целевые функции (функции прибыли) агентов можно записать в виде:
(1) / (аг, Г/, х) = а/Х - с(а/) = агх - аг 2/2,
П
(2) х = сЦ,...,ап) = А -ЬXа}/п .
1=1
где х - цена, устанавливающаяся на рынке в зависимости от суммарного выпуска ^а/; с(а/) = а/2/2 - издержки агента на производство заданного объёма продукции; А - максимальная цена на рынке; Ь - коэффициент, отражающий «эластичность» цены от среднего всех действий агентов.
В равновесии Нэша действия всех агентов и равновесная цена равны соответственно
/оч ЫЕ А
(3) а =-------------,
1 + Ь + Ь/п
(4) Г = А .
1 + Ь + Ь/п
Если агент пренебрегает своим влиянием на установившуюся цену х (например, в условиях совершенной конкуренции, когда агентов достаточно много), оптимальное действие /-го агента при цене х можно записать как:
(5) а* = а^шах /(а, х) = х .
а
При этом из уравнения х = А - Ь'^а/'/п можно вычислить цену рыночного равновесия хр = А/(1 + Ь).
Единицы измерения действий агентов подобраны таким образом, что, максимизируя свою целевую функцию, они выбирают действия, численно равные рыночной цене.
3. Модель рефлексивного поведения
Для реализации равновесия Нэша каждый агент должен вычислить своё равновесное действие. Для этого он должен
т ,1 + Ь/п
знать количество участников рынка и их целевые функции, а также зависимость /(•) установившейся цены от объемов производства. Однако в реальности такая детальная информированность встречается чрезвычайно редко.
Даже для реализации рыночного равновесия каждый агент должен знать как минимум рыночную цену. Но ведь это цена, которая установится в результате его действия и действий других участников рынка. Она неизвестна заранее и точно. На практике вместо самой установившейся цены х агентам приходится использовать ее оценки (на основе публикаций в прессе, прогнозов, аналитических расчетов, оценок экспертов и других источников информации). Из оценок складываются представления агентов. Сформировавшиеся представления могут отличаться от реальности, что приводит к неэффективности рынка, а также к стремлению по меньшей мере части агентов к арбитражу, стремлению подзаработать на неверных (с их точки зрения) представлениях остальных агентов. Моделирование действий других игроков на основе представлений об их информированности и представляет собой основу описываемого ниже рефлексивного поведения агентов в олигополии Курно.
Далее считаем, что основной целью Центра - регулятора рынка - в этих условиях является восстановление эффективности рынка, т.е. установление на рынке цены совершенной конкуренции хр = А/(1 + Ь). Инструмент регулирования - информационное управление - описывается ниже.
Если агент не учитывает своего влияния на рыночную цену, он выбирает действие на основе своих представлений х об этой цене, см. формулу (5).
Определим «обычных» агентов как имеющих некоторое фиксированное представление х0 о цене. «Обычные» агенты не знают ничего о влиянии на цену своих действий и действий других агентов. Если все агенты - «обычные» и имеют одинаковое представление х0, то по формуле (2) на рынке сложится (фактическая) цена Хф0 = А - Ьх°. При этом
(6) хф = А - Ьх° = А - Ь(хр + йх) = А - ЬА +(Ь +1)йх = ф р Ь +1
Ab + A - bA - b(b +1)dx A 1 1 1 1
=-------------------------=-------bdx = xp - bdx,
b +1 b +1 p
где dx := x° - xp.
Это значит, что если агенты переоценивают рыночную цену (x0 > xp, dx > 0), то фактическая цена будет ниже рыночной: Xф0 = A - bx° < xp, и наоборот.
Предположим, что помимо обычных агентов (агентов «нулевого ранга рефлексии») на рынке присутствуют и агенты с более сложным поведением (агенты более высоких рангов рефлексии). Рефлексивные агенты 1 ранга считают, что все остальные агенты - это «обычные» агенты с представлениями x0. Следовательно, они считают, что на рынке сложится цена x0 = x^,0 (своим влиянием на цену они пренебрегают). Соответственно, своё действие агенты первого ранга рефлексии выбирают
1 0 0
равным наилучшему ответу на эту цену: at = x = x^, .
Пусть А0 - доля «обычных» агентов, - доля агентов 1 ранга. Тогда если нет других агентов (Х0 + = 1), то на рынке
сложится фактическая цена
(7) xi = A - b(nA1al + n(1 - 1)a0) = 1b(x0 - (A - bx0)) + (A - bx0)
n
или
(8) xj, = 1b(a° - a1) + a1=A1b(x0 - x^°) + x°0.
На рынке могут присутствовать и агенты более высоких рангов рефлексии (о существовании которых агенты более низких рангов не подозревают по определению) Так, рефлексивные агенты 2 ранга знают долю агентов 1 ранга А\, а всех остальных считают «обычными» агентами (т.е. «обычных» агентов, агентов своего ранга и выше). При этом агенты 2 ранга знают x0 и правильно представляют себе принцип принятия решений агентами 1 ранга. Поэтому они верно вычисляют действие агентов 1 ранга рефлексии и полагают, что на рынке сложится цена x2 = A - b(nX\al + n(1 - A1)a°)/n = x^,1. Соответственно, они выбирают своим действием: at2 = x^,1.
Пусть Х2 - доля агентов 2 ранга. Тогда на рынке сложится фактическая цена
(9) хф = А + ЬЛ2(а° - а2) - Ь(Я,а1 + (1 - 1)а0) = ЬЛ2(х0 - хф) + хф.
Аналогичные формулы верны и для рефлексивных агентов любого более высокого ранга рефлексии к:
(10)
ак = хк-1
иі ~ Хф 5
хф = А - Ьх0,
[ хф = Ь1к (х°- хф~1) + хф~1.
При этом хфк - цена, фактически реализующаяся на рынке -зависит от представлений х0 «обычных» агентов о цене, а также от распределения Х0, Аь ..., Хк агентов по рангам рефлексии.
Рефлексивное управление со стороны Центра в рассматриваемой модели состоит в изменении рангов рефлексии всех или части агентов, т.е. влиянии на параметры Х0, Аь ..., Хк (в следующем разделе приводится содержательный пример подобного влияния).
Определение: Множество управляемости системы при рефлексивном управлении:
°к (х0) = и Д (х° ) , где Д (х0) = [шт х/ (Л/), шах х/ (Л/)],
/ 4 4
где Л/ = (Ло, Аь ..., X/).
Отметим, что представления х0 «обычных» агентов считаются фиксированными.
Теорема.
1. В рамках описанной выше модели множество управляемости Дд(х0) представляет собой отрезок с границами
0 I [х° - Ст; х0 + СМ] при С > 0,
(11) Дя(х ) =1 0 0
I [х - СМ; х + Ст] при С < 0.
где С = А - Ьх - х; М =
Ь -1
V ім
т =
------1
і і
V т
■ (Ь 1І ■ (Ь 1
ім = ащ тах I - -11 ; іт = arg тах I - -1
і=2кV і 0 і=2£+1,£єКо V і
Длина отрезка Дд(х0) экспоненциально растет с ростом параметра Ь, более того, М ~ еЬ; |т| ~ еь. Максимальный целесообразный ранг рефлексии ([19], стр. 15, 49) I равен:
(12) I = шах{/'м, /т }.
2. Равновесная рыночная цена при рефлексивном управлении достижима при любом х0, для этого достаточно взять
(13) 1р =-+- е (0,1]
1 + Ь
рефлексивных агентов ранга 1, а всех остальных - «обычных».
3. Фактическая цена по формуле (11) может быть отрицательной, поэтому из формулы (5) следует, что отрицательными могут быть и действия агентов по выпуску продукта. Это удобно для аналитических расчётов, но не для практических результатов. С учётом неотрицательности объёма производства агентов-фирм формула (5) должна быть заменена следующей:
(14) а* = а^шах / (а, х) = шах{х,0}.
а>0
Введём необходимые обозначения:
, * 1п с
к =-----------,
Ж (1/е) +1
где Ж(х) - Ж-функция Ламберта.
I к = еуеп(к*), С < 0,
I к = еуеп(к*), С < 0,
(15)
к = ойй(к*),й > 0,
к = ойй(к ), й > 0,
- ((х (й )11 к +1).
Л = -Ь
где еуеп(х) - ближайшее целое чётное к х число, а оСС(х) -нечётное.
(16) хшах = шах{Ь\+1х011+1 е [0,1 - кХ)} = Ьх0 (1 - кХ),
(17) 3/ < іт : (-1)1
(18) 3/ < ім :(-1)
Л1'
------1
і
т
< -х
Л1'
------1
V1М
< -х
Тогда, если Щх0) содержит отрицательные значения, соответствующее (14) значение множества управляемости Б к(х°) уменьшится, так же как и максимальный целесообразный ранг рефлексии I.
[[0, хшах] при выполнении усл. (17) и (18),
(19) (х ) = <! 0
[[0, х + йМ ] при усл. (17) и нарушении усл. (18).
(20) 4( х0) с Бк (х0),
(21) I* = к +1 < I.
То есть формулы (11) и (12) есть верхние оценки.
Доказательство теоремы приведено в приложении.
4. Обсуждение результатов
Содержательно, первый результат теоремы говорит о том, что Центру для максимальной управляемости рынка достаточно формировать шах(/М, /т) рангов рефлексии агентов, кроме «обычных». Этого достаточно, чтобы цену на рынке можно было сделать любой из множества достижимых цен БК.
Ширина диапазона управляемости |Бя(х0)| экспоненциально увеличивается с ростом Ь, отражающего «эластичность» цены на рынке от действий агентов.
Второй результат содержательно говорит о полезности рефлексивного управления: Центр способен привести такую экономическую систему к равновесной рыночной цене за счёт использования только «обычных агентов» и агентов первого ранга. Стоит отметить, что Л1Р не зависит от х0.
В [7] со ссылкой на [8] описывается психологический эксперимент, проведенный изучавшим психологию владельцем компании, импортирующей в США говядину. «Торговые агенты позвонили, как обычно, постоянным клиентам компании -закупщикам говядины для супермаркетов и других точек, торгующих продуктами в розницу, и одним из трех способов предложили им сделать заказ.
Одни клиенты услышали предложение, сделанное в стандартной форме. Другим клиентам дополнительно была предос-
тавлена информация о том, что поставки импортной говядины будут сокращены в ближайшие несколько месяцев. Третья группа клиентов получила те же сведения, что и вторая группа, а также информацию о том, что мало кто узнает о предстоящем сокращении поставок, так как эти сведения поступили из надежного, но засекреченного источника. ...
По сравнению с клиентами, которым было сделано торговое предложение в стандартной форме, те клиенты, которым было также сказано о дефиците говядины, заказали ее в два раза больше... Клиенты, которые решили, что владеют «исключительной» информацией . приобрели в шесть раз больше говядины, чем клиенты, которым было сделано торговое предложение в стандартной форме».
Несмотря на то, что в данном случае речь идет о конкуренции не поставщиков, а потребителей, аналогия с рассмотренной выше моделью олигополии Курно очевидна. Клиенты, получившие предложение в стандартной форме, в своих закупках будут ориентироваться на стандартные цены. Их, таким образом, можно считать «обычными» агентами. Клиенты третьей группы считают себя обладателями эксклюзивной информации
о рыночной цене и полагают, что правильно предсказывают поведение «обычных» агентов. В описанной выше модели такое поведение характерно для агентов первого ранга рефлексии. Информация, сообщенная клиентам второй группы, в терминах рассматриваемой модели - это рефлексивное управление частью «обычных» агентов, оставляющее их на нулевом ранге рефлексии, но меняющее их прогноз цены х0.
Специфика рассматриваемой модели состоит в большом количестве агентов (действия одного агента не влияют на общий результат) и наличии агрегированного результата действий агентов (сложившейся на рынке цены). Описанная в предыдущем разделе структура информированности достаточно проста, что и позволяет ее исследовать аналитически.
Описанный в предыдущем разделе подход опирается в основном на теоретико-игровые модели информационного управления [7, 9], которые являются развитием теории ограниченной
рациональности и её приложений в области теории игр с неполной информированностью (см. напр. обзор в [7] на стр. 31).
Следствием ограниченной рациональности как раз является тот факт, что агенты выбирают свои действия, основываясь на иерархиях представлений конечной сложности (термин в [9] стр. 40), а также то, что представления агента содержат иерархии представлений других агентов, по сложности на единицу меньшие, чем его ([24, 29]). Проще говоря, каждый агент считает себя более «рефлексирующим», более информированным, чем остальные. Подобные постановки задач и допущения о поведении агентов можно найти, например в [5, 14, 24, 28,29].
Самое сильное предположение предложенной модели информированности состоит в том, что каждый агент причисляет всех агентов ранга не меньшего своего к «обычным» агентам. В то же время возможны и другие подходы: агент может причислять оппонентов, имеющих ранг не меньше, чем у него, к любым другим рангам или не учитывать этих агентов вовсе. Например, в [5] агент считает таких оппонентов «почти столь же прозорливыми», как и он сам (они причисляются к рангу, на единицу меньшему ранга рефлексии агента). В работах [28, 29] каждый агент ранга п (!еуе!-п в тексте) считает всех остальных как-либо распределёнными между нижними рангами.
Также агент мог бы исходить из концепции максимального гарантированного результата, считая, что агенты высших рангов рефлексии (поведение которых для него является загадкой) будут выбирать наименее выгодные для него действия (но возможные их действия все равно необходимо разумным образом ограничивать), или вообще не учитывать таких агентов (информации об их существовании нет).
5. Заключение
Итак, в статье сформулирована модель рефлексивного поведения в олигополии Курно. Решена задача рефлексивного управления в форме множества управляемости (или в терминах достижимости [9], стр. 105), а также проанализирован частный случай задачи рефлексивного управления в форме целевой
функции (см. там же) - приведения системы к равновесной рыночной цене. При этом оказалось, что множество достижимости не может бесконечно увеличиваться с увеличением ранга рефлексии агентов и при конечном ранге достигает наибольшего размера. Этот результат является интересным с точки зрения перспективных задач объявленных в [7] на стр. 101.
При рангах рефлексии, меньших оптимального, имеется степенная зависимость размера множества управляемости от максимального ранга рефлексии агентов. При этом фактическая цена может достаточно далеко отойти от изначальной цены х0, сообщаемой «обычным» агентам.
Показано, что возможно управление системой для достижения рыночной равновесной цены только за счёт рефлексивных агентов первого ранга и «обычных» агентов.
Полученные результаты применения модели рефлексивного поведения производителей для управления в модели олигополии Курно являются личным вкладом автора. Сама модель рефлексивного поведения есть результат обсуждений с научным руководителем и коллегами способа моделирования стратегической рефлексии ([7]).
Перспективы исследований связаны с рассмотрением похожих моделей информированности и рефлексивного поведения, практическим обоснованием такого поведения агентов, исследованием рефлексии в других играх, поиском и сравнением результатов с похожими исследованиями.
6. Приложение
Доказательство теоремы.
Доказательство первого утверждения теоремы.
Напомним рекуррентные формулы (10) для определения фактической цены при максимальном ранге рефлексии к:
Гак = хк-1 и/ ~ хф ’
<хф = А - Ьх0, хф = ЬХк (х0 - хф-1) + хф-1.
Управляемость системы определяется нахождением Дк. В распоряжении Центра есть только информированность «обычных» агентов - х0 и доли рефлексирующих агентов соответствующих рангов:
(22) 0 < Х < 1: X Х < 1.
Сделаем замену переменных для упрощения формул (10):
70 = А - Ьх0 - х0,
хф = х0 + ік ®
і1 = (1 - ЬХ У-1 = і0 П (1 -1 )•
к=1
Во-первых, заметим, что ^ г| > ^ г~ '| ^ |1 - ЬЦ > 1 ^ Ц > 2/Ь. Это значит, что X не может бесконечно расти, так как < 1. Определим множество управляемости после замены:
Д (х0) = х0 + Т (х0),
Т (х0) = [шт X (х0, Л/ ),шах X (х0, Л/)],
л/ 4
Д = х0 + ТК (х0) = х0 + (х°).
/
Для нахождения Т/(х0) нужно найти минимум и максимум функции
? ( х0,х,...,х ) = х0П (1 - ЬХ) = ( а - Ьх0 - х 0)П (1 - ЬХ
к=1 к=1
по переменным Л/ = {Ц0, А\, ., Хк} при условиях (17).
Обозначим /(/, Х,..., Х) = (-1) П (ЬХк -1).
к=1
Очевидно, что
Пк=1 (ЬХк -А - ЬГ0
/ -нечётное
„0 ^„0
arg тіп і1 (Х) = <
а^ тіп / (Л,) = тах Пк=1(ЬХ -1),Л - Ьх > х ,
Л і і -нечётное
аг§тах /(Л,) = тах П к=1 (ЬХк -1), Л - Ьх° < х0.
Для тах і1 (Лі) аналогично.
л,
Докажем теорему для случая А - Ьх0 > х0 ^ X 0 > 0: представления «обычных» агентов ниже эффективной рыночной цены.
Так как нас интересуют в первую очередь максимальные по модулю значения Х, будем рассматривать область 2/Ь < Хк, к = 1, ..., /; Ь > 4, с ограничениями (22), поскольку при выполнении этих условий |1 - ЬХ/\ > 1 и \Х/ > ^/-1|. Содержательно это означает, что если мы добавляем в систему с максимальным рангом агентов / агентов с рангом (/ + 1) так, что |1 - ЬХ/+1| > 1, то ^/|>|Х /-1|, т.е. множество управляемости увеличивается. Обозначим эту область
О/ = {(Х,Х,...,Х): ь <1 Хк < 1,Ь < Хк < 1, к = 1,...,/}.
к=1
Итак, постановка задачи следующая:
/
П (ЬХк -1) ® тах,
(23) < к=1
| (ХХ,...,Х)еО/.
Из симметричности задачи (23) можно сделать вывод, что Хк = Х- для всех индексов. Тогда задача становится такой:
Г(ЬХ -1) ® тах,
(24) \ 2
|1г < 1.
Очевидно, что максимум достигается при Х = 1//.
Тогда
(25) ехЦ- /(/,Л/) = (-1)' (Ь -1)/ .
Л, еО/ /
Введем функцию Н(/) := (-1)/ (Ь// - 1)/. График Н(/) при Ь = 10, представлен на рис. 1.
Предположим, что вектор Л/ ё О/ и $к е {1, ..., /}:
0 < Хк < 2/Ь. Тогда |1 - ЬХк| < 1. Следовательно, при любых остальных Х- и Уе е {0, [2/Ь, 1 - Х/'^Х,']}:
і1 (х0,Л,)| < Іі1 (х°,(Х,...,0,...,Х))| =
Л ґ о
і1 (х0, Л,) < і1 (х0, Л,) І1 - Ьг\ =
1 - ык 1 - ЬХк 1
Л / о
ни
Это значит, что для максимизации Х(х°, Л/) нужно взять Хк из множества [2/Ь, 1-Х/мХ,), где (1 - ЬХк) по модулю больше единицы. Второй вариант, если 2/Ь > 1 - Х-^Х-, то есть когда нельзя так выбрать Хк, чтобы 11 - ЬХк| > 1. В этом случае оптимально взять Хк равным нулю, чтобы множитель (1 - ЬХк) стал равен единице. В последнем случае
? (х0,{Л/-!,0}) = ГЧх0,Л-1) и
тахX (х0,{Л/-1,0}) = тахX-1 (х0,Л/-1).
Л/-1 Л/-
В итоге, если провести такие изменения для всех Хк е Л/, таких что 0 < Х- < 2/Ь, получим вектор Л ’/ = (Х1, ., Хс, 0, ., 0), причём Л/ = (Х1, ., Хс) е Ос/и Х/(х0, Л) < Х/(х0, Л ’/).
В области О/ Х(х0, Л/) имеет знак (-1) и, например, при чётном /, если максимум Х(х°, Л/) по Л/ достигается при Л/ е О/,
то поскольку X '(х0, Л1—1) имеет другой знак в О1 / (знак равен (-1)1 - '), то:
шт ? (х°, Л,) > ?_'(х°, Л1_1 е О/-1) > шт ?_'(х°, Л, _ и
л1 еО; 4_'
а^ шт ? (х0, Л1) = {а^ шт X _' (х0, Л1 _), 0} ё О/,
Л1 Лм
т.е. глобальный минимум уже достигается при Л1 е О1/. Аналогично доказывается и для нечётного 1, т.е. аргументы минимума и максимума Х1(х0, Л;) либо оба не лежат в О/ либо только один принадлежит этому множеству.
В итоге получаем, что максимум можно определить рекурсивно:
шах^ (х0,Л,) = шах\ шах ^ (х0,Л,),шах^_'(х°,Л,,) >,
Лг [Лг еО/ Лг _' J
аналогично и минимум, что вместе с (14) приводит к упрощению:
шахX1 (х0,Л,) = X0 шах{|Н(к)|: к < 1,к _чётное} , шт X1 (х0,Л,) = X0 шт {_|Н(к) : к < 1,к _ нечётное}.
Л, III )
Тогда из того, что у Н(1) есть точка максимума, следует, что, начиная с некоторого ранга рефлексии 1М:
"1 > 1М : шах X (х0, Л,) = шах ?м (х0, Л1м) = X0Н (\м) и
Л Лм
"1 > 1т :шт ^ (х0, Л1) = шт г'ш (х0, Л1 ) = _г0Н (гт),
Л1 Л1т т
где 1м = arg шах Н (1), а 1т = ащ шт Н (1).
1=2к ,кеЫ 1=2к+1,кеЫо
То есть Т1(х°) растёт до этого момента вместе с ростом Н(1), а после не меняется.
Ранги 1М и 1т находятся вблизи максимума Н(1), но возможно, что для некоторых случаев это не ближайшие целые. Для нахождения максимума Н(1) нужно решить следующую задачу: находим максимум |Н(1)|:
'(( -1)')
= 0 - -1
Ьп (- -1) —»—Г-
ь ’ 1(4 -1)
^ Ьп\ь- - 1І=-А_ = 1
і 0 Ь - і Ь - і
1 = 1- 1
-1
1
пусть й = Ь-1 ^ Ьп(й) = 1 +1 ^1 =1 ей ^ і v ’ й е й
1
! 3.6 ^ ітах = ■
1 №(І7Є) +1 4.6
где Ж(х) - Ж-функция Ламберта - является решением уравнения
х = Ж(х)вЩх).
Так как нас интересуют целые значения 1, следовательно,
тах Н (і) = тах \Н (і)| =
тіп Н(і) = тах ІН(і) =
1 -нечётное
=м,
= т.
V т /
Характер роста максимума в зависимости от параметра модели Ь экспоненциальный:
Ь. - 1Ч
= (й) 3+1 = еЬп (й) 3+1 = I"1 ) " = еЬ№ )
= е
шах Н (1) =
1е N
V шах 0
Теперь выпишем Тк(х°):
Т ( 0) = |Н°т;(°М],X0 > 0,
К% {[_0М;X0т],X0 < 0.
Соответственно, максимальный целесообразный ранг рефлексии (для увеличения области управляемости Ок) определяется так:
I = шах{1м , 1т }.
Рассмотрим случай Ь < 4.
Тогда если $к:Хк > 2/Ь, то V] Ф к: < 2/Ь и, следовательно,
У (х0) = X0 (1 _ Ь1 )П (1 _ Ь1]) < X0|1 _ Ь1|.
] Ф к
То есть минимум ^(х0) достигается при 1 = 1, Л1 = 1. Ввиду
У (X0) = і 0(1 - Ь1)(1 - Ь12)
П (1 - Ь1)
1 *1,1 * 2
< і 0(1 - Ь1)(1 - Ь12)
тах
1+ І2 =
максимум равен либо X (нет рефлексивных агентов), либо шах (X0(1 _Ь1 )(1 _Ь12)) . С помощью алгебраических преобразований можно доказать, что при Ь < 4
<( X 0(1 _ Ьа1)(1 _ Ьа2) )< X0.
То есть Тя(х0)=[/)(1-Ь),/)], а максимальный целесообразный ранг рефлексии равен 1.
Доказательство второго утверждения теоремы.
Из (2) следует, что фактическая цена на рынке при наличии рефлексивных агентов нулевого и первого рангов равна
хф = Ь(1 + Ь)х0 а _ 1+Ь) + (1 _ ЩА .
При Л.1 = 1/(1 + Ь) получаем искомое утверждение:
, А
ХФ =
1 + Ь
Доказательство третьего утверждения теоремы.
Истинность формулы (14) очевидна.
Рассмотрим множество Ок(х°). Из определения М и т следуют неравенства:
еЬЖ (1)_.
(26) (1)
еш{е) > т.
Поэтому верно Аг(х0) с: /)(х0) = [х0 - ёеьт11е\ х0 + йеътУе'у]. Тогда из неравенств х0 ± ёеШ1/е) > 0 (С может иметь разный знак) следует
= тах Н (і) > М,
ієИ
(27) х0
1 + Ь + е
-ЪШ (1/е)
1 + Ь - е
-ЪШ (1/е)
Ъ—— ¥
Так как экспонента растёт быстро, то для того чтобы все точки Д(х0) были больше нуля, цена, известная «обычным» агентам, х0, должна быть очень близка к равновесной. Отрезок в
(27) может быть чуть больше ввиду неравенств (26).
Рассмотрим, что происходит с максимальным рангом рефлексии при использовании формулы (14) и (17), (18) когда Дк(х°) содержит отрицательные значения:
(28) Д(х0)П(-¥,0) *0,
(17) 3] < іт : (-1)]
(18) 3] < ім :(-1)]
V
-------1
V іт
< -х
V
:-------1
V ім
< -х
Условие (18) (или (17)) говорит о том, что при стремлении к максимуму (минимуму) фактическая цена на рынке становится отрицательной. Логически эти формулы связаны следующим образом: (28) «• (17) ^ (18).
Рассмотрим формулу (10). Пусть при некотором ранге рефлексии к Хф^1 < 0. Тогда агенты ранга к будут выбирать своим действием 0, пока не добавим нужное количество агентов, чтобы привести систему к состоянию Хфк = 0. Необходима для этого следующая доля агентов ранга к:
=■
хк-1 хф I
Ьх0
Но оптимально ли тратить 2 к-1 агентов для приведения цены к нулю? Для оптимальности нужно рассмотреть оптимизационную задачу Хфк = 0, двойственную к задаче (23):
(29)
хф = х0 + ґк = 0,
їй
• Ш1П,
КЛ(Ь1 -1)=-ї і‘=.1.—,ш1"'
Тогда следует заметить из отрицательности ^ (так как х0 > 0), что если (0 < 0, то к должно быть чётным, иначе нечётным. Перейдём к упрощённой постановке задачи, помня эти ограничения:
СП^ЬЛ -1) = с > о,
(30) [А 1г=1 1
12и ® шт.
Опять же, ввиду симметричности задачи (30) Л = Л/.
[ (ЬЛ- 1)к = с, \- = \(сУ к +1),
[кЛ® шт, |Ьк(с11 к +1) ® шт.
Решая задачу к(с1к + 1)^-шт, получаем уравнение
с1 Г1 - ^ 1 = -1 ^ ^ - ,1. * = 1 ^ <!£ -11. ¥-' = 1.
| к = вувп(к*), ґ0 < 0,
I к = оСС(к*),ґ0 > 0,
Снова используя функцию Ламберта, получаем решение:
/О 1 \ 1п с 1 ТТЛ/1 I \ /* |п с
(31) —р -1 = Ж(1/е) ^ к =---------------.
к Ж(1/е) +1
Итого, с учётом замечаний к задаче (29) получаем приближённое её решение (15):
[к = еуеп(к*), X0 < 0,
[к = оСС(к*),X0 > 0,
Л = 1(с11 к +1);
где еуеп(х) - ближайшее целое чётное к х число, а оСС(х) -нечётное.
'Т к+1 к г\ к+1 1 1 0
Тогда а = Хф = 0 и Хф = ЬЛк+1 х , т.е. теряется вся история
и, используя ограничения (22) для максимизации, оптимально сразу использовать всех оставшихся агентов по формуле (16): Хшах = шах{ЬЛк+1х01 Л+1 е [0,1 - к—} = Ьх0 (1 - к Л). Максимальный ранг рефлексии при этом равен (к + 1). Докажем, что хшах доставляет максимум при использовании формулы (14) в случае (17)-(18).
Рассмотрим следующую параметрическую задачу:
(32) {4=x0+^ ( nk=i м -1)=-х-^ (-1)k,
II ®min, I Vk 2 •
1 ^1-1 г Vi=11 ® min.
Очевидно, что её решение будет такое же, как и (15), только х0 надо заменить на (х0 - r).
Теперь устремим к максимуму Хфк1:
(33) Xmax(r) = b(х0 -r)(1 -k(r)2(r)) + r®max,
r
где {k(), X()} - решение задачи (32).
На самом деле задача (32)-(33) есть разбитая на две части задача (21). Поэтому в рассматриваемом случае (17)-(18) оптимальным решением (32)-(33) будет r < 0.
Производная x’max(r) имеет характер Ln (х0 - r) и, следовательно, после точки максимума (х^^г) = 0) производная отрицательна и верно равенство:
хшах = ^^max^)} = Xmax(0) < M ■
r >0
Это доказывает, что в случае (14)+(17), (18) верна формула
(19), а также формулы (20), (21).
ЧТД.
Литература
1. ГУБКО М.В., НОВИКОВ Д А. Теория игр в управлении организационными системами. - М.: Синтег, 2002.
2. ДЮСУШЕ ОМ. Статичное равновесие Курно-Нэша и рефлексивные игры олигополии: случай линейных функций спроса и издержек // Экономический журнал Высшей школы экономики. Т.10. - М.: ГУ ВШЭ, 2006.
3. ЗИНЧЕНКО В.И., НОВИКОВ ДА., СТАРОСТЕНКО ВВ. Об одной теоретико-игровой модели фондового рынка // Материалы IV Международной конференции «Современные сложные системы управления». - Тверь: ТГТУ, 2004. -С. 294-297.
4. КАЛЯЕВ И.А., ЛОХИН В.М., МАКАРОВ И.М. и др. Интеллектуальные роботы: учебное пособие для вузов. - М.: Машиностроение, 2007. - 360 с.
5. КОРЕПАНОВ В О., НОВИКОВ Д А. Метод рефлексивных разбиений в моделях группового поведения и управления // Проблемы управления. - 2011. - № 1. (в печати).
6. НОВИКОВ Д.А. Теория управления организационными системами. - М.: Физматлит, 2007. - 584 с.
7. НОВИКОВ ДА., ЧХАРТИШВИЛИ А.Г. Рефлексивные игры. - М.: СИНТЕГ, 2003. - 149 с.
8. ЧАЛДИНИ Р. Психология влияния. - СПб.: Питер, 2001.
9. ЧХАРТИШВИЛИ А.Г. Теоретико-игровые модели информационного управления. - М.: ПМСОФТ, 2005.
10. ЭРРОУ К., СКАРФ Г., РОКАФЕЛЛАР Р. и др. Математическая экономика: Равновесные модели, оптимальное планирование и управление: Пер. с англ. - М.: Изд-во «Мир», 1974.
11. BARBERIS N., THALER R.H. A survey of behavioral finance // In “Handbook of the Economics of Finance”, Eds. G. Constantinides, M. Harris, R. Stulz. - Amsterdam: North-Holland. - 2003.
12. BARDSLEY N., MEHTA J., STARMER C., SUGDEN R. Explaining Focal Points: Cognitive Hierarchy Theory versus Team Reasoning // Discussion Papers. - No. 2008-17. - The Centre for Decision Research and Experimental Economics, School of Economics, University of Nottingham. - URL: http://econpapers.repec.org/RePEc:cdx:dpaper:2008-17.
13. BORCH K. Equilibrium in a Reinsurance Market // Economet-rica. - 1962. - No. 30. - P. 424-444.
14. CAMERER C.F., HO T.-H., CHONG J.-K. A Cognitive Hierarchy Theory of Games // Quarterly Journal of Economics. - 2004.
- No. 119(3). P. 861-898.
15. CONLISK J. Costly optimizers versus cheap imitators // Journal of Economic Behavior and Organization. - 1980. - No. 1. P.275-293.
16. COSTA-GOMES M.A., CRAWFORD V.P., IRIBERRI N.
Comparing Models of Strategic Thinking in Van Huyck, Bat-
talio, and Beil's Coordination Games // Journal of the European Economic Association. - 2009. - No. 7. - P. 377-387.
17. COURNOT A. Recherches sur les Principes Mathematiques de la Theorie des Richesses. - Paris: Hachette, 1838.
18. DE LONG J.B., SHLEIFER A., SUMMERS L., WALD-MANN R. Noise trader risk in financial markets // Journal of Political Economy. - 1990. - No. 98. - P. 703-738.
19. GALE D., ROSENTHAL R.W. Experimentation, imitation, and stochastic stability: Abbendum // Journal of Economic Theory. 2001. - No. 97. - P. 164-174.
20. GREENWALD B., STIGLITZ J.E. Externalities in economies with imperfect information and incomplete markets // Quarterly Journal of Economics. - 1986. - No. 101(2). - P. 229-264.
21. JACKSON M.O. Mechanism Theory // In Optimization and Operations Research, edited by Ulrich Derigs, in the Encyclopedia of Life Support Systems. - Oxford, UK: EOLSS Publishers, 2003.
22. KAHNEMAN D. Maps of Bounded Rationality: Psychology for Behavioral Economics // The American Economic Review. -2003. - Vol. 93, No. 5. - P. 1449-1475.
23. NASH J.F. Non-cooperative games // Ann. Math. - 1951. -Vol. 54. - P. 286-295.
24. SAKOVICS J. Games of incomplete information without common knowledge priors // Theory and decision. - 2001. -No. 50. - P. 347-366.
25. SAMUELSON P.A. Foundations of Economic Analysis. -Harvard University Press, 1947.
26. SCHIPPER B.C. Imitators and optimizers in Cournot oligopoly.
- University of Bonn, 2004.
27. SIMON H.A., EGIDI M., MARRIS R., VIALE R. Economics, bounded rationality, and cognitive revolution / Edited by M. Egidi and R. Marris. - Brookfield, VT: Edward Elgar, 1992.
28. STAHL D.O., WILSON P.W. Experimental evidence on players’ models of other players // Journal of Economic Behavior and Organization. - 1994. - Vol. 25. -P. 309-327.
29. STAHL D., WILSON P. On Players' Models of Other Players: Theory and Experimental Evidence // Games and Economic Behavior. - 1995. - No. 10. - P. 218-254.
CONTROL OF REFLEXIVE BEHAVIOR IN COURNOT OLIGOPOLY
Vsevolod Korepanov, Institute of Control Sciences of RAS, Moscow, post-graduate student (moskvo@yandex.ru).
Abstгaсt: The model of гeflexive behavioг of agents in Cournot oligopoly is ^nside^d. Agents aгє split into dasses of diffe^nt level of ^fle^ion, and behavioг of diffe^nt dasses essentially diffeгs. The game ouWome depends on the numbeг of agents in ea^ dass (on the distribution of agents by dasses). Possibility is ^n-side^d of manipulating the equilibrium pгiсe by hanging levels of agents’ ^fle^ion. Pmperiies of the optimal pгiсe-manipulation melanism aгє investigated; and obtained гєsults aгє disrnssed.
Keywords: Cournot oligopoly, reflexive behavior, market price manipulation.
Статья представлена к публикации членом редакционной коллегии Д. А. Новиковым