УДК 519 ББК 32.81
РЕШЕНИЕ ЗАДАЧИ ЭФФЕКТИВНОГО РАСПРЕДЕЛЕНИЯ РЕСУРСОВ НА ОСНОВЕ
МЕХАНИЗМА ГРОВСА-ЛЕЙДЯРДА ПРИ ТРАНСФЕРАБЕЛЬНОЙ ПОЛЕЗНОСТИ1
Коргин Н. А.2,
(ФГБУН Институт проблем управления им В. А. Трапезникова РАН, Москва, Московский физико-технический институт, Москва) Корепанов В. О. 3 (ФГБУН Институт проблем управления им В.А. Трапезникова РАН, Москва)
Решается задача разработки механизма распределения ограниченных ресурсов, эффективного в смысле максимизации суммарной полезности получателей ресурсов в условиях, когда возможна передача полезности между ними. В качестве решения предлагается адаптация механизма Гровса-Лейдярда, первоначально предложенного для решения задачи определения объема выпуска коллективного блага.
Ключевые слова: дизайн механизмов, реализация по Нэшу, распределение ресурсов.
1 Работа при поддержке РФФИ, грант № 12-07-3124412.
2 Николай Андреевич Коргин, кандидат технических наук, доцент ([email protected], Москва, ул. Профсоюзная, д. 65, тел. (495) 335-60-37).
3 Всеволод Олегович Корепанов, кандидат технических наук (Москва, ул. Профсоюзная, д. 65, тел. (495) 334-79-00).
1. Введение
Одной из ключевых проблем в теории управления в социальных и экономических системах является проблема минимизации потерь из-за отсутствия полной информации, необходимой для принятия управленческих решений. При этом специфика социально-экономических систем позволяет выделить отдельный класс задач - в которых необходимая информация для принятия решений недоступна лицу, принимающему решения, но доступна другим участникам системы, интересы которых затрагивают принимаемые решения - задачи принятия решений в условиях неполной асимметричной информированности [11]. Для данного класса задач исследуется возможность разработки механизмов, в которых лицо, принимающее решение, получает необходимую для этого информацию от остальных участников системы и которые позволяют получать эффективные решения, позволяющие достигать максимальной суммарной полезности всех участников системы .
В рамках современной теории разработки механизмов принятия решений в социально-экономических системах (mechanism design) можно выделить два класса задач: разработку механизмов в условиях нетрансферабельной полезности, когда передача полезности между участниками системы невозможна, и в условиях трансферабельной полезности - когда возможна передача полезности между участниками системы.
При этом классическим результатом, например [2, 27], является тот факт, что для первого класса задач за счет передачи информации от участников системы к ЛПР невозможно обеспечить ту же эффективность принятия решений, что и в условиях полной информированности ЛПР о необходимых параметрах системы. В то время как для второго класса задач это возможно - эффективность механизмов в условиях неполной асимметричной информированности может быть не ниже, чем в условиях полной информированности.
Исследования в области разработки эффективных механизмов для второго класса задач были начаты еще в семидесятых годах прошлого столетия [19, 21, 32]. Но все эти механизмы
имели определенные недостатки, затрудняющие их практическую реализацию.
В частности, механизм Гровса-Лейдярда [19] не гарантировал индивидуальной рациональности получаемого решения, так как оно не являлось равновесием Линдаля. Механизм Гурви-ча [21] использовал структуру сообщений от участников системы ЛПР, затрудняющее его практическую реализацию. Механизм Волкера [32] давал неустойчивое решение. Кроме того, эффективные решения в последних двух механизмах не могли быть достигнуты в рамках обучающей динамики, т.е. их реализация на практике была крайне затруднительна.
В данный момент наблюдается очередная волна интереса к данной проблеме: появился целый ряд новых публикаций, содержащих результаты теоретических исследований и имитационных экспериментов - см., например [12, 20, 28, 31]. В основном исследования сосредоточены на разработке механизмов, реализующих равновесие Линдаля при определении уровня производства коллективного блага. При этом общим недостатком большинства предлагаемых в данных работах механизмов являются:
1) сложные сообщения от участников системы к ЛПР;
2) несбалансированность побочных платежей при неравновесных заявках.
Задача распределения ограниченных ресурсов с помощью нерыночных механизмов при нетрансферабельной полезности рассматривалась как отечественными авторами, например [2, 10], так и зарубежными [13, 30]. При этом практическая актуальность разработки таких механизмов является актуальной и на данный момент [17, 26].
Публикации, посвященные построению эффективных механизмов распределения ресурсов при наличии трансферабель-ной полезности, в основном рассматривают эту задачу для моделей мультиагентных систем со сложной сетевой структурой. В первую очередь, исследуются так называемые «аукционные подходы» определения приоритетности потребителей (см., например [14]), в которых распределение ресурсов определяется на основе того, кто из претендентов назовет большую цену за единицу ресурса, по которой он готов компенсировать осталь-
ным претендентам то количество ресурса, которое они недополучают. Однако основной акцент в этих моделях делается на сложные процедуры распределения ресурсов на сетевых структурах [22, 24], а сами механизмы строятся на основе подходов к построению неманипулируемых механизмов (Викри-Гровса-Кларка) [23].
Исследования ведутся также в направлении построения «квази»-оптимальных механизмов, которые могут реализовы-вать почти оптимальное распределение ресурсов, например, [27].
Отдельным направлением следует выделить работы в области построения процедур распределенной оптимизации, где в последнее время были получены результаты, очень тесно пересекающиеся с теорией разработки механизмов [15]. Однако в настоящее время эти итеративные процедуры не представлены в форме механизмов, что не позволяет исследовать их теоретико-игровые свойства.
Наиболее близкой к предлагаемым авторами в данной статье подходу можно считать работу [20], в которой был предложен механизм, реализующий равновесие Вальраса при распределении индивидуальных благ. Но:
1) предложенное ими решение не позволяет учитывать ограниченность распределяемого ресурса;
2) механизм обладает все той же сложной структурой заявок, о которой уже упоминалось выше.
Нами предлагается развитие механизма Гровса-Лейдярда, предложенное в [8] для решения задачи активной экспертизы при трансферабельной полезности. В частности, было показано, что в рамках решения задачи активной экспертизы механизм Гровса-Лейдярда является индивидуально рациональным (что являлось, пожалуй, его ключевым недостатком при решении задач определения уровня коллективного блага). Данный механизм предполагается адаптировать для задачи распределения ресурсов, так как можно предположить, что механизм распределения ресурсов также будет реализовывать индивидуально-рациональные решения и можно будет обеспечить сбалансированность трансферов как в эффективном решении, так и вне его.
В основе адаптации лежит идея представления задачи распределения ресурсов как многокритериальной задачи активной экспертизы, целесообразность и продуктивность которой была продемонстрирована в [7] для задачи распределения ресурсов при нетрансферабельной полезности. Суть идеи очень проста: задачу распределения ресурсов предлагается трактовать не как задачу распределения индивидуальных благ, а как задачу многокритериального выбора, в которой каждый из агентов может сообщить, каким он хочет видеть значение многокритериального коллективного блага - распределения ресурсов между всеми агентами.
Структура дальнейшего изложения такова. В разделе 1 описываются формальная постановка задачи эффективного распределения ресурсов (максимизирующего сумму полезностей всех агентов) и модель, для которой ищется решение этой задачи. В разделе 2 описывается предлагаемый механизм распределения ресурсов на основе многокритериального голосования и доказывается, что он реализует эффективное распределение ресурсов между агентами. Раздел 3 посвящен описанию процесса итеративных переговоров на основе предлагаемого механизма, который предполагается применять в условиях, когда каждый агент может не обладать полной информацией о функциях полезности всех претендентов на ресурс. В разделе 4 исследуется построение «редуцированной» версии предложенного механизма, в которой каждый агент будет сообщать только то, сколько ресурса он хочет получить сам. Основные результаты статьи иллюстрируются примерами, базирующимися на одной постановке задачи распределения ресурсов, которая также лежит в основе описанной в разделе 5 деловой игры, предназначенной для экспериментальной апробации разработанного механизма. Кроме того, в разделе 5 приведены результаты нескольких пробных игр.
2. Постановка задачи и основные определения
Формально, задача распределения ресурсов записывается следующим образом. Организационная система состоит из одного центра и множества N = {1, ..., п} агентов. У центра
имеются ресурсы в ограниченном количестве - R еМ'+, которые могут быть распределены между агентами в любой пропорции.
Полезность каждого агента i е N относительно количества выделяемых ему ресурсов хг е [0, i?] определяется функцией м. (•): <\ —» Ж1, принадлежащей некоторому множеству допустимых функций полезности Ut.
Обозначим множество допустимых распределений ресурса
как
А = {х=(х1,...,хп):"£х1<Я,хеЩ},
ieN
множество возможных профилей полезности агентов как U = {u = (ui (.),...,ык (.)): u(.) е U,i е N}.
«Базовая» задача заключается в нахождении такого отображения g(»):U ^ A, которое является утилитарно эффективным, т.е. максимизирует суммарную полезность всех агентов от распределенного ресурса для любого из возможных профилей полезности u eU : (1) g(u) e Arg max ^u (xt).
xeA ieN
Однако даже если решение (1) существует, может оказаться, что оно манипулируемо [11] (или несовместимо со стимулами, например [27]). То есть 3ueU иЗksN что найдется профиль полезности ü = (ük,u к) е U такой, что
uk{gk{ü))>uk{gk{u)\ где u t - профиль полезности всех агентов за исключением k; u = (uk, u_k), а gt (u) gk (u) - количество ресурса, выделяемое агенту к при профиле полезности и. В рамках данной статьи будем рассматривать следующее множество профилей полезности U:
1) функция полезности любого агента строго вогнута, не убывает и дважды непрерывно дифференцируема;
2) Vm е U решение задачи (1) является внутренним.
Очевидно, что в рамках данных предположений решение
задачи (1) будет существовать и будет единственным, что позволит сосредоточиться на проблеме совместимости со стимулами. В качестве иллюстрации рассмотрим следующий пример.
Пример 1. Пусть полезность каждого из агентов описывается функцией вида1
(2) и1 (х) = , г е N,
где г - собственные «резервы» агента i, известные лишь ему. Максимум суммарной полезности всех агентов будет достигаться при выделении каждому агенту ресурса в количестве
х = (Я + ^ г)/ п ~ Г, г е N.
iеN
То есть для решения задачи (1) от агента необходимо получить информацию о значении г. Очевидно, что если агента спросить о значении г , то ему будет выгодно не сообщать правду, а занизить сообщаемое значение. Что и означает, что полученное правило эффективного распределения ресурсов несовместимо со стимулами агентам достоверно раскрывать информацию о своей функции полезности. ■
Будем называть механизмом набор р =< £, л, t >, где £ = х ,еЛ, S¡ - некоторое множество допустимых действий агентов; л(•): £ ^ А - некоторая процедура, отображающая действия агентов в множество допустимых распределений ресурсов; /(•): Л' —> - некоторая процедура трансфера полезностей агентов. Обозначим Г(р) =< N,£,Фир> - игру, индуцированную механизмом, где фир = [ф,---,фп} - профиль предпочтений агентов, определяемый на основе их профиля полезности и еи и процедур л(•) и t(•) :
% = и1 (л(5)) - ti ОХ г е N.
В рамках данной статьи рассматривается следующая постановка задачи распределения ресурсов: возможно ли найти механизм, который позволит реализовать по Нэшу эффективное распределение ресурсов в случае, если решение задачи (1)
1 Выбор постановки задачи распределения ресурсов, которая используется для иллюстрации основных результатов статьи - числа агентов, вида и параметров функций полезности агентов и параметров механизма, будет объяснен в разделе 6, где описывается постановка деловой игры, разработанной для экспериментальной апробации разработанного механизма.
2 Здесь и далее будем подобным образом обозначать конец примеров. 222
несовместимо со стимулами - т.е. Уы е и в игре будет единственное равновесие Нэша 5*(м) е 5":
V/ £ Ж, £ такое, что л (5* (ы)) = ^ (ы).
Кроме того, сам механизм можно считать эффективным, только если (5*(ы)) = Хы (§(ы)). Что подразумевает сба-
еи ¡еИ
лансированность платежей: Xt¡ (5* (ы)) = 0.
¡еИ
3. Применение механизма Гровса-Лейдярда для решения задачи распределения ресурсов
Рассмотрим механизм р=< Б,л,t >. Каждый агент г е N сообщает, каким он видит распределение ресурсов в системе, причем от любого из агентов он может потребовать «пополнить» ресурс. Требуется лишь, чтобы предлагаемое распределение удовлетворяло первоначальному ресурсному ограничению:
jeN
где 5 - заявка агента i о том, какое количество ресурса он считает нужным выделить агенту
Процедура ж(5) = (5),...,хи(5)}, определяющее распределение ресурсов, усредняет заявки всех агентов: 1 п
(3) х, (5) = -X 5,, г е N.
Трансферы агентов определяются следующим образом. С каждого из агентов взимается штраф за «разногласие», определяемый следующим образом:
п
(4) р, (5) = р£ (X (5) - 5,, )2, г е N.
,=1
Параметр р > 0 можно трактовать как силу штрафов. Часть а е [0,1] всех собранных штрафов возвращается агентам -делится поровну между ними, поэтому полный трансфер записывается следующим образом:
Управление большими системами. Выпуск 46 а п
(5) х, (х) = р, (х) —X Р! (х), 1 е N, "7=1
Нераспределенная часть штрафов «сжигается» (или остается у лица, распределяющего ресурс).
Параметр о удобно трактовать как балансировочный коэффициент, так как при а = 1 трансферы всегда сбалансированы:
п
е 5 X X (5) = 0.
¿=1
Кроме того, при а = 1 механизм можно трактовать как «квадратичное правило» Гровса-Лейдярда [12, 19], применяемое к п задач определения объема производства коллективного блага при отсутствии затрат на производство этих коллективных благ и наличии ограничения на суммарный объем производства (X X — ^), связывающий эти задачи1.
¿еN
Наличие совместных ограничений не позволяет сразу утверждать о применимости результатов, полученных при исследовании «квадратичного правила» Гровса-Лейдярда для рассматриваемой нами задачи, и требует дальнейших теоретических исследований.
Опишем некоторые очевидные, но полезные для дальнейшего исследования свойства данного механизма и индуцированной им игры с функциями предпочтений агентов
ФЛ^ = и (^(ХО - ОХ 1 е N.
Обозначим . е . - обстановку для агента 1 е N, = х SJ.. Обозначим Ьг (^.) е 5 - функцию наилучшего ответа агента:
ЬГ О-) е АгЕ тах ф О.,).
Тогда можно записать следующее утверждение:
1 В Приложении к статье приведено пояснение данного утверждения. 224
Лемма 1. Пусть п>а +1. Тогда VueU, V/'eTV, Vs_; е функция предпочтения р (s, s_;) вогнута и 3!br (s = arg maxp (s;, s_,-).
Доказательство леммы 1 и других утверждений приведены в Приложении.
Так как в исследуемой игре множества ,S'; - выпуклые подмножества Xя, а функции q>.(si,s_i) в соответствии с леммой 1 вогнуты по s. и, по построению, непрерывны по s_., то в этой игре существуют равновесия по Нэшу, см., например, [4].
Важным следствием из леммы 1 является тот факт, что при n = 2 принудительная балансировка трансферов невозможна, так как допустимы только значения а < 1. Кроме того, если исследовать зависимость br (s_.) от параметров а и ß , которую будем обозначать как br(s_.,a,ß), то V/'eTV, \/s_. е 5"_. br{s_na,ß) = br{s_t, 0, /?), где
ß = ßn-^. n-1
Иными словами, функции наилучших ответов агентов для механизма с параметрами а и ß эквивалентны функциям наилучших ответов для механизма с параметрами ä = О и ß . при которых трансферы (5) агентов определяются более простой формулой:
п
ti{S)=ßY+xj{S)-Sj$.
j=1
Обозначим х= —1— X sjk - количество ресурса, кото-
n — 1 keN\{i}
рое предлагают выделить агенту j е N все агенты за исключением агента i е N. Очевидно, что если агент i согласится с «мнением» остального «общества» относительно выделяемого агенту j ресурса, т.е. s = х п то в соответствии с процедурой л(s) получится, что х = х._г
Обозначим Vi, j е N Д.. = br..(s . ) - х ,
J1 Ji i J 1
A = max{0; Д.. + X х-_,- — R}. С учетом введенных обозначений,
функции наилучшего ответа Ъг (5 ;) = (Ъг (5 ; )} .еЛГ, г е N, определяются следующим утверждением.
Лемма 2. Пусть п>а +1. Тогда У и е и, V/ е Ж, У5_1 е Дй определяется из решения уравнения1
(6) и;(-Аа + х= 2р — «п - 1)Д,, + А),
) п
а У, е N \(,} Д.. = А /(1 - п).
Определив функции наилучших ответов агентов с помощью леммы 2, можно осуществить поиск равновесных по Нэшу сообщений агентов как неподвижных точек отображения
БВД = (Ъг (5-, )},еN : Б ^ Б.
Кроме того, лемма 2 формально обосновывает следующее рациональное поведение агентов в индуцированной игре. Если агенту целесообразно просить для себя большее количество ресурса, чем ему предлагает общество, то возникающий от этого «дефицит» в рамках своей заявки агенту оптимально устранять, уменьшая предлагаемые обществом остальным агентам заявки на одинаковую величину - У, е N \(,} Д = Д.. / (1 - п). При этом, если в соответствии с заявками остальных агентов, необходимо распределять весь ресурс ( X х,= Я ), уравнение (6)
jеN
приобретает следующий вид:
(7) =
и Д,, = Дй /(1 - п), , е N \ (,}.
Ведем обозначение Д = X 5* - Я, которое можно интерпре-
iеN
тировать как «дефицит» ресурса в системе - разницу между суммой того, что каждый агент просит выделить себе, и доступ-
1 ы '(•) обозначает частную производную ы1 (•) по х., ы"(«) - вторую частную производную по х..
ным количеством ресурса. Через u't 1(«) обозначим функцию, обратную к и'(»).
Утверждение 1. VueU, Va е [0,min(l,w-1)], \f ß > 0 виг-ре Г(р) существует единственное равновесие Нэша s* е S, такое что
л( s*) = arg max ^ U (X )•
xeA ieN
w
При этом s и ж(s*) связаны следующими соотношениями: , . Д
Vi е N x (s ) = s.--,
n
Vj е N \{i} x. (s*) = st. + ■ A
п (п -1)
где Д является единственным решением уравнения
(8) ХМГ1(2АА) = Я.
iеN
Таким образом, утверждение 1 показывает, что исследуемый нами механизм р обеспечивает решение задачи (1) как равновесие Нэша в индуцированной им игре агентов Г(р), которое единственно, и дает понимание того, как связаны равновесные заявки агентов с параметрами механизма и решением задачи (1).
Из утверждения 1 можно получить следующие свойства предложенного механизма. В первую очередь, определим трансферы агентов (5) в равновесии:
(9) /еЖ п(п -1)
Из (9) очевидным образом следует, что трансферы всех агентов при любых значениях параметров механизма одинаковы. А в сбалансированном механизме (а = 1) в равновесии трансферы отсутствуют. Это можно трактовать следующим образом: механизм р позволяет использовать трансферы как «угрозу», без необходимости их осуществления при достижении эффективного распределения ресурсов. Более того, один из основных недостатков механизма Гровса-Лейдярда при применении его в задаче определения уровня производства коллективного блага состоял в том, что решение могло оказаться инди-
видуально нерациональным для отдельных агентов (см., например [19]). Отсутствие трансферов в случае применения сбалансированного механизма к рассматриваемой нами задаче означает, что если оптимальное распределение ресурсов является индивидуально рациональным, то и решение игры будет индивидуально рациональным для всех агентов.
Однако обеспечить максимум суммарной полезности агентов при применении механизма можно только при а = 11.
n
Следствие 1. Уие17 ^t¡(s") = 0 тогда и только тогда,
¿=1
когда а = 1.
Любопытным является также тот факт, что в несбалансированном механизме (при а < 1) итоговый трансфер для каждого агента уменьшается с ростом силы штрафов, так как (9) можно записать как
t¿(О = f"а) п<(x,(/)),
рп(п - а-1)
откуда видно, что для заданных N, и <eU и R размеры трансферов зависят только от а и ¡3 . Причем они обратно пропорциональны последнему параметру - силе штрафов. То есть, увеличивая силу штрафов, трансферы агентов также можно сделать сколь угодно малыми.
Таким образом, предложенный механизм позволяет реализовать эффективное распределение ресурсов, как единственное равновесие Нэша, и при сбалансированных платежах является эффективным.
Проиллюстрируем предложенный механизм на решении задачи распределения ресурсов из примера 1.
Пример 2. Пусть 3 агента претендуют на ограниченный ресурс, доступный в количестве R = 115. Полезность каждого из агентов описывается функцией (2). Собственные резервы агентов заданы набором г={1;9;25}, где r - резервы агента i, известные лишь ему.
1 Если отказаться от требования возрастания функций полезности агентов, то платежи могут оказаться сбалансированными при а < 1, если решение задачи (1) будет внутренним.
В этом случае эффективным будет распределение х={49;41;25}, а полезность любого из агентов будет примерно 7,07.
Если применить предложенный механизм с параметрами а = 1, ¡3 = 0,0005, то в индуцированной им игре агентов равновесными будут следующие заявки (с точностью до второго знака после запятой):
= {96,14; 17,43; 1,43},
^ = {25,43; 88,14; 1,43},
^ = {25,43; 17,43; 72,14}.
Усреднение этих заявок для каждого из агентов дает эффективное распределение ресурса х={49;41;25}. То есть каждый из агентов просит себе примерно на 47,14 большее количество ресурса, чем получает, занижая свои заявки для остальных на 23,57.
В соответствии с (4), штраф за разногласие для любого из агентов составят р. «1,67, г е{1;2;3}. Поэтому трансферы очевидным образом равны 0 и сбалансированы.
Увеличение силы штрафов в два раза (3 = 0,001) приведет к уменьшению «разногласий» в два раза - каждый агент будет просить себе примерно на 23,57 большее количество ресурса, чем получает, занижая свои заявки для остальных на 11,785:
^ = {72,57; 29,215; 13,215},
^ = {37,215; 64,57; 13,215},
^ = {37,215; 29,215; 48,57}.
Очевидно, что распределение ресурсов будет также оптимальным - х = {49; 41; 25}. А штрафы за разногласие также уменьшатся вдвое - р ~ 0,83 V/ е {1;2;3}. Трансферы агентов, опять же, будут равны 0 и останутся сбалансированными.
Если же оставить силу штрафов 3 = 0,0005, но «отменить» полностью балансировку - а = 0, то заявки агентов будут в точности совпадать с описанными в предыдущем абзаце. Не изменятся и штрафы за разногласие, но трансферы агентов уже не будут сбалансированными - = р. « 0,83 V/ е {1;2;3}. Суммарная полезность агентов уменьшится на 2,5. ■
4. Исследование сходимости процесса итеративных переговоров на основе предложенного механизма
Реализация равновесия Нэша требует от агентов полной информированности о параметрах индуцированной механизмом игры, что крайне редко встречается в практических задачах распределения ресурсов. Исследуем возможность применения механизма в условиях, когда каждый агент может знать только свою функцию полезности, доступное количество ресурса, общее число агентов и механизм. Для определения распределения ресурсов между ними используется следующий итеративный процесс переговоров Iр на основе предложенного механизма р=< 5,п,г >:
X(г) = ж(я(г)), р (г) = и. (х(т)) - г где s(т) = (5(г),...,5И(г)) е 5 - сообщения агентов на итерации г > 1. Процесс переговоров продолжается до такой итерации Т, на которой агенты перестанут менять свои заявки: s(T -1) = s(T).
Для ответа на вопрос, может ли сойтись данный процесс к эффективному распределению за конечное число итераций, необходимо сделать предположения о том, как принимает решения о свей заявке каждый из агентов на каждой из итераций процесса и исследовать его свойства, как свойства дискретного динамического процесса. Примером простейшей гипотезы о принятии решений агентами является динамика Курно, в рамках которой каждый агент выбирает свое действие как наилучший ответ на действия всех остальных агентов на предыдущей итерации, см., например [12, 28]: (г) = Ьг (г -1)).
Обозначим Ц (г)| = X 5. (г).
jеN
Лемма 3. Если для некоторого г > 1 5(г) е 5 таково, что
(г)) < Я, то при поведении агентов в соответствии с
динамикой Курно (г +1)) >|^(5(г)). Если же (г)) = Я, то и (г +1)) = Я.
То есть если в рамках динамики Курно 5 (г) обеспечивает не полное распределение ресурса, то 5(г +1) = Ъг(5(г)) будет увеличивать количество распределяемого ресурса. Если же 5 (г) распределяет ресурсы полностью, то 5(г + 1) = Ъг(5(г)) также будет распределять ресурсы полностью.
_ Проведем анализ итеративного процесса в области Б = {5 е Б : V/ е | = Я} . По сути, необходимо проверить, является ли равновесие Нэша притягивающей неподвижной точкой отображения БЯ(•) (см., например [1]):
V{5,5'} е Б2 ё(5,5') > ё(БЩ(5),БЩ(5')),
где ё(5,5') - расстояние в Б (может быть выбрана произвольная метрика).
Соответственно, если механизм порождает игру, в которой отображение НЯ(») сжимающее для некоторого и е I/. то он также называется сжимающим для данного м е ¿7 [20, 31]. Если механизм является сжимающим, то для целого ряда гипотез поведения агентов, включая динамику Курно, итеративный процесс при заданном профиле полезностей м е ¿7 будет сходиться к 5 * (и). В случае нашего механизма ситуация немного сложнее. Обозначим БЯ2(«) = БЯ(БЯ(•)): Б ^ Б - «двойное отображение», построенное на основе ВЯ(•).
Лемма 4. Уи е17, такого, что \/5 е Б существует конечная С е К'+ : тах(-м/'(х.(5)) < С, то найдутся такие
1 V
¡3 > — тах(-м/'(х.(5)), при которых ВЯ2(•) является сжима-
2п '<=-м
ющим отображением.
Так как отображение БЯ2(«) сжимающее, то оно имеет единственную неподвижную точку. Очевидно, что неподвижная точка отображения БЯ (•), которую мы нашли ранее, будет также и неподвижной точкой отображения БЯ2(«). Поэтому можно сформулировать следующее утверждение.
Утверждение 2. Эффективное распределение ресурса реализуется в итеративном процессе 1р для любого профиля
предпочтений из II, такого, что существует конечная
С ё 1'+ : тах(-м/' (х. (5)) < С, а агенты действуют по динамике
1 V
К сожалению, результаты по стратегиям поведения агентов, отличным от динамики Курно [9, 12, 28], требует дополнительной проверки для рассматриваемого механизма, так как механизм не является сжимающим в классическом определении. Однако результаты, полученные для динамики Курно, имеют самостоятельную ценность, потому что именно подобная динамика реализуется в алгоритмах распределенной оптимизации в мультиагентных системах по типу [15]. Исследуемый нами механизм может быть применен для решения аналогичных задач.
Кроме того, открытым остается вопрос о скорости сходимости итеративного процесса к равновесию Нэша. Из доказательства леммы 4 следует, что делать р очень большой не целесообразно: в этом случае в итеративном процессе переговоров агенты будут стремиться минимизировать значения штрафов -процесс будет достаточно быстро сходиться к среднему арифметическому стартовых заявок агентов, затем медленно двигаться в сторону эффективного распределения.
Проиллюстрируем полученные в данном разделе результаты на нескольких примерах.
Пример 3. Действие механизма при поведении агентов в соответствии с динамикой Курно.
Рассмотрим постановку задачи распределения из примера 1, взяв параметры механизма, рассмотренные в примере 2: а = 1, Р = 0,0005 . Как видно из примеров 1 и 2, при данных параметрах штрафы за разногласие в равновесии («1,67 ) в некотором смысле «сопоставимы» с той полезностью, которую получает любой из агентов при эффективном распределении ресурсов -« 7,07 . Рис. 1 демонстрирует динамику выигрышей (который могли бы получить агенты, если бы переговоры закончились бы на этой итерации) и заявок агентов (про количество ресурса для агента 1) в случае, если на первой итерации каждый агент попросил отдать весь ресурс ему.
Параметры а= 1, Р =_0,0005 удовлетворяют условию леммы 4 той части области 5 , где любой из агентов получает не менее 31 - г единицы ресурса.
Начиная с итерации 8, получаемый каждым агентом ресурс отличается от оптимального не более чем на 1. Оптимальное
распределение достигается только на 39-й итерации. На любой итерации после 39-й агенты не меняют своих заявок. ■
Рис. 1. Выигрыши агентов и их заявки про ресурс для агента 1
Динамика Курно, как уже было сказано выше, одна из базовых моделей принятия решений. И если для искусственных мультиагентных систем данная динамика может быть «запрограммирована» априори [15], то принятие решений реальными людьми крайне редко может быть описано в рамках данной динамики [17]. Более того, ожидать, что рациональный субъект может следовать данной модели принятия решений можно лишь в том случае, если она будет увеличивать его выигрыш.
Приведем пример модели поведения рационального поведения агентов, в которой эффективное распределение ресурсов не может быть достигнуто в процессе итеративных переговоров.
Пример 4. Отказ агентов от динамики Курно.
Если в модели, использованной в предыдущих примерах, ресурс между агентами делится поровну, то агент 3 (г3 = 25 ) получает полезность « 7,95, т.е. больше, чем при эффективном распределении ресурса - « 7,07. Агенты 1 (г = 1) и 2 (г2 = 9 ) получают при этом меньшую полезность, чем при эффективном распределении ресурсов. То есть агент 3 предпочел бы, чтобы ресурс делился поровну по эффективному распределению, в то время как агенты 1 и 2 - наоборот.
Рассмотрим динамику заявок агентов, полученную в примере 3, в которой на первой итерации каждый агент попросил отдать весь ресурс себе. Из (3) следует, что в этом случае ресурс между ними будет поделен поровну, а из (5) - что трансфер каждого агента будет равен 0. Поэтому выигрыш каждого из агентов будет в точности равен полезности от полученного ресурса.
Если агент 3 действует по динамике Курно, выбирая на каждой итерации свою заявку, как наилучший ответ на обстановку на предыдущей итерации, то его выигрыш в игре (полезность минус трансферы) будет уменьшаться с каждой итерацией, за исключением первой (см рис. 1). Более того, выигрыш, который он может ожидать, выбирая наилучший ответ, будет всегда меньше, чем тот, который реализуется на соответствующей итерации. В отличие от двух других агентов, чьи выигрыши будут возрастать.
Вот почему у агента 3 может возникнуть мотивация отказаться следовать динамике Курно как стратегии своего поведе-
ния. В частности, он может не уменьшать то количество ресурса, которое он просит себе, все время требуя отдать весь ресурс ему.
На рис. 2 приведены графики изменения выигрышей агентов и ресурса, который будет получать агент 1 для случая, если агент 3 решил не менять заявку 533 = Я на всех итерациях, но минимизирует свой трансфер за счет выбора заявок 513 и 523 в соответствии с динамикой Курно.
Агенты 1 и 2 действуют в соответствии с динамикой Курно до 10-й итерации. На второй итерации выигрыш агента 3 значительно уменьшается, а выигрыши агентов 1 и 2 растут. Но, начиная с 3-й итерации и вплоть до 15-й, выигрыши агентов 1 и 2 оказываются меньше, чем на итерации 1. Более того, начиная с 13-й итерации заявки агентов 1 и 2 оказываются «равновесными» в том смысле, что каждому из них невыгодно от них отклоняться, при условии, что агент 3 не будет менять свою заявку1. Для агента 3 сообщение 533 = Я не является компонентой его наилучшего ответа на всех итерациях вплоть до 14-й: Я ф Ътъъ (т -1)).
На 15-й итерации агент 2 отказывается от модели поведения по динамике Курно. Мотивацией данного отказа может служить тот факт, что выигрыш его все время убывал, в отличие от агента 1, чей выигрыш пускай и незначительно, но возрастал. А, как было упомянуто выше, после 13 -й итерации заявки агентов перестали меняться. Поэтому на 15-й итерации агент 2 меняет свою заявку про тот ресурс, который он просит себе на стартовую - 522 (15) = Я . И далее не меняет 522, выбирая в соответствии с динамикой Курно лишь компоненты заявки 512 и 532, минимизируя свой трансфер. На итерации 15 он несколько теряет в выигрыше, но начиная с 16-й итерации и далее агент 2 получает больший выигрыш, чем при выборе им стратегии наилучших ответов на ранних итерациях.
Начиная с итерации 15, только агент 1 выбирает свою заявку как наилучший ответ на заявки оппонентов. При этом агенты 2 и 3 просят для него отрицательное количество ресурса, минимизируя свои трансферы.
1 При моделировании с точностью 10 3.
Рис. 2. Выигрыши агентов и их заявки про ресурс для агента 1 при последовательном отказе агентов следовать динамике
Курно
Но, начиная с 20-й итерации тот ресурс, что агент 1 может получить, как и его наилучший ответ, перестают сильно менять-
ся, а его выигрыш оказывается « 4,85. Начиная с 23-й итерации в рамках рассматриваемой нами точностью агент 1 не может улучшить свой выигрыш, меняя свои заявки в рамках динамики Курно. Если агент 1 откажется следовать динамике Курно, то он может увеличить свой выигрыш. В нашем примере на итерации 25 он перестает следовать наилучшим ответам и просит отдать весь ресурс себе. И далее не меняет , выбирая в соответствии с динамикой Курно лишь компоненты заявки 521 и 531, минимизируя свой трансфер. В этом случае, если все агенты не меняют заявки про ресурс для себя, но выбирают заявки про остальных, минимизируя свой трансфер, то начиная с итерации 34 заявки, выигрыши всех агентов и выделяемый им ресурс оказываются такими же, как и на первой итерации.
На всех итерациях, кроме 2-й, выигрыш агента 3 оказывается больше, чем при эффективном распределении ресурсов, поэтому выбранная им стратегия может считаться рациональной (точнее ограниченно рациональной). При этом эту стратегию поведения можно охарактеризовать, как «несговорчивую».
Суммарный выигрыш агентов меньше максимального, что естественно. ■
Действуя в рамках «робастного» подхода, можно утверждать, что пример 4 иллюстрирует тот факт, что итеративный переговорный процесс не гарантирует эффективного распределения ресурсов при достаточно рациональных гипотезах поведения агентов.
5. Уменьшение размерности пространства сообщений агентов
Предлагаемый механизм требует от агентов сообщения полного вектора распределения ресурсов. Что может быть затруднительным на практике, особенно если число агентов велико. Кроме того, агенты могут использовать возможность сообщать полный вектор для кооперации друг с другом, сообщая скоординированную заявку. В частности, возможны ситуации, в которых сообщество разделяется на две группы. Тогда их взаимодействие можно рассматривать как игру двух агентов, что при сбалансированных платежах может не позволить реализовать эффективное распределение, так как в этом случае окажет-
ся, что р = 0 и у двух групп будут отсутствовать стимулы договариваться. Поэтому целесообразным представляется исследование возможности исключения кооперации между агентами за счет координации своих заявок.
Полученные в разделе 3 результаты по виду функций наилучших ответов агентов мотивируют исследовать возможность построения модификации исследуемого механизма, в которой каждый агент будет сообщать лишь то, сколько ресурса хочет получить лично он - р =< Б, л, I >, где Si с №.
Сохраним обозначение заявки агента , / е /V .
Из утверждения 1 следует, что в равновесии каждый агент по процедуре л : К" —> X должен получать ресурс в количестве
у*..-я
(10) X. = ^ - ^-.
' " п
Предположим, что таким же образом ресурс будет распределяться для всех возможных заявок агентов, таких что У 5 . - Я > 0. В случае отсутствия дефицита каждый агент будет
получать, сколько просит: V е N х. = 5...
С каждого агента будем брать платеж ? = ¡3(я . - х )2. Очевидно, что платежи всех агентов будут одинаковы, поэтому балансировка платежей недопустима - в противном случае реальный платеж каждого агента всегда будет нулевым. Справедливы следующее утверждения.
Лемма 5. Механизм ¡3 =< Б, Л, ? > реализует эффективное распределение ресурсов как единственное равновесие Нэша в индуцированной им игре агентов Г(р).
Лемма 5 позволяет сформулировать утверждение об эквивалентности между механизмами ¡=< Б, л, ? > и ¡3 =< Б, л, t > . Эквивалентными считаются механизмы (распределения ресурсов), которые для любого профиля предпочтений агентов реализуют одинаковое распределение ресурсов.
Утверждение 3. Пусть механизм ¡=< Б, л, ? > задан параметрами 3 > 0, а < 1. Механизм ¡3 =< Б, Л,t >, в котором
3 = 3 :
п (п -1)
1) эквивалентен механизму р=< Б,ж,? >;
2) равновесные заявки агентов в механизме р =< Б, ж, ? > совпадают с равновесными заявками про собственный ресурс в механизме р =< Б, ж, ? >.
Таким образом, для отдельных параметров механизма р =< Б, ж, ? > оказывается возможным построение эквивалентного ему механизма р =< Б, ж, ? >, в котором все агенты сообщают только заявку на ресурс для себя. Однако балансировка этого механизма невозможна, поэтому, в отличие от механизма р =< Б, ж,? >, его нельзя считать эффективным. Но для него справедлива аналогичная зависимость абсолютных платежей агентов от силы штрафов:
А (Г) = ^ '((П).
р дх
То есть имеется возможность сделать платежи агентов сколь угодно малыми, что позволяет трактовать его, по аналогии с [29], как почти эффективный.
Однако из-за ненулевых платежей в механизме р =< Б, ж, ? > нельзя гарантировать, что будет обеспечена индивидуальная рациональность решения для всех агентов.
В тоже время на основе итеративного процесса переговоров Iр можно предложить «редуцированный» итеративный процесс переговоров 1р, в котором на каждом итерации у агентов спрашиваются только их заявки про ресурс для себя - (т), ; е N. Причем V; е N (1) < Я. При этом заявки агента о том, какое количество ресурса следует выделять каждому из остальных агентов, определяются следующим образом.
На первой итерации, если поданные заявки агентов не могут быть удовлетворены, то считается, что агент предлагает весь оставшийся после удовлетворения его заявки ресурс поделить поровну между остальными агентами. То есть если
X (1) > Я,
iеN
то V; е N, Vj е N \ {;} 5.. (1) = .
п -1
Если в системе нет дефицита ресурсов, то считается, что все агенты согласны с поданными заявками. То есть при
У *„ (1) ^ Я
iеN
V е N , У/ е N \{'} (1) = ^ (1) .
Для любой итерации т > 1 для каждого из агентов его заявки про количество ресурса для каждого из остальных агентов рассчитываются как его наилучший ответ в игре Г(р) на обстановку на предыдущей итерации: У/ е N \ {'} 5 (т) = Ьг (т -1)), предполагая, что
К(5-'(т-1)) = (т).
То есть при
5'' (т) + У XJ(т- 1) < Я
/еN\{'}
5/ (т) = х/- (т- 1). Иначе
5.. (т) = X (т-1)--— А ,
/' /-' „ 1 ' п -1
где А = + У х - Я .
' '' ' ' / -' \{'-}
В рамках данного итеративного процесса переговоров динамика Курно подразумевает, что каждый агент будет выбирать свою заявку на каждой итерации как решение уравнения (6), беря в качестве обстановки заявки всех агентов про количество ресурса для него £,_,(т -1).
Очевидно, что если итеративный процесс Iр обеспечивает сходимость к равновесию Нэша в игре Г(р) в предположении, что агенты действует в соответствии с динамикой Курно, то и Iр также обеспечит сходимость к этому равновесию.
Предлагаемый итеративный процесс Iр исключает возможность кооперации агентов путем координации заявок, так как каждый агент может выбирать заявку «про себя», а механизм будет перераспределять создаваемый этой заявкой дефицит поровну между всеми другими агентами. Но он остается уязвимым к поведению, иллюстрируемому рис. 2 - когда некоторые агенты (или все) не действуют по динамике Курно. Более того, для ситуации, рассмотренной в примере 4, для агента 3 не существует угрозы кооперации агентов 1 и 2.
6. Экспериментальная апробация
Для экспериментальной апробации полученных теоретических результатов и результатов компьютерного моделирования была разработана деловая игра и информационная система для ее проведения на основе программы zTree [16].
В данном разделе описывается серия игр, проведённая с целью проверки предлагаемого механизма р в максимально свободных условиях и с различными участниками:
- в системе были реализованы одновременно оба итеративных процесса переговоров Iр и Iр, игроки могли свободно выбирать между ними в процессе игры.
- игрокам не запрещалось общаться в реальности во время проведения экспериментов (игр).
Игрокам предлагалась следующая ситуация, приближенная к реальности: игроки-студенты делят между собой время на консультацию у преподавателя; выигрыш каждого игрока является оценкой за экзамен и монотонно зависит от полученного времени консультации, определяясь функцией (2), где тип /-го игрока г определял его начальные «знания», известные лишь ему.
Параметры игры подбирались таким образом, чтобы выигрыш каждого игрока в Парето-оптимуме составлял примерно 7 баллов по десятибалльной системе (4 по пятибалльной). Для получения большего балла (оценки отлично) игроку нужно было «выторговать» большее количество ресурсов, чем в оптимальном распределении.
Порядок проведения игр был следующий:
1. Теоретическое объяснение игры и применяемого механизма распределения ресурса.
2. Обучающая игра с возможностью обсудить с ведущим непонятную ситуацию.
3. Серия реальных игр;
4. Объявление результатов.
Организаторы игры разбивали имеющийся коллектив на группы (по 3 или по 5 человек), каждая группа играла свою игру. Если коллектив мог быть разбит на несколько групп, то
перед каждой следующей игрой разбиение коллектива на группы изменялось случайно. Номера (и соответственно типы) игрокам назначались случайно перед каждой игрой и в течение одной игры не менялись. Таким образом, если человек играл в нескольких играх, его тип мог меняться от игры к игре.
Среди участников игр были студенты МФТИ (факультеты РТК и ИБС) и сотрудники ИПУ РАН, при этом игры проводились по отдельности: со студентами ФРТК МФТИ (бакалавриат), со студентами ФИБС МФТИ (магистратура) и с сотрудниками ИПУ РАН.
Игрокам также раздавались распечатанные инструкции к игре и к информационной системе проведения игры. Полный текст инструкции игры доступен по адресу http://www.mtas.ru/games/gl.
Исходной, «Базовой», являлась игра, описанная в примере 2: число игроков п = 3 , распределяемое время консультаций Я = 115 , собственные знания (типы агентов) принадлежат набору г = {1; 9; 25} , причём каждый тип может принадлежать только одному игроку. Параметры механизма а = 1 и р = 0,0005 были выбраны по следующим соображениям. Во-первых, штрафы игроков в равновесии (« 1,67 , см. пример 2) были сопоставимы с той полезностью, которую получают игроки получают при оптимальном распределении ресурсов (« 7,07 , см. пример 2). Во-вторых, данные параметры механизма удовлетворяют требованиям утверждения 2 в значительной области возможных значений вектора распределения ресурсов - см. пример 3.
Каждый игрок знал все перечисленные выше параметры, но не знал, какими именно типами из набора обладают другие игроки. Кроме того, априори игрокам не было известно, кто именно из других участников эксперимента играет с ним в одной игре. Однако с учетом того, что общение между участниками игр не ограничивалось, данную информацию игроки могли получить в ходе игры.
Игра (в группе) заканчивалась, если все игроки перестали менять свои заявки или было достигнуто 100 итераций (т < 100, игра заканчивается после совершения 100-й итерации). При этом выигрыш игрока определяется как его выигрыш в игре на последней итерации.
Хотя динамика Курно не приводит игроков к ситуации выдачи кому-либо отрицательного ресурса, в реальной ситуации нельзя исключить такой возможности, поэтому была реализована система штрафов, при которой сильно (10 000 баллов) штрафуется игрок, получивший отрицательное количество ресурса и тот игрок, заявка которого оказала решающее влияние на это.
На каждой итерации игрок мог выбирать между действием по I р, определяя самостоятельно все компоненты своей заявки (полный вектор распределения ресурсов) или по I р, определяя лишь компоненту заявки про собственный ресурс, делегируя системе выбор других компонент заявки.
Кроме «Базовой» игры в эксперименте использовались следующие ее модификации:
1. «5 игроков», в которой г = {1;9;25;1;9} и Я = 205 .
2. «Без балансировки»: а = 0.
В таблице 1 приведено общее число игр каждого типа и общее число итераций.
Таблица 1. Типы игр
Тип игры Комбинация параметров (а, Р, п) Количество игр Общее количество итераций
Базовая (1; 0,0005; 3) 6 553
5 игроков (1; 0,0005; 5) 3 123
Без балансировки (0; 0,0005; 3) 10 93
Общий итог данной серии экспериментов следующий.
1. Ни в одной из проведенных игр не наблюдалась динамика Курно.
2. Эффективное распределение ресурсов (а также почти) было достигнуто в 8 играх (в «Базовых» - 1, в «5 игроков» - 1, в «Без балансировки» - 6), причем во всех этих случаях эффективное распределение было достигнуто в результате полной кооперации агентов.
3. Кооперативное поведение наблюдалось в 13 играх (в «Базовых» - 3, в «5 игроков» - 3, в «Без балансировки» - 7), причем образование полной коалиции наблюдалось в 12 случаях. Игры,
в которых отсутствует кооперативное поведение, будем называть некооперативными, другие - кооперативными: (не)кооперативные «Базовые» игры и т.п. В одной игре образовалось две коалиции игроков (двое против одного в игре «Без балансировки»).
4. Среднее число итераций - 14,95, среднее число итераций по типам игр: «Базовые» - 33, «5 игроков» - 15, «Без балансировки - 4,1».
Некооперативное поведение наблюдалось лишь в 6 играх -по три в «Базовых» и в «Без балансировки», но эти игры сильно отличаются даже по среднему количеству итераций, поэтому сравнивать их между собой не стоит.
Сравним средние по играм заявки игроков о себе на последних итерациях (в конце игры) с заявками игроков о себе, равновесными по Нэшу, т.е. насколько далеко средние заявки о себе отличались от равновесных по Нэшу в конце игр. В трёх некооперативных «Базовых» играх средние заявки о себе игроков типа 1, 2 и 3 представлены в таблице 2: жирным шрифтом выделены заявки игроков о себе, через знак «/» - равновесные по Нэшу заявки игроков о себе. Видно, что отличие от равновесной по Нэшу заявки существенное и разное по направлению для игроков разного типа. Так, заявки 1 и 2-го игроков для себя меньше равновесных, тогда как заявка 3 -го игрока больше.
Таблица 2. Средние по играм заявки игроков на последней
итерации «Базовых» некооперативных игр.
Заявка игрока 1 Заявка игрока 2 Заявка игрока 3
Об игроке 1 63 / 72,6 42,8 / 37,2 29,6 / 37,2
Об игроке 2 32 / 29,2 50,3 / 64,6 12,05 / 29,2
Об игроке 3 20 / 13,2 21,9 / 13,2 61,7 / 48,6
Посмотрим, какие при этом на последних итерациях получаются распределения ресурсов в среднем в отличие от эффективного распределения и распределения поровну. По таблице 3 видно, что среднее распределение ресурса не строго приближается к эффективному из-за 2-го игрока, а в сумме даже меньше общего количества 115 единиц.
Управление в социально-экономических системах Таблица 3. Средние по играм получаемые ресурсы игроков на
последней итерации <«Базовых» некооперативных игр
Ресурс игрока 1 Ресурс игрока 2 Ресурс игрока 3
Поровну 38 1/3 38 1/3 38 1/3
Среднее 45,1 31,5 34.5
Эффект 49 41 25
По таблице 3 видно, что второй игрок в среднем получает значительно меньше как ресурса поровну, так и ресурса при эффективном распределении, следующая таблица показывает, что это повлияло на его выигрыш. В таблице 4 представлены сравнения средних по играм выигрышей на последней итерации. При том, что заявки и выдаваемый ресурс достаточно далеки от равновесных, выигрыши игроков не слишком далеки от эффективных.
Таблица 4. Средние по играм выигрыши игроков на последней
итерации «Базовых» некооперативных игр
Выигрыш 1-го Выигрыш 2-го Выигрыш 3-го Сумма
Поровну 6,3 6,9 7,9 21,1
Средний 6,8 6,5 7,4 20,7
Эффективный 7 7 7 21,2
Таким образом, интересно, что игроки 2-го типа выигрывают меньше, чем игроки 1-го и 3-го типов. Это же оказалось верно и для некооперативных игр «Без балансировки».
Для статистического подтверждения различия поведения игроков разных типов был проведён тест KmskaП-WaШs [25] для 3 групп: заявок о себе трёх типов игроков «Базовых» игр по всем итерациям. Значение теста составило величину порядка 10-5 при значении порога 0,05, что означает, что заявки о себе для разных типов игроков «Базовых» игр статистически различны.
Далее приведём графики средних заявок игроков о себе по всем итерациям для кооперативных и некооперативных «Базовых» игр. На рис. 3 сплошная линия - линия средних заявок от всех игр, остальные прерывистые линии - линии
средних заявок для конкретных игр, над графиком надписано общее среднее по всем итерациям (на рис. 3а также видно, что две игры закончились раньше 30 итераций).
Среднее сообщений: 65.4 Среднее сообщений: 48.2
Сообщение Сообщение
а) б)
Рис. 3. Графики средних сообщений о себе для некооперативных (а) и кооперативных (б) <Базовых игр»
Заметим, что в некооперативных играх среднее заявок о себе больше, тогда как характер поведения отдельных игр различен. В играх «Без балансировки» среднее заявок о себе также выше в некооперативном случае. Возможно, это результат «борьбы» игроков за свой ресурс в некооперативных случаях.
Ненаблюдаемость динамики Курно в поведении реальных игроков в течение всей игры была вполне ожидаема. Но в ходе эксперимента мы пытались также получить ответ на вопрос, наблюдается ли данное поведение локально (в рамках отдельных итераций).
Для этого проанализируем заявки всех игроков на всех итерациях на предмет соответствия следующим моделям поведения:
• «Неподвижные заявки»;
• «Индикаторное поведение» [3];
• «Наилучший ответ».
Для пояснения данных моделей поведения введем следующие дополнительные понятия. Будем называть направлением вектора - вектор знаков его компонент, а направлением изменения вектора заявок 5г(т) /-го игрока на итерации т - направление Дг(т) = si(т) - si(т - 1). Определим
sг(т, у) = sг(т - 1) + у [Ьгг^-г(т - 1)) - sг(т - 1)]
К классу «Неподвижные заявки» относятся следующие формальные модели поведения:
- «Не двигается (С)»: (5г(т) = si(т, 0) },
- «Почти не двигается (С(0,1))»:
{^¡(т) | Si(т) = Si(т, у), -0,1 < у < 0,1}, то есть относительное изменение вектора заявок игрока не превышает 1/10 расстояния до наилучшего ответа по каждой компоненте.
К классу «Индикаторное поведение»:
- «Индикаторное поведение (1Б)»:
^¡(т) | si(т) = si(т, у), 0 < у < 1}, это классическое определение индикаторного поведения [3],
- «В сторону наилучшего ответа (1Б+)»
^¡(т) | si(т) = si(т, у), 0 <у}, таким образом, заявка игрока двигается в сторону наилучшего ответа, но может выйти сколь угодно далеко за него.
К классу «Наилучший ответ»:
- «Наилучший ответ с точностью £ (БЯ(£)):
{^¿(т) | si(т) = si(т, у), 1 - £ < у < 1 + £}. БЯ(0) - динамика Курно: sг(т) = Ъг^-к - 1)),
- «Наилучший ответ по собственной заявке с точностью £ (БЯг(е))»: (5г(т) | 5гг(т) = ,ф, у), 1 - £ < у < 1 + £}.
- «Наилучший ответ по остальным (БЯ-г(£)):
^г(т) | S-гг(т) = S-гг(т, у), 1 - £ < у < 1 + £}.
Рассматривать будем £ £ {0; 0,1; 0,2}: «0» соответствуют точные модели, а остальным значениям модели «с точностью», выбор именно таких значений £ обусловливается эмпирически желанием выбрать малые окрестности, при этом значение 0,2 -это уже не совсем малая величина, так как она соответствует не абсолютному, а относительному расстоянию до наилучшего ответа.
Таблица 5 показывает соответствие заявок исследуемых типов игр классам и моделям поведения.
Из таблицы ясно, что хорошей модели, объясняющей поведение игроков, пока не удалось найти - из содержательных моделей ни одна не выходит за 10% встречаемости, за исключением моделей «(Почти) не двигается», которые
объясняют около трети всех заявок. Кстати, именно такой модели поведения соответствует динамика, описанная в примере 4.
Таблица 5. Анализ поведения
Имя набора Весь набор Тип 1 Тип 9 Тип 25
Всего заявок 553 183 185 185
С 141 (25,5%) 44 (24,0%) 58 (31,4%) 39 (21,1%)
С(0,1) 191 (34,5%) 66 (36,1%) 75 (40,5%) 50 (27,0%)
1В 36 (6,5%) 13 (7,1%) 8 (4,3%) 15 (8,1%)
1В+ 58 (10,5%) 18 (9,8%) 17 (9,2%) 23 (12,4%)
ВЯ(0) 0 (0,0%) 0 (0,0%) 0 (0,0%) 0 (0,0%)
ВЯ(0,1) 0 (0,0%) 0 (0,0%) 0 (0,0%) 0 (0,0%)
ВЯ(0,2) 2 (0,4%) 1 (0,5%) 0 (0,0%) 1 (0,5%)
ВЯ, (0,1) 10 (1,8%) 1 (0,5%) 4 (2,2%) 5 (2,7%)
ВЯ, (0,2) 18 (3,3%) 4 (2,2%) 5 (2,7%) 9 (4,9%)
ВЯ-/ (0,1) 2 (0,4%) 0 (0,0%) 0 (0,0%) 2 (1,1%)
ВЯ-/ (0,2) 3 (0,5%) 1 (0,5%) 0 (0,0%) 2 (1,1%)
Если расположить модели в порядке убывания их встречаемости в объёме данных, то приблизительно первые четыре: «в сторону ВЯ», ВЯ;(0,2), 1В, «за ВЯ». Первая и последняя модели слишком абстрактные, а вторая и третья говорят о том, что улучшение заявки по ресурсу для себя и индикаторное поведение занимают некоторое заметное место среди поведения игроков. Интересно также, что наибольшее количество заявок, совпадающих с Ш, было у игроков с типом г = 25.
Приведём ещё графики, показывающие наглядно динамику средних заявок о себе в соотнесении с наилучшими ответами. На рис. 4 светлые столбцы соответствуют наилучшим ответам, а тёмные - средним заявкам игроков, высота столбцов показывает величину отклонения заявки на предыдущей итерации от наилучшего ответа и от заявки на текущей итерации соответственно. Отклонения от наилучших ответов взяты по модулю, а тёмные столбцы вниз соответствуют случаям, когда заявка на текущей итерации была в другую сторону от наилучшего ответа на ситуацию с предыдущей итерации. Видно, что игроки каждого типа порой ведут себя нерационально.
Рис. 4. Динамика средних заявок о себе в сравнении с наилучшими ответами в «Базовых» некооперативных играх. Средние (а) -по всем типам; (б) - по первому типу; (в) - по второму; (г) - по третьему типу
Заявки, которые не удалось идентифицировать с помощью предложенных моделей, содержат компоненты, которые изменялись не по направлению к наилучшему ответу по данной компоненте относительно заявки на предыдущей итерации (т.е. не могла считаться рациональной вообще). Модель, адекватно объясняющую такое поведение, авторам пока не удалось предложить. Возможно, что игроки действуют «нерационально», пытаясь бороться за ресурс и не учитывая штрафы. Или наоборот пытаются предсказать поведение оппонентов на несколько итераций вперёд, т.е. применять рефлексию. В дальнейшем можно исследовать ходы игроков на совпадение с рефлексивными моделями, как, например, в [9]. Отдельный вопрос для анализа - игры, в которых проявилось кооперативное поведение с более чем двумя коалициями.
Следующий планируемый этап проверки механизма -проведение серии игр с «редуцированным» механизмом, реализующим только итеративный процесс Iр, который отсекает некоторые нежелательные модели поведения игроков - в частности кооперацию путем согласования сообщаемых заявок.
7. Заключение
Основным результатом данной статьи можно считать тот факт, что авторам удалось на основе подхода, предложенного в [7] - представления задачи распределения ресурсов как задачи многокритериального голосования, - предложить механизм, эффективно решающий задачу распределения ресурсов на основе механизма, однокритериального голосования. Предложен механизм, обеспечивающий эффективное распределение ресурса как единственное равновесие Нэша в индуцированной им игре агентов и обеспечивающий максимум суммарной полезности агентов.
Разработанный авторами инструментарий для проведения экспериментальных игр позволяет проводить апробацию применимости механизма для решения различных прикладных задач распределения ресурсов.
Однако остаётся открытым целый ряд вопросов, которые требуют дальнейшего теоретического и экспериментального исследования, среди которых особенно хочется выделить следующие.
1. Ослабление ограничений на класс функций полезности агентов. Для большинства прикладных задач в лучшем случае можно будет обеспечить выполнимость условия вогнутости. В статье, посвященной применению данного механизма для решения задачи активной экспертизы [8], было показано, что положительные результаты о существовании эффективного решения как равновесия Нэша в игре агентов могут быть распространены на класс кусочно-линейных вогнутых функций полезности. Однако динамические свойства механизма не исследовались. Поэтому представляется интересным распространение получен-
ных в данной статье результатов на класс кусочно-линейных функций полезности.
2. Исследование свойств механизма и процессов итеративных переговоров в рамках различных гипотез о поведении агентов, так как в статье была исследована лишь «простейшая» модель поведения - динамика Курно. Причем, как это было показано в статье, в игре, кроме единственного и эффективного равновесия Нэша, могут существовать и равновесия других типов, например равновесие в безопасных стратегиях [6], не позволяющие обеспечить эффективность распределения ресурсов. В защиту предложенного механизма следует отметить, что данный вопрос вообще является открытым и актуальным для теории построения эффективных экономических механизмов.
3. Исследование методов обеспечения устойчивости механизма к кооперативному поведению участников, в рамках которого участники делятся на несколько коалиций. Полученные в статье результаты позволяют предположить, что наихудшей с точки зрения механизма ситуацией является разделение всего сообщества на две коалиции. Остальные коалиционные конфигурации не должны представлять проблем для работоспособности механизма. Однако это вопрос требует более детального изучения, включая сопоставление с кооперативным моделями распределения ресурсов [5, 10].
8. Приложение
Сопоставление механизма р=< Б? >с «квадратичным правилом» Гровса-Лейдярда.
Будем обозначать -к = }.еЛ, - вектор заявок всех агентов относительно ресурса, выделяемого агенту к е N .
Очевидно, что (3) тогда можно записать следующим образом:
1 п
хк о)=хк ок)=-Е •
п ;=1
Тогда V е N выражение (4) можно переписать как
п
р1 о)=Е Ры (-,к х
к =1
где
Pki(sk) = Р( xk(sk) - sti )2-
А выражение (5) можно представить как
n
t, (s) = Х tk, (sk),
где
tki(sk) = Pki(sk) - Pkj(sk ).
Введем обозначения 1к = (?ь. } ,еЛГ и рк = {рй } ,еЛ, .Тогда механизм р=< Б,7г,(> можно рассматривать как набор из п механизмов {рк}ке1Я, где р к=< ,хк(.чк ),1к >. связанные следующим совместными ограничениями:
Ук е N X ^ ^ Я .
кеИ
Рассмотрим отдельный механизм р к=< Ш" ,хк(як)^к > при условии, что а = 1. Сделаем замену переменных, приводящих описание механизма в соответствии с описанием в [19]:
' 5к' с ' л — 1 '
т =—, т = {т }.еЛГ т = —У т .
п ' п ,еN
Тогда получаем, что
хк (т)=Х т',
iеN
т = — х (т), п
(т)=-^2((т -т)2 - -х(т-т )2).
п п jеN
Эта запись эквивалентна записи квадратичного механизма Гровса-Ледйярда, приведенной в [19] на стр. 1491 с учетом ремарки 8 и при условии, что стоимость производства общественного блага (в обозначениях, используемых в [19]) д = 0 .
Доказательство леммы 1:
По сути, необходимо доказать, что V' е N, е существует единственный максимум р (5 , ) по 5 .
Очевидно, что V''е N функции р. (5) являются строго выпуклыми.
k=1
Покажем, что при п >а +1 V- е N функции ? (5) являются тоже строго выпуклыми. Vj е N Vs е Б
дф)
дя..
= 2Р
1
(xj - ^ )(1"1 + а) X(х- - я/к)
п п п
Так как V/, к е N X я д = пх], то
дф) дя..
= 2Р
/ \А 1 а
(X/ - я„)(--1 + -)
п - а-1 др1 (я)
п -1
дя..
_ д(. (я) др. (я)
Так как п > 1, то при п > а +1 знаки —'-— и —'-— совпадают,
дя/- дя/-
а любые производные высших порядков двух функций будут
, п-а -1
пропорциональны друг другу с коэффициентом -.
п-1
Следовательно, если р. (я) строго выпукла, то (я) также строго выпукла при п > а +1. Поэтому, функция ф(я) = и (л(я)) -1¡ (я) строго вогнута, откуда следует единственность ее максимума по я Vя_¡ е Б_..
Доказательство леммы 2: Для любого агента - е N выбор наилучшего ответа в соответствии с леммой 1 является задачей выпуклой оптимизации с лагранжианом
Ц (яг) = ф (я1, я-) + ! (X я- - Я).
jеN
Следовательно:
дТ (ч 1 1
=«;(*,)—гр(х, -я,х—1)+л,„
дяи
дЦ (я-)
дя/> дЦ (я-) д!
= -2/?(Х -я.,.)(--1)+1, уеЖЦ/}, п
= 1 - Я.
/еN
Откуда следует, что в оптимальном решении V/ е N \ {-} А одинаково, так как
п
п
2
fl
Д .. = br..(s .) — х. . =—=-А.
A-.J j-, 2р(п -1) '
1. Пусть решение задачи является внутренним: У Ъгр (s_,) < Я, 2= 0.
JeN
Тогда Vj e N \{l} x = Ьгр (s_¡), откуда очевидным образом получаем, что Ьг..(s ) = x и Д.. = 0. С учетом Д.. = Ьг.(s )-x
" Jl ^ -l ' l - l Jl J 11 11 -1 1 -1
получаем, что
Y Ьг..(s ) =Д.. + У x. < R.
JlK -l' ll J-1
je N jeN
То есть Д. =0. Поэтому hru (s .) определяется из решения уравнения и[(х{) = 2¡3{xi - s..)(l - и), которое эквивалентно
/ и ' и
\п J п
Что и требовалось показать.
2. Пусть решение задачи граничное: У Ьгр (s_.) = R , А < 0 .
jeN
Тогда с учетом того, что У Д = R - Д.. - У Xj_., получаем,
jeN\{i} jeN
что У Д< 0, так как Д.. > 0, что следует из свойств класса
jeJV\{¿>
U. Откуда получаем
2
д +Ух = —х
причем
Д.. +У x. > R.
ll j-l
jeN
Следовательно,
u'X-Au + x,_,) = 2Р — Цп - 1)Д„ + А), n n
и Vj e N \ {l} Д.. = A / (1 - n), где A =Д.. +У x -R.
l ll / j j-l
jeN
Что и требовалось показать.
Доказательство утверждения 1:
1. Покажем, что \/и е II для неподвижной точки выполняется условие V- е N X я*, = Я.
/еN
Очевидно, что только в этом случае X х (я*) = Я.
iеN
Для неподвижной точки БЯ(я*) = я* и ж(БЯ(я*)) = ж(я*). Что эквивалентно выполнению системы равенств
XЪг-(я---)=пх/(я* х /е N,
iеN
Откуда следует, что
(П) XXЪг-п(я--) = пXX.(я*).
jеN -еNN
Покажем, что последнее равенство выполняется только при
X X; (я*) = Я.
Из определения А следует, что У{-, /} е N2
Ъгл(я- -) = х/(я*) + — А л.
/ / п /
Из леммы 2 следует, что V/ е N
X Ъгп (я--) =X X/ (я*) + — (А-- - А,).
jеN /е N п
Соответственно,
X XЪг, (я--) = пX X/ (я*) + ^X (А-- - А-).
/еМ iеN jеN п iеN
То есть из (11) следует, что для неподвижной точки должно выполняться условие
X (А-- - А,) = 0.
iеN
Если X X (я*) < Я, то
iеN
ЗК с N = {к е N : X я]к < Я}.
/еN
То есть для агентов из К решение задачи поиска наилучшего ответа является внутренним. Из леммы 2 получаем, что VI е К
А = 0, V- е N \ К
А =А.. +X X - Я.
- -- / 1 J--
jеN
Следовательно,
Е(д»-4) = ЕАя+ X
¿еЛ? 1еК /еЛАХ
Из свойств класса и следует, что V; е N А.. > 0, а из того, что решение внутреннее, получаем, что V- е N \ К
Я-X X. > 0.
/--
/е^
Таким образом, если для я * е Б X X (я*) < Я то
iеN
X (А-- - А,) > 0,
iеN
что недопустимо для неподвижной точки. Если X X (я*) = Я, то V е N А = А и
/ 1 - V ' ' - --
X (А-- - А,) = 0.
iеN
То есть (11) выполняется только при X X (я*) = Я.
iеN
2. Покажем, что равновесные по Нэшу заявки агентов определяют эффективное распределение ресурса. Так как Vi е N А = Ай, то из (7) получаем, что для любой неподвижной точки я верно
Х<(*,(/)) = 2Д«-1)]ГА,, = 2 рп(£зи-К).
-е N -е N iеN
Из леммы 2, получаем, что V е N
X = + — А- - - X А//).
п п п jеN\{-}
Следовательно, V- е N
(п - 1)А '= X А//.
/еN\{--}
Решение данной системы единственное, так как это система п линейно независимых уравнений с п переменными. Оно имеет следующий вид: У{-, /} е N2 А. = А.
С учетом того, что А = X 5* - Я, получаем, что V; е N
(12) А и = — А.
п -1
Следовательно, V; е N
iеN
Таким образом, получаем, что для любого равновесного по Нэшу набора заявок агентов 5*
X X (5*) = Я
¿еЛ?
иУ/еЯ и[(х^")) = уI, где Х = 2~рА.
То есть ж(,5) является решением задачи (1).
3. Покажем, что равновесие Нэша единственно. Задача (1) выпуклая и обладает единственным решением, т.е. Я и х. (/), ; е N определены однозначно. Поэтому 5* также единственно, так как из (12) следует, что
X
V/ е N 5*. = х.(5 )--—.
2 Рп
4. Наконец, покажем, как определить А в равновесии.
Из того._ что V; е N и'(х^/)) = 2рА, получаем, что хД^ ) = м'~1(2/?А). Из свойств класса II следует, что \ZueU и V; е N '(•) - строго убывающая функция.
Следовательно, X и] 1 (2/УД) также является строго убыва-
iеN
ющей по А. Поэтому уравнение Х"ГЧ2 РА) = К
iеN
всегда имеет (в предположении, что в решении задачи (1) ресурс должен распределяться между всеми агентами) единственное решение, которое и определяет А в равновесии.
Доказательство следствия 1:
Если а< 1, то X (я) = 0 только при А = 0. Из (2) получа-
-=1
ем, что при этом V; е N м'(х*) = 0, что невозможно из определения и.
этом
Доказательство леммы 3: Если |ж(я(г)) < Я, то из утверждения 1 следует, что
XX Ъгл(я---) >п X :с}(я).
jеN iеN jеN
То есть п\ж(я(г +1)) >п|ж(я(г))|. При п|ж(я(г +1)) -п|ж(я(г))| ^ 0 только при Xи[(xi (я(г +1))) ^ 0,
iеN
что означает, что решение задачи (1) должно быть «почти» внутренним, а это не так. Если |ж(я (г)) = Я, то
XXЪг-(я--)=п X ^(я).
jеN iеN
jеN
То есть п \ж(я (г +1)) = п \ж(я (г)) = пЯ.
Доказательство леммы 4: Исследуем отображение ВЯ (•): Б маемость с помощью матрицы Якоби
Б. Исследуем его сжи-
У (я) =
дЪг
дя,.
-(я)
, /,! ,kеN
Достаточным условием сжимаемости для некоторого набора
стратегий агентов я е Б будет выполнение условия || О (я )| для произвольной матричной нормы [1]. По аналогии с будем исследовать максимальную строчную норму -
< 1 31]
¡У(я ^ = тах X
{I ,k}еN2
дЪт„
дя„.
Легко получить, что V; е N при Р > 0 и при вогнутых функциях полезности выполняется
п
X
{I ,ке2
д Ъг..
дя,,
= X
jеN\{;}
д Ъг..
дя..
2/? и + м;"(х.)
Введем обозначения
2/? и + и(х.)
д =-
= («-!)
—и" (х.) + 2/Зп(п — 1) ■, Д = тах |Д I, Д = тт Д.
<1.
-м/ (х.) + 2/?и(и-1) Тогда (и -1 )Б <1, (и -1)Д < 1.
Мы предполагаем, что каждый агент действует по динамике Курно, что означает:
Ъг.. = х. .л—1—
ji j -; 1 П - 1
(X;-; - Ъги), j е N \ {;},
где =-7 X 5;к,
п - 1 kеN\{j}
откуда получаем, что Vj е N \ {;}
X
{I ,к ^ 2
дЪг.
дя„
= X
1 +Л X с-4 - д).
1 г П 1
kеN\{;} п 1 п 1 kеN\{;}
Следовательно, с учетом того, что (п -1)Д < 1
X
{I ,к ^ 2
дЪг,,
дя„
= 1 + -
1
п-1
-Д > 1.
То есть отображение ВЯ(•): Б ^ Б не удовлетворяет достаточным условиям сжимаемости.
Исследуем отображение ВЯ2(«) = ВЯ(ВЯ(•)): Б ^ Б. С учетом написанного выше верно, что V; е N
X
{I ,k}еN 2
дЪг2
дя,,
1
= Д X (1 + —:-Д).
\{;} п 1
Кроме того, с учетом того, что каждый агент действует по динамике Курно, получаем, что Vj е N \ {;}
X
{I ,k}еN2
дЪг
дя,,
1
= (1+^-Д) X Д|.
п - 1 jеN\{;}
Откуда получаем, что V; е N
X
{I ,к }еN 2
дЪг
дя„.
< Д(п - (п -1)Д),
/-
дяк
< Б(п - (п -1)Б).
и V/ е N \ {-}
X
{I ,k}еN 2
То есть если выполняется условие Б(п - (п - 1)Б) < 1, то отображение ВЯ2(•) является сжимающим.
Проанализируем, при каких р это может быть достигнуто.
1 *
Если р>—тах(-г/; (х.(я)), то /_) > 0. Тогда всегда можно 2п ' '
обеспечить выполнение условия Б(п - (п -1)Б) < 1 выбором
Б < Б , так как Б(п - (п -1)Б) < 1 при Б . Увели-
п -1 п -1
чение значения р обеспечивает Б—>Б—>—-—, однако при
п-1
этом Б(и-(и-1)Б)^1. Поэтому делать р очень большим нецелесообразно.
Таким образом, показано, что выбором параметра р механизма можно обеспечить сжимаемость отображения ВЯ 2(«) при тах(-м. (X (я)) < С.
iеN
Доказательство утверждения 2: Из леммы 3 получаем, что итеративный процесс, стартовав в 5", перейдет в 5". Из леммы 4 следует^ что при выполнении условия тах(-м; (х. (я)) < С выбором р можно обеспечить сходимость^пары итеративных процессов ,\(г + 2) = В1(2(.ч(т)) и я(г + 3) = ВЯ2 (я(г +1)), где я(г + 1) = ВЯ(я(г)), г > 1, к одному и тому же равновесию Нэша, так как оно является единственной неподвижной точкой для каждого из этих процессов.
Доказательство леммы 5: В индуцированной механизмом р =< Б,ж, ? > игре Г(р) агенты обладают функциями предпочтения
ф(я) = м (X (я)) - р{(я). Очевидно, что при р> 0 эти функции вогнутые.
Наилучший ответ агента - е N будет определяться как решение (единственное) уравнения
U(X)(1 - i) - ihbru - х)i = 0. n n
С учетом (5) получаем, что равновесные сообщения агентов
удовлетворяют следующей системе уравнений:
X bru - R
и'( x')(n -1) = 2р —-, is N.
' ' n
По аналогии с леммами 1 и 2, очевидно, что решение этой системы единственно. Более того, это решение обеспечивает Vi s N ы'(х*) = const, что соответствует решению задачи (1).
Доказательство утверждения 3: Эквивалентность механизмов очевидным образом следует из того факта, что решение задачи (1) единственно.
Из леммы 5 получаем, что в игре Г(р) равновесные заявки агентов удовлетворяют системе уравнений
X bru - R
U(x')(n -1) = 2рiSN-, i s N.
' ' n
Из утверждения 1 следует, что в игре Г(/?)
u't(xt) = 2pǣbru-R).
isN
Следовательно, Vi е N bru = bru при ¡5 = ft---. То есть
п(п -1)
p=P .
n (n -1)
Литература
1. БОСС В. Лекции по математике: дифференциальные уравнения. Т. 2.- М.: Едиториал УРСС, 2004. - 208 с.
2. БУРКОВ В Н., ДАНЕВ Б., ЕНАЛЕЕВ А.К. Большие системы: моделирование организационных механизмов. - М.: Наука, 1989. - 248 с.
3. БУРКОВ ВН., ДЖАВАХАДЗЕ Г.С., ДИНОВА НИ., ЩЕПКИН Д.А. Применение игрового имитационного моделиро-
вания для оценки эффективности экономических механизмов. - М.: ИПУ РАН, 2003. - 51 с.
4. ГУБКО М.В., НОВИКОВ Д А. Теория игр в управлении организационными системами. - М.: Синтег, 2002. - 148 с.
5. ГУБКО М.В., СПРЫСКОВ Д.С. Учет кооперативных взаимодействий в механизмах планирования // Управление большими системами. Выпуск 2. - М.: Фонд «Проблемы управления», 2000. - С. 28-38.
6. ИСКАКОВ М.Б. Равновесие в безопасных стратегиях и равновесия в угрозах и контругрозах в некооперативных играх // Автоматика и телемеханика. - 2008. - №2. -С. 114-134.
7. КОРГИН Н.А. Представление механизма последовательного распределения ресурсов как неманипулируемого механизма многокритериальной активной экспертизы // Управление большими системами. - 2012. -№36. -С.186-208.
8. КОРГИН Н А., ХРИСТЮК А.А. Эффективный механизм активной экспертизы с платой за участие как инструмент принятия согласованных решений // Вестник Воронежского государственного технического университета. - Т. 7, №6. -С. 117-121.
9. КОРЕПАНОВ В О., НОВИКОВ Д А. Метод рефлексивных разбиений в моделях группового поведения и управления // Проблемы управления. - 2011. - №1. - С. 21-32.
10. МАЗАЛОВ ВВ., МЕНЧЕР А.Э., ТОКАРЕВА Ю.С. Переговоры. Математическая теория. - Санкт-Петербург-Москва-Краснодар: Лань, 2012. - 304 с.
11. НОВИКОВ Д.А. Теория управления организационными системами. - 3-е изд. - М.: Издательство физико-математической литературы, 2012. - 604 с.
12. ARIFOVIC J., LEDYARD J.O. A behavioral model for mechanism design: Individual evolutionary learning // Journal of Economic Behavior and Organization. - 2011. - №78. -P.375-395.
13. BARBERA S., JACKSON M., NEME A. Strategy-Proof Allotment Rules // Games and Economic Behavior. - 1997. - Vol. 18, Issue 1. - P. 1-21.
14. BASAR T., MAHESWAREN R. Social welfare of selfish agents: Motivating efficiency for divisible resources // Proc. Control Decision Conf. (CDC). - 2004. - P. 361-395.
15. BOYD S., PARIKH N., CHU E. Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers // Foundations and Trends in Machine Learning. -
2011. - Vol. 3, №1. - P. 1-122.
16. FISCHBACHER U. z-Tree - Zurich Toolbox for Ready-made Economic Experiments // Experimental Economics. - 2007. -Vol. 10, №2. - P. 171-178.
17. FUDENBERG D., LEVINE D., Theory of Learning in Games -MIT, 1999. - 276 p.
18. GOETZ R., MARTINEZ Y., AND JOFRE R. Water allocation by social choice rules: The case of sequential rules // Ecological Economics. - 2008. - №65(2). - P. 304-314.
19. GROVES T., LEDYARD J.O. The Existence of Efficient and Incentive Compatible Equilibria with Public Goods // Econo-metrica. - 1980. - №6. - P. 1487-1506.
20. HEALY P., MATHEVET L. Designing stable mechanisms for economic environments, Theoretical Economics // Econometric Society. - (в печати).
21. HURWICZ L. Outcome functions yielding Walrasian and Lindahl allocations at Nash equilibrium points // Review of Economic Studies. - 1979. - №46. - P. 217-225.
22. JAIN R., WALRAND J. An efficient nash-implementation mechanism for divisible resource allocation // Automatica. -2010. - Vol. 46, №8. - P. 1276-1283.
23. JOHARI R., TSITSIKLIS J.N. Efficiency of Scalar-Parameterized Mechanisms // Operations Research. - 2009. -№57. - P. 823-839.
24. KAKHBOD A., TENEKETZIS D. An efficient game form for unicast service provisioning // IEEE Trans. Autom. Control. -
2012. - Vol. 57, №2. - P. 392-404.
25. KRUSKAL W.H., WALLIS W.A. Use of ranks in one-criterion variance analysis // J. Amer. Statist. Assoc. - 1952. - Vol. 47. -P. 583-621.
26. LEFEBVRE M. Sharing Rules for Common-Pool Resources when Self-insurance is Available: an Experiment // Working Pa-
pers 11-22, LAMETA, Universtiy of Montpellier. - 2012. -P. 42.
27. MASKIN E. The Theory of Nash Equilibrium: A Survey / In: Hurwicz L., Schmeidler D., Sonnenschein H. Social Goals and Social Organization. -Cambridge: Cambridge University Press, 1985. - P. 173-204.
28. MATHEVET L. Supermodular mechanism design // Theoretical Economics, Econometric Society. - 2010. - Vol. 5(3). -P. 403-443.
29. MOULIN H. An efficient and almost budget balanced cost sharing method // Games and Economic Behavior. - 2010. -Vol. 70, Issue 1. - P. 107-131.
30. SPRUMONT Y. The division problem with single-peaked preferences: A characterization of the uniform rule // Econometrica. - 1991. - Vol. 59. - P. 509-519.
31. VAN ESSEN M. A note on the stability of Chen's Lindahl mechanism // Social Choice and Welfare. - 2012. - Vol. 38(2). -P. 365-370.
32. WALKER M. A simple incentive compatible scheme for attaining Lindahl allocations // Econometrica. - 1981. - №49. -P. 65-71.
EFFICIENT SOLUTION OF ALLOTMENT PROBLEM WITH GROVES-LEDYARD MECHANISM UNDER TRANSFERABLE UTILITY
Korgin Nikolay, Institute of Control Sciences of RAS, Moscow, Cand.Sc., leading scientist, Moscow Institute of Physics and Technology, associate professor ([email protected]). Korepanov Vsevolod, Institute of Control Sciences of RAS, Moscow, Cand.Sc., senior scientist.
Abstract: We consider a problem of allocation of limited amount of divisible good among a finite number of agents under transferable utility. We design a mechanism which implements a Pareto efficient allocation as a Nash equilibrium of the induced game. This mechanism is an adaptation of the Groves-Ledyard "quadratic government'" that was initially offered for the problem ofpublic good.
Keywords: mechanism design, Nash implementation, allotment problem.
Статья представлена к публикации членом редакционной коллегии В.Н. Бурковым
Поступила в редакцию 22.02.2013.
Опубликована 30.11.2013.