УДК 519.865 + 519.95 ББК 22.165
МОДЕЛЬ ИНСТИТУЦИОНАЛЬНОГО УПРАВЛЕНИЯ
Г орелов М. А. 1
(Вычислительный центр РАН, Москва)
Исследуется иерархическая игра двух лиц, в которой первый игрок делегирует партнеру право выбора своих стратегий, а сам управляет лишь ограничениями на выбор игрока нижнего уровня. Устанавливается связь этой модели с играми, предполагающими обмен не обязательно правдивой информацией.
Ключевые слова: иерархические системы, институциональное управление, максимальный гарантированный результат.
Введение
Иерархический способ управления сложными организационными системами давно зарекомендовал себя на практике. Во многих случаях иерархическая система строится «сверху», т. е. элемент верхнего уровня переуступает своим подчиненным право выбора своих управлений. Естественно возникает вопрос
о целесообразной степени децентрализации управления, т. е. можно говорить о задаче синтеза иерархической системы.
На первый взгляд отказ элемента верхнего уровня от своих прав уменьшает его возможности, а потому не может увеличить его выигрыш. Однако на практике, зачастую, иерархические системы оказываются более эффективными, чем жестко централизованные. В работе [4] (см. также [11]) было предложено качественное объяснение этого эффекта. Оно основывалось на учете более полной информированности элементов нижнего уровня о параметрах управляемого процесса.
1 Михаил Александрович Горелов, кандидат физико-математических наук, (griefer@ccas.ru).
Выбирая степень децентрализации управления, элемент верхнего уровня, по сути, задает множество, из которого его подчиненному будет позволено выбирать управления. Эта идея заложена в математическую модель, которая исследуется ниже.
Те же математические конструкции можно интерпретировать иначе. Можно считать, что выбор управлений изначально является правом подчиненных, а элемент верхнего уровня накладывает на этот выбор некие ограничения. В этом смысле можно говорить об институциональном управлении системой. Задачи с такой интерпретацией сформулированы в [12, 13].
Формально задача поиска оптимальной стратегии в такой модели сводится к выбору наилучшего элемента из семейства всех подмножеств некоторого множества. Если это множество достаточно велико, семейство всех подмножеств является поис-тине необозримым и задача поиска оптимального подмножества становится весьма трудной. Кроме того, для решения такого рода задач в данный момент не существует никаких методов.
Следует признать, что и в этой статье не содержится ее полного решения. Однако исходную задачу удалось свести к анализу игры с передачей не обязательно правдивой информации. Это позволило получить некоторые качественные выводы. Кроме того, для анализа задач с обменом информацией разработан ряд методов (например, метод динамического программирования или метод Ю.Б. Гермейера для исследования иерархических игр), и можно надеяться, что какие-то из них удастся применить в будущем.
1. Постановка задачи
Под игрой с неопределенным фактором в дальнейшем понимается набор Г = (и, V, g, к, А). Здесь А интерпретируется как множество неопределенных факторов, а и и V - как множества управлений (стратегий1) первого и второго игроков соответ-
1 В классической теории игр чаще используют термин «стратегия». В теории иерархических игр часто приходится одновременно рассмат-
ственно. Стремлением к максимизации функций g:
U х V х A ^ R описываются интересы первого игрока, а его партнер стремится максимизировать значение функции h: U х V х A ^ R.
Игру Г станем рассматривать как субъективное описание конфликта с точки зрения первого игрока. В частности множество A моделирует неточность его представлений об изучаемом конфликте. Все дальнейшее исследование будет проводиться с его позиций.
Предположим, что игрок 1 обладает правом первого хода, то есть он первым выбирает свое управление ueU и сообщает о выбранном управлении своему партнеру. Допустим, кроме того, что второму игроку в момент принятия решения известно и реализовавшееся значение неопределенного фактора а е A.
В таком случае естественно предположить, что второй игрок выберет управление из множества 5(Г; u, а), такого, что
• В(Г;и,а) = jveV:h(u,v,a) = maxh(u,v',a)|, если верхняя грань sup h(u, v ',а) достигается;
V eV
• В(Г; и,a) = <v eV :h(u, v,a) > sup h(u, v',a)-к\ в против-
l v'eV )
ном случае
(здесь к - заранее заданное и известное обоим игрокам положительное число).
Таким образом, первый игрок способен оценить множество рациональных ответов партнера на его стратегию. Но выбор конкретной стратегии из множества 5(Г; u, а) ему неизвестен. Кроме того, он не знает действительного значения неопределен-
ривать пары взаимосвязанных игр. При этом бывает удобно использовать термин «управление» в отношении более простой игры из пары, а термин «стратегия» относить к более сложной. Этой традиции следуем и мы. Пока речь идет об одной игре, оба термина используются как полные синонимы.
ного фактора. Если он осторожен по отношению к этим неопределенностям, то он может рассчитывать на получение выигрыша
inf inf g(и, v, а),
aeA veB(Г;и,а)
а его максимальный гарантированный результат составит
(1) ^(Г) = supinf inf g(и, v,a) .
ue.U aeAveB(Г;u,a)
Рассмотрим еще одну игру Г* = (U*, V*, g*, h*, A*), связанную с исходной игрой Г = (U, V, g, h, A) следующим образом. Множество U* представляет собой семейство всех непустых подмножеств множества U. Множество V* состоит из всевозможных пар v* = (w, v), где w - отображение из U* в U, ставящее в соответствие каждому множеству u*eU* элемент ueu* этого множества, а ve V. Множество A* = A, а функции g* и h* определяются условиями g*(u*, v*, а) = g(w(u*), v, а) и
h*(u*, v*, а) = h(w(u*), v, а) соответственно (здесь v* = (w, v)).
Содержательный смысл этих конструкций состоит в следующем. Первый игрок переуступает партнеру часть своих полномочий по выбору управлений. Он сам выбирает лишь некоторое подмножество u*cU. Второй игрок производит окончательный выбор управления первого игрока ue u* из этого подмножества и, кроме того, выбирает свое управление v. В соответствии с этим определяются выигрыши обоих игроков. По сути, эти математические конструкции формализуют идеи Ю.Б. Гермейе-ра и Н.Н. Моисеева, которые на вербальном уровне описаны в [4, 11] и изложены выше во введении.
Для новой игры определены множества 5(Г *; u*, а) рациональных ответов второго игрока на стратегию u* и максимальный гарантированный результат первого игрока Л(Г*).
На протяжении всей статьи будем предполагать, что множества A, U и V наделены топологиями и компактны, а функции g и h непрерывны.
При этом предположении верхняя грань в определении множества 5(Г; u, а) достигается для любой стратегии u. Как следствие, максимальный гарантированный результат первого игрока в игре Г на самом деле не зависит от величины к, которая формально присутствует в его определении.
Нечто похожее можно утверждать и относительно величины Л(Г*). А именно, можно потребовать от первого игрока выбирать лишь такие стратегии и*, для которых верхняя грань в определении множества 5(Г*; и», а) достигается, и при этом максимальный гарантированный результат центра не уменьшится. Это вытекает из следующего утверждения.
Лемма 1. Для любой стратегии u*<aU* найдется такая стратегия о* е U*, что
(2) inf inf g* (о, v ,а) > inf inf g* (u, v ,a)
а*еА* %еВ(Г* ;&*,%) а*еА* %еВ(Г*;и*,а*)
и для любого а* е A верхняя грань suph(о,v„,а) достигается.
v*eV*
Доказательство. Очевидно, достаточно рассмотреть случай, когда верхняя грань sup h (u, v ,а,) не достигается.
v*eV*
Пусть о* - замыкание множества и* в топологии пространства U. Покажем, что стратегия о* - искомая.
Множество о* х V компактно, поэтому в некоторой точке (и0, v0) достигается максимум непрерывной функции h(u, v, а*). Выберем v0 = (w0, v0) так, что w0(®*) = и0. Тогда h(о,у*,а„) = max h(u,v,^).
(u,v)ea*xV
С другой стороны, для любой стратегии v* = (w, v) выполняется неравенство
h(о,v,а*) = h(w(o),v,%) < max h(u,v,%),
(u,v)ea*xV
значит,
suph(о,v,а*) < max h(u,v,а*).
v, eV, (u,v)era,xV
Но по определению
sup h (о, v ,а*) = sup h(w(a*), v,^) = sup h(u, v,^),
v* eV* (w,v)eV* (u,v)effl, xV
следовательно, верхняя грань sup h (о, v ,а) достигается,
v* eV*
0 r 0 Ox
например, на стратегии v* = (w , v ).
Пусть vl = (w1, v1) - произвольная стратегия второго игрока из множества 5(Г*; о*, а) и и1 = w'(®*). В силу определения
множества со* и непрерывности функций h и g найдется точка
u2eu*, для которой выполняются неравенства
21 11 11 21 h(u , v , а*) > h(u , v , а*)-к и g(u , v , а*) > g(u , v , a*)-s, где £ -
произвольное положительное число. Выберем w2 так, что
w2(u*) = u2 и положим к2 = (w2, v1).
Так как функция h непрерывна, имеем
suph(о,v,а,) = sup h(u,v,a,) =
v*eV* (u,v)eo*xV
= sup h(u, v,a) = sup h (u, v ,a),
(u ,v)eu*xV v*eV*
следовательно,
h(u,,v2,a) >h(о,vi,a,)-k =
= sup h (о, к ,a,) -k = sup h (u,, v, ,a,) -k,
v*e V* v*e V*
и к2 e В(Г*; u* ,a*).
Поэтому
g,(о,vl,a,) = g(u1,К,a*) >g(u2,К,а,)-s =
= g (u,, v,2,a,) -s> inf g (u,, v, ,a,) -s.
v*eV*
В силу произвольности выбора числа s и стратегии К = (w1, v1) отсюда следует неравенство (2).
Следствие 1. Максимальный гарантированный результат Л(Г *) первого игрока в игре Г* не зависит от величины к.
Доказательство. В силу доказанной леммы, супремум в формуле (1) для игры Г* можно брать по семейству замкнутых множеств, а для каждого из них верхняя грань в определении множества В(Г*;о*, а) достигается.
Следующая лемма и пример к ней показывают, что переход от игры Г к игре Г* целесообразен для первого игрока в том смысле, что он в любом случае ничего не теряет, а иногда может и кое-что приобрести.
Лемма 2. Справедливо неравенство Л(Г*) > Я(Г). Доказательство непосредственно следует из определений.
Неравенство в утверждении последней леммы может оказаться строгим, что показывает следующий
Пример 1. Пусть игра Г задана условиями и = V = А = {0, 1}, g(u, V, а) = -(ы-у)2, И(и, V, а) = -(u-v)2-2(v-а)2.
При выборе и = 0 и а= 1, второй игрок предпочтет выбор
V = 1, и первый получит выигрыш равный -1. Аналогично, при и = 1, множество 5(Г;1, 0) = {0} и опять первый игрок получает -1. Поэтому Л(Г) = -1.
В соответствующей игре Г* выбор первым игроком стратегии и* = {0, 1} приведет к тому, что второй игрок выберет ^ = V = а, и оба игрока получат нулевой выигрыш. Следовательно, Л(Г*) = 0.
Данный пример наглядно демонстрирует еще одно обстоятельство. Недостаточно высокий результат Л(Г) = -1 можно увеличить не только переходом к игре Г* (то есть децентрализацией управления), но и переходом к некоторому информационному расширению.
Например, предположим, первый игрок может получить достоверную информацию о выборе партнера. Тогда ситуация будет моделироваться игрой Г* = (и*, V*, g*, И*, А*), в которой и* - семейство всех функций из V в и, V* = V, А* = А, а функции выигрыша определяются условиями
g*(ы*, V*, а*) =g(ы*(v*), V*, а*) и Н*(и*, V*, а*) =И(и*(у*), V*, а*). Несложно показать, что в игре из примера 1 ^(Г*) = 0, и получение такого результата первому игроку гарантирует использование стратегии и*^) = V. Таким образом, в этой игре Л(Г*) = Л(Г *), а в других случаях нельзя исключать и возможности выполнения неравенства ^(Г*) > Л(Г*). Поэтому может показаться, что использование механизма управления, формализованного с помощью игры Г*, выгоднее для игрока верхнего уровня. А вдобавок игры такого типа, видимо, гораздо проще, и уж во всяком случае, лучше исследованы. Поэтому целесообразность рассмотрения моделей, аналогичных игре Г*, требует некоторого пояснения.
Как и всякие модели, модели в данной работе чего-то не учитывают. В данном случае в модели никак не учитываются затраты времени и средств на сбор и переработку информации.
На практике же эти обстоятельства могут оказаться весьма существенными.
Скажем, в рассматриваемом примере максимальный гарантированный результат первого игрока в играх Г* и Г* одинаков. Но во втором случае игрок верхнего уровня, во-первых, должен обеспечить получение достоверной информации. Во-вторых, нужно затратить время и, возможно, деньги на ее обработку1. А в первом случае тот же результат получается за счет перекладывания обязанностей по выбору управления на плечи подчиненного. С учетом этого механизм управления без обменов информацией может оказаться более предпочтительным.
В явном виде величина Л(Г *) может быть записана так:
(3) ^(Г*) = sup inf inf g(u, v,a),
u <eU aeA (u,v)eE*(u*,a)
где
E(u,,a) = {(u,v) e u, xV :h(u,v,a) = max h(u',v',a)>.
I (u',v' )eu*xV I
Верхняя грань в формуле (3) берется по множеству всех подмножеств множества U. Поэтому вычисление величины Л(Г*) связано с очевидными трудностями. Это и будет нашей основной задачей.
2. Вспомогательная задача
Обозначим символом Ф(Х, Y) семейство всех функций из множества X в множество Y.
Рассмотрим следующую игру Г# = (U#, V#, g#, h#, A#), тесно связанную с исходной игрой Г. В ней A# = A, U# = Ф(А, U),
V# = VxA, а функции g# и h# определяются условиями g#(u#, v#, a) = g(u#(P), v, a), h#(u#, v#, a) = h(u#(fi), v, a), если v# = (v, P).
1 В данном модельном примере передается и обрабатывается один бит информации. Но в моделях реальных процессов объем необходимой информации может быть очень большим, и ее переработка потребует больших затрат ресурсов и времени.
Содержательный смысл этих конструкций состоит в следующем. Второй игрок имеет возможность и должен сообщить партнеру значение неопределенного фактора, но это сообщение не обязано быть истинным. Первый игрок выбирает свое управление, опираясь на полученную информацию. Таким образом, второй игрок выбирает свое управление v и сообщение P, передаваемое партнеру. Первый игрок выбирает способ реагировать на полученную информацию. Выигрыши игроков определяются реально выбранными управлениями и (оставшимся неизвестным игроку 1) истинным значением неопределенного фактора.
Для такой игры Г# стандартным образом определен максимальный гарантированный результат Л(Г#).
Как и в случае игры Г*, можно утверждать, что первый игрок ничего не потеряет, если ограничит свой выбор только такими стратегиями u#, для которых верхняя грань в определении множества 5(Г#; u#, а) достигается. А именно, справедлив следующий аналог леммы 1.
Лемма 3. Для любой стратегии u# e U# найдется такая стратегия CO# e U#, что
(4) inf Jnf ,g#(°#’v#,a#) - inf Jnf ,g#(u#’v#,a#)
a#eA# к#еБ(Г#;о#,а#) a#eA# v#e.B(r#;u#,a#)
и для любого a# e A верхняя грань sup h#(®#, v#,a#) достигается.
v#eV#
Доказательство. Фиксируем произвольную стратегию u#eU# и рассмотрим множество
Q = {u e U: u = u#(P), PeA} значений функции u#. Пусть W - замыкание множества Q в топологии пространства U. Определим функцию со# условием
max h(o (a), v, а) = max max h(u, v, а)
veV ueW veV
для любого aeA. Покажем, что функция о# - искомая.
Фиксируем произвольное aeA.
По определению этой функции
sup h#(о#,(v,P),a) = sup h(o#(P),v,a) = max h(u,v,a).
(v,p)eV# (v,p)eV x A 0,v)eWxV
Если элементы1 u0, v0 выбраны так, что
h(u0, v0, a) = max h(u, v, a) , то для стратегии (v0, a) будем иметь
(u,v)eW xV
h„(о,v0,a) = h(o(a),v0,a) = h(u0,v0,a) = max h(u,v,a),
(u,v)eW xV
то есть верхняя грань достигается.
Пусть максимум max h(u, v,a) достигается в точке
(u,v)eW xV
(u0, v0). По построению множества W в любой окрестности точки (u0, v0) найдется точка вида (u#(P), v), где PeA. Пусть ft и v1 выбраны так, что h(u#p), v1, a) > h(u0, v0)-s. Тогда
sup h#(u#,(v,P),a) — h(u#(P1),v\a) > h(u°,v°,a) — s =
(v ,P)eV#
= max h(u, v,a) — s.
(u ,v)eW xV
Сказанное справедливо при любом положительном s, поэтому sup К (щ, v„ ,a) - max h(u, v,a).
v# eV# (u,v)eWxV
А поскольку для любой стратегии v# = (v, P) выполняется включение (u#(P), v)eWxV, верно обратное неравенство. Поэтому, на самом деле
sup h (u#, v# ,a) = max h(u, v,a)
v# eV# (u,v)eW xV
и
sup h# (u#, v# ,a) = max h# (®#, К ,a).
v# eV# v# eV#
Пусть v^ = (v1, P1) - произвольная стратегия из множества В(Г#;о#, а). По построению в любой окрестности точки (o#(P\ v1) найдется точка вида (u#(P), v). Выберем (ft, v2) так,
1 Формально эти элементы зависят от а но для упрощения формул в обозначениях этих элементов это не отражено, поскольку а уже фиксировано. То же относится к определенным выше элементам V1 и V2. Важно, что а фиксировано уже после того, как сформирована стратегия а#, в остальном, а может быть любым.
что выполняются неравенства h(u#(P), v2, а) > h(o#(fil), v1, а)-к и g(o#(Pl), v1, а) > g(u#(P), v2, a)-s. Из первого неравенства вытекает условие (P, v2) e В(Г#; u#, а). Поэтому, в силу второго неравенства g(®#(P1),v1,a) > inf g#(u#,v#,a)-s , а в силу
v#eB(r #;u#,a)
произвольности выбора v^ e B(Г# ,®# ,a) имеет место неравенство inf g# (о, v# ,a) > inf g# (u#, v# ,a) -s . Поскольку
v#eB(r#;о#,a) v#eB(r#;и#,a)
s > 0 и a e A могут быть выбраны произвольно, отсюда следует неравенство (4).
Лемма доказана.
Следствие 2. Максимальный гарантированный результат Л(Г #) первого игрока в игре Г* не зависит от величины к
3. Основные результаты
Выясним связь между максимальными гарантированными результатами Л(Г*) и Л(Г#). Справедлива
Теорема 1. Имеет место равенство Л(Г#) = Л(Г*). Доказательство теоремы получается из следующих двух лемм.
Лемма 4. Имеет место неравенство Я(Г *) > Л(Г#). Доказательство. Пусть u# - произвольная стратегия первого игрока в игре Г #. Рассмотрим множество u* значений функции u#(P), когда параметр P пробегает все множество A. Множество u* можно рассматривать как стратегию первого игрока в игре Г*. Для любого aeA имеем
sup h# (u#, v#, a) = sup h(u# (P), v, a) = sup sup h(u# (P), v, a) =
v#ev# (v,P)eVxA veV fleA
= sup sup h(u, v,a) = sup h(u, v,a) = sup h (u,, v, ,a).
veV ueu* (u,v)eu*xV v*eV*
Причем если верхняя грань в левой части последнего равенства достигается при v0 = (v0,P°), то верхняя грань в правой части равенства достигается при v0 = (w0, v0), где w0 - любая функция, удовлетворяющая условию w0(u*) = u#(0)). И обратно, если
верхняя грань в правой части равенства (5) достигается при vl = (w1, v1), то в силу определения множества u* найдется P eA,
для которого u#(P) = w'(u*), и в точке (v1, P1) достигается верхняя грань в левой части равенства (5).
Поэтому если стратегия v* = (w, v) принадлежит В(Г*; u*, а) и P выбрано так, что u#(P) = w(u*), то стратегия
v# = (v, P)eB(r#; u#, а) и выполняется равенство
g*(u*, v*, a) = g(w(u*), v, a) = g(u#(P), v, a) = g#(u#, v#, a). Следовательно,
mf g*^ v*,a) > mf g#^ v#,a)
v*eB(l * ,u* ,a) v#eB(l #,u#,a)
и в силу произвольности а справедливо неравенство
(6) inf inf g* (u*, к , a) > inf inf g (u#, v#, a) .
ae.A v*eB(r* ,u* ,a) ae.A v#eB(r#,щ#,a)
Итак, для произвольной стратегии u# была построена такая стратегия u*, что имеет место неравенство (6). Значит,
Я(Г,) = sup inf inf g (u,, v, ,a) >
ueU aeA v*eB(r*,u*,a)
> supinf inf g#(u#,v#,a) = R(r#),
u#eU#
ae.A v#єB(Г#,u#,a)
что и требовалось доказать.
Верно и обратное.
Лемма 5. Имеет место неравенство R(r#) > Л(Г*). Доказательство. Достаточно доказать, что для любой стратегии u* e U* найдется такая стратегия u# e U#, что
(7) inf inf g# (u#, v#, a) > inf inf g* (u, v, a) .
ae^ v#eB(r#,u#,a) aeA v*eB(r* ,u*,a)
В силу леммы 1 можно, не ограничивая общности, считать, что множество u* замкнуто в топологии пространства U.
Тогда существует функция u#: A ^ U, удовлетворяющая условию
max h(u# (a), v, а) = max max h(u, v, a)
veV ueu* veV
для любого ae A. Покажем, что эта функция - искомая.
Прежде всего, заметим, что для любой стратегии v# = (v, P) выполняется включение (u#(P), v) e u* x V, поэтому
suph#(u#,v#,a) = sup h(u#(P),v,a) < sup h(u,v,a) =
v#eV# (v,P)eV# (u ,v)eu* xV
= max max h(u, v, a) = max h(u# (a), v, a).
ueu* veV veV
Значит, если определить стратегию v0 = (v0, а) условием h(u# (a), v0,a) = max h(u# (a), v,a),
veV
то будет выполняться неравенство
sup h# (u#, v# ,a) < max h(u# (a), v,a) =
v#eV# veV
= h(u# (a), v0, a) = h# (u#, v0, a),
т. е. супремум в определении множества В(Г#; u#, а) достигается. По определению функции u# имеет место равенство sup h# (u#, v# ,a) = sup h (u, v ,a)
v#eV# v*eV*
Пусть теперь v# = (v, P) - произвольная стратегия из множе-
ства В(Г#; u#, a). В силу сказанного, справедливо равенство h(u#(P), v,a) = h#(u#, v#,a) =
= sup h (u#, v#', a) = sup h (u,, v ', a),
v# e V# v* e V*
то есть если w(u*) = u#(P), то стратегия v* = (w, v) принадлежит множеству В(Г*; u*, a).
Кроме того, для этой стратегии v* = (w, v) выполняется равенство g*(u*, v*, a) = g#(u#, v#, a). Поэтому
inf g*(u^v*,a) > mf g#(u#,v#,a) .
v*eB(r *,u*,a) v#eB(r #,u#,a)
Поскольку все сказанное справедливо при любом ae A, приходим к неравенству (7). Лемма доказана.
Из лемм 4 и 5 получаются следующие две теоремы. Утверждение теоремы 1 имеет довольно прозрачное содержательное объяснение. В игре Г* первому игроку выгодно предоставлять партнеру право выбора своего управления из некоторого множества управлений, если наиболее выгодное с точки зрения второго игрока управление является одновременно и самым выгодным с точки зрения первого. В игре Г# второй игрок будет заинтересован в сообщении верной информации, а
первый игрок будет верить полученному сообщению, только если сообщение правды взаимно выгодно. В обоих случаях важно наличие возможности второму игроку влиять на выбор первого. Каким образом осуществляется это влияние - прямым выбором или посредством сообщения, большого значения не имеет.
Теорема 2. Вычисляя максимальный гарантированный результат Л(Г*) первого игрока в игре Г*, можно ограничится рассмотрением таких стратегий u*, что мощность множества u* не превосходит мощности множества A.
В частности, в играх без неопределенных факторов имеет смысл рассматривать только одноэлементные множества u*, то есть в этом случае децентрализация управления ничего не дает.
4. Вычисление максимального гарантированного результата
Таким образом, вычисление Л(Г*) сведено к вычислению Л(Г#). С учетом леммы 3, последняя величина может быть записана в виде
(8) R(r#) = sup inf inf g(u#(P), v,a),
щeT(A,U) aeA (v,P)eE#(u#,a)
где
E#(u#,a) =
() =((v,P) eV x A :h(u#(P), v,a) = max h(u#(fi’), v',a)\,
( (V ,P')eu# xV )
а T(A, U) - семейство всех тех функций из множества 0(A, U), для которых достигается максимум в формуле (9).
Поскольку в (8) имеется верхняя грань по функциональному пространству, задача вычисления Л(Г #) тоже является непростой.
Пусть D - множество всех функций u# e T(A, U), удовлетворяющих условию
max h(u# (a), v, a) = max max h(u# (P), v, a)
veV (3eA veV
для любого ae A. Введем следующие обозначения:
E(u,a) = jv e V: h(u,v,a) = maxh(u, v',a)|,
P(u# ,a) = < P e A: max h(u# (P), v, a) = max h(u# (a), v, a) >,
V veV ve V )
(10) ЗД(Г) = sup inf min min g(u#(P) v, a).
щeD aeA PeP(u#,a) veE(u#(P),a)
Формула (10) в известном смысле проще аналогичной формулы (8). Во-первых, в определении множества E(u, а) не присутствует стратегий-функций, в отличие от аналогичного множества E#(u#, а). Правда, добавляется минимум по «сложному» множеству P(u#, а), но для «типичных» игр это множество состоит из одной точки (см. примеры 2 и 3 ниже). Поэтому такое усложнение может оказаться несущественным. А во-вторых, множество D уже соответствующего множества T(A, U) и при этом задается простыми условиями, поэтому можно надеяться, что поиск максимума по D будет более простой задачей. Это объясняет полезность следующего утверждения.
Теорема 3. Справедливо равенство ^(Г#) = ЗД(Г) .
Доказательство. Пусть со# - произвольная стратегия из множества T(A, U), а функция (pe 0(A, A) удовлетворяет условию
max h(o# (p(a)), v, a) = max max h(o# (P), v, a)
veV (3eA veV
для любого ae A.
Рассмотрим стратегию u# e 0(A, U), определенную условием u#(a) = ca#(p(a)) для любого a e A. По определению функции p для любого a e A найдется v e V такое, что
(v, p(a)) e В(Г#; со#, a), причем в силу условия со# e T(A, U) максимум в определении множества В(Г#; со#, а) достигается. А так как очевидным образом выполняется тождество h(u#(a), v, a) = h(m#(p(a)), v, a), из условия (v, p(a)) e В(Г#;о#, a) следует включение (v, a) e В(Г#; u#, a), причем супремум в определении множества В(Г#; u#, а) тоже достигается.
По определению стратегия u# принадлежит множеству D. Кроме того, для любых v e V и ae A выполняется равенство g(u#(a), v, a) = g(o#(p(a)), v, a). Поскольку все сказанное спра-
ведливо для любой стратегии со# е ^(Л, и), верхнюю грань в формуле (8) можно брать по множеству В с *¥(Л, и).
Но для стратегии и# е В пара (V, а) е В(Г#; и#, а), если
V е Е(и#(а), а). А поскольку верхняя грань в определении множества В(Г#; и#, а) достигается, само это множество состоит из стратегий, которые столь же хороши для второго игрока, как и стратегия (V, а), то есть
В(Г#; и#, а) = {(V ', (З)еУхЛ: V 'еР(и#, а), V 'еЕ(и#(Р), а)}.
Поэтому, если первый игрок выберет стратегию и# е В и реализуется значение неопределенного фактора а е Л, то первый игрок может гарантированно рассчитывать на выигрыш
„тп е(м#(Д),у,а) ,
/-'еР (м^ ,а) уе&(ы#(Р),а)
а, следовательно, максимальный гарантированный выигрыш первого игрока равен ЗД(Г) , что и требовалось доказать.
Обсудим содержательную интерпретацию использованных конструкций. В рассматриваемой игре Г# множество Л появляется в двух ипостасях: как множество «физических» неопределенных факторов и как множество возможных сообщений, передаваемых вторым игроком. Во втором случае важно лишь количество элементов множества Л, а «смысл» передаваемым сообщениям можно придавать произвольным образом. Причем выбор первого игрока зависит исключительно от этого «смысла».
Можно попытаться по другому закодировать те же сообщения так, чтобы сообщению <р(а) в новой кодировке соответствовал тот же смысл, что который соответствует сообщению а в старой кодировке. Из приведенного доказательства видно, что такой способ перекодировки можно выбрать так, чтобы при заданной стратегии первого игрока и фиксированном значении неопределенного фактора одним из рациональных решений второго игрока была бы передача «истинной» информации.
Если множество Л достаточно велико, полученное достаточное условие позволяет существенно сузить множество стратегий первого игрока, которые следует рассматривать при поиске оптимальной.
Если говорить только о конструктивном построении оптимальной стратегии первого игрока в игре Г*, то все описанные конструкции оправданы, по видимому, в том случае, когда множество A «меньше» множества U. В известном смысле о конструктивности найденного решения можно говорить, если множество A конечно, например, A = {1, 2, ..., a}.
В таком случае любую функцию u# можно отождествить с вектором (u#(1), u#(2), ..., u#(a)), а принадлежность множеству D будет задаваться системой неравенств
max h(u# (a), v,a) > max h(u# (P), v,a),a = 1,2,..., a,P = 1,2,..., a.
veV veV
Таким образом, приходим к довольно сложной, но все-таки «конечномерной» оптимизационной задаче.
Характер оптимальных стратегий в игре Г# в значительной степени проясняет рассмотрение следующих примеров.
Пример 2. Пусть функция h задается матрицей ^(1,9) (7,5)Л
ч(4,2) (8,6),
(как обычно, номер строки выбирается первым игроком, номер столбца - вторым, а номер элемента в каждой из скобок соответствует значению неопределенного фактора).
Поскольку матрица типична, т.е. все ее элементы попарно различны, множество P(u#, a) всегда состоит из одного элемента а, поэтому формула (10) упрощается:
ЗД(Г) = sup inf min g(u#(a), v,a) .
щeD aeA vet(u№(a),a)
Функция max h(u, v,a) в данной игре задается матрицей
veV
^(7,9)^
(8,6)
(как и прежде номер строки - это управление первого игрока, а порядковый номер элемента в скобках соответствует значению неопределенного фактора).
В данной игре множество ^(A, U) содержит четыре функции. Две из них постоянные, и они заведомо попадают в множество D (это общий факт).
Из двух других функция u#(a) = а не принадлежит множеству D, так как максимум функции max h (P, v,1) достигается при
vEV
P = 2, а не при P= 1. Если первый игрок выберет эту стратегию и реализуется а = 2, то второму игроку выгодно будет солгать.
А вторая функция u#(a) = (3-a) принадлежит D. В самом деле, если реализуется a = 1, а второй игрок передаст ложное сообщение P = 2, то это приведет к выбору u = 1 и выигрыш второго игрока составит h(1, 2, 1) = 7, а при передаче истинного сообщения P = 1, первый игрок выберет u = 2, и второй может рассчитывать на выигрыш h(2, 2, 1) = 8. Аналогично, если реализуется а = 2, то ложное сообщение приводит к u = 2 и h(2, 2, 2) = 6, а истинное - к u = 1 и h(1, 1, 2) = 9.
В силу типичности матрицы выигрышей второго игрока, множество E(u, а) также всегда содержит один элемент: E(1, 1) = {2}, E(1, 2) = {1}, E(2, 1) = {2}, E(2, 2) = {2}.
Дальнейшее зависит от функции выигрыша первого игрока. Для простоты будем считать, что от неопределенного фактора эта функция не зависит. Если она задается матицей
( 2 1Л
v 3 0, ,
то максимальный гарантированный результат первого игрока равен 1 и доставляется функцией u#(a) = 1. В этом случае децентрализация управления не оправдана, так как оптимальная стратегия предписывает первому игроку самому осуществить окончательный выбор своего управления.
Если же критерий первого игрока задается матрицей
( 2 0 ^
(11) ,
3 1
V 3 1 /
то при той же функции выигрыша второго игрока оптимальной является стратегия u#(a) = (3 - а). В этом случае право выбора управления u лучше всего уступить второму игроку.
Пример 3. Пусть критерий первого игрока задается матрицей (11), а функция выигрыша второго - матрицей
' (2,4) (2,3) л v(0,1) (2,5), .
Стратегия u#(a) = 3 - а принадлежит множеству D. Но в силу равенства h(1, 1, 1) = h(1, 2, 1) множество P(a, 1) состоит из двух точек, и эта стратегия гарантирует первому игроку выигрыш 0, а не 1. Вообще, нетрудно смекнуть, что справедливость этого равенства приводит к тому, что среди оптимальных стратегий первого игрока есть функции-константы независимо от вида его функции выигрыша.
Стоит заметить, что использовавшееся при поиске решения в этой игре условие h(1, 1, 1) = h(1, 2, 1) может быть нарушено сколь угодно малыми изменениями элементов матрицы выигрышей второго игрока, от чего поменяется качественная структура оптимальной стратегии игрока верхнего уровня.
4. Некоторые оценки
Вычисление величины Л(Г #) остается весьма сложной задачей. Поэтому имеет смысл привести более простые оценки максимального гарантированного результата Л(Г*).
Сузим множество стратегий в игре Г#, запретив первому игроку использовать стратегии, отличные от постоянных функций (по сути, при этом мы возвращаемся к исходной игре Г). Максимальный гарантированный результат при этом не увеличится. Но в игре Г этот максимальный гарантированный результат вычисляется легко. Таким образом, приходим к неравенству
R(r„) > sup min min g(u, v, a) .
u<eU aeA veE(u,a)
Для получения верхней оценки рассмотрим еще одну вспомогательную игру Г», отличающуюся от игры Г# тем, что второй игрок обязан сообщить партнеру истинное значение неопределенного фактора. Поскольку при переходе от игры Г# к игре Г» мы, по существу, сужаем множество стратегий второго игрока, максимальный гарантированный результат первого игрока не уменьшается. В игре Г» максимальный гарантированный ре-
зультат первого игрока вычисляется стандартным образом. Поэтому справедливо неравенство
R(r*) < min sup min g(u, v, a) .
aeA u/-jj veE(u,a)
Обе полученные оценки выражены в терминах исходной игры Г и не апеллируют к функциональным или каким-то еще сложным пространствам. Первую оценку нетрудно получить и непосредственно для основной игры Г*. Для получения второй оценки использование связи между играми Г* и Г# естественно,
а, возможно, и необходимо.
5. Сравнение с аналогичными постановками
В [12, 13] рассмотрена модель, аналогичная игре Г* с близкой по смыслу интерпретацией. Отличие двух моделей (в наших обозначениях) заключается в том, что в модели из [12, 13]:
1) множество управлений второго игрока V состоит из одной точки, то есть у второго игрока нет «своих» управлений, а выбирать он может только те параметры, которые разрешит его партнер;
2) множество неопределенных факторов состоит из одной точки, то есть «природная» неопределенность отсутствует;
3) функция выигрыша первого игрока g* зависит не только от выбранного «физического» управления u, но и от ограничения u*, накладываемого первым игроком на выбор партнера.
Первое отличие, видимо, не слишком существенно. Рассмотрение более общей модели, на мой взгляд, несколько более естественно, но не вносит ничего качественно нового.
Второе отличие, напротив, принципиально. Как следует из теоремы 2, именно наличием неопределенности оправдывается целесообразность перехода к более широкому классу стратегий.
Третье отличие может интерпретироваться следующим образом. На содержательном уровне рассмотренные в [12, 13] функции выигрыша соответствуют тому, что результаты центра зависят не только от физических параметров, выбранных им и игроком нижнего уровня, но и от ограничений, которые стиму-
лируют второго игрока, но сами остаются «на бумаге». Реальную систему, в которой дело обстоит так, представить трудно.
Поэтому рассмотрение столь общих функций выигрыша может быть оправдано лишь существенными практическими потребностями, которых пока не видно. Вдобавок к этому рискну предположить, что более общая задача является принципиально более сложной, а о свойствах, присущих всем моделям из более широкого класса можно сказать гораздо меньше содержательного.
Модели, аналогичные вспомогательной игре Г#, активно исследовались специалистами по теории активных систем [1-3, 7]. Класс моделей изучавшихся выше, и класс моделей из [1-3, 7] имеют непустое пересечение, но и не покрывают друг друга. В самом деле, с одной стороны, в [1-3] рассматриваются игры многих лиц, а в данной работе изучаются игры только двух лиц. С другой стороны, предложенные там модели более конкретны (рассматриваются модели стимулирования производителей, а не игры вообще), а потому функции выигрыша и множества стратегий имеют более специальный вид (например, в [2] предполагается, что управления первого игрока (планы) и управления второго игрока (физические объемы выпуска продукции) принадлежат одному пространству).
Отметим, что конструкции из раздела 3 весьма близки конструкциям из [1, 2], но получены они из несколько иных соображений. Выше для обеспечения достоверности сообщаемой информации используется просто ее перекодировка. Понятно, что проблемы с перекодировкой могут возникнуть лишь в том случае, когда при фиксированной стратегии центра второму игроку выгодно передать одно и то же сообщение при разных значениях неопределенных факторов. Но в [1, 2] принимается гипотеза о доброжелательности второго игрока, а потому и эта проблема снимается.
В [3, 7] изложены некоторые идеи и результаты поиска оптимальных стратегий. Эти идеи и результаты могут оказаться полезными при дальнейшем исследовании рассмотренных выше задач.
Пожалуй, стоит сделать одно замечание исторического характера (об упущенных возможностях). Уже довольно давно вышли в свет работы [8] и [9]. В них содержался ряд интересных и новых по тем временам идей. Но обе работы вышли практически одновременно, поэтому анализа взаимной связи этих идей дано не было. На наличие этих связей лишь одной фразой указывается в [10]. Между тем, именно анализ этих связей позволил получить основные результаты в предлагаемой работе.
В работе [8] (см., также [5]) исследовалась иерархическая игра, в которой функция выигрыша игрока нижнего уровня зависела от параметра, не известного его партнеру. При поиске оптимального информационного расширения этой игры выяснилось, что возможность обменяться информацией о значении этого параметра может привести к увеличению максимального гарантированного результата игрока верхнего уровня, даже если он не может быть уверен в достоверности сообщения партнера.
В [9] рассмотрена другая модель, в которой представления первого игрока о функции выигрыша второго задаются неким интервалом. В качестве стратегий первого игрока там рассматривались функции из множества управлений второго игрока в множество управлений первого. В работе [10] постановка задачи из [9] была слегка модифицирована и, по-видимому, впервые в качестве стратегий были рассмотрены не функции, а точечномножественные отображения. Это мотивировалось (со ссылкой на [8]) желанием найти оптимальный способ обмена информацией. Но как раз в задачах из [9] и [10] этот прием упрощает поиск решения, но не увеличивает получаемый выигрыш, что показывает сравнение найденных там результатов. А вот сама идея о том, что конструкции из [9] и [10] описывают близкие содержательные эффекты, является одной из центральных идей, использованных выше.
Тот факт, что переход от рассмотрения функций в качестве стратегий к исследованию точечно-множественных отображений упрощает поиск решения, вероятно, имеет общий характер. А вот совпадение результатов в задачах из [9] и [10] следует отметить. Коль скоро решения обоих задач найдены, оно становится очевидным. Но по иронии судьбы именно в [8] содержит-
ся идея, используя которую можно было бы придти к этому выводу, зная решение только одной, более простой задачи. В самом деле, в [10] многозначность оптимального отображения возникает в точках разрыва некой вспомогательной функции. Точка разрыва не может быть изолированной. Поэтому можно воспользоваться техникой, развитой в [6] и основанной на указанной идее из [8], чтобы показать, что гарантированный выигрыш игрока верхнего уровня в данной задаче не меняется при рассматриваемом расширении класса стратегий.
6. Заключение
Остановимся на основном качественном выводе, полученном выше. Он заключается в том, что целесообразность децентрализации управления в рамках данной модели обуславливается исключительно наличием неопределенного фактора.
Предлагались и другие способы объяснения возникновения иерархии. Например, отмечалась, что многие технические системы имеют черты иерархической организации, и структуру управления такими системами сводили исключительно к этой иерархии. В наших терминах техническая сторона дела описывается структурой множеств управлений и и V. А приведенные выше примеры показывают, что оптимальная степень децентрализации существенно зависит еще и от интересов игроков.
Единственное существенное ограничение заключается в предположении компактности множеств управлений и непрерывности функций выигрыша. Эти предположения выше использовались по существу. Приняв их, мы исключили из рассмотрения, например, случаи, когда уже исходная игра Г предполагает обмен информацией и, соответственно, множества и и V представляют собой функциональные пространства. Следует признать, что, пользуясь предложенной выше техникой, каждый из вариантов взаимной информированности игроков пришлось бы рассматривать отдельно. Но можно предположить, что качественный характер решения при этом не изменится.
В пользу последней гипотезы говорят, например, следующие соображения. Множества «физических» управлений всегда
можно аппроксимировать конечными множествами. Следовательно, и множества стратегий, которые получатся после учета обменов информацией, будут конечными. А тогда все полученные выше выводы будут справедливы. Значит, либо модель не устойчива по отношению к аппроксимации, и ей нельзя пользоваться, либо верны полученные качественные выводы.
Более интересными кажутся следующие соображения. Как было показано, целесообразность децентрализации обусловлена наличием факторов, удовлетворяющих следующим условиям:
• значение этого фактора известно подчиненному, но не известно начальнику;
• ни один игрок не может влиять на значение этого фактора. Последнее требует пояснения. В момент принятия решения
первый игрок не знает ни действий партнера, ни значения неопределенного фактора. Но, зная интересы второго игрока, первый может «просчитать» его действия, и тем самым устранить неопределенность. Поэтому наличие «разумного» партнера не приводит к необходимости децентрализации. А вот «природную» неопределенность таким образом устранить нельзя, что и может привести к целесообразности децентрализации управления.
Не исключено, что это происходит потому, что в модели никак не учитывается сложность задачи предсказания поведения партнеров. Но «сложность» - это понятие из конструктивной, а не теоретико-множественной математики [14]. А конструктивной теории игр пока, увы, не существует.
В этой связи стоит отметить еще один факт, установленный выше: оптимальная стратегия первого игрока в игре Г* получается как множество значений некоторой функции. В классических теоретико-игровых моделях ответ обычно задается в виде системы равенств и неравенств, то есть как прообраз при каких-то отображениях. Если рассматривать произвольные функции, то принципиальной разницы тут нет. Но если ограничиться рассмотрением только алгоритмически вычислимых функций, разница возникает. Как математические, так и содержательные аспекты возникающих здесь проблем давно обсуждаются специалистами по логике и теории алгоритмов (см. ссылки в [14]).
Подобная разница задач анализа и синтеза иерархических систем управления проявляется уже не в первый раз.
Содержательно разницу объяснить нетрудно. Если нужно проверить, принадлежит ли элемент х прообразу множества У при отображении / нужно просто вычислить значение Дх). Если функция / - вычислимая, это задача нетрудная. Если же мы хотим проверить, принадлежит ли элемент у образу множества X при том же отображении, придется решать уравнение Дх) = у, а это уже задача даже при простой функции /
Литература
1. БУРКОВ В.Н. Основы математической теории активных систем. - М.: Наука, 1977. -255 с.
2. БУРКОВ В.Н., ЕНАЛЕЕВ А.К. Оптимальность принципа открытого управления. Необходимые и остаточные условия достоверности информации в открытых системах // Автоматика и телемеханика. - 1985, - № 3. - С. 73 - 80.
3. БУРКОВ В.Н., ЕНАЛЕЕВ А.К., КАЛЕНЧУК В.Ф. Оптимальность принципа открытого управления. Вычисление оптимальной процедуры планирования и ее свойства // Автоматика и телемеханика. - 1986, - № 9. - С. 87 - 93.
4. ГЕРМЕЙЕР Ю.Б., МОИСЕЕВ Н.Н. О некоторых задачах теории иерархических систем. / Проблемы прикладной математики и механики. - М.: Наука, 1971. - С. 30-43.
5. ГОРЕЛИК В.А., КОНОНЕНКО А.Ф. Теоретико-игровые модели принятия решений в эколого-экономических системах. - М.: Радио и связь, 1982. - 144 с.
6. ГОРЕЛОВ М.А. Геометрия информационных расширений // Автоматика и телемеханика. - 2009. - № 8. - С. 145 - 155.
7. ЕНАЛЕЕВ А.К. Оптимальный механизм функционирования в активной системе с обменом информацией // Управление большими системами. - 2010, - Выпуск 29. - С. 108 - 127.
8. КОНОНЕНКО А. Ф. Роль информации о функции цели противника в играх двух лиц с фиксированной последовательностью ходов // Журн. вычисл. матем. и матем. физ. -
1973. - Т. 13. - №2. - С. 311-317.
9. КУКУШКИН Н.С. Об одной игре с неполной информацией // Журн. вычисл. матем. и матем. физ. - 1973. - Т. 13, -№1. - С. 210-216.
10. КУКУШКИН Н.С., МОРОЗОВ В.В. Теория неантагонистических игр. - М.: МГУ, 1984. - 104 с.
11. МОИСЕЕВ Н.Н. Элементы теории оптимальных систем. -М.: Наука, 1975. - 526 с.
12. НОВИКОВ Д. А. Теория управления организационными системами. - М.: МПСИ, 2005. - 584 с.
13. НОВИКОВ Д. А. Институциональное управление организационными системами. - М.: ИПУ РАН, 2004. - 68 с.
14. УСПЕНСКИЙ В.А., СЕМЕНОВ А Л. Теория алгоритмов: основные открытия и приложения. - М.: Наука, 1987. - 288 с.
A MODEL OF INSTITUTIONAL CONTROL
Mikhail Gorelov, Computer Center of RAS, Moscow, Cand.Sc., (griefer@ccas .ru).
Abstract: A hierarchical two-player game is considered, where the first player exerts restrictions on the choice of his or her opponent. A relation of this game to the games with communication and information manipulation is established.
Keywords: hierarchical system, institutional control, maximal guaranteed result.
Статья представлена к публикации членом редакционной коллегии В.Н. Бурковым
9З