УДК 517.977.8+519.834 ББК 22.18
УСТОЙЧИВЫЙ ВЕКТОР ШЕПЛИ В КООПЕРАТИВНОЙ ЗАДАЧЕ ТЕРРИТОРИАЛЬНОГО ЭКОЛОГИЧЕСКОГО ПРОИЗВОДСТВА1 2
Зенкевич Н.А.3,
(Санкт-Петербургский государственный университет, Высшая школа менеджмента, Санкт-Петербург) Козловская Н.В.4
(Санкт-Петербургский государственный университет, Факультет прикладной математики - процессов управления, Санкт-Петербург)
В статье исследована теоретико-игровая модель территориального экологического производства. Процесс управления выбросами моделируется неантагонистической дифференциальной игрой. Предложен устойчивый механизм перераспределения прибыли в случае кооперации предприятий с целью уменьшения общего загрязнения окружающей среды. Найдено абсолютное равновесие по Нэшу. В качестве кооперативного решения игры построен и исследован устойчивый вектор Шепли, который обладает свойствами динамической устойчивости, стратегической устойчивости и устойчивости против иррационального поведения. Приведен численный пример.
Ключевые слова: дифференциальная игра, кооперативная игра,
1 Работа выполнена по тематическому плану фундаментальных научно-исследовательских работ ВШМ, СПбГУ (проект № 16.0.116.2009) при финансовой поддержке Российского фонда фундаментальных исследований (проект № 08-1-00301-а).
2 Текст приводится в соответствии с изданием «Математическая теория игр и ее приложения. -2010. - Т. 2. № 1. - С. 67-92».
3 Николай Анатольевич Зенкевич, кандидат физико-математических наук, доцент (zenkevich@gsom.pu.ru).
4Надежда Владимировна Козловская, аспирант (kknn@yandex.ru).
динамическое программирование, уравнение Гамильтона-Якоби-Беллмана, вектор Шепли, равновесие по Нэшу, абсолютное равновесие, устойчивость кооперативного решения, динамическая устойчивость, стратегическая устойчивость, устойчивость против иррационального поведения.
Введение
В статье исследована теоретико-игровая модель территориального экологического производства, которая основана на работе Л.А. Петросяна и Г. Заккура [8]. В статье [8] моделировалось международное экологическое соглашение, результатом которого явилось динамически устойчивое (состоятельное во времени) распределение совокупных затрат при условии снижения общего уровня загрязнения. Затраты складывались из двух составляющих: выраженный в денежном эквиваленте экономический ущерб, включающий материальный ущерб, ущерб здоровью граждан и окружающей среде, и затраты на снижение выбросов с максимального уровня до некоторого допустимого. Такая постановка оправдана и логична, когда речь идет о межгосударственных соглашениях, направленных на заботу о благосостоянии и экологической безопасности граждан.
В том случае, если экологические проблемы рассматриваются на региональном уровне, а участниками конфликтноуправляемого процесса являются непосредственные виновники загрязнения - промышленные предприятия, проведение природоохранных мероприятий и плата за нанесенный ущерб окружающей среде остаются важнейшими задачами наряду с получением прибыли от хозяйственной деятельности.
В настоящее время мы наблюдаем недостаточную эффективность рыночного механизма применительно к ресурсам общего пользования, таким как вода и воздух. В данной работе мы рассматриваем процесс регулирования выбросов в атмосферу, в результате которого издержки внешнего эффекта переносятся на его виновника. Такой процесс называется интернализацией [4]. Несмотря на то, что экологическое регулирование является слож-304
ной системой инструментов управления, которая включает различные рычаги, стимулы, стандарты и нормативы, большинство известных механизмов неэффективно в силу специфичности самого объекта исследования.
В статье исследована проблема кооперативного социальноответственного соглашения, когда предприятия добровольно принимают решения о дополнительном регулировании, в результате которого они существенно снижают объемы выбросов по сравнению с законодательно допустимым уровнем. Добровольный подход к экологическому регулированию успешно применяется в ряде экономически развитых стран [3]. Добровольное регулирование, как правило, приводит как к кооперации участников соглашения между собой, так и к сотрудничеству с государством. Ранее подобные модели экологического регулирования исследовались в работах [6], [11].
В работе [9] также исследовано расширение модели [8] на случай асимметрии игроков, что привело к существенным техническим усложнениям. В данной статье рассматривается задача, когда основная цель предприятий заключается не в минимизации затрат, а в максимизации прибыли. Для этого вводятся функция прибыли и функция цены, где последняя является обратной функции спроса. Предполагается, что региональные предприятия конкурируют по Курно. В модели найдено равновесие по Нэшу [7], которое является абсолютным, т. е. оно остается равновесием по Нэшу в любой подыгре, начинающейся с любого промежуточного момента времени из любого начального состояния. Для нахождения регионального кооперативного соглашения специальным образом построена характеристическая функция игры и доказана её супераддитивность. Цель данного исследования - построение устойчивого механизма перераспределения прибыли при долгосрочной кооперации. В качестве кооперативного решения дифференциальной игры выбран динамический вектор Шепли [10], который оказывается устойчивым.
Используемая концепция устойчивости кооперативного решения восходит к работе [2], где выделены три свойства устой-
чивой кооперации: динамическая устойчивость (состоятельность во времени), стратегическая устойчивость и устойчивость против иррационального поведения. Первое свойство - это динамическая устойчивость кооперативного решения. Впервые понятие динамической устойчивости было введено Л.А. Петросяном в работе [1]. При этом решение является динамически устойчивым, если оно обладает таким свойством, что в каждый момент времени при движении вдоль оптимальной траектории игроки придерживаются заранее выбранного принципа оптимальности. Кооперативное решение является стратегически устойчивым в том случае, если индивидуальные отклонения игроков оказываются не выгодны, т. е. существует равновесие по Нэшу которое осуществляет поддержку данного кооперативного решения. Устойчивость от иррационального поведения должна рассматриваться, поскольку нет уверенности в том, что все участники кооперации будут вести себя рационально на всем продолжительном промежутке реализации кооперативного соглашения. Участники должны быть уверены, что даже в случае реализации наихудшего сценария (например, аннулирования кооперативного соглашения) их выигрыш будет не меньше, чем при изначальном некооперативном поведении.
1. Решение задачи в случае конкуренции предприятий
1.1. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ЗАДАЧИ
Предположим, что на региональном рынке п предприятий (игроков) производят однородный товар. Обозначим множество игроков через I = {1, 2,..., п}.
Обозначим также qi = Цг(Ь') - объем выпуска предприятия г в момент времени Ь. Будем предполагать, что цена товара р = р(Ь) в каждый момент времени Ь имеет вид:
(1) Р(Ь) = а - Щ(Ь),
П
где а > 0, Ь > 0 - параметры, Q(t) = ^ qi(t) - общий объем
i=1
выпуска продукции. Здесь функция цены р(Ь) является функцией
обратной функции спроса:
а — р(Ь)
Я = Я(і) =
Ь
Производственные издержки предприятий предполагаются линейными:
Сг(дг(Ь)) _ сдг(Ь), с> 0, г е I.
Будем предполагать, что игра начинается в момент времени Ьо из начального состояния $о, где §о - это объем загрязнения в момент Ьо, и имеет неограниченную продолжительность. Обозначим через вг(Ь) - выбросы предприятия г в момент времени Ь. Предполагается, что выбросы линейно зависят от объема производства предприятия г:
(2) вг(дг(Ь)) _ адг(Ь), а> 0.
Под параметром ёг будем понимать норматив допустимого воздействия на окружающую среду, а именно показатель ПДВ (предельно допустимый выброс), определяющий максимально разрешенный уровень выбросов для предприятия г 5:
(3) 0 ^ вг(дг(Ь)) ^ ёг.
Из формулы (3) следует, что максимальный допустимый объем производства фирмы г равен:
вё
дШах __
г а,
тогда максимально допустимый общий объем выпуска равен:
вё
^шах __ _
а
5 В соответствии с российским природоохранным законодательством, предельно допустимые выбросы разрабатываются самостоятельно каждым предприятием, а потом утверждаются региональным экологическим комитетом, поэтому их значения различны для каждого предприятия (Федеральный закон от 10.01.2002 «Об охране окружающей среды», ст. 23.).
П
где в _ ёг. Будем полагать, что параметры модели таковы, что
г=1
верно неравенство:
а — с----в ^ 0,
а
которое гарантирует неотрицательность цены (1).
Обозначим через в _ в(Ь) - общее загрязнение к моменту Ь. Предполагается, что динамика накопления загрязнения определяется дифференциальным уравнением:
П
(4) в(Ь)_ а ^ дг(Ь) — 8в(Ь),в(Ьо)_ во,
к=1
где 8 - коэффициент, определяющий долю природно поглощенного загрязнения, а > 0 - параметр. Предполагается также, что кроме производственных издержек, каждое предприятие несет ещё два типа издержек, не связанных с основной деятельностью: издержки на природоохранные мероприятия и издержки на возмещение ущерба от загрязнения. Будем считать, что издержки на природоохранные мероприятия в момент времени Ь имеют вид:
Ег(Ь) _ 2вг(Ь)(2ёг — вг(Ь)) адг(2ёг — адг),
^ > 0, 0 ^ вг(Ь) ^ ёг.
Понятно, что функция издержек Ег(Ь) является возрастающей и достигает максимального значения в точке дг _ ёг. Эта функция также выпукла вверх, что содержательно можно трактовать так: при снижении на единицу объема производства затраты на природоохранные мероприятия увеличиваются.
Будем считать, что издержки на возмещение ущерба от загрязнения линейно зависят от объема загрязнения:
Ег(в(Ь)) _ пгв(Ь), пг > 0, г е I.
Под ущербом от загрязнения будем понимать экономический ущерб, т. е. совокупность материального ущерба, ущерба здоровью граждан и ущерба, нанесенного окружающей среде производ-308
ственной деятельностью, в денежном выражении. Будем предполагать, что каждое предприятие стремится максимизировать свою общую прибыль, дисконтированную на начальный момент Ьо:
СО
(5) Пг(в0,Ь0; д) = ! е-р(—о){рдг - Сг(дг) - Бг(в) - Ег(дг)}йЬ,
*0
где д = д(Ь) = (дг(Ь), д2(Ь),..., дп(Ь)), t ^ Ь0 - траектория выпуска продукции, а 0 < р < 1 - процентная ставка.
1.2. ВЫЧИСЛЕНИЕ РАВНОВЕСИЯ ПО НЭШУ
В равновесии по Нэшу каждый игрок стремится максимизировать свою прибыль (5):
СО
Ш ({г}, в, Ь) = тахПг(в, Ь; д) = тах е-р(т{дг(а - ЪО)-
41 Яг )
1
Л/
- сдг - пгв + ^адг(адг - 2ег)}йг, г е I,
где динамика накопления загрязнения в задается (4). Для нахождения равновесия по Нэшу необходимо решить систему уравнений Гамильтона-Якоби-Беллмана. Обозначим функцию Беллмана для этой задачи через Шг = Ш({г},в,Ь). Вышеупомянутая система уравнений может быть записана следующим образом:
2
(6) рШг = тах{дг(а - ЪО) - сдг - пгв + '^^д2 - 7аегдг+
4г 2
+ (аО - ^в)}, г е I.
Дифференцируя правую часть формулы (6) по дг и приравнивая производную нулю, находим:
2 дШг
Рг = а - ЪО - Ьді - с + ^а2дг - 7аеі + а
дв
Вычислим вторую производную Рг по дг~.
ІЇРі 2 0.
—— = - 2Ъ.
адг
Таким образом, максимум существует, когда ^а2 < 2Ъ. Будем искать функции Беллмана Шг в линейной форме [5]:
(7) Шг = Агв + Вг.
Тогда
т = Аг.
дв
Решая систему уравнений Рг = 0, і Є I относительно дг, находим:
Л? = 1 (а с Ъа(А - Iе) \ + аАг - ^аег
дг Ъ(п + 1) - а2^\а С Ъ - а2 7 ) Ъ - а2^ Є 1
где А = Е Аз, е = Е е.
3 = 1 3 = 1
Тогда стратегии игроков в равновесии по Нэшу равны:
( 0, $ < 0,
-о -О ^ а ?
—, — < Чі •
аа
В данном исследовании ограничимся случаем, когда 0 ^ д? ^ а. Будем предполагать, что параметры модели таковы, что Є [0, а]. Подставляя (7) в систему (6), находим:
Аг = -- Пі
р + 5
Вг = - {(а - с)дгм - ЪдУОм+аАгОм + ($)2 - ^аегд?),
р2
П
где дУ определяются формулой (8), а <Ом = ^ дN. Найдем те-
3 = 1
перь равновесную по Нэшу траекторию. Подставляя найденные стратегии игроков (8) в уравнение динамики (4) и решая его получаем:
вм (ь)=(во - аяи )е-&(ь-ьо)+аои,
о о
? п(а - с) + аА - 7ае
где
(9) О? = и +ЛЛ 2
Ъ(п + 1) - а27
В силу того, что равновесие по Нэшу является решением системы уравнений Гамильтона-Якоби-Беллмана, оно является абсолютным равновесием, т.е остается таковым в любой подыгре с любыми начальными условиями.
2. Характеристическая функция кооперативной игры
Для построения кооперативного решения в задаче экологического производства определим характеристическую функцию V(К, в, Ь) этой игры. Идея построения характеристической функции следующая (см. [8]. Когда значение характеристической функции вычисляется для коалиции К, то действия игроков из К представляют собой наилучший ответ на фиксированное равновесие по Нэшу. Данный подход к вычислению характеристической функции имеет свои недостатки и достоинства. Достоинство заключается в том, что такой подход позволяет существенно сократить число вычислительных операций по сравнению со стандартным подходом, когда V(К, в, Ь) представляет собой максимальный гарантированный выигрыш коалиции К, если даже остальные игроки объединяются в дополнительную коалицию
I\К. Недостатком подхода является тот факт, что характеристическая функция, вычисленная таким образом, в общем случае не является супераддитивной.
2.1. ЗНАЧЕНИЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ ДЛЯ
ПРОИЗВОЛЬНОЙ КОАЛИЦИИ
Значение характеристической функции для произвольной коалиции К будем вычислять, решая уравнение Гамильтона-Якоби-Беллмана. Функция Беллмана Ш(К, в, Ь) является решением сле-
дующей задачи максимизации:
(10) Ш(К,в,Ь) = тах ^ П(в,Ь;> 4 еК зек
= тах Яі ек ^
3 зек г
I е-р(т-ь){дг(а - ЪО) - сдг - пгв+
+ 2адг(адг - 2ег)}йг, где динамика задается формулой (4). Обозначим через Шк =
Ш(К,в,Ь) функцию Беллмана задачи (10). Решение задачи
(10) эквивалентно решению следующего уравнения Гамильтона-Якоби-Беллмана:
(11) рШк = тах{^дз(а-ЪО)-сТ.дз-^в+
4 Зек зек зек
+ ^ ^ д2 - ^а ^ ездз + (аО - 5в)}.
зек зек
Для нахождения наилучших ответов игроков дк, г е К найдем производную правой части уравнения (11) по дг:
б,Рк , „ , \ 2 - дШк
—— = а - ЪО - Ъу дз - с + 7а2дг - 7аег + а——.
% зек дв
Вспомним, что игроки, не входящие в коалицию К, действуют согласно фиксированным равновесным по Нэшу стратегиям, т. е. дк = дУ, г е I\К. Тогда дк, г е К могут быть найдены из системы:
(12) а - с - Ъ ^ дУ - 2Ъ ^ дк+
зе1\к зек
2 - дШк
+ 7а дг - 7аег + а—— = 0, г е К. ов
Суммируя (12) по і Є К, находим:
(13) ^ дк = 1 (к(а - с) - 7аек+
2Ък - а27
гек 1
дШк ,,
+ ~двГ- ^ ),
зеї\к
где ек = ^2 ез, к = ІКI - количество элементов в множестве К.
зек
Подставляя (13) в (12), находим дк:
(14) дк = —2_(а - с - Ъ £ д?-
зеї\к
ог, к - , дШк ^
2Ъ1^д3 - ^аег + а^Т), зек
где д? определяются формулой (8).
Функцию Беллмана будем искать в линейной форме:
(15) Шк = Ак в + Вк.
Подставляя (15) и (14) в уравнение (11), находим коэффициенты:
Е пз
(16) л дШк зек
(16) Ак = ~дГ = - 7+Г ■
Вк = 1((а - с) £ д'к - Ъ £ дк(£ з+
Р зек зек зек
+ £ д?) + аАк (£ з + £ д?)+
зеї\к зек зеї\к
2
+ іг £(дк )2 - 1аИ ез дк)
зек зек
Из (13), (8) и (14) получаем:
к ег 1 ((а - с)(Ъ(к + 1) - а2•у)
<17> = а +21,к - а?-, ('
а 2Ък - а2у\ Ъ(п + 1) - а2у аЪ(А - уе)(Ъ(к + 1) - а27) (Ъ - а2у)(Ъ(п + 1) - а2у)
+
2Ъ - а2у , . Ъ к. \
+ ^---------1Г- (аАк --екЯ.
Ъ - а2у а )
Если сформировалась коалиция К, то её траектория вк(і) имеет
вид:
і „ аі „к ,
(18) 8К(г) = (80 - а(ак + £ я?))в-6^+
зет\к
+а (як + е а?),
зет\к
где
як = £ дкс = 0,. 1 2 (к(а - с) - ^аёК + акАк - Ьк У'' я?). ' 2Ьк—а2^
зек 1 зет\к
2.2. ЗНАЧЕНИЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ ДЛЯ МАКСИМАЛЬНОЙ КОАЛИЦИИ
Рассмотрим теперь случай полной кооперации, т. е. случай, когда игроки объединяются в максимальную коалицию. Оптимальные (кооперативные) стратегии игроков дт могут быть получены подстановкой соответствующих параметров в формулу (17):
Т е-г 1 . 2Ь.
=------+ (а - с + аА-----е).
а 2Ьп - а2у а
Можно показать, что 0 ^ ат ^ ^, если 0 ^ а? < ^.
Оптимальная (кооперативная) траектория 8Т(г) имеет вид:
(19) 8Т(г) = (80 - аоТ)е-&(-°) + ^т,
о о
где
(20) дт = £ 3 = п(а - С) + апА - аГе ■
' 3 2Ьп — а
зет
Функция Беллмана для максимальной коалиции имеет вид:
(21) Шт (8,г) = ш = А8 + в,
где
А=
Е пз зет
р + 3
В = -((а - с)От - Ъ(дт)2 + аАОт+Е(дт)2 - іа £ е здт) Р 2 зет зет
Лемма 1. Если О1, 0м ^ 0, то загрязнение в случае полной кооперации не больше, чем загрязнение в равновесии по Нэшу, т. е.
в1 (і) ^ вм(і).
Доказательство. Из формул (9) и (20) очевидно, что 0м >
0т. Рассматривая разность, имеем:
вм(і) - вт(і) = а(0м - 0т)(1 - е-&(і-іо)) ^ 0. д
(22) V (Ь,в,і) = {
Подытоживая результаты раздела 3, получаем явный вид характеристической функции кооперативной игры:
'0, Ь = 0 Ш ({г},8,г), Ь = {г} ш(1,8,г), ь = I ,
ш(к,8,г), ь = к где Ш({г}, 8, г), Ш(К, 8, г), Ш(1,8, г) задаются формулами (7),
(15), (21).
3. Супераддитивность характеристической функции
Как уже отмечалось ранее, характеристическая функция (22) в общем случае не является супераддитивной. Поэтому проверка свойства супераддитивности является самостоятельной задачей. По причине громоздкости формул и выкладок при доказательстве в общем случае, приведем здесь доказательство теоремы о супераддитивности только для симметричного случая. Для доказательства будем предполагать, что:
ег = е, Аг = А, г е I.
Теорема 1. Характеристическая функция (22) удовлетворяет свойству супераддитивности, для любых 8 = 8 (г) и г ^ г0:
V(К и Ь, в, і) ^ V(К, в, і) + V(Ь, в, і), К,Ь С I.
Доказательство.
Для доказательства свойства супераддитивности необходимо показать, что:
V(к и ь, 8, г) - V(к, 8, г) - V(ь, 8, г) =
= Акиь8киь - Ак8к - АЬ8^ + вкиь - вк - вь ^ °.
Доказательство будем проводить в два этапа. Сначала докажем, что
(23) Акиь8киЬ - Ак8к - Аь8Ь ^ 0.
Для этого рассмотрим левую часть (23):
АкиЬ8киЬ - Ак8к - АЬ8Ь = Ак(8киЬ - 8к) + АЬ(8киЬ - 8Ь).
Из формулы (18) следует, что
8к = 8ое-&(1-1о) + а (ак + ат\к )(1 - е-&(1-1о)),
где ат\к = Е а?. Тогда
зет\к 8киЬ - 8к = а (1 - е-*™)^ - ак + Ят\(киь) - ат\к) =
= а(1 - е-<5(*- *о))(£ акиь - £ ак + £ акиь - £ а?).
к к ь ь
Пользуясь формулой (17), получаем:
ЫЪ(2Ъ - а2^)
УЛкиЬ-У дк =_________________
з з (2Ък - а2^)(2Ъ(к + I) - а2^)
кк
а - с а(А - 7е)
— ------------------ —
Ъ(п + 1) - а2^ (Ъ - а2^)(Ъ(п + 1) - а2^)
а2^1к 2Ъ - а2^ / ё Ъ л
(2Ък - а2^)(2Ъ(к + I) - а2^) Ъ - а2^ V аЄ к1Ъ(2Ъ - а2^) / а - с
(2Ък - а2^)(2Ъ(к + I) - а2^) V Ъ(п + 1) - а2^ а(А - 7е) а2^ , ё Ъ
а і і ё Ъ ял + (аА - =
- а2^)(Ъ(п + 1) - а2^) Ъ(Ъ - а2^) а
к1Ъ(2Ъ - а2^) ґ а - с
(2Ък - а2^)(2Ъ(к + I) - а2^) V Ъ(п + 1) - а2^ а(А - ^ё) і аА - аё аА | ё'(
+ ~г О т + )
(Ъ - а2^)(Ъ(п + 1) - а2^) Ъ - а2^ Ъ а
1Ъ(2Ъ - а2^) / аА \
аА
{°К - ~^)<
(2Ьк - а2^)(2Ь(к + I) - а27)\ Ь
Аналогичным образом можно доказать, что
(24) £ <кь - £ 3 < 0
ьь
а значит и 8киь - 8к < 0. Отсюда следует, что Ак(8киь -8к) > 0 и, аналогично, Аь(8киь - 8ь) > 0. Итак неравенство (23) доказано.
Далее докажем, что Вкиь - Вк - Вь ^ 0.
Рассмотрим разность, подставляя (16):
р(Вкиь - В к - Вь) = (а - с)(якиь - ак - аь) + аАкиь(дкиь + Ят\(киь)) - аАк(дк + Ят\к) - аАь(яь + Ят\ь)-Ьак иь(ак иь + Ят\(к иь)) + Ьак (ак + Ят\к) + Ьдь(дь + Ят\ь) +
^ (Е дки1(чкиь-Щ- )-£ з (чк - )-£ чЬ(дЬ-1
киь к ь
После некоторых упрощений, можно получить:
р(Вкиь - Вк - Вь) = аАь(у а3киь + Чк - ак) +
аАк (\ £ акиь +1 Яь - аь) + Ь £ аккиь(аь - аь) + Ьаь(ак -
2 ь 2 2 к 2
£ акиь) + Ь £ акиь(ак - ак) + Ьак(аь - £ акиь) > 0, к ь ь
что верно вследствие (24).
4. Устойчивость динамического вектора Шепли
4.1. КООПЕРАТИВНОЕ РЕШЕНИЕ ДИФФЕРЕНЦИАЛЬНОЙ ИГРЫ
Пусть 8т(г), г ^ го - это оптимальная (кооперативная) траектория, максимизирующая сумму выигрышей игроков и игроки согласны разделить максимальный суммарный выигрыш V(I, 8о,го) в соответствии с некоторым дележом. Предположим, что в качестве дележа был выбран динамический вектор Шепли:
Бк(8, г) = (Зк\(8, г),БН2(8, г),..., бнп(8, г)),
компоненты которого определяются по формуле:
БНг(8, г) = £ (п - к)1(к -1)! [V(к, 8, г) - V(к\{г}, 8, г)].
кэг П!
Здесь мы не приводим явный вид вектора Шепли для данной модели ввиду её чрезмерной громоздкости. При этом структура вектора Шепли имеет вид:
(25) БНг(8, г) = Аг8(г) + В8Нг,
где коэффициент В8Нг вычисляется как вектор Шепли в статической игре с характеристической функцией:
V(к) = Вк, к е I.
4.2. ДИНАМИЧЕСКАЯ УСТОЙЧИВОСТЬ ВЕКТОРА ШЕПЛИ Под динамически устойчивым кооперативным решением понимается такой дележ, который остается оптимальным в любой подыгре вдоль оптимальной траектории в соответствии с выбранным принципом оптимальности. Приведем строгие определения динамической устойчивости, следуя работе [8]. Для этого рассмотрим подыгры
Г^1 (і), і) исходной игры с начальными условиями (в1 (і), і) на оптимальной траектории и обозначим через БНі(вІ(і), і) вектор Шепли, в соответствующей подыгре Г(вІ(і),і).
Определение 1. Вектор в (і) = (в1(і), в2(і),..., вп(і)) называется процедурой распределения дележа (ПРД) в соответствии с вектором Шепли, если
О
БНі(во,іо) = ! е-р(і-і°')ві(і)Лі, і є І.
іо
Определение 2. Вектор в (і) = (в1(і), в2(і),..., вп(і))
- динамически-устойчивая ПРД, если при любых начальных (в1 (і), і), при любом і є [і0, ж) выполняется следующее условие:
І
(26) ^Ьі(во,іо) = ! е-р(т-І0)Нг)*т + е-р(і-І0') БНі(вІ(і), і),
Іо
і є [іо, ж), і є І.
Теорема 2. Вектор в (і) = (в1(і), в2(і),..., вп(і)), где в (і) задается формулой
—
ві(і) = рБНі(вІ(і),і) - —БН^в1 (і),і)
- динамически-устойчивая ПРД.
Доказательство теоремы 5.1 приведено в [8]. Таким образом вектор Шепли (25), является динамически-устойчивым, при этом процедура распределения дележа имеет вид:
(27) ві(і) = -Пів1 (і) - аО1 Аі + рВвНі.
4.3. СВОЙСТВО СТРАТЕГИЧЕСКОЙ УСТОЙЧИВОСТИ Процедура распределения дележа (27) гарантирует динамическую устойчивость вектора Шепли, а поэтому и индивидуальную рациональность решения БИ,(в1 (£),£) в каждой подыгре Г(в1 (£), £) вдоль кооперативной траектории в1 (£). Пусть У^в0,Ь)
- это выигрыш игрока г в игре Г(хо,£о) в равновесии по Нэшу. Рассмотрим подыгры Г(в1 (£),£), £ € [£0, то] вдоль кооперативной траектории в1 (£). Если в(£) = (в\(£), @2(1),... ,вп($)) - динамически устойчивая ПРД, то должны выполняться следующие условия:
СО
J е-^-^ вi(t)dt = БЫ(го,во),
^0
О
J е-р(т-г)в^т)dт ^ У^в1 (£),£), г € I,
t
где ^(в1 (£),£) - равновесный выигрыш игрока г в подыгре
СО
Г(в!($,$. Но / е-р(т-€)в%(т)(1т - это выигрыш игрока г при
t
кооперации в игре Г(в7(£),£), который индивидуально рационален. В статье [2] доказана теорема, из которой следует, что для любого е > 0 существует е-равновесие по Нэшу, причем выигрыши игроков в этом равновесии в точности равны БН(во,£о) = (БН1(во,£о),БЬ,2(во,£о),... ,БНп(во,£о)). Это означает, что вектор Шепли (кооперативное решение) стратегически поддержан некоторым специально построенным е-равновесием по Нэшу в игре Г(в0,£0).
4.4. УСЛОВИЕ ЯНГА ДЛЯ УСТОЙЧИВОГО КООПЕРАТИВНОГО РЕШЕНИЯ
Компоненты построенного кооперативного решения в каждой подыгре Г(в7 (£), £) удовлетворяют условиям индивидуальной и коллективной рациональности. Кроме того, вектор Шепли является динамически и стратегически устойчивым. Тем не менее, это 320
не гарантирует того, что отдельные игроки или группы игроков не будут предпринимать иррациональных действий, следствием которых может стать отказ остальных игроков от продолжения кооперативного соглашения. Такую ситуацию будем называть иррациональным поведением. Поэтому желательное свойство устойчивого соглашения заключается в том, что даже в случае отказа от кооперативного соглашения в любой момент Ь ^ Ьо, каждый игрок ожидает получить выигрыш не меньше, чем если бы он действовал индивидуально. Такое свойство устойчивости кооперативного решения будем называть устойчивостью против иррационального поведения. Формально указанное свойство первые было сформулировано Д.В.К. Янгом в работе [12] в виде условия (условие Янга):
І
Уг(хо,Ьо) ^ Уі(хІ (Ь),Ь) + !ві(т)йт, Ь ^ Ьо, і є І,
Іо
где Уі(х,Ь) - это выигрыш игрока і в равновесии по Нэшу в игре, начинающейся в момент Ь из состояния х, @і(і) - процедура распределения. В нашем случае условие Д.В.К. Янга принимает вид:
І
(28) Уі(во,іо) < е-р(і-Іо)У(вІ (і),і) + ! е-р(т-Іо)ві(т )йт,
Іо
Ь ^ Ьо, і є І.
Тогда процедура распределения дележа @і(і), заданная формулой
(27), может быть переписана в виде:
ві(Ь) = -Пі в1 (Ь) + Еі, а оптимальная траектория (19) примет вид:
Б1 (Ь) = (во - О)е-&(І-Іо) + С,
Іо
а т
где О = — О . Вычислим сначала интеграл в правой части нера-
—
венства (28):
t
У е-р(т-'0)вг(т)(1т = t
= У е-р(т^0)(-ш((в0 - О)е-&(т-0) + О) + —г^т =
= (е-р(т-^) ( П,>'(в0 — О) е-&(т —0) + К'!’0 — — р + — Р Р
цС_
Р Р
І°
= Є-Р(І-І°) (-Аі(во - В2)е-6(І-І0) + ПіС-Еі) + V р р )
+ Мво - О) - + —.
РР
Тогда левая часть формулы (28) примет вид:
t
У е-р(т-'0)вг(т)(1т + (Ь),Ь) =
= е-р{^0)( - 0Ai О + ы - —+ А(во - О) - - О + —.
V Р Р/ Р Р
Правая часть формулы (28) равна:
Vi(в0, Ьо) = ^в0 + Бi.
Рассмотрим теперь разность левой и правой части. Для доказательства неравенства (28) необходимо доказать, что
(29) (1 - е-р(^0)) ^—АО - Бг + —^ ^ 0.
Понятно, что 1-е-р(г-10') > 0 при любом £ > Ь0 и е-р(г-10') -1 = 0 при £ = Ьо. Поэтому условие Янга выполнено в начальный момент времени £0. Обозначим через
о—
в = — А^ - Бi +---.
РР
Если константа в ^ 0, то условие (29) выполнено при любом £ ^ £о, если же в < 0, то условие верно только в начальный момент времени. Покажем, что существует момент времени Т > £о, при котором условие Янга выполнено. Если это верно, то в ^ 0.
Поскольку в(£) - динамически устойчивая ПРД, то условие
(28) можно переписать, используя формулу (26), в виде:
(30) Shi(во,tо) - ^^о^о^
+ е-р(1-10)(У^в1 (£),£) - Shi(вI(£),£)) ^ 0. Поскольку У,(вт (£),£) и Shi(вI(£),£) - ограниченные функции, а е-р(1-1°) - бесконечно мала при £ ^ то, верно что
Иш е-р(-)(У^в1 (£),£) - Shi(вI(£),£)) = 0,
t^■Ж
а поэтому, переходя к пределу при £ ^ то в неравенстве (30), получаем, что
Shi(во,tо) ^ У(во,Ь).
Это верное равенство, вследствие индивидуальной рациональности. Обозначим через е = Shi(в0,£0) - У,(в0, £0). По определению предела, существует такое Т > 0, что при любом £ > Т выполнено неравенство
e-p(t-to)(Vi(sI(t),t) - Shi(sI(t),t))
< є.
Тем самым мы доказали, что в ^ 0, и неравенство (29) верно при любом t ^ 0, что и требовалось доказать.
5. Числовой пример вычисления устойчивого вектора Шепли
Все вычисления производились в программном пакете MAPLE 10.
5.1. ПАРАМЕТРЫ МОДЕЛИ
В качестве примера рассмотрим модель экологического производства трех предприятий (игроков). Пусть параметры модели
323
следующие:
£о = 0 - начальный момент соглашения,
во = 0 - начальный объем загрязнения,
р(£) = 4000 - 10^1^) + д2(£) + дз(£)) - функция цены,
с = 3 - удельные производственные издержки,
Р = 0,07 - процентная ставка, а = 12 - удельный объем выбросов,
— = 0,4 - доля природного поглощения загрязнения,
7 = 0,055 - коэффициент, характеризующий величину затрат на природоохранные мероприятия,
ё1 = 1180, ё2 = 1170, ёз = 1167 - предельно допустимые выбросы,
п1 = 6, п2 = 6,4, п3 = 6,25 - коэффициенты, отражающие возможности игроков компенсировать экологический ущерб.
Из формул (2) и (3) следует, что максимально возможные мгновенные объемы производства игроков следующие:
дтах = 98,33, дтах = 97,5, дзпах = 97,25.
5.2. РЕЗУЛЬТАТЫ РАСЧЕТОВ УСТОЙЧИВОГО ВЕКТОРА ШИПЛИ
5.2.1. Равновесные объемы производства
Равновесные по Нэшу объёмы производства равны:
дN = 95,75, д% = 94,02, дN = 96,81, при этом соответствующие объемы выбросов имеют значения:
eN = 1149,05, е% = 1128,22, е% = 1161,73.
Из полученных значений видно, что в равновесии по Нэшу объемы производства игроков очень близки к максимально возможным, а соответствующие выбросы очень близки к ПДВ. Кооперативные объемы производства равны:
дІ = 53,39, д! = 52,55, дІ = 52,3,
при этом соответствующие кооперативные объемы выбросов принимают значения:
e[ = 640,64, el = 630,64, eS = 627,64.
Заметим, что кооперативные объемы производства почти в два раза ниже максимума, при этом кооперативная цена существенно выше цены, реализуемой в равновесии по Нэшу:
pN (t) = 1134,16,
(31) T
pI (t) = 2417,5S.
Вычислим также стратегии игроков в случае формирования коалиций из двух игроков:
q [ ,2 = 60,79, q[ = 59,96 q [ ,3 = 6і,94, q[,3 = 60,S5 qI,S = 60,76, qI,s = 60,51.
5.2.2. Характеристическая функция
По формулам (16) вычисляем коэффициенты характеристической функции кооперативной игры:
Aі = -12,77, Ai = - 13,61, As = -13,3,
B = 26,147, BI =21923,7 B3 = 26326,3,
B11 = S62S0,33, B i ,s = 91511,S6, Bi,s = S7029, 71,
B = Bi =217350,63.
Кооперативная траектория имеет вид:
sT(t) = 4747,27 - 4747,27e-0,It, t ^ 0.
Равновесная по Нэшу траектория:
sN(t) = S597,51 - S597,51e-0’It, t ^ 0.
Приведем графики изменения динамики загрязнения в обоих случаях (рис. 1).
О 5 10 15 20 25 30
Рис. 1. Динамика загрязнения
5.2.3. Решения модели: сравнительный анализ
Прибыли игроков в равновесии по Нэшу в момент Ь ^ 0 равны соответственно:
V({1}, вм(Ь),Ь) =263777,4 + 109755,5е-0 2,
V({2}, вм(Ь),Ь) =196123,22 + 117072,Ье-0’2,
V({3}, вм(Ь),Ь) =261761,8 + 114328,66в-0’2*.
Общий кооперативный выигрыш в момент Ь ^ 0 составляет:
(32) V(I, в1, Ь) = 2916301,18 + 188707,8045в-0’2*.
В качестве принципа дележа при кооперации был выбран устойчивый динамический вектор Шепли. Кооперативные прибыли игроков в этом случае в момент времени Ь ^ 0 имеют вид соответственно:
БН 1 (в1 (Ь),Ь) =992916,94 + 60603,Ъ1е-0’21,
БЬ2(в1 (Ь),Ь) =926692,83 + 64643,66е-0’2,
БНз(в1 (Ь),Ь) =997023,3 + 63128,66е-°2.
На рис. 2 изображены графики функций прибыли всех трех игроков. Видно, что V({1}, в, Ь) и V({3},в,Ь) пересекаются, это происходит в момент времени Ь = 4,1. На рис. 3 показаны графики функций прибыли в кооперативном случае.
Рис. 2. Прибыли игроков в Рис. 3. Прибыли игроков случае конкуренции при кооперации
На рис. 4 приведены графики, сравнивающие равновесную по Нэшу и кооперативную прибыль.
Мгновенные выигрыши игроков до перераспределения общей прибыли равны:
в і(Ь) =70080,7 +28533,83є-0’2і,
(Ь(Ь) =66812,56 + 30436,09в-°'2і,
ІЗз(г) =67115,06 + 29722,74є-0’2і.
Процедура распределения дележа, соответствующая вектору Ше-пли, имеет вид:
в 1 (Ь) =69454 + 28533,83є-0’2і,
Рі(Ь) =64814,97+ 30436,09є-0'2і, вз(Ь) =69739,36 + 29722,74є-0’2і.
На рис. 5 изображены графики функций ві(ї) и /Зі(і), і =
1, 2, 3, которые отражают перераспределение кооперативного выигрыша между игроками.
О 5 10 15 20 25 30 о 5 10 15 0 5 10 15
t t t
Рис. 4. Сравнение кооперативных и конкурентных прибылей
фирм
Рис. 5. Сравнение мгновенных прибылей фирм при кооперации до перераспределения и после.
Литература
1. ПЕТРОСЯН Л.А. Устойчивость решений в дифференциальных играх со многими участниками // Вестн. Ленингр. ун-та. - 1977. - Сер. 1, Вып. 14, № 19. - С. 46-52.
2. ПЕТРОСЯН Л.А., ЗЕНКЕВИЧ Н.А. Принципы устойчивой кооперации // Мат. теория игр и её приложения. - 2009. -Т. 1, Вып. 1.-С. 102-117.
3. BORKEY P., LEVEQUE F. Voluntary approaches for
environmental protection in the European Union - a survey // European Environment. - 2000. - Vol. 10. - P. 35-54.
4. DEMSETZ H. Toward a theory of property rights // The American Economic Review. - 1967. - Vol. 57, № 2. - P. 347-359.
5. DOCKNER E. J., JORGENSEN S., VAN LONG N., SORGER G. Differential Games in Economics and Management Science. - Cambridge University Press, 2000.
- P. 485.
6. KATSOULACOS Y., XEPAPADEAS A. Environmental policy under oligopoly with endogenous market structure // Scand. J. of Economics. - 1995. - Vol. 97, № 3. - P. 411-420.
7. NASH J.F. Equilibrium points in n-person games // Proc. Nat. Acad. Sci. USA. - 1950. - Vol. 36. - P. 48-49.
8. PETROSYAN L., ZACCOUR G. Time-consistent Shapley value allocation of pollution cost reduction // Journal of Economic Dynamics and Control. - 2003. - Vol. 27. - P. 381-398.
9. PETROSYAN L., KOZLOVSKAYA N. Differential coalitional environmental management game // Game theory and applications. Russia, St.Petersburg State University. -2009. - Vol. 14. - P. 104-113.
10. SHAPLEY L.S. A value for n-person games // Contributions to the Theory of Games II. Prineton: Princeton University Press. - 1953. - P. 57-69.
11. STIMMING M. Capital accumulation subject to pollution control: Open-Loop versus feedback investment strategies // Annals of Operations Research. - 1999. - Vol. 88. - P. 309336.
12. YEUNG D. W. K. An irrational - behavior - proofness condition in cooperative differential games // Int. J. of Game Theory Rew. - 2006. - Vol. 8. - P. 739-744.
STABLE SHAPLEY VALUE IN COOPERATIVE GAME OF TERRITORIAL ENVIRONMENTAL PRODUCTION
Nikolay Zenkevich, St. Petersburg University, Graduate School of Management, Department of Operations Management, Cand. Sc., associate professor (zenkevich@gsom.pu.ru).
Nadezhda Kozlovskaya, St. Petersburg University, Graduate School of Management, Department of Operations Management, post-graduate student (kknn@yandex.ru).
Abstract: A game-theoretic model of territorial environmental production is studied. The process is modeled as a cooperative differential game. The stable mechanism of distribution of common cooperative benefit among players is proposed. We prove that the cooperative total stock of accumulated pollution is strictly less than the pollution under Nash equilibrium for the whole duration of the game. The perfect Nash equilibrium is found. We design a stable Shapley value as a cooperative solution, which is time-consistent. The Shapley value is also strategic stable and satisfies the irrational-behavior-proofness condition. The numerical example is given.
Keywords: differential game, cooperative game, dynamic
programming, Hamilton-Jacobi-Bellman equation, Shapley value, Nash equilibrium, perfect equilibrium, stability of cooperative solution, time-consistency, strategic stability, irrational-behavior-proofness condition.
Статья представлена к публикации членом редакционной коллегии Л. А. Петросяном