УДК 32.81 ББК519
МОДЕЛИ ПОРОГОВОГО КОЛЛЕКТИВНОГО ПОВЕДЕНИЯ В ЗАДАЧАХ УПРАВЛЕНИЯ ЭКОЛОГО-ЭКОНОМИЧЕСКИМИ СИСТЕМАМИ
Бреер В. В.1, Новиков Д. А.2, Рогаткин А. Д.3
(ФГБУН Институт проблем управления РАН, Москва)
Рассматриваются модели «многопорогового» коллективного поведения агентов, принимающих бинарные решения. Общая схема анализа этих моделей применяется для трех задач управления эколого-экономическими системами: индивидуальных штрафов, индивидуальных и коллективных штрафов, а также стимулирования выделения экономическими агентами средств на природоохранную и/или природовосстановительную деятельность.
Ключевые слова: пороговое поведение, дискретная динамическая система, управление эколого-экономическими системами.
1. Введение
Начиная с классических работ М. Грановеттера [15] и Т. Шеллинга [22] значительное внимание исследователей моделей коллективного поведения концентрируется на ситуациях, в которых агенты, принимающие бинарные решения о своем «действии» или «бездействии», ориентируются на обстановку - число действующих или бездействующих оппонен-тов/«соседей» (см. обзор [2]). При этом ключевой характеристи-
1 Владимир Валентинович Бреер, кандидат технических наук, с.н.с. ИПУ РАН (cogelet@gmail.com).
2 Дмитрий Александрович Новиков, член-корреспондент РАН, заместитель директора ИПУ РАН (novikov@ipu.ru).
3Андрей Дмитриевич Рогаткин, м.н.с. ИПУ РАН (andreyrogat-kin@gmail. com).
кой агента является его порог, при превышении которого обстановкой агент изменяет свое поведение. Подобные модели успешно описывают эффекты конформного или антиконформного поведения как в терминах теории коллективного поведения, так и в терминах теории игр [11], и имеют множество областей приложений (социальные сети [1], управление толпой [12] и др. [2]).
Общая схема построения модели при этом такова. Сначала, исходя из содержательных интерпретаций моделируемых социально-экономических явлений или процессов, строятся целевые функции агентов. Затем ищутся наилучшие ответы агентов (зависимость их действий, максимизирующих соответствующую целевую функцию, от действий оппонентов), и, наконец, осуществляется переход к дискретной динамической системе, описывающей изменение во времени числа или доли действующих агентов (правая часть этой динамической системы определяется функцией распределения порогов агентов) - см. многочисленные примеры в [2].
Однако далеко не все реальные ситуации описываются простой моделью с одним порогом, определяющим, будет или нет агент действовать при заданной обстановке. То есть возникает необходимость расширения класса моделей порогового поведения за счет допущения наличия у каждого агента нескольких «порогов». Примерами являются ситуации, когда при малом числе действующих оппонентов агент ведет себя конформно, а при большом - антиконформно. Желательно также охватить и более широкий класс ситуаций - когда агент принимает решение «действовать» при условии, что доля его действующих оппонентов принадлежит заданному множеству значений.
Общая схема построения такого рода «многопороговых» моделей описана во втором разделе настоящей работы. Далее эти результаты применяются для разработки и исследования задач управления эколого-экономическими системами (разделы 3-5), в которых агенты принимают решения в условиях действия системы штрафов или поощрений за осуществление природоохранной и/или природовосстановительной деятельности.
В целом, настоящая работа обобщает модели порогового поведения на случай нескольких порогов, учитываемых при
принятии решений одним и тем же агентом. С другой стороны, приведенные ниже результаты можно рассматривать как расширение класса оптимизационных [7-9, 16, 23] и теоретико-игровых [5, 6, 9, 10, 13, 21] моделей управления эколого-экономическими системам, в том числе - механизмов управления последними [14].
2. Модели «многопорогового» коллективного поведения
Рассмотрим множество N = {1, ..., n} экономических агентов, принимающих бинарные решения yi е {0; 1}. Если агент выбирает единичное действие, то будем условно говорить, что он «действует», в противном случае (т.е. при выборе им нулевого действия) - «бездействует». Обозначим
Г = I у , Ъ = Iу ,
jeN
y = (y1, ...,yn), y-i = (y1, ...,yi-1,yi+1, ..., yn) - обстановка для i-го агента, x = Y / n - доля действующих агентов, x-i = Y-i / n.
Целевая функция i-го агента f(y-, y-i) в общем случае зависит как от его собственных действий, так и от действий других агентов. Сравнение величин f(0, y-i) и f(1, y-i) позволяет найти наилучший ответ (BR - Best Response) агента на заданную обстановку (будем считать, что при прочих равных агент предпочтет действовать):
(1)y=ж<О, )=иесли f£ у- - > ^ у-
[0, если f (l, у--) < f (0, у--).
Ограничимся классом моделей коллективного поведения, в которых неравенства в правой части данного выражения определяются только числом действующих оппонентов рассматриваемого агента. Тогда наилучший ответ можно записать в терминах доли действующих агентов: fl, если х е A ,
(2) yi = f , - -,
[0, если x_t <i A;
где Ai ^ [0; 1] - конструктивно определяемое из (l) подмножество единичного отрезка.
Например, в пороговых моделях конформного поведения [3]
(3) » = {'•еслих-•
[0, если < в;
где в, е [0; 1] - так называемый порог конформности агента [2, 3, 11, 15]. Из выражения (3) следует, что, с помощью эмпирической функции распределения порогов конформности агентов
и X ) = N :в< х}|
можно выразить долю действующих агентов в равновесии Нэша х*: Е„(х*) = х* (см. [3]). Если известны теоретическая функция распределения порогов [0; 1] ^ [0; 1] и начальное значение х0 е [0; 1] доли действующих агентов, то динамика их доли для достаточно большого количества агентов будет описываться следующей дискретной динамической системой:
(4) хк = ^Х-1),
где к = 1, 2, ... - моменты времени.
В случае так называемого антиконформного поведения [11] 1, если х , < р,
(5) ^ = щ
[0, если > р;
где е [0; 1] - так называемый порог антиконформности агента. Из выражения (5) следует, аналогично случаю конформного поведения, что если известна эмпирическая функция распределения порогов антиконформности агентов
0„( х N :р < х}|,
то через нее можно выразить долю действующих агентов в равновесии Нэша. Если известны теоретическая функция распределения G: [0; 1] ^ [0; 1] и начальное значение х0 е [0; 1] доли действующих агентов, то для достаточно большого количества агентов:
(6) хк = 1 - 0(хк-1),
Если Л, = [Щ; ф], т.е. агенты демонстрируют поведение, которое условно назовем многопороговым (в данном случае -двухпороговым), то
ПЛ _ I1' если ],
(7) У 1 п гл 1
[0, если х^ еЩ];
и легко убедиться, что динамика числа действующих агентов будет описываться следующей дискретной динамической системой:
(8) X = Дх^1) - в(хк-1).
Если множества {Л,} имеют более сложную структуру (например, несвязны - см. (14) в разделе 4), то соответствующая динамическая система выписывается по аналогии.
Имея дискретную динамическую систему (4) или (6), или
(8) и т.п., можно исследовать ее устойчивость, зависимость равновесных состояний от параметров модели и начальных условий и т.д. Проведя подобное исследование, можно ставить и решать, например, задачи параметрического управления - выбора допустимых значений управляемых параметров, обеспечивающих требуемую (или максимально близкую к требуемой) динамику системы.
Описанная общая схема построение моделей многопорогового коллективного поведения ниже применяется для трех задач управления эколого-экономическими системами (см. разделы 35).
3. Модель индивидуальных штрафов
Действия агентов в рамках рассматриваемых ниже задач управления эколого-экономическими системами содержательно будем интерпретировать как выделение или невыделение экономическими агентами фиксированных средств {с,} на природоохранную и/или природовосстановительную деятельность. Предположим, что целевые функции агентов имеют вид
(9) /,(у) = И, - с у, - у И, 1(7 < У),
N - У
где Н - доход -го агента от его экономической деятельности; 1( ) - функция-индикатор; уН, - размер штрафа, который нала-
гается на агента в случае, когда он не выделяет средства на природоохранные мероприятия, и при этом общее число таких
же агентов меньше порога У < N. Этот порог может быть либо достоверно известен агентам, либо они могут иметь о нем некоторые «вероятностные» представления (см. ниже). Величина у > 1 может условно интерпретироваться как «сила штрафов», а величина 1 / N - У) - как «вероятность проверки» конкретного агента.
Вычислив наилучший ответ 7-го агента, получим в терминах долей х-, действующих агентов:
лт IXесли х- ,е [1 -ург;х]
(10) У7 = ] П
[ 0, иначе;
где х = У /N е [0; 1], р, = Н / с, (данную величину будем условно называть «рентабельностью» агента).
Величина 1 - ур, может интерпретироваться как порог конформности агента, а величина х - как его порог антиконформности.
Пусть Г() - функция распределения рентабельностей агентов, G(•) - функция распределения представлений агентов о значении величины х , причем обе эти величины являются общим знанием среди агентов. Тогда из выражения (8) следует, что динамика доли агентов, выделяющих средства на природоохранную деятельность, при заданной начальной их доле х0, удовлетворяет соотношению
к
- Н(х ) = шах {0; 1 - Г(—
у
где к = 1, 2, . - моменты времени.
Управляющими параметрами в данной модели могут быть значение «силы штрафов» у и информированность агентов о значении порога х .
Пример 1. Пусть Г(г) = , G(z) = г, х0 = 0,1. Тогда положением равновесия системы (11) является точка 0,25 (см. точку А на Рис. 1 и Рис. 2).
1 - г*-1
(11) хк = Н(хк-1) = шах {0; 1 - 1 х ) - в(хк'1)},
н
Рис. 1. Правая часть выражения (11) в примере 1 при у= 3 и G(z) = г
0,9 -0,8 ■ 0,7 0,6 0.5
0,4 0,3 0,2 0,1 0
Рис. 2. Траектория системы (11) в примере 1 при у= 3 и G(z) = г
Пусть теперь агенты достоверно знают значение хх = 0,8. Тогда при у= 1 положением равновесия системы (11) является ноль. С ростом силы штрафов равновесное значение возрастает. Так, например, при у= 3 оно равно примерно 0,67 (положением равновесия является точка А - см. Рис. 3 и Рис. 4). Отметим, что снижение для агентов неопределенности (раньше считалось, что они предполагают параметр хх равномерно распределенным на единичном отрезке, теперь же они точно знают его значение)
приводит к росту доли агентов, выбирающих единичные действия.
Рис. 3. Правая часть выражения (11) в примере 1 при у= 3 и х = 0,8
Рис. 4. Траектория системы (11) в примере 1 при у= 3 и х = 0,8
Существенное увеличение силы штрафов в рассматриваемой модели нецелесообразно - в системе возникает периодический режим (на Рис. 5 приведена траектория системы (11) при у= 6). •
1
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
щ щ г- г-
СТ1 СТ1 о
Рис. 5. Траектория системы (11) в примере 1 при у = 6 и х = 0,8
Пример 2. Предположим, что рентабельности агентов распределены в соответствии с распределением Парето (выбор этого распределение объясняется его распространенностью в экономико-математических моделях и простотой идентификации - см. [17, 19]) с показателем а и минимальным значением ро, и агентам точно известно значение х. Тогда выражение (11) примет вид
(12) х =
УРо
1 - хк
, если хк 1 < тт{1 -ур0; х},
0, иначе.
Пусть а = 2, х = 0,8, у= 1, р = 0,3. График правой части выражения (12) приведен на Рис. 8.
х
а
Рис. 6. Правая часть выражения (12) в примере 2
Положением равновесия динамической системы (12) при любых начальных значениях x0 е [0; 1] является точка А на Рис. 6. •
4. Модель индивидуальных и коллективных штрафов
Модифицируем целевую функцию (9), записав ее в виде
(13) Ду) = Н - сг у - у Н -^Л. - (1 - у) 3 Н Щ < У ),
N - У
где 3 > 0, а последнее слагаемое отражает потери агента от плохой экологической обстановки (которую для себя он может «улучшить» либо своими действиями, либо за счет действий других агентов).
Вычислив наилучший ответ /-го агента, получим
(14) У/ =
УР
1, если х_,. е [1--■—; х] или х_,. > тах {х; 1 - ур },
1-5Р,
0, иначе.
Из выражения (14) следует, что динамика доли агентов, выделяющих средства на природоохранную деятельность, удовлетворяет соотношению
1 - хк-1 1 - хк-1
(15) Xе = тах {0; 1 - Д-) - О^"1) + Д-—-)>.
у у+ 5(1 - х )
Задача управления в рамках рассматриваемой модели может заключаться в выборе «силы штрафов» у и 3 (мотивацион-ное управление) и информированности агентов, например, о значении порога х (информационное управление), обеспечивающих требуемую динамику системы.
Пример 3. Пусть Г(г) = -у/Г, О(г) = г4, у= 2, 3 = 3, х0 = 0,7. График правой части выражения (15) и соответствующая траектория приведены на Рис. 7 и Рис. 8.
Рис. 7. Правая часть выражения (15) в примере 3 при у= 2, 3 = 3
1
0,9
0,5
0,4
0,3 —
0,1 --О .....................................................................................................
1-н \0 т-« \0 I-1 V© Ю Ю 1—■' >0 Ю >0 ^О 1—
Рис. 8. Траектория системы (15) в примере 3 при у= 2, 8 = 3
Выбор в условиях примера 3 минимально допустимого значения у = 1 приводит к следующей траектории (видно, что система стабилизируется, но в ее равновесном состоянии доля агентов, выбирающих единичные действия, меньше, чем в начальном состоянии - см. Рис. 9).
1 - 0,9 ■
0,8 ■
0,7 - ---------------------------------------------------------------------------
0,6 - £----------------------------------------------------------------------
0,5 ■
0,4
0,3
0,2
од -
0 ■
Рис. 9. Траектория системы (15) в примере 3 при у= 1, 8 = 3
Выбор в рамках рассматриваемой модели у = 1, ё = 11, х = 0,9 (см. Рис. 10) приводит к динамике, приведенной на Рис. 11 (равновесная доля агентов, выбирающих единичные действия, увеличивается по сравнению с предыдущим случаем).
Рис. 10. Правая часть выражения (15) в примере 3 при у= 1, 3 = 11, х = 0,9
Рис. 11. Траектория системы (15) в примере 3 при у= 1, 3 = 11, х = 0,9
5. Модель стимулирования природоохранной деятельности
Пусть целевая функция /-го агента имеет вид
(16) /(у) = И - сг у + у бо 1(1 > У ) / У,
где величина бо > 0 может интерпретироваться как размер фонда поощрения за природоохранную деятельность, распределяемого поровну между теми агентами, которые выделили на нее и свои средства (см. также модели механизмов смешанного финансирования в [18, 20]).
Вычислив наилучший ответ /-го агента, получим: Г1, если х е [ х; с / О],
(17) у/ = \ , [ ; ' О1,
[ 0, иначе;
где б = бо / п - «удельное поощрение».
Из выражения (17) следует, что динамика доли агентов, выделяющих средства на природоохранную деятельность, удовлетворяет соотношению
(18) X = тах {0; О(хк-1) - Р(б Xм)},
где Р(-) - функция распределения затрат агентов.
Задача управления в рамках рассматриваемой модели может заключаться в выборе «удельного поощрения» Q и, как и в двух предыдущих моделях, в выборе информированности агентов о значении порога х, а также самого значения этого порога.
Пример 4. Пусть Р(г) = г2. График правой части выражения (18) и соответствующая траектория приведены на Рис. 12 и Рис. 13.
о,: 0,1
_ -—
А
/
/
у/
Рис. 12. Правая часть выражения (18) в примере 4 при х = 0,1, Q = 0,5
Рис. 13. Траектория системы (18) в примере 4 при х = 0,1, Q = 0,5
Ужесточение условий предоставления агентам средств фонда (т.е. увеличение порога х) приводит к тому, что этот механизм перестает играть мотивирующую роль - см. Рис. 14.
Рис. 14. Траектория системы (18) в примере 4 при х = 0,25, Q = 0,5
Увеличение размеров выплат агентам (за их природоохранную деятельность) может приводить, как это ни покажется странным с точки зрения здравого смысла, к нестабильному поведению агентов (см. Рис. 15) и даже играть демотивирую-щую роль (см. Рис. 16). •
0,9 -0,8 -
0,7 -0,6 -
0,5 -
0,4 -
0,3 -0,2 -
0,1 -
0 -
т—I \о г-1 \0 1—1|\От-н\£|-1—I \о 1—^| УО 1—1' ЧО 1—1\0>—| \0 т—■1
Рис. 15. Траектория системы (18) в примере 4 при х = 0,1, Q = 0,9
Рис. 16. Траектория системы (18) в примере 4 при х = 0,1, Q = 1
Оценкой эффективности механизма стимулирования природоохранной деятельности может служить отношение «привлеченных средств» (т.е. затрат агентов в равновесии) к величине фонда поощрения.
В завершение настоящего раздела отметим, что перспективной задачей является анализ моделей, в которых размер фонда зависит от числа или доли действующих агентов.
6. Заключение
В настоящей работе осуществлено приложение общего описания многопорогового коллективного поведения к задачам управления в эколого-экономических системах.
В рамках трех рассмотренных моделей стимулирования и штрафов за природоохранную и природовосстановительную деятельность удается учесть и исследовать следующие эффекты:
- увеличение доли агентов, выделяющих средства на природоохранную деятельность, с ростом «силы штрафов»;
- увеличение доли агентов, выделяющих средства на природоохранную деятельность, при снижении неопределенности относительно институциональных условий их функционирования;
- целесообразность тщательного выбора ограничений на штрафы, так как в противном случае управляемая система может демонстрировать нестабильное поведение;
- ужесточение условий предоставления агентам средств фонда поощрения природоохранной деятельности может приводить к тому, что этот механизм перестает играть мотивирующую роль;
- увеличение размеров выплат агентам (за их природоохранную деятельность) может приводить к их нестабильному поведению и даже играть демотивирующую роль.
В целом следует признать, что рассматриваемые модели обладают как всеми преимуществами моделей дискретных нелинейных динамических систем (возможность отражения многих качественных эффектов, простота реализации вычислительного эксперимента и т.д.), так и всеми их недостатками -трудность аналитического исследования наличия равновесий и их единственности, устойчивости системы и областей притяжения равновесий, сильная зависимость равновесий от параметров модели и начальных условий и др.
С точки зрения задач управления это означает необходимость максимально точной идентификации объекта управления и неизбежность моделирования (предваряющего использование управляющих воздействий на практике) реакций управляемой системы в зависимости от ее параметров и начального состояния.
В качестве перспективных направлений теоретических исследований следует отметить целесообразность построения и анализа общих моделей многопорогового коллективного поведения.
Литература
1. БАТОВ А.В., БРЕЕР ВВ., НОВИКОВ ДА., РОГАТ-
КИН А.Д. Микро- и макромодели социальных сетей. Ч.2.
Идентификация и имитационные эксперименты // Проблемы управления. - 2014. - №5. - С. 28-33.
2. БРЕЕР В.В. Модели конформного поведения (обзор) // Проблемы управления. - 2014. - №1. - С. 2-13. - №2. - С. 2-17.
3. БРЕЕР В.В. Теоретико-игровые модели конформного поведения // Автоматика и телемеханика. -2012. - №10. - С. 111-126.
4. БРЕЕР В.В., РОГАТКИН АД Вероятностная модель порогового поведения в многоагентных системах // Автоматика и телемеханика - 2015. - № 8. (в печати).
5. ВАСИН А.А. Некооперативные игры в природе и обществе. - М.: МАКС Пресс, 2005. - 412 с.
6. ГОРЕЛИК В.А., КОНОНЕНКО А.Ф. Теоретико-игровые модели принятия решений в эколого-экономических системах. - М.: Радио и связь, 1982. - 144 с.
7. ГОРСТКО А.Б., ДОМБРОВСКИЙ Ю.А., СУРКОВ Ф.А. Модели управления эколого-экономическими системами. -М.: Наука, 1984. - 120 с.
8. Моделирование и управление процессами регионального развития / Под ред. С.Н. Васильева. - М.: Физматлит, 2001. - 432 с.
9. ПЕТРОСЯН Л.А., ЗАХАРОВ В.В. Введение в математическую экологию. - Л.: Изд-во ЛГУ, 1986. - 224 с.
10. УГОЛЬНИЦКИЙ Г.А. Управление эколого-экономическими системами. - М.: Вузовская книга, 2004. - 132 с.
11. BREER V.V. A Game-theoretic Model of Non-anonymous Threshold Conformity Behavior // Automation and Remote Control. - 2012. - Vol. 73. - No. 7. - P. 1256-1264.
12. BREER V.V., NOVIKOV D A. Models of Mob Control // Automation and Remote Control. - 2013. - Vol. 74. -No. 12. - P. 2143-2154.
13. BROOM M., RYCHTAR J. Game-theoretical Models in Biology. - Leiden: CRC, 2013. - 520 p.
14. BURKOV V., NOVIKOV D., SHCHEPKIN A. Control Mechanisms for Ecological-economic Systems. - Berlin: Springer, 2015. - 174 p.
15. GRANOVETTER M. Threshold Models of Collective Behavior // The American Journal of Sociology. - 1978. - Vol. 83. No. 6. - P. 1420-1443.
16. JANSSEN M., OSTROM E. Governing Social-Ecological Systems / Handbook of Computational Economics. Vol. 2. Edit-
ed by Leigh Tesfatsion L. and Judd K. - Oxford: Elseiver, 2006. - P. 1466-1509.
17. LEVY M. Market Efficiency, the Pareto Wealth Distribution and the Levy Distribution of Stock Returns. - Jerusalem: Hebrew University, 2001. - 52 p.
18. Mechanism Design and Management: Mathematical Methods for Smart Organizations / Ed. by Prof. D. Novikov. - New York: Nova Science Publishers, 2013. - 204 p.
19. NOVIKOV D.A. Problems of Stimulating Pareto-agent // Automation and Remote Control. - 2007. - Vol. 68. - No. 1. -P.124-132.
20. NOVIKOV D.A. Theory of Control in Organizations. - N.Y.: Nova Scientific Publishing, 2013. - 341 p.
21. OUGOLNITSKY G. Sustainable Management. -N.Y.: Nova Scientific Publishing, 2012. - 287 p.
22. SCHELLING T. Micromotives and Macrobehavior. - N.Y.: WW Norton & Co, 1978. - 272 p.
23. Theory and Implementation of Economic Models for Sustainable Development / Ed. by Van Den Bergh J. and Howkes M. - Dordrecht: Kluwer Academic Publishers, 2010. - 328 p.
24. WHITELAW K. Environmental Systems Handbook. - Oxford: Elsevier, 2004. - 237 p.
MODELS OF COLLECTIVE THRESHOLD BEHAVIOR IN CONTROL PROBLEMS OF ECOLOGICAL-ECONOMIC SYSTEMS
Vladimir Breer, Institute of Control Sciences of RAS, Moscow, Cand.Sc., (cogelet@gmail.com).
Dmitry Novikov, Institute of Control Sciences of RAS, Moscow, Doctor of Science, professor (Moscow, Profsoyuznaya st., 65, (495)334-75-69, novikov@ipu.ru).
Andrew Rogatkin, Institute of Control Sciences of RAS, Moscow, researcher (andreyrogatkin@gmail.com).
Abstract: We study models of collective "multi-threshold" behavior of agents making binary decisions. The general analysis scheme of these models is applied to three control problems of ecological-economic systems, namely, the problem of individual penalties, the problem of individual and collective penalties, as well as to the incentive problem of agents' investments in environmental protection and/or restoration.
Keywords: threshold behavior, discrete dynamical system, control of ecological-economic systems.
Статья представлена к публикации членом редакционной коллегии М.В. Губко
Поступила в редакцию 09.12.2014.
Опубликована 31.05.2015.