Модели адаптации в динамических контрактах в  условиях вероятностной неопределенности

Белов Михаил Валентинович; Новиков Дмитрий Александрович

УДК 334.02; 519.08 ББК 22.18

МОДЕЛИ АДАПТАЦИИ В ДИНАМИЧЕСКИХ КОНТРАКТАХ В УСЛОВИЯХ ВЕРОЯТНОСТНОЙ НЕОПРЕДЕЛЕННОСТИ1

Белов М. В.2

(Компания ИБС, Москва) Новиков Д. А.

(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)

Получены новые достаточные условия оптимальности скачкообразных и компенсаторных систем стимулирования в вероятностных задачах стимулирования; предложены и исследованы динамические модели адаптации участников организационной системы к изменению статистических характеристик внешней среды.

Ключевые слова: теория контрактов, задача стимулирования, вероятностная неопределенность, адаптивное поведение, задача о разладке.

1. Введение

Задачи стимулирования в организационных системах, т.е. побуждения управляемых субъектов к выбору определенных действий в интересах субъекта, осуществляющего управление, являются предметом исследований в теории управления организационными системами [12, 13] и в теории контрактов [21, 28], причем в рамках последней основное внимание уделяется ситуациям, когда результаты деятельности управляемых субъек-

1 Работа поддержана грантом РНФ №16-19-10609.

2Михаил Валентинович Белов, к.т.н. ([email protected]).

3 Дмитрий Александрович Новиков, д.т.н., чл.-корр. РАН, профессор (novikov@tushino. com).

тов зависят не только от их собственных действий, но и от внешних случайных факторов. Если взаимодействие участников организационной системы повторяется во времени неоднократно, то возникает необходимость рассмотрения динамических контрактов, описываемых в рамках теории повторяющихся игр (в дискретном [10, 24, 27] или в непрерывном [22, 29] времени) - см. обзоры в [11, 23, 27]. Однако возможны ситуации, когда характеристики внешней неопределенности изменяются во времени, следовательно, необходимы разработка и исследование моделей, учитывающих эффекты обнаружения участниками оргсистемы подобных изменений и эффективной реакции на них.

Изложение материала настоящей работы имеет следующую структуру. Во втором разделе вводится система классификаций моделей контрактов в организационных системах, рассматриваются статические модели контрактов, в том числе в условиях аддитивной неопределенности (подраздел 2.4) и в рамках так называемой модели простого агента (подраздел 2.5), для которых получены новые достаточные условия оптимальности скачкообразных и компенсаторных систем стимулирования. Третий раздел посвящен контрактам в многоагентных системах, четвертый и пятый разделы - динамическим моделям освоенного объема и процессов адаптации участников организационной системы к изменению характеристик внешней среды.

2. Статическая модель

Рассмотрим организационную систему (ОС) [13], состоящую из одного управляющего органа - центра - и одного управляемого им субъекта - агента. Агент выбирает неотрицательное действие у > 0, которое совместно с реализацией неопределенного параметра - состояния природы в е [0; А] - однозначно определяет результат z = у - в его деятельности (так называемая аддитивная модель учета неопределенности, в которой неопределенность «аддитивно ухудшает» действие агента). Предположим, что размер затрат агента с(у, г) зависит от его действия у и типа г > 0 (параметр агента, отражающий эффективность его деятельности), причем будем считать, что

с(% г) - строго монотонно возрастающая гладкая выпуклая функция первого аргумента, равная нулю в случае выбора агентом нулевого действия, и монотонно убывающая функция второго аргумента. Описание затрат агента функцией двух переменных является традиционным для теории управления организационными системами (см. например, [5-13]). Однако в большинстве рассматриваемых в работе случаев тип агента г фиксирован и/или несущественен с содержательной точки зрения. Поэтому будем его опускать в записи функции затрат, используя для последней обозначение е(у) там, где это не приводит к неоднозначности.

Центр предлагает агенту заключить контракт с(г), определяющий размер неотрицательного вознаграждения (и условия его получения) в зависимости от достигнутого результата. Целевая функция агента имеет вид разности между стимулированием и затратами:

(1) /(&(■), у, 2) = ф) - с(у, г).

Центр получает доход H(z) от деятельности агента (где H(•) - непрерывная неубывающая функция) и несет затраты на стимулирование, т.е. его целевая функция равна разности между доходом и стимулированием:

(2) ФИО, 2) = Н (2) -а( 2).

Примем традиционный для задач стимулирования в рамках теории управления организационными системами [2, 12, 13] и теории контрактов [21, 26, 28, 30] порядок функционирования: сначала центр и агент согласовывают контракт (центр предлагает агенту контракт, от которого агент может «отказаться», выбирая нулевое действие, т.е. не получая вознаграждения, но и не неся затрат), затем агент выбирает действие, после чего производятся выплаты.

Будем считать, что при принятии решений участники ОС стремятся максимизировать свои целевые функции. Так как результат деятельности агента зависит и от его действия, и от состояния природы, то для устранения неопределенности относительно значения состояния природы и центр, и агент должны использовать всю имеющуюся у них информацию. В зависимости от информированности участников, выделяют:

- детерминированный случай (неопределенность отсутствует (А = 0), и это является общим знанием для центра и агента);

- случай полной информированности (когда субъект, принимающий решение, знает истинное значение состояния природы);

- интервальную неопределенность (когда субъект, принимающий решение, знает лишь множество возможных значений [0; А] неопределенного параметра - состояния природы);

- вероятностную неопределенность (когда субъект, принимающий решение, знает распределение вероятностей на множестве возможных значений неопределенного параметра - состояния природы или результата деятельности агента);

- нечеткую неопределенность (когда субъект, принимающий решение, знает функцию принадлежности неопределенного параметра, определенную на множестве его возможных значений).

Обозначим через <До(0, у)> и <Ф(а(), у)> «детерминированные» целевые функции агента и центра, т.е. получающиеся после устранения ими неопределенности относительно состояния природы. Для устранения интервальной неопределенности обычно - см. обзор методов устранения неопределенности в задачах стимулирования в [12] - используют принцип максимального гарантированного результата, в случае вероятностной неопределенности - принцип ожидаемой полезности, в случае нечеткой - принцип максимально недоминируемых альтернатив.

Обозначим через Р(о(•)) - множество оптимальных для агента (реализуемых центром) действий агента в рамках контракта с(-), через М- множество допустимых контрактов, где

РИ-)} = а^шах{/ (а(-), у)}.

у>0

Примем гипотезу благожелательности [12, 13], в соответствии с которой агент выбирает из множества реализуемых действий то действие, которое наиболее предпочтительно для центра. Тогда задача стимулирования будет заключаться в нахождении оптимального контракта о (•), т.е. допустимого контракта, максимизирующего выигрыш центра:

(3) ст'(-) е Argmax{max (Ф(ст(-),у)}}.

аеМ УеР

Если гипотеза благожелательности не выполнена, то ищется система стимулирования (контракт), имеющая максимальную гарантированную эффективность:

(•) е Argmax{ min {Ф(ст(-),y)}}.

8 аеМ УеР|»

Отметим, что даже при наличии одного неопределенного параметра число возможных комбинаций информированности центра и агента достаточно велико (точнее, равно 17 = 1 + 42;

случаи нетривиальной взаимной информированности [14] лежат вне рассмотрения настоящей работы). Проанализируем некоторые из них.

2.1. ДЕТЕРМИНИРОВАННЫЙ СЛУЧАЙ

В его рамках z = y, и оптимальной (решением задачи (3)) является скачкообразная система стимулирования, использующая принцип компенсации затрат агента [1, 3, 13]:

ЛП / л ic(x0)' У - x0'

(4) ^ (WH^

[О, У < xQ,

где оптимальный план по действию (желательное для центра действие агента) равен

(5) Xq = argmax 2-(){H (z) - c(z)}.

Подставляя (4) и (5) в (2), легко найти оптимальный выигрыш центра

(6) Kq = max г-о{Н(г) - c(z)}.

Значение целевой функции агента при этом равно нулю. Если гипотеза благожелательности не выполнена, то е-оптимальной является система стимулирования

(7) ( л \С(XQ) + ^ У - Х0,

(7) (X У) = <L

8 I0, У < Xq;

где е > 0 - сколь угодно малая константа.

2.2. СЛУЧАИ ПОЛНОЙ ИНФОРМИРОВАННОСТИ ЦЕНТРА И АГЕНТА

Пусть на момент принятия решений о выбираемом действии и размере выплат соответственно агент и центр знают реализовавшееся значение состояния природы. Тогда центр может использовать так называемый механизм гибкого планирования [9], в котором и оптимальный план

(8) х*(в) = arg max [H(y - в) - c(y)],

y>0

и система стимулирования

kх'(в)), z > х'(в) -в,

(9) ^ (x'(в), z) = J ( ( )) ( ) ,

с |0, z < х (в) -в;

зависят в явном виде от состояния природы в. Значение целевой функции агента при этом равно нулю, а оптимальный выигрыш центра равен

(10) К(в) = max [H(y - в) - c(y)].

y>0

Очевидно, что в силу неубывания функции затрат агента, Ув> 0 К(в) < К0, т.е. влияние неопределенности на выигрыш центра негативно.

2.3. ИНТЕРВАЛЬНАЯ НЕОПРЕДЕЛЕННОСТЬ

В ситуациях неполной информированности целесообразно разделять случаи симметричной (одинаковой) и асимметричной информированности центра и агента (обычно считается, что агент информирован о неопределенных параметрах не хуже центра [13], поэтому в рамках асимметричной информированности ниже предполагается, что агент на момент принятия решений знает реализовавшееся значение состояния природы, а центр принимает решения в условиях неопределенности). Отметим, что возможность сообщения агентом центру информации [2, 13] мы не рассматриваем.

Асимметричная информированность. В этом случае центр, зная только диапазон [0; А] возможных значений состояния природы, вынужден гарантировать агенту компенсацию затрат:

(11) Хмгр = arg max min [H(y - в) - c(y)] =

у >0 ве[0;Д ]

= arg max [H(y - A) - c(y)],

у>0

т.е. использовать систему стимулирования

I ФМГР ), z > ХМГР — Д,

(12) ^с(хмгр, z) =

0, z < ХМГР -Д.

Агент при этом, зная реализовавшееся значение состояния природы в, выбирает действие

(13) у (в) = Хмгр - А + в,

приводящее к «ожидаемому» центром результату хмгр - А его деятельности (то, что агенту выгодно выполнять план, легко проверяется сравнением размеров его выигрышей при выполнении и невыполнении плана).

Оптимальный выигрыш центра

(14) Ka = max [H(y - А) - c(y)]

У-0

в случае асимметричной информированности при любом значении состояния природы не выше, чем в случае полной информированности (ср. (10) и (14)).

Значение целевой функции агента при этом равно

(15) Лос(хмгр, Хмгр), /(в), Хмгр) = с(хмгр) - с(хмгр - А + в) > 0. Величина (15) называется информационной рентой, т.е. выигрышем, который получает субъект (в данном случае - агент) за счет лучшей своей информированности по сравнению с другими субъектами (центром).

Симметричная информированность. В этом случае ни центр, ни агент на момент принятия решений не знают реализации состояния природы, а им известен только диапазон [0; А] его возможных значений. Поэтому центр использует систему стимулирования (12) и получает выигрыш (14), а агент вынужден выбирать действие, гарантирующее ему получение ненулевого вознаграждения:

(16) Умгр = хмт

что приносит ему нулевой выигрыш. При этом в организационной системе реализуется «перепроизводство», равное А - в> 0.

2.4. ВЕРОЯТНОСТНАЯ НЕОПРЕДЕЛЕННОСТЬ: АДДИТИВНАЯ МОДЕЛЬ

Пусть состояние природы в, относительно которого в ОС имеет место симметричная информированность, является случайной величиной с непрерывной функцией распределения Рв(•): [0; А] ^ [0; 1], для которой существует п.р.в. рв,')-В дальнейшем нам будет удобно пользоваться функцией распределения ^О): (-да; +да) ^ [0; 1]: Г0, д < 0,

ад) = Шд), де [0; А], 1, д > А.

При заданном действии агента у, в силу определения результата деятельности г = у - в, последний является случайной величиной с функцией распределения у): [у - А; у] ^ [0; 1], равной

(17) у) = 1 - Гв(у - д).

Предположим, что центр ограничен параметрическим классом (параметры: п > 0, X > 0 - см. выражение (18)) скачкообразных систем стимулирования (как показано в [6, 12], в рассматриваемом случае скачкообразные системы стимулирования могут быть не оптимальны - см. также ниже, но, тем не менее, они просты и широко распространены на практике):

(18) *с(п, г) = Р' г

[ 0, г <л,

где п - план по результату (желательный для центра результат деятельности агента).

При выборе агентом действия у > п математическое ожидание размера его вознаграждения (18) равно

(19) Ег ос(п, г) = XFвy - п).

Будем считать, что агент выбирает действие, максимизирующее его ожидаемую полезность [12, 13, 21], поэтому из условий первого порядка можно записать, что действие агента у (п, X) > п должно удовлетворять уравнению

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(20) X рв(у*(п, X) - п) = о'(у*(п, X)).

Задача центра заключается в выборе параметров п > 0, X > 0 системы стимулирования (контракта), максимизирующих его ожидаемую полезность:

а

(21) jИ(У\п, Л) -ОРв(СЖ - Л) - п)

*(п, Л) -п) ^ max

п>0,Л>0

Пример 1. Пусть центр имеет линейную функцию дохода Н(г) = yz, где у > 0 - известная константа; агент имеет квадратичную функцию затрат с(у, г) = у212г, где г > 0 - тип агента [13], отражающий эффективность его деятельности; а распределение равномерное: Е^у) = у/А, V е [0; А].

Из выражения (19) следует, что математическое ожидание размера вознаграждения агента равно Х(у - п)/А. Следовательно, при выборе агентом действия у > п математическое ожидание значения его целевой функции равно (22) Ег Доо(п, г), у, ¿) = X (у - п)/А - у212г.

Максимизируя свой ожидаемый выигрыш (22), агент выберет действие (см. также выражение (20))

(23) У*(п,Л) = <

Лг Лг

— при п < —, А 2А'

Лг

О при п > —.

2А

Математическое ожидание значения целевой функции центра равно:

(24) Ez Ф(ос(п, z), z) = у(у - А/2) - Х(у - п)/А.

Подставляя (23) в (24), получим задачу (см. (21)) выбора центром параметров системы стимулирования (18)

(25) у (Хг/А - А/2) - Х(Хг/А - п)/А ^ max .

л>0, п<лг/(2а)

Решение задачи (25) имеет вид Я* = уА, ж* = yr/2. Ожидаемый выигрыш центра при этом равен y(yr - А)/2, а ожидаемый выигрыш агента равен нулю. •

Решим задачу синтеза оптимальной системы стимулирования для рассматриваемой вероятностной аддитивной модели.

1 Символ «•» здесь и далее обозначает окончание примера или доказа-

тельства.

О

Общая схема решения вероятностных задач стимулирования такова [12]: сначала для каждого действия агента x ищется минимальная (с точки зрения ожидаемых затрат центра на стимулирование) реализующая его система стимулирования crmin(x. •), т.е. побуждающая агента выбирать именно это действие: x е P(amn(x. •)). Затем ищется действие, реализация которого наиболее выгодна для центра (максимизирует его ожидаемый выигрыш - см. также выражение (3)):

(26) x* = arg max ЕФ^^^. •). x).

x>0

где E - оператор вычисления математического ожидания.

д

Обозначим через x** = arg max [ j H(x - ¿^)pe (C)dC - c(x)].

> 0

Лемма 1. В вероятностной задаче стимулирования для любого действия агента x > 0 не существует системы стимулирования, реализующей это действие с ожидаемыми затратами центра на стимулирование, строго меньшими затрат агента, т.е. crmm(x, •) > с(х).

Доказательство. Пусть существует действие агента х > О и система стимулирования <j(z) , такие, что выполнено +00

(27) Ez a(z)\x = ja(z)pz(v, x)dv < c(x),

0

и система стимулирования <j(z) реализует действие х > О, т.е. У у > 0 выполнено

(28) Ez ö(z)\x - с(х) > Ez ö(z){y - c(y).

Для y = 0 выражение (28) с учетом условия с(0) = 0 примет

вид

Ez a(z)\x > с(х) + Ez ct(z)|0 , что в силу неотрицательности стимулирования (и, следовательно, его математического ожидания) противоречит (27). •

Найдем достаточные условия оптимальности системы стимулирования типа (18), а именно контракта

✓ ч fc(x), z > x — Д,

(29) zc(x. z) = J ( л ,

0, z < x — Д.

Утверждение 1. Если Ух е [х - А; х ] выполнено

(30) рд(х - х**) > Щ-, с(х )

то в аддитивной модели учета вероятностной неопределенности система стимулирования (29) реализует действие х агента с минимальными ожидаемыми затратами центра на стимулирование, равными с(х *) и является оптимальной.

Доказательство. Вычислим математическое ожидание вознаграждения агента при выборе им действия у при плане х:

а

Ег ос(х, г)|у = |стс (х -А, у - £)рв (ОС . Из выражения (19)

0

следует, что Е2 аС(х, ¿)\у = с(х) ¥£у - х + А). Ожидаемая полезность агента равна

—с(у), У < х -А,

Ег ос(х, г)|у - с(у) = \ с(х)Ев (у—х+А) — с(у), у е [х — А, х], с(х) — с (у), у > х.

При плане х = х** в силу условия (30) максимум данной ожидаемой полезности достигается при выборе агентом либо нулевого действия, либо действия, совпадающего с планом х (условие (30) гарантирует неубывание ожидаемой полезности агента по его действию на отрезке [х** - А; х**]). В силу гипотезы благожелательности агент выберет действие х , что приведет к ожидаемым затратам центра на стимулирование в точности равным затратам агента. Следовательно, в силу результата леммы 1 система стимулирования (29) оптимальна. •

Очевидно, что, если гипотеза благожелательности не выполнена, то е-оптимальной системой стимулирования в рамках условия (30) будет система стимулирования Гс(х) + £, г > х — А,

^(х, г) =

0, г < х — А. Пример 2. В условиях примера 1 условие (30) примет вид:

уг > 2А. •

Теперь исследуем достаточные условия оптимальности компенсаторной системы стимулирования. Для этого найдем систему стимулирования о (г), которая обращает в ноль ожи-

даемую полезность агента для любых его действий, т.е. для которой выполнено

у

(31) 2)рв(у - 2)^2 = с(у).

в

у-Д

Утверждение 2. Если существует контракт а(2) > 0, удовлетворяющий выражению (31), то он является оптимальным в аддитивной модели учета вероятностной неопределенности.

Справедливость утверждения 2 следует из свойства (31) системы стимулирования а( 2) и результата леммы 1.

Итак, система стимулирования а(2) является оптимальной, если существует положительнозначное решение интегрального уравнения (31). Сформулируем условия существования такого решения.

Утверждение 3. Если функции с'(у) и р'в (у) непрерывны в

областях определения, то интегральное уравнение (31) имеет единственное решение, которое может быть найдено методом последовательных приближений:

с'00

(32) \

*)(2) =

Ре (0): С ' (2 ) ГЛ,.ЛР'е (2 - и)

(2) = -Г* (и) е (2 - и) а г = 1,2,.... . г+1( ) Ре (0) Г г ( ) Ре (0) , , ,

Для положительнозначности решения интегрального уравнения (32) необходимо

у

(33) с'(у)>{*(и)р'в(у-и)йи, г = 1,2,....

0

Доказательство. Продифференцируем выражение (31):

2

(34) р0(0)*(г) - р0(Д)*(2 - Д) + |*(и)р'в(2 - и)йи = с'(г).

2-д

Сначала решаем (34) при г < Д:

2

рв (0)*(2) + Г *(и)р'в (г - и)йи = с'(2).

Перепишем данное выражение в виде:

(35) а (г)=-СМ _г а и

' Ро(0) о ( ' Ро(0)

Уравнение (35) является интегральным уравнением Воль-терра второго рода. Известно (см., например, [17]), что в рамках условий доказываемого утверждения оно имеет единственное решение, которое может быть найдено методом последовательных приближений (32). Для положительнозначности решения необходимо выполнения (33). Таким образом, решение для г < А получено.

Используя (34), аналогичное решение можно получить для г е [/А; (/ + 1)А],/ = 1, 2, ...:

= {с(г) + ро (А)<^(г -А)} _ 'г (и) ро (г - и) ^

) Ро (0) 'о ( ) Рв (0) '

причем доказательство положительности решения <у(г) достаточно выполнить только для решения на первом интервале, далее с'(г) + ре(А)о(г - А) > с'(г).

Пример 3. Пусть п.р.в. рд (•) является равномерной, т.е.

1 при Vе [«о;

Ро(у) = 1 А

0 при ^[а0;а1];

где 0 < а0; а1 = а0 + А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда (31) примет вид 'а(и)йг = Ас( г, г). Дифференцируя

г-а1

обе части, получим функциональное уравнение а(г - а0) - а(г - а1) = Ас'(г).

Учитывая, что с(у) = 0 с '(у) = 0 и при у < 0, решение итогового уравнения получится в виде функционального ряда:

ст(г - «0) = А^™ о с'(г - А/).

Так как с(-) непрерывно дифференцируема и выпукла, сумма функционального ряда положительна и возрастает, что соответствует основному требованию к функции стимулирования о(-).

В частности, в условиях примера 1 с(у, г) = у2/2г, а

с'(у, г) = у/г при у > 0, тогда

*( 2 - = Д/ 2 - Дг)( 2 - Дг),

^ ^ -ч - Г1 при и > 0,

где &(•) - функция Хевисайда: в(и) = < •

[0 при и < 0.

2.5. ВЕРОЯТНОСТНАЯ НЕОПРЕДЕЛЕННОСТЬ : МОДЕЛЬ С ПРОСТЫМ АГЕНТОМ

Альтернативой рассмотренной выше в подразделе 1.4 аддитивной модели учета неопределенности является так называемая модель простого агента [3, 5, 6, 12], в которой функция распределения результатов деятельности имеет вид

(36) ^ С, у) = {°(9)' 9 < у

I1, 9 > у;

где С(-): [0; +да) ^ [0; 1] - известная функция распределения (соответствующую ей п.р.в. обозначим через £(•)), ^(0) = 0, т.е., как и в аддитивной модели, действие агента определяет максимально возможный результат, а распределение G(•) не зависит явным образом от действия. П.р.в., соответствующую функции распределения (36), обозначим через рг(#, у).

При использовании центром скачкообразной системы стимулирования (18) и выборе агентом действия у > п математическое ожидание размера его вознаграждения равно Л(0(у) - О(п)). Аналогом условия первого порядка (20) для модели простого агента является

X g(y*(п, Л)) = с '(у*(к, Я)).

В [12] доказано, что в модели нейтрального к риску простого агента оптимальны компенсаторные системы стимулирования, а в [6] доказано, что в этом классе моделей оптимальны:

- для несклонного к риску агента - компенсаторные системы стимулирования вида

(37) ок{2) = Г ^

г, 1

_ 2 с' (у)ёу 01 -ОД ;

- для склонного к риску агента - скачкообразные системы стимулирования следующего вида:

с( х)

, г > х,

(38) ос(х, z) = Ь - 0(х) 0,

г < х.

Легко убедиться, что функция стимулирования (37) является неотрицательной, возрастающей и выпуклой. По аналогии с леммой 1 в [6] можно доказать следующие свойства систем стимулирования (37) и (38).

Утверждение 4. В модели простого агента У у > 0 выполнено:

Содержательно результат первого пункта утверждения 4 означает, что для любого действия агента математическое ожидание его вознаграждения (37) в точности равно затратам агента по выбору этого действия. Следовательно, при выборе центром функции стимулирования (37) для любых действий агента его ожидаемая полезность обращается в ноль, что делает его индифферентным к выбору действий, следовательно, в рамках гипотезы благожелательности агент выберет действие, которое наиболее предпочтительно с точки зрения центра.

При использовании центром системы стимулирования (38) агент индифферентен между нулевым действием (отказ от контракта) и выполнением плана. Для того чтобы ожидаемая полезность агента достигала единственного максимума при выборе действия, совпадающего с планом, необходимо увеличить размер выплат за выполнение плана на сколь угодно малую положительную величину е. Но такая система стимулирования будет уже не оптимальной, а е-оптимальной. Легко убедиться, что справедливо следующее утверждение.

о

z > X,

Утверждение 5. В модели простого агента Ух > 0 система стимулирования

с(X, г) + 8 (39) аЕс (х, z) = ] 1 - в(х) :

0, г < х,

£-оптимальна (т.е. реализует действие агента х с минимальными ожидаемыми затратами центра на стимулирование).

Независимо от того какую - компенсаторную или скачкообразную - систему стимулирования использует центр, оптимальным с его точки зрения будет план (по действию)

(40) х* = arg max [ J H(z)g (z)dz + (1 - G(y)) H(y) - c(y, r)].

7 > 0

Условием первого порядка для выражения (40) является

(41) Н(х*) + (1 - G(x*)) Н\х*) = е'(х\ r).

Пример 4. Пусть в условиях примера 1 G(z) = z/(1 + z). Из

z2 ( 2z^

выражения (37) следует, что < (z) = — I 1 +--I, а из выраже-

2r I 3 )

ния (41) находим X* = — 2

( — + 3yr ^ — 1

1 -уг

Так как в рассматриваемой в настоящей работе модели простого агента последний нейтрален к риску, то, выбирая из систем стимулирования (37) и (38), наверное, следует отдать предпочтение скачкообразной системе стимулирования, так как она, во-первых, проще, а, во-вторых, ее е-оптимальный аналог побуждает агента выбирать действие, совпадающее с планом (см. утверждение 5).

Основными результатами первого раздела, в котором рассматривалась статические задачи теории контрактов, являются «аналитические» зависимости типа (31), (37), которые позволяют ставить и решать более сложные задачи - в частности динамические, в которых изменяются характеристики агентов и/или состояния природы (например, изменяются параметры его функции распределения). Однако сначала рассмотрим непосредственное обобщение модели с одним агентом и аддитивной

неопределенностью на многоагентный случай (раздел 3), а затем обобщение статической модели с простым агентом на случай нескольких последовательных периодов его деятельности (раздел 4).

3. Многоагентная модель

Пусть в ОС центру подчинены п агентов, принимающих решения одновременно и независимо (через N = {1, ..., п} обозначим множество этих агентов), а функция затрат /-го агента сг(уг-, гг) = с(у„ г), где у/ > 0 - его действие, г/ > 0 - его тип (нижним индексом здесь и далее будем обозначать номер агента).

Обозначим через У = ^ у сумму действий всех агентов.

Предположим, что задачей центра является обеспечение суммарного результата X > 0 деятельности всех агентов с вероятностью не меньшей заданного значения а е [0; 1]. Величина а называется надежностью контракта [4].

Для аддитивной модели учета неопределенности это условие примет вид следующего ограничения на действия агентов:

(42) У > X + п Е- (а).

Величина п Е- (а) может рассматриваться как «плата за неопределенность» в терминах действий агентов.

Рассмотрим следующую задачу: каковы должны быть оптимальные планы (по действиям)? Воспользовавшись утверждением 1, получаем, что ожидаемые затраты центра на стимулирование каждого агента в точности равны затратам последнего от выбора соответствующего действия (так как при использовании центром системы стимулирования (31) ожидаемый выигрыш агента постоянен при любом его действии, то, в силу гипотезы благожелательности, он выберет действие, совпадающее с планом). Так как затраты агентов - неубывающие, то в оптимальном решении условие (42) выполняется как равенство. Следовательно, поиск оптимальных планов сводится к следующей задаче условной оптимизации:

У с(X , г) ^ тп

У х, = х+ш-\<*).

ЬеЫ

Применяя метод множителей Лагранжа, получаем, что справедливо следующее утверждение.

Утверждение 6. В аддитивной модели учета вероятностной неопределенности оптимальные планы {хг- } в контракте по обеспечению суммарного результата X> 0 с надежностью а

имеют вид * 1

(44) х, = с^(м, г), / е N,

где ц > 0 - решение следующего уравнения:

(45) у с'-1(м, Г) х, = X + пГг\ос).

В силу монотонности функции распределения получаем из анализа задачи (43), что справедливо следующее утверждение.

Утверждение 7. В аддитивной модели учета вероятностной неопределенности с ростом надежности контракта минимальные затраты центра на обеспечение заданного суммарного результата деятельности агентов не убывают.

Пример 5. Пусть агенты имеют функции затрат типа Коб-

ба-Дугласа, т.е. с(у, г) = — у^г1-", ц > 1. Из выражений (44) и (45)

8

получаем

« Г л

(46) х, = (X + п Е-1 (а)), / е N.

У Г

]еМ

Зная оптимальные планы (46), вычисляем оптимальное значение критерия эффективности:

(47) У с(X*, г,) = ^х-ПЕ-

,еЫ | ч

м\ У г

Правая часть выражения (47) не убывает по а (см. утверждение 5).

Размер «платы за неопределенность» (разность между (47) и значением критерия эффективности в соответствующей детерминированной задаче) в терминах критерия эффективности

(X + пР-\а)У - XК составляет -—--- и не убывает с ростом надеж-

К £ г Г-1

jeN

ности контракта. •

4. Модель освоенного объема

Модель освоенного объема очень распространена в теории и практике управления проектами, поэтому имеет смысл показать, как предлагаемые динамические модели контрактов связаны с моделью освоенного объема.

Рассмотрим взаимодействие центра и одного агента в течение выполнения некоторого проекта - нескольких последовательных периодов дискретного времени. К концу периода Т0 (планового, называемого планируемым сроком завершения проекта) центру требуется обеспечить заданный суммарный результат Х0 > 0 деятельности. Пусть значения состояния природы {^^д. в различные периоды - независимые одинаково распределенные случайные величины с функцией распределения Ее(-), а центр заключает с агентом оптимальный (см. утверждение 2) контракт сс (г1), удовлетворяющий выражению (31) и определяющий размер вознаграждения агента в зависимости от результата его деятельности в периоде I, t = 1, 2, ... .

Так как тип агента и его функция затрат не зависят от номера периода, то при заданной надежности а каждого однопериод-ного контракта центру следует назначать агенту в каждом периоде один и тот же план (по действию), равный (ср. с выражением (42))

(48) хо = Хо/То + ^ (а),

причем, в силу (31), агенту выполнять этот план выгодно.

Плановый результат (суммарный) деятельности агента в момент времени t равен

(49) Х0 = t хо - tЕв1 (а) = Хо/То.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Последовательность (49) в терминах методики освоенного объема, принятой в современном управлении проектами [7, 16], называется планируемой динамикой объемов работ (BQWS -Budgeted Quantity of Work Scheduled).

Так как результат zT = xo - вт деятельности агента в периоде т - случайная величина, то суммарный результат X, достигнутый к периоду t, также является случайной величиной: t t (50) X = txo - £вт = t(Xo/To + Fel (a)) - £ вт =

т=1 т=1

= X0 + t Fee1 (a) - £вт .

т=1

Последовательность (50) в терминах методики освоенного объема является фактической траекторией (фактическая динамика объема работ: AQWP - Actual Quantity of Work Performed).

Определим другие показатели освоенного объема в терминах рассматриваемой аддитивной модели учета неопределенности (t = 1, 2, ..., T) [7]:

- плановые ожидаемые (в смысле математического ожидания) затраты центра (Budgeted Cost of Work Scheduled -BCWS), директивный график:

(51) c0 = HXo/To + Fe1 (a), r);

- фактические затраты центра (Actual Cost of Work Performed - ACWP):

t

(52) c = £а(х0 -вт);

т=1

- отставание от плана (временное, может в общем случае быть как положительным, так и отрицательным):

(53) S(t) = min [S | X'0S = Xt};

- освоенный объем (EV - Earned Value, Budgeted Cost of Work Performed - BCWP) как плановая стоимость фактически выполненных работ:

(54) С = c0-5(t>.

- текущий прогноз T(t) времени завершения проекта:

(55) T(t) = To + s(t);

- общие плановые затраты C0 (BAC - Budget at Completion или BC - Budget Cost):

(56) Co = To c(Xo/To + F;1 (a), r);

- текущая линейная оценка общих затрат:

(57) C(i) = T(t) c'/t.

- фактический срок завершения проекта:

(58) T' = min {' > 0 | X >Xo};

- разность между фактическими и освоенными затратами (Cost Overrun - «перерасход» средств):

(59) Асе(') = c' - c'e;

- показатель освоенного объема (SPI - Schedule Performance Index):

(60) a' = €te / c0;

- показатель динамики (освоения) затрат (CPI - Cost Performance Index):

(61) ь = ce /c'.

Показатели освоенного объема (48)-(61), которые подразделяются на первичные - (48)-(52) и производные - (53)-(61), являются эффективным инструментом планирования проектов и оперативного управления их реализацией.

Плановая (черный), ожидамая (синий) и фактическая (красный) траектории

105 100 95 SO 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0

10 20 30 40 50 60 70 80 90 100 110 120 130 140

Время

Рис. 1. Динамика результатов в примере 6

Пример 6. Пусть в условиях примера 1 г = 1, Т0 = 100, Х0 = 100, А = 1, а = 0,2. Плановая (см. выражение (49)), фактическая (см. выражение (50)) и ожидаемая (X" = Х*0 + "(Ед 1 (а) -

- Е в)) траектории приведены на рис. 1 (моделирование осуществлялось в программном комплексе РДС [15]).

Динамика плановых и фактических затрат, а также освоенного объема приведены на рис. 2. •

Получаем: Г = 145, ВАС = 72, АсДТ') « 60%. •

Плановые затраты (черный), фактические затраты (красный) и освоенный объем (синий) 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 О -5

10 20 30 40 50 60 70 80 90 100 110 120 130 140

Время

Рис. 2. Динамика затрат и освоенного объема в примере 6

5. Модель адаптации

Классификацию задач стимулирования в динамических организационных системах можно осуществлять по различным основаниям: взаимосвязь периодов, дальновидность участников, режим принятия решений и др. (см. [11]). В настоящем разделе сначала вводится классификация динамических задач стимулирования в условиях, когда на протяжении рассматриваемого промежутка времени может однократно (в момент времени "р) измениться один из параметров модели - целевая функция центра, функция затрат агента или функция распределения результатов деятельности агента (подобное событие будем условно называть «разладкой»). Участники организационной системы при этом предполагаются недальновидными, т.е. при-

нимающими в каждом периоде решения только на данный период, не принимая во внимание возможные будущие последствия этих решений. Затем изучается одна из моделей, в которой предметом разладки является функция распределения, а момент разладки не известен ни центру, ни агенту. Изменение поведения участников организационной системы при обнаружении факта разладки можно условно трактовать как их адаптацию к новым условиям функционирования [8, 18].

5.1. КЛАССИФИКАЦИЯ ДИНАМИЧЕСКИХ ЗАДАЧ СТИМУЛИРОВАНИЯ

В таблице 1 перечислены все возможные варианты информированности центра и агента о «новых» функциях (дохода, затрат и распределения) после наступления момента разладки (эти функции будем обозначать, используя верхнюю тильду). При этом будем считать, что перед принятием решения на период 7 относительно «истории игры» центр знает Х1_1 = (г1, ..., г7-1), а агент - и Х1_1, и У1-1 = (у1, ...,У-1). Информированность агента и центра отражены в третьем и четвертом столбцах.

1-2. Изменение функции дохода центра (Н(г) ^ Н(г)) рассмотрено в строках 1 и 2. Если новая функция дохода и момент времени 7р (момент разладки) известны центру (первая строка), то постановка сводится к набору типовых - рассмотренных в первом разделе - статических задач стимулирования, решаемых отдельно для каждого периода. Если новая функция дохода центра Н(г) или момент времени Iр неизвестны центру, то такая постановка не имеет смысла, так как центр не имеет достаточной информации для принятия решений (не знает своей функции дохода).

3-9. Изменение функции затрат агента (с(у) ^ с(у)) рассмотрено в строках 3-9 таблицы 1.

Если момент изменения и новая функция затрат известны и агенту, и центру (строка 3), то постановка сводится к набору типовых задач, последовательно и независимо решаемых в различные моменты времени.

Если центр знает новую функцию затрат агента, но не знает момента её изменения (строка 4), то рациональным поведением для него является предлагать всякий раз агенту меню контрактов, являющихся оптимальными для набора вариантов функции затрат - известный принцип скрининга

(screening), используемый в условиях асимметричной информированности (см. [13, 21]).

Таблица 1. Классификация динамических задач стимулирования

№ Предмет Агент Центр Задача

разладки знает знает

1 Не важно р Н(г) Типовая задача

2 H(z) ^ H(z) Ничего или ¡р Не имеет смысла

3 Р с(у) Типовая задача

4 tp, с(y) У) Screening

5 Ничего Не имеет решения

6 c(y) ^ y) р с{у) Типовая задача

7 y) У) Типовая задача

8 Ничего Не имеет решения

9 Ничего Не важно Не имеет решения

10 ¡р, Рв(г, у) Типовая задача

11 tp; Fe(z, y) У) Screening

12 Ничего Не имеет решения

13 Fe (z, y) ^ Fe( z, y) ¡р, г, у) Типовая задача

14 Fe(z' y) У) Р1

15 Ничего Не имеет решения

16 Ничего Не важно Не имеет решения

Если агент знает и новую функцию затрат, и момент изменения, а центр - ничего из этого (строка 5), то задача не имеет решения по следующим причинам. Для того чтобы получить самому выигрыш больший нуля, центр должен побудить агента действовать хотя бы каким-то образом, а для этого он должен сформировать контракт, который даст агенту выигрыш не меньший нуля. Но в условиях, когда центр не знает функции затрат агента, он не сможет сформировать такой контракт. По аналогичным причинам не имеют решения задачи в строках 8, 12 и 15, когда центр не знает новых функций затрат ~(у) или

распределения (у).

Если центр знает и новую функцию затрат агента, и момент её изменения, а агент - только функцию затрат (строка 6), то данный случай сводится к типовой задаче: центр обладая полной информацией будет предлагать до момента разладки контракт, соответствующий с(у), а после нее - ~(у); агент может идентифицировать момент разладки через момент смены предложения центра и реагировать оптимально. То есть в этом случае получаем набор типовых задач.

Рассмотрим случай, когда центр и агент знают новую функцию затрат, но не знают момент её изменения (строка 7). Выше мы предполагали, что функция затрат агента непрерывно дифференцируема и строго монотонна, а это означает, что, наблюдая свои фактические затраты, агент может идентифицировать факт разладки (если последняя имела место), причем изменения функции затрат достоверно обнаруживаются агентом непосредственно по окончанию периода, наступившего после разладки, и в котором агент выберет некоторое действие у, для которого с(у) Ф у) . Однако в этом одном периоде (выбирая свое действие) он гарантированно не знает своей функции затрат. Поэтому в условиях недальновидности агента центр должен будет всегда предлагать контракт, рассчитанный на наихудший для агента вариант функции затрат, т.е. на функцию С(у) = тах{с(у);~(у)} , причем и до, и после наступления разладки и обнаружения её агентом. Таким образом, в этом случае возникает типовая задача с дополнительными затратами центра,

величина которых может быть оценена обоими игроками (и центром, и агентом).

Если агент не знает новой функции затрат, задача также не имеет решения в данной постановке независимо от информированности центра (строка 9): в этом случае он не может оценить своих возможных потерь в течение периодов, пока он не идентифицирует новую функцию затрат, и поэтому предпочтет отказ от действий.

10-16. Изменение функции распределения результата деятельности агента в зависимости от его действия или функции распределения состояния природы (¥ (2, у) ^ ¥в(2, у)) рассмотрено в строках 10-16.

Если центр знает и новую функцию распределения ¥в (г, у), и момент разладки, а агент знает хотя бы новую функцию ¥в( г, у), то возникает набор типовых задач (строки 10 и 13).

Если агент знает и новую функцию распределения ¥в (г, у), и момент разладки, а центр - только новую функцию ¥в (г, у), то возникает последовательная задача скрининга (строка 11).

Если агент не знает новой функции распределения ¥д (г, у), задача также не имеет решения в данной постановке независимо от информированности центра (строка 16): в этом случае он не может оценить своих возможных ожидаемых выигрышей и потерь в течение периодов, пока он не идентифицирует новую функцию ¥д(г, у), и поэтому предпочтет отказ от действий.

Модель Р1 (строка 14) является многопериодной моделью контрактов с изменением функции распределения ¥ (г, у) в некоторый момент времени. В этой модели и центр, и агент знают новую функцию ¥в(г, у) и знают, что она может измениться не более одного раза, но априори не знают момента разладки.

Перед первым периодом взаимодействия и агент, и центр не имеют никакой информации о разладке кроме априорной, поэтому они обязаны действовать в предположении, что в первом периоде результат будет соответствовать одному из вариантов

функции ](г,у) или ]в(г,у) . При этом в условиях недальновидности агента центр должен предлагать контракт, рассчитанный на наихудший для агента вариант. Потому что если центр этого не сделает, то агент откажется от контракта, а следовательно ни агент, ни центр не получат новой информации о состоянии природы, и дальнейшее их взаимодействие потеряет смысл.

Если центр сформировал такой контракт, а агент рационален, то центр может прогнозировать действие агента у. Результат г наблюдаем центром, поэтому центр апостериори будет обладать той же информацией, что и агент. Этот факт можно обобщить в виде принципа «прозрачности стимулирующего контракта», сформулировав его в следующей форме: если условия задачи позволяют центру сформировать стимулирующий контракт, агент рационален и не осуществляет манипулирования, то центр может достоверно прогнозировать действия агента и обладать, таким образом, той же полнотой информации, что и агент.

Следовательно, после окончания первого периода центр сможет построить контракт для второго периода на основании не только априорных знаний о функциях ] (г, у) и ]в(г, у), но также и «наблюдений» Z1 и У1. Аналогично центр будет поступать и в дальнейшем, формируя контракт <т(г) для периода ^ с использованием знаний о функциях ](г,у) и ]в(г,у) и наблюдениях Zí_l и У1_1.

Альтернативой является использование недальновидным центром контракта, оптимального в условиях распределения

у), до тех пор, пока центр не примет решение о том, что разладка произошла (именно такая ситуация рассматривается ниже при анализе модели Р1). Отметим, что в силу одинаковой информированности, центр и агент примут решение о наличии разладки, условно говоря, одновременно.

В зависимости от наличия дополнительной априорной информации у центра и агента возможны несколько постановок задачи формирования таких контрактов.

Если обоим участникам доступна априорная информация о распределении вероятности момента разладки, то может быть сформирован последовательный оптимальный байесовский алгоритм формирования контракта <с(^).

Если оба участника не имеют дополнительной информации о возможности наступления разладки в различные моменты времени и знают, что их взаимодействие может прерваться после любого количества периодов, то оптимальным будет минимаксный подход.

5.2. ЗАДАЧА О РАЗЛАДКЕ (ЗАДАЧА Р1 - СМ.)

Пусть в рамках многопериодной модели (с несвязанными периодами [0]) простого агента центр использует оптимальную систему стимулирования (38) с оптимальным планом (40), причем первоначально и центр, и агент имели одинаковую информацию о функции распределения С(-). Предположим, что в некоторый момент времени ^ > 0 происходит разладка -

распределение (/(■) меняется на (}(■). Предполагается, что новое распределение &(•) известно априори и центру, и агенту, но момент разладки неизвестен никому из них. Изменение в результате разладки значения ожидаемой полезности агента в одном периоде равно

(62) АДС(-), (5(.)) = с(х ) •

Выбирая в каждый момент времени действие х* агент и центр наблюдают последовательность результатов (агент дополнительно наблюдает последовательность У( = (х , ..., х )) и должны принять решение, произошла разладка или нет. Получается, что последовательная задача распадается (из-за независимости периодов) на «одношаговые задачи с дополнительной информацией»:

На период " агент и центр перезаключают контракт, имея информацию о двух возможных распределениях О(-) и G(•) и дополнительные наблюдения Zí_1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Определим величину: Ь{= ^(^(г^у^-Ы^^^у^), которая

позволяет сформировать оптимальное последовательное правило максимального правдоподобия обнаружения разладки: в каждый момент времени ^ > 0 вычисляется значение и (I0 = 0):

(63) 1, =\°, если ^+ Ц -°

' У1« + Ц, если 1-1+ Ц > °

Если в какой-то момент ¡( > 3, то принимается решение, что разладка имела место, где порог 3 задает значения характеристик ошибок первого и второго рода.

Известно (например, [19]), что статистика максимального правдоподобия позволяет сформировать решающее правило, наиболее эффективное (по сравнению с другими статистиками) по следующему критерию эффективности: одна из ошибок фиксируется на уровне не ниже заданного, а вторая - оптимизируется. Порог 3 выбирается исходя из значений характеристик ошибок первого и второго рода.

Пример 7. Пусть в условиях примеров 1 и 4 (¡(г) = г/ЦЗ\ + г),

0(» =г!(Р2 +г). Тогда Ег(у) = Д 1п (1 +у/Д). Из условия (41) находим:

>( I-— Л

* В

х = — 2

уг -1--

4 у г

-1

(уг-1)В Выражение (38) примет вид: (х')\ X* + В)

(64) ос(х , г) = \

2гВ

г > X

г < X

Тогда согласно условиям примера и принципу прозрачности стимулирующего контракта агент будет всегда выбирать

. В

действие у = х = — 2

(

уг -1 -

4уг

Л

(уг -1Щ

-1

. До момента раз-

ладки результат действий агента будет иметь распределение

g ( г, х') = -

В

-3(г - х*) + -

В

В + X* (В1 + г)2

а после разладки - распределение

при г е [0, х ],

2 X*} =

Аг

р2 + х'

■5(2 - X*} +

Рг

(Р2 + 2)2

при ^ е [0, х ],

где - ¿-функция. Тогда

Ц =

1п

А

+ 21п

'' А 1 + 2 ^ {р2 + 2 ' А + X* А + Х

при е[0, х*},

при ^ = х .

Пусть Т = 500, Тр = 200, г = 1, у = 10, в = 100, в = 60. Плановая, ожидаемая (в смысле математического ожидания) и фактическая траектории (кумулятивная сумма результатов деятельности агента) приведены на рис. 3 (пунктиром изображены кривые, соответствующие необнаружению разладки).

Графики динамики кумулятивных затрат агента и затрат центра на стимулирование приведены на рис. 4 (пунктиром изображены кривые, соответствующие необнаружению разладки).

Рис. 3. Динамика кумулятивных результатов деятельности агента в примере 7

Рис. 4. Динамика кумулятивных затрат агента и центра в примере 7

В рамках метода кумулятивных сумм величины

г

(65) =£ 1К2(х'}

или

г

(66) ^ = ^С (х*, } - С(X*, г)

Т=1

могут служить показателями разладки (их графики для рассматриваемого примера приведены на рис. 5).

Воспользуемся выражением (63). Динамика его значений приведена на рис. 6. Средние значения статистики £( до и после разладки равны -0,04 и +0,04, а среднеквадратичные отклонения -0,29 и 0,27 соответственно. Причем до разладки статистика Ьг

будет принимать значение 1п

А

+ 1п

'А + х*Л \А2 + хх

= -0,29 с веро-

Г=1

ятностью

В

В2 + х

- = °,5, а после разладки - с вероятностью

В

В2 + X

= °,38.

Рис. 5. Динамика показателей разладки и Б2 в примере 7

В рассматриваемом примере при 3 = 2 разладка обнаруживается спустя 10 периодов после того как она происходит. •

Показатель разладки

50 100 150 200 250 300 350 400 450 500

Рис. 6. Динамика показателей разладки е примере 7 6. Заключение

В настоящей работе рассмотрены контракты между недальновидными центром и агентами, функционирующими в условиях внешней вероятностной неопределенности (измеримой неопределенности в терминах F. Knight [25]), характеристики которой могут меняться со временем (отражение истинной неопределенности в его же терминах). Именно реакция на истинную неопределенность является одной из основных функций управляющих органов, обеспечивающих адаптивность поведения подчиненных им структурных элементов деятельности [1, 20].

Перспективными направлениями будущих исследований представляются рассмотрение других методов описания влияния внешней неопределенности на результаты деятельности агентов, изучение условий перезаключения контрактов дально-

--------------i--------------^-------------1-----------1-------------!--- i—

111 ifckUniiii III' li i jiii j

видными центром и агентами и анализ задач «разладки» в многоэлементных динамических организационных системах.

Литература

1. БЕЛОВ М.В., НОВИКОВ Д.А. Структурные модели комплексной деятельности // Управление развитием крупномасштабных систем. - М.: Физматлит, 2017.

2. БУРКОВ В.Н. и др. Механизмы управления / Под ред. Д.А. Новикова. - М.: Ленанд, 2011. - 192 с.

3. БУРКОВ ВН., ГОРГИДЗЕ И.А., ИВАНОВСКИЙ А.Г. Простой активный элемент. Реализация плана и переоценка будущего состояния. Синтез функций дохода // Активные системы. Сборник статей № 2 (Проблемы и методы управления в активных системах). - М.: ИАТ, 1974. -С. 52-62.

4. БУРКОВ В Н., НОВИКОВ Д.А. Как управлять проектами. - М.: Синтег, 1997. - 188 с.

5. БУРКОВ В.Н. Основы математической теории активных систем. - М.: Наука, 1977. - 255 с.

6. ГУБКО М.В. Задача теории контрактов для модели «простого» агента // Управление большими системами. -2000. - Вып. 2. - С. 22-27.

7. КОЛОСОВА Е.В., НОВИКОВ ДА., ЦВЕТКОВ А.В. Методика освоенного объема в оперативном управлении проектами. - М.: Апостроф, 2000. - 156 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. НОВИКОВ Д.А. Математические модели формирования и функционирования команд. - М.: Изд-во физ.-мат. лит-ры, 2008. - 184 с.

9. НОВИКОВ Д.А. Механизмы гибкого планирования в активных системах с неопределенностью // Автоматика и телемеханика. - 1997. - №5. - С. 118-125.

10. НОВИКОВ Д.А. Механизмы стимулирования в динамических и многоэлементных социально-экономических системах // Автоматика и телемеханика. - 1997. - №6. - С. 3-26.

11. НОВИКОВ Д А., СМИРНОВ И.М., ШОХИНА Т.Е. Механизмы управления динамическими активными системами. -М.: ИПУ РАН, 2002. - 124 с.

12. НОВИКОВ Д.А. Стимулирование в социально-экономических системах. - М.: ИПУ РАН, 1998. - 216 с.

13. НОВИКОВ Д.А. Теория управления организационными системами. 3-е изд. - М.: Физматлит, 2012. - 604 с.

14. НОВИКОВ Д А., ЧХАРТИШВИЛИ А.Г. Рефлексия и управление: математические модели. - М.: Физматлит, 2013. -412 с.

15. РОЩИН А.А. Расчет Динамических Систем (РДС). Руководство для программистов. Приложение: описание функций и структур. Приложение к руководству для программистов. - М.: ИПУ РАН, 2012. - 719 с.

16. Руководство к своду знаний по управлению проектами (PMBOK). - М.: Олимп-Бизнес, 2014. - 388 с.

17. ТРИКОМИ Ф. Интегральные уравнения. - М.: Изд-во иностранной литературы, 1960. - 299 с.

18. ЦЫГАНОВ В.В. Адаптивные механизмы в отраслевом управлении. - М.: Наука, 1991. - 166 с.

19. ШИРЯЕВ А.Н. Статистический последовательный анализ. Оптимальные правила остановки. - М.: Физматлит, 1976. -272 с.

20. BELOV M., NOVIKOV D. Reflexive Models of Complex Activity // Proc. of WOSC World Congress. - Rome, 2017.

21. BOLTON P., DEWATRIPONT M. Contract Theory. - Cambridge: MIT Press, 2005. - 740 p.

22. CVITANIC J., ZHANG J. Contract Theory in Continuous-Time Models. - Heidelberg: Springer, 2012. - 256 p.

23. HORNE M. Essays on Dynamic Contract Theory. - Ann Arbor: The University of North Carolina, 2016. - 96 p.

24. LJUNGQVIST L., SARGENT T. Recursive Macroeconomic Theory. 2nded. - Cambridge: MIT Press, 2004. - 1082 p.

25. KNIGHT F. Risk, Uncertainty and Profit // Hart, Schaffner, and Marx Prize Essays. - No. 31. - Boston and New York: Houghton Mifflin, 1921. - 381 p.

26. MENARD C. Institutions, Contracts and Organizations: Perspectives from New Institutional Economics. - Northampton: Edward Elgar Pub, 2000. - 458 p.

27. RENNER P., SCHMEDDERS K. Dynamic Principal-Agent Models // Swiss Finance Institute Research Paper No. 16-26. -Zurich: University of Zurich, 2016. - 35 p.

28. SALANIE B. The Economics of Contracts. 2nd Edition. -Massachusetts: MIT Press, 2005. - 224 p.

29. SANNIKOV Y. A Continuous-Time Version of the Principal-Agent Problem // Review of Economic Studies. - 2008. -Vol. 75. - No. 3. - P. 957-984.

30. STOLE L. Lectures on the Theory of Contracts and Organizations. - Chicago: Univ. of Chicago. 1997. - 104 p.

MODELS OF ADAPTATION IN DYNAMIC CONTRACTS UNDER STOCHASTIC UNCERTAINTY

Mikhail Belov, The IBS Company, Moscow, Cand.Sc. ([email protected]).

Dmitry Novikov, Institute of Control Sciences of RAS, Moscow, Doctor of Science, professor (Moscow, Profsoyuznaya st., 65, (495) 334-75-69).

Abstract: This work synthesizes the ideas of organization systems control theory and contract theory in the case of stochastic uncertainty repeated in time. Results on optimal reward systems for different problems are systematized. New sufficient conditions are given for the optimality of lump-sum and compensative contracts under stochastic uncertainty. Dynamic models of principal's and agents' adaptation to the changes in the statistical characteristics of the environment are considered. A classification of dynamic (in a sense of decision taking process) models of reward is given. Contracts between shortsighted center and agents functioning under stochastic uncertainty are considered. Reaction to such uncertainity is, indeed, one of the most crucial functions of control organs, providing adaptivity of their subordinate structural elements. Perspective future venues of research are different methods of describing uncertainity influence on agents, studiyng conditions of contract modification between farsighted center and agents and "dissonance" analysis on complex multielement dynamic organization systems.

Keywords: contract theory, incentive problem, stochastic uncertainty, adaptive behavior.

Статья представлена к публикации членом редакционной коллегии Г.А. Угольницким.

Поступила в редакцию 24.11.2016.

Опубликована 31.07.2017.

Модели адаптации в динамических контрактах в условиях вероятностной неопределенности Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Белов Михаил Валентинович, Новиков Дмитрий Александрович

Похожие темы научных работ по математике , автор научной работы — Белов Михаил Валентинович, Новиков Дмитрий Александрович

Models of adaptation in dynamic contracts under stochastic uncertainty

Текст научной работы на тему «Модели адаптации в динамических контрактах в условиях вероятностной неопределенности»