СТИМУЛИРОВАНИЕ В ОРГАНИЗАЦИОННОЙ СИСТЕМЕ С НЕДОБРОСОВЕСТНЫМ ПОВЕДЕНИЕМ
АГЕНТА
Р.А. Выборнов
(Институт проблем управления РАН, Москва)
Рассмотрим организационную систему, состоящую из одного центра и одного агента. Целевая функция центра:
(1) Ф(а, у) = Н (у) - о(у).
Целевая функция агента:
(2) /(о, у) = о(у) - с(у,г).
Здесь у - действие, выбираемое агентом; у > 0,у е А, А -множество допустимых действий агента; с (у) - затраты агента на совершение действия; непрерывная функция, с '(у) > 0, с(0) = 0 ; о( у) - стимулирование агента; Н (у) - доход центра,
непрерывная функция, Н (у) > 0, Н(0) = 0; г - тип агента,
г еО, О - множество возможных типов агента.
Порядок функционирования системы следующий: центр
назначает систему стимулирования о (у), после чего агент выбирает действие у в условиях гипотезы рационального поведения, т.е. стремясь максимизировать свою целевую функцию.
Если центру не известен тип агента, недобросовестность агента проявляется в том, что он может предоставить центру недостоверную информацию 5 еО о своем типе, и, следовательно, о затратах с(у,г).
Пусть сг( у, г ) £ 0, тогда агент будет сообщать центру 5 £ г . Содержательно это означает, что агент в сообщении центру будет занижать свой тип, завышая тем самым затраты по совершению действия. Если центр использует принцип максимального гарантированного результата (МГР) или просто верит сообщению агента, то, следуя принципу компенсации затрат (стимулирование в точности должно равняться сумме затрат агента и резервной полезности [1]), стимулирование центра при этом возрастает.
Будем также считать, что центр назначает агенту квазикомпенсаторную систему стимулирования, то есть вознаграждение выплачивается агенту только при точном выполнении назначенного центром плана х е X = А :
(3) ( ) \c(y, 5) у = х
(3) о(х, у,5) = <{ ,
[0, у * х
где X - множество допустимых планов.
Можно отметить, что при использовании системы стимулирования (3) сразу встает вопрос о неманипулируемости, то есть создании такой системы управления, при которой агенту выгодно было бы сообщать центру свой действительный тип. Проблема манипулируемости представляет практический интерес в теории активных систем и является предметом многочисленных исследований [2]. Однако обсуждение этой проблемы выходит за рамки нашего исследования.
Естественно, в интересах центра обнаружить искажение информации. Для достижения этой цели центр с некоторой вероятностью р проводит аудит фиксированной стоимости с . Будем считать, что, если аудит проводится, то искажение информации агента 5 < г о своем типе всегда обнаруживается, то есть, в случае аудита центр наблюдает тип агента. В этом случае на агента накладывается штраф с (г - 5) .
Таким образом, ожидаемые значения целевых функций участников:
(4) Ф(о, у) = Н (у) - с( у, 5) - ~р + рс (г - 5),
(5) /(о, у) = с( у,5) - с( у,г) - РС (г - 5).
Следует пояснить вид целевой функции агента: поскольку агент занижает свой параметр г , завышая тем самым свои расходы (а центр компенсирует агенту расходы) по отношению к фактическим расходам по совершению действия, то разница с( у, 5) - с( у, г) представляет собой не что иное, как сумму, на
которую агент обманывает центр.
Еще раз оговорим порядок функционирования системы и информированность участников:
1) общим знанием является: Н(•), с(-), с('), Р, О, А и стоимость аудита с~ ;
2) центр определяет вероятность аудита p и сообщает ее агенту;
3) агент сообщает центру свой тип s ;
4) центр назначает агенту план x и стимулирование (3);
5) агент выбирает действие у ;
6) центр выплачивает агенту вознаграждение в соответствие с (3);
7) с вероятностью p проводится аудит.
Следует также отметить, что в зависимости от поведения центра в отношении вероятности аудита p можно выделить три задачи. В нашем случае центр объявляет вероятность аудита. Также центр может не объявлять p, выбирая стратегию МГР по этому параметру. Третий вариант - центр может объявить агенту не вероятность p, а функцию p(s). Обсуждение указанных вариантов поведения центра приведено ниже.
При использовании системы стимулирования (3) агенту выгодно выполнять план: у = x. Для доказательства этого
утверждения достаточно заметить, что, в точности выполняя план, агент получает полезность c(y, s) - c(y, r) - pc(r - s) ; отклоняясь же от плана, агент получает полезность — c(y, r) — p%(r — s), что заведомо ему невыгодно, так как "у, Vs : c(y, s) > 0.
Центр назначает агенту оптимальный для себя план x * (s), решая следующую задачу: шіп(Ф(x,p,s)} ® max, то есть:
reQ xeX
(6) min{H(x) -c(x,s) - ~p + pc(r - s)} ® max .
reQ xeX
Агент выбирает оптимальное для себя сообщение s * (p, r) центру о своем типе, решая следующую задачу: f (x*(s), s,r) ® max , то есть:
seQ
(7) c(x * (s), s) - c(x* (s), r) - pc(r - s) ® max .
seQ
Далее, центр оптимизирует свою целевую функцию по вероятности проведения аудита p , решая следующую задачу:
min{0(x*(s*(p,r)),r), p, s*(p,r))} ® max , то есть:
reQ pe[0,1]
(8) min{H (x * (s * (p, r))) - c( x * (s * (p, r ))), s * (p, r)) -
reQ
-cp + pc(r - s*(p,r))} ® max .
pe[0,1]
Решить такую задачу аналитически в общем виде представляется затруднительным, поэтому положим: H(у) = у;
c(у, r) = у2 / 2r ; c(r - s) = a (r - s) , тогда: из (6) находим
назначаемый агенту план: x* (s) = s, из (7) находим оптимальное
сообщение агента: s * (p, r) = (1/2 + ap)r .
Поскольку, как предполагалось выше, агент предоставляет центру искаженную информацию s < r о своем типе, то оптимальное сообщение агента в данном случае: s * (p, r) = min[(1 /2 + ap)r; r ]. Следовательно, справедливо
следующее утверждение.
Утверждение 1. Для того чтобы агент сообщал центру достоверную информацию, достаточно выполнения неравенства
(9) a p > 1/ 2 .
Содержательно это означает, что, выбирая систему штрафов и вероятность проведения аудита (и сообщая эту информацию агенту), удовлетворяющую (9), центр может добиться неманипулируемости, т.е. сообщения агентом достоверной информации о своем типе. Кроме того, здесь следует заметить, что при выполнении условия (9) агент будет сообщать достоверную информацию о своем типе, поэтому никаких проверок центру проводить не потребуется. Следовательно, далее мы будем рассматривать условия, при которых (9) не выполняется, т.е. p <1/2a .
Из (8) находим оптимальную вероятность проведения аудита, решая следующую оптимизационную задачу:
(10) min[r(1/ 4 + ap - a2 p2) - ~p] ® max .
reQ pe[0,1]
Пусть множество возможных типов агента Q = [r-, r+] , то есть центру известны минимальный и максимальный типы агентов. Тогда оптимизационную задачу можно представить в следующем виде:
[r + (1/4 + ap-a2p2)-cp] ® max,(1/4 + ap-a2p2) < 0
(11) i ~ P£[0;1]
[r (1/4 + ap-a2p2)-cp] ® max,(1/4 + ap-a2p2) > 0
I pe[0;1]
Однако в силу утверждения 1 мы рассматриваем ap < 1/ 2, и множеством решений первого неравенства системы (11) является пустое множество, поэтому далее мы будем рассматривать только оптимизационную задачу и второе неравенство системы (11).
Решая неравенство системы (11) относительно p, получаем следующий вид оптимизационной задачи:
(12) [г - (1/4 + ap - a2 p2) - cp] ® max, p e [0;1/2a].
M0;1]
Решая (12), получаем, что оптимальная вероятность проведения аудита имеет вид:
(13) p*= (ar“-c)/2a2r~,p e [0;1/2a]
Представим схематически полученное решение (13) на рисунке 1.
Рис. 1. Оптимальное решение (13)
На рисунке 1а) представлены эскизы графиков функций р* = (аг~ —с)/2а2г- и р = 1/2а. Легко проверить, что друг относительно друга они будут располагаться именно так, поскольку для пересечения необходимо выполнение условия с < 0, что не имеет содержательной интерпретации. На рисунке 1б) схематически представлен график зависимости оптимальной вероятности проверки агентов от коэффициентов штрафа.
38
Итак, в рассматриваемой модели центр может выбрать вероятность проведения аудита и коэффициент штрафа таким образом, что агенту будет выгодно сообщать свой истинный тип, т.е. добиться неманипулируемости. Если же по каким-либо причинам центр не имеет возможности объявить такие параметры (например, а превышает законодательно установленный коэффициент штрафов), то центр выбирает вероятность проведения аудита, максимизируя свою целевую функцию так, как показано в модели. В этом случае доход центра может оказаться больше, чем при честном поведении агента.
Литература
1. НОВИКОВ Д.А. Стимулирование в организационных системах. М.: СИНТЕГ, 2003. - 312 с.
2. НОВИКОВ ДА., ПЕТРАКОВ С.Н. Курс теории активных систем. М.: СИНТЕГ, 1999. - 108 с.