ББК У9(2)245
ДИСКРЕТНЫЕ МОДЕЛИ ДИНАМИЧЕСКИХ СИСТЕМ СТИМУЛИРОВАНИЯ
© 2006 О. В. Павлов Самарский государственный аэрокосмический университет
Рассматривается задача стимулирования в динамической системе со связанными периодами функционирования. Приводится математическая постановка задачи. Для решения задачи оптимального управления предлагается численный метод.
Введение
Рассматривается детерминированная динамическая организационная система, состоящая из центра и агента. Агент выполняет действие (производит продукцию), за произведенное действие центр выплачивает материальное вознаграждение. В качестве центра может рассматриваться как управляющая компания, в этом случае агент - дочерняя компания, так и менеджмент предприятия, в этом случае агент - трудовой коллектив. В качестве целевой функции центра рассматривается получение прибыли в долгосрочной перспективе с горизонтом планирования Т. Состояние системы описывается параметром х, под которым понимается себестоимость, трудоемкость продукции, несоответствие продукции принятым требованиям. На практике часто используется комплексный параметр х, представляющий комбинации различных показателей с соответствующими весовыми коэффициентами. Рассматривается динамическая организационная система со связанными периодами функционирования.
Задача дальновидного центра состоит в переводе организационной системы из начального состояния х0 в состояние в конеч -ный момент времени х(Т) таким образом, что -бы максимизировать целевую функцию центра за весь временной период г=1, Т. Для этого центр выбирает оптимальную плановую траекторию параметра х(г). С целью выполнения (реализации) этой плановой траектории х(г) центр использует систему стимулирования, при построении которой учитывает горизонт планирования Т и дальновидность агента. Целевая функция центра зависит от действий, выбираемых агентом (реакции
агента). Под действиями агента понимается выбор фактического параметра у(г). В свою очередь целевая функция агента зависит от системы стимулирования и плановой траектории х(г).
Статическим механизмам управления в организационных системах посвящено большое работ [1-10], в меньшем количестве работ [11-17] рассматриваются динамические механизмы управления.
1. Общая постановка задачи стимулирования динамической организационной системы
Центр реализует программное управление, сообщает агенту плановую траекторию параметра х(г) и функцию стимулирования
а(г) за ее выполнение на Т временных периодов. Агент, зная плановую траекторию и функцию стимулирования центра, выбирает действие - фактическую траекторию параметра у(г). Считается, что центр и агент обладают дальновидностью и учитывают Т периодов функционирования.
Целевая функция центра представляет собой суммарную разность между доходом центра и затратами на стимулирование агента за периоды времени г = 0,Т :
Т
Ф(г) = 2 [Н(у(г), г) - а (х(0, у(г), а (г), г] г=1
(1)
где Н(у(г),г) - доход центра;
а(х(г),у(г),а(г),г) - функция стимулирования центра; х(г) - плановая траектория, выбранная центром; у(г) - фактическая реализа-
ция траектории агентом; а{() - материальное вознаграждение агента, выплачиваемое центром за уменьшение параметра.
Конкретный вид функции дохода центра определяется решаемой задачей. Ниже приводится несколько примеров функции дохода центра.
1. Задача об уменьшении себестоимости продукции:
И(уО)Л) = ч(г)[р(г) - у(г)],
где q(t) - объем выпускаемой продукции, р^) - цена продукции, у(^ - фактическая себестоимость продукции.
2. Задача об уменьшении трудоемкости продукции:
И(у^)Л) = q(t)p(t) .
3. Задача об увеличении качества продукции (уменьшении дефектов и несоответствий продукции требованиям):
И(уО), t) = q(t)p(t) - ^уО^ 2 О),
где у(0 - комплексный параметр, характеризующий количество дефектов и несоответствий продукции; 7 - коэффициент, переводящий затраты центра в денежное выражение; 7y(t)q (t) - затраты центра на устранение дефектов и несоответствий продукции.
Функция стимулирования в каждый момент времени t имеет следующий вид:
ст (у^), хО), t) = I + [ х^) - уО)]а О) или
а (у(0,х(0,0 = г + а О), (2)
y(t)
где I - постоянная часть функции стимулирования.
Таким образом, центр стимулирует агента выбирать такие действия, которые приводят к уменьшению параметра у Система стимулирования является пропорциональной: материальное вознаграждение пропорционально усилиям агента по уменьшению фактического параметра у (^ по сравнению с плановым х(0.
Динамика изменения планируемого параметра описывается дискретным уравнением:
х(0 = х($ -1) - и^)х($ -1), х(0) = х0, г = 1,Т,
(3)
где и(^ - управляющая функция центра, характеризующая интенсивность уменьшения параметра.
В начальный момент времени известно начальное значение состояние системы
х( 0 ) = хо .
(4)
На управление центра наложены ограничения:
0 < u(t) < ки ,
(5)
ku(t) - максимально возможное уменьшение параметра агентом во временной период t. Экономический смысл ограничения (5) состоит в том, что агент не может уменьшить параметр у(^ на сколь угодно большую величину в периоде t.
У центра есть два вида управления: выбор функции и(/), которая определяет плановую траекторию х^), и функции стимулирования a(t). Центр информирован о целевой функции агента и, следовательно, может предсказать поведение агента на Т периодов. Целевая функция центра, а следовательно, и выбор центром управляющих функций и(^ и
a(t) зависит от реакции агента у(/).
Целевая функция агента представляет собой суммарную разность между функцией стимулирования и функцией затрат агента за все периоды времени t = 1,Т:
Т
I
t=1
/(0 = I (х^^ОаОМ) - е(уО),уО -1), о
(6)
где c(y(t), y(t -1), t) - затраты агента.
Функция затрат агента имеет следующий вид:
с(у^), * - 1), 0 = М^М, (7)
у()
где ¡5 - коэффициент, переводящий усилия агента в денежное выражение. Экономический смысл выражения (7) состоит в следующем: с уменьшением параметра у(г) агенту требуется большее количество усилий для уменьшения параметра на одну и ту же величину. Затраты агента в период t зависят от величины параметра в предыдущий период t-1. Агент обладает дальновидностью и понимает, что снижение контролируемого параметра в текущем периоде приведет к росту его затрат в будущих периодах.
Таким образом, целевая функция агента, а следовательно, и реакция агента у(г) зависят от плановой траектории центра х(г), величины материального вознаграждения
a(t) и затрат агента в каждый период t.
Динамика изменения фактического параметра у(г) описывается дискретным уравнением
у() = у( -1) - v(t)у(г -1), г = 1,Т , (8)
где v(t) - управляющая функция агента, ко -торая характеризует интенсивность уменьшения параметра во временной период г .
В начальный момент времени известно начальное значение фактического параметра
у(0) = х0 . (9)
На управление агента наложены следу -ющие ограничения:
0 < v(t) < ку(г), (10)
ку(г) - максимально возможное уменьшение параметра агентом во временной период г. Экономический смысл ограничения (10) состоит в том, что агент не может уменьшить параметр у(г) на сколь угодно большую величину в периоде г. Управляющей функции v(t) соответствует фактическая траектория пара-метраy(0),y(1), у(Т).
Порядок функционирования динамической системы следующий:
1. Центр выбирает управляющую функцию и(г) и сообщает агенту соответствующую плановую траекторию х(г) и функцию
материального поощрения а(г) на Твременных периодов.
2. Агент, зная плановую траекторию x(t) и функцию стимулирования a(t), выбирает управляющую функцию v(t), которой соответствует фактическая траектория y(t).
3. Определяются значения целевых функций центра и агента в каждом временном периоде t =1, T.
Сформулируем динамическую задачу стимулирования:
' T
'YjHf y(v* (t),t),t] -of x(u(t ),t ),y(v* (t),t),a(t),t)]}® max,
t=i
x(t) = x(t -1) -u(t)x(t -1),t = 1,T x(0)=x0,
%ofx(u(t),t),y(v(t),t),a(t),t] - cfy(v*(t),t),y(t-1),t]}>
t=1
>Y/ofx(u(t),t),y(v(t),t),a(t),t] -cfy(v(t),t),y(t-1),t]}, " v(t) > 0,
t=1
y(t)=y(t-1)-v*(t)y(t-1), t = 1,T, y(0) = Xo.
(11)-(14)
Так как центр использует заданную пропорциональную систему стимулирования, то задача сводится к определению управляющих
функций u(t) и a(t), которые переводят организационную систему из начального состояния в начальный момент времени в конечный момент времени таким образом, чтобы максимизировать целевую функцию центра (11). Целевая функция центра зависит от управляющей функции агента v*(t), которая выбирается агентом так, чтобы перевести организационную систему из начального состояния в конечное, максимизируя собственную целевую функцию (13).
2. Численный метод решения динамической задачи стимулирования
Традиционный подход к решению статической задачи стимулирования [7] заключается в следующем. Определяется действие агента как функция материального вознаграждения центра. Затем эта функция подставляется в целевую функцию центра, и решается задача согласованного планирования, в результате решения которой определяются параметр функции стимулирования центра. Однако этот подход для решения задач динамического стимулирования неприменим.
Предлагается подход к решению задачи стимулирования, основанный на последо-
вательном решении задач оптимального управления . При известных фиксированных
управляющих функциях и(^ и a(t) задача агента (13)-(14) является задачей оптимального управления. Для решения задачи оптимального управления могут быть применены дискретный принцип максимума Понтряги-на [16] или метод динамического программирования Р. Беллмана [17]. Центр выбирает
начальное управление и(^ и a(t) и соответствующую начальную плановую траекторию х(0. Зная целевую функцию агента, центр при выбранном управлении решает задачу оптимального управления для агента (13)-(14). Из решения задачи центр определяет реакцию агента на свое выбранное управление. Подставляя полученное управление агента у^) и соответствующую ему фактическую траекто -рию у(^ в (11)-(12), центр решает свою задачу оптимального управления, в ходе решения которой определяет новые управляющие функции и соответствующую плановую траекторию х(0. Затем центр снова решает задачу оптимального управления для агента с новыми управлениями центра. Итерационный процесс продолжается пока не будет получена требуемая точность решения.
Схема решения задачи может быть сформулирована следующим образом:
1. Выбираются начальные управления
и1^) и al(t), исходя из опыта и здравого смысла.
2. Рассчитывается плановая траектория х1^) по формуле (11).
3. При известных и1^) и а1(t) находится решение задачи оптимального управления для агента (13)-(14). Определяется оптимальное управление агента у1^) и соответствующая фактическая траектория у1^).
4. Для найденной реакции агента у1^) и соответствующей ей фактической траектории унаходится решение задачи оптимального управления для центра (11)-(12). Определяется новое оптимальное управление центра и2^) и а (t). Рассчитывается новая плановая траектория х2^) по формуле (11).
5. Производится сравнение разности
Т
^[х1 (()- х2 (()] с заранее заданной погреш-
1=1
ностью е . Если разность больше погрешности, то в качестве управлений центра принимаются новые управления и= и2^) и 1 2
а (t) = а (t) и осуществляется переход к пункту 2, в противном случае итерационный процесс заканчивается.
Предложенный метод решения может быть применен для широкого круга практических задач внутрикорпоративного и межкорпоративного стимулирования.
Список литературы
1. Моисеев Н. Н. Математические задачи системного анализа. - М.: Наука. Главная редакция физико-математической литературы, 1981.
2. Моисеев Н. Н. Элементы теории оптимальных систем. - М.: Наука. Главная редакция физико-математической литературы, 1974.
3. Гермейер Ю. Б. Введение в теорию исследования операций. - М.: Наука, 1971.
4. Гермейер Ю. Б. Игры с непротивоположными интересами. - М.: Наука, 1976.
5. Бурков В. Н. Основы математической теории активных систем. - М.: Наука,1977.
6. Бурков В. Н., Кондратьев В. В. Механизмы функционирования организационных систем. - М.: Наука. Главная редакция физико -математической литературы, 1981.
7. Бурков В. Н., Новиков В. А. Как управлять проектами. - М.: СИНТЕГ-ГЕО, 1997.
8. Бурков В. Н. Новиков Д. А. Как управлять организациями. - М.: Синтег, 2004.
9. Горелик В. А., Кононенко А. Ф. Теоретико-игровые модели принятия решений в эколого -экономических системах. - М.: Радио и связь, 1982.
10. Кононенко А. Ф. О многошаговых конфликтах с обменом информации // Вы-числ. матем. и матем. физ. - 1977. № 4. -С. 922-931.
11. Соколовский Л. Е. Модели оптимального функционирования предприятия. -М.: Наука, 1980.
12. Васборд Э. М., Жуковский В. Введение в дифференциальные игры нескольких лиц и их приложения. - М.: Советское радио, 1980.
13. Тынянский Н. Т., Жуковский В. И. Дифференциальные игры с ненулевой суммой (бескоалиционный вариант) // Математический анализ, 1977, т. 15. - С. 21-32.
14. Новиков Д. А., Смирнов И. М., Шохина Т. Е. Механизмы управления динами-
ческими активными системами. - М.: ИИПУ РАН, 2002.
15. Косачев Ю. В. Экономико-математические модели эффективности финансово-промышленных структур. - М.: Логос, 2004.
16. Болтянский В. Г. Оптимальное управление дискретными системами. - М.: Наука, 1973.
17. Белман Р. Динамическое программирование. - М., 1960.
DISCRETE MODELS OF DYNAMIC SYSTEM STIMULATION
© 2006 O. V. Pavlov
Samara State Aerospace University
The paper deals with the task of stimulation in a dynamic system with connectedfunctioning periods. Mathematical statement of the task is presented. A numerical method is proposed for solving the task of optimal management.