УДК 519.862.8
А.В. Жариков, А.В. Максимов О решении частной задачи управления в случае разной информированности субъектов
В данной статье рассматривается задача управления в случае несовпадающей информированности субъектов управления. Актуальность обусловлена развитием экономических систем в условиях конкуренции и сотрудничества, при этом информационные возможности каждого субъекта системы являются различными.
Рассматривается оператор управления состояниями субъекта, который функционирует в динамической случайной среде. Управление проводится с использованием принципа осреднения входных переменных [2]. Предполагается, что управление выбирается из условий максимизации некоторого критерия.
Пусть x = (x1, x2,...,xn) - случайный вектор с функцией распределения Ф = Ф(x1,...,xn), а множество I = {1,2,.,п} - индексы всех компонент вектора x; множество !.Ш - совокупность индексов, определяющих информационную структуру г-й управляющей переменной, г=1,2,...,те. Введем также вектор управления V=(v1,v2,...,vn), где v.=v.(d.), dj=(xj.) ,г=1,2,...,те. Таким образом, задача примет вид:
-]к = м(х,у))] ® тах,к = П (1)
где символ М[•] означает операцию вычисления математического ожидания, а т - количество объектов управления.Формализация условий разной неинформированности приводит к равенству нулю частной производной по соответствующей переменной [3]:
dV (d )
dx,
- 0.
(2)
Специфика данной задачи позволяет свести ее к задаче теории игр и рассматривать концепцию решения, существующую в рамках данной теории. Причем количество игроков соответствует количеству управляемых объектов.
На сегодня данная задача не имеет общего решения, и в основном решение зависит от конкретного вида функционала ґк(х,У) и структуры информационного потока. Тем не менее в некоторых случаях решение можно найти аналитически.
Рассмотрим задачу (1) при п=т=2. Тогда задача примет вид:
M [F1( x, y, u(y), v( x))] ® max, M[F2(x,y,u(y),v(x))] ® max,
— - 0^ _ 0 при условиях dx _ 5 dy ~
(З)
(4)
Упростим задачу, взяв конкретный вид
^ =(л(и, V, X, у),(м,У, х,у), Р2 = (В(и, V, X,у), (и, V, х,у)},
где Л = ЛТ = К-)4Х4. В = ВТ = (Ьу )4Х4, , т.е. Fv Р2 -квадратичные формы с переменными и^,х,у. Пусть информационный вектор (х,у) распределен на квадрате [а,Ь]х[а,Ь](а > 0,Ь > 0) с плотностью Ф(х,у). Тогда (3) примет вид
J1 - I l(a11u2 +2a12uv +2a13ux +... + a44y2)Ф(x,y)dxdy®max,
•* •* ueU
a a b b
J2 - II (b11u2 +2b12uv +2b13ux + ... + 644y2)Ф(x,y)dxdy® max
J J veV
(5)
Задача (3) при условиях (4) по сути является игрой двух лиц, где J1(u,v), J2(u,v) - функции выигрыша, а и, v - стратегии игроков. Множеством допустимых стратегий и, V будет произведение
пространств С '([а, Ь] х [а, Ь]) х С1 ([а, Ь] х [а, Ь]). Шахождение решения игры зависит от понимания рациональности и оптимальности поведения игроков.
Одна из распространенных концепций решения некооперативных игр - ситуация равновесия по Нэшу [5], суть которой заключается в невозможности увеличения выигрыша игрока при его отклонении от данного равновесия. В статье автор показывает, что функции поведения игроков и, v находятся аналитически, когда х и у независимы.
Утверждение 1. Пусть компоненты случайного вектора х и у есть независимые случайные величины, т.е.
Ф( х, у) = ф х)ф2( у). (6)
Тогда равновесие по Нэшу задачи (5) при условиях (4) и ап, Ь22 < 0 достигается на линейных
по своим переменным функциях и *( у) и у*( х),
где а и Ъ22 - элементы матриц А и В соответственно.
a a
55
Доказательство. Ситуация равновесия по Нэшу влечет за собой выполнение следующих условий
Jl(u,V*) < Jl(u,V*),
32(и,V) < J2(и,V*).
В результате получаем вариационную задачу отыскания максимума функционалов J1, J2 по переменным и и v соответственно. Ввиду громоздкости вычислений и преобразований приведем лишь основные этапы решения согласно [1].
1. Выпишем функции Лагранжа Ьр Ь2.
т ( ди д р Л
Ч‘',У дх-д?Р"х'у Г
= ff ^0 (( A(u, v, x, y),(u, v, x, y))j Ф(х, y)) + pi —— Idxdy
L|u-v- — ■—• x-y '=
ff^2 ((B(u>vx, y),(u=v x yy)) + P21 — ldxdy
—y
где (Я|,,Р1) , (1,Р2) - множители Лагранжа.
Для удобства можно положить 10 и 1 рав
ными единицы.
2. Необходимые условия экстремума:
др__ 1 д(( А(и, v,х, у),(и, v,х, у))ф( х, у))
дх 0 ди ’
дР2 2 д((В(и’V х у),(и=V х у))ф(х, у))
----_ 10---------------------------------
[ ду 0 дv
Pi
P2
a b] = 0 = 2f (aiiu + a22v + a13 x + a14 y)0(x, y)dx,
a,b] = 0 = 2f (bi— + b22v + b13x + bi4y^O , y)dy
A =
aii Ai
Г , 3 и
an Ai a.
*11
f yj2( y)dy=B2, при ь22 * 0 Bi
b, =-
b22 B1
b22
22 1
Рассмотрим случаи:
а) а11 Ф 0 , Ь22 Ф 0. Тогда система интегральных уравнений (8) примет вид
b
auA— + a12 f v p, (x)dx + a13 A2 + a14 yA, = 0,
a
b
b22 B,v + b12 f up2 (y)dy + b23 xB, + b24 B2 = 0,
a
b
u + A, f vp, (x)dx + A2 + A3 y = 0,
a b
v + B, f up2 (y)dy + B2 + B3 x = 0.
Т еперь
( b
выразив,
u = -
A, f vp, (x)dx + A2 + A3 y
например,
и подставив во
второе равенство, получим неоднородное уравнение Фредгольма второго рода
v -
b
A,B, • B, f vp, (x)dx - A2B2 • B, - A3B, • B,
(7)
- А3 В1 • В2 + В2 + +В3 х _ 0.
Согласно теории решения такого рода уравнений [6], единственность решения будет достигаться при выполнении условия
А1 ^ А1 ф 1 о ^ ^ ф 1 Ь22 а11 Ь22
а само решение имеет вид
a11ufp1(x)dx+ a, 2 f vpt (x)dx+ a, 3 f vpl(x)dx+ a,4 yf vp, (x)dx = 0,
b b b b (O)
b22vf P2(y)dy+ b12 f uP2(y)dy+ b23xf P2(y)dy+ b24 f ^2^^ = 0
3. Нахождение допустимых экстремалей и и v. Для удобства введем следующие обозначения:
Ь Ь
| ф (х)йх _ А', | хф (х)А _ А2 , при а11 ф 0,
v =- B3 x +
b23A2A1b12 + b24B2 A3b12B2 A2b12 ^
b2
^ a b l
“12 . u12 - 1
ai1 b22 0 Аналогично получаем формулу и для и:
u = A3 y +
a14B^ • B,a12 + a13A^ B3a12A^ B2a12
v “11
a,,A,, a,,A,,
,, 0
ai2 • b12 - i V ai1 b22 0
b
,2
a a
b b
a a
56
Ь) при Ь22 _ 0, а11 ф 0; Ь22 ф 0, а11 _ 0 и Ь22 _ 0,
» _ — Ь24у » _— а13х
а11 _ 0, и и v имеют вид а ’ '
а12 а12
соответственно.
Таким образом, мы показали, что функции и и v имеют линейный характер.
4. Покажем, что найденные и и v являются точкой равновесия по Нэшу. Для этого рассмотрим разность для функционала J1:
31(и* +Н,,V*) — 31(и*,V*) _
Ь Ь
_ И (а11^12 + (2а11и* +2а12v* +а13х + а14 у)й1 )ф(х, y)dxdy
а а
где Ь е С ([а, Ь]х[а, Ь]).
Учитывая (7), имеем
^ Ж Ж Ж
31(и + И1, V ) -31(и , V ) _
ЬЬ
Ца11А12Ф( х, у) dxdy.
а а
Аналогично, рассматривая приращение функционала J2, получаем
Я* Ж Ж
3 2 (и ,v +Л2) - 3 2 (и ,v ) _
ЬЬ
Ць 22 Ф( х, y)dxdy,
а а
где И2 е С ([а, Ь] х [а, Ь]) . Таким образом, для того чтобы пара и и ^ являлась точкой равновесия по Нэшу, необходимо и достаточно потребовать неположительности коэффициентов а
и Ъ22, т.е. а11, Ь22 < 0. Утверждение доказано.
Наряду со случаем независимых х и у можно рассматривать и общий случай. Необходимые условия (6) при этом не изменятся. Тогда нахождение и и ^ будет зависеть от разрешимости системы интегральных уравнений
a11u f Ф^, y )dx +a12 f v( x^( x, y )dx+
a a
bb
a, 3 f xФ( x, y )dx + a14 y f Ф( x, y )dx = 0,
aa
bb
b22vf Ф( x, y)dy + b,2 f u(y^(x, y)dy + (9)
aa
bb
+ b23 xf Ф(^ y)dy + b24 f уФ^, y)dy = 0.
Решение данной системы находится уже с использованием итерационных и численных методов. К ним относятся, например, метод последовательных приближений или метод квад-
ратур [6]. Недостатком данных методов является то, что они применимы лишь для узкого класса задач.
Задачу (3) можно решить и в концепции оптимальности по Парето [4]. Ее суть заключается в увеличении выигрыша каждого из игроков за счет сотрудничества друг с другом. В нашем случае критерий выполнения Парето оптимальности можно интерпретировать неравенствами:
31(и,V) < 31(и*,V*),
32(и,V) < 32(и*,V*).
Сформулируем утверждение в предположении, что игроки заинтересованы в увеличении суммарного (общего) выигрыша.
Утверждение 2. Пусть компоненты случайного вектора х и у есть независимые случайные величины, т.е. выполняется (6). Тогда оптимальность решения по Парето при условии увеличения суммарного выигрыша задачи (5) при условиях (4), и сп,с22 < 0 обеспечивается на линейных
по своим переменным функциях и *(у) и v*(x) ,
где с11 и с22 элементы матриц С _ СТ _ А + В.
Доказательство. Проводится аналогично утверждению 1. С учетом поправок на системы интегральных уравнений систему (8) можно рассматривать в следующем виде:
cnuf p( x)dx + c12 f vp, (x)dx +
aa
bb
+ c13 f xp, (x)dx + c14 y f p, (x)dx = 0,
aa
bb
C22vf p2 (y)dy + c,2 f up2 (y)dy +
aa
bb
+ C23 xf p2 (y)dy + C24 f y p2 (y)dy = 0.
Случай с независимыми случайными величинами х и у так же, как и в равновесии по Нэшу, не тривиален и заключается в решении системы
c, ,u f Ф( x, y)dx +c12 f v( x)Ф( x, y)dx +
aa
bb
+ c13 f xФ( x, y)dx + c14 y f Ф( x, y)dx = 0,
aa
bb
c22v f Ф( x, y)dy + c,2 f u( у)Ф( x, y)dy +
aa
bb
c23x fф( x, y)dy + c24 f уФ( x, y)dy = 0.
+
57
Таким образом, получили, что задача оптимального управления при несовпадающей информированности субъектов (3)-(4) может быть переформулирована в терминах теории игр. Получены решения частной задачи (5), (4) при
условии (6) в концепциях равновесия по Нэшу и оптимальности по Парето. Также найдены
уравнения (9), (10) для нахождения и*(у) и v*(x)
в случае зависимости случайных величин х и у.
Литература
1. Гельфанд И.М. Вариационное исчисление / И.М. Гельфанд, С.В. Фомин. М., 1961.
2. Г ермейер Ю.Б. Введение в теорию исследования операций. М., 1973.
3. Максимов А.В. Многопользовательские информационные системы: основы теории и методы исследования / А.В. Максимов, Н.М. Оскорбин. Барнаул, 2005.
4. Оуэн Г. Теория игр. М., 1971.
5. Петросян Л.А. Теория игр / Л.А. Петросян, Н.А. Зенкевич, Е.А. Семина. М., 1998.
6. Полянин А.Д. Справочник по интегральным уравнениям / А.Д. Полянин, А.В. Манжиров. М., 2003.