Научная статья на тему 'Конусная оптимальность в игровой динамической задаче c векторными выигрышами'

Конусная оптимальность в игровой динамической задаче c векторными выигрышами Текст научной статьи по специальности «Математика»

CC BY
71
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИНАМИЧЕСКАЯ ИГРОВАЯ ЗАДАЧА / ВЕКТОРНЫЙ ВЫИГРЫШ / ОПТИМАЛЬНОСТЬ ПО КОНУСУ

Аннотация научной статьи по математике, автор научной работы — Матвеев Владимир Александрович

Изучена динамическая линейно-квадратичная игровая задача двух лиц с векторным m1(m2)-компонентным выигрышем у первого (второго) игрока. В качестве решения рассмотрены конусные равновесия. Предложено уточнение равновесной ситуации на основе экспертных оценок. Динамическая игровая задача с векторными выигрышами сводится к бескоалиционной дифференциальной игре двух лиц. Равновесное решение в последней задаче изучено по рецептам динамического программирования Беллмана. Приведен модельный пример

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Матвеев Владимир Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The dynamic linear quadratic two player' game problem with vector m1 (m2)-component payoff for the first (the second) player is studied. As a problem's decision the cone equilibrium is considered. As a rule, there are a lot of such situations. In article an equilibrium situation refinement on the expert estimation basis is offered. The dynamic game problem with vector payoffs is reduced to a noncooperative differential two person' game. The equilibrium decision in last problem is studied under recipes of the Bellman's dynamic programming. The modeling example is presented

Текст научной работы на тему «Конусная оптимальность в игровой динамической задаче c векторными выигрышами»

пользователя [Текст]/Л. Льюнг-М.: Наука, 1991. -432 с.

6. Гроп, Д. Методы идентификации систем [Текст]/Д. Гроп.-М.: Мир, 1979.-302 с.

7. Современные методы идентификации систем [Текст]/Под ред. П. Эйкхоффа.-М.: Мир, 1983.-400 с.

8. Гинсберг, К.С. Неклассические задачи теории

структурной идентификации [Текст]/К.С. Гинсберг// Тр. Междунар. конф. Идентификация систем и задачи управления.-М.-2000.-С. 992-1005.

9. Тооминг, Х.Г. Солнечная радиация и формирование урожая [Текст]/Х.Г. Тооминг.-Л: Гидрометеоиз-дат, 1977.-200 с.

УДК 519.8

В.А. Матвеев

конусная оптимальность в игровои динамическом

задаче c векторными выигрышами

Математическое моделирование - важнейшая составляющая научно-технического прогресса. Методы математического моделирования активно развиваются, охватывая все новые сферы - от разработки сложных технических систем до анализа экономических и социальных процессов. Активное развитие общества приводит к все более сложным системам управления - разнообразны требования, предъявляемые к их работе, появляются новые критерии, диктуемые новой технической, экономической и социальной реальностью. Это вызывает необходимость изучения все более сложных управляемых систем [1]. В статье представлена такая модель: динамическая игровая задача с векторными выигрышами у каждого игрока.

Рассматривается линейно-квадратичная динамическая игровая задача двух лиц с векторными выигрышами у каждого игрока:

Г2 = <S, U, V, {I (l)}ieMi,{J(j)} ]еЩ >. (1)

Здесь {I(г)}гем1 ({J(j)}jgM2) - векторная фУнкция выигрыша, составленная из критериев первого (второго) игрока. Аналогичная многокритериальная динамическая задача изучалась в [2]. Векторная функция выигрыша первого (второго) игрока задается набором m1 (m2) компонент и множеством номеров компонент - M1 = {1,..., m1} (M 2 = {1,..., m2}).

В задаче Г2 динамика управляемой динамической системы S описывается системой n линейных дифференциальных уравнений и начальными условиями:

x = A(t ) x + B1(t )u + B2(t )v, (2)

x(to) = xo.

(3)

Элементы квадратной матрицы А(?), порядка п, предполагаются непрерывными функциями на отрезке времени [?0, В], т. е. А^) е Спхп [?0, В]. Матрица ВД е С^,В] (В2Ц) е Спхк2[?с,В]). Здесь 0 < t0 < В - фиксированные моменты начала и окончания процесса. Текущее состояние системы Е в каждый момент времени tе [?0,В], характеризуется фазовым вектором х = (х1,..., хп) е Яп . Этот вектор зависит от времени, т. е. х(?) = (х1(?), ..., х()) и представляет всю информацию, которой располагают первый и второй игроки в момент времени t е [?0, В]. Задана начальная позиция ^0,х0) е [0, В] х Яп.

В (2)-(3) представлено изменение вектора состояния системы х = (х1,..., хп) е Яп под воздействием стратегий и = и(V, х) и V = х) первого и второго игроков соответственно. Дифференциальное уравнение (2) предъявляет определенные требования к их «функциональной природе». Стратегия или управляющее воздействие игрока отождествляется с вектор-функцией и(^х) = Р^)х (v(t, х) = Q(t)х), где элементы к1 х п матрицы Р(V) (к2 х п матрицы Q(t)) предполагаются непрерывными для t е В]. Множество его стратегий:

и = { u = P(t)x | P(t) G C^nfo,B] } (V = { v = Q(t)x I Q(t) G Ck2xn[to,B] }).

(4)

В управляемой системе Е используется стратегия по принципу обратной связи, т. е. стратегия зависит от ситуации (^ х) е В] х Яп . В то же время применяется наиболее простой вид та-

ких стратегий - линейных по фазовому вектору х = (х1,..., хп)еЯ" и непрерывных от времени t е [?0, В]. «Математические» и «инженерные» причины такого выбора управлений подробно представлены в литературе [3, с. 247-252; 4, с. 9-11].

Управляемый процесс реализуется следующим образом. Вначале каждый из двух игроков выбирает и использует позиционные стратегии и = Р^)х еи и V = Q(t)х еV. Согласно (4) выбор стратегий сводится к выбору конкретных функциональных матриц Р^) е С^1уп ро, В] Q(t) е Ск2Xn[t0, В]. При таком выборе (2) превращается в систему линейных однородных дифференциальных уравнений. При заданном начальном условии (3) такая система имеет [5, с. 21-24] единственное, непрерывно дифференцируемое решение х * (Г), продолжимое на весь интервал задачи В]. Затем, с помощью найденного решения х * ^) е С[^, В], выявляются реализации стратегий первого и второго игроков

и* = Р(0х ) еи, V* = Q(t)х *(0 еV.

На наборах (х *(0 и , x(t)), V *(t, х(0)) определены т1 -компонентная векторная функция выигрышей первого игрока и т2 -компонентная векторная функция выигрышей второго игрока. Компоненты заданы квадратичными функционалами:

/(0 (Мо > *о) = *Т х(Ъ) +

I и (t

Jt0

x(ty)D^u(t,x(t))dt, ie M,,

J(]>(v,t0,x0) = xL (.■ô)C) 'x(-ô) + Jv (t,x(t))Df]v(t,x(t))dtJ& M2.

(5)

(6)

Здесь С®,Д(1),г е М1 С<2),Б(2),] еМ2 - постоянные квадратные симметричные матрицы порядка п, пх, п2 соответственно; Т (здесь и далее) означает операцию транспонирования. В (5)

г* ш

слагаемое 1и называется

интегральным, а хТ(В)Сг(1)х(В) - терминальным слагаемым компоненты I(г)(и,t0,х0), г еМ1, векторной функции выигрыша. Аналогичные названия для слагаемых в (6). На содержательном уровне цель первого (второго) игрока - выбор такой стратегии и(^х) еи (v(t,х) еV), при которой все критерии I(г)(и(X х), t0, х0), г е М1 (J(;)(v(t^ х), t0, х0), ] е М2) принимают возможно

большие значения. Учитывая (2)-(6), задача (1) называется линейно-квадратичной, динамической (m1,m2) -компонентной игровой задачей.

В задаче (1) можно определить равновесное решение по системе конусов K = (K1,K2), где конусы заданы в соответствующих пространствах выигрышей, т. е. Ki с Rm',i = 1,2. Аналогичное решение для игровой задачи в «статическом» случае представлено в [6]. Определим равновесное решение в динамическом случае. Ситуация (u*(t,x), v *(t, x)) е U*V в игровой задаче двух лиц (1) называется равновесной по системе конусов K = ( Kj, K2), если для любых позиционных стратегий u = Q1 (t)x е U и v = Q2 (t)x е V, соответственно, первого и второго игроков, выполнены условия

I(utt, x), t0, X0) - I{u *(t, x), 0, X0) g K, J(ytf, x), tx X0) -J(y*(f, x), X, xxx)g K2.

Игровая задача (1) является задачей с неполной информацией по сравнению со стандартной игровой задачей двух лиц. Неопределенность связана с векторной функцией выигрыша у первого и у второго игроков, т. е. с отсутствием у каждого из них скалярной функции выигрыша. Неопределенность, связанную с векторным выигрышем у игроков, можно сокращать или даже снимать, используя дополнительную информацию. Среди конусных решений можно проводить процедуру уточнения, как это определено в многокритериальной динамической задаче [2] и игровой «статической» задаче [6]. Такой алгоритм позволяет существенно сократить множество претендентов на наилучшую (оптимальную) ситуацию или даже выделить единственное уточненное по системе конуса равновесие.

Один из возможных подходов связан с использованием экспертных оценок. От «своих» экспертов каждый игрок получает информацию об относительной важности компонент «своей» векторной функции выигрыша. Например, каждой компоненте I(i)(u(t, x), t x0), i е M1, эксперт для первого игрока ставит в соответствие неотрицательное число - весовой коэффициент, указывающий важность этой компоненты относительно других компонент векторной функции выигрыша. Таким образом, эксперт первого игрока формирует вектор весовых коэффициентов для всех m1 компонент. Пусть сформировано m1 таких векторов, составленных из весовых коэффи-

циентов. Они задают квадратную матрицу А1, у которой г -я строка определяется г -м экспертом первого игрока. Матрица А1 является матрицей отношений экспертов к компонентам векторной функции выигрыша первого игрока. По аналогичной схеме другая группа экспертов формирует квадратную матрицу А2, порядка т2, отношений экспертов к компонентам векторной функции выигрыша второго игрока. Такие матрицы задают два (полиэдральных) конуса доминирования, аналогично [7, с. 169-172] в критериальном пространстве Я"1 и Я"2 соответственно.

В качестве уточненного равновесного решения линейно-квадратичной, динамической (т1, т2)-компонентной игровой задачи (1) будем рассматривать уточненное по последовательности матриц равновесие, представленное по аналогии с уточненным по последовательности конусов оптимальным решением для многокритериальной задачи [7, с. 172-176]. Последовательность матриц, реализующая процесс уточнения решения для каждого игрока, задается степенями соответствующей матрицы А, г е {1, 2} .

Рассмотрим последовательность пар матриц (А", А"), п = 1, 2, ... . Каждая такая пара определяет пару конусов, соответственно, в критериальных пространствах Я""1 и Я""2. По аналогии с утверждением 2 из [7, с. 172], существует предел последовательности из пар матриц (А-", А"), п = 1,2,..., и этот предел обозначим (А10, А20). Каждая предельная матрица является вырожденной (ранг равен единице) и определяется левым собственным вектором, относящимся к максимальному собственному значению А,* = 1. Эти левые собственные векторы для первой матрицы А1 и для второй матрицы А2 имеют размерность т1 и т2 соответственно. Обозначим их

„(0) ц (™ (0) а (0) а(0))

а - (а,! , «2 , ..^аml), (7)

ос^^0)+ос2^)+... + ос"и0^1 , а(0)>0, /е м„

Р(0) = (Р{0), Р20),..., Р(т°2), Р10) + Р(20)+... + Р(т0;)=^1, Р(0) > 0, гЕМ2

(8)

для первой и второй матрицы.

Для линейно-квадратичной динамической ( т1 , т2 )-компонентной игровой задачи двух лиц (1) уточненным по паре последовательностей матриц (А", А"), п = 1, 2,..., равновесным решением является ситуация равновесия по Нэшу в бескоалиционной линейно-квадратичной динамической

игровой задаче двух лиц:

Г3 ц<1, и^, д, 3>. (9)

Игровая задача (9) отличается от игровой задачи (1) только скалярными функциями выигрыша для первого и второго игроков:

Д = а(0)Д (1)(и, ?0, Х0) + (10)

+ а20) Д (2)(и, ?0, Х0) +... + а"01) Д (т1)(и, ?0, Х0), 3 цр(0)3(1)(у,?0,Х0) +

+Р20) з (>, ?0, Х0)+...+в002з (т>, ?0, Х0).

(11)

Отметим, что в последних формулах вектор а(0) = ((х1(0),а(20)„...,а""0^') из (7) и вектор р(0) ц (РГ, р20),..., ^т"2)из (8).

Сформулируем достаточные условия существования уточненного по последовательности матриц равновесия в игровой динамической задаче (1). Эти условия можно сформулировать с помощью подходящей модификации метода динамического программирования [4, с. 223-228] для бескоалиционной игровой задачи (9). При изучении таких задач будем рассматривать квадратичные формы и соответствующие им матрицы. В частности, выделим знакоопределен-ные квадратичные формы (матрицы) [8, с. 276]. Матрица С(а) называется положительно (отрицательно, неотрицательно, неположительно) определенной, если Ух е Я" верно неравенство хтС(а)х > 0 ( хтС(а)х < 0 , хтС(а)х > 0, хтС (а) х < 0), и это будет обозначаться С (а) > 0 (С (а) < 0, С (а) > 0, С(а) < 0).

Рассмотрим матрицу А1 е Ят1хт1 отношений экспертов к компонентам векторной функции выигрыша первого игрока. Ее можно считать стохастической [8, с. 381]. Для такой матрицы на основании утверждения 2 из [7, с. 172] существует предельная матрица и все ее строки рав-

т

ны а(0) ц (а!0-1, а(20),..., о"0,)) , £аг ц 1, аг > 0 (7).

г ц1

С помощью набора чисел а(0) определяется скалярная функция выигрыша для первого игрока (10). Из (10), (7) и (5) следует

/(и, г0, х0) = а-0)/(0 (и, г0 ,*„) =

+

Ут1 а.0) (и (I, х(0)£>,(1)и(г,=

Jf0

(12)

=;ст(/+) Ст (а( °)©с(1Л) + [и (а(0))и{1,*(*))&.

-.ВТ«) ©1 - 2 -©1 • В2(Б(2))

(2К-1

(12)

Здесь I(г)(и,t0, х0), г е М1, из (5), вектор

а(0) = (а(0),..., а^) е Ят1 из (7) и С(1) = С (1)(а(0)) =

= 2,"=!а(0)С(1) , Б(1) = Б(1)(а(0)) = ^а(0)Б(1).

По аналогичной схеме из (11), (8) и (6) следует:

_ V""2 ти),

.йТ

(13)

= хт($)С(2)(|3(0))х(£) + + (г, х(0)£>(2) (Р(0) МГ, .

В последней формуле (13) J(1 )(и,t0,х0), 1 еМ2,

->т2

из

из (6), вектор Р(0) = (Р1(0),..., О е Я

(8) и С(2) = С (2)(р(0)) = 2т_21 Р(0)С(2), Б(2) =

= Б(2)(Р(0)) = £т21 р10) Б(2).

Утверждение 1. Рассматривается линейно-квадратичная, динамическая (т1, т2) -компонентная игровая задача (1). Матрица Л1 е Ят1хт1 (Л2 е Ят2хт2) отношений экспертов к компонентам векторной функции выигрыша первого (второго) игрока является неотрицательной, невырожденной, неразложимой, стохастической. Левый собственный вектор для матрицы отношений экспертов А1 е Ят1хт1 ( Л2 е Ят2хт2 ) приведен в (7) ДО^

и матрицы С(1) = С(1)(а(0)) и Б(1) = Б(1)(а(0)) (С(2) = С(2)(р(0)) и Б(2) = Б(2)(р(0))) из определения скалярной функции выигрыша (12) ((13)) обладают свойствами

С(1) = С(1)(а(0)) = (а^С™ < 0, Б11 = Б11 (ос00-) = 2т11(а(0))Б(:1) < 0

(С(2) = С (2)(р(0)) <2^ Р(;0)С(2), Б(2) = Б(2)(р(0)) = 2т=21 Р(0)Б(2) < 0).

(14)

Пусть система двух матричных уравнений типа Риккати с начальными условиями

В2 - ©2 = 0пхп ,

©2 + ЛТ(Г) ©2 +©2 • Л()) -©2 •В2()) (Б(2) (Р(0) ))-

х вТ()) • ©2 - 2 • ©2 • В (Б(1))-1 • ВТ • ©1 = 0"хп,

©1(В) = -2С (1)(а(0)), ©2(В) = -2С (2)(р(0)),

(15)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

©1 + ЛТ (/) ©1 +©1 • Л(/) -©1 •В1 (/ )(Б(1)(а(0)))-1 ■

имеет единственное продолжимое решение для любого t е[t0, В]. Тогда в задаче (1) при любом выборе начальной позиции (X,х0) е [0,В) х Я" существует уточненное по последовательности пар матриц (Л",Л"), п = 1,2,..., равновесное решение (и*(( х), V *(Хx))еUxV, и соответствующие стратегии имеют вид

и* = и*^,х) = -(Б(1)(а00))-1 •BT(1)• ©1 (()х, (16)

V* = V * (t, х) = -(Б(2) (р(0)))-1 • Вт() ) • ©2(t) х ,(17)

где (©1(t), ©1(t)), 10< t < В, - решение (15) и х = х()) - решение дифференциального уравнения (2) с начальным условием (3) и при выборе равновесной ситуации (и*(1, х), V* (^х))еи^.

Доказательство. Для линейно-квадратичной динамической (т1, т2 )-компонентной игровой задачи двух лиц (1) уточненным по паре последовательностей матриц (Л",Л"), п = 1,2,..., равновесным решением является ситуация равновесия по Нэшу в бескоалиционной линейно-квадратичной динамической игровой задаче двух

лиц (9). Матрица Л1 е Ят1хт1 (Л2 е Ят2хт2) отношений экспертов к компонентам векторной функции выигрыша первого (второго) игрока является неотрицательной, невырожденной, неразложимой, стохастической. Тогда левый собственный вектор можно выбрать из условия (7) ((8)). Значит, функции выигрышей в бескоалиционной игре (9) можно представить в виде (12) и (13). Определение равновесной ситуации в (9) сводится к решению системы из двух задач динамического программирования для функций (12) и (13):

тахиеи 1 (u,tо,х0)=1 (и* tо,х0), (18) mаxvекJ (V, tо, х0)=-1 М" tо, х0). (19)

Решение последней задачи будем искать согласно рецептам динамического программирования Беллмана [4, с. 223-228; 9, с. 366-369]. Определим две скалярные функции:

Щ), хиУх) = ^ +

от

+

ду

дх

•[А(?)х + ВИ)и]+1 ит • ^(1)(а(0))и, (20)

2

дУ

W2($,х,у,У2) ц—2 +

д

(21)

+

дУ2.

дх

• [А(?) • х + В2 (X) • у]+ 1 ут • Б(2) (р(0) )у.

2

Здесь V = (У1((, х), Г2(?, х)) - некоторая неизвестная функция. Стратегии из ситуации равновесия найдем из условий (18), (19). Используем доста( точные условия максимума:

^ ц Вт •дУ- + Б(1)(а(°))с = 0,

ди 2 дх

д ц Б^а^О,

ди

2

ду

т, дУ

2 ц Б(2)(р(0)) < 0.

ц В2т ^ + Б(2)(р(0))Vц 0, ду дх

д

(22)

(23)

Неравенства в (22) и (23) выполнены в силу условий (14) и означают, что матрицы Бl(1'l(а(°)) и Б (2)(р(0)) отрицательно определены. Тогда

с* ц-(Б(1))-1 • В.т •дУ-,

дх

V* ц -(Б(2))-1 • В2т

дх

(24)

(25)

Как принято для линейно-квадратичных задач, будем считать, что функции V ц у (X, х) и У2 ц У2^,х) имеют вид:

1 т

V ц У^,Х) ц -Хт •©!(?)Х,

2 т (26)

У2 ц УгН, Х) ц - Хт •©2(?) Х .

Здесь неизвестными величинами являются симметрические матрицы ©1 ц©1(?), ©2 ц®2((), порядка п1 и п2 соответственно, элементы которых есть непрерывные функции от X Е [?0,В]

Тогда из (24), (26) и (25), (26), по аналогии с [10, с. 207], следует (16) и (17) соответственно:

и* и а* (Х,х) ц -(Б(1) (а1™)• Вт( X) • (5)1( X) х ,

у* ц V * (X, х) ц -(Б(2)(р(0)) -1 • Вт(Х) ^©2 ( X) х .

Подставляя полученные стратегии

и* ц и * (X,и) Еи, V* ц у($,х) е V и у, У2 из (26) в равенства

W1(X, Х, и* У1) ц 0 , (В, Х) ц1 хт • С(1)(а(°)) х, х,у? У2)ц0, У(В,х)ц|Хт • С(2)(Р(0))Х,

(27)

где функции X,х,и* У), ^2(?,х,^ У2) заданы в (20) и (21) соответственно, мы получаем, что

матрицЫ ©1(0 Е Cnlхn1[X0, В] и ©2 (0 Е Сп2хп2 [В]

удовлетворяют матричной системе уравнений Риккати и начальным условиям (15), а по данным утверждения такое решение единственно и про-должимо для X Е[X0, В].

Таким образом, при любом выборе начальной позиции ( X0,х0) е [0,В) х Яп, ситуация (и*( X, х), у х) ЕUxV является равновесной в бескоалиционной линейно-квадратичной динамической игре двух лиц (9) и, значит, уточненным по последовательности пар матриц (А1п, А2,), п ц 1, 2,..., равновесным решением игровой задачи с векторными выигрышами у каждого игрока (1).

Утверждение 2. Рассматривается линейно-квадратичная, динамическая (т1, т2) -компонентная игровая задача (1). Постоянные квадратные симметричные матрицы из (5), (6) удовлетворяют условиям

Сг(1) < 0, D2l) < 0, г е М1, С<]г> < 0, < 0, ] Е М2.

Матрица А! Е Ят1хт1 (А2 Е Ят2хт2) отношений

экспертов к компонентам векторной функции выигрыша первого (второго) игрока является неотрицательной, невырожденной, неразложимой, стохастической. Для управляемой динамической системы Е, описываемой системой п линейных дифференциальных уравнений и начальными условиями (2), (3), соответствующая система дифференциальных матричных уравнений типа Риккати (15) имеет продолжимое решение для X е [X)), В]. Тогда в задаче (1) при любом выборе начальной позиции (X0, х0) е [0,В) х Яп существует уточненное по последовательности пар матриц (А1п, А2,), п ц 1, 2,..., равновесное решение (и*( X, х), у * (X^ х) Еи^, и соответствующие стратегии имеют вид (24), (25).

Доказательство. Для любых матриц А1 е Ят1хт1 (А2 е Ят2хт2) из условия утверждения, предельная матрица однозначно определяется левым собственным вектором, относящимся к максимальному собственному значению А* ц 1, и этот вектор

ат = (с, ( «2,...( аи) , ^тц а, = 1, а. >0.

Из приведенного условия и (27) следует выполнение (14). Для системы дифференциальных уравнений типа Риккати (15) реализованы усло-

т

вия теоремы существования и единственности решения, а по условию утверждения это решение продолжимо для t е [?0, В]. Таким образом, выполнен^! условия утверждения 1, что и завершает доказательство.

Утверждение 3. Рассматривается линейно-квадратичная, динамическая (т1, т2)-компо-нентная игровая задача (1). Пусть собственные значения матриц С}1-1, г е М1, С(р, у е М2 неположительны, а у матриц Ц1-1-1, г е М1, Ц2), у е М2 они отрицательны. Отношение экспертов к компонентам векторной функции выигрыша первого (второго) игрока, представлено неотрицательной, невырожденной, неразложимой, стохастической

матрицей Д е Ят1хт1 (А2 е Ят2хт2). Тогда лЮ-

бом выборе начальной позиции (0, х0) е [0, В) х Я"

существует уточненное по последовательности пар матриц (А",А"), " = 1, 2,..., равновесное решение (и*(( х), V х) еUxV, и соответствующие стратегии имеют вид (24), (25).

Доказательство следует из того, что условие (26) равносильно существованию только неположительных собственных значений у матриц СР,г е М1, С(2\у еМ2 и только отрицательных собственных значений у матриц Ц(р, г е М1,

Ц(2),у еМ2.

Пример. Рассматривается линейно-квадратичная, динамическая (2, 2)-компонентная игровая задача (1). Динамика £ управляемой системы (2)-(3) описывается дифференциальным уравнением

х = и (X х) + v(t, х), х(0 = 5.

Вектор состояния системы х е Я. Задан промежуток функционирования t е[0,1]. Скалярные стратегии первого (второго) игрока с полной обратной связью представлены в (4): и = )х еи и V = д^)х е V. Ограничения на управление отсутствуют. На реализованных траектории и стратегиях игроков (х*(^, и*(}, х(ф), V * (Xх(t))) определены две векторные функции выигрыша первого (второго) игрока, аналогично (5), (6), заданные функционалами: 2

и (X х(0 t,

4 2

V х(t)dt.

to

На содержательном уровне цель первого и второго игроков в этой задаче состоит в выборе таких стратегий и = )х еи и V = д(^)х еV, при

которых обе компоненты векторной функции выигрыша этого игрока примут возможно большие значения, при этом следует учитывать выбор другого игрока, цель которого - возможно большие значения двух компонент «его» векторного выигрыша.

МатРицЫ А е Ят1хт1 (А2 е Ят2хт2) отношений

экспертов к компонентам векторной функции выигрыша первого (второго) игрока заданы

Í 3/ V Л Í V 5/ Л

— /5 4/ /5 1/ 5 — /6 /6 V 1/

1/5 /5 V 1/2 /2j

В качестве решения представленной задачи можно рассматривать равновесные по системе конусов (K1,K2) ситуации, как это представлено в определении 1 из [6, с. 120]. Среди таких решений можно проводить уточнение по паре последовательностей матриц (Aj,Aj), n = 1, 2,.... Для линейно-квадратичной динамической (2, 2)-ком-понентной игровой задачи двух лиц уточненным по паре последовательностей матриц (A1n, Aj), n = 1,2,..., равновесным решением является ситуация равновесия по Нэшу в бескоалиционной линейно-квадратичной динамической игровой задаче двух лиц (9):

Г = <!, U, V, I, J>.

Скалярные функции выигрыша первого и второго игроков (10), (11) в этой игре будут равны

I = I (u, t0, х0) = - 231 (1)(м, t0, х0)-— 1 ( \u,to,хо)=

=-23 • - >3

J = J (v, to, Xo) = - 38

- • J(2)(v,to,Xo) =

(•1 2

• I u (t, x(t))t,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Jt0

'• J (1)(v, to, Xo)-

8 o ? o

— - V *-2

• x2(1)-

- 5/

12

I v (t, x(t))t.

Jin

Отметим, что левый собственный вектор, относящийся к максимальному собственному значению

3

A,* — 1, для матрицы Д e R2x2 равен c1 — (2

а для матрицы A2 e R2x2 будет c2 = (3g ,5

Стратегии из уточненной равновесной ситуации задачи (1) или, что то же самое, ситуации, равновесной по Нэшу в бескоалиционной игровой задаче (9), определяются из условий

u *(t) e arg max (-231 0)uto,xo) -

ueU

- уъ I (2)(u(t), t0, x0)),

v *(t) е arg max (- 38J (u ?o, x>) -

veV

- 58 j (2)ш, to, xo)).

Для рассматриваемой линейно-квадратичной динамической (2,2)-компонентной игровой задачи выполнены условия утверждений 1 и 2. Действительно, учитывая компоненты векторных функций выигрыша для первого и второго игроков и положительные собственные векторы для матриц отношений экспертов A1, A2, получаем, что верно (14). Тогда, в представленной задаче при любом выборе начальной позиции (t0, x0) е [0,$) х Rn, существует уточненное по последовательности пар матриц (A1n, А£), n - 1, 2,..., равновесное решение (и*(?, x), v *(t,x) eUxV, и соответствующие стратегии имеют вид (16), (17). Для нахождения этой ситуации составим систему двух уравнений типа Риккати (15):

16/

©1+ 32 ©2 + 1у3 ®1 -©2 = 0, ©2 (1) = - у3

--5

©2 + % ©2 + з -©j-©2 - 0, ©2(1) --

(28)

Полученную систему с краевыми условиями решаем численным методом Рунге-Кутта 4 или 5 порядков, модифицированным Фелбергом [11]. В среде программирования Maple 14 используется процедура rkf45. Точность приближенных вычислений здесь и далее определяется границей абсолютной погрешности е = 10-6 для приближенного решения дифференциальной задачи (28). Это означает, что промежуточные и окончательный результат могут отличаться от точного значе-

Графики решений системы дифференциальных уравнений

ния не более чем на 0,5 е. В таблице приведено численное решение, представленное в форме табличных функций.

На рисунке приведены графики решений системы дифференциальных уравнений (28). Здесь верхняя линия представляет график функции ©1 = ©1 ()), а нижняя линия — график для 02 =02(?), ?е[0,1].

На основании информации о значениях стратегий первого и второго игроков из таблицы можно определить аппроксимации для стратегий:

и(), х) = / х(-10,543302?12 + 54,585125)" -

- 123,791751 )10 + 160,388340)9 - (29)

- 130,210123t8 + 68,135159t7 - 22,689801?« + + 4,411604t5 - 0,410190t4 - 0,059152t3 -- 0,042107t2 - 0,055514t - 0,051639);

Табличные значения функций 0j(/), ©2(0, являющихся решением задачи (28)

t -ОД00000 0,000000 0,100000 0,200000 0,300000 0,400000 0,500000 0,600000

0,(0 -0,046565 -0,051639 0,057684 -0,064987 -0,073948 -0,085156 -0,099500 -0,118389

е2(0 -0,174588 -0,185892 -0,198900 -0,214042 -0,231912 -0,253350 -0,279586 -0,312507

t 0,700000 0,800000 0,900000 1,000000 1,100000 1,200000 1,300000

едо -0,144182 -0,181137 -0,237722 -0,333333 -0,523407 -1,047595 -5,882392

02 (0 -0,355156 -0,412806 -0,495481 -0,655000 -0,860013 -1,434619 -5,686772

v(t, х) = 8/3 х(-9,733364?12 + 50,301702?п -- 113,942694t10 + 147,487824^ - (29)

- П9,653906?8 + 62,568442t7 - 20,833700?« + + 4,037564^ - 0,391728г4 - 0,078964?3 -- 0,07904112 - 0Д21239? - 0,185892).

На основании полученныгс стратегий игроков можно определить их выигрыши в ситуации равновесия по Нэшу в бескоалиционной линейно-квадратичной динамической игровой задаче двух лиц (9):

(I,3) = (-1,290985; - 4,647324).

Уточненное по последовательности пар матриц равновесное решение линейно-квадратичной, динамической (2,2)-компонентной игровой задачи (1) есть ситуация (и, V) е и^ и аппроксимации стратегий представлены в (29) и в таблице. В уточненной равновесной ситуации векторный выигрыш первого игрока

I = (I(1),I(2)) = (-3,2131556, - 0,3299007), векторный выигрыш второго игрока

3 = (3(1),3(2)) = (-3,2131556, - 7,0376065).

Отметим, что при анализе представленного примера приближенные вычисления применялись только при решении системы дифференци-альныгс уравнений типа Риккати (28). В работе точность результатов определяется абсолютной погрешностью е = 10-6 решения этой системы. Эта точность подтверждается и другими численными методами решения дифференциальных систем, в частности, одношаговым экстраполяционным методом Гира [11].

В статье рассмотрена линейно-квадратичная, динамическая, игровая задача с векторным или (т1, т2)-компонентным выигрышем (1). Наличие компонент является выражением неопределенности в системе - неопределенности отношения предпочтения первого и второго игроков. В классификации неопределенностей в задачах управления она выделена в [3, с. 24], как «неопределенность, отражающая нечеткость знания игроками своих целей». Выявление единой целевой функции снимает эту неопределенность.

Рассматриваемый в статье процесс уточнения по последовательности конусов позволяет уменьшить неопределенность для каждого игрока, а в итоге выявить для него единую функцию выигрыша. Такое уточнение существенно использует знания экспертов по рассматриваемой проблеме. Их мнения формализуются в форме матрицы отношений экспертов к компонентам. Эти матрицы и соответствующие им многогранные конусы позволяют свести (т1, т2)-компонентную проблему к стандартной бескоалиционной дифференциальной игре.

Для последней задачи разработаны эффективные методы решения. В частности, в рассматриваемом случае управление осуществляется по принципу обратной связи, т. е. управляющее воздействие зависит от времени и сложившейся позиции. Для нахождения такого оптимального управления можно использовать метод динамического управления Беллмана. Этот алгоритм решения позволяет выявить явный вид уточненного равновесного решения.

СПИСОК ЛИТЕРАТУРЫ

1. Воробьёв, Н.Н. Современное состояние теории игр [Текст]/Н.Н. Воробьёв/Успехи матем. наук.-1970. -№ 25.-Вып. 2.-С. 81-140.

2. Матвеев, В.А. Исследование конусной оптимальности в многокритериальной динамической задаче [Текст]/В.А. Матвеев/Научно-технические ведомости СПбГПУ-2010.-№ 5 (118).-С. 56-62.

3. Жуковский, В.И. Риски и исходы в многокритериальных задачах управления [Текст]/В.И. Жуковский, М.Е. Салуквадзе.-Тбилиси: Интелекти, 2004. -C. 247-252.

4. Жуковский, В.И. Линейно-квадратичные дифференциальные игры [Текст]/В.И. Жуковский, А.А. Чикрий.-Киев: Наукова Думка, 1994.

5. Понтрягин, Л.С. Обыкновенные дифференци-

альные уравнения [Текст]/Л.С. Понтрягин.-М.: Наука, 1974.-С. 21-24.

6. Матвеев, В.А. Исследование равновесный ситуаций в игровой задаче двух лиц с векторными выигрышами [Текст]/В.А. Матвеев/Научно-технические ведомости СПбГПУ-2010.-№ 3 (101).-С. 119-126.

7. Матвеев, В.А. Исследование оптимальности по конусу в многокритериальной задаче [Текст]/В.А. Мат-веев//Научно-технические ведомости СПбГПУ-2009. -№ 4 (82).-С. 169-176.

8. Гантмахер, Ф.Р. Теория матриц [Текст]/ Ф.Р. Гантмахер.-М.: Наука, 1967.

9. Пантелеев, В.И. Теория управления в примерах и задачах [Текст]/В.И. Пантелеев, А.С. Бортаковский.-М.: Высш. шк., 2003.

10. Ли, Э.Б. Основы теории оптимального управления [Текст]/Э.Б. Ли, Л. Маркус.-М.: Наука, 1972.

11. Forsythe, G.E. Computer Methods ofMathematical Computations [TeKCT]/G.E. Forsythe, M.A. Malcolm, C.B. Moler.-New Jersey: Prentice Hall, 1977.

УДК 28.50

А.Л. Ляшенко, О.И. Золотов

математическое моделирование распределенного объекта управления с подвижным источником воздействия

Системы с подвижным воздействием - новый класс систем с распределенными параметрами. Это требует разработки специальных методов анализа и синтеза этих систем. Рассмотрим один из таких методов на примере защитного термокожуха для видеокамеры охранного телевидения (рис. 1). Это устройство предназначено для защиты видеокамер, установленных на улице, от воздействия неблагоприятных погодных условий и пыли. Для предотвращения обледенения стекол защитных термокожухов в настоящие время предлагается несколько вариантов систем обогрева, например, с использованием в качестве нагревательных элементов терморезисторов или пластинчатых обогревателей, которые устанавливаются непосредственно на стекло.

Рассматриваемая система принципиально отличается от предлагаемых ранее. В данной системе в качестве нагревательного элемента, по отношению к стеклу, предлагается использовать жидкий теплоноситель. С целью последующего синтеза системы терморегулирования стекла, произведем моделирование тепловых полей защитного термокожуха, представленного ниже.

Описание конструктивных параметров объекта управления

Рассматриваемый нами защитный термокожух имеет форму цилиндра и состоит из металлического короба и сборной пластины.

Рис. 1. Защитный термокожух для видеокамеры

Металлический короб состоит из цилиндрического корпуса, задней стенки (на ней расположены гермовыводы, предназначенные для подключения силовых кабелей) и передней стенки, представляющей собой сборную пластину.

При проведении расчетов будем полагать, что боковые стенки объекта управления изготовлены из алюминия, а задняя стенка изготовлена из термоизоляционного материала.

Сборная пластина состоит из трех элементов: металлической рамки круглой формы, в которой крепятся энергоблок и обогреваемое стекло; энергоблока, состоящего из кольца, заполненного жидким теплоносителем, и нагревательного элемента (в энергоблоке осуществляется процесс получения тепловой энергии, которая передается обогреваемому стеклу с помощью жидкого теплоносителя) и обогреваемого стекла.

Обогреваемое стекло имеет форму круга. По периметру оно окружено полым кольцом (энергоблоком). Кольцо заполнено жидким теплоносителем. Нагрев теплоносителя осуществляется с помощью нагревательного элемента, расположенного внутри кольца. Теплоноситель циркулирует вдоль кольца, обогревая стекло. В проектируемой системе в качестве жидкого теплоносителя предлагается использовать трансформаторное масло.

Математическая модель объекта управления

На рис. 2 представлен термокожух, ориентируемый в цилиндрической системе координат, и три основных вида: спереди, сверху и справа.

На рис. 3. представлены разрезы А-А и В-В защитного термокожуха (см. рис. 2), ориентированные в цилиндрической системе координат.

Запишем дифференциальное уравнение теплопроводности применительно к внутреннему

i Надоели баннеры? Вы всегда можете отключить рекламу.