Научная статья на тему 'Исход и риск в многошаговой позиционной задаче при неопредленности'

Исход и риск в многошаговой позиционной задаче при неопредленности Текст научной статьи по специальности «Математика»

CC BY
35
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОШАГОВАЯ ЗАДАЧА / ЗАДАЧА УПРАВЛЕНИЯ / MANAGEMENT PROBLEM STRATEGY / СТРАТЕГИЯ / МНОГОКРИТЕРИАЛЬНАЯ ЗАДАЧА / MULTICRITERIA PROBLEM / ГАРАНТИИ / GUARANTEES / МАКСИМУМ ПО ПАРЕТО / PARETO MAXIMUM / MULTI-STEP PROBLEM

Аннотация научной статьи по математике, автор научной работы — Жуковский В. И., Высокос М. И., Горбатов А. С.

Рассмотрены вопросы принятия решения в однокритериальной задаче при стратегической неопределенности (ОЗН) с позиции ЛПР, стремящегося одновременно увеличить гарантированный исход с возможно меньшим гарантированным риском. При этом основываемся на принципе минимаксного сожаления (по Сэвиджу-Нихансу) с привлечением математического аппарата метода динамического программирования для дискретных задач. Здесь, во-первых, рассматривается ОЗН двух видов, отличающихся парами: контрстратегия — чистая неопределенность и чистая стратегия — стратегическая неопределенность. В первом случае строится функция сожаления, во втором — гарантии исхода и риска. Во-вторых, исходной ОЗН ставится в соответствие двухкритериальная дискретная позиционная задача, где первый критерий гарантированный исход, а второй — “минус” гарантированный риск. Для этой двухкритериальной задачи строится максимальная по Парето чистая стратегия, которая и определяет величину гарантированного исхода, и гарантированный риск, сопровождающий реализацию гарантированного исхода. В качестве примера получен явный вид предлагаемого решения для линейно-квадратичного одношагового варианта ОЗН.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исход и риск в многошаговой позиционной задаче при неопредленности»

УДК: 517.977.54 MSC2010: 91A10

ИСХОД И РИСК В МНОГОШАГОВОЙ ПОЗИЦИОННОЙ ЗАДАЧЕ

ПРИ НЕОПРЕДЕЛЕННОСТИ © В. И. Жуковский, А. С. Горбатов

Московский государственный университет имени М. В. Ломоносова Факультет вычислительной математики и кибернетики кафедра оптимального управления Ленинские горы, МГУ, ВМК, ГСП-1, Москва, 119991, Российская Федерация Е-МА1Ь: zhkvlad@yandex.ru, gorbatovanton@gmail.com

© М. И. Высокос

Государственный гуманитарно-технологический университет Физико-математический факультет кафедра математики и физики ул. Зеленая, 22, Орехово-Зуево, 142611, Российская Федерация е-ма1Ь: mvysokos@mail.ru

Outcome and Risk in a Multi-step Positional Problem under Uncertainty.

Zhukovskiy V. I., Vysokos M. I. and Gorbatov A. S.

Abstract. In single-criteria problem under strategical uncertainty from the point of view of DM tasks of decision making are examined. DM tries to increase the guaranteed outcome with possible smaller guaranteed risk. We are based on the principle of minimax regret (Savage-Nichans) with the help of mathematical apparatus of the method of dynamic programming for discrete problems.

First, we examine single-criteria problem of two forms which differs by pairs: contrstrategy — pure uncertainty and pure strategy — strategical uncertainty.

In the problem of the first type, a hierarchical procedure of formation the counterstrategies of DM is used. The discrimination of uncertainty appears: the decision-maker learns the uncertainty which has realized and only then he chooses his strategy, namely for example for single-criteria problem under uncertainty

r = <£, Uz, Z,J(Uz,Z,xo)> £ ^ x(k + 1) = f (k, x(k), u(k, x(k), z(k, x(k))), x(0) = xo k = 0,..., K, Uz = (Uz(0), Uz(1),..., Uz(K - 1)) ^ (u(0, x, z), u(1, x, z),..., u(K - 1, x, z)), Z = (Z(0), Z(1),..., Z(K - 1)) ^ (z(0, x),..., z(K - 1, x)), Uz = {Uz}, Z = {Z}.

K-1

J (Uz ,Z,xo) = $(x(K)) + ^ Fi(k, x(k), u[k], z[k]),

k=0

the functions of risk are defined

R(Uz,Z,x0) = max J(Uz,Z,x0) - J(Uz,Z,x0).

uz eu z

In the problem of the second type strategic uncertainties are used. They are formed on the assumption of discrimination DM, who transmits them to the researcher selected by him pure strategy for the formation of strategic uncertainty.

In the problem about uncertainties only boundaries of changes are known (any probabilistic characteristics are absent).

In the first case the regret function is constructed, in the second case — guarantee of outcome and risk. Secondly, it is offered the initial single -criteria problem to set in accordance two-criteria discrete positional problem, where the first criteria — the guaranteed outcomes, the second one — "minus" guaranteed risk. For this two-criteria problem we construct the Pareto maximal pure strategy, which defines the value of guaranteed outcomes and guaranteed risk accompanying the realization of guaranteed outcome.

As the example, the explicit form of suggested solution for linear-quadratic one step variant of single-criteria problem is obtained.

Keywords: multi-step problem,, management problem strategy, multicriteria problem, guarantees, Pareto maximum.

1. Постановка задачи

Рассматриваем однокритериальную многошаговую позиционную задачу при неопределенности.

Функция риска Севиджа—Ниханса.

Здесь ограничимся интервальными неопределенностями. Для построения функции риска рассматриваем однокритериальную многошаговую оптимизационную задачу

rz = (S, Uz , Z, J (Uz ,Z,x 0)), изменение управляемой системы S описывается векторным разностным уравнением

x(k + 1) = f (k,x(k),u(k, x(k), z(k,x(k))),z(k,x(k))),

x(0) = x0, (k = 0,1,...,K — 1)

(момент окончания управления) постоянную K > 0 фиксируем; в (1) фазовый n—вектор (вектор состояния) в момент времени k есть x(k) G пара (k,x(k)) — позиция в момент k в задаче Tz, (0, x0) — начальная позиция; стратегия ЛПР (лица, принимающего решения) в момент времени k, именно Uz(k) отождествляется с m-вектор-функцией u(k,x,z) G Rm, этот факт обозначается UZ(k) + u(k,x,z). В теории дифференциальных игр Uz(k) называется контрстратегией в момент времени k и

множество контрстратегий в момент времени к обозначим Uz(к). Стратегией ЛПР в Г я является набор

= (Ця(0),Ця(1),...,Ця(К - 1)) ^ (м(0,ж,г),м(1,ж,г),...,м(К - 1,ж,г)),

множество таких контрстратегий Ця обозначим И я.

Согласно теории дифференциальных позиционных игр, задача Г я относится к категории минимаксных. В ней применяем в момент к = 0,..., К — 1 чистую неопределенность Z (к) ^ г (к, ж), г € , множество таких неопределенностей в момент к обозначим Z(k) = ^(к)}, а сама неопределенность Z тогда определится набором

Z = ^(0)^(1),...,Z(К — 1)) ^ (г(0,ж),г(1,ж),...,,г(К — 1,ж)),

к-1

множество которых обозначим Z = П Z(k).

к=о

При формировании контрстратегии (к) в момент к используем иерархическую процедуру. Именно на к-м ходу неопределенность Z(к) ^ г(к,ж) поступает к ЛПР. Лицо, принимающее решение, на этой основе и исходя из некоторых соображений (например, оптимизации своего критерия, об этом далее) выбирает в момент времени к свою стратегию Ц(к) ^ и(к, ж, г); как раз эти вектор-функции и(к, ж, г) и г(к, ж) и фигурируют в (1).

В этом проявляется дискриминация неопределенности: при формировании своей стратегии ЛПР становится известной реализовавшаяся в момент к неопределенность Z (к) ^ г (к, ж).

Перейдем к динамике задачи Гя. В момент к = 0 ЛПР узнает неопределенность Z(0) ^ г(0,ж) и формирует свою стратегию (0) ^ и(0,ж0,г(0,ж0)). С помощью системы (1) при к = 0 находит

ж(1) = f (0, ж0, и(0, ж0, г(0, ж0)), г(0, ж0)).

В следующий момент к = 1 ЛПР, получив информацию о реализовавшейся чистой неопределенности Z(1)^г(1,ж), формирует свою стратегию Ц(1)^и(1,ж,г(1,ж)) и опять-таки с помощью (1) при к =1 находит

ж(2) = f (1,ж(1),и(1,ж(1),г(1,ж(1))),г(1,ж(1))),

затем процедура с очевидными изменениями повторяется до момента к = К — 1 и в этот момент К уже ЛПР находит на основе (1)

ж(К) = f (К — 1, ж(К — 1), и(К — 1, ж(К — 1), г(К — 1, ж(К — 1))), г((К — 1), ж(К — 1))).

В результате получаем дискретную траекторию

хо, х(1), ...,х(К),

порожденную ей реализацию выбранных ЛПР стратегий

и[0] = и(0,хо,г(0,хо)),и[1] = и(1, х(1), ¿(1, х(1))),..., и[К - 1] = = и(К - 1,х(К - 1),г(К - 1,х(К - 1))),

и реализовавшихся, появившихся независимо от действий ЛПР, последовательности неопределенностей

г [0] = г (0,хо), ¿[1] = г(1,х(1)),..., г [К - 1] = ¿(К - 1,х(К - 1)).

На полученных таким образом трех последовательностях:

{х(к)}К=о, {и[к]}К-о1, {гИ1К-01

определен критерий, оценивающий качество поведения ЛПР (результат от выбранной им стратегии Uz = (Uz(0),..., Uz(К - 1))), который задается функционалом

К-1

3(Uz,^,хо) = Ф(х(К)) + ^ ^(к,х(к),и[к],,ф]), (2)

к=о

первое слагаемое в (2) называется терминальным, а второе — интегральным.

На содержательном уровне цель ЛПР состоит в выборе стратегии Щ € , при которой критерий (2) принимает как можно большее (максимальное) значение; при этом ЛПР учитывает возможность реализации любой чистой неопределенности Z € Z.

Наконец перейдем к построению самой функции риска Сэвиджа-Ниханса [2, 3]. Для этого следует найти

тах 3(Цяхо) = 3(Щхо) = 3хо]

Uz

при любых Z € Z, хо € Кга. Далее, формировать указанную функцию риска по формуле

Я(и, Z, хо) = 3[Z, хо] - 3(и, Z, хо). (3)

Гарантии исхода и риска

При построении гарантий будем следовать подходу, предложенному в недавно опубликованной серии работ [5, 6]. Для этого в задаче приходится использовать так называемые стратегические неопределенности ZU, а сама Г z изменится на

Г и = (2, и, Zu ,3 (Ц^и ,хо )>. (4)

Здесь употребляемая система X также имеет вид (1), но вместо И я используем множество чистых позиционных стратегий в момент к, именно вида Ц(к) ^и(к,ж), множество их есть И (к), а сама позиционная стратегия становится

Ц = (Ц(0),..., Ц(К — 1)) ^ (и(0,ж),..., и(К — 1,ж)),

множество таких чистых стратегий в (4) обозначено через И. Стратегические неопределенности в момент к уже будут Zu(к) ^ г(к,ж,и). Они формируются в предположении дискриминации ЛПР, которое на первом ходу передает для формирования неопределенности Zu(к) в момент к выбранную им стратегию Ц(к) ^ и(к,ж). Сама стратегическая неопределенность Z для случая (4) представляется рядом

Zu = ^ц(0),...^и(к — 1)) ^ (г(0, ж, и(0, ж)),..., г(К — 1,ж,и(К — 1,ж))).

Множество таких стратегических неопределенностей в задаче (4) обозначено через Zu. Далее гарантии исхода и риска строим для Г и из (4), а также для

Ги = (X, И, Zu, — Я(Ц^и,ж0)>, (5)

где X, И, Zu те же, что в (4), а "минус" критерий взят из (3).

Перейдем к динамике задач (4) и (5). В момент к = 0 ЛПР передает выбранную им чистую стратегию Ц(0) ^ и(0,ж) исследователю, формирующему стратегическую неопределенность при к = 0, именно Zu(0) ^г(0, ж, и); тот определяет г(0, ж, и(0, ж)) и подставляет в систему (1), заменяя г(0, ж) на г(0, ж, и(0, ж)), а и(0, ж, г(0, ж)) на и(0, ж). В результате получаем из (1) при к = 0

ж(1) = f (0, ж0, и(0, ж0),г(0, ж0, и(0, ж0))),

аналогично на втором шаге (при к = 2)

ж(2) = f (1,ж(1),и(1,ж(1)),г(1,ж(1),и(1,ж(1)))).

Эта процедура продолжается до к = К — 1 и на последнем шаге получаем

ж(К) = f (К — 1, ж(К — 1),и(К — 1, ж(К — 1)),г(К — 1,ж(К — 1),и(К — 1,ж(К — 1)))).

Получаем три последовательности: векторов состояния {ж(к)}к0, последовательность реализаций выбранных чистых стратегий {и[к] = и(к,ж(к))}К-01 и последовательность стратегических неопределенностей {г[к] = г(к,ж(к),и(к,ж(к)))}К-01.

На них по формуле (2) определяется критерий 3(Ц, Z, ж0) (значение которого называется исходом) и по формуле (3) функция риска по Севиджу-Нихансу (значение которой называют риском).

Тогда гарантия по исходу, с учетом (4), будет

J[U, xo] = min J(U, ZJ, xo), (6)

Zu eZu

а по риску, с учетом (3), будет

- R[U,xo] = min [—R(U,Zj,xo)]. (7)

Zu €Z u

2. Формализация гарантированного решения

Наличие неопределенности в Г доставляет "большой простор" для определения гарантированных решений задачи Г.

Во-первых, применение общеиспользуемых принципов: максимина, минимаксного сожаления, Гурвица, Лапласа и т.д. (см. [1]).

Во-вторых, одновременно с указанными принципами учитывать и собственное значение критерия (2) и тем самым переходить к двух-, трех- и т.д. критериальным задачам.

В настоящей работе будем следовать второму подходу, заключающемуся в добавлении к (2) еще одного критерия — "минус" функции риска Севиджа-Ниханса [2, 3], и поиске максимальной по Парето стратегии в полученной в результате двухкрите-риальной задаче.

При этом основываемся на "трех китах":

1. способе доказательства метода динамического программирования для дискретных систем, предложенном Болтянским В. Г. в книге [4];

2. двух способах построения гарантий из недавно опубликованной серии работ [5, 6];

3. математической теории оптимумов по Парето из книги [7].

Итак, прежде всего перейдем к формализации сильно гарантированного по исходу и риску максимального по Парето решения (СГИРП) задачи Г.

Следуя подходу из [2,3], построим для критерия (2) функцию риска по Севиджу-Нихансу в два этапа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Во-первых, найдем в задаче Г Z стратегию U| G U Z, U| = (U|(0),..., U|(K — 1)), Щ(k) G U z (k), удовлетворяющую условию

max J(Uz,Z,xo) = J[Z,xo] VZ G Z, xo G Rn, Jz eu z

при этом используя класс чистых неопределенностей

K-1

Z = (Z(0),...,Z(K — 1)), Z(k) ^ z(k,x), Z(k) G Z(k), Z = Д Z(k).

k=o

Во-вторых, построим с учетом (3) саму функцию риска по Сэвиджу-Нихансу

Я(Ц, Z, ж0) = 3ж0] — 3(Ц, Z, ж0),

значение которой для каждой пары (Ц, Z) Е И х Z как раз и определяет риск, сопровождающий использование чистой стратегии Ц. Естественно, что ЛПР желает за счет подходящего выбора своей стратегии Ц Е И уменьшить риск Я(Ц, Z, ж0) и одновременно увеличить исход, т.е. значение критерия 3(Ц, Zu,ж0). В результате приходим к двухкритериальной многошаговой позиционной задаче при стратегической неопределенности

(X, И, Zu, {3(Ц^и,ж0), —,ж0)}. (8)

В (8), как ив Г, управляемая ситема X описывается разностным уравнением (1), И — множество чистых позиционных стратегий Ц ^ (и(0, ж),..., и(К — 1, ж)), Zu — множество стратегических позиционных неопределенностей Zu ^ (г(0,ж,и), ...,г(К — 1,ж,и)). Стремление увеличить оба критерия одновременно, благодаря "минусу" перед вторым критерием (функция риска по Сэ-виджу), эквивалентно стремлению увеличить исход (первый критерий 3 (Ц, Zu ,ж0)) и одновременно уменьшить второй (риск) Я(Ц, Zu ,ж0). При этом ЛПР вынуждено ориентироваться на возможность реализации любой неопределенности Zu Е Zu.

Подход, предложенный в [5, 6], позволяет учесть "действия" неопределенности в (8) за счет оценки действия гарантий обоих критериев. Для этого решим две вспомогательные задачи: найти zU Е Zu (1 = 1, 2) такие, что

шт 3(Ц, Zu,ж0) = 3(Ц, zU1),ж0) = 3[Ц,ж0], €2и (2) (9)

ш1п [—Я(Ц^и,ж0)] = — Я(Ц^и2),ж0) = — Д[Ц,ж0]

при V Ц Е И, ж0 Е Ега. Найденные согласно (9) критерии 3[Ц, ж0] и — Я[Ц, ж0] действительно будут гарантиями, ибо из (9) следует

3(Ц^и,ж0) > 3[Ц,ж0], (10)

— Я(Ц^и,ж0) >— Д[Ц,ж0] ( )

при V Ц Е И, ж0 Е Кга, и поэтому имеют место при V Zu Е Zи.

Итак, от задачи (4) перейдем к двухкритериальной многошаговой позиционной "задаче гарантий"

(X, И, {3[Ц,ж0], —Д[Ц,ж0]>, (11)

но уже без неопределенности.

Тогда в качестве решения (СГИРП) задачи (1) предлагается тройка

(ир ,7р ЫЯР [хо]) (12)

такая, что позиционная стратегия ир Е и максимальна по Парето в (11), т.е. при

V хо € Кга и V и € И несовместна система неравенств

7[и, хо] > 7[ир ,хо] = 7р [хо], Д[и, хо] < Д[ир,хо] = Яр[хо],

из которых хотя бы одно строгое.

Замечание 1. Почему же тройка (12) выбрана в качестве гарантированного решения задачи Г?

Во-первых, (12) отвечает на вопрос: "Что делать?" Ответ — использовать указанную выше максимальную по Парето стратегию ир.

Во-вторых, вследствие (10), стратегия ир гарантирует исход 7(ирхо) не меньший гарантированного 7р[хо], а так же риск не больший Яр[хо] при V хо Е Кга, любых неопределенностях и всяких стратегиях и Е И, не совпадающих с ир.

Более того, увеличение исхода (за счет использования и = ир) автоматически приведет к увеличению риска и обратно, уменьшение риска вызовет уменьшение исхода (цель же ЛПР — увеличить исход при одновременном уменьшении риска). Перейдем к строгому определению.

Определение 1. Тройку (ир, 7р[хо],Яр[хо]) назовем сильно гарантированным по исходам и рискам Парето-максимальным решением (СГИРП) задачи Ги, если: 1о. в задаче Г% существует контрстратегия и% Е И%, для которой

тах 7(и%хо) = 7(Ц£хо) = 7хо] (13)

Uz

при ^ Е Z, хо Е Ега;

2о. (далее используем функцию риска по Сэвиджу (3) и исход (2)) в задаче Г % существуют две стратегические неопределенности (/ = 1, 2) такие, что при V и Е И и

V хо Е Ега

min J(U, Z\j, xo) = J(U, zU1),xo) = J[U,xo],

Zu ez и

min [-R(U,Zu,xo)] = -R(U,zU2),xo) = -R[U,xo];

Zfj Zu

30. чистая позиционная стратегия UP E U максимальна по Парето в двухкритери-альной задаче

:i4)

(X, И, {3[Ц,ж0], — Я[Ц,ж0]}> (15)

при V ж0 Е Тогда для Vж0 Е имеем 3Р[ж0] = 3[Цр,ж0], Яр[ж0] = Я(Цр,ж0).

3. Достаточные условия

В этом разделе статьи используем следующие обозначения: Ци(к)(ж, г) — функция Беллмана для исходов, Цз(к)(ж, г) — функция Беллмана для рисков,

Wи(к,ж,г,и,Ци(к+1)^(к, ж, г, и), г)) = ^(к, ж, г, и) + ЦИ(к+1)^(к, ж, г, и), г) (16) для задачи Гя построим

Ци(к)(ж, г) = Wи[k, ж, г] = шax{WИ(k, ж, г, и, ЦИ(к+1)^(к, ж, г, и), г))} =

и (17)

= /&т{и ^ и*(к,ж,г)} Vж Е г Е (к = К — 1,..., 1, 0);

здесь и далее /&т{и ^ и*(к,ж, г)} означает, что в выражении в фигурных скобках заменяется и на и* (к, ж, г), т.е. максимум достигается при и = и*(к,ж,г) Vж Е г Е К5; составим

Я(к,ж,г,и) = ^и[к,ж,г] — Wи (к, ж, г, и, Ци(к+1)^ (к, ж, г, и), г)); (18)

для задачи Гя найдем

Я[к,ж,и] = шах{Я(к, ж, г, и)} = ^ г(2)(к,ж,и)},

X

Wи[k,ж,u] = тт^и(к,ж,г,и,Цр+1)^(к, ж, г, и), г))} = (19)

X

= ^ г(1)(к, ж, и)}.

Здесь опять-таки ^ г(1)(к,ж,и)} означает замену г на гЦ? соответственно

(1 = 1, 2).

Справедливость следующего положения теоретически обоснована утверждением и способом доказательства метода динамического программирования, примененными В. Г. Болтянским в монографии [4].

Утверждение 1. Пусть для задачи Ги существует последовательность функции Беллмана {Ц«(к)(ж, г)}к, определенных на Кп+т и таких, что 10. Цик)(ж,г) = Ф(ж) Vж Е

20. при каждом к = К — 1,..., 0 последовательно существует контрстратегия в момент к, т.е. Ц*(к) ^ и*(к,ж,г), Ц*(к) Е Ия(к), удовлетворяющая (17) при

V х Е Ега, г Е Ет в задаче ГЦ;

3о. с учетом (16) и (18) для задачи Г% при каждом к = К — 1,..., 0 существуют по две стратегические неопределенности (к), (к) — г(1)(к,х,и), (к) Е ZU(к) (/ = 1, 2), для которых имеют место оба тождества (19) при Vx Е Ега, и Е Ет; 4о. в результате для к = 0 получаем две стратегические неопределенности 2 (0 Е Zц, определяющие две гарантии 3(и, 2(1),хо) = 7[и, хо], — Д(и, 2(2),хо) = —Д[и,хо], затем в задаче (1) строим максимальную по Парето чистую стратегию, например, найдя чистую стратегию ир Е И, реализующую максимум

тах{7[и, хо] — Д[и, хо]} = Мзт{и ^ ир}.

Находим гарантии 7р [хо] = 7[ир ,хо], Яр [хо] = Я [ир ,хо].

Тогда при любом выборе начального состояния хо Е Ега СГИРП образует тройка (ир ,7р [хо],Др [хо]).

4. Линейно-квадратичная одношаговая задача при

неопределенности

Предполагаем, что в Г%, управляемая система (1) одношаговая, линейна и имеет

вид

х(1) = Ах(0) + и + г, х(0) = хо, (20)

п-вектора х, и, г Е Кга и момент окончания К = 1, п х п-матрица А постоянна (далее множество таких матриц обозначаем Кгахга). Чистую стратегию и — Рх, их множество Ип = {и — Рх | VP Е Мгахга}, используем также множество контрстратегий И% = {и% — Р1х + Р2г | VPi Е Мгахга (г = 1, 2)}, множество чистых неопределенностей Zra = {2 — ^х | ^ Е Мгахга}, множество стратегических неопределенностей = — ^1х + д2и | VQi Е Егахга (г = 1, 2)}; штрих сверху означает операцию транспонирования.

Тогда Г% превращается в

Г% = (Е - (20), И%, Zn, 7(и%, 2, хо)),

а Г в

ГЦ = (Е - (20), Ип, ZU, 7(и, хо)),

где

7 (и,2ц ,хо) = —х' (1)Сх(1) — и' [1]£и[1] + г' [1]Мг[1]. Причем предполагаем выполненным

Условие 1. Матрицы С, В,М Е Епхп симметричны и квадратичные формы у'Су, у Ву, у'Му определенно положительны (обозначаем этот факт, С > 0, В > 0, М > 0).

Задача: построить СГИРП для ГЦ-.

Утверждение 2. Пусть п х п-матрицы С > 0, М > 0, В > 0. Тогда при любом выборе начального ненулевого фазового вектора ж0 СГИРП будет,

(Цр ,3р Ы,ЯР ) = (0п, 0,0).

Доказательство. В соответствии с утверждением 1 разделим построение СГИРП на четыре этапа. Ищем функции Беллмана в виде квадратичных форм ж ©Дк)ж (г = ,).

1 этап: Используем тождества

ЦД1,ж,г)= ж'©¿(1)ж = —ж'С'ж Vж Е Кп,

откуда

©г(1) = —С (г = ,).

2 этап: для задачи Г^, согласно (16), (17), построим Ц* ^ Р*ж + Р2*г исходя из условия

шах Wи(0, ж, г, и, Ци(1)(Аж + и + г, г)) = шах{—и'Ви + г'Мг—

и и

— (Аж + и + г)'С(Аж + и + г)} = 7^ет{и ^ и*(0,ж,г) = Р*(0)ж + Р2(0)г}. Достаточными условиями здесь будут

—2Ви*(0,ж,г) — 2С (Аж + и(0,ж,г) + г) = 0п, —2(В + С) < 0.

Второе требование выполнено (ибо В> 0 и С> 0), а из первого тождества получаем

и*(0, ж, г) = —В-1С(Аж + г). Тогда, подставляя и = и*(0,ж,г) в WИ(...), приходим к

шах ^и(...) = —(Аж + г)' М(Аж + г) + г' Мг,

и

где симметричная постоянная п х п матрица

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

М = С (В + С )-1В(В-1 + С-1)В(В + С )-1С > 0. (21)

Используя (18), имеем

Р(0, ж, и, г) = — (Аж + г)'М(Аж + г) + г'Мг + и'Ви — г'Мг+

+ (Аж + г + и) С (Аж + г + и) = и' (В + С )и+ (22)

+(Аж + г)' (С — М)(Аж + г) + 2и' С (Аж + г).

3 этап: для задачи ГЦ построим гарантии по рискам и исходам. Используя при этом (19), для гарантии по риску имеем

шах{Д(0, ж, и, г)} = {г ^ г*(0, ж, и)}.

X

Но это соотношение имеет место, если при Vж,u Е Кп будет

дД(0дХ'и'х) |х*(0,*,и) = —2М[Аж + г(0,ж,и)] + 2С(Аж + и + г(0,ж,и)) = 0, д2д^'и'х) = —2(С — М) < 0. (23)

Из (23) также

Аж + и + г*(0, ж, и) = С-1 М(Аж + г*(0,ж,и)), и тогда для (22) получаем Д(0, ж, и, г*(0, ж, и)) = и'Ви + (Аж + г*(0,ж,и))'М(М-1 — С-1)М(Аж + г*(0,ж,и)). Поэтому с учетом эквиваленции

[0 < С < М] ^ [0 < М-1 < С-1]

приходим к

г*(0, ж, и) = —Аж

и тогда

шах Д(0,ж,и,г) = Д[0,ж,и] = и Ви. (24)

X

Перейдем к гарантии по исходам шт{—и Ви + г Мг — (Аж + и + г) С (Аж + и + г)} = ^ г0(0, ж, и)}.

X

Тождество имеет место, если

2Мг0 (0, ж, и) — 2С (Аж + и + г0 (0, ж0, и)) = 0 [2(М — С) > 0] ^ [М > С], из первого тождества также имеем

Аж + и + г(0, ж, и) = С -1Мг(0, ж, и).

Следовательно,

Wи(0,ж,zо(0,ж,n),u,Ци(1)(Aж + г0(0, ж, и) + и)) = Wи [0,ж,и] = = —и' Ви + [г0 (0, ж, и)]' Мг0(0, ж, и) — г0(0, ж, и)МС-1Мг0(0, ж, и) = (25) = —и' Ви + г0(0, ж, и)М (М-1 — С-1)Мг0(0, ж, и).

4 этап: из (24) и (25) сразу следует, что в задаче (11) максимальной по Парето является чистая стратегия Цр ^ 0п.

Исследования выполнены в рамках проекта кафедры оптимального управления МГУ им. М. В. Ломоносова: «Методы решения динамических задач управления, оптимизации и идентификации».

Описок литературы

1. Мушек, Э. Методы принятия технических решений / Э. Мушек, П. Миллер. — М.: Мир, 1990. — 208 с.

MUSCHICK, E., MULLER, P. (1990) Methods of technical decisions. Moscow: Mir.

2. SAVAGE, L. Y. (1954) The Foundation of Statistics. New York: Wiley.

3. NICHANS, J. (1951) Zur Preisbuldung bei undewissen Erwartungen. Schweizerische Zeitschrift Assotiation. Vol.46 (No 253). p. 55-67.

4. Болтянский, В. Г. Оптимальное управление дискретными системами / В. Г. Болтянский. — М.: Наука, 1973. — 488 с.

BOLTYANSKII, V. G. (1973) Optimal control of discrete systems. Moscow: Nauka.

5. Жуковский, В. И. Уравновешивание конфликтов при неопределенности. I. Аналог седло-вой точки // Математические основы теории игр и приложения / В. И. Жуковский, К. Н. Кудрявцев. — 2013. — Т. 5. — № 1. — C. 27-44.

ZHYKOVSKY, V. I., KUDRYAVTSEV, K. N. (2013) Balancing conflicts uncertainty. I. An analogue of the saddle point. Mathematical foundations of the theory of games and applications. 5 (1). p. 27-44.

6. Жуковский, В. И. Уравновешивание конфликтов при неопределенности. II. Аналог максимина / В. И. Жуковский, К. Н. Кудрявцев // Математические основы теории игр и приложения. — 2013. — Т. 5. — № 2. — C. 3-45.

ZHYKOVSKY, V. I., KUDRYAVTSEV, K. N. (2013) Balancing conflicts uncertainty. II. The analogue maximin. Mathematical foundations of the theory of games and applications. 5 (2). p. 3-45.

7. Подиновский, В. В. Парето-оптимальные решения многокритериальных задач / В. В. Подиновский, В. Д. Ногин. — М.: Наука, 1982. — 256 c.

PODINOVSKII, V. V., NOGIN, V. D. (1982) Pareto-optimal solutions for multiobjective problems. Moscow: Nauka.

i Надоели баннеры? Вы всегда можете отключить рекламу.