Научная статья на тему 'Об инвариантности функции потерь для пороговой стратегии поведения в случайной среде'

Об инвариантности функции потерь для пороговой стратегии поведения в случайной среде Текст научной статьи по специальности «Математика»

CC BY
92
39
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В., Шелонина Т. Н.

Для пороговой стратегии поведения в случайной среде установлено свойство инвариантности функции потерь, выполняющееся при достаточно большом времени моделирования. Это свойство позволяет значительно увеличить эффективность отыскания оптимальных параметров стратегии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об инвариантности функции потерь для пороговой стратегии поведения в случайной среде»

УДК 519. 865

А.В.Колногоров, Т.Н.Шелонина

ОБ ИНВАРИАНТНОСТИ ФУНКЦИИ ПОТЕРЬ ДЛЯ ПОРОГОВОЙ СТРАТЕГИИ ПОВЕДЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ

Новгородский государственный университет им. Ярослава Мудрого

Invariance property of the loss function is established for the threshold strategy of behaviour in random medium for sufficiently large time of modelling. This property allows considerably enlarge the effectiveness of determining the optimal parameters of the strategy.

Под случайной средой будем понимать управляемый случайный процесс ^, t = 1,...,Т, принимающий значения 1, 0, интерпретируемые как доходы и зависящие только от выбираемых в текущие моменты времени вариантов, т.е.

= 1| у = 1} = Рг, Р{^ = 0|у = 1} = %,

Рг + % =1 1 = 1,..К.

Цель управления состоит в минимизации гарантированной величины математического ожидания потерь полного дохода (более подробно цель обсуждается в [1-4]), однако особенностью рассматриваемой постановки является то, что все вероятности р1,...,рК неизвестны. Для реализации этой цели предлагается использовать пороговую стратегию, осуществляющую последовательное отбрасывание «худших» вариантов, т. е. тех, которым соответствуют меньшие значения вероятностей р1,...,рК .

Рассмотрим сначала процедуру отбрасывания одного «худшего» варианта, действующую на отрезке времени длины N. Пусть имеется М вариантов (1 < М < К) с номерами /1,..., 1М и соответствующими им начальными доходами Sll,...,Б1м . Будем применять варианты циклически, т.е. у(0 = 1г при t = Мт + /, накапливая соответствующие полные доходы

п—1 п—1

Sг1 (п) = Sг1 + ^ ^Мт+1,..., SгM (п) = SгM + ^ ^мт+м

т=0 т=0

до тех пор, пока не закончится время моделирования или для некоторого По не выполнится неравенство

тахSl (п0) — тшSl (п0) > аМ > 0.

/ 1 ! 1

Здесь ^Мт+/ — отклики среды на применение I -го варианта. Если время моделирования не истекло, то вариант с номером , где

/0 = ащшт Sli (п,),

/

считается «худшим» с точки зрения ожидаемого дохода и отбрасывается. Ясно, однако, что при М = 1 отбрасывания не произойдет, и единственный вариант будет применяться до конца моделирования.

Определим теперь рекуррентную процедуру последовательного отбрасывания «худших» в группе из Мвариантов (1 < М< К) с номерами 11,..., 1М и соответствующими им начальными доходами

Б{ на отрезке времени длины N. Она состоит

в том, что сначала применяется процедура отбрасывания одного «худшего» варианта. Если при этом время моделирования не истекло, и был отброшен вариант с номером ііо , то на оставшемся отрезке

времени длины N - Мп0 процедура последовательного отбрасывания «худших» вариантов применяется к группе из оставшихся М - 1 вариантов с соответствующими им начальными доходами (п0), і =

І^...,M, і ф іо .

Рассматриваемая ниже пороговая стратегия поведения состоит в применении процедуры последовательного отбрасывания «худших» вариантов к исходным К вариантам на отрезке времени длины Т с начальными доходами, равными S1,...,8К . Отметим, что пороговая стратегия не изменится, если все значения начальных доходов изменить на одну и ту же величину. Нам в дальнейшем будет удобно считать, что она зависит от разностей Хі = S1 - S1, і = 2,...,К .

Перейдем к определению функции потерь. Отметим, что математическое ожидание за применение варианта с номером I равно 1 • рг + 0 • ql = рі. Если бы

вся информация о среде была известна, то для получения максимального математического ожидания дохода, равного Т тах р1, следовало бы всегда применять вариант, соответствующий наибольшему значению рі. Если же параметры среды неизвестны, то реальный средний доход за применение пороговой

Т

стратегии равен IЕ (4, I а2,.-, аК ; р1,..., рК ';^2,...,^К ) ,

г=1

где через Е обозначено математическое ожидание, а У2,...,УК — это начальные значений разностей Х2,...,ХК . Соответствующая функция потерь

ЬТ (a2,..., аК ; p1,..., рК і^..^ -К ) =

Т

= Ттахрг -1 Е(4г1 а2^.^аК;Pl,...,рк^;Y2,...,■-к). г=1

Свойство инвариантности состоит в следующем. Положим Б = р1(1 - р1), где 0 < р1 < 1, и далее

рі = р1 - рі, где Ьі =Рі(Б /Т )^2, Рі > о, і = 2,.,К. Значение Т считаем достаточно большим, чтобы выполнялись все неравенства р1 - Ьі > 0, і = 2,.,К. По-

ложим также Yj = yt(DT)12, а1 = al (DT)12 , al > 0, l = 2,.. ,,K. Тогда выполняется предельное равенство

, aK ; Pi,..., pK ; Y2 ,..., YK ) =

Обозначая через r12(t) и K21(t) плотности вероятностей Ru(t) и R2i(t):

lim (DT)-1/2LT (a2,

T

= Да2 аК ;Р2,■■■, РК ;У2 УК) С1)

Проверим справедливость этого свойства при К = 2 и К = 3, При К = 2 разность Х2 = 5 - 52 описывает случайное блуждание с величиной шага АХ2, характеризуемой распределением

г12(т) =

df (Т, а2)

dx2

Г21(т) =

df (Т,~а2)

дг2

получим, что равенство (1) выполнено при

1/2

ДХ2 0 -1 1

p, pi pi + qq qi pi pq

Обозначим через p(t, Х2) вероятность того, что эта разность имеет значение Х2 в момент времени t. Тогда выполнено равенство

p(t + 1, X 2) = Р (t, X 2 X p1 p2 + q1ql) +

+Р(^X2 + 1)q1 p2 + P(t,X2 - 1)p1q2.

Далее полагаем Дх = (DT)-12 ,

Дх = T , х2 = Х2Дх, т = tAx.

Как и в [5], предположим, что

Дх~1р(^ Х2) при T—— да слабо сходится к плотности вероятности f (т,x2), которая, следовательно, должна приближенно удовлетворять разностному уравнению

f (т + Ат, х2) = f (т, x2)(p1p2 + qlq2) +

+f (т, x2 + + f (т, x2 - Дх)pmi-

Разлагая левую и правую части в ряд Тэйлора до членов первого и второго порядка соответственно, с

учетом условия p2 = px - p2(D / t )12, получим, что f (т, x2) должна удовлетворять дифференциальному уравнению Фоккера — Планка

L=-в L+52L

дт 2 dx2 dx2

при ||x2| <a2, 0 < т < 1/2, с начальным условием

f (0, x2) = 5(x2 - у2) и граничными условиями

f (т, a2) = f (т,-а2) = 0 при 0 < т < 1/2 . Из этого

следует, что плотность f(т, x2) зависит лишь от величин а2, Р2, у2. Функция потерь в этом случае

[T /2]

LT (a2;p1,p2Y2) ~ ^^(-R12(t)a2 + R21(t){ a2 + ^2(T - 2t)}) +

Да2; Р2; У2) = |(12(т)а2 + Г21 (т){-а2 + 02(1 - 2т}) +

0

а2

+ | х2/(1/2,

-а2

Рассмотрим случай К = 3, На этапе отбрасывания первого «худшего» варианта разности Х2 = 51 - 52, Х3 = 5 - 53 описывают двумерное случайное блуждание с величинами шагов ДХ2, АХ3, характеризуемыми распределением

ДХ2, ДХ3 0,0 0,1 0,-1 1,0 -1,0 -1,-1 1,1

p, pi pi p? + qiqiq? ppq? q\q2Pз р^2рз qi P2qз q\P2Pз piqiq3

Обозначим через Р (/, Х2, Х3) вероятность того, что эти разности имеют значение Х2, Х3 в момент времени /\ Тогда выполнено равенство

Р(/ + 1X2,X3) = Р(/,X2 ,X3)(р1Р2Рз + Ч1Ч2Чз) +

+ P(t, Х2 ,Х3 - 1)р1 р2Чз + Р(t,Х2, Х3 + 1)ч1ч2р3 +

+Р(t,Х2 - 1,Х3)Р1Ч2Р3 + РХ2 + 1Х3)Ч1Р2Ч3 + +P(t, Х2 + 1Х3 + 1)ч1 Р2Р3 + P(t, Х2 - 1, Х3 - 1)Р1Ч2^

Как и ранее, полагаем х2 = Х2Дх , х3 = Х3Ах , т = /Ат.

-2

Предполагая, что Ах Р(/,Х2,Х3) при Т^-да слабо сходится к плотности вероятности /(т, х2, х3), получаем, что она должна приближенно удовлетворять разностному уравнению

/ (т + Ат, х 2 , х 3 ) = / (т, х 2 , х 3)( Р1Р 2 Р3 + Ч1Ч2 Ч3) +

+ /(т, х2 , х3 -Ах)р1 р2Ч3 + /(т, х2, х3 + Ах)Ч1Ч2Р3 +

+ У (т х2 - Ах, х3)ЛЧ2Р3 + У (т х2 + ^ х3)Ч1Р2Ч3 +

+У(т,х2 + Ах,х3 + Ах)Ч1 р2р3 + У<Лх2 - ^х3 - Ах)р1Ч2Ч3^

Разлагая левую и правую части в ряд Тэйлора до членов первого и второго порядка соответственно, с учетом

условия р2 = р1 -Р2(-0/Т)12, р3 = р1 -Р3(-0/Т)12, получим, что /(т, х2, х3) должна удовлетворять двумерному дифференциальному уравнению Фоккера — Планка

дт

' dx2

dx3

52f , 57

dx?

t=0

dx2dx3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

a2

+ ^ Р([Т/2], Х 2) Х 2,

Х^ 2 =— Й2

где знак приближенного равенства обусловлен возможным однократным применением первого варианта в случае нечетного Т, а Р12(/) и Р21(/) — это вероятности достижения порогов, так что положительными являются соответственно 51 - 52 и 52 - 51 ■

х2 дх3 дх2 ^л-^л-3 их3

в области О = {(х2,х3): \х2\ < а3, |х^ < а3, |х2 - х^ < а3} при 0 < т < 1/3, с начальным условием /(0, х2, х3) = = 5(х2 - у2 )5(х3 - у3) и граничными условиями /(т,х2,х3) = 0 при 0 <т < 1/3 на границах области, Область О изображена на рисунке, при этом каждая из границ Оу- соответствует тому, что соответствующая

разность 5- - 5- достигает порога и имеет положительное значение.

Если граница области достигается при т < 1/3, то далее применяется процедура отбрасывания второго «худшего» варианта Обозначая через К- (/, Хк) вероятность достижения в момент времени / порога разностью 5 - Б- , причем разность 51 - Бк равна Хк (в приведенных координатах х2 , х3 этому событию соответствует достижение границы О- в точке с координатой хк ), получим

[Т/3]

,а3; р,, р2, р3;/2,/3) и У (Е 1 2 (/) +

Ьт (а2, а3; р1, р2, рзЛЛ) « (^12(/) "

/=о

+^21 (/) + ^13 (/) + 2зі (/) + ^23 (/) +^32 (/)) + , (2)

где

^12(0 « X Я12(/,Х 3)(а3 + Х 3 + !Т-3/ (а2; р1, р3; Х 3)) ,

°12

^21 (О «X*21 (*,Х3)(-«3 + X3 + Ъ2(Т - 3/) +

°21

+!Т-3/ (а2 ; р2 , р3; а3 + Х3 )) , ^13(0 « X *13(/,Х 2 )(а3 + Х 2 + !Т-3/ (а2; р1, р2; Х 2 )) ,

«13

Е31(/) «X*31(/,X2)(-а3 + X2 + Ъ2(Т-3/) +

+!Т-3/(а2; р2 , р3; а3 Х2 )),

^23(/) « R23(t, Х2)(Х2 + (Х2 + а3) +

+!Т-3/ (а2 ; р1, р2 ;Х2 )) , ^32(/) « R32(t, Х 3)(( Х 3 + а3) + Х 3 +

+!Т-3/(а2; р1, р3;Х3)) :

«XР([Т/3],X2,X3)(X2 + X3)

здесь знаки приближенного равенства обусловлены тем, что в случае, если пороги не будут достигнуты, то не все варианты могут примениться одинаковое число

раз. Без ограничения общности будем считать, что Ъ2 < Ъ3. Из равенства (1) следует, что при Х(х) = (1 - 3т)

1/2

!Т-3/(«2І Ръ Рі ;¥к )'■

>( ПТ )1/2 X (т) Ь(к-1( т)а 2, Х(Т)Р і, X-1( т) у^ ),

(3)

!Т-3/(а2;р2,р3;^£) «

« (ПТ)1/2X(т)Ь(Х-1(т)а2(т),Х(т)(р3 - Р2),X-1(т)ук).

Обозначая через г. плотности вероятностей поглощения Я..:

г12(т, Х3) = х2) = г23(т, Х2) =

д/ (т, а 3, Х3)

^2 д/ (т, х2, а3)

йх3

д/ (т, х2, а3 + х2)

дг3

г21 (т Х3) = г31(т, Х2) = Х3) =

д/ (т,-а3, Х3)

дх2

д/ (т, Х2,-а3)

дх3

д/ (т, х3 + а3, х3)

дх3

получим, с учетом (2) и (3), что для

ЬТ (а2, а3; р1, р2, р3;72,73) справедлива оценка (1) при

Ь(а2, а3;в 2, Р3; У 2, Ї3) =

1/3

= |(^12(т) + ^21 (т) + /В(т) +131 (т) +123 (т) +132 (т))) + ),

где

І12 (т) = | г12 (т, Х3 )(а3 + Х3 +

+ Х(т)ЦХ х(т)а2; Х(т)Р3;X х(т)х3))йХ3,

121 (т) = I" г21 (т, Х3)(-а 3 + Х3 + X2 (т)Р 2 +

«2!

+ X(т)!^-1(т)а2; X(т)(P3 - р2);X-1(т)(а3 + х3)))іх3, 713(т) = | г13(т, Х2)(а3 + Х2 +

«13

+ X(т)L(X-1(т)а2; X(т)P2; X-1(т) x2))dx2,

731(т) = | г31(т Х2)(-а 3 + Х2 + X 2(т)Р2 +

«31

+ X(т)L(X-х(т)а2; X(т)(Pз - р2);X-1(т)(-а3 - х2)))гіХ2,

723(т) = | г23(т? Х2)( Х2 + (Х2 + а3) +

«23

+ X(т)L(X-1(т)а2; X(т)P2; X-1(т) x2))dx2,

132 (т) = | г32 (т, Х3 )((Х3 + а 3) + Х3 +

+ X(т)L(X х(т)а2; X(т)P3;X х(т)x3))dx3,

Л (Х2 + Х3)/(1/3, Х2, Х3^Х2^3.

!о =

В заключение отметим, что свойство инвариантности позволяет значительно повысить эффективность вычисления оптимальных пороговых коэффициентов а/, I = 2,...,К Действительно, если уже про-табулировано множество значений

12

О

31

в

23

32

а

32

и

Да2, — , аК -1; 72, — , У К-1) ,

то при вычислении значений

Ь(а 2 ,,,,, а К ; в2 ,,,,, Р К ; У 2 ,,,,, У К )

соответствующие расчеты или моделирование методом Монте-Карло достаточно вести до первого отбрасывания «худшего» варианта, после чего математическое ожидание потерь на оставшемся отрезке времени можно определить, зная величины Y2,,,,,YK , значения порогов и продолжительность оставшегося времени моделирования.

Пороговая стратегия в силу своей простоты и эффективности может найти практическое применение, при этом определение оптимальных значений порогов является актуальной задачей В случае К > 3

уже нет возможности получения достаточно точных аналитических оценок этих значений, поэтому требуется применение эффективных численных методов. Свойство инвариантности может лежать в их основе.

1. Vogel W. // Ann. Math. Statist. 1960. V.31. P.444-451.

2. Колногоров А.В. // Автоматика и телемеханика. 1991. № 5. C.183-186.

3. Шелонина Т.Н. // Вестник НовГУ. Сер.: Математика и информатика. 2002. № 22. С.40-42.

4. Шелонина Т.Н. // Вестник НовГУ. Сер.: Техн. науки. 2005. № 30. С.84-87.

5. Феллер В. Введение в теорию вероятностей и ее приложения: В 2 т. М.: Мир, 1984. Т.1. 527 с.; т.2. 751 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.