Научная статья на тему 'Нахождение минимаксных стратегий и риска в трехальтернативной случайной среде'

Нахождение минимаксных стратегий и риска в трехальтернативной случайной среде Текст научной статьи по специальности «Математика»

CC BY
131
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОВЕДЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О МНОГОРУКОМ БАНДИТЕ / МИНИМАКСНЫЙ И БАЙЕСОВСКИЙ ПОДХОДЫ / ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА / BEHAVIOR IN RANDOM ENVIRONMENT / MULTI-ARMED BANDIT PROBLEM / MINIMAX AND BAYESIAN APPROACHES / PARALLEL PROCESSING

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В.

Минимаксные стратегия и риск в трехальтернативной стационарной случайной среде ищутся как байесовские, соответствующие наихудшему априорному распределению, которое в рассматриваемом случае может быть выбрано симметрическим и асимптотически однородным. Это позволяет определить стратегию и риск численными методами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нахождение минимаксных стратегий и риска в трехальтернативной случайной среде»

УДК 519.865

НАХОЖДЕНИЕ МИНИМАКСНЫХ СТРАТЕГИЙ И РИСКА В ТРЕХАЛЬТЕРНАТИВНОЙ СЛУЧАЙНОЙ СРЕДЕ

А.В.Колногоров

Институт электронных и информационных систем НовГУ, [email protected]

Минимаксные стратегия и риск в трехальтернативной стационарной случайной среде ищутся как байесовские, соответствующие наихудшему априорному распределению, которое в рассматриваемом случае может быть выбрано симметрическим и асимптотически однородным. Это позволяет определить стратегию и риск численными методами.

Ключевые слова: поведение в случайной среде, задача о многоруком бандите, минимаксный и байесовский подходы, параллельная обработка

Minimax strategy and risk in a three-alternative stationary random environment are found as Bayesian ones corresponding to the worst prior distribution. In considered case, this distribution can be chosen to be symmetric and asymptotically uniform. This lets one use numerical methods to determine the strategy and define the risk.

Keywords: behavior in random environment, multi-armed bandit problem, minimax and bayesian approaches, parallel processing

Введение

Рассматривается задача, известная как задача адаптивного управления в случайной среде [1] и как задача о двуруком (многоруком) бандите [2] в следующей постановке, обобщающей результаты [3,4] на случай трехальтернативных случайных сред. Пусть 4п , п = 1,...,N есть управляемый случайный процесс,

значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени вариантов пп и имеют нормальные распределения с плотностями

f (х | т) = (2п) 1/2 ехр(- (х - т^ )2 /2), если пп = ^ (^ = 1,2,3). Такая среда описывается векторным параметром 0 = (т1, т2, т3). Цель управления

состоит в максимизации полного ожидаемого дохода. Для этого используется стратегия с, которая на первых трех шагах применяет все три варианта по очереди, а при п > 3 является измеримой функцией текущей предыстории процесса, т. е. полученных откли-

п-1 г

ков х = х^..., Хп-1 на выбранные варианты

уп 1 = у1,...,уп-1. Множество стратегий обозначим Е .

Если параметр 0 известен, то следует всегда применять вариант, которому соответствует большая из величин т1, т2, т3, и полный ожидаемый доход

* *

равен в этом случае Nm , где т = т1 Vт2 Vт3. Если же параметр неизвестен, то функция

( N

Ln (0,0) = Eo

V п=1 У

характеризует потери дохода вследствие неполноты информации. Здесь Ес0 обозначает математическое

ожидание по мере, порожденной стратегией с и параметром 0 . Множество допустимых значений параметра имеет вид

© = {(т1,т2,т3):тах|т{ -т}-|<2с1,|т1 + т2 + т3|<3с2},

где с1,с2 . Условие с1 требуется для ограни-

ченности функции потерь на © . Условие с2 <да нужно для того, чтобы © было компактным множеством, однако предполагается, что с2 достаточно велико.

При минимаксном подходе максимальные потери на множестве параметров © минимизируется по множеству стратегий Е , величина

Rn (©) = infsupLn (0,0)

(1)

называется минимаксным риском, а обеспечивающая ее значение стратегия (если она существует) — минимаксной стратегией. Другим известным подходом к задаче является байесовский. Обозначим через Л априорное распределение параметра на множестве ©. Величина

RB (Л) = inf JLn (о,0)Л(й?0) (2)

©

называется байесовским риском, а соответствующая стратегия — байесовской. Объединяет два подхода основная теорема теории игр, согласно которой минимаксный риск (1) совпадает с байесовским риском (2) на наихудшем априорном распределении, соответствующем максимуму байесовского риска, а минимаксная стратегия совпадает с соответствующей байесовской.

Справедливость основной теоремы теории игр для двухальтернативных случайных сред установлена в [3]; этот результат легко обобщается на рассматриваемый случай. Нахождению минимаксных стратегии и риска как байесовских, соответствующих наихудшему априорному распределению, и посвящена данная работа.

Свойства асимптотически наихудшего априорного распределения

Для вычисления байесовского риска можно написать рекуррентные уравнения. Обозначим {a}: = (aj,a2,a3), {a,b} := (aj,b1,a2 ,b2 ,a3b3),

{a} _t := (a1,a2,a3)\af, {a,b}_f := (aj,bj,a2,b2,a3b3)\(af ,bf).

= (2лО) 12ехр(

Обозначим через fD (х | М) =

)(- (х - М )2/^)) плотность нормального распределения с математическим ожиданием М и дисперсией D , через Х{т} = Х(т^т2,т3) —

плотность априорного распределения на множестве параметров ©. Пусть предыстория процесса к моменту времени п описывается набором

{Х,п} = (Х^п^Х2,п2,Х3,п3), где п1,п2,п3 — полные количества применений всех вариантов, причем

п1 + п2 + п3 = п , а Х1,X2,Х3 — полные доходы за

все варианты. Будем считать, что X, = 0 при п , = 0 .

Плотность апостериорного распределения определяется как

( 3 А

Х({т}|{Х, п}) = -

П 4(Хі 1 п т і)

1=1

Цт}

ж

\

П 4 (X е | п,т,) IX{m}dm1dm2dm3

© V ,=1 у

Если положить /п (х | пт) = 1 при п = 0, то эта формула останется справедливой и в том случае, если некоторые или все п1, п2, п3 будут равны нулю.

Обозначим через ^-п ^;{Х, п}), п = п1 + п2 + п3, байесовский риск на последних N - п шагах, вычисленный относительно апостериорного распределения с плотностью Х({т}|{X,п}). Тогда

К-п (•) = тш^- п (•), 42-п (•), ^м-п (•)) (3)

где R(N)- п (•) = R^N)-n (•) = R^N-n (•) = 0 при п = N и при

3 < п < N;

R (1) -п

(Х;{Х, п}) = Ш (т

©

+е^ к^п-ДМх, п}-і ,(Х + х, п +1)і) )х

хХ({т}|{Х,n})dm1dm2dm3, (4)

ОТ

Е{РR(х) = |R(х)/(х| т ! )dх , ,= 1,2,3.

Здесь RiN-n (•) — ожидаемые потери на оставшемся

отрезке времени, если сначала выбирается ,-й вариант, а затем управление ведется оптимально (, =1,2,3). Байесовская стратегия предписывает выбирать вариант, которому соответствует меньшее из значений R(^N-п (•),R'N-)n (•),RN3-n (•), при их равенстве

выбор может быть произвольным.

Сделаем дополнительные обозначения. Определим {а}у = {а1} условиями: а', = а, при , ФI , , Ф у ,

а\ = а ■, а' ■ = а■. Аналогично {а,Ь}.. = {а',Ь'} определим условиями: а', = а,, Ь', = Ь , при , ф/', , Ф у, а\ = а ■, а' ■ = а;, Ь'• = Ь ■, Ь' ■ = Ь■. При любом постоянном т0 положим {а+т0} = {а'}, где а', = а, + т0 , , = 1,2,3 , {а+т0Ь} = {с}, где с, = а, + т0Ь,, , = 1,2,3 .

Справедливы две леммы, доказательства которых проводятся аналогично доказательствам соответствующих лемм в [3,4].

Лемма 1. Следующие преобразования X априорной плотности распределения X не меняют байесовский риск, т. е. RN (X) = RN (X):

1) Х(1){т} = Х{т}у (для всех {т} и всех /' Ф у ),

Л (2)

2) X {т} = Х{т + т0} (для всех {т} и любого фиксированного т0).

Лемма 2. Байесовский риск является вогнутой функцией априорного распределения, т. е. для любых плотностей , 12 и положительных чисел а1, а2, таких что а1 + а2 =1, справедливо неравенство

RN (а!!! + а212) > а^ (X!) + а2 RN ^2).

Далее удобно изменить параметризацию. Положим т , = и + V,, , = 1,2,3 , причем v1 + v2 + v3 = 0, тогда

0 = (и + у1,и + v2,u + v3), © = {и :|и |<с2 ,(v1 ,v2 ,v3) е©у } ,

© у = {(у1, V,;, v3):mаx| vi - v]■ |< 2с1, v1 + v2 + v3 = 0}. С

учетом якобиана преобразования априорная плотность равна v(u,{v}) = 3X{u + у}, где только две компоненты {у}, например у1 ,у2 , являются независимыми, а у3 =-у1 - у2 . В силу леммы 1 не меняют значе-

ния

12 байесовского

риска

плотности

\’(1)у (м,{у}) = v(u,{v}y.), у(2) (u,{v}) = у(и + т0 ,{v}).

Эти свойства позволяют описать наихудшее распределение.

Обозначим через р некоторую перестановку чисел (1,2,3), через {V} - соответствующую пере-

становку компонент параметра. Покажем, что наихудшее распределение может быть выбрано симметрическим, т.е. у(и,^}) = v(u,{v}j) при всех {V} и

і Ф . . Если это не так, то положим

v(1)(u,{v}) = 1 ^v(u,{v}p) .

р

Ясно, что v(1)(u,{v}) — симметрическая плотность. Поскольку всякая перестановка является результатом попарных перестановок компонент параметра, то в силу

леммы 1 RN (v(u,{v} ) = RN (v(u,{v}) при всех р. Из

леммы 2 следует, что ^(1) (и,^}) > К1^ (v(u,{v}), т.е.

v(1)(u,{v}) может быть выбрана в качестве наихудшей.

Аналогично, если v(u,{v}) является наихудшей, то v(2)(u,{v}) = (v(u,{v}) + v(u + т0 ,{v}))/ 2 не

уменьшает байесовский риск, но является более однородной по и .

Теорема 1. Не уменьшающая байесовский риск плотность распределения при а ^ да может быть выбрана в виде

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

V а (и,{у}) = К а (и )р{у}, (5)

где ка(и) — постоянная плотность на отрезке | и |< а , а р{у} — симметрическая плотность (т.е. Р{у}у = Р{у} при всех Т Ф у ) на множестве {у}е©у .

Пусть стратегия на первых трех шагах за применение вариантов по очереди получает отклики

Км-п{X,п} = Л(V* -V,)g({X,n},{v})p{v}dvldv2 +

©.

+ (пі +1) | RN-n-1({X, п}-і ^ і + 2 пі + 1)і)Кп, (2 )й2 (9)

при п1 + п2 + п3 < N . Здесь

х1,х2,х3. Обозначим х = х1 + х2 + х3, х. = хі -х., і Ф . . g({X,п},{\>}) =

Рассмотрим плотность

Д(и,М |{х}) = fl/з(u | х )р(М | {х})

. g({х},{v})р{v}

где р({v}|{х}) = -

г{х}

(6)

Я ({х},М) =

<ехр'

2п(п1п2п3 (п1 + п2 + п3) )1/2 ^ п1п2(х12-^2)2 +п2п3(х^3-V23)2 +п3п1 (х31 -v31)2 ^

2(п1 +п2 +п3)

= 1 _Г (х12 V12) +(х23 ^3) +(х31 V31)

= ,1/2- еХр

Ф і. Как

31/22п 6

г{х} = Ц Я ({х},{v})р{v}dvldv2 , V. = vl-v], і Ф . .

©V

и в [3,4], может быть установлена следующая теорема.

Теорема 2. Пусть vа (u,{v}) выбрана из условия (5), а стратегия на первых трех шагах применяет варианты по очереди. Тогда

Ііт кВ ^ а (и,М | {х})) = 3ЦрМ) +

а^да

да да

где

+ | |кВ-3 (^(и,М | {х}))r{х}dхl2dХ2з , (7)

да да

ДрМ) = Л (V* -v1)р{v}dv1dv2 . Плотность рас-

пределения ц(и,{у}|{х}) выбрана из условия (6). Риски R^B-3(ц(u,{v}|{х})) не зависят от х.

Уравнения для вычисления байесовского риска относительно наихудшего априорного распределения

Приведем уравнения для вычисления байесовского риска по формуле (7). Они получаются из уравнений (3), (4), если формально считать априорную плотность постоянной по и . Кроме того, уравнения получаются проще для рисков RN-n{X,п} = R^B-n{X,п}р{X,п}, где п = п1 + п2 + п3,

Г 3 Л

p{x, п}=Ж IП 4(x ,1 п,т,)

© V ,=1 У

причем, как и раньше, считаем, что /п (х | пт) = 1, если п = 0. Обозначим RN-n {X,п} = RN-п {X,п}, где

X, = X,/п,.

Теорема 3. Пусть Vа (и,{у}) выбрана из условия (5) и а^да . Тогда

RB-n{X,п} = тп^^^,п}Д£1{X,n},RN3)n{X,п}) (8) где ^-п {х,п} = ^N-1 {X, п} = Я^-п {X, п} = 0 при п1 + п2 + п3 = N ,

X{m}dm1 dm2 dm3,

(п+1 )1 '2лп '

ехр

(10)

(11)

При любом фиксированном т0 риски удовлетворяют равенствам RN-n {X',п} = RN-п {X,п} , где

^ '=Xi + т0.

Байесовский риск (8) вычисляется по формуле

lim RN (V а (и,{у} | {х})) = 3Цр{у}) +

а^да

да да

+ ^ ^RN-З((хl2,1),(0,1),(х23,1))dхl2dх23 . (12)

-да -да

Предположим теперь, что плотность р{у} является вырожденной и сосредоточена в трех точках

(2у,-у,-у), (-у,2у,-у), (-у,-у,2у) с вероятностями

1/3. Тогда Цр{у}) = 2у и

(V* -V,)Я({X,п},{у})р{у^у^2 = УЯ(,)({X,п},{у}),

Я

где

g(1)({X, п},{у})=я(^, п},(-у,2у,-у))+я(^ ,п},(-у,-у,2у)),

Я^'2\{X ,п},{у})=я(^ ,п},(-у,-у,2у))+g({X ,п},(2у,-у,-у)),

Я(3)({* ,п},{у})=я({X,п},(2у,-у,-у))+Я(^,п},(-у,2у,-у)).

Наихудшее априорное распределение соответствует максимуму приведенного байесовского риска

N 1/2RN (•). Поскольку объем вычислений достаточно большой, они были проделаны при N = 8 (см. рис.). Как видим, максимум N 1/2RN (•) достигался

на границе при у = 2,5, а максимум N 1/2Е^^)— во внутренней точке V«0,88. Далее запоминались соответствующие байесовские стратегии и для них снова вычислялись потери в указанном диапазоне 0,1 < V < 2,5 с шагом 0,1. Эти потери практически совпали с рисками, что можно, по-видимому, объяснить тем, что оптимальная стратегия при N = 8 мало зависит от V в указанном диапазоне. В частности, нетрудно проверить, что на последнем шаге она такова: надо выбирать вариант, соответствующий максимуму X ,, , = 1,2,3, т.е. в этом случае оптимальная стратегия от V не зависит совсем.

да

1

V

—1/2 В —1/2 В

Байесовские риски N RN(•) (жирная линия) и N ERN_Ъ(•) (тонкая линия), вычисленные при 0,1 < v < 2,5 с шагом 0,1 по формулам (8)-(12)

Наконец, отметим, что при проверке оптимальности стратегии рассматривались также точки вида (IV,-V+х,-V+у), (-V + у^,-V + х) , (-V+х,-V+у^) для различных х, у в окрестности максимума. При этом потери в этих точках не превосходили максимальных.

Заключение

Предложен метод отыскания минимаксных стратегии и риска в многоальтернативной случайной среде, основанный на характеризации наихудшего априорного распределения и дальнейшей численной оптимизации. Оптимальная стратегия вычисляется на компьютере и табулируется. Стратегия допускает применение в системах с параллельной обработкой данных (см. [3,4]).

Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.

2. Berry D.A., Fristedt B. Bandit Problems: Sequential Allocation of Experiments. L.; N.Y.: Chapman and Hall, 1985. 275 p.

3. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (в задаче о «двуруком бандите») // Автоматика и телемеханика. 2011. №5. С.127-138.

4. Kolnogorov A.V. Determination of the Minimax Risk for the Normal Two-Armed Bandit // Proceedings of the IFAC Workshop ALCOSP’2010, Antalya, Turkey, August 26-28, 2010 — http://www.ifac-papersonline.net

Bibliography (Translitirated)

1. Sragovich V.G. Adaptivnoe upravlenie. M.: Nauka, 1981. 384 s.

2. Berry D.A., Fristedt B. Bandit Problems: Sequential Al-loca-tion of Experiments. L.; N.Y.: Chapman and Hall, 1985. 275 p.

3. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v sluchajjnojj srede (v zadache o «dvurukom bandite») // Avtomatika i telemekhanika. 2011. №5. S.127-138.

4. Kolnogorov A.V. Determination of the Minimax Risk for the Normal Two-Armed Bandit // Proceedings of the IFAC Workshop ALCOSP’2010, Antalya, Turkey, August 26-28, 2010 — http://www.ifac-papersonline.net

1.

i Надоели баннеры? Вы всегда можете отключить рекламу.