Научная статья на тему 'Робастное параллельное управление в многоальтернативной гауссовской случайной среде'

Робастное параллельное управление в многоальтернативной гауссовской случайной среде Текст научной статьи по специальности «Математика»

CC BY
86
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О МНОГОРУКОМ БАНДИТЕ / МИНИМАКСНЫЙ И БАЙЕСОВСКИЙ ПОДХОДЫ / ОСНОВНАЯ ТЕОРЕМА ТЕОРИИ ИГР / ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА / CONTROL IN RANDOM ENVIRONMENT / MULTI-ARMED BANDIT PROBLEM / MINIMAX AND BAYESIAN APPROACHES / MAIN THEOREM OF THE THEORY OF GAMES / PARALLEL PROCESSING

Аннотация научной статьи по математике, автор научной работы — Колногоров А.В.

Рассматривается управление в гауссовской случайной среде, если для управления имеются несколько альтернативных действий с различными априори неизвестными эффективностями. Требуется определить наиболее эффективное действие и обеспечить его преимущественное применение. Задача допускает приложение к управлению обработкой больших объемов данных. С использованием групповой обработки это может быть выполнено за сравнительно небольшое число этапов, причем практически без увеличения минимаксного риска. В статье дано интегро-разностное уравнение, позволяющее определить оптимальное управление и величину максимальных потерь.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ROBUST PARALLEL CONTROL IN A MULTI-ALTERNATIVE GAUSSIAN RANDOM ENVIRONMENT

We consider control in a Gaussian random environment if there are several alternative actions available with different a priori unknown efficiencies. One has to determine the most efficient action and to provide its preferable use. The problem may be applied to control the processing of large amounts of data. Using group processing, this can be implemented in a significantly small number of steps and almost without increasing the minimax risk. In this article we provide an integro-differential equation which allows one to find the optimal control and the value of maximal losses.

Текст научной работы на тему «Робастное параллельное управление в многоальтернативной гауссовской случайной среде»

УДК 519.865

РОБАСТНОЕ ПАРАЛЛЕЛЬНОЕ УПРАВЛЕНИЕ В МНОГОАЛЬТЕРНАТИВНОЙ ГАУССОВСКОЙ СЛУЧАЙНОЙ СРЕДЕ

А.В.Колногоров

ROBUST PARALLEL CONTROL IN A MULTI-ALTERNATIVE GAUSSIAN RANDOM ENVIRONMENT

А.V.Kolnogorov

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Рассматривается управление в гауссовской случайной среде, если для управления имеются несколько альтернативных действий с различными априори неизвестными эффективностями. Требуется определить наиболее эффективное действие и обеспечить его преимущественное применение. Задача допускает приложение к управлению обработкой больших объемов данных. С использованием групповой обработки это может быть выполнено за сравнительно небольшое число этапов, причем практически без увеличения минимаксного риска. В статье дано интегро-разностное уравнение, позволяющее определить оптимальное управление и величину максимальных потерь.

Ключевые слова: управление в случайной среде, задача о многоруком бандите, минимаксный и байесовский подходы, основная теорема теории игр, параллельная обработка

We consider control in a Gaussian random environment if there are several alternative actions available with different a priori unknown efficiencies. One has to determine the most efficient action and to provide its preferable use. The problem may be applied to control the processing of large amounts of data. Using group processing, this can be implemented in a significantly small number of steps and almost without increasing the minimax risk. In this article we provide an integro-differential equation which allows one to find the optimal control and the value of maximal losses.

Keywords: control in random environment, multi-armed bandit problem, minimax and Bayesian approaches, main theorem of the theory of games, parallel processing

1. Введение f(xImf) = (2л)-1/2ехр(-(x-m£)2/2) если применено

„ действие с номером £, £ =1,...,K (K>2). Такая среда

Рассматривается управление в многоальтерна- ^ ' ^

тивной случайной среде, продолжающее работы [1,2]. описывается векторньш парамлрсм 6 = (mi,...,mKX Опишем кратко их результаты. Пусть n = \...,N множество допустимых значений которого имеет вид

есть управляемый случайный процесс, значения ко- © = |б • max| m■ -т |< Kc!

торого интерпретируются как доходы, зависят только [ i, j ' 1 J

от выбираемых в текущие моменты времени действий Для управления выбирается стратегия ст, кои имеют нормальные распределения с плотностями торая вначале применяет все действия по очереди, а

затем может использовать всю известную к текущему моменту времени n предысторию процесса: иь...,nK — полные количества применений всех действий, Xb...,XK — полные доходы за их применение (n1 +... + nK = n). Цель управления формулируется следующим образом. Если бы все значения m1,...,mK были известны, то для получения максимального ожидаемого дохода следовало бы всегда использовать действие, соответствующее большему из этих значений, что обеспечило бы величину ожидаемого

дохода, равную Nm* где m = max mf . С другой сто-

1=1,...,K

роны, применение стратегии ст обеспечивает полу-

( N \

где Ест,в —

чение ожидаемого дохода Ест0

V n=1

знак математического ожидания, вычисляемого при фиксированных ст и 6 . Разность этих величин

(N

Ln(ст,0) = Nm* -Ест,е|^

Л

описывает потери дохода вследствие неполноты информации. Величина

RNm (0) = inf sup Ln (ст,0)

{ст} 0

(1)

характеризует минимаксныи риск, вычисленный относительно функции потерь LN(ст, 6), а стратегия

стМ, для котороИ минимаксный риск достигается, называется минимаксной стратегией. Выбор стратегии стм гарантирует выполнение неравенства ^ (стм ,6) < RM (©) при всех 6, что означает робаст-ность управления. Отметим, что робастное управление в случайной среде ранее рассматривалось в работах [3,4].

Поясним выбор нормального распределения доходов. Мы рассматриваем задачу в приложении к управлению обработкой большого количества данных за сравнительно малое число этапов путем объединения их в группы и последующей параллельной обработки. Пусть даны Т = NM данных, которые могут быть обработаны одним из К альтернативных методов. Обработка может быть успешной = 1) или неуспешной = о). Вероятности успешной и неуспешной обработок зависят только от выбранных методов (действий), т.е. Рг(^ = 1|у = £)= рь Рг(^ = 0| у = £)= ql, £ =1,...,К.. Пусть известно, что р1,...,рК близки к р (0 < р <1). Разобьем данные на N пакетов по М данных, для параллельной обработки данных в одном и том же пакете используем одинаковый метод. Для управления используем значения процесса

nM

%п = (БМ)-1/2 ^ , п = 1,...,N, где Б = р(1 -р). В г=(и-1)М+1

силу центральной предельной теоремы распределения §п, п = 1,...,N близки к гауссовским, а их дисперсии близки к единице, как и в рассматриваемой постановке.

Групповая обработка в случайной среде первоначально была предложено для задачи о лечении большой группы пациентов одним из двух альтернативных лекарств с различными неизвестными эффек-тивностями. Было предложено сначала дать оба лекарства достаточно большим тестовым группам пациентов, а затем более эффективное по результатам тестирования — всем оставшимся. Обсуждение и библиография задачи в байесовской постановке имеется, например, в [5], в минимаксной — в [6].

Наряду с минимаксным подходом к задаче часто используется байесовский. Если на множестве © задана плотность априорного распределения Х(6), то величина

RB (X) = ^ Г^ (ст, 6)Х(6)^6 (2)

{ст} J ©

называется байесовским риском, а соответствующая оптимальная стратегия ств — байесовской стратегией. Байесовский подход позволяет для любого априорного распределения найти байесовские стратегию и риск методом динамического программирования. Объединяет минимаксный и байесовский подходы основная теорема теории игр, согласно которой минимаксный риск совпадает с байесовским, вычисленным относительно наихудшего априорного распределения. На этом свойстве основан алгоритм численного определения минимаксных стратегии и риска, используемый в данной статье.

2. Интегро-разностное уравнение

Будем использовать для управления следующие стратегии: вначале все действия применяются по М = 6N раз, а затем они могут меняться только после применения М раз подряд (при М = 1 получаем обычное управление). Вместо применения действия М раз подряд можно осуществлять параллельную обработку. Для дальнейшего сделаем следующие обозначения: Н}:= (%...,ак), Н}-£ := (аь...,ак )\ае, К А} := (а,Ь,...,ак,Ьк), К АЬ := ЙА...^ А) \ (а£ А),

йтк := йтх...йтк

Для вычисления байесовского риска можно написать стандартные рекуррентные уравнения. Обозначим через /Б (х | т):= (2лБ)-1/2ехр(- (х-т)2/(2Б)) плотность нормального распределения с математическим ожиданием т и дисперсией Б, через Х{тк} = Х(ть...,тк) — плотность априорного распределения на множестве параметров ©. Пусть предыстория процесса к моменту времени п описывается набором {Хк, пк} = (Хь п1,...,Хк, пк), где п1,..., пк — полные количества применений всех действий, причем щ +... + пк = п, а Х1,...,Хк — полные доходы за все действия. Будем считать, что X£ = 0 при п£ = 0. Тогда плотность апостериорного распределения равна ( к \

П fnt (XI n,mi)

X({mk}|{Xk, nk}) =

X{mk}

где p{Xk, nk}=J | П fn,_(X 1 ntm)

p{Xk, nk}

\

X{mk}dmK

0V 1=1

n

Если положить /п (X | пт) = 1при п = 0, то эта формула останется справедливой и в том случае, если некоторые или все пь..., пк будут равны 0.

Обозначим через Лв-п{Хк,пк}, п = п1 +... + пк байесовский риск на последних N - п шагах, вычисленный относительно апостериорного распределения с плотностью Х({тк}|{Хк, пк}). Тогда все Лв-п{Хк, пк } могут быть найдены как решение рекуррентного уравнения динамического программирования:

Л^пО = тт(Л®п(-),.., (4)

где Л®п (•) =... = (•) = 0 при п = N,

Л^-п&к,пк} = |х({тк} | {Хк,пкф(т* -т£) +

0

+Е^-п-М ({Хк, пк}-, ,(Х, + У, п, + М), ^тк, (5)

Ш

EYRY) = J R(Y )fM (Y\Mmt )dY,

¿=L..., K,

при КМ < п < N. Здесь Л^- п (•) — ожидаемые потери на оставшемся горизонте управления, если сначала выбирается 1-е действие, а затем управление ведется оптимально (, = 1,...,К). Ясно, что

к

ЛВ (X) = М^ I (т* - т1 )Х{тк }dmK +

,=1 0

+ЕЛв-км (Х{тк } | X, пк = М}), (6)

где Е — знак математического ожидания. Байесовская стратегия при п > КМ предписывает выбирать действие, которому соответствует меньшее из значений лВ-п(•),..., Ллт-пО,; при их равенстве выбор может быть произвольным.

Дадим более удобные уравнения для вычисления байесовского риска.

Теорема 1. Рассмотрим рекуррентное уравнение динамического программирования:

Л{Хк, пк} = тЦДХ, пк},...,Лк{Хк, пк}), (7) где Л\{Хк,пк} =... = Лк{Хк,пк} = 0 при щ +... + пк = N, и далее

Л, {Хк, пк }=Mgl {Хк, пк }+

ОТ

+ |л({Хк, пк }-, ,(Х, + У, п, + М ),)/м (У^У (8)

-ад

при кМ < п < N. Здесь

. «Хк. ^ - т (I!^ - с^т,,

0 V ,=1 у

Байесовский риск вычисляется по формуле:

к

ЛВ (X) = М^ I (т* - т, )Х{тк }dmK +

1=1 0

ш ш / K

J ... J R{Xk,nk = MЩfM(X)

—ад —ад V ^=1

dXK. (10)

Доказательство. Рассмотрим сначала уравнения для рисков Л{ХЬпк}=Лы-п{Хк,Щ}р{Хк,пк}. С учетом (3), (4), (5) получаем, что для вычисления

рисков Л{Хк, пк} следует решать рекуррентное уравнение

Л{Хк, пк} = тш^Хк, пк},..., Лк{Хк, %}) (11) где Л\{Хк,пк} =...=Лк{Хк,пк} = 0 при щ+... + пк = N, и далее

Л,{Хк, пк }=М^ ,{Хк, пк }+

ад

+ |Л({Хк,пк}-,,(Х, + У,п, + Мм(МХ, -п¥Щ (12)

-ад

при кМ < п < N. Здесь

,nk}=J(m*— me)[ J7fn(X \ щщ)

0 W=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

, f n + M Y/2 f

k"M(X) = 1 2ЙПМ J exp

А

X{mk}dmK

X

2 Л

2nM(n + M)

. (13)

Байесовский риск (2) с учетом (6) вычисляется по формуле:

K Г

rB (X) = M (m — mt )X{mk }dmK +

=1 0

ад ад

+ J ... JR{Xk,nk = M}dXK, (14)

—ад —ад

Проверим выражение для кщм (X M — ntY) в (13). Оно следует из цепочки равенств:

кщ m (X M — n Y) =

JM (Y \ Mmt f (X \ nmt )fn f (X \ щщ )

0 V irf

_ 0

X{mk}dm

J fn +M X +Y\(n +M щ Jn(Xi\nimi)

X{mk}dm

fM (Y \ Mmt )f (X£ \ nfmt)

п+М (X,+У |(п, + М) т,) • Непосредственно проверяется, что это соответствует выражению в (13). Рассмотрим теперь риски

Л{Хк,пк}, удовлетворяющие условию Л{Хк,пк} = к

= Л^^к,пк}Ц/п, (X,). Ясно, что g^{Xk, пк} = ,=1 к

= g, , пк}П /п, (X,). Кроме того, непосредственно

=1

проверяется выполнение равенства

\ М (Х,М - п,У)/п, +М (X, + У) = /м (У)/п, (X,). Поэтому

из уравнения (11), (12) следует справедливость уравнения (7), (8). Формула (10) следует из (14) с учетом соотношения между рисками Л{Хк,пк} и

Л{Хк, пк}. Теорема доказана.

3. Инвариантное интегро-разностное уравнение

Преобразуем уравнение (7), (8) к инвариантной форме с горизонтом управления равным единице. Для этого сделаем замену переменных:

= п,/N х, = X,/N1/2, у, =У,/N1/2, 8 = М/N V,=N1/2m,,

Ц^} = /2Х{тк}, г ,е{Хк, 4} = N-U2Re{Xk, пк}, ге{хк,/к} = N~ll2R{Xk,пк}, с = ^/2С. В качестве допустимого множества параметров рассмотрим множество

близких распределений ©N = ^6: тах | VI - V,■ |< ксЪГ

-1/2

', 1

Справедлива теорема.

Теорема 2. Рассмотрим рекуррентное уравнение динамического программирования:

ге{Хк, 4} = тт(г1,е{Хк ,4 },...,ГкАхк, 4}), (15) где г1е{хк,4}=...=ГкАхк,4}=0 при / +... + % =1, и далее Г/{Хк ,4 } = ея £{хк ,4 }+

ОТ

+ Г Г ({Хк ,4 }-£ ,(Х£ + у,А£ +е)£) / (у^у (16)

-ОТ

при ке< А <1. Здесь

а {Хк, 4} = Г (V* - V ехр(х^£ - 0,5/^2) Фк^ .(17)

Нормализованный байесовский риск вычисляется по формуле:

N(X) = е]Г Г(V* -V}<Ьк

+

от ОТ | к

■ Г... Г ге{хкл=е}| п/е(х£)

-ОТ -ОТ V £=1

(18)

Доказательство. Справедливость (15)-(18) устанавливается путем выполнения указанной выше замены переменных в (7)-(10).

Наконец, опишем вид уравнений (15)-(16), если в качестве априорного распределения используется наихудшее. Ясно, что в этом случае существенным является только вид выражения (17). Рассмотрим два частных случая к = 2 и к = 3.

Если к = 2, то, как следует из [7], наихудшую априорную плотность можно представить в виде ц(и, м) = ка (и)р(м) на множестве параметров 6 = (и + м>,и - м), где ка(и) — равномерная плотность распределения при и е[-а,а], р(м) — симметрическая плотность р(м) = р(-м) и а ^от. В этом случае положим

Я(ХЬ Х2, 44, =(2Яа1а2(а1 + ?2)-1/2ехр|- ^^^^ 2x1^+М)2)

где х£ = х£ //£, Х12 = Х1 - Х2, н>12 = н,1 - м2. Так как Я(ХЬХ2,/Ь4,М^= Я(ХЬХ2,/Ь4,М^,ДХ/А2(Х2), то

ЯХ Х2,/ь/2, =

1/2

ехр

х ехр

/ + /2 /1/2^12(^12 - 2Х12)

(Х1 + Х2)

2(/1 + /2)

2

2(/1 + /2)

с

^1{Хк, 4} = Г 2мя (Х, Х2, /1,/2,-м, м)р(м)йМ,

0 с

§2&к, /к} = Г 2мя (Х1, Х2, /1, /2, м,-м)р(м)й?ж

Если к = 3, то, как следует из [1,2], наихудшую априорную плотность можно представить в виде ц(и, м) = ка (и)р(м)/3 на трех множествах параметров: 6 = (и + 2м,и - м,и - м), 6 = (и -м,и + 2м,и -м) и 6 = (и - м,и - м,и + 2м), где м > 0, ка(и) — равномерная плотность распределения при и е[-а, а] и а ^от. В этом случае положим

£(Х1, Х2, Хз,/1,/2,/з, М1, М2, Мз) = ^я)-1^/^ + /2 + /3 )

-1/2

х ехр

/1/2(Х12 - ^12)2 + /1/3(Х13 - ^13)2 + /2/3(Х23 - ^)2

2(/1 + /2 + /3)

где Ху = Х - Ху, = - Му. Так как

¿(Хь Х2, Х3,/1,/2,/3, М1, М2, М^) =

= Я(Х1,Х2,Х3,/1,/2,/3,М1,М2,М3)/к(Х{)/н(Х2)/ДХ3),

то

,______ч I 2л ^1/2 Г(х1 + х2 + Х3)21

ё(Х1,Х2,Х3,/1,/2,/3т,щ)=[/-+/-+/3J ехрч2(/1 +/2 +/3) ух

- /1/2^12(М12 - 2Х12) +/1/3Щ 3(М13 - 2Х13) +/2/3^23(^23 - 2Х23) 2(/1 +/2 +/3) ;

В соответствии с [1,2] в этом случае

хех

с

^1{Хк ,/к } = Г ма (Х1, Х2, Х3,/1,/2,/3,-м>,2м>,-м>)р(м>)^ +

0

с

+ Г МЯ (Х1, Х2, Х3, /1, /2, /3,-М>,-М>,2М>)р(М>^М>,

0

с

Я2{Хк ,/к} = Г МЯ (Х1, Х2, Х3,/1,/2,/3,2м>,-м>,-м>)р(м>)^ +

0

с

+ Г МЯ (Х1, Х2, Х3, /1, /2, /3,-М>,-М>,2М>)р(М>^М>,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

с

Я3{Хк ,/к } = Г МЯ (Х1, Х2, Х3,/1, /2,/3 ,-м>,2м>,-м>)р(м>^ +

0

с

+ Г мя (Х1, Х2, Х3, /1, /2, /3,2М>,-М>,-М>)р(М>^М>.

Заключение

Предложены рекуррентные интегро-разностные уравнения для нахождения байесовских стратегии и риска в многоальтернативной случайной среде. В соответствии с основной теоремой теории игр они позволяют искать минимаксные стратегию и риск, если в качестве априорного распределения использовать наихудшее распределение. Дана инвариантная форма уравнений с горизонтом управления, равным единице, и с априорной плотностью распределения, удовлетворяющей свойствам наихудшей.

Работа выполнена при финансовой поддержке РФФИ, проект № 13-01-00334а и проектной части государственного задания в сфере научной активности Министерства образования и науки Российской Федерации, проект № 1.949.2014/к.

х

и

1. Колногоров А.В. Нахождение минимаксных стратегии и риска в трехальтернативной случайной среде // Вестник НовГУ. Сер.: Техн. науки. 2011. №№65. С.76-79.

2. Колногоров А.В. Минимаксные стратегия и риск в многоальтернативной случайной среде (задаче о многоруком бандите) // Тр. IX Междунар. конф. «Идентификация систем и задачи управления» SICPRO'12. Москва, 30 января — 2 февраля 2012 г. М.: Ин-т проблем управления им. В.А. Трапезникова РАН, 2012. С.1061-1076.

3. Vogel W. An Asymptotic Minimax Theorem for the Two-Armed Bandit Problem//Ann. Math. Stat. I960. V.31. P.444-451.

4. Juditsky A., Nazin A.V., Tsybakov A.B., Vayatis N. Gap-free Bounds for Stochastic Multi-Armed Bandit // Proc. of the 17th World Congress The International Federation of Automatic Control. Seoul, Korea, 2008. V.17. P.11560-11563.

5. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality) // Proc. Nati. Acad. Sci. USA. 1980. V.77. №6. P.3135-3138.

6. Колногоров А.В. Задача о двуруком бандите для систем с параллельной обработкой данных // Пробл. передачи ин-форм. 2012. Т.48. №1. С.83-95.

7. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2012. №4. С. 114—130.

References

1. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v trekhal'ternativnoi sluchainoi srede [Finding the minimax strategies and risk in a three-alternative random environment].

Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2011, no. 65, pp. 76-79.

2. Kolnogorov A.V. Minimaksnye strategiia i risk v mnogoal'ternativnoi sluchainoi srede (zadache o mnogorukom bandite) [Minimax strategy and minimax risk in a multi-alternative random environment (the two-armed bandit problem)]. Trudy IX Mezhdunarodnoi kon-ferentsii «Identifikatsiia sistem i zadachi upravleniia» SICPRO'12 [Proc. of the 9th Int. Conf. "System Identification and Control Problems" SICPRO'12]. Moscow, V.A.Trapeznikov Institute of Control Sciences of RAS, 2012, pp. 1061-1076.

3. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem. Annals of Mathematical Statistics, 1960, vol. 31, pp. 444-451.

4. Juditsky A., Nazin A. V., Tsybakov A.B., Vayatis N. Gapfree bounds for stochastic multi-armed bandit. Proc. of the 17th World Congr. of the International Federation of Automatic Control (IFAC 2008). Seoul, Korea, 2008, vol. 17, pp. 11560-11563.

5. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality). Proceedings of the National Academy of Sciences, 1980, vol. 77, no. 6, pp. 3135-3138.

6. Kolnogorov A.V. Zadacha o dvurukom bandite dlia sistem s parallel'noi obrabotkoi dannykh [Two-armed bandit problem for parallel data processing systems]. Problemy peredachi in-formatsii - Problems of Information Transmission. 2012, vol. 48, no. 1, pp. 83-95.

7. Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) [Parallel design of robust control in the stochastic environment (the two-armed bandit problem)]. Avtomatika i Telemekhanika - Automation and Remote Control, 2012, vol. 73, no. 4, pp. 689-701.

i Надоели баннеры? Вы всегда можете отключить рекламу.