УДК 519.865
ОПТИМИЗАЦИЯ ПАРАЛЛЕЛЬНОЙ МНОГОЭТАПНОЙ ОБРАБОТКИ В СЛУЧАЙНОЙ СРЕДЕ
А.В.Колногоров, А.О.Олейников
Институт электронных и информационных систем НовГУ, [email protected]
В задаче о поведении в случайной среде предложена стратегия, которая применяет варианты к группам данных на конечном заданном числе этапов. Получено рекуррентное уравнение для нахождения минимаксных стратегии и риска, которые ищутся как байесовские, соответствующие наихудшему априорному распределению. Предложен алгоритм оптимизации размеров групп обрабатываемых данных.
Ключевые слова: поведение в случайной среде, задача о двуруком бандите, робастное управление, параллельная обработка
A strategy which applies some variants to groups of data in bounded counts of stages is considered for solving the problem of behavior in random environment. A recurrent equation is obtained for finding minimax strategy and minimax risk, which are searched as Bayes' ones corresponding to the worst prior distribution. Algorithm of the data groups' sizes optimization is offered.
Keywords: behavior in random environment, two-armed bandit problem, robust control, parallel processing
Введение
Рассматривается задача о целесообразном поведении в стационарной случайной среде [1], известная также как задача адаптивного управления [2] и задача о двуруком бандите [3], в следующей постановке. Пусть 4, п = 1,...,Ы, есть управляемый случайный процесс,
значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени вариантов ц„ и имеют нормальные распределения с
плотностями
f(x | mt) = (2п) 1/2exp(- (x - m^}2/2),
если
Пп = I (£ = 1,2). Такая среда описывается векторным параметром 0 = (тр т2).
Цель управления состоит в максимизации полного ожидаемого дохода. Для этого используется стратегия с, которая в момент времени п является функцией текущей предыстории процесса, т. е. полученных откликов хп-1 = х1,...,хп1 на выбранные
варианты уп-1 = у1,...,уп1. Таким образом,
п-1
Рг(Пп = 11 Пп-1 = Уп-1,4п-1 = хп-1) = О, (уп-1, хп-1). При
п = 1 предыстория отсутствует, поэтому в обозначениях она может опускаться. Множество стратегий обозначим Е.
Если параметр 0 известен, то следует всегда применять вариант, которому соответствует большая из величин т1, т2, и полный ожидаемый доход равен в этом случае N(т1 V т2). Если же параметр неизвестен, то функция
( N \
Ln (°>в) = Е
Z((mi V m2) - ^
V n=1
характеризует потери дохода вследствие неполноты информации. Здесь Ес 0 — математическое ожидание
по мере, порожденной стратегией с и параметром 0 . Множество допустимых значений параметра имеет
вид: © = {(mpm2):| m1 -m2|< 2c}, где c — некоторая константа (0 < c < x>).
При минимаксном подходе максимальные потери на множестве параметров © минимизируется по множеству стратегий Е, величина R-NM (©) = inf sup Ln (g,0) называется минимаксным Е ©
риском, а соответствующая стратегия (если она существует) — минимаксной стратегией. Минимаксная стратегия обеспечивает робастное управление, так как реальный ожидаемый доход для любой среды из множества © отличается от максимально возможного не более чем на величину минимаксного риска. Эта постановка рекомендована в работе [4], вызвавшей большой интерес к рассматриваемой задаче.
В данной работе используются результаты [5], где показано, что минимаксные стратегия и риск могут быть найдены как байесовские, соответствующие наихудшему априорному распределению. Установлено, что наихудшее априорное распределение является симметрическим и асимптотически однородным, и получено рекуррентное уравнение для вычисления соответствующих байесовских стратегии и риска.
Эти результаты развиты в следующем направлении: рассмотрен класс стратегий, применяющих одинаковый вариант для пакетов поступающих данных и позволяющих вследствие этого вести их параллельную обработку. Получены рекуррентные уравнения для вычисления байесовского риска и потерь относительно наихудшего априорного распределения при применении данного класса стратегий.
2. Стратегия параллельного управления
m2 = и - и , то-
Как и в [5], положим т1 = и + и гда 0 = (и + и, и - и), © = {9: |и| < с}. В новых перемен ных асимптотически наихудшая плотность распреде ления имеет вид V (и, и) = k (и)р(и) , где k (и) - по'
( , f n +M J1/2 f
h-M (z)=^2nM J exp
2
2nM (n + M)
стоянная плотность при |u| < a; p(u) = p(-u) — симметричная плотность; a ^ ж . Соответствующий байесовский риск
RNB(va(u,u))=inf jjLn(с,(u + и,и -u))va(u,u)dudu. (1)
©
Пусть к моменту времени n = n, + n2 оба варианта применены соответственно n, и n2 раз, а X, , Теорема 2 Для стратегии параллельного управления {с, (z, n,, n2)} и плотности
X 2 — полные доходы за их применение. Следствием
v (u,u) вычисление функции потерь может быть вы-
При этом байесовский риск (1) вычисляется по формуле
ад ад
Нш rN (va (u,u))= 4M0 J up(u)du + J RMtiMii (z)dz. (2)
однородности асимптотически наихудшего априорного распределения является то, что байесовская п°лнен° следующим образом. Сначала следуег рестратегия на первых двух шагах применяет варианты шить рекуррентное уравнение
по очереди, поэтому рекуррентные уравнения для нахождения байесовских стратегии и риска нужно решать только при п1 > 1, п2 > 1. В качестве статистики можно использовать тройку (2, п1, п2) при 2 = Х1п2 - X2п1. Далее рассмотрим стратегию, которая в начале применяет каждый вариант по М0 раз, а
затем осуществляет оптимальное управление с тем ограничением, что варианты могут меняться только после применения М1,М2,...,Мк раз подряд (считаем,
что 2М„ + М + М +...+М, = N). Отметим, что паке-
0 1 2 к
ты из М. поступающих подряд данных, для обработки
Ln« (Z) = °1(Z, «1 ”2^(Z)+ °2(Z, «1 «2K* (Z)
где (Z )=lv«2 (z )=0пРи «і + «2=N,
L(1) (Z)= M.g(l) (Z)+n-1 x ”p«2 l0^,^' ' 2
+ад
x J L
n^M^n, (Z + Z Z)h«i,Mi
V “2 У
L(2) (Z)=M.g(2) (Z)+n,-1
n,nv ' i&rn,n ^ ’ 1
(ZM. -n,z^
I 1
dz,
x
+ад
xL
ищ +Mt (Z + z)h«2,Mi
f ZM. -n„z'J
i2
dz
1
при «1 + «2 = 2M0 +... + Mt-1, «1 > M0, «2 > M0. Тогда
ІІШ LN(va(u,u)) = 4M0 JuP(u)du + JLM,Ma(z)dz. (3)
которых применяется один и тот же вариант, могут обрабатываться параллельно. В этом случае полное функция потерь вычисляется по формуле
время управления равно времени обработки к + 1 пакетов данных и может быть сравнительно небольшим, если данные в пакете обрабатываются одновременно.
Дадим рекуррентное уравнение для вычисления байесовского риска, соответствующего стратегии параллельного управления с использованием вспомогательных рисков R (2), п, > М , п > М0.
Теорема 1. Пусть v (и, и) = k (u)p(u), где k (и)
3. Оптимизация размеров групп данных
Методика нахождения минимаксного риска для заданного разбиения данных М0,Мх,.„Мк описана в разделе 2 и состоит в поиске минимаксного
риска как байесовского на наихудшем априорном постоянная плотность при \и\ <а , плотность распределении. Для конкретного разбиения исполь-
р(и) = р(-и) — симметрическая на отрезке |и| < с и зуются формулы (2), (3). Обозначим через
а ^ ад . Тогда справедливо рекуррентное уравнение: R (•) = minR(1) (•),R(2) (•))
n,nv/ \ «,nv/’ «,”^'Р
где ^ (Z) = (Z) = 0 При «1 + «2 = N
«1,«2 v / г 1 2
R(1) (Z)=M.g(X) (Z)+n-1 x
n, n v ' i&rn, n v ' 2
x J R ,, (Z + z)h ,,
J «1 + M^t, «2 f «1,Mt
dz,
V "2 У
R(2) (Z)= M g{2) (Z) + n-1 x
n,«v ' i&rn ,n^ ' 1
(2)
xJ R
«1,«2 + Mt
(Z+z)h«
ZM. -u^z
i 2
dz
при «1 + «2 = 2M0 +... + M 1 , «1 >M0 , «2 >M0 . Здесь
V "1 У
g2, (Z ) = J 2ug,,«2 (z , (-l)'+1u)р(u)du,
t =1,2,
g«,«(Z ,u) = (2пn1n2(n1 + «2)) 1/2exp
2
(Z + 2u«1«2 ) 2.n1n2(n1 + «2)
R(M0,Ml,...,Mk) = Rw(©) минимаксный риск, соответствующий разбиению M0, Ml,...,Mk при 2M0 + Mj + M2 +...+Mk = X . Задача состоит в поиске оптимального разбиения M01, М10,...,М;0, для которого R(M0,Ml,...,M°) = min R(M0,M ..,M ).
M0-Mi,-,Mk
Оптимизация будет проводиться по размерам групп данных, с может быть найдена эмпирически, при оптимизации она изменяться не будет. В данном случае это задача поиска минимума для функции к переменных. Однако, необходимо учитывать, что они не являются независимыми переменными. Из определения следует, что 2M0 + M1 + M +...+Mk = X ,
M. > 1, i = 0,...,k .
i > ’ ’
Минимизация может выполняться численными методами, например методом покоординатного спуска, или градиентными. При этом надо учитывать, что метод покоординатного спуска может не приводить даже к нахождению локального минимума.
4. Заключение
Предложена стратегия параллельного управления в случайной среде, если управление разбито на заданное конечное число этапов. Минимаксный риск ищется с помощью рекуррентного уравнения как байесовский, соответствующий наихудшему априорному распределению, и зависит от разбиения групп обрабатываемых данных. Рассмотрена задача оптимизации разбиения данных для минимизации результирующего минимаксного риска.
Стратегия параллельной обработки позволяет осуществлять управление агрегированными данными в средах, распределения которых отличны от нормальных. В этом случае полное время управления определяется не числом обрабатываемых данных, а количеством этапов управления.
1. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.
2. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.
3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall, 1985. 275 p.
4. Robbins H. Some aspects of the sequential design of experiments // Bulletin AMS. V.58(5). 1952. P.527-535.
5. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2011. №5. С.127-138.
Bibliography (Transliterated)
1. Cetlin M.L. Issledovanija po teorii avtomatov i modeliro-vaniju biologicheskih sistem. M.: Nauka, 1969. 316 s.
2. Sragovich V.G. Adaptivnoe upravlenie. M.: Nauka, 1981. 384 s.
3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall, 1985. 275 p.
4. Robbins H. Some aspects of the sequential design of experiments // Bulletin AMS. V.58(5). 1952. P.527-535.
5. Kolnogorov A.V. Nahozhdenie minimaksnyh strategii i riska v sluchajnoj srede (zadache o dvurukom bandite) // Av-tomatika i telemehanika. 2011. №5. S.127-138.