УДК 519.865
ОБОБЩЕНИЕ ЗАДАЧИ ОБ ОПТИМИЗАЦИИ ПАРАЛЛЕЛЬНОГО УПРАВЛЕНИЯ В ГАУССОВСКОЙ СЛУЧАЙНОЙ СРЕДЕ
А.В.Колногоров, А.Н.Лазутченко, Д.Н.Шиян
GENERALIZATION OF THE PROBLEM OF PARALLEL CONTROL OPTIMIZATION IN A GAUSSIAN RANDOM ENVIRONMENT
A.V.Kolnogorov, A.N.Lazutchenko, D.N.Shiian
Институт электронных и информационных систем НовГУ, [email protected]
Рассматривается управление в гауссовской случайной среде, если для управления имеются два альтернативных действия, которым соответствуют доходы с априори известными дисперсиями и неизвестными математическими ожиданиями. Требуется определить наиболее эффективное действие и обеспечить его преимущественное применение. Задача допускает приложение к управлению обработкой больших объемов данных. Получено интегро-разностное уравнение, позволяющее определить оптимальное управление и величину максимальных потерь.
Ключевые слова: управление в случайной среде, задача о двуруком бандите, минимаксный и байесовский подходы, основная теорема теории игр, параллельная обработка
We consider control in a Gaussian random environment if there are two alternative actions corresponding to incomes with a priori known variances and unknown mathematical expectations. One should determine the most effective action and provide its preferable use. The results can be applied to control the processing of large amounts of data. We obtain an integro-differential equation for determination of the optimal control strategy and maximal l osses.
Keywords: control in a random environment, two-armed bandit problem, minimax and Bayesian approaches, main theorem of the theory of games, parallel processing
1. Введение
Рассматривается задача об оптимизации параллельной многоэтапной обработки в случайной среде, продолжающая работы [1-3]. Пусть n = 1,...,N есть управляемый случайный процесс;, значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени действий yn и имеют нормальные распределения с плотностями fDt (x | me) = (2nD,yV2 exp(- (x - mef /(2D¿))i если yn = £ (£ = 1,2). Здесь Д, D2 — известные дисперсии, а m1,
т2 — неизвестные математические ожидания дохода. Такая среда описывается векторным параметром 0 = (щ щ).
Цель управления состоит в максимизации (в некотором смысле) полного ожидаемого дохода. Для этого используется стратегия ст, которая в момент времени п является функцией текущей предыстории процесса,
п—1
т. е. полученных откликов среды х = х1,..., хп—1 на выбранные действия уп—1 = у1,...,уп—1. Таким образом,
ст, (уп—1, хп—1) = Рг(Уп = 11 уп—1, хп—1), ¿=1,2. При п = 1
предыстория отсутствует, поэтому в обозначениях она может опускаться. Множество стратегий обозначим Е.
Если параметр 6 известен, то следует всегда применять действие, которому соответствует большая из величин т1, т2 и полный ожидаемый доход равен в этом случае N(тг V т2). Если же параметр неизвестен, то функция
Ln (а,9) = E
а,9
N
L
V((OTl v m2)
Л
.п=1 /
характеризует потери дохода вследствие неполноты информации. Здесь Ест6 обозначает математическое ожидание по мере, порожденной стратегией ст и параметром 6. Множество допустимых значений параметра имеет вид: © = {(т1, т2):| т1 - т2|< 2С}, где С — некоторая константа (0 < С < да).
При минимаксном подходе максимальные потери на множестве параметров © минимизируется по множеству стратегий Е, величина
RM (©) = ^ир LN (ст,6)
Е ©
называется минимаксным риском, а соответствующая стратегия стм (если она существует) — минимаксной стратегией. Применение стратегии стм гарантирует выполнение неравенства LN (стм ,6) < RM (©) при всех 6е©, что означает робастность управления. Отметим, что другие подходы к робастному управлению в случайной среде рассматриваются, например, в [4-7], параллельное управление изучается в [8,9].
В данной работе используются результаты [1,2], где показано, что минимаксные стратегия и риск могут быть найдены как байесовские, соответствующие наихудшему априорному распределению. Эти результаты развиты на случай гауссовских случайных сред с различными дисперсиями. В разделе 2 получены рекуррентные уравнения для вычисления байесовского риска и потерь относительно наихудшего априорного распределения. В разделе 3 приведен пример нахождения минимаксных стратегии и риска численными методами для конкретной случайной среды. В разделе 4 дано заключение.
2. Стратегия параллельного управления
Как и в [1], положим т1 = и + V, т2 = и -V, тогда 6 = (и + v,u -V), © = {6:VI<С}. В новых переменных асимптотически наихудшая плотность распределения имеет вид va(u,V) = ^,(и)р^), где ka(и) — постоянная плотность при |и| < а и а ^да. Соответствующий байесовский риск равен
RB(уа(и,v)) = inf ^LN(ст,(и + v,u - v))va(u,v)dudv. (1)
©
Пусть к моменту времени п = щ + п2 оба действия применены соответственно щ и п2 раз, а Х1, Х2 — полные доходы за их применение. Рассмотрим стратегию, которая в начале применяет каждое
действие по М0 раз, а затем осуществляет оптимальное управление с тем ограничением, что действия могут меняться только после применения М раз подряд (считаем, что 2М0 + kM = N для некоторого к). Отметим, что пакеты из М поступающих подряд данных, для обработки которых применяется одно и то же действие, могут обрабатываться параллельно. В этом случае полное время управления равно времени обработки k + 1 пакетов данных и может быть сравнительно небольшим, если данные в пакете обрабатываются одновременно.
Дадим рекуррентное уравнение для вычисления байесовского риска, соответствующего стратегии параллельного управления с использованием вспомогательных рисков Rnl,n2 (2), щ >М0, п2 >М0.
Обозначим щ = щ / Dь п* = щ х Dь М* =М х Dь ¿=1,2.
Теорема 1. Пусть va(u,V) = ka(u)p(v), где ka(и) — постоянная плотность при |и| < a и a ^да. Для нахождения байесовского риска следует решить рекуррентное уравнение:
^2 (•) = тШ^Щ (•),Rnl2n2 (О)
где ^ ) = ) = 0 при щ + п2 = N,
)= М^Е, )+ п/{ ^ +^ЩМ ^
-да
ЧШ2 )= Мй, )+Щ^+м + (^
-да
при щ + п2 < N, щ >М0, п2 >М0. Здесь
о
Яп;)п2 (2 )= 1(г, и)р^,
-С С
ё^к (2 ) = { 2vgnъn2 (2, v)p(v)dv,
Snh
1/2 ( (Z - 2ии1и2)2
exp
h(*) (z)—
"n, JM\A)
Ш, M
n, + M
1/2
exp
2nin*(ni + n^)/
2
„2%n M2 J 4 2n,M*(n, + M )J Предельное значение байесовского риска (1) вычисляется по формуле
lim RN (va (u, v)) — RN (p(v)) —
C ш
— 2Mо Jvp(v)dv + JRm0,Mo (z)dz. (2)
-C -ш
Теорема 2. Для произвольной стратегии параллельного управления {а,( z, n1, n2)} и плотности va (u, v) вычисление функции потерь может быть выполнено следующим образом. Сначала следует решить рекуррентное уравнение
L^ (Z )-a1(Z, Шь n2 )L(11)n2 (Z )+a2(Z, щ, n2 ^ (Z), где 41 (Z)-L<2)n (Z)-0 при ш + n2 - N,
LL z )=MgSL (z)+«—1+{ w (Z+zytiM (ZM—nz )*
—ад
(Z )= MsS^n, (Z)+ n1 Jw (Z+zyQ, ГZM—nz ^
научной активности Министерства образования и науки Российской Федерации, проект №1.949.2014/К.
L(2) 1."2
при щ + щ < N, щ >M0, щ >M0. Тогда функция потерь вычисляется по формуле
C ю
lim4(vfl(«,v))= 4(p(v))= 2M0 [vp(v)du+ [¿момо(z)dz. (3)
-C -ю
Доказательства теорем аналогичны доказательствам, приведенным в [1,2].
3. Численные эксперименты
Вычисления байесовского риска выполнялись по формуле (2) для среды с Д =1, D2 = 0,75 при N = 30, M0 = M = 1 в предположении, что p(v) вырождена и
сосредоточена в двух точках v = -d1N ~1/2 и v = d2 N~1/2 с вероятностями p1 и p2 соответственно. Вычисления выполнялись при | v |< C = 5N12и 0,91. Наихудшее априорное распределение соответствует максимуму нормализованного байесовского риска N1/2RB(p(v)). Этот максимум был определен как приблизительно равный 0,62 при d и1,60, d1 и1,54, p1 и 0,524.
Затем для найденной стратегии по формуле (3) были вычислены нормализованные потери
N~1/2zN(p(v)). При d <0 потери вычислялись для p1 =1, d = -d1, при d > 0 — для p1 = 0, d = d2 соответственно. Соответствующая кривая представлена на рисунке. Два максимума кривой оказались приблизительно равны 0,62 при d и-1,60 и d и 1,54, что подтверждает сделанное предположение.
потери
0,6
i4 4. 5.
0,1 6.
7.
4. Заключение
Предложена стратегия параллельного управления в гауссовской случайной среде, характеризуемой различными дисперсиями доходов. Минимаксный риск ищется с помощью рекуррентного уравнения как байесовский, соответствующий наихудшему априорному распределению.
Работа выполнена при финансовой поддержке проектной части государственного задания в сфере
1. Kolnogorov A.V. Determination of the Minimax Risk for the Normal Two-Armed Bandit // Proc. of the IFAC Workshop ALCOSP'2010, Antalya, Turkey, August 26-28, 2010. http://www.ifac-papersonline.net
2. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2012. №4. С. 114-130.
3. Лазутченко А.Н. О робастном управлении в случайной среде, характеризуемой нормальным распределением доходов с различными дисперсиями // Труды КарНЦ РАН. Сер.: Математическое моделирование и информационные технологии. 2015. №10. C.107-113.
4. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.
5. Lugosi G., Cesa-Bianchi N. Prediction, learning and games., N. Y.: Cambridge University Press, 2006. 540 p.
6. Juditsky A., Nazin A.V., Tsybakov A.B., Vayatis N. Gap-free bounds for stochastic multi-armed bandit // Proc. 17th World Congress IFAC (Seoul, Korea, July 6-11, 2008). P.11560-11563.
7. Гасников АВ., Нестеров Ю.Е., Спокойный В.Г. Об эффективности одного метода рандомизации зеркального спуска в задачах онлайн оптимизации // Журн. вычисл. математики и математической физики. 2015. Т.55. №4. С.582-598.
8. Колногоров А.В., Мельникова С.В. Об оптимальной продолжительности начального этапа в двухэтапной модели целесообразного поведения в случайной среде // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.73-75.
9. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality) // Proc. Nati. Acad. Sci. USA. 1980. V.77. №6. P.3135-3138.
References
1. Kolnogorov A.V. Determination of the Minimax Risk for the Normal Two-Armed Bandit. Proc. of the IFAC Workshop ALCOSP'2010. Antalya, Turkey, 2010. doi: 10.3182/20100826-3-TR-4015.00044. Available at: http://www.ifac-papersonline.net
Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) [Parallel design of robust control in the stochastic environment (the two-armed bandit problem)]. Avtomatika i Telemekhanika -Automation and Remote Control, 2012, vol. 73, no. 4, pp. 689-701.
3. Lazutchenko A.N. O robastnom upravlenii v sluchainoi srede, kharakterizuemoi normal'nym raspredeleniem dokhodov s razlichnymi dispersiiami [Robust control in a random environment characterized by a normal distribution of incomes with different variances]. Trudy KarNTs RAN. Ser. Matematicheskoe modelirovanie i informatsionnye tekhnologii - Trudy KarNTs RAN. Series: Mathematical Modeling and Information Technologies, 2015, no. 10, pp. 107-113. Nazin A.V., Pozniak A.S. Adaptivnyi vybor variantov [Adaptive choice of alternatives]. Moscow, "Nauka" Publ., 1986. 288 p.
2.
Cambridge University Press, New York, 2006. 540 p. Juditsky A, Nazin A. V., Tsybakov AB., Vayatis N. Gap-free bounds for stochastic multi-armed bandit. Proc. of the 17th World Congr. of the International Federation of Automatic Control (IFAC 2008). Seoul, Korea, 2008, vol. 17, pp. 11560-11563. Gasnikov A. V., Nesterov Iu. E., Spokoinyi V. G. Ob effektivnosti odnogo metoda randomizatsii zerkal'nogo spuska v zadachakh onlain optimizatsii [On the efficiency of a randomized mirror descent algorithm in online optimization problems]. Zhurnal vychislitel'noi matematiki i matematicheskoi fiziki - Computational Mathematics and Mathematical Physics, 2015, vol. 55, no. 4, pp. 580-596. Kolnogorov A.V., Mel'nikova S.V. Ob optimal'noi prodolzhitel'nosti nachal'nogo etapa v dvukhetapnoi modeli tselesoobraznogo povedeniia v sluchainoi srede [On the optimal duration of the first stage in two-stage model of expedient behavior in random medium]. Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2005, no. 34, pp. 73-75. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality). Proc. of the National Academy of Sciences, 1980, v.77, no.6, p.3135-3138.
-6
3
0
3
6
8.
9