УДК 519.865
ПОЛУЧЕНИЕ УПРОЩЕННЫХ СТРАТЕГИЙ ДЛЯ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ С РАЗЛИЧНЫМИ РАЗМЕРАМИ ГРУПП В СЛУЧАЙНОЙ СРЕДЕ
А. О. Олейников
PRODUCING ROUGH STRATEGIES FOR PARALLEL PROCESSING WITH DIFFERENT GROUPS' SIZES IN RANDOM ENVIRONMENT
A.O.Oleinikov
Институт электронных и информационных систем НовГУ, [email protected]
Предложены методы поиска упрощенных стратегий для задачи параллельного управления в случайной среде с различными размерами групп. Упрощенные стратегии находятся на основе точных при помощи минимизации квадратов отклонений от точной стратегии, либо минимизации ожидаемых потерь при применении упрощенной стратегии. Приведены результаты численных экспериментов.
Ключевые слова: управление в случайной среде, задача о двуруком бандите, параллельное управление
Parallel control in random environment with different groups' size was improved. Some methods for rough strategy finding were proposed. The first method is based on minimizing sum of deviation squares of the rough and accurate strategy. The second method is based on minimizing expected losses by numerical optimization. The results of the method application are given. Keywords: control in random environment, two-armed-bandit problem, parallel control
1. Введение
Рассматривается задача об управлении в случайной среде (аналогичная задачам, описанным в [13]) в следующей постановке: пусть £ п=1,...,N —
управляемый случайный процесс, значения которого интерпретируются как доходы. При этом значения зависят только от выбираемых в текущие моменты времени действий ц = I (I=1,2) и имеют нормальные распределения с математическими ожиданиями т/ и единичными дисперсиями. Такая среда
описывается векторным параметром 9 = (т1,т2). Цель
управления неформально можно описать как «максимизация суммарного ожидаемого дохода».
Если параметр 9 известен, то следует на каждом шаге применять действие, которому соответствует большая из величин т1, т2; тогда полный ожидаемый доход равен N(т. V т2). Функция
Ln (o,9)=Er
о,е
( N
Z((mi ^ "У
Vn=1
характеризует потери дохода вследствие неполноты информации, если параметр 9 неизвестен. Здесь Ео 9
обозначает математическое ожидание по мере, порожденной стратегией управления с и параметром 9. Множество допустимых значений параметра имеет
вид:
: 0 = {(m1,m2):|m1 -m2|< 2c} где c — некоторая
кон-
станта (0 < c < да).
Будем использовать минимаксный подход. Величина rM (©)=inf sup Ln (a, 6) называется минимакс-
e 0
ным риском, а соответствующая стратегия (если она
существует) — минимаксной стратегией (здесь Е — множество всех стратегий).
В работе [4] показано, что минимаксные стратегия и риск могут быть найдены как байесовские, соответствующие наихудшему априорному распределению, а также даны рекуррентные формулы для их нахождения. Стратегию, найденную при помощи этих формул, будем далее называть точной.
2. Стратегии
Стратегия, найденная при помощи описанных в [4] рекуррентных формул, имеет пороговый характер и может быть представлена при помощи треугольной матрицы А = (а..). Значения i и j будут обозначать
количество этапов управления, на которых были выбраны первое и второе действие соответственно. Тогда а^п — это пороговое значение для Z = Х1п2 -Х2п[,
где X е — суммарный доход, полученный за все шаги, на которых было выбрано действие I, а п / — количество таких шагов. Если пороговое значение меньше Z для текущего состояния, стратегия предписывает выбирать первое действие, в противном случае — второе.
Для визуализации данная матрица может быть представлена в виде набора графиков (по одному графику для каждого значения п1 + п2). Следуя [4],
п + п
введем обозначения t=—!—2
N
t е = N. Выберем для
оси абсцисс значения t1/t, а для оси ординат — граничное значение Т(^2)=1 • ^3/2. График будет задан набором точек, определяемых пороговыми значениями 1 для соответствующего шага. На рис. 1 показан вид такого набора графиков для N=15 (показана только часть графиков).
Т 0,05 0,04 0,03 0,02 0,01 о -0,01 -0,02 -0,03 -0,04
-0,05
02 0.4 0.6 0.8 1
ИЛ
Рис.1. Графическое представление стратегии
Несложно проверить, что выполняется следующая лемма:
Лемма 1. Выполняются следующие равенства:
Я(1) (2)=Я(2) (-7); Я(2) (2)=Я(1) (-7), где (2) — потери в случае если при данных значениях п1, п2,
2 будет выбран сначала I -й вариант, а затем управление будет вестись оптимально.
3. Упрощенные стратегии
Из леммы 1 следует, что каждый график симметричен относительно точки (0,5;0). Используя это свойство, будем искать стратегии, которые могут быть табулированы не более чем двумя точками для каждого шага. Таким образом, каждый график упрощенной стратегии будет содержать не более пяти точек: две табулированные, две симметричные им и (0,5;0). Обозначим через х., у. координаты точек
точной стратегии, а через хг., уг. — упрощенной.
Предлагаются следующие два способа получения упрощенных стратегий: в первом будем минимизировать сумму квадратов отклонений пороговых значений упрощенной стратегии от пороговых значений точной, а во втором будем минимизировать значение максимальных ожидаемых потерь, полученных при применении упрощенной стратегии.
Для обоих способов можно создавать три различных упрощенных стратегии, различающиеся количеством оптимизируемых параметров:
1) кодируем стратегию для каждого шага при помощи одной точки, при этом нам важен только угол наклона а графика такой стратегии;
2) кодируем стратегию для каждого шага при помощи двух точек, при этом значение х[ будем брать фиксированное. В таком случае мы оптимизируем два параметра: угол наклона а графика до точки х[ и угол в после нее;
3) кодируем стратегию для каждого шага при помощи двух точек, и при этом оптимизируем обе
координаты х[ и у1г. Таким образом, у нас есть по
три параметра для оптимизации на каждом шаге —
х1, а и в .
Таким образом, мы получаем 6 различных упрощенных стратегий на основе одной точной. Пример упрощенной стратегии, заданной одной точкой, показан на рис.2 пунктирной линией. На рис.3 показан пример упрощенной стратегии, заданной двумя точками.
Рис.2. Часть точной стратегии и соответствующая ей упрощенная (заданная одной точкой)
т 0.1
Рис.3. Часть точной стратегии и соответствующая ей упрощенная (заданная двумя точками)
Рассмотрим подробнее метод, основанный на минимизации суммы квадратов отклонений. В данном случае мы получаем упрощенные стратегии для каждого шага отдельно. Если мы оптимизируем только один параметр а, то нам достаточно обеспечить минимизацию функции f (а) = I (у. - а(х. - 0,5))2.
¿Хе[0;1]
Минимум такой функции будет достигаться в точке, в которой производная по а будет равняться нулю. Таким образом, получаем следующее выражение для вычисления а:
2 IУ
г:х.е[0,5;1]
а = (x[-0,5)-
-0,5)2'
Це[0,5;1]
В более сложном случае мы будет минимизировать функцию двух переменных (а и в):
f(а,в) = ^ (У-а(Х -0,5))2 + -вХ -X)-o«-x0))2
г:хге[0,5;л(]
Значение для х' выберем равным х' = (хтах - 0,5)/2,
где хтах = тах(х,.). Для того чтобы найти минимум
такой функции, нам понадобится найти решение системы с частными производными: 'д/ (а,р)
да д/ (а,Р)
др
=0,
=0.
Найдем производные и поделим каждое уравнение на -2:
Б( У - а(х.- х0))(х,- х0)+
г:хе[0,5;л(]
+ Е(У. - (Р(Х - <)+а( х[ - х0 ))Х - х0)=0;
г:х,.е(х' ;1]
Б У.. - (р(х. - х')+а(х' - х0 ))(х. - х')=0.
гх.е( х1г ;1]
Из второго уравнения выразим в :
Б( у. -а(х[- х0))(х- х!")
р= .':х,е(х1;1]_
- хг )2
г:х,.е( х ;1]
Введем дополнительные переменные:
Б у(х,- х1)
* г:х,.е(х[ ;1] 1'
Г:Х.е(Х ;1]
- х )(х, - хг)
5 = г:х.е(х[ ;1]_
2 = Бх-х)^.
г:х.е(х' ;1]
В новых переменных р=—аS2. Подставляя полученное выражение в первое уравнение системы, получаем выражение для а :
Б у(х,-х0)+ Б(у-х'))(хГ-х0)
а=
г:х.е[0,5;хГ]
г:х.е(х';1]
Б (х, - х0 )2+
Б((х' - х0) - Б2(х, - х' ))(х' - х0)
г:х,.е[0,5;х1 ] ,':х,е( х1 ;1]
Для случая трех оптимизируемых параметров а , в и х' мы будем использовать полученные выше выражения для вычисления а ив, а также какой-либо метод одномерной численной оптимизации для
х'.
Метод, основанный на минимизации ожидаемых потерь, заключается в численной оптимизации упрощенной стратегии каким-либо методом многопараметрической оптимизации (например, градиентным методом). Значение ожидаемых потерь вычисляется при помощи рекурсивных формул из [4] по упрощенной стратегии. Этот метод требует больше вычислений: необходимо упрощать стратегию целиком (от ^-2) до -2) переменных, в зависимости от выбранного числа оптимизируемых параметров для каждого шага), вместо упрощения стратегий для от-
дельных шагов (несколько простых задач, от 1 до 3 переменных в каждой).
Обратим внимание на предложенный в [5] способ параллельной обработки данных с различными размерами групп. Стратегия для такой обработки будет похожа на описанную выше с той лишь разницей, что не для каждого элемента матрицы А будет определено значение. Значения порогов будут определены только для тех значений п , п , которые могут быть получены в процессе управления с учетом размеров групп.
Для подобной обработки также применимы все предложенные методы поиска упрощенных стратегий.
4. Результаты экспериментов
При помощи метода, основанного на минимизации суммы квадратов отклонений от точной стратегии, были получены упрощенные стратегии для управления с равными (N=15 и N=30) и различными (N=30; к=13 ; размеры групп: 1, 1, 2, 1, 2, 1, 1, 2, 1, 2, 2, 2, 3, 3, 6) размерами групп. Проведено моделирование управления с использованием полученных стратегий методом Монте-Карло.
На рис.4 показаны потери для управления с различными размерами групп. Жирной линией показаны потери для точной стратегии, тонкими линиями — потери для упрощенных стратегий. Как видно из рисунка, потери для разных способов упрощения не очень сильно отличаются между собой (выделяется только способ, основанный на кодировании каждого графика стратегии при помощи одной точки).
Рис.4. Сравнение потерь от применения точной и упрощенных стратегий
При нахождении и тестировании упрощенных стратегий получены следующие результаты: для того чтобы табулировать точную стратегию при N=15, потребуется хранить 42 точки (с учетом симметричности стратегий). Для табулирования упрощенной стратегии потребуется 13 или 26 точек (для кодирования одной и двумя точками соответственно). Разница между потерями для точной и упрощенных стратегий при моделировании методом Монте-Карло не превышала 0,8%.
Для того чтобы табулировать точную стратегию при N=30, потребуется хранить 197 точек (с
учетом симметричности стратегий). Для табулирования упрощенной стратегии потребуется 28 или 56 точек. Разница между потерями для точной и упрощенных стратегий не превышала при моделировании 0,9%.
Для управления с различными размерами групп точная стратегия потребует хранить 81 точку (с учетом симметричности стратегий), тогда как упрощенная стратегия потребует 13 или 26 точек. Разница между потерями для точной и упрощенных стратегий не превышала при моделировании 1,3%.
5. Заключение
Описанные способы получения упрощенных стратегий позволяют табулировать стратегии с использованием меньшего количества информации и при этом получать приемлемое ухудшение результатов. Описанные методы поиска упрощенных стратегий применимы к стратегиям параллельного управления с различными размерами групп, описанным в [5].
Автор выражает благодарность А.В.Колного-рову за постановку задачи и помощь в подготовке статьи.
Работа выполнена при финансовой поддержке РФФИ, проект № 13-01-00334.
1. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.
2. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.
3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall. 1985. 275 р.
4. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2011. №5. С.127-138.
5. Олейников А.О. Численная оптимизация параллельной обработки в стационарной случайной среде // Труды КарНЦ РАН. 2013. Т.1. С.73-74.
References
1. Tsetlin M.L. Issledovaniia po teorii avtomatov i modeliro-vaniiu biologicheskikh sistem [The research on the automata theory and biological systems modelling]. Moskow, "Nauka" Publ., 1969. 316 p.
2. Sragovich V.G. Adaptivnoe upravlenie [Adaptive control]. Moscow. "Nauka" Publ., 1981. 384 p.
3. Berry D.A., Fristedt B. Bandit Problems. London, New York: Chapman and Hall. 1985, 275 р.
4. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v sluchainoi srede (zadacha o dvurukom bandite) [Finding minimax strategy and minimax risk in a random environment (the two-armed bandit problem)]. Avtomatika i telemekhanika - Automation and remote control, 2011, no. 5, pp. 127-138.
5. Oleinikov A.O. Chislennaia optimizatsiia parallel'noi obrabotki v statsionarnoi sluchainoi srede [Numerical optimization of parallel processing in a stationary environment], Trudy KarNTS RAN [Proceedings of the Karelian RC of the RAS]. 2013, vol. 1, pp. 73-74.