УДК 519.6
МИНИМАКСНАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ ДЛЯ КЛАССА ГАУССОВСКИХ СЛУЧАЙНЫХ СРЕД С РАЗЛИЧНЫМИ ДИСПЕРСИЯМИ
А.Н.Лазутченко
MINIMAX CONTROL STRATEGY FOR SOME GAUSSIAN RANDOM ENVIRONMENTS
WITH DIFFERENT VARIANCES
A.N.Lazutchenko
Институт электронных и информационных систем НовГУ, [email protected]
Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными доходами с дисперсиями, меньшими единичной. Ранее была получена оптимальная стратегия управления для случайной среды с нормально распределенными доходами с единичными дисперсиями. Проверено предположение об оптимальности этой стратегии для класса случайных сред с дисперсиями, меньшими единичной. Представлены результаты вычислений моделированием методом Монте-Карло.
Ключевые слова: случайная среда, задача о двуруком бандите, оптимальное управление, байесовский подход
The problem of optimal control in a random environment with normally distributed incomes and with less than maximum variances is considered. Earlier there was obtained the optimal control strategy for a random environment with normally distributed incomes with unit variances. In this paper there was checked a hypothesis about optimality of this strategy for the whole set of these environments with different variances. The results of calculations by Monte-Carlo simulation are given. Keywords: random environment, two-arm bandit problem, optimal control, Bayesian approach
1. Введение
Рассматривается задача об оптимальном управлении в случайной среде с нормально распределенными доходами. За рубежом эта задача известна как задача о двуруком бандите [1]. Случайная среда
— это управляемый случайный процесс где t = 1,...,Т. Назовем Т горизонтом управления — это полное время управления случайным процессом. Значения этого процесса можно рассматривать как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные распределения с плотностями
^ (х| т1) = (2пБ, )-1/2 ехр{- (х - т1 )2 /(2Б1)},
где I — номер выбранного действия (в нашем случае рассматривается случайная среда с двумя действиями, поэтому I = 1,2), т1 — его математическое ожидание, Б1 — дисперсия. При такой постановке задачи случайная среда описывается вектором математических ожиданий 6 = (ть т2), а также вектором дисперсий (Б1,Б2). В нашем случае параметр 6 фиксирован, но неизвестен тому, кто осуществляет управление. Ограничение на множество рассматриваемых дисперсий имеет вид Б0 < Б1 <1, Б0 > 0, I = 1,2.
Введем функцию потерь ЬТ (ст, 6), значениями которой являются потери за время управления, вызванные неполнотой информации о системе. Здесь ст
— используемая стратегия. В случае если дисперсии равны, а параметр 6 известен, то наилучшей стратегией является та, которая применяет то действие, которому соответствует большая из величин т1, т2, и максимальный полный доход в этом случае равен тах(тьт2) -Т. Если же 6 неизвестен, то возникают
потери вследствие неполноты информации о среде, равные:
ЬТ (ст, 6) = тах(ть т2)-Т - Ест6
( т \
Ъ ^
V t=l
Здесь ЬТ (ст,6) — функция потерь, Ест6 — математическое ожидание потерь полного дохода. Ограничения на множество допустимых значений параметра 6 имеют вид © = {(т1,т2):|т1 -т2|< с}, где с — некоторая константа (0 < с < да).
При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации максимальных ожидаемых потерь полного дохода на множестве параметров © по множеству стратегий Е. При этом минимаксный риск кМ (©) выглядит следующим образом:
кМ (©) = ^ир ЬТ (ст, 6).
Е ©
В работе [3] была предложена пороговая стратегия, где была получена неулучшаемая оценка минимаксного риска
0,530 < (БТ )-1/2 Кы (©) < 0,752,
где Б — максимальная дисперсия дохода. В [3] рассматриваются бинарные случайные среды, но оценки можно перенести и на случай сред с нормально распределенными доходами. Такие среды используются, например, в [4], где рассматривается двухпороговая стратегия, которая позволяет улучшить качество управления за счет уменьшения средних потерь дохода.
2. Постановка задачи и ее решение методом моделирования Монте-Карло
В работе рассматриваются случайные среды с нормальным распределением доходов (гауссовские случайные среды). Подобные среды возникают при групповой обработке данных, если для обработки можно использовать альтернативные методы. Например, требуется обработать N данных. Разобьем их на Т групп по К данных. Будем использовать минимаксную стратегию, применяющую одинаковый вариант к каждой из групп. При этом к данным с номерами п = К +1,...,^+1)К применяется один и тот же вариант, а затем формируется значение процесса
1 ^+1)К
^ = К 2 Ъ , t = 0,...,Т-1. Реакцией среды явля-
п=К+1
ется количество успешно обработанных данных. Оно имеет приблизительно нормальное распределение в силу центральной предельной теоремы.
Далее рассматривается минимаксное управление, использующее основную теорему теории игр. В этом случае минимаксные стратегии и риск ищутся как байесовские, соответствующие наихудшему априорному распределению. Эта задача в случае равных единичных дисперсий доходов рассмотрена в [2,5], где получена соответствующая минимаксная стратегия. В данной работе мы предполагаем, что такая стратегия является минимаксной не только для рассмотренных сред, но также для класса сред с дисперсиями, отличными от единичной.
Наше предположение о том, что найденная в [2] стратегия является минимаксной для сред с дисперсиями, отличными от максимальной, может быть проверено с помощью моделирования методом Монте-Карло. Моделирование стандартных нормально распределенных случайных величин будет производиться с помощью преобразования Бокса—Мюллера. Сначала моделируются две случайные величины
z1 = со$(2яф)л/- 21пг, z2 = со$(2яф)л/- 21пг, где г и ф — независимые случайные величины, равномерно распределенные на полуинтервале (0; 1]. Затем осуществляется переход к нормально распределенной случайной величине ~(ц, ст2) с использованием преобразования ^ =
Далее, в нашем случае дисперсии доходов Бг на действиях случайной среды будут разными и могут принимать различные значения из множества Б0 < Б1 <1, Б0 > 0, I = 1,2. Нам необходимо проверить, что при таких дисперсиях ни одно из значений
Значения L (а, 6) для некоторых дисперсий
d 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
D1 = 0,20, D2 = 0,80 0 0,072 0,135 0,186 0,228 0,264 0,29 0,313 0,328 0,342 0,351
D1 = 0,80, D2 = 0,20 0 0,115 0,216 0,305 0,381 0,445 0,496 0,539 0,571 0,59 0,606
D1 = 0,50, D2 = 0,50 0 0,092 0,173 0,242 0,298 0,347 0,383 0,412 0,434 0,448 0,457
Значения L^,6) для некоторых пар дисперсий
maxLq- (а,6) при конкретных 6 = (mbm2) не превысит
а
аналогичного при Di = 1. В качестве стратегии а используется стратегия для D = 1. Были вычислены значения Lq (а, 6) для различных пар дисперсий Dl е [0,2; 0;9] с шагом 0,2 для горизонта управления T = 50 для 0< d<10 с шагом 0,1, где d = |mj -m2|. Некоторые результаты вычислений представлены в таблице.
В результате анализа вычисленных значений было выявлено, что наше предположение верно, и полученная в случае единичных дисперсий стратегия действительно является минимаксной для дисперсий, меньших, чем единичная. Для некоторых пар дисперсий значения LT (а, 6) представлены на рисунке. Здесь же сплошной линией приведены значения при D = 1. Отметим, что при увеличении горизонта управления результаты становятся точнее, но требуют больших затрат времени на моделирование.
3. Заключение
Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными доходами и двумя действиями. С помощью моделирования методом Монте-Карло проверено предположение о том, что найденная при единичных дисперсиях минимаксная стратегия оказывается минимакс-
ной и при различных дисперсиях, меньших, чем единичная. Результаты представлены в графическом и табличном видах.
В дальнейшем планируется обобщить данную задачу на случай пороговой стратегии управления в случайных средах.
Автор выражает благодарность профессору А.В.Колногорову за содействие при написании статьи.
1. Berry D.A., Fristedt B. Bandit problems. L., N.Y.: Chapman and Hall, 1985. P.275.
2. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (задача о двуруком бандите) // Автоматика и телемеханика. 2011. №5. С.127-138.
3. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem // Ann. Math. Statist. 1960. V.31. P.444-451.
4. Лазутченко А.Н. Использование двухпороговой стратегии управления в случайной среде с нормально распределенными доходами [Электронный ресурс] // Современные проблемы науки и образования. 2014. №2; URL: www.science-education.ru/116-12590 (дата обращения: 12.02.2015).
5. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // АиТ. 2012. №4. C. 114-130.
References
1. Berry D.A., Fristedt B. Bandit problems. London, New York, Chapman and Hall, 1985, p. 275.
2. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v sluchainoi srede (zadacha o dvurukom bandite) [Finding minimax strategy and minimax risk in a random environment (the two-armed bandit problem)]. Avtomatika i
Telemekhanika - Automation and Remote Control, 2011, no. 5, pp. 127-138.
3. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem. Annals of Mathematical Statistics, 1960, vol. 31, pp. 444-451.
4. Lazutchenko A.N. Ispol'zovanie dvukhporogovoi strategii upravleniia v sluchainoi srede s normal'no raspredelennymi dokhodami [Using the two threshold management strategy in a stochastic environment with normal distributed incomes].
Sovremennye problemy nauki i obrazovaniia - Modern problems of science and education, 2014, no. 2. Available at: www.science-education.ru/n6-12590 (accessed 12.02.2015).
5. Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) [Parallel design of robust control in the stochastic environment (the two-armed bandit problem)]. Avtomatika i Telemekhanika -Automation and Remote Control, 2012, vol. 73, no. 4, pp. 689-701.