Минимаксная стратегия управления для класса гауссовских случайных сред с различными дисперсиями

Лазутченко А.Н.

УДК 519.6

МИНИМАКСНАЯ СТРАТЕГИЯ УПРАВЛЕНИЯ ДЛЯ КЛАССА ГАУССОВСКИХ СЛУЧАЙНЫХ СРЕД С РАЗЛИЧНЫМИ ДИСПЕРСИЯМИ

А.Н.Лазутченко

MINIMAX CONTROL STRATEGY FOR SOME GAUSSIAN RANDOM ENVIRONMENTS

WITH DIFFERENT VARIANCES

A.N.Lazutchenko

Институт электронных и информационных систем НовГУ, aleskey@hotbox.ru

Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными доходами с дисперсиями, меньшими единичной. Ранее была получена оптимальная стратегия управления для случайной среды с нормально распределенными доходами с единичными дисперсиями. Проверено предположение об оптимальности этой стратегии для класса случайных сред с дисперсиями, меньшими единичной. Представлены результаты вычислений моделированием методом Монте-Карло.

Ключевые слова: случайная среда, задача о двуруком бандите, оптимальное управление, байесовский подход

The problem of optimal control in a random environment with normally distributed incomes and with less than maximum variances is considered. Earlier there was obtained the optimal control strategy for a random environment with normally distributed incomes with unit variances. In this paper there was checked a hypothesis about optimality of this strategy for the whole set of these environments with different variances. The results of calculations by Monte-Carlo simulation are given. Keywords: random environment, two-arm bandit problem, optimal control, Bayesian approach

1. Введение

Рассматривается задача об оптимальном управлении в случайной среде с нормально распределенными доходами. За рубежом эта задача известна как задача о двуруком бандите [1]. Случайная среда

— это управляемый случайный процесс где t = 1,...,Т. Назовем Т горизонтом управления — это полное время управления случайным процессом. Значения этого процесса можно рассматривать как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные распределения с плотностями

^ (х| т1) = (2пБ, )-1/2 ехр{- (х - т1 )2 /(2Б1)},

где I — номер выбранного действия (в нашем случае рассматривается случайная среда с двумя действиями, поэтому I = 1,2), т1 — его математическое ожидание, Б1 — дисперсия. При такой постановке задачи случайная среда описывается вектором математических ожиданий 6 = (ть т2), а также вектором дисперсий (Б1,Б2). В нашем случае параметр 6 фиксирован, но неизвестен тому, кто осуществляет управление. Ограничение на множество рассматриваемых дисперсий имеет вид Б0 < Б1 <1, Б0 > 0, I = 1,2.

Введем функцию потерь ЬТ (ст, 6), значениями которой являются потери за время управления, вызванные неполнотой информации о системе. Здесь ст

— используемая стратегия. В случае если дисперсии равны, а параметр 6 известен, то наилучшей стратегией является та, которая применяет то действие, которому соответствует большая из величин т1, т2, и максимальный полный доход в этом случае равен тах(тьт2) -Т. Если же 6 неизвестен, то возникают

потери вследствие неполноты информации о среде, равные:

ЬТ (ст, 6) = тах(ть т2)-Т - Ест6

( т \

Ъ ^

V t=l

Здесь ЬТ (ст,6) — функция потерь, Ест6 — математическое ожидание потерь полного дохода. Ограничения на множество допустимых значений параметра 6 имеют вид © = {(т1,т2):|т1 -т2|< с}, где с — некоторая константа (0 < с < да).

При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации максимальных ожидаемых потерь полного дохода на множестве параметров © по множеству стратегий Е. При этом минимаксный риск кМ (©) выглядит следующим образом:

кМ (©) = ^ир ЬТ (ст, 6).

Е ©

В работе [3] была предложена пороговая стратегия, где была получена неулучшаемая оценка минимаксного риска

0,530 < (БТ )-1/2 Кы (©) < 0,752,

где Б — максимальная дисперсия дохода. В [3] рассматриваются бинарные случайные среды, но оценки можно перенести и на случай сред с нормально распределенными доходами. Такие среды используются, например, в [4], где рассматривается двухпороговая стратегия, которая позволяет улучшить качество управления за счет уменьшения средних потерь дохода.

2. Постановка задачи и ее решение методом моделирования Монте-Карло

В работе рассматриваются случайные среды с нормальным распределением доходов (гауссовские случайные среды). Подобные среды возникают при групповой обработке данных, если для обработки можно использовать альтернативные методы. Например, требуется обработать N данных. Разобьем их на Т групп по К данных. Будем использовать минимаксную стратегию, применяющую одинаковый вариант к каждой из групп. При этом к данным с номерами п = К +1,...,^+1)К применяется один и тот же вариант, а затем формируется значение процесса

1 ^+1)К

^ = К 2 Ъ , t = 0,...,Т-1. Реакцией среды явля-

п=К+1

ется количество успешно обработанных данных. Оно имеет приблизительно нормальное распределение в силу центральной предельной теоремы.

Далее рассматривается минимаксное управление, использующее основную теорему теории игр. В этом случае минимаксные стратегии и риск ищутся как байесовские, соответствующие наихудшему априорному распределению. Эта задача в случае равных единичных дисперсий доходов рассмотрена в [2,5], где получена соответствующая минимаксная стратегия. В данной работе мы предполагаем, что такая стратегия является минимаксной не только для рассмотренных сред, но также для класса сред с дисперсиями, отличными от единичной.

Наше предположение о том, что найденная в [2] стратегия является минимаксной для сред с дисперсиями, отличными от максимальной, может быть проверено с помощью моделирования методом Монте-Карло. Моделирование стандартных нормально распределенных случайных величин будет производиться с помощью преобразования Бокса—Мюллера. Сначала моделируются две случайные величины

z1 = со$(2яф)л/- 21пг, z2 = со$(2яф)л/- 21пг, где г и ф — независимые случайные величины, равномерно распределенные на полуинтервале (0; 1]. Затем осуществляется переход к нормально распределенной случайной величине ~(ц, ст2) с использованием преобразования ^ =

Далее, в нашем случае дисперсии доходов Бг на действиях случайной среды будут разными и могут принимать различные значения из множества Б0 < Б1 <1, Б0 > 0, I = 1,2. Нам необходимо проверить, что при таких дисперсиях ни одно из значений

Значения L (а, 6) для некоторых дисперсий

d 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

D1 = 0,20, D2 = 0,80 0 0,072 0,135 0,186 0,228 0,264 0,29 0,313 0,328 0,342 0,351

D1 = 0,80, D2 = 0,20 0 0,115 0,216 0,305 0,381 0,445 0,496 0,539 0,571 0,59 0,606

D1 = 0,50, D2 = 0,50 0 0,092 0,173 0,242 0,298 0,347 0,383 0,412 0,434 0,448 0,457

Значения L^,6) для некоторых пар дисперсий

maxLq- (а,6) при конкретных 6 = (mbm2) не превысит

а

аналогичного при Di = 1. В качестве стратегии а используется стратегия для D = 1. Были вычислены значения Lq (а, 6) для различных пар дисперсий Dl е [0,2; 0;9] с шагом 0,2 для горизонта управления T = 50 для 0< d<10 с шагом 0,1, где d = |mj -m2|. Некоторые результаты вычислений представлены в таблице.

В результате анализа вычисленных значений было выявлено, что наше предположение верно, и полученная в случае единичных дисперсий стратегия действительно является минимаксной для дисперсий, меньших, чем единичная. Для некоторых пар дисперсий значения LT (а, 6) представлены на рисунке. Здесь же сплошной линией приведены значения при D = 1. Отметим, что при увеличении горизонта управления результаты становятся точнее, но требуют больших затрат времени на моделирование.

3. Заключение

Рассмотрена задача об оптимальном управлении в случайной среде с нормально распределенными доходами и двумя действиями. С помощью моделирования методом Монте-Карло проверено предположение о том, что найденная при единичных дисперсиях минимаксная стратегия оказывается минимакс-

ной и при различных дисперсиях, меньших, чем единичная. Результаты представлены в графическом и табличном видах.

В дальнейшем планируется обобщить данную задачу на случай пороговой стратегии управления в случайных средах.

Автор выражает благодарность профессору А.В.Колногорову за содействие при написании статьи.

1. Berry D.A., Fristedt B. Bandit problems. L., N.Y.: Chapman and Hall, 1985. P.275.

2. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (задача о двуруком бандите) // Автоматика и телемеханика. 2011. №5. С.127-138.

3. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem // Ann. Math. Statist. 1960. V.31. P.444-451.

4. Лазутченко А.Н. Использование двухпороговой стратегии управления в случайной среде с нормально распределенными доходами [Электронный ресурс] // Современные проблемы науки и образования. 2014. №2; URL: www.science-education.ru/116-12590 (дата обращения: 12.02.2015).

5. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // АиТ. 2012. №4. C. 114-130.

References

1. Berry D.A., Fristedt B. Bandit problems. London, New York, Chapman and Hall, 1985, p. 275.

2. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v sluchainoi srede (zadacha o dvurukom bandite) [Finding minimax strategy and minimax risk in a random environment (the two-armed bandit problem)]. Avtomatika i

Telemekhanika - Automation and Remote Control, 2011, no. 5, pp. 127-138.

3. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem. Annals of Mathematical Statistics, 1960, vol. 31, pp. 444-451.

4. Lazutchenko A.N. Ispol'zovanie dvukhporogovoi strategii upravleniia v sluchainoi srede s normal'no raspredelennymi dokhodami [Using the two threshold management strategy in a stochastic environment with normal distributed incomes].

Sovremennye problemy nauki i obrazovaniia - Modern problems of science and education, 2014, no. 2. Available at: www.science-education.ru/n6-12590 (accessed 12.02.2015).

5. Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) [Parallel design of robust control in the stochastic environment (the two-armed bandit problem)]. Avtomatika i Telemekhanika -Automation and Remote Control, 2012, vol. 73, no. 4, pp. 689-701.

Минимаксная стратегия управления для класса гауссовских случайных сред с различными дисперсиями Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Лазутченко А.Н.

Похожие темы научных работ по математике , автор научной работы — Лазутченко А.Н.

MINIMAX CONTROL STRATEGY FOR SOME GAUSSIAN RANDOM ENVIRONMENTS WITH DIFFERENT VARIANCES

Текст научной работы на тему «Минимаксная стратегия управления для класса гауссовских случайных сред с различными дисперсиями»