Научная статья на тему 'О робастном управлении в случайной среде, характеризуемой нормальным распределением доходов с различными дисперсиями'

О робастном управлении в случайной среде, характеризуемой нормальным распределением доходов с различными дисперсиями Текст научной статьи по специальности «Математика»

CC BY
98
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОБАСТНОЕ УПРАВЛЕНИЕ / СЛУЧАЙНАЯ СРЕДА / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / ROBUST CONTROL / RANDOM ENVIRONMENT / TWO-ARMED BANDIT PROBLEM

Аннотация научной статьи по математике, автор научной работы — Лазутченко Алексей Николаевич

Рассмотрена задача об оптимальном управлении в случайной среде (задача о двуруком бандите). Получены уравнения для вычисления байесовских рисков и потерь для доходов с различными дисперсиями. Представлены результаты вычислений. Результаты проверены с помощью моделирования методом МонтеКарло.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ROBUST CONTROL IN A RANDOM ENVIRONMENT CHARACTERIZED BY A NORMAL DISTRIBUTION OF INCOMES WITH DIFFERENT VARIANCES

The problem of optimal control in a random environment (also known as the twoarmed bandit problem) is considered. The equations for calculating Bayes risks and losses are obtained for incomes with different variances. The results of the calculations are given. The results were verified by Monte-Carlo simulation.

Текст научной работы на тему «О робастном управлении в случайной среде, характеризуемой нормальным распределением доходов с различными дисперсиями»

Труды Карельского научного центра РАН №10. 2015. С. 107-113 DOI: 10.17076/mat156

УДК 519.6

О РОБАСТНОМ УПРАВЛЕНИИ В СЛУЧАЙНОЙ СРЕДЕ, ХАРАКТЕРИЗУЕМОЙ НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ ДОХОДОВ С РАЗЛИЧНЫМИ ДИСПЕРСИЯМИ

А. Н. Лазутченко

Новгородский государственный университет им. Ярослава Мудрого

Рассмотрена задача об оптимальном управлении в случайной среде (задача о двуруком бандите). Получены уравнения для вычисления байесовских рисков и потерь для доходов с различными дисперсиями. Представлены результаты вычислений. Результаты проверены с помощью моделирования методом Монте-Карло.

Ключевые слова: робастное управление, случайная среда, задача о двуруком бандите.

A. N. Lazutchenko. ROBUST CONTROL IN A RANDOM ENVIRONMENT CHARACTERIZED BY A NORMAL DISTRIBUTION OF INCOMES WITH DIFFERENT VARIANCES

The problem of optimal control in a random environment (also known as the two-armed bandit problem) is considered. The equations for calculating Bayes risks and losses are obtained for incomes with different variances. The results of the calculations are given. The results were verified by Monte-Carlo simulation.

Key words: robust control, random environment, two-armed bandit problem.

Введение

Рассматривается задача об оптимальном управлении в случайной среде с нормально распределенными доходами, также известная как задача о двуруком бандите [5]. Такие среды возникают при использовании групповой обработки данных, если для обработки можно использовать два альтернативных метода. В этом случае одинаковый метод применяется к группам данных, а реакцией среды является количество успешно обработанных данных. В силу центральной предельной теоремы оно имеет приблизительно нормальное распределение.

Итак, случайная среда - это управляемый случайный процесс ( = 1 , Т, Т - горизонт управления), значения которого интерпретируются как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные распределения с плотностями

/п(х\шг) = (2пВ)-1/2 ехр{-(х - ш^)2/(2В)},

где £ - номер выбранного действия (£ = 1, 2), Ш£ - его математическое ожидание, В - дисперсия одношагового дохода. При такой постановке задачи случайная среда описывается вектором математических ожиданий в =

(ш1, т2), а также дисперсией В. В нашем случае параметр в фиксирован, но неизвестен лицу, осуществляющему управление. Ограничение на множество рассматриваемых дисперсий имеет вид Во ^ В ^ 1, Во > 0.

Введем функцию потерь Ьт(ст, в), значениями которой являются потери за время управления, вызванные неполнотой информации о системе, где ст - используемая стратегия. Если бы в был известен, то наилучшей стратегией являлась бы та, которая применяла бы то действие, которому соответствовала большая из величин Ш1 и Ш2, и ожидаемый полный доход в этом случае был бы равен шах(ш1,ш2) ■ Т. Но в нашей постановке в неизвестен, поэтому возникают потери вследствие неполноты информации о среде, равные

Ьт(ст, в) = шах(т1, Ш2) ■ Т - ^^ & ^ ,

где Еа,$ - математическое ожидание потерь полного дохода. Предполагается, что ограничения на множество допустимых значений параметра в имеют вид в = {(ш1,ш2) : |т1 — т2| ^ 2с}, где с - некоторая константа (0 < с < те).

При использовании минимаксного подхода, предложенного, например, в [6], цель управления состоит в минимизации максимальных ожидаемых потерь полного дохода на множестве параметров в по множеству стратегий £. При этом минимаксный риск К^(в) выглядит следующим образом:

КМ (в) = ^вир Ьт(ст, в). £ ©

Для реализации этой цели в работе немецкого математика В. Фогеля [7] была предложена пороговая стратегия, где была получена неулучшаемая оценка минимаксного риска 0,530 < (ВТ)-1/2Кт(в) < 0,752, где Т - горизонт управления, В - максимальная дисперсия дохода.

Хотя в [7] рассматриваются бинарные случайные среды, оценки легко переносятся на случай сред с нормально распределенными доходами. Такие среды используются, в частности, в [4], где рассматривается двухпороговая стратегия, которая позволяет улучшить качество управления за счет уменьшения средних потерь дохода. Ниже рассматривается минимаксное (а следовательно, робастное) управление, определяемое с использованием основной теоремы теории игр. Робастность минимаксного подхода означает выполнение некоторого нужного нам свойства при всех допустимых значениях параметров. В нашем

случае использование минимаксной стратегии ст обеспечивает ограниченность потерь Ьт(ст, в) ^ Кт(в) при всех допустимых значениях параметра в. Минимаксные стратегии и риск ищутся как байесовские, соответствующие наихудшему априорному распределению. Эта задача в случае равных единичных дисперсий доходов рассмотрена в [2], [3]. В данной работе этот подход обобщается на случай, когда дисперсии доходов В на действиях попарно одинаковы и могут принимать различные значения из множества Во ^ В ^ 1, Во > 0. Для этого случая выведены формулы для вычисления байесовских рисков и потерь, а также вычислены соответствующие значения. Показано, что в этом случае управление остается робастным, т. е. гарантируется ограниченность потерь на всем множестве в.

Вывод уравнений для доходов с дисперсиями, отличными от Единицы

В [2] установлена связь между минимаксным и байесовским подходом к решению рассматриваемой задачи. А именно, предлагается воспользоваться основной теоремой теории игр, согласно которой минимаксные стратегию и риск можно искать как байесовские, соответствующие наихудшему априорному распределению. Там же указано, что такое распределение может быть выбрано симметрическим и асимптотически однородным.

Итак, пусть /в(х|М) = (2пВ)_1/2 ехр{—(х-М)2/(2В)}, - плотность нормального распределения с математическим ожиданием М и дисперсией В, Л(ш1,ш2) - плотность априорного распределения на множестве параметров в, ¿1, ¿2 - количества применений обоих действий £ = 1 и £ = 2 соответственно (¿1 + ¿2 = ¿), Х1,Х2 - доходы на действиях, К^_4(Л;X, ¿ьХ2^2) - байесовский риск, рассчитываемый для дисперсии В = 1 относительно апостериорного распределения с плотностью Л:

Л(т1,Ш2|ХЬ£1,Х2,£2 ) = /¿! (Х1|^1Ш1)/^2 (Х2|^2Ш2)Л(т1,Ш2)

// /г1 (Х1^1Ш1)/42 (Х2^2т2)Л(Ш1 ,Ш2)ЙШ1^Ш2 '

©

(1)

Пусть = шах(х, 0). Тогда

кВ_4(0 = ш1П(кт1) 4(-),кт2! ,(•)), (2

?(1)

(2)

где Е01)(-) = Я0\)=О, ?(1)

(Л; ХЬ*ЬХ2,*2) Л^ьт^Х^^,^^) (т2 - Ш1)

+еХ1)Ег1- 1(Л; Х1 +1, ¿1 + 1,^2^2)

(3)

(Л; ХЬ*ЬХ2,*2) Л^ьт^Хь^,^^) (т1 - т2)

©

+еХ1) Д2- 1 (Л; X, ¿1, Х2 +1, ¿2 +1)

(4)

ДВ-4(Л) = \/ВдВ-4(Л).

(6)

Доказательство. Плотность /п в нашем случае перепишется как:

Л X _ ш, где X, = /= , т,

л/В'

л/В'

£ = 1, 2.

С учетом этого плотность апостериорного распределения Л (1) перепишется так:

Л(ш1, Ш2 \Х1, ¿1, Х2, ¿2) = В Л(ш 1, шш 21ХЛ1, ¿1, Х2, ¿2). При этом байесовский риск равен:

Я£-4(Л; Х^ьХг^) = шт(яТ_*(0,ЯТ-*(0)

^Л01)(-) = Е2)(-) = 0,

(2)

Е^Я^) = J Е(х)/(ж\ш,)(к, £ = 1,2. (5)

Байесовская стратегия предписывает выбирать то действие, которому соответствует

меньшее из значений яГ-4(-) и любое при их равенстве. На первых двух шагах действия следует применить по очереди.

По аналогии с (2)-(5) обозначим через (Л; Хъ*1,Х2,*2) байесовский риск, рассчитанный для доходов с дисперсиями, отличными от единицы, относительно апостериорного распределения с плотностью Л. Справедлива следующая теорема.

Теорема 1. Байесовский риск рассчи-

танный для доходов с дисперсиями Во ^ В ^ 1, Во > 0, связан с байесовским риском рассчитанным для доходов с В = 1 следующим соотношением:

Дг— 4(Л; Хь tl, х2, ¿2) Л(Ш1,Ш2\Х1, ¿1, Х2, ¿2) (ш2 - Ш1)

+Е<ь1)яТ- 4-1(Л; X + 1, ¿1 + 1,Х2,*2) (Л; Х1, ¿1, Х2, ¿2)

Л(Ш1,Ш2\Х1, ¿1, Х2, ¿2) (Ш1 - Ш2) +

+Е (2)ДЛГ2! 4_ а(Л; Х1, ¿1, Х2 + 1, ¿2 + 1) ^ш1^ш2, Е ^(ж) = ^ВеХ°Я(Л), £ = 1,2.

Преобразуем формулы:

(Л; Х1, ¿1, Х2, ¿2)

В Л(ш 1, шш 2 \ ХХ1, ¿1, ХХ2 ,¿2)

/В (

ш2 - ш1

V л/В

(Х,\£,Ш,) =

1

лДЛШе

ехи -

(х, - ¿,ш,)2 \ +/Ве~1)ЯТ1- 4-1(Л; +1,*2,*2)

л/ВЛ/Ш,

ехр

2В£,

1тп - ^ 75

V

^\[В\[В(1т 1 (ш 2 = /В // Л(ш 1, ш 2 \ ХХ1, ¿1, Х2, ¿2)

/

©

у/ВЛ/Ш,

1 / (х, - ,)2

ехр -

( тЛ 2 - тЛ 1 )

+

1

л/В

2*,

/4, , ),

+еХ1)Я(Г- 4-1(Л; X + 1,^1 + 1,Х2,£2) = /ВдГ1- ДА; X ,¿1,^2, ¿2).

(ш 1(ГЛ 2

109

X

1

X

~(2)

Аналогично для R(p_t:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

R?! t (A; Xi,ti,X2,t2 ) = vDR?! t(A; XTi,ii,JX2 ,¿2)

В итоге приходим к следующему соотношению:

Rt-Î(A) = \/DRB_t(A).

где RÎl1_t2 (Z) = R^i (Z) при ti + ¿2 = T, Z = Xi ¿2 — X2Î4.

(2_

<1 (Z)= vgtl>t2(Z, v)

+j Rti+i,t2 (Z + ^^ ) dz, (8)

¿2

(Z )= vgti >t2 (Z, — v)

+¿1 J Rti,i2+i(Z + z)^ () dz (9)

ti

Наихудшее априорное распределение определяется как va(u, v) = fca(u)p(v), где ka(u) - постоянная плотность на отрезке |u| ^ a, p(v) - симметрическая плотность (p(v) = р(—v)) и a ^ те. При этом байесовский риск относительно него вычисляется по формуле

lim RB (va(u, v)) =

( +г

\/D I 2v + / Ri,i(z)dz

(12)

Формула (6) позволяет нам вычислять байесовские риски при дисперсиях, отличных от единицы, используя формулы, выведенные в [2].

Численная оптимизация

Приведем окончательные формулы для вычисления рисков и потерь, учитывая (6). При этом, как ив [2], предполагается, что асимптотически наихудшая плотность р(г>) вырождена и сосредоточена в двух точках г = ±(1Т_1/2 с вероятностями 1/2, где с1 = ^/л/В, ^ = |т1 — т2|, т1, т2 - математические ожидания доходов на действиях £ = 1, 2:

К^2(Я) = шт^(Я), (^)), (7)

Оптимальная стратегия на первых двух шагах применяет оба действия по очереди. Далее, для каждой текущей группы чисел (Я, ¿1, ¿2) выбирается действие, которому соответствует

меньшее значение из значений (Я),£ = 1,2. 1,2

Далее рассматриваем класс стратегий вида {ст^(Я, ¿1, ¿2)}, которые осуществляют выбор действий на основе текущей статистики (Я, ¿1, ¿2). При этом стДЯ, ¿1, ¿2) = 1, если для статистики (Я, ¿1 , ¿2) байесовская стратегия предписывает выбирать £-е действие, и ст^(Я, ¿1, ¿2) = 0 в противном случае. При этом для распределения (и, V) потери находятся по формуле

Ll,t2 (Z)= ^(Z^i, ¿2)4^2 (Z)

+^2(Z, ¿i, ¿2)^(2_2 (Z)

(13)

где L(i>)t2 (Z) = L^ (Z) = 0 при ¿i + ¿2 = T,

4^ (Z)= vgti>t2(Z, v)

+1 j Lti+i>t2 (Z + z)hi (^^ ) dz, (14)

¿2

L(2_ 2 (Z) = vgti>t2 (Z, —v)

+¿1 j Li>t2+i(Z + ^^ ) dz (15)

¿i

при ¿i + ¿2 < T, ¿i ^ 1, ¿2 ^ 1. Здесь _ 1

(Z + 2vtlt2)2 '

x ex^ —

ht (z) =

i+1\ 2^ /

2tlt2(tl + ¿2)

i/2

exp —

2t(t + 1)

(10)

. (11)

при ii +t2 < T, ti ^ 1,t2 ^ 1. Потери при этом равны

lim LT(va(«,v)) = VD + + Li,i(z)dzj . (16)

Для нахождения результатов используются выведенные выше формулы рисков (7)—(12)

2

и потерь (13)-(16). Наихудшее распределение соответствует максимуму приведенного байесовского риска гг(() = Т 1/2Я|?(■). Затем для найденной в результате вычисления этого риска стратегии для различных дисперсий вычисляются приведенные потери 1г(с?) = Т1/2¿г(■). На рис. 1 приведены графики значений функции рисков гг(с?) и потерь 1г(с?), вычисленные при Т = 50, для 0 ^ ( ^ 20 с шагом 0,1 для

дисперсий 0, 2 ^ В ^ 1 с шагом 0,2. Введены следующие обозначения: г, I - риски и потери, В - дисперсии. Видно, что максимумы Г5о((Л равны приблизительно 0,29, 0,41, 0,5, 0,58, 0,65 при й = 0,7,1,1,3,1,5,1,7, а максимумы 150(сЛ) равны приблизительно 0,5, 0,43, 0,51, 0,58, 0,65 при й = 7,4,1,2,1,3,1,5,1,7 при В = 0,2, 0,4, 0,6, 0,8, 1 соответственно.

Рис. 1. Риски и потери при 0,2 ^ В ^ 1

Рис. 2. Стратегия при В = 0,4

Далее, в результате вычислений были найдены стратегии для Б = 0,2, 0,4, 0,6, 0,8,1, предписывающие выбирать действие £ = 1, ес-

А > N (¿1, ¿2) £ 2 „ . N (¿1, ¿2)

ли А > -=—, и £ = 2, если А ^ -=—,

л/Б л/Б

где N(¿1, ¿2) - функции, определяющие выбор действий на конкретном шаге, £ = ¿1 + ¿2- При Б = 0,4 такие функции изображены на рис. 2.

Для этого случая найденная стратегия оказывается робастной для 0 ^ с? < 2,5. При I > 2,5 на величину потерь начинает оказывать сильное влияние применение неоптимального действия на начальном этапе хотя бы раз. Для увеличения области действия оптимальной стратегии следует увеличить горизонт управления Т.

Моделирование методом Монте-Карло

Можно отметить, что все результаты вычислений, полученные выше при Б = 1, полностью совпадают с [2]. Однако поскольку полученные в данной работе результаты являются новыми, их можно проверить с помощью моделирования методом Монте-Карло [1]. Как показано, например, в [3], управление в рассматриваемых случайных средах тесно связано с возможностью параллельной обработки данных. В нашем случае моделируемые дан-

ные можно обрабатывать параллельно практически без увеличения потерь.

Теперь сделаем замечание. Точность методов численного моделирования, в частности метода Монте-Карло, зависит от количества проведенных испытаний. Под точностью метода в данном случае подразумевается численная разница между величинами потерь, полученных по формулам и при использовании метода Монте-Карло. Эта разница тем меньше, чем больше количество испытаний. Разумеется, при численном моделировании мы вынуждены ограничиться какой-то величиной количества испытаний. В данном случае количество моделирований бралось равным 1 000 000, что позволяет говорить о точности по крайней мере двух значащих цифр после запятой.

Итак, рассчитаем значения функции потерь ¡т(с?) при Т = 50 для 0 ^ I ^ 10 с шагом 0,1 и для дисперсий 0, 2 ^ Б ^ 1 с шагом 0,4. На рис. 3 на одном графике объединены результаты вычислений методом Монте-Карло, а также по формулам (13)-(16). Видно, что для каждой дисперсии линия функции потерь, рассчитанная методом Монте-Карло, повторяет поведение линии функции потерь, вычисленной по формулам. Отметим, что при увеличении горизонта управления результаты становятся точнее.

Рис. 3. Сравнение значений функции потерь, вычисленных по формулам и методом Монте-Карло

Заключение

В работе рассмотрена задача о робастном управлении в случайной среде с нормально

распределенными доходами. Выведены формулы вычисления рисков и потерь асимптотически наихудшего априорного распределения для случая, когда дисперсии на действи-

ях среды попарно равны и принимают различные значения. Используя эти формулы, вычислены значения байесовских рисков и потерь, установлена связь между ними и значениями, полученными ранее. Также результаты проверены моделированием методом Монте-Карло.

В дальнейшем задачу можно обобщить на случай, когда дисперсии доходов на действиях не равны и могут принимать попарно различные значения из некоторого диапазона.

Автор выражает благодарность профессору А. В. Колногорову за постановку задачи и обсуждение полученных результатов.

Литература

1. Бусленко Н. П. [и др.] Метод статистических испытаний (Метод Монте-Карло) М.: Физмат-гиз, 1962. 331 с.

2. Колногоров А. В. Нахождение минимаксных стратегии и риска в случайной среде (задача о двуруком бандите) // АиТ. 2011. № 5. С. 127138.

3. Колногоров А. В. Робастное параллельное управление в случайной среде (задача о двуруком бандите) // АиТ. 2012. № 4. C. 114-130.

4. Лазутченко А. Н. Использование двухпоро-говой стратегии управления в случайной среде с нормально распределенными доходами // Современные проблемы науки и образования. 2014. № 2. URL: www.science-education.ru/116-12590 (дата обращения: 05.12.2014)

5. Berry D. A., Fristedt B. Bandit problems. London; New York: Chapman and Hall, 1985. P. 275.

6. Robbins H. Some aspects of the sequential design of experiments // Bulletin AMS. 1952. Vol. 58, N 5. P. 527-535.

7. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem // Ann. Math. Statist. 1960. Vol. 31. P. 444-451.

Поступила в редакцию 17.04.2015

References

1. Buslenko N. P. [i dr.] Metod statisticheskikh ispytanii (Metod Monte-Karlo) [The method of statistical tests (Monte Carlo method)]. Moscow: Fizmatgiz, 1962. 331 p.

2. Kolnogorov A. V. Nakhozhdenie minimaksnykh strategii i riska v sluchainoi srede (zadacha o dvurukom bandite) [Finding minimax strategies and minimax risk in a random environment (the two-armed bandit problem)]. AiT. 2011. N 5. P. 127-138.

3. Kolnogorov A. V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadacha o dvurukom bandite) [Robust parallel control in a random environment (the two-armed bandit problem)]. AiT. 2012. N 4. P. 114-130.

4. Lazutchenko A. N. Ispol'zovanie dvukhporogovoi strategii upravleniya v sluchainoi srede s normal'no

raspredelennymi dokhodami [Using the two threshold management strategy in a stochastic environment with normally distributed incomes]. Sovremennye problemy nauki i obrazovaniya [Modern problems of science and education]. 2014. N 2. URL: www.science-education.ru/116-12590 (accessed: 05.12.2014)

5. Berry D. A., Fristedt B. Bandit problems. London; New York: Chapman and Hall, 1985. P. 275.

6. Robbins H. Some aspects of the sequential design of experiments. Bulletin AMS. 1952. Vol. 58, N 5. P. 527-535.

7. Vogel W. An asymptotic minimax theorem for the two-armed bandit problem. Ann. Math. Statist. 1960. Vol. 31. P. 444-451.

Received April 17, 2015

СВЕДЕНИЯ ОБ АВТОРБ: CONTRIBUTOR:

Лазутченко Алексей Николаевич Lazutchenko, Aleksey

аспирант Yaroslav-the-Wise Novgorod State University

Новгородский государственный университет 41 Most St. Petersburg St., 173000

им. Ярослава Мудрого Velikiy Novgorod, Russia

ул. Большая Санкт-Петербургская, 41, Великий e-mail: aleskey@hotbox.ru

Новгород, Новгородская область, Россия, 173000 tel.: (8921) 198 52 31

эл. почта: aleskey@hotbox.ru

тел.: (8921) 198 52 31

i Надоели баннеры? Вы всегда можете отключить рекламу.