УДК 621.391.1-503.5
О ЧИСЛЕ ЭТАПОВ В ЗАДАЧЕ О «МНОГОРУКОМ БАНДИТЕ»
С.В.Неустроева
ON THE NUMBER OF STAGES IN THE MULTI-ARMED BANDIT PROBLEM
S.V.Neustroeva
Институт электронных и информационных систем НовГУ, [email protected]
Рассматривается л-этапная стратегия управления в стационарной среде (задача о «многоруком бандите»), применение которой дает возможность проводить параллельную обработку данных. Анализ результатов проведенного моделирования позволяет определить оптимальное число этапов стратегии.
Ключевые слова: поведение в случайной среде, задача о многоруком бандите, минимаксный подход, параллельная обработка
The multi-armed bandit problem, which has applications in biology, medicine, information processing, economics, etc., is considered. The use of r-stage strategy of behavior in random environment gives an opportunity to perform parallel processing of data. Simulation of results is given to determine the number of stages of the procedure.
Keywords: behavior in random environment, multi-armed bandit problem, minimax approach, parallel processing
Введение
Рассматривается задача о «многоруком бандите», известная также как задача адаптивного управления в стационарной среде. Название происходит от игрового автомата с двумя рукоятками («двурукий бандит»). Случай «многорукого бандита» предполагает наличие числа рукояток больше двух.
Стационарная среда [1,2] — это управляемый случайный процесс / = 1,...,Т, принимающий значения 1, 0. Значение 1 интерпретируется как доход, 0 — его отсутствие. Значения 0 и 1 зависят от выбора варианта в текущий момент времени. Пусть имеется К вариантов управления случайным процессом, причем вероятности получения дохода для каждого варианта различны:
Р& = 1|* = 1} = р,, Р& = 0|* = 1} = Щ, р, + ql = 1, I = 1,..К.
Таким образом, стационарная среда полностью описывается векторным параметром 6 = (р1,..., рК). Значение векторного параметра является неизвестным и должно так или иначе идентифицироваться в процессе управления. Цель адаптивного управления состоит в максимизации (в некотором смысле) математического ожидания полного дохода.
Под «многоруким бандитом» понимается ситуация, когда имеется более двух вариантов выбора решений, причем каждое решение приводит к определенному, но заранее неизвестному результату. Задача адаптивного управления в стационарной среде состоит в оптимальном последовательном выборе альтернативных вариантов, осуществляемом на основе текущей информации, для получения максимального дохода. Задача имеет применение в биологии, медицине, обработке информации, экономике и некоторых других направлениях.
Суть рассматриваемого подхода состоит в следующем: управление можно разбить на небольшое число г этапов. Первые г-1 этапы называются этапами апробации. На этапах апробации идет изучение аль-
тернативных вариантов (причем применение вариантов в некоторых случаях может проводиться параллельно). В первом варианте имеется изначально K альтернатив, после каждого этапа апробации происходит отсев некоторых вариантов.
Рассмотрим случай r-этапной стратегии. Обозначим через t0 = 0 начальное количество применений всех альтернативных вариантов, через Xj(0) = ...=XK(0)=0 — начальные результаты применения всех вариантов (доходы, приносимые соответствующими вариантами). Рассматриваемая стратегия начинает с первого этапа апробации и применения всех K альтернатив (l=1,.,K) и далее следует приведенному алгоритму.
Этапы апробации. На i-м этапе апробации каждое из k оцениваемых вариантов управления l = li1,.,lik, 2 < k < K, применяется Ti раз, 1 < i < r - 1. Затем полное количество применений вариантов и полные результаты их применения пересчитываются по формулам:
U = ti-1 + kTi, Xj = X|-1) + Yfit , j = 1,.,k.
t=ti-1+( j-1)Xi+1
Определяется текущий наилучший результат
применения вариантов X(i) = maxX(i), причем если
lij0 \<j<k
таких наилучших результатов более одного, то выбрать можно любой из них. Затем наилучший результат сравнивается со всеми оставшимися, и если выполняется неравенство X() -X(i) >Ai для некоторого ва-
lij0 lij
рианта lj, то стратегия отбрасывает соответствующий вариант из группы проверяемых альтернативных вариантов l=li1,... ,lik. Если по окончании сравнения в группе остается единственный вариант с номером j (т. е. тот,
которому соответствует наилучший доход), то происходит переход к заключительному этапу. В противном случае выполняется (/'+1)-й этап апробации с оставшимся множеством вариантов. Так как Ar-1 = 0, то переход к заключительному этапу в конце (г-1)-го этапа апробации является обязательным.
Заключительный этап. На этом этапе применяется только вариант с номером j соответствующий наилучшему доходу на предыдущем этапе апробации. Этот вариант считается наилучшим по результатам проведенных этапов апробации.
Обозначим через w^0) = pl математическое ожидание дохода при применении l-й альтернативы. Будем рассматривать множество параметров 0 = {0: pl - pk\ < AW < 1; l, k = 1,...,K}. Если бы параметр 0 был известен, то всегда следовало бы выбирать вариант ls, соответствующий максимальному значению wl(0): ps = max wl (6). В этом случае
l=1,...K
математическое ожидание полного дохода было бы
равно T ■ max wl(6). Если же параметр неизвестен,
l=1,...к
то следует применять описанную выше стратегию, которая может быть выражена последовательностью п = {ть..., xr-1;A1,.,Ar-1}. Пусть Еп,0 обозначает математическое ожидание при условии, что параметр равен 0, а примененная стратегия есть п, тогда функция потерь и соответствующий минимаксный риск определяются следующим образом:
T
L(n,6) =T max wt(6)-EiY^, RT(®) = infsupLT(n,6).
l=1,...,K ' ' n
í=i
Оценки продолжительности этапов апробации %г, пороговых значений Ди минимаксного риска R приведены в [3-5]. Эти оценки были получены исходя из условий
I1
lim —— = 0, если i < j, lim —1^— = 0.
T X j T
T
(*)
Анализ результатов моделирования
Моделирование было проведено с целью наглядности и анализа полученных оценок. Была поставлена задача: для различных значений продолжительности Т определить оптимальное число г этапов апробации при различных значениях величины ДW, числа К вариантов управления случайным процессом.
Ниже приведены таблицы значений суммарной продолжительности К-т этапов апробации и максимума R минимаксного риска при различных значениях числа К вариантов, значениях Д W и числа этапов г для случаев продолжительности Т = 10000, Т= 500000, Т = 10000000.
В табл.1 рассматривается случай Т = 10000 для числа альтернатив К = 3, К = 4, К = 7 и для значений различий между вероятностями дохода ДW = 0,05, ДW = 0,1, ДW = 0,5. Величина К-т характеризует суммарную продолжительность всех этапов апробации и показывает, какой процент от величины Т будет выделен на этапы (этап — для г = 2) апробации с учетом всех К вариантов. Величина К-т (относительное значение величины этапов апробации) вычислена в предположении, что при г > 3 все альтернативные варианты, кроме одного, переходят на следующий этап апробации, т. е. после каждого этапа был отсев только одной альтернативы. Очевидно, что после каждого этапа может отсеиваться более одного вариан-
та, и тогда величина К-т будет уменьшена. При г = 2 на единственном этапе апробации применяются все К вариантов, и на второй этап переходит только одна альтернатива.
Таблица 1
Значения суммарной продолжительности этапов апробации с учетом всех вариантов К-т и максимума минимаксного риска R при различных значениях К, Д W и г для случая Т = 10000
AW r К = 3 К II 4 К и 7
2 3 2 3 4 2 3 4
0,05 Кг, % 16 27 18 33 41 25 48 64
R 52 45 69 61 54 106 99 89
0,1 Кг, % 10 19 12 23 30 16 33 48
R 65 50 86 68 57 134 109 93
0,5 Кг, % 3 9 4 11 17 5 16 28
R 111 63 148 85 63 229 137 103
Результаты численного моделирования позволяют сделать ряд выводов относительно числа этапов r (некоторые из них отмечены в [6]).
1. С увеличением числа этапов r величина минимаксного риска R уменьшается, что наглядно представлено на рис.1.
б 160
S. 140 о
0 120
£ 100 га
Л 80
s 60 s
£ 40
1 20
с
а) 0 . . . .
m
0 1 2 3 4 5
Число этапов
Рис.1. Зависимость минимаксного риска R от числа этапов r для случаев AW = 0,05 (1), AW = 0,1 (2), AW = 0,5 (3) при T = 10000, K = 4
2. При увеличении числа этапов r значение минимаксного риска R мало зависит от различия Д W между вероятностями получения дохода, что также можно видеть на рис.1. Точки графиков минимаксного риска R, соответствующие значению числа этапов r = 4, расположены близко друг к другу, практически сливаются.
3. При малых значениях Д^ значение минимаксного риска R мало зависит от числа этапов r. На рис.1 видно, что график (1), соответствующий случаю Д^ = 0,05, пологий, почти горизонтальный.
В табл.2 рассматриваются случаи T = 500000 и T = 10000000 для числа альтернатив K = 3, K = 4, K = 7 и для значений различий между вероятностями дохода Д^ = 0,05, Д^ = 0,1, Д^ = 0,5. Для числа вариантов K = 7 изучается возможность применения 5-этапной
стратегии. Случай г = 5 не рассматривается для продолжительности Т = 10000, так как в этом случае не выполняются условия (*), что оказывает влияние на увеличение погрешности при вычислении величин Кт и К.
го риска К существенно зависит от числа этапов г, когда г невелико (г = 2;3). Для продолжительности Т = 10000000 наблюдаемая зависимость еще значительнее. Таким образом, вывод 3 верен для небольших значений продолжительности Т.
Таблица 2
Значения суммарной продолжительности этапов апробации с учетом всех вариантов К-т и максимума минимаксного риска К при различных значениях К, AW и г для случаев Т = 500000 и Т = 10000000
К AW г 500000 10000000
Кт К Кт К
3 0,05 2 4 702 2 5172
3 10 447 5 2552
0,1 2 3 884 1 6517
3 7 494 4 2818
0,5 2 1 1512 0,3 11144
3 4 622 2 3546
4 0,05 2 5 930 2 6851
3 12 603 6 3441
4 17 469 11 2414
0,1 2 3 1171 1 8632
3 9 666 5 3799
4 14 491 9 2528
0,5 2 1 2003 0,4 14760
3 5 838 3 4781
4 10 547 7 2814
7 0,05 2 7 1443 2 10633
3 17 971 9 5538
4 28 765 18 3941
5 39 623 26 3105
0,1 2 4 1818 2 13396
3 13 1072 7 6114
4 23 802 15 4127
5 34 637 24 3175
0,5 2 1 3109 1 22907
3 7 1349 4 7695
4 16 892 11 4595
5 26 671 20 3344
Анализируя табл.2, можно заметить, что выводы 1 и 2 справедливы, что нельзя сказать про вывод 3. На рис.2, иллюстрирующем полученные значения К для продолжительности Т = 500000, по графику (1), соответствующему малому значению А^ (А^ = 0,05), видно, что величина минимаксно-
3500 3000 2500 2000 1500 1000 500 0
3
2
0 1 2 3 4 5 6
Число этапов
Рис.2. Зависимость минимаксного риска R от числа этапов г для случаев ДW = 0,05 (1), ДW = 0,1 (2), ДW = 0,5 (3) при Т = 500000, К = 7
Определим, когда же следует применять два этапа. Анализируя значения минимаксного риска К при К = 4, А^ = 0,05, наблюдаем, что максимум минимаксного риска К уменьшается примерно в 1,13 раз при Т = 10000, в 1,54 раза при Т = 500000 и в 1,99 раз при Т = 10000000, при AW = 0,1 эти отношения составляют 1,26, 1,76 и 2,27 соответственно, еще большие различия при А^ = 0,5. Таким образом, 2-этапную стратегию (первый этап — этап обучения, второй — заключительный) следует применять в тех случаях, когда значения Т и А^ невелики, при этом должно быть невелико число альтернатив К (К < 4), так как с увеличением числа вариантов К неизбежно увеличиваются потери К [6].
Из перечисленных выше выводов можно предположить, что чем больше этапов, тем лучше, значение минимаксного риска К только уменьшается. Однако, экстраполируя зависимость минимаксного риска К от числа этапов г для различных случаев А^ на значение г = 6 (рис.2), ясно, что графики этих функций будут практически сливаться и идти почти горизонтально, т. е. при числе этапов г > 5 потери К практически не зависят от различий в вероятностях получения дохода А^ и от числа этапов г. Таким образом, при фиксированном достаточно большом значении продолжительности Т максимум минимаксного риска К зависит главным образом от числа альтернативных вариантов К и, следовательно, от суммарной продолжительности этапов апробации К-т.
Анализ табл.1,2 позволяет сделать еще несколько выводов.
4. С увеличением числа этапов г относительное значение величины этапов апробации К-т тоже увеличивается (см. рис.3), что вполне очевидно, учитывая (*).
0 1 2 3 4 5 6
Число этапов
Рис.3. Зависимость относительного значения величины этапов апробации Кт от числа этапов г для случаев Д W = 0,05 (1), ДW = 0,1 (2), ДW = 0,5 (3,4) при Т = 500000 (1,2,3), Т = 10000000 (4), К = 7
5. Увеличение продолжительности Т ведет к уменьшению относительного значения величины этапов апробации К-т, что видно при сравнении графиков (3) и (4) на рис.3. Это позволяет увеличить число этапов г, при этом доля величины Т, приходящаяся на потери R, будет уменьшаться. Так, например, при К = 7 и ДW = 0,5 относительные значения величин этапов апробации К-т и минимаксного риска R равны 27% и 0,13% для Т = 500000 и 20% и 0,03% соответственно для Т = 10000000.
6. При большом числе альтернативных вариантов К увеличение числа этапов г ведет к резкому увеличению величины этапов апробации К-т, что иллюстрирует рис.4.
0 1 2 3 4 5 6
Число этапов
Рис.4. Зависимость относительного значения величины этапов апробации К т от числа этапов г для случаев К = 5 (1), К = 6 (2), К = 7 (3) при Т = 10000000, Д W = 0,5
Заключение
В г-этапной стратегии оптимальными являются случаи, когда число этапов г от 3 до 5. При
относительно небольших значениях величин Т и К следует применять 2- или 3-этапную процедуру. Увеличение Т благоприятствует увеличению числа этапов г. При увеличении числа альтернатив К необходимо для различных значений числа этапов г оценивать величину этапов апробации К-т и максимум минимаксного риска R. Применять г-этапную стратегию при г > 6 не представляется целесообразным.
Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.
Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.
Колногоров А.В. Об оптимальном априорном времени обучения в задаче о «двуруком бандите» // Пробл. передачи информ. 2000. Т.36. №4. С.117-127. Колногоров А.В., Мельникова С.В. Об оптимальной продолжительности начального этапа в двухэтапной модели целесообразного поведения в случайной среде // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.73-75.
Мельникова С.В. О результатах r-этапной минимаксной процедуры оптимизации в стационарной среде // Вестник НовГУ. Сер.: Техн. науки. 2007. №44. С.42-45. Мельникова С.В. О результатах моделирования целесообразного поведения в стационарной среде // Вестник НовГУ. Сер.: Техн. науки. 2011. № 65. С.79-83.
References
Sragovich V.G. Adaptivnoe upravlenie [Adaptive control]. Moscow, "Nauka" Publ., 1981. 384 p.
Nazin A.V., Pozniak A.S. Adaptivnyi vybor variantov [Adaptive choice of alternatives]. Moscow, "Nauka" Publ., 1986. 288 p.
Kolnogorov A.V. Ob optimal'nom apriornom vremeni obu-cheniia v zadache o «dvurukom bandite» [On optimal prior learning time in the two-armed bandit problem]. Problemy peredachi informatsii - Problems of Information Transmission, 2000, vol. 36, no. 4, pp. 117-127.
Kolnogorov A.V., Mel'nikova S.V. Ob optimal'noi prodolz-hitel'nosti nachal'nogo etapa v dvukhetapnoi modeli tselesoo-braznogo povedeniia v sluchainoi srede [On the optimal duration of the first stage in two-stage model of expedient behavior in random medium]. Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2005, no. 34, pp. 73-75.
Mel'nikova S.V. O rezul'tatakh r-etapnoi minimaksnoi prot-sedury optimizatsii v statsionarnoi srede [Towards results of the r-stage minimax procedure of optimization in the stationary medium]. Vestnik NovGU. Ser. Tekhnicheskie nauki -Vestnik NovSU. Issue: Engineering Sciences, 2007, no. 44, pp. 42-45.
Mel'nikova S.V. O rezul'tatakh modelirovaniia tselesoo-braznogo povedeniia v statsionarnoi srede [On the simulation results of rational behavior in a stationary medium]. Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2011, no. 65, pp. 79-83.
2.
3
4
5
6.
1.
2.
3
4
5
6