УДК 621.391.1-503.5
О РЕЗУЛЬТАТАХ МОДЕЛИРОВАНИЯ ЦЕЛЕСООБРАЗНОГО ПОВЕДЕНИЯ
В СТАЦИОНАРНОЙ СРЕДЕ
С.В.Мельникова
Институт электронных и информационных систем НовГУ, [email protected]
Рассмотрены результаты моделирования применительно к задаче о «многоруком бандите» для случаев, когда число этапов стратегии произвольно. Применение стратегии дает возможность проводить параллельную обработку данных. Ключевые слова: поведение в случайной среде, задача о «многоруком бандите», минимаксный подход, параллельная обработка
The simulation results of the «multi-armed bandit» problem are given for cases when the number of stages of procedure is arbitrary. The strategy gives an opportunity to perform a parallel processing of data.
Keywords: behavior in random environment, «multi-armed bandit» problem, minimax approach, parallel processing
Введение
Рассматривается задача о целесообразном поведении в стационарной среде.
Стационарная среда [1,2] — это управляемый случайный процесс Ъ, t = 1,...,7’, принимающий значения 1, 0. Значение 1 интерпретируется как доход, 0 — как его отсутствие. Значения 0 и 1 зависят от выбора варианта в текущий момент времени. Пусть имеется K вариантов управления случайным процессом, причем вероятности получения дохода для каждого варианта различны:
P&t =1bt = /}=Pi, P&t = 0| yt = l}=%, Pi + % =1, l=1,K.
Таким образом, стационарная среда полностью описывается векторным параметром 0 = (p1,...,pK). Особенностью рассматриваемой постановки задачи является то, что значение параметра является неизвестным и должно, так или иначе, идентифицироваться в процессе управления. Цель управления состоит в максимизации математического ожидания полного дохода.
Рассматриваемая задача известна также как задача о «многоруком бандите». Под «многоруким бандитом» понимается ситуация, когда имеется более двух вариантов выбора решений, причем каждое решение приводит к определенному, но заранее неизвестному результату. Задача имеет применения в биологии, медицине, обработке информации, экономике и некоторых других сферах.
Суть рассматриваемого подхода состоит в том, что управление можно разбить на небольшое число r этапов. На первых r — 1 этапах, так называемых этапах апробации, идет изучение имеющихся изначально K альтернативных вариантов (причем применение вариантов в некоторых случаях может проводиться параллельно), и после каждого тапа апробации происходит отсев некоторых альтернатив.
Рассмотрим случай r-этапной стратегии. Обозначим через t0 = 0 начальное количество применений всех альтернативных вариантов, через Xi(0) = ... = XK(0) = 0 — начальные результаты применения всех вариантов (доходы, приносимые соответствующими вариантами). Рассматриваемая стратегия начинает с первого этапа апробации и применения всех K альтернатив (l = 1,.,K) и далее следует приведенному алгоритму.
Этапы апробации. На i-м этапе апробации каждое из k оцениваемых вариантов управления
l = ln,...,lik, 2 < k < K, применяется Ti раз, 1 < i < r — 1. Затем полное количество применений вариантов и полные результаты их применения пересчитываются по формулам
ti-1+jTi
t, = ti—1 + kT,, X™ = X^) + £ Ъ , j = 1,.,k.
t=tj-1+( j-1)Tj +1
Определяется текущий наилучший результат применения вариантов X() = maxX(), причем если таких
ij0 1<j<k ‘ij
наилучших результатов более одного, то выбрать можно любой из них. Затем наилучший результат сравнивается со всеми оставшимися, и если выполня-
ется неравенство Х(г) -Х,(г) >Д. для некоторого ва-
Чо ‘и
рианта ‘ц то стратегия отбрасывает соответствующий вариант из группы проверяемых альтернативных вариантов / = /,!,...,/к. Если по окончании сравнения в группе остается единственный вариант с номером Ц (т. е.
тот, которому соответствует наилучший доход), то происходит переход к заключительному этапу. В противном случае выполняется (1 + 1)-й этап апробации с оставшимся множеством вариантов. Так как Д г-1 = 0 , то переход к заключительному этапу в конце (г _ 1)-го этапа апробации является обязательным.
Заключительный этап. На этом этапе применяется только вариант с номером Ц, соответствующий наилучшему доходу на предыдущем этапе апробации. Этот вариант считается наилучшим по результатам проведенных этапов апробации.
Обозначим через ^/(0) = р, математическое ожидание дохода при применении /-й альтернативы. Будем рассматривать множество параметров 0={0:р‘ - рк\ < ДW < 1; /,к = 1,...,К}. Если бы параметр 0 был известен, то всегда следовало бы выбирать вариант 4, соответствующий максимальному
значению ^‘(0): р„ = тах V, (0). В этом случае мате-
Л /=1,..., к
матическое ожидание полного дохода было бы равно
Т • тах V, (0). Если же параметр неизвестен, то сле-
/=1,..., к
дует применять описанную выше последовательную стратегию, которая может быть представлена последовательностью п = {т1,...,тг_1;Д1,...,Дг_1}. Пусть Еп,0 обозначает математическое ожидание при условии, что параметр равен 0, а примененная стратегия есть п, тогда функция потерь и соответствующий минимаксный риск определяются следующим образом:
Т
1Т (п,0)=Т тах м>г (0)-Еп0^ (©) = infsupLr (п,0).
ы,...к , ^ п е
Оценки продолжительности этапов апробации X,-, пороговых значений Д,, минимаксного риска R приведены в [3-5]. Эти оценки были получены исходя из условий
,
Ит — = 0, если , < ц, Ит—^— = 0. (*)
Т Т ц Т Т
Анализ результатов моделирования
Моделирование было проведено с целью наглядности и анализа полученных оценок. Была поставлена задача: для различных значений числа этапов г определить значения продолжительности этапов апробации т, максимума продолжительности этапов апробации с учетом всех вариантов К-т, пороговых значений Д,- и максимума минимаксного риска R при различных значениях продолжительности Т, величины Д W и числе вариантов К.
Ниже приведены таблицы значений продолжительности этапов апробации и максимума минимаксного риска при различных значениях ДW и числе вариантов К для случаев двух, трех и четырех этапов.
В табл.1 рассматривается случай двух этапов: 1-й этап — апробация, на котором выбирается единственный вариант, 2-й этап — итоговый, на котором окончательно применяется выбранный вариант. Более подробно дается информация для случая ДW = 0,05; наблюдаемые здесь тенденции справедливы и для значений ДW = 0,1 и ДW = 0,5. Величина Кт показывает, какой процент от величины Т будет выделен на первый этап с учетом всех К вариантов.
Таблица 1
Значения продолжительности этапа апробации Кт и максимума минимаксного риска R при различных значениях Т, Д W и К для случая двух этапов (г = 2)
ДW К Т К Т1, % R
0,05 3 10000 16 52
100000 7 240
500000 4 702
1000000 3 1114
4 10000 18 69
100000 8 318
500000 5 930
1000000 4 1476
7 10000 25 106
100000 12 494
500000 7 1443
1000000 5 2291
0,1 4 10000 12 86
100000 5 401
500000 3 1171
1000000 2 1860
0,5 4 10000 4 148
100000 2 685
500000 1,1 2003
1000000 0,8 3180
Результаты численного моделирования для двух этапов позволяют сделать ряд заключений.
1. С увеличением числа вариантов К неизбежно увеличиваются потери R, что наглядно представлено на рис.1. «Лишние» потери возникают из-за дополнительного применения большего количества вариантов, приносящих малый доход.
Число вариантов управления
Рис.1. Зависимость величины минимаксного риска Я от числа вариантов управления К для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при ДW = 0,05
2. С ростом величины Т абсолютное значение величины минимаксного риска тоже вырастает, что ясно видно на рис.1, однако доля величины Т, приходящаяся на потери R, уменьшается, что иллюстрирует рис.2. Нетрудно заметить, что в отличие от рис.1 линии (1)-(4) на рис.2 располагаются в обратном порядке.
Число вариантов
Рис.2. Зависимость относительного значения минимаксного риска Я (выраженного в процентах от величины Т) от числа вариантов управления К для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при ДW = 0,05
3. Чем меньше разница между вероятностями получения дохода от различных вариантов (Д W ^ 0), тем величина этапа апробации становится больше, что можно видеть на рис.3. Объясняется это тем, что доходы при применении различных вариантов будут практически одинаковыми и потребуется большее время, чтобы найти различия между вариантами.
Различия между вероятностями получения дохода
Рис.3. Зависимость продолжительности этапа апробации Кт-| от величины ДW для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при числе вариантов К = 4
4. Доля величины Т, отводимая на этап апробации К-Ть уменьшается при увеличении продолжительности Т (см. рис.2 и 3).
5. Чем меньше различия между вероятностями получения дохода от разных вариантов (Д W ^ 0), тем меньше значение минимаксного риска R. С увеличением различий в получении дохода от применения различных вариантов увеличиваются и потери R.
В табл.2 рассматривается случай трех этапов: 1-й и 2-й — этапы апробации, 3-й — итоговый, на котором окончательно применяется выбранный вариант. Продолжительность 1-го этапа — т1, 2-го — т2, К-т — итоговое время (максимум), потраченное на 1-й и 2-й этапы для всех вариантов (в процентах от величины Т).
Величина К-т вычислена в предположении, что все альтернативные варианты, кроме одного, используются на 2-м этапе апробации, т. е. после 1-го этапа был отсев только одной альтернативы.
Отметим особо, что в некоторых случаях (при малых Д W, Т) не выполняются условия (*), что оказывает влияние на увеличение погрешности при вычислении величин Д1, R. Поэтому из дальнейшего анализа исключим малые значения Т. Результаты, где условия (*) выполняются выделены жирным шрифтом.
Таблица 2
Значения продолжительности этапов апробации т1, т2, максимума продолжительности этапов апробации с учетом всех вариантов К-т, величины порога Д1 и максимума минимаксного риска R при различных значениях Т, Д W и К для случая трех этапов (г = 3)
ДW К Т Т1 Т2 К-т, % Д1 R
4 100000 1574 3848 18 32 236
500000 4022 14726 12 55 603
1000000 6020 26287 10 69 903
7 100000 1266 2777 26 29 380
500000 3236 10629 17 49 971
1000000 4844 18973 15 62 1453
0,1 4 100000 869 3157 13 24 261
500000 2220 12081 9 41 666
1000000 3323 21564 8 51 997
0,5 4 100000 219 1993 7 12 328
500000 559 7628 5 20 838
1000000 837 13615 4 26 1255
Анализируя табл.2, можно заметить, что все выводы, сделанные ранее, справедливы, однако можно сделать дополнительные выводы.
6. С увеличением числа этапов апробации г величина минимаксного риска R уменьшается, что наглядно представлено на рис.4.
Число этапов апробации
Рис.4. Зависимость минимаксного риска Я от числа этапов апробации г для случаев ДW = 0,05 (1), ДW = 0,1 (2), ДW = 0,5 (3) при Т = 1000000 (данные для случая г = 4 взяты из табл.3)
7. При увеличении числа этапов г значение минимаксного риска R мало зависит от различия между вероятностями получения дохода ДW, что также можно видеть на рис.4. Точки графиков минимаксного риска R, соответствующие значению числа апробации г = 4, расположены близко друг к другу, практически сливаются.
8. Пороговое значение Д1 возрастает при увеличении Т и, наоборот, уменьшается при увеличении числа К вариантов.
В табл.3 рассматривается случай четырех этапов: 1-й, 2-й и 3-й — этапы апробации, 4-й — итоговый, на котором окончательно применяется выбранный вариант. Величина К-т — итоговое время (максимум), потраченное на 3 этапа апробации для всех альтернативных вариантов (в процентах от Т). Эта величина вычислена в предположении, что все альтернативы, кроме одной, переходили на следующий этап апробации, т. е. после каждого этапа был отсев только одного варианта. Очевидно, что после каждого этапа может отсеиваться более одного варианта, и тогда величина К-т может быть уменьшена. Жирным шрифтом выделены результаты, когда выполняются условия (*).
Таблица 3
Значения продолжительности этапов апробации т1, т2, т3, максимума продолжительности этапов апробации с учетом всех вариантов К-т, величин пороговых значений Д1, Д2, Д3 и максимума минимаксного риска R при различных значениях Т, Д W и К для случая четырех этапов (г = 4)
К Т і ДW=0,05 ДW=0,1 ДW=0,5
Ті Кт,% Д, R Ті Кт,% Д, R Ті Кт,% Д, R
4 500000 1 3125 17 57 469 1636 14 41 491 364 10 20 547
2 8525 55 6461 48 3394 34
3 24389 0 22236 0 17942 0
1000000 1 4570 15 71 685 2393 13 51 718 533 9 24 799
2 14691 74 11134 64 5849 46
3 45626 0 41599 0 33565 0
7 500000 1 2551 28 52 765 1336 23 37 802 297 16 18 892
2 6288 47 4766 41 2503 30
3 17100 0 15591 0 12580 0
1000000 1 3731 25 64 1119 1953 21 46 1172 435 15 22 1305
2 10837 63 8213 55 4314 40
3 31991 0 29167 0 23534 0
1 13137 130 6879 94 1532 44
10000000 2 66299 18 169 3941 50245 15 147 4127 26394 11 107 4595
3 257975 0 235201 0 189777 0
Анализ табл.3 и ее сравнение с табл.1,2 показывают, что сделанные ранее выводы верны. Кроме того, приходим еще к одному выводу.
9. Пороговые значения Д, отклонения альтернативных вариантов на каждом последующем этапе увеличиваются (при выполнении условий (*)), за исключением последнего порогового значения Дг-1 на предпоследнем этапе, которое всегда принимается равным нулю. Данный вывод проиллюстрирован рис.5.
Номер этапа апробации
Рис.5. Зависимость пороговых значений Л, отклонения альтернативных вариантов от номера і этапа апробации для случаев ЛМ = 0,05 (1), ЛМ = 0,1 (2), ЛМ = 0,5 (3) при Т = 1000000 (г = 3)
Результаты моделирования наглядно показывают верность асимптотических оценок при больших значениях величины Т (Т^-да).
1. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.
2. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.
3. Колногоров А.В. Об оптимальном априорном времени обучения в задаче о «двуруком бандите» // Проблемы передачи информации. 2000. Т.36. №4. С.117-127.
4. Колногоров А.В., Мельникова С.В. Об оптимальной продолжительности начального этапа в двухэтапной модели целесообразного поведения в случайной среде // Вестник НовГУ. Сер.: Техн. науки. 200З. №34. С.73-75.
З. Мельникова С.В. О результатах r-этапной минимаксной
процедуры оптимизации в стационарной среде // Вестник НовГУ. Сер.: Техн. науки. 2007. №44. С.42-4З.
Bibliography (Translitirated)
1. Sragovich V.G. Adaptivnoe upravlenie. M. :Nauka, 1981. 384 s.
2. Nazin A.V., Poznjak A.S. Adaptivnyjj vybor variantov. M.: Nauka, 1986. 288 s.
3. Kolnogorov A. V. Ob optimal'nom apriornom vremeni obuchenija v zadache o «dvurukom bandite» // Problemy peredachi informacii. 2000. T.36. №4. S.117-127.
4. Kolnogorov A.V., Mel'nikova S.V. Ob optimal'nojj prodolz-hitel'nosti nachal'nogo ehtapa v dvukhehtapnojj modeli cele-soobraznogo povedenija v sluchajjnojj srede // Vestnik NovGU. Ser.: Tekhn. nauki. 200З. №34. S.73^.
З. Mel'nikova S.V. O rezul'tatakh r-ehtapnojj minimaksnojj
procedury optimizacii v stacionarnojj srede // Vestnik NovGU. Ser.: Tekhn. nauki. 2007. №44. S.42^.