Научная статья на тему 'О результатах моделирования целесообразного поведения в стационарной среде'

О результатах моделирования целесообразного поведения в стационарной среде Текст научной статьи по специальности «Математика»

CC BY
94
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОВЕДЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О «МНОГОРУКОМ БАНДИТЕ» / МИНИМАКСНЫЙ ПОДХОД / ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА / «MULTI-ARMED BANDIT» PROBLEM / BEHAVIOR IN RANDOM ENVIRONMENT / MINIMAX APPROACH / PARALLEL PROCE

Аннотация научной статьи по математике, автор научной работы — Мельникова С. В.

Рассмотрены результаты моделирования применительно к задаче о «многоруком бандите» для случаев, когда число этапов стратегии произвольно. Применение стратегии дает возможность проводить параллельную обработку данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О результатах моделирования целесообразного поведения в стационарной среде»

УДК 621.391.1-503.5

О РЕЗУЛЬТАТАХ МОДЕЛИРОВАНИЯ ЦЕЛЕСООБРАЗНОГО ПОВЕДЕНИЯ

В СТАЦИОНАРНОЙ СРЕДЕ

С.В.Мельникова

Институт электронных и информационных систем НовГУ, [email protected]

Рассмотрены результаты моделирования применительно к задаче о «многоруком бандите» для случаев, когда число этапов стратегии произвольно. Применение стратегии дает возможность проводить параллельную обработку данных. Ключевые слова: поведение в случайной среде, задача о «многоруком бандите», минимаксный подход, параллельная обработка

The simulation results of the «multi-armed bandit» problem are given for cases when the number of stages of procedure is arbitrary. The strategy gives an opportunity to perform a parallel processing of data.

Keywords: behavior in random environment, «multi-armed bandit» problem, minimax approach, parallel processing

Введение

Рассматривается задача о целесообразном поведении в стационарной среде.

Стационарная среда [1,2] — это управляемый случайный процесс Ъ, t = 1,...,7’, принимающий значения 1, 0. Значение 1 интерпретируется как доход, 0 — как его отсутствие. Значения 0 и 1 зависят от выбора варианта в текущий момент времени. Пусть имеется K вариантов управления случайным процессом, причем вероятности получения дохода для каждого варианта различны:

P&t =1bt = /}=Pi, P&t = 0| yt = l}=%, Pi + % =1, l=1,K.

Таким образом, стационарная среда полностью описывается векторным параметром 0 = (p1,...,pK). Особенностью рассматриваемой постановки задачи является то, что значение параметра является неизвестным и должно, так или иначе, идентифицироваться в процессе управления. Цель управления состоит в максимизации математического ожидания полного дохода.

Рассматриваемая задача известна также как задача о «многоруком бандите». Под «многоруким бандитом» понимается ситуация, когда имеется более двух вариантов выбора решений, причем каждое решение приводит к определенному, но заранее неизвестному результату. Задача имеет применения в биологии, медицине, обработке информации, экономике и некоторых других сферах.

Суть рассматриваемого подхода состоит в том, что управление можно разбить на небольшое число r этапов. На первых r — 1 этапах, так называемых этапах апробации, идет изучение имеющихся изначально K альтернативных вариантов (причем применение вариантов в некоторых случаях может проводиться параллельно), и после каждого тапа апробации происходит отсев некоторых альтернатив.

Рассмотрим случай r-этапной стратегии. Обозначим через t0 = 0 начальное количество применений всех альтернативных вариантов, через Xi(0) = ... = XK(0) = 0 — начальные результаты применения всех вариантов (доходы, приносимые соответствующими вариантами). Рассматриваемая стратегия начинает с первого этапа апробации и применения всех K альтернатив (l = 1,.,K) и далее следует приведенному алгоритму.

Этапы апробации. На i-м этапе апробации каждое из k оцениваемых вариантов управления

l = ln,...,lik, 2 < k < K, применяется Ti раз, 1 < i < r — 1. Затем полное количество применений вариантов и полные результаты их применения пересчитываются по формулам

ti-1+jTi

t, = ti—1 + kT,, X™ = X^) + £ Ъ , j = 1,.,k.

t=tj-1+( j-1)Tj +1

Определяется текущий наилучший результат применения вариантов X() = maxX(), причем если таких

ij0 1<j<k ‘ij

наилучших результатов более одного, то выбрать можно любой из них. Затем наилучший результат сравнивается со всеми оставшимися, и если выполня-

ется неравенство Х(г) -Х,(г) >Д. для некоторого ва-

Чо ‘и

рианта ‘ц то стратегия отбрасывает соответствующий вариант из группы проверяемых альтернативных вариантов / = /,!,...,/к. Если по окончании сравнения в группе остается единственный вариант с номером Ц (т. е.

тот, которому соответствует наилучший доход), то происходит переход к заключительному этапу. В противном случае выполняется (1 + 1)-й этап апробации с оставшимся множеством вариантов. Так как Д г-1 = 0 , то переход к заключительному этапу в конце (г _ 1)-го этапа апробации является обязательным.

Заключительный этап. На этом этапе применяется только вариант с номером Ц, соответствующий наилучшему доходу на предыдущем этапе апробации. Этот вариант считается наилучшим по результатам проведенных этапов апробации.

Обозначим через ^/(0) = р, математическое ожидание дохода при применении /-й альтернативы. Будем рассматривать множество параметров 0={0:р‘ - рк\ < ДW < 1; /,к = 1,...,К}. Если бы параметр 0 был известен, то всегда следовало бы выбирать вариант 4, соответствующий максимальному

значению ^‘(0): р„ = тах V, (0). В этом случае мате-

Л /=1,..., к

матическое ожидание полного дохода было бы равно

Т • тах V, (0). Если же параметр неизвестен, то сле-

/=1,..., к

дует применять описанную выше последовательную стратегию, которая может быть представлена последовательностью п = {т1,...,тг_1;Д1,...,Дг_1}. Пусть Еп,0 обозначает математическое ожидание при условии, что параметр равен 0, а примененная стратегия есть п, тогда функция потерь и соответствующий минимаксный риск определяются следующим образом:

Т

1Т (п,0)=Т тах м>г (0)-Еп0^ (©) = infsupLr (п,0).

ы,...к , ^ п е

Оценки продолжительности этапов апробации X,-, пороговых значений Д,, минимаксного риска R приведены в [3-5]. Эти оценки были получены исходя из условий

,

Ит — = 0, если , < ц, Ит—^— = 0. (*)

Т Т ц Т Т

Анализ результатов моделирования

Моделирование было проведено с целью наглядности и анализа полученных оценок. Была поставлена задача: для различных значений числа этапов г определить значения продолжительности этапов апробации т, максимума продолжительности этапов апробации с учетом всех вариантов К-т, пороговых значений Д,- и максимума минимаксного риска R при различных значениях продолжительности Т, величины Д W и числе вариантов К.

Ниже приведены таблицы значений продолжительности этапов апробации и максимума минимаксного риска при различных значениях ДW и числе вариантов К для случаев двух, трех и четырех этапов.

В табл.1 рассматривается случай двух этапов: 1-й этап — апробация, на котором выбирается единственный вариант, 2-й этап — итоговый, на котором окончательно применяется выбранный вариант. Более подробно дается информация для случая ДW = 0,05; наблюдаемые здесь тенденции справедливы и для значений ДW = 0,1 и ДW = 0,5. Величина Кт показывает, какой процент от величины Т будет выделен на первый этап с учетом всех К вариантов.

Таблица 1

Значения продолжительности этапа апробации Кт и максимума минимаксного риска R при различных значениях Т, Д W и К для случая двух этапов (г = 2)

ДW К Т К Т1, % R

0,05 3 10000 16 52

100000 7 240

500000 4 702

1000000 3 1114

4 10000 18 69

100000 8 318

500000 5 930

1000000 4 1476

7 10000 25 106

100000 12 494

500000 7 1443

1000000 5 2291

0,1 4 10000 12 86

100000 5 401

500000 3 1171

1000000 2 1860

0,5 4 10000 4 148

100000 2 685

500000 1,1 2003

1000000 0,8 3180

Результаты численного моделирования для двух этапов позволяют сделать ряд заключений.

1. С увеличением числа вариантов К неизбежно увеличиваются потери R, что наглядно представлено на рис.1. «Лишние» потери возникают из-за дополнительного применения большего количества вариантов, приносящих малый доход.

Число вариантов управления

Рис.1. Зависимость величины минимаксного риска Я от числа вариантов управления К для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при ДW = 0,05

2. С ростом величины Т абсолютное значение величины минимаксного риска тоже вырастает, что ясно видно на рис.1, однако доля величины Т, приходящаяся на потери R, уменьшается, что иллюстрирует рис.2. Нетрудно заметить, что в отличие от рис.1 линии (1)-(4) на рис.2 располагаются в обратном порядке.

Число вариантов

Рис.2. Зависимость относительного значения минимаксного риска Я (выраженного в процентах от величины Т) от числа вариантов управления К для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при ДW = 0,05

3. Чем меньше разница между вероятностями получения дохода от различных вариантов (Д W ^ 0), тем величина этапа апробации становится больше, что можно видеть на рис.3. Объясняется это тем, что доходы при применении различных вариантов будут практически одинаковыми и потребуется большее время, чтобы найти различия между вариантами.

Различия между вероятностями получения дохода

Рис.3. Зависимость продолжительности этапа апробации Кт-| от величины ДW для случаев Т = 10000 (1), Т = 100000 (2), Т = 500000 (3), Т = 1000000 (4) при числе вариантов К = 4

4. Доля величины Т, отводимая на этап апробации К-Ть уменьшается при увеличении продолжительности Т (см. рис.2 и 3).

5. Чем меньше различия между вероятностями получения дохода от разных вариантов (Д W ^ 0), тем меньше значение минимаксного риска R. С увеличением различий в получении дохода от применения различных вариантов увеличиваются и потери R.

В табл.2 рассматривается случай трех этапов: 1-й и 2-й — этапы апробации, 3-й — итоговый, на котором окончательно применяется выбранный вариант. Продолжительность 1-го этапа — т1, 2-го — т2, К-т — итоговое время (максимум), потраченное на 1-й и 2-й этапы для всех вариантов (в процентах от величины Т).

Величина К-т вычислена в предположении, что все альтернативные варианты, кроме одного, используются на 2-м этапе апробации, т. е. после 1-го этапа был отсев только одной альтернативы.

Отметим особо, что в некоторых случаях (при малых Д W, Т) не выполняются условия (*), что оказывает влияние на увеличение погрешности при вычислении величин Д1, R. Поэтому из дальнейшего анализа исключим малые значения Т. Результаты, где условия (*) выполняются выделены жирным шрифтом.

Таблица 2

Значения продолжительности этапов апробации т1, т2, максимума продолжительности этапов апробации с учетом всех вариантов К-т, величины порога Д1 и максимума минимаксного риска R при различных значениях Т, Д W и К для случая трех этапов (г = 3)

ДW К Т Т1 Т2 К-т, % Д1 R

4 100000 1574 3848 18 32 236

500000 4022 14726 12 55 603

1000000 6020 26287 10 69 903

7 100000 1266 2777 26 29 380

500000 3236 10629 17 49 971

1000000 4844 18973 15 62 1453

0,1 4 100000 869 3157 13 24 261

500000 2220 12081 9 41 666

1000000 3323 21564 8 51 997

0,5 4 100000 219 1993 7 12 328

500000 559 7628 5 20 838

1000000 837 13615 4 26 1255

Анализируя табл.2, можно заметить, что все выводы, сделанные ранее, справедливы, однако можно сделать дополнительные выводы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. С увеличением числа этапов апробации г величина минимаксного риска R уменьшается, что наглядно представлено на рис.4.

Число этапов апробации

Рис.4. Зависимость минимаксного риска Я от числа этапов апробации г для случаев ДW = 0,05 (1), ДW = 0,1 (2), ДW = 0,5 (3) при Т = 1000000 (данные для случая г = 4 взяты из табл.3)

7. При увеличении числа этапов г значение минимаксного риска R мало зависит от различия между вероятностями получения дохода ДW, что также можно видеть на рис.4. Точки графиков минимаксного риска R, соответствующие значению числа апробации г = 4, расположены близко друг к другу, практически сливаются.

8. Пороговое значение Д1 возрастает при увеличении Т и, наоборот, уменьшается при увеличении числа К вариантов.

В табл.3 рассматривается случай четырех этапов: 1-й, 2-й и 3-й — этапы апробации, 4-й — итоговый, на котором окончательно применяется выбранный вариант. Величина К-т — итоговое время (максимум), потраченное на 3 этапа апробации для всех альтернативных вариантов (в процентах от Т). Эта величина вычислена в предположении, что все альтернативы, кроме одной, переходили на следующий этап апробации, т. е. после каждого этапа был отсев только одного варианта. Очевидно, что после каждого этапа может отсеиваться более одного варианта, и тогда величина К-т может быть уменьшена. Жирным шрифтом выделены результаты, когда выполняются условия (*).

Таблица 3

Значения продолжительности этапов апробации т1, т2, т3, максимума продолжительности этапов апробации с учетом всех вариантов К-т, величин пороговых значений Д1, Д2, Д3 и максимума минимаксного риска R при различных значениях Т, Д W и К для случая четырех этапов (г = 4)

К Т і ДW=0,05 ДW=0,1 ДW=0,5

Ті Кт,% Д, R Ті Кт,% Д, R Ті Кт,% Д, R

4 500000 1 3125 17 57 469 1636 14 41 491 364 10 20 547

2 8525 55 6461 48 3394 34

3 24389 0 22236 0 17942 0

1000000 1 4570 15 71 685 2393 13 51 718 533 9 24 799

2 14691 74 11134 64 5849 46

3 45626 0 41599 0 33565 0

7 500000 1 2551 28 52 765 1336 23 37 802 297 16 18 892

2 6288 47 4766 41 2503 30

3 17100 0 15591 0 12580 0

1000000 1 3731 25 64 1119 1953 21 46 1172 435 15 22 1305

2 10837 63 8213 55 4314 40

3 31991 0 29167 0 23534 0

1 13137 130 6879 94 1532 44

10000000 2 66299 18 169 3941 50245 15 147 4127 26394 11 107 4595

3 257975 0 235201 0 189777 0

Анализ табл.3 и ее сравнение с табл.1,2 показывают, что сделанные ранее выводы верны. Кроме того, приходим еще к одному выводу.

9. Пороговые значения Д, отклонения альтернативных вариантов на каждом последующем этапе увеличиваются (при выполнении условий (*)), за исключением последнего порогового значения Дг-1 на предпоследнем этапе, которое всегда принимается равным нулю. Данный вывод проиллюстрирован рис.5.

Номер этапа апробации

Рис.5. Зависимость пороговых значений Л, отклонения альтернативных вариантов от номера і этапа апробации для случаев ЛМ = 0,05 (1), ЛМ = 0,1 (2), ЛМ = 0,5 (3) при Т = 1000000 (г = 3)

Результаты моделирования наглядно показывают верность асимптотических оценок при больших значениях величины Т (Т^-да).

1. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.

2. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.

3. Колногоров А.В. Об оптимальном априорном времени обучения в задаче о «двуруком бандите» // Проблемы передачи информации. 2000. Т.36. №4. С.117-127.

4. Колногоров А.В., Мельникова С.В. Об оптимальной продолжительности начального этапа в двухэтапной модели целесообразного поведения в случайной среде // Вестник НовГУ. Сер.: Техн. науки. 200З. №34. С.73-75.

З. Мельникова С.В. О результатах r-этапной минимаксной

процедуры оптимизации в стационарной среде // Вестник НовГУ. Сер.: Техн. науки. 2007. №44. С.42-4З.

Bibliography (Translitirated)

1. Sragovich V.G. Adaptivnoe upravlenie. M. :Nauka, 1981. 384 s.

2. Nazin A.V., Poznjak A.S. Adaptivnyjj vybor variantov. M.: Nauka, 1986. 288 s.

3. Kolnogorov A. V. Ob optimal'nom apriornom vremeni obuchenija v zadache o «dvurukom bandite» // Problemy peredachi informacii. 2000. T.36. №4. S.117-127.

4. Kolnogorov A.V., Mel'nikova S.V. Ob optimal'nojj prodolz-hitel'nosti nachal'nogo ehtapa v dvukhehtapnojj modeli cele-soobraznogo povedenija v sluchajjnojj srede // Vestnik NovGU. Ser.: Tekhn. nauki. 200З. №34. S.73^.

З. Mel'nikova S.V. O rezul'tatakh r-ehtapnojj minimaksnojj

procedury optimizacii v stacionarnojj srede // Vestnik NovGU. Ser.: Tekhn. nauki. 2007. №44. S.42^.

i Надоели баннеры? Вы всегда можете отключить рекламу.