О результатах r-этапной минимаксной процедуры оптимизации в стационарной среде

Мельникова С.В.

УДК 621.391.1-503.5

С.В.Мельникова

О РЕЗУЛЬТАТАХ r-ЭТАПНОЙ МИНИМАКСНОЙ ПРОЦЕДУРЫ ОПТИМИЗАЦИИ

В СТАЦИОНАРНОЙ СРЕДЕ

Институт электронных и информационных систем НовГУ

In the multi-armed bandit problem an analysis of results is given for cases when the number of stages of procedure is arbitrary.

Введение

Рассматривается задача о целесообразном поведении в случайной среде, известная также как задача о «многоруком бандите». Название «многорукий бандит» идет от названия «однорукий» или «двурукий бандит» — игровой автомат, имеющий одну или две рукоятки. Принципиальное отличие «двурукого» от «однорукого бандита» состоит в том, что в случае с «двуруким бандитом» появляется выбор — какую рукоятку использовать для игры. Ясно, что вероятности выигрыша у каждой из рукояток различны, иначе надобность во второй рукоятке исчезает. Но играющий не знает, какая из рукояток имеет лучшую вероятность выигрыша. Под «многоруким бандитом» понимается ситуация, когда имеется более двух вариантов выбора решений, причем каждое решение приводит к определенному, но заранее не известному результату.

Стационарная среда [1,2] — это управляемый случайный процесс ^, t = 1,...,Г, принимающий значения 1, 0, интерпретируемые как доходы и зависящие только от выбираемых в текущие моменты времени вариантов, т.е.

t = 1| у = 1} = Р1, ^ t = 0\Уt = 1} = 4,

Р1 + 41 = 11 = 1,...К.

Таким образом, стационарная среда полностью описывается векторным параметром

0 = (р1,..., рк). Особенностью рассматриваемой постановки задачи является то, что значение параметра является неизвестным и должно, так или иначе, идентифицироваться в процессе управления. Цель управления состоит в максимизации (в некотором смысле) математического ожидания полного дохода.

Это задача об оптимальном последовательном выборе альтернативных вариантов, осуществляемом на основе текущей информации. Задача имеет применения в медицине, биологии, экономике, обработке информации. Вот лишь несколько примеров применения модели «многорукого бандита».

1. Инвестиции в малые предприятия. Существует несколько направлений (или малых предприятий) для инвестиций. Задача: выбрать при данных экономических условиях одно направление (предприятие) для инвестиций.

2. Закупка сырья. Предприятие закупает сырье от различных поставщиков и делает выбор в пользу одного поставщика.

3. Модернизация производства. Предприятие увеличивает (либо меняет) выпуск продукции. Требуется найти оптимальный набор новых товаров.

4. Выбор лекарства. Существует несколько альтернативных видов лекарств. Требуется выбрать наиболее эффективное лекарство для лечения некоторого заболевания.

5. Выбор технологии. Требуется выбрать наиболее эффективную технологию изготовления товара, при использовании которой данный товар будет наиболее широко востребован со стороны покупательской аудитории и при этом будет получен максимальный доход от применения данной технологии.

Суть рассматриваемого подхода состоит в том, что управление можно разбить на небольшое число этапов, на которых применение вариантов может осуществляться параллельно. Это может применяться, например, при испытании лекарств, при передаче информации и т.д.

Рассмотрим случай г-этапной стратегии выбора, например, лекарств. Обозначим через *0 = 0 начальное количество применений всех лекарств, через Х/0 = ... = ХК(0) = 0 — начальные результаты лечения за выбор всех лекарств. Рассматриваемая стратегия начинает с первого этапа апробации и применения всех К лекарств (I = 1,...,К) и далее следует приведенному алгоритму.

На 1-м этапе апробации каждое из к оцениваемых лекарств I = 1й,...,‘,к, 2 < к < К, применяется х,- раз,

1 < , < г _ 1. Затем полное количество применений лекарств и полные результаты лечения пересчитываются по формулам

^-1 + 3^1

и = ^ + кг, X- = Х(-1) + £Ъ , - = 1,.,к.

*+(]-1) т +1

Определяется текущий наилучший результат применения лекарств Х,(,) = тах Х,(г), причем если таких наи-

'«0 1< - <к ‘и

лучших результатов более одного, то выбрать можно любой из них. Затем наилучший результат сравнивается со всеми оставшимися, и если выполняется неравенство Х‘(г) -Х‘(г) > Д, для некоторого варианта /-, то

стратегия отбрасывает соответствующее лекарство из группы проверяемых лекарств I = /л,...,/к. Если по окончании сравнения в группе остается единственное лекарство с номером 1- (т.е. то, которому соответствует наилучший результат лечения), то происходит переход к заключительному этапу. В противном случае выполняется (, + 1)-й этап апробации с оставшимся множеством лекарств. Так как Дг-1 = 0, то переход к

заключительному этапу в конце (г-1)-го этапа апробации является обязательным.

На заключительном этапе применяется только лекарство с номером ‘,-0 , соответствующее наилучшему результату лечения на предыдущем этапе апробации. Этот вариант считается наилучшим по результатам проведенных этапов апробации.

Отметим, что байесовский подход к задаче (особенно при r = 2 и r = 3) рассматривался различными авторами (см., например, [3-5]).

Основные результаты

Обозначим через wl (0) = pl математическое ожидание результата лечения от применения l-го лекарства. Будем рассматривать множество параметров 0 = {0: |pl -pk| < AW< 1; l, k = 1,...,K}. Если бы параметр 0 был известен, то всегда следовало бы выбирать лекарство, соответствующее максимальному значению wl (0). В этом случае математическое ожидание полного результата лечения было бы равно T • max wl (0). Если же параметр неизвестен, то сле-

l=1,...K

дует применять представленную выше стратегию, которая может быть описана последовательностью п = {ть..., xr_i; Ai,.,Ar_i}. Пусть Еп,0 обозначает математическое ожидание при условии, что параметр равен 0, а примененная стратегия есть п, тогда функция потерь и соответствующий минимаксный риск определяются следующим образом:

T

LT(п,0) = T max wl(0)—En0^£t, RT (©) = infsupL (n,0).

l=1,...,K ’ j=f Я 0

Пусть D = 0,1 обозначает максимальную дисперсию дохода Dl (0) = plql на множестве параметров 0 и определены константы

K-1 a K-1

^ at J ф(x + at )Ф(x) П П Ф(x + aj )^х, i=1,]*i

CK = max

a1,..., a к _1 > 0 ^

i=1 —a

где

ф( x) = (2п) 1/2exp(— x2/2), Ф( x) =|ф(? )dt

Эти константы могут быть определены численными методами. Например, С2 ~ 0,240, С3 ~ 0,372, С4 ~ 0,463, С5 ~ 0,532, С6 ~ 0,587, С7 ~ 0,633.

Следующие теоремы описывают асимптотическое поведение минимаксного риска Ят(®) как функции Т для случаев г = 2 и г > 3. Отметим, что случай г = 2, К = 2 был рассмотрен в [6], случай г = 2, К > 2 — в [7].

Теорема 1. Если г = 2, то Д1 = 0 и асимптотически оптимальная продолжительность этапа апробации удовлетворяет условию

AW (K — 1)т1~ CK (D / t1)1/2T .

Следовательно,

C

2/3

K I k1/3t 2/3

K — 1

где к = В(Д№) , а минимаксный риск удовлетворяет предельному равенству

11т КТ (0)х-1 = (К - \)ДЖ.

Т

Теорема 2. Если г > 3, то асимптотически оптимальные продолжительности этапов апробации и значения порогов удовлетворяют условиям

т, ~ (а,Т“-)2, Д, ~ Ь, (2Бт, )1/2, , = 1,...,г - 1, где а!,.,аг_1 удовлетворяют уравнениям

2 а = 2а,+1 _ а,- = 1 _ аг_ь , = 1,...,г _ 2,

Ь1,. ,Ьг_! имеют вид

Ъг ~(Р, 1пТ)1/2, в, ~ 2(1 - а, - 2а1), , = 1,., г _ 1,

т

а\аг_\ удовлетворяют асимптотическим (при Т^-да) соотношениям

2 Ьга2+1(20)1П(К -1) СкВш

ДЖ(К -1)а1

аг аг-1

, = 1,...,г _ 2.

Минимаксный риск удовлетворяет предельному равенству

11т ЯТ (©)(а1 )-2 = (К - 1)ДЖ,

Т ^ад

где а1 = 2г-2(2г-1)-1, а1 ~ у1(1пТ)®1/2, 5Х = (2г-2 -1)х х (2г -1)-1.

Заметим, что приведенные оценки были получены исходя из условий

^т,

■ = 0. (*)

т,

11т — = 0, если , <-, 11т ——

Т т - Т Т

Неулучшаемая оценка минимаксного риска для любых стратегий управления приведена в [8].

Анализ результатов моделирования

Ниже приведены таблицы значений продолжительности этапа апробации и максимума минимаксного риска при различных значениях ДЖ и числе лекарств К для случаев двух, трех и четырех этапов.

В табл. 1 рассматривается случай двух этапов:

1-й этап — апробация и 2-й этап — итоговый, на котором окончательно применяется выбранное лекарство. Более подробно дается информация для случая ДЖ = 0,05; наблюдаемые тенденции справедливы и для значений ДЖ = 0,1 и ДЖ = 0,5. Величина К-т1 показывает, какой процент от величины Т будет выделен на первый этап с учетом всех К вариантов.

Таблица 1

Значения продолжительности этапа апробации К-т и максимума минимаксного риска Я при различных значениях продолжительности Т, величины ДЖ и числа лекарств К для случая г = 2

ДЖ К Т Кть % Я

0,05 2 10000 12 31

100000 6 142

1000000 3 660

4 10000 18 69

100000 8 318

1000000 4 1476

7 10000 25 106

100000 12 494

1000000 5 2291

0,1 4 10000 12 86

100000 5 401

1000000 2 1860

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,5 4 10000 4 148

100000 2 685

1000000 1 3180

1. С увеличением числа лекарств К неизбежно увеличиваются потери Я. Объясняется это тем, что «лишние» потери возникают из-за дополнительного применения большего количества неэффективных лекарств.

2. С увеличением величины Т доля потерь Я уменьшается. При увеличении величины Т в 10 раз минимаксный риск увеличивается менее чем в 5 раз.

3. Если лекарства близки по эффективности (ДЖ мало), то величина этапов апробации увеличивается. Объясняется это тем, что результаты лечения в разных группах будут практически одинаковыми и сложно сразу определить, какое лекарство окажется наиболее эффективным.

4. Если лекарства близки по эффективности (ДЖ мало), то минимаксный риск снижается. С увеличением различия в эффективности лекарств увеличиваются потери Я.

В табл. 2 рассматривается случай трех этапов: 1-й и 2-й— этапы апробации, 3-й этап — итоговый, на котором окончательно применяется выбранное лекарство. Продолжительность 1-го этапа — ть 2-го — т2; величина К-т — итоговое время (максимум), потраченное на 1-й и 2-й этапы для всех лекарств (в процентах от величины Т) — вычислена в предположении, что все лекарства, кроме одного, используются на 2-м этапе апробации, т. е. после 1-го этапа был отсев только одного лекарства.

Таблица 2

Значения максимума продолжительности этапов апробации К-т, величины порога Д1 и максимума минимаксного риска Я при различных значениях продолжительности Т, величины ДЖ и числа лекарств К для случая г = 3

ДЖ К Т т1 т2 К-т, % Д1 Я

0,05 4 10000 409 570 33 15 61

100000 1574 3848 18 32 236

1000000 6020 26287 10 69 903

7 10000 329 411 48 13 99

100000 1266 2777 26 29 380

1000000 4844 18973 15 62 1453

0,1 4 10000 226 467 23 11 68

100000 869 3157 13 24 261

1000000 3324 21564 8 51 997

0,5 4 10000 57 295 11 5 85

100000 219 1993 7 12 328

1000000 837 13615 4 26 1255

Анализируя таблицу, можно сделать следующие выводы:

Анализ таблицы позволяет заключить, что все выводы, сделанные ранее, справедливы, а кроме того можно сделать дополнительные выводы:

5. С увеличением числа этапов г величина минимаксного риска Я уменьшается.

6. Пороговое значение Д1 становится более значительным при увеличении Т и, наоборот, уменьшается при увеличении числа К лекарств.

Таблица 3

Значения максимума продолжительности этапов апробации с учетом всех лекарств К-т, величин пороговых значений Д1, Д2, Д3 и максимума минимаксного риска Я при различных значениях продолжительности Т,

величины ДЖ и числа лекарств К для случая г = 4

K T i AW = 0,05 AW= 0,1 AW = 0,5

Ті K-т, % Ai R т, K-т, % A, R Ті т, A, R

4 100000 1 1290 24 35 194 676 19 25 203 150 12 12 226

2 2415 27 1830 24 961 17

3 5722 0 5217 0 4209 0

1000000 1 4570 15 71 685 2393 13 51 718 533 9 24 799

2 14691 74 11134 64 5849 46

3 45626 0 41599 0 33565 0

7 1000000 1 3731 25 64 1119 1953 21 46 1172 435 15 22 1305

2 10837 63 8213 55 4314 40

3 31991 0 29167 0 23534 0

1 13137 130 6879 94 1532 44

10000000 2 66299 18 169 3941 50245 15 147 4127 26394 11 107 4595

3 257975 0 235201 0 189777 0

Однако отметим особо, что в некоторых случаях (при малых АЖ, Т) не выполняются условия (*), что оказывает влияние на увеличение погрешности при вычислении величин Аь Я. Поэтому из дальнейшего анализа исключим малые значения Т. (Результаты, где условия (*) выполняются, выделены жирным шрифтом).

В табл.3 рассматривается случай четырех этапов: 1-й, 2-й и 3-й — этапы апробации, их продолжительность — т1, т2, т3 соответственно, 4-й этап — итоговый, на котором окончательно применяется выбранное лекарство. Величина К-т вычислена в предположении, что все лекарства, кроме одного, переходили на следующий этап апробации, т. е. после каждого этапа был отсев только одного лекарства. Очевидно, что после каждого этапа будет отсеиваться как минимум одно лекарство и величина К-т может быть уменьшена.

Анализ табл. 3 и ее сравнение с табл. 1, 2 показывают, что сделанные ранее выводы остаются верными. Аналогично выделены жирным шрифтом результаты, когда выполняются условия (*).

Анализируя полученные значения, приходим еще к одному выводу:

7. Пороговые значения отклонения альтернативных лекарств на каждом последующем этапе увеличиваются, за исключением последнего, которое всегда принимается равным нулю: Аг-1 = 0.

Результаты моделирования наглядно показывают верность асимптотических оценок, которые справедливы при больших значениях Т (Т^-да).

1. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.

2. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.

3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall, 1985. 275 p.

4. Witmer J.A. // Ann. Stat. 1986. V.14. P.283-297.

5. Cheng Y. // Sequential Analysis. 1994. V.13. P.329-350.

6. Колногоров А.В. // Проблемы передачи информации. 2000. Т.36. № 4. С.117-127.

7. Колногоров А.В., Мельникова С.В. // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.73-75.

8. Vogel W. // Ann. Math. Statist. 1960. V.31. P.444-451.

О результатах r-этапной минимаксной процедуры оптимизации в стационарной среде Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Мельникова С. В.

Похожие темы научных работ по математике , автор научной работы — Мельникова С. В.

Текст научной работы на тему «О результатах r-этапной минимаксной процедуры оптимизации в стационарной среде»