Научная статья на тему 'Нахождение минимаксных стратегии и риска в бинарной случайной среде'

Нахождение минимаксных стратегии и риска в бинарной случайной среде Текст научной статьи по специальности «Математика»

CC BY
111
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / МИНИМАКСНЫЙ ПОДХОД / СИСТЕМЫ ЛИНЕЙНЫХ НЕРАВЕНСТВ / ТЕОРЕМА ХЕЛЛИ / HELLY'S THEOREM / CONTROL IN RANDOM ENVIRONMENT / TWO-ARMED BANDIT PROBLEM / MINIMAX APPROACH / SYSTEMS OF LINEAR INEQUALITIES

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В.

Предложен алгоритм нахождения минимаксных стратегии и риска в бинарной стационарной случайной среде. Алгоритм сводится к поиску глобального максимума функции, численно равной значению минимаксного риска для среды, характеризуемой некоторым конечным подмножеством исходного множества параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FINDING THE MINIMAX RISK AND MINIMAX STRATEGY IN A BINARY RANDOM ENVIRONMENT

We propose an algorithm of finding the minimax risk and minimax strategy in a binary stationary random environment. The algorithm reduces to searching the global maximum of the function being equal to the value of minimax risk for the environment described by some finite subset of the initial parameter set.

Текст научной работы на тему «Нахождение минимаксных стратегии и риска в бинарной случайной среде»

УДК 519.865

НАХОЖДЕНИЕ МИНИМАКСНЫХ СТРАТЕГИИ И РИСКА В БИНАРНОЙ СЛУЧАЙНОЙ СРЕДЕ

А.В.Колногоров

FINDING THE MINIMAX RISK AND MINIMAX STRATEGY IN A BINARY RANDOM ENVIRONMENT

A.V.Kolnogorov

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Предложен алгоритм нахождения минимаксных стратегии и риска в бинарной стационарной случайной среде. Алгоритм сводится к поиску глобального максимума функции, численно равной значению минимаксного риска для среды, характеризуемой некоторым конечным подмножеством исходного множества параметров.

Ключевые слова: управление в случайной среде, задача о двуруком бандите, минимаксный подход, системы линейных неравенств, теорема Хелли

We propose an algorithm of finding the minimax risk and minimax strategy in a binary stationary random environment. The algorithm reduces to searching the global maximum of the function being equal to the value of minimax risk for the environment described by some finite subset of the initial parameter set.

Keywords: control in random environment, two-armed bandit problem, minimax approach, systems of linear inequalities, Helly's theorem

1. Введение

В работе развиваются исследования по нахождению минимаксных стратегии и риска в бинарной стационарной случайной среде, начатые в [1,2]. Бинарная стационарная случайная среда — это управляемый случайный процесс ^ , t=1,...,Т, значения

которого {^ } интерпретируются как доходы и зависят только от текущих выбираемых действий {у } следующим образом: Рг{^ =1|^ = £}=р£, Рг{^ = 0|уг = £}=q£, £ =1,...,К (К > 2).

Таким образом, процесс полностью описывается векторным параметром 6 = (р1,...,рК), который

предполагается неизвестным. Известным предполагается множество © его допустимых значений, которое описывает класс рассматриваемых процессов и может быть произвольным подмножеством единичного К-мерного куба {6:0<р£<1,£ =1,...,К}, который соответствует классу всех управляемых процессов рассматриваемого вида.

Стратегия ст описывается массивом вероятностей, Рг{у = ф^^ст/у";^1), £ =1,...,К, определяющих выбор действия у( в зависимости от известной предыстории — примененных действий уь1 = ур...,ум и полученных в ответ на них доходов

. При t =1 предыстория отсутствует, поэтому зависимость от нее может быть опущена в обозначениях, т.е. ст£(ум;|м)=ст£, £ =1,...,К при t = 1.

Ясно, что вероятности {ст£(у'_1;|'_1)} являются неотрицательными числами, удовлетворяющими равенст-

К

вам ^ст£(ум£м)=1 для любого t=1,...,Т и любой

£=1

возможной предыстории (1 ч).

Обозначим через р*=тах(р,,...,рК). Тогда

LossesT (ст,6)=E

о,е

( t

)

V t=1

— функция потерь дохода относительно его максимально возможного значения вследствие неполноты

информации. Здесь через Ест6 обозначен знак математического ожидания по мере, порожденной стратегией ст и параметром 6 . Обозначим через

ЯТ (©) = infsup LossesT (та,6) (1)

{ст} в

— минимаксный риск, определенный на множестве параметров ©, через ст(©) — соответствующую минимаксную стратегиею. В [2] установлено, что минимаксная стратегия ст(©) существует для любого множества ©. При К=2 этот результат был ранее установлен в [3].

Основной результат данной статьи состоит в том, что минимаксный риск (1) на любом множестве © численно равен минимаксному риску на некотором конечном его подмножестве 60,...,60 , при этом для числа п дается оценка, зависящая от К и Т.

2. Стратегия и вариация стратегии

Рассмотрим достаточную статистику С,_х = ((п1,т1),...,(пК,тК)), где (пе,те) равны соответственно количеству применений варианта с номером , и количеству полненных при этом доходов равных 1 (,=1,...,К). Тогда (см. [2]) функцию потерь можно записать в виде

^ (л^)=Х XX Я, (CÍ_1MCÍ_1;6), (2)

(=1 {^ ,=1

где все а(^(1;6) — непрерывные ограниченные функции 6. Совокупность неотрицательных чисел {л£ (£ )} образует выпуклый симплекс вида

&=1

£=1

Х^«) =ХХ ZAG«)

£=1 k=1 x=0 C4_1.S(C4_1,k,x)=C4_l

(3)

(4)

для всех возможных достаточных статистик {Сн}, (=2,...,Т. Здесь через £ у( ) обозначен оператор, формирующий статистику по (См У(). В

[2] установлено, что система вероятностей п, удовлетворяющая условиям (3), (4), позволяет однозначно определить стратегию с, обеспечивающую выполнение равенства LT(л, 6)=LossesT(ст,6) при всех 6е© . Соответствующую минимаксную стратегию обозначим л(©).

Определим вариацию стратегии 5 совокупностью величин {5, (См)}, удовлетворяющих усло-

Х8£=

(5)

к

1=1 к 1

Х8А-1) =ХХ Z8k(^t-2) (6)

¿=1 k=1 x=0 C(_2:S1(C(_2,k,x)=C(_1

для всех возможных предысторий {См}, t=2,...,T .

Если заданы некоторая стратегия л и вариация 8 , то л+8, определенная совокупностью величин {л£(См)+8£(См)}, удовлетворяет условиям (3),

(4) и, следовательно, также является стратегией в случае неотрицательности всех этих величин. В дальнейшем будем называть допустимыми вариации 8 , для которых л+е°8 является стратегией для некоторого е° > 0 . В этом случае стратегиями, очевидно, будут и л+е8 при 0 <е<е°. Запрещенными будем называть такие вариации 8 , для которых л+е8 не является стратегией ни при каком е> 0 в силу отрицательности какой-либо из ее величин. Ясно, что допустимые и запрещенные вариации зависят от варьируемой стратегии л. Следующая лемма позволяет различать допустимые и запрещенные вариации.

Лемма 1. Пусть даны некоторые стратегия л и вариация 8. Для того чтобы вариация 8 была допустимой для стратегии л, необходимо и достаточно выполнения условия

8 (См) * ^ если л, (См)=° для всех £ =1,...,K и всех См , t=1,...,T.

Доказательство. Необходимость следует из того, что в противном случае при любом е> 0 появятся отрицательные величины л£(С ч)+e8£(Ct1).

Установим достаточность. Обозначим

m = min л£(С,), M = max |8£(С,)|. Из условий

л, Kt_1>0 £ t 1 8, (Ct_1)<0 £ t 1

(3)-(6) следует, что найдется хотя бы одна строго положительная л£ (Сь1) и хотя бы одна строго отрицательная 8£(С, ), если 8^0. Поэтому m > 0, M > 0 и для е0 = m / M > 0 все величины л£(Сь1) +s08£(Ct_i) неотрицательны, т.е. вариация 8

допустима. Лемма доказана.

Множество всех вариаций обозначим через Д, подмножества запрещенных и разрешенных вариаций — через Др и Д соответственно. Ясно, что Д=Да иДр , Да пДр = 0, причем Др и Да являются открытым и замкнутым множествами соответственно. Из (2) следует, что для стратегии л+е8 выполнено равенство:

LT (л+е8,9)=LT (л, 9) +е-LT (8,9). Множество вариаций, удовлетворяющих условиям (5), (6), образует линейное пространство. При этом все вариации полностью определяются своими произвольными значениями {8£ (Ct_1)} при

£ <K , а значения {8K (Ct_1)} могут быть определены

из условий (5), (6). Это означает, что в качестве базиса в этом пространстве можно выбрать вариации 8, у которых есть ровно одна 8£(Ct_1)=1, а все

остальные равны нулю (считаем, что £ < K). Общее число таких вариаций обозначим n(K,T). В [2] установлена оценка n(K ,T)~(K _1)T2K /(2K)!.

3. Критерий минимаксной стратегии

Для произвольной стратегии л рассмотрим

множество параметров ©(л)=Argmax.LT(л,6). Спра-

©

ведлива следующая теорема.

Теорема 1. Для того, чтобы стратегия л была минимаксной на множестве ©, необходимо и достаточно, чтобы для любой ее допустимой вариации 5 существовал такой параметр 6(5)е©(л), что выполнится неравенство

1Т (5,6(5)) >0. (7)

Множество ©0 = ^6(5) является замкнутым.

Доказательство. Установим необходимость. Пусть л — минимаксная стратегия, а 5 такова, что л+е05 является стратегией при е0 > 0. Тогда л+е5 также является стратегией при любом 0 <е<е0. Зададимся последовательностью {еп}, такой что 0 <еп <е0, &п ^ 0 при п ^да. Тогда для некоторой последовательности {6п} будут выполнены неравенства

1т (л+бп5,6п) Щ (©) > 1т (л,6п), п=1,2,..., (8)

причем правое неравенство следует из того, что л — минимаксная стратегия. Вычитая правые части неравенств из левых, получаем

1т (5,6п) > 0, п=1,2,... (9)

Так как © — компактное множество, то из последовательности {6п} можно выбрать сходящуюся подпоследовательность; без ограничения общности можно считать, что {6п} сама есть сходящаяся последовательность, предел которой обозначим через 6(5). Так как Lт (л,6) непрерывная функция своих аргументов, то из левого неравенства (8) при п ^да получаем неравен-

соответствующую минимаксную стратегию обозначим через л(6р...,6т). Для дальнейшего потребуется следующий известный результат. Пусть имеется, возможно, бесконечная система линейных однородных неравенств

'Yjaj(9)5 .>0, бе©,

j=i

(10)

где © — произвольное множество параметров, а а}-(6), У=1,...,п — фиксированные для данного 6

произвольные числа — коэффициенты неравенств, не

все равные нулю. Положим с. (9)=a.(9)

1

V 2

Е а2 (6)

V У=1

i=1,...,п и определим вектор с(6)=(с1(6),...,сп(6)).

Справедлива следующая лемма.

Лемма 2. Пусть система линейных однородных

неравенств (10) такова, что множество С = ^с(6)

6Е©

замкнуто, и для любого набора действительных переменных 5 ., у=1,...,п, не всех равных нулю, найдется хотя бы одно значение 6, для которого соответствующее неравенство выполняется. Тогда из системы (10) можно выделить конечную подсистему неравенств

Z

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

j=i

a (9.)5>0, 9 е©, i=1,...,N,

обладающую тем же свойством, причем для N справедлива оценка N < п+1, которая является неулуч-шаемой. Лемма является одним из следствий теоремы Хелли о покрытиях выпуклыми множествами и следует из результатов [4] .

Теорема 2. Минимаксная стратегия л(©) сов-

ство Lт (л,6(5))> ^ (©), откуда следует, что 6(5)е©(л). падает с некоторой минимаксной стратегией

л(60,...,6п) на конечном множестве параметров. На

Из (9) предельным переходом при n ^го получаем, что для указанного 9(5) справедливо неравенство (7).

Установим достаточность. Предположим, напротив, что условия теоремы выполнены, но л — не минимаксная стратегия и рассмотрим минимаксную стратегию л(©). Так как в этом случае выполнено неравенство

maxL (л(©),9) < M = max L (л,9),

© 1 © 1

то для всех 9е©(л) выполнено неравенство LT (л(©),9) - LT (л,9)=LT (л(©) -л, 9) < 0.

Поэтому для допустимой вариации 5=л(©) -л условие (9) не выполнено ни для какого 9е©(л). Полученное противоречие доказывает утверждение теоремы.

4. Сведение задачи к нахождению минимаксной стратегии для конечного множества параметров

Для конечного множества параметров {9p...,9m} определим минимаксный риск

R(9,...,9 )=min max L„(л,9),

1 1 m {л} 1=1,..., m 1 1

этом множестве параметров минимаксный риск достигает своего максимального значения, т.е.

RT(90,...,9П) = „max Rt(^...^Х

(11)

а для числа п справедлива оценка п <п(К,Т)+1.

Доказательство. Рассмотрим всевозможные вариации 5, заданные наборами действительных чисел, удовлетворяющих условиям (5), (6). При доказательстве теоремы будем считать, что вариации заданы своими произвольными значениями {5£((^ч)},

£ =1,...,К _1; в этом случае величины {5К ((м)} будут

их линейными комбинациями и могут быть определены из условий (5), (6). Таким образом, множество вариаций образует линейное пространство размерности п(К,Т).

В силу леммы 1 все вариации 5 делятся на два типа: такие, что е5 является запрещенной для данной стратегии л при любом е>0, и такие, что е05 является допустимой для нее при некотором е0 > 0. Вся-

m

кая запрещенная вариация, в силу леммы 1, удовлетворяет какому-либо неравенству _5,(^1) > 0, где

=0. С учетом предыдущего замечания, все неравенства вида _5К (С(Ч) > 0 заменятся на линейные однородные неравенства от величин {5,(С(1)}, , =1,...,К _1.

Пусть я(©) — минимаксная стратегия, а вариация 5 такова, что е05 допустима для нее при некотором е0 > 0 . Из теоремы 1 следует, что для 5 существует такой параметр 6(5)е©(тс), что выполнено неравенство

ЬТ (5,6(5)) >0. (12)

Соответствующее множество С1 является

замкнутым. Множество запрещенных вариаций заменим его замыканием:

_5,(С(Ч)>0, (13)

при =0. Соответствующее множество С2 ко-

нечно и, следовательно, тоже замкнуто. Очевидно, объединенная система неравенств (12), (13), для которой С =С1 ис2 — тоже замкнутое множество,

удовлетворяет условиям леммы 2. Поэтому из системы (12), (13) может быть выделена конечная подсистема линейных однородных неравенств

(14)

LT (8,9" ) > 0, i=1,..m, (ÇM)>0, i = m+1,..л,

(15)

где п<п(К,Т). Поскольку неравенства (15) описывают только множество вариаций Др, то для любого 5еД\Др выполнится хотя бы одно из неравенств (14). В силу замкнутости С1 для любого 5еД \ Др =Да также выполнится хотя бы одно из неравенств (14). Поэтому в силу теоремы 1 рассматриваемая стратегия является минимаксной на множестве (60,...,60). Оче-

4 1 ' ' т'

видно, в этом случае выполняется равенство (11). Теорема доказана.

5. Заключение

Полученные результаты позволяют свести задачу о поиске минимаксных стратегии и риска в бинарной стационарной случайной среде к задаче о поиске глобального максимума функции, численно равной минимаксному риску на конечном подмножестве параметров. Методы нахождения минимаксных стратегии и риска на конечном множестве параметров рассмотрены в [1, 2].

Работа выполнена при финансовой поддержке РФФИ, проект № 13-01-00334а.

Колногоров А.В. О минимаксном подходе к оптимальному целесообразному поведению в стационарных средах на конечном времени // Изв. АН СССР. Техническая кибернетика. 1988. №6. С.143-146.

Колногоров А.В. Алгоритм вычисления минимаксных стратегии и риска для бинарных стационарных случайных сред // Четвертая международная конференция по проблемам управления (26-30 января 2009 г.): Сб. тр. М.: Ин-т проблем управления им. В.А.Трапезникова РАН, 2009. С. 273-299. Fabius J., van Zwet W.R. Some Remarks on the Two-Armed Bandit // Ann. Math. Statist. 1970. V.41. P.1906-1916. Blumental L.M. Metric methods in linear inequalities // Duke Math. J. 1948. V.15. P.955-966.

References

Kolnogorov A.V. O minimaksnom podkhode k optimal'nomu tselesoobraznomu povedeniiu v statsionarnykh sredakh na konechnom vremeni [On minimax approach to the optimal rational behavior in stationary environments in finit amount of time]. Izv. AN SSSR. Tekhnicheskaia kibernetika, 1988, no. 6, pp. 143-146.

Kolnogorov A.V. Algoritm vychisleniia minimaksnykh strategii i riska dlia binarnykh statsionarnykh sluchainykh sred [An algorithm for calculating the minimax risk and minimax strategy in a binary stationary random environment]. Chetvertaia mezhdunarodnaia konferentsiia po prob-lemam upravleniia (26 -30 ianvaria 2009 goda): Sbornik tru-dov [Proc. 4th Int. Conf. on the Control Problems]. Moscow, V.A.Trapeznikov Institute of Control Sciences of Russian Academy of Sciences, 2009, pp. 273-299. Fabius J., van Zwet W.R. Some Remarks on the Two-Armed Bandit. Ann. Math. Statist., 1970, vol. 41, pp. 1906-1916. Blumental L.M. Metric methods in linear inequalities. Duke Math. J., 1948, vol. 15, pp. 955-966.

1.

2

3

4

2

3

4.

i Надоели баннеры? Вы всегда можете отключить рекламу.