Научная статья на тему 'Минимаксное управление со средневзвешенным горизонтом в бинарной случайной среде'

Минимаксное управление со средневзвешенным горизонтом в бинарной случайной среде Текст научной статьи по специальности «Математика»

CC BY
82
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / МИНИМАКСНЫЙ ПОДХОД / CONTROL IN RANDOM ENVIRONMENT / TWO-ARMED BANDIT PROBLEM / MINIMAX APPROACH

Аннотация научной статьи по математике, автор научной работы — Колногоров А.В.

Предложен алгоритм нахождения минимаксных стратегий и риска в бинарной стационарной случайной среде. Алгоритм сводится к поиску глобального максимума функции, численно равной значению минимаксного риска для среды, характеризуемой некоторым конечным подмножеством исходного множества параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MINIMAX CONTROL WITH WEIGHTED AVERAGE HORIZON IN A BINARY RANDOM ENVIRONMENT

We propose an algorithm of finding the minimax risk and minimax strategy in a binary stationary random environment. The algorithm is reduced to searching the global maximum of the function being equal to the value of minimax risk for the environment described by some finite subset of the initial parameter set.

Текст научной работы на тему «Минимаксное управление со средневзвешенным горизонтом в бинарной случайной среде»

УДК 519.865

МИНИМАКСНОЕ УПРАВЛЕНИЕ СО СРЕДНЕВЗВЕШЕННЫМ ГОРИЗОНТОМ В БИНАРНОЙ СЛУЧАЙНОЙ СРЕДЕ

А.В.Колногоров

MINIMAX CONTROL WITH WEIGHTED AVERAGE HORIZON IN A BINARY RANDOM ENVIRONMENT

А.V.Kolnogorov

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Предложен алгоритм нахождения минимаксных стратегий и риска в бинарной стационарной случайной среде. Алгоритм сводится к поиску глобального максимума функции, численно равной значению минимаксного риска для среды, характеризуемой некоторым конечным подмножеством исходного множества параметров. Ключевые слова: управление в случайной среде, задача о двуруком бандите, минимаксный подход

We propose an algorithm of finding the minimax risk and minimax strategy in a binary stationary random environment. The algorithm is reduced to searching the global maximum of the function being equal to the value of minimax risk for the environment described by some finite subset of the initial parameter set.

Keywords: control in random environment, two-armed bandit problem, minimax approach

1. Введение

Рассматривается задача о целесообразном поведении в стационарной случайной среде [1,2], известная также как задача адаптивного управления (адаптивного выбора вариантов) [3,4] и задача о двуруком бандите [5-7]. В статье развиваются исследования по нахождению минимаксного управления, начатые в [8-10].

Бинарная стационарная случайная среда — это управляемый случайный процесс / = 1,2.., значения которого интерпретируются как доходы и зависят только от текущих выбираемых действий {у} следующим образом: Рг& = 1|>>, = £} = ре, Рг& = 0| ^ = £} = qe, £ = 1,...,К (К>2). Математическое ожидание одноша-гового дохода за выбор £ -го действия в этом случае, очевидно, равно w£ = 1 • р£ + 0 • q£ = р£.

Таким образом, процесс полностью описывается векторным параметром 6 = (р1,...,рК), который

предполагается неизвестным. Известным является множество © его допустимых значений, которое описывает класс рассматриваемых процессов. Этот класс может быть произвольным подмножеством единичного К-мерного куба {6:0<р£<1,£ =1,...,К}, который соответствует классу всех управляемых процессов рассматриваемого вида.

Стратегия ст описывается набором вероятностей, Рг{у = £|/4;^4}^(У4;^1), £=1,...,К, определяющих выбор действия у в зависимости от известной предыстории — примененных действий = У\,...,У^\ и полученных в ответ на них доходов =§1,.",§м. Обозначим через м>* = тах(м>х,...,м>К) максимальную величину математического ожидания одношагового дохода. Если бы параметр управления 6 был известен, то оптимальная стратегия предписывала бы всегда применять действие, которому соответствует наибольший ожидаемый доход V*, при

этом полный доход на горизонте управления длины T был бы равен Tw*. Поскольку вместо этого применяется стратегия ст, то величина

Lt (ст, 9) = Tw* - Ест,Ъ| (1)

характеризует функцию потерь дохода на горизонте управления T относительно его максимально возможного значения вследствие неполноты информации. Здесь через Ест,е обозначен знак математического ожидания по мере, порожденной стратегией ст и параметром 9. Рассмотрим множество горизонтов управления {T }={T ,i = 1,...,I} и обозначим через

L(CT,9,{T}) = ]Г PiLr (ст,9) (2)

i=1

функцию потерь на этом множестве горизонтов

I

управления. Здесь ^р. =1, р. > 0, i = 1,..., I. Коэффи-

i=1

циент р. характеризует вклад L-. (ст, 9) в общую

функцию потерь. Эти коэффициенты, вообще говоря, произвольны, но их выбор может быть обоснован в каждом конкретном случае. Например, предположим, что все T одинаково важны. Так как большим значениям T соответствуют большие потери, соответствующий коэффициент р. в этом случае естественно выбирать меньше, так, чтобы примерно одинаковыми оказались величины max PL (ст, 9).

Обозначим через

RM (0,{T}) = inf sup L(^ 9,{T}) (3)

{ст} 0

минимаксный риск, определенный на множестве параметров 0 и горизонтов управления {T}, через

0м (0,{T}) — соответствующую минимаксную стратегию. Целью статьи является описание алгоритма нахождения указанных минимаксных риска и стратегии.

Ранее задача рассматривалась в [8-10] в случае, если значение горизонта управления T фиксировано и известно. В этом случае предложена методика поиска минимаксных стратегии и риска для любого множества параметров 0. В данной статье показано, что результаты [8-10] полностью переносятся на рассматриваемый случай неопределенного горизонта управления, если ввести подходящее дисконтирование доходов. Формулировка полученных результатов приведена в разделе 2. В разделе 3 рассмотрены численные примеры. В заключении проводится обсуждение результатов.

2. Нахождение минимаксных стратегии и риска

Для t, удовлетворяющего условию T—1 < t < T,

i

положим yt = ^рj. Из (1), (2) следует равенство

j=i

( т Л ( т Л

L(ст,е,{T■}) = wl£yt|-Ест,е| Xyt^t ,

V t=1 / V t=1 /

т.е. L(a,9,{T}) может рассматриваться как функция потерь с дисконтированными доходами. Поэтому в данном случае справедливы результаты, аналогичные полученным в [8-10]. Приведем эти результаты без доказательства.

Для конечного множества параметров {9b...,9m} определим минимаксный риск

RM (eb...,em;{T}) = min max Lt (a, 9 ;;{T}),

{a} j=1,...,m

соответствующую минимаксную стратегию обозначим через aM (9b...,9m;{T}). Положим T = max T.

i=1,...,I

Через n(K,T) обозначим число независимых компонент стратегии (см. [8-10]).

Теорема 1. Минимаксная стратегия aM (©;{T}) совпадает с некоторой минимаксной стратегией a(e°,...,e°;{T}) на конечном множестве параметров. На этом множестве параметров минимаксный риск достигает своего максимального значения, т.е.

RM(9ь...,9П;Ш) = max RM(^...Д,,;®),

{9l,...,9m}

а для числа n справедлива оценка n < n(K, T) +1.

Байесовский риск на конечном множестве параметров 9j,...,9m для априорного распределения ХЬ...,Хm на нем определяется формулой

m

RB(91,...,9m;X1,...,Xm;{Ti}) = min• L(a,9 -,{T}),

a j=1

соответствующую байесовскую стратегию обозначим aB(91,...,9m;X1,...,Xm;{Ti}). Эта стратегия может быть вычислена при помощи простого алгоритма динамического программирования, при этом часть вероятностей однозначно определяются равными 0 или 1, а остальные могут выбираться произвольно (см., напр., [6-7]).

Теорема 2. Минимаксный риск и минимаксная стратегия на конечном множестве параметров (9b...,9m) совпадают с байесовским риском и байесовской стратегией для наихудшего априорного распределения на этом множестве, т.е. выполняется равенство

RM (91,...,9m;{Ti}) = RB (9b...,9m; A...A;{T}) = = max RB(91,...,9m;X1,...,Xm;{Ti}).

Таким образом, поиск минимаксного риска (3) на произвольном замкнутом множестве параметров © может быть сведен к поиску глобального экстремума функции не более чем n(K,T)+1 переменных, т.е.

RM(©;{T}) = max max RB(eb...,9m;Xb...,Xm;{T}),

где m < n(K, T) +1, причем для любого фиксированного набора 9j,...,9m функция выпукла вверх по переменным Xj,...,Xm. Вероятности, которые при вычислении байесовской стратегии определяются произвольно, должны быть доопределены из системы уравнений

L(aM, 9 /;{Ti}) = RB (901,...,e0n; X01,...,X0n;{T}), j = 1,..., n, которая сводится к линейной.

3. Численные примеры

Рассмотрим множество параметров ©={6:6 = (р, а);6 = (а, р); р = 0,7;0 < а < 0,7}, т.е. известна максимальная вероятность единичного дохода, равная р = 0,7; вторая вероятность единичного дохода может быть произвольным числом, не превосходящим р. Множество горизонтов управления имеет

вид {Т}={Т =10,Г2 =15}. Дисконтирующие множители такие: рг = ¿ТТ172, I = 1,2, где г = (ГГ1/2 + Т2"1/2)_1, т.е. Р] +р2 =1. В этом случае расчеты дают, что множество параметров, на которых функция потерь достигает максимума, равно двум, а сами параметры

следующие: 6° = (р1, р), 62 = (р,р{), где р1= 0,3. Минимаксный риск в этом случае равен Ям (©;{Т|}) = 0,95. Для проверки результата для найденной стратегии были вычислены потери, и они оказались не выше величины минимаксного риска.

Рассмотрим множество © = {6: 6 = (р, а); 6 = (а,р);р = 0,8;0 < а < 0,8}, т.е. максимальная вероятность единичного дохода теперь равна р = 0,8. Множество горизонтов управления выбрано таким: {Т}={Т = 5, Т2 = 25}. Дисконтирующие множители

следующие: Р = ¿ТТ172, I = 1,2, где г = ТГ1/2 + Т2"1/2 )_1, т.е. Р1 + Р2 =1. В этом случае расчеты показывают, что множество параметров, на которых функция потерь достигает максимума, равно четырем, а сами

параметры таковы: 60 = (р1, р), 60 = (р, р^, 60 = (р2, р), 64 = (р, р2), где р = 0,04, р2 = 0,41. Минимаксный риск равен Ям(©;{Т|}) = 0,73. Далее для найденной стратегии были вычислены потери, и они оказались не выше величины минимаксного риска, что подтверждает сделанное предположение.

4. Заключение

Получены результаты, позволяющие решить задачу о поиске минимаксных стратегии и риска в бинарной стационарной случайной среде в случае неопределенного средневзвешенного горизонта управления. В этом случае задача сводится к поиску глобального максимума функции, численно равной минимаксному риску на конечном подмножестве параметров. В свою очередь, минимаксный риск на конечном подмножестве параметров ищется с помощью основной теоремы теории игр и равен байесовскому риску на этом подмножестве, вычисленном относительно наихудшего априорного распределения.

Работа выполнена при финансовой поддержке РФФИ, проект №13-01-00334а и проектной части государственного задания в сфере научной активности Министерства образования и науки Российской Федерации, проект № 1.949.2014/К.

1. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.

2. Варшавский В. И. Коллективное поведение автоматов. М.: Наука, 1973. 408 с.

3. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.

4. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.

5. Пресман Э. Л., Сонин И.М. Последовательное управление по неполным данным. М.: Наука, 1982, 256 с.

6. Berry D.A., Fristedt B. Bandit Problems. L., N. Y.: Chapman and Hall, 1985. 275 p.

7. Де Грот М. Оптимальные статистические решения. М.: Мир, 1974. 491 с.

8. Колногоров А.В. О минимаксном подходе к оптимальному целесообразному поведению в стационарных средах на конечном времени // Изв. АН СССР. Техническая кибернетика. 1988. №6. С.143-146.

9. Колногоров А.В. Нахождение минимаксных стратегии и риска в бинарной случайной среде // Вестник НовГУ. Сер.: Физ.-матем. науки. 2014. №80. С.26-29.

10. Kolnogorov A.V. Finding minimax strategy and minimax risk for Bernoulli multi-armed bandit // Recent advances in mathematical methods in applied sciences. Proc. of the 2014 International Conf. on Math. Models and Methods in Applied Sciences (MMAS '14). Saint Petersburg State Polytechnic University, Saint Petersburg, Russia, September 23-25 2014. Р.59-66.

References

1. Tsetlin M.L. Issledovaniia po teorii avtomatov i modeliro-vaniiu biologicheskikh sistem. M.: Nauka, 1969. 316 s. (Eng. ed.: Tsetlin M.L. Automation theory and modeling of biological systems. New York, Academic Press, 1973. 316 p.).

2. Varshavskii V.I. Kollektivnoe povedenie avtomatov [Collective behavior of automata]. Moscow, "Nauka" Publ., 1973. 408 p.

3. Sragovich V.G. Adaptivnoe upravlenie [Adaptive control]. Moscow, "Nauka" Publ., 1981. 384 p.

4. Nazin A.V., Pozniak A.S. Adaptivnyi vybor variantov [Adaptive choice of alternatives]. Moscow, "Nauka" Publ., 1986. 288 p.

5. Presman E.L., Sonin I.M. Posledovatel'noe upravlenie po ne-polnym dannym [Sequential control with incomplete information]. Moscow, "Nauka" Publ., 1982. 256 p.

6. Berry D.A., Fristedt B. Bandit Problems. London, New York, Chapman and Hall, 1985. 275 p.

7. De Groot M.H. Optimal statistics decisions. New York, McGrow Hill Company, 1970. 512 p. (Russ. ed.: De Grot M. Optimal'nye statisticheskie resheniia. Moscow, "Mir" Publ., 1974. 491 p.).

8. Kolnogorov A.V. O minimaksnom podkhode k optimal'nomu tselesoobraznomu povedeniiu v statsionarnykh sredakh na konechnom vremeni [A minimax approach to optimal expedient behavior in stationary environments over finite time]. Izvestiia AN SSSR. Tekhnicheskaia kibernetika - Soviet Journal of Computer and Systems Science, 1989, vol. 27, no.4, pp. 33-35.

9. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v binarnoi sluchainoi srede [Finding minimax strategy and minimax risk in a binary random environment]. Vestnik NovGU. Ser. Fiziko-matematicheskie nauki - Vestnik NovSU. Issue: Physico-Mathematical Sciences, 2014, no. 80, pp. 26-29.

10. Kolnogorov A.V. Finding minimax strategy and minimax risk for Bernoulli multi-armed bandit. Recent advances in mathematical methods in applied sciences. Proc. of the 2014 Int. Conf. on Mathematical Models and Methods in Applied Sciences (MMAS '14). Saint Petersburg State Polytechnic University, Saint Petersburg, Russia, 2014, ISBN: 978-161804-251-4, pp. 59-66.

i Надоели баннеры? Вы всегда можете отключить рекламу.