Научная статья на тему 'Об одном подходе к асимптотической оценке минимаксного риска в стационарной среде'

Об одном подходе к асимптотической оценке минимаксного риска в стационарной среде Текст научной статьи по специальности «Математика»

CC BY
90
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МИНИМАКСНЫЙ ПОДХОД / БАЙЕСОВСКИЙ ПОДХОД / АДАПТИВНОЕ УРАВНЕНИЕ / ПОВЕДЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / MINIMAX APPROACH / BAYESIAN APPROACH / ADAPTATIVE EQUATION / BEHAVIOR IN RANDOM ENVIRONMENT

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В.

Для определения минимаксных стратегии и риска в задаче об оптимальном поведении в случайной среде использован теоретико-игровой подход. В этом случае минимаксная стратегия определяется как байесовская, соответствующая наихудшему априорному распределению. Описаны свойства наихудшего априорного распределения симметричность и асимптотическая однородность. Приведены рекуррентные интегро-разностные уравнения для вычисления байесовского риска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одном подходе к асимптотической оценке минимаксного риска в стационарной среде»

УДК 519.865

ОБ ОДНОМ ПОДХОДЕ К АСИМПТОТИЧЕСКОЙ ОЦЕНКЕ МИНИМАКСНОГО РИСКА В СТАЦИОНАРНОЙ СРЕДЕ

А.В.Колногоров

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Для определения минимаксных стратегии и риска в задаче об оптимальном поведении в случайной среде использован теоретико-игровой подход. В этом случае минимаксная стратегия определяется как байесовская, соответствующая наихудшему априорному распределению. Описаны свойства наихудшего априорного распределения — симметричность и асимптотическая однородность. Приведены рекуррентные интегро-разностные уравнения для вычисления байесовского риска.

Ключевые слова: минимаксный подход, байесовский подход, адаптивное уравнение, поведение в случайной среде

The ideas of the theory of games are used for determination of the minimax strategy and risk in the problem of the optimal behavior in random environment. In this case the minimax strategy is calculated as the Bayes one corresponding to the worst priori distribution. The properties of the worst priori distribution, such as symmetry and asymptotic uniformity, are described. The recurrent integro-defference equations for calculation the Bayes risk are given.

Keywords: minimax approach, Bayesian approach, adaptative equation, behavior in random environment

Определение объекта, стратегии и цели управления

Рассматривается задача адаптивного управления в стационарной случайной среде [1], известная также как задача о двуруком бандите [2], в следующей постановке. Пусть £п, п = 1,...,N, есть управляемый случайный процесс, значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени вариантов Уп и имеют нормальные распределения с плотностями

f (* I ml) = (2п)-1/2 ехр(- (х - ml )2 /2), (1)

если уп = 1 (1 = 1,2). Такая среда полностью описывается векторным параметром 0 = (т1, т2). Предполагается, что значение параметра 0 неизвестно, а известно только допустимое множество его значений © = {(т1,т2) :| т1 - т2 | < 2с1,| т1 + т2 | < 2с2 }, где с1, с2 < ж . Для управления используется стратегия с, которая в момент времени п является измеримой

функцией предыстории процесса, т.е. полученных

п-1

откликов х = *!,..., *п-1 на выбранные варианты

п-1

У = У1,..., Уп-1. Таким образом

п -1 п -1 п -1 п -1

Рфл =11У , х )= с 1 (У , х ). Множество стратегий обозначим Е .

Сформулируем минимаксную и байесовскую цели управления. Если бы параметр 0 был известен, то всегда следовало бы применять вариант, которому соответствует большая из величин т1, т2, и полный ожидаемый доход равен в этом случае N (т1 V т2). Если же параметр неизвестен, то функция

Ln (с, 0) = £о>0

V n=1

характеризует потери ожидаемого дохода вследствие неполноты информации. Здесь Ес0 обозначает математическое ожидание по мере, порожденной стратегией с и параметром 0 . При минимаксном подходе ве-

личина максимальных потерь на множестве параметров © минимизируется по множеству стратегий Е,

соответствующая величина RM (0) = inf sup LN (с, 0)

£ 0

называется минимаксным риском, а обеспечивающая ее значение стратегия — минимаксной стратегией. При байесовском подходе следует минимизировать значение функции потерь, усредненное относительно априорного распределения Л . Соответствующее зна-

RN (Л) = inf JLn (с, 0)Л(d0) называется байе-

чение

совским риском, обеспечивающая ее стратегия — байесовской.

Байесовский подход является намного более распространенным, чем минимаксный (см., напр., [2]). Это объясняется тем, что для вычисления байесовского риска можно написать рекуррентные уравнения, которые решаются методом динамического программирования и позволяют точно определить байесовскую стратегию для любого априорного распределения численными методами. В то же время байесовский подход много раз подвергался критике, поскольку ясных критериев для выбора априорного распределения, как правило, предложить нельзя. В этом смысле минимаксный подход является более предпочтительным, однако, его недостатком является сложность вычисления минимаксных стратегии и риска. В данной статье рассматривается метод их определения как байесовских, соответствующих наихудшему априорному распределению.

О связи минимаксного и байесовского подходов

Связь между минимаксным и байесовским подходами устанавливает основная теорема теории игр, которая в нашем случае имеет следующий вид.

Теорема 1. На множествах £ , 0 можно определить метрики р£, р0, которые превращают их в компактные метрические пространства. Функция потерь Ln (с, 0) непрерывна по с, 0 в этих метриках.

Множество £ содержит смешанные стратегии. В

0

этом случае минимаксная стратегия с существует и совпадает с байесовской на наихудшем априорном

0

распределении Л , т.е.

RM (0) = sup Ln (с 0,0) = Г Ln (с0,0)Л0 (d0) =

00

= rN (Л0) = sup rN (Л).

{Л}

Из непрерывности Ln (с, 0) следует, что при вычислении байесовского риска априорные распределения можно сколь угодно точно приблизить распределениями, имеющими плотность. Байесовский риск, вычисленный относительно априорного распределения с плотностью 1 будем обозначать

RB (1).

Таким образом, определение минимаксного риска сводится к вычислению байесовского риска для наихудшего априорного распределения. Некоторые дополнительные свойства байесовского риска даются

следующей теоремой.

Теорема 2. Байесовский риск является непрерывной и выпуклой вверх функцией априорного распределения, т.е. справедливы неравенства

| КІ ) - ЯВ (X2) |< Ысх 11 ^ (0) - X2(0) | ¿0, (2)

©

ЯВ (И1Х1 + а2х2 ) — а1ЯЛ (Х1 ) + а2ЯЛ (Х2 ) (3)

для любых Х1, X2 и положительных чисел а1, а2 таких, что а1 + а 2 = 1.

Приведем рекуррентные уравнения, позволяющие вычислять байесовский риск методом динамического программирования. Положим

fn (X\m) =

i(2nn) 1/2exp(- (X -mn)2/(2n)) при n > 1, [l при n = 0.

Пусть к моменту времени n оба варианта применены соответственно n1 и n2 раз, а полные доходы за их применение равны X1 и Х2. Тогда плотность апостериорного распределения дается формулой Х(ШЬ Ш2 | Хі, Пі, X 2, n2) =

= fn1( Х1 1 Ш1) /п2( Х 2 1 Ш2)Х (Ш1, Ш2)

Цfn1(X 1 1 Ш1) fn2 (Х2 1 Ш2)ХШ m2)dm1dm2

©

Обозначим через -П2(х;Х1,n1,Х2,n2) байесов-

ский риск, вычисленный на последних N - n1 - n2 шагах относительно апостериорного распределения с плотностью Х(ш1 , ш2 | Х1, n1, X2, n2). Тогда

rN п п (•) = min(r(1) (•),RN2) (•))

N~ni-n^ W \ N-Пі-П2 V N-Пі-П2 v ' r

где R01) (•) = R02)(O = 0;

R

(i)

N-n, -n,

R

(2)

ч-п2 (ХХ1’ И1>Х 2> «2) = {{((ш2 - ш1) + +

©

+ Е® Явм -«1 -пг _х(^; Х! + х, «1 +1, Х г, пг))х

хХ(шьт2 | Х1,п1,Х2,п2)ёш1ёш2; (4)

^-п2 (ХХ 1,nl,Х2,п2) = Ц((ш1 -ш2) + +

©

+Ех2^-* -пг -1^ Х1, п1, Х 2 + х, п2 + 1))х

хХ(ш1,ш2 |Х1,п1,Х2,п2)ёт1ёт2; (5)

ОТ

ЕХ1 R(х) = ^R(х)/(х | ше)йх,, 1 = 1,2.

-ОТ

Суть уравнений (4), (5) для вычисления

(Х; Х1, п1, Х 2, п2) состоит в том, что они опи-

R

(1)

N-ni-n2

сывают ожидаемый доход, если на первом шаге применяется вариант с номером 1, а далее применяется оптимальная байесовская стратегия. При этом байесовская стратегия предписывает на шаге с номером п1 + п2 выбирать вариант с номером 1, соответствующим меньшему из значений ЯЛ-п-п (X;Х1, п1,X2, п2), 1 = 1,2.

При равенстве обоих значений выбор варианта может быть произвольным.

О свойствах наихудшего априорного распределения

Нормальная плотность распределения доходов (1) позволяет выделить такие преобразования Х априорной плотности распределения Х , которые не меняют байесовский риск, т.е. RN (Х) = RN (Х).

Теорема 3. Следующие преобразования априорной плотности распределения не меняют значения байесовского риска:

Х(ш1; ш2) = Х(ш2, ш1) (для любых ш1, ш2);

Х(шьш2) = Х(-ш1,-ш2) (для любых ш1, ш2);

Х(ш^ ш2) = Х(ш1 + х,ш2 + х) (для любых ш1, ш2 и любого фиксированного х).

Доказательство теоремы может быть получено методом математической индукции с использованием уравнений (4), (5). Например, чтобы обосновать первое преобразование, отметим, что справедливы выполняющиеся для всех предысторий (Х1, п1, Х 2, п2) равенства

^-п1 ^ ХЬ nl, Х2 , п2) = -п2 (Х;Х2 , п2 , Х 1, nl),

(Х; Х 2, п2, Х1, п1),

RN; (1; X,, n,, X2, n2) = rN1)

N-n,—П2 ’ i> i> 2 2 N-n,-П2

?(2)

N-

и, следовательно,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

RN—n,-n2 (1; X1, n1,X2, n2) = RN—n,-n2 (1; X2, n2, X1, n1),

откуда требуемое свойство получается при n, = n2 = 0.

Определение. Плотности распределения из последовательности {1N }, для которых выполнено условие Rn (1N) ~ sup Rn (1), назовем асимптотически

{1}

наихудшими.

Справедлива следующая теорема.

Теорема 4. Асимптотически наихудшая плотность априорного распределения может быть выбрана в виде

1 n (m,, m2) = 0,5р n (0,51 m, - m2 |) • v а (0,5(m, + m2)), (6) где vа (•) — плотность равномерного распределения на отрезке 0,5 | m, + m2 | < а для произвольного достаточно большого а >> с2.

Действительно, если 10(m,, m2) — плотность наихудшего априорного распределения, то (с учетом выпуклости байесовского риска (2)) 1N (m,, m2)

можно взять в виде

а

1n (m,, m2) = (4a) (m, + x, m2 + x)+10(m2 + x, m, + x))

при этом будем считать, что а >> с2. С учетом непрерывности байесовского риска (3) такая плотность может быть сколь угодно точно приближена симметрической асимптотически однородной плотностью (6).

Следствие. Асимптотически наихудшая плотность априорного распределения может быть выбрана в виде

1N (m,, m2 | X) =

= 0,5n-,/2pN(0,51m, -m2 |)exp(-(0,5(m, + m2)-X)2), (7) где | X | < а - c2 , а >> с 2 .

Действительно, пусть оба варианта применены по очереди, и полученный полный доход равен 2X .

Обозначим ш1 + ш2 = 2ш . Тогда апостериорная плотность для второго сомножителя в (6) при I Х | < а - Ь , Ь >>1, равна

у(ш | Х) =

f2(1Xm■a(m) . „-./2-exp(- (m - X)2)

и

|¡2(2Х | ш)Vа (ш)^ш

Так как плотность п 1/2ехр(- (0,5(ш1 + ш2) -Х)2) не меняется при одновременной замене ш1 = ш1 + х, т2 = ш2 + х, Х = Х + х, то в силу теоремы 3 байесовский риск для всех плотностей вида (7) имеет одно и то же значение.

Что касается множителя рN (0,5 | ш1 - ш2 |), то результаты численного расчетов [3] показывают, что он сосредоточен на множестве параметров вида

{б: ш1 - ш2 = ±2dN 1/2}. Это подтверждает представленную в [4] асимптотическую оценку, в которой по-

лг1/2

рядок минимаксного риска установлен равным N .

Интегро-разностные уравнения для вычисления байесовского риска относительно наихудшего априорного распределения

Для вычислений удобно асимптотически наихудшее априорное распределение взять в виде (7). Положим

р( Х1, пь Х 2, п2) =

= Я ^ Х1 | ш1) ^пг(Х 2 | ш2)Х N (ш1, ш2 | 0^ш^ш1,

©

-щ-п2 (Х 1, n1, Х 2 , п2) =

= ^-п1 -п2 (Х 1, пЪ Х2 , п2 ) • Р(Х 1, n1, Х2 , п2 ). С использованием уравнений (4), (5) после несложных преобразований получим

^-щ-пг О = тт(^-п,-п2 (•),-п2 о) , где Го(1) (•) = Го(2) (•) = 0;

ОТ

N п1 -п2( Хь п1=Х 2= п2) = |2 V? (ХЬ пЬ Х 2= nг, V)р N (+

0

ОТ

+ | ^-п1 -п2-1(Х 1 + х, п1 + 1Х 2, п2) ?п1(Х1 - п1х) ^;

-ОТ

ОТ

ГЫ-щ -п2 (Х1> n1, Хп2) =|2V? (Хи n1,Х2, п2,-^РN +

0

ОТ

+ |^-щ-п2-1(Х 1, n1, Х2 + ^ п2 + 1)Чп2 (Х2 - п2х)йх.

-ОТ

Здесь

? (Х1, п1,Х 2, п2, ^ =

, при n, = 0, n2 = 0 !

Vnn2 (n2 + 2)

exp

exp

2

n2(X2 - v)

n2 + 2 ( (V , \2

n,(X, + ■ )

n, + 2

при n, = 0, n2 > 0,

при n2 = 0, n, > 0.

g(X^ nl, X 2, ^, v) =

к^1 n,n2(n, + n2 + 2)

f n,n2 (X, -X2 + 2v)2 + 2n, (X, + v)2 + 2n2 (X2 -v)2'' 2(n, + n2 + 2) y

при n, > 0 , n2 > 0 . Через X,, X2 обозначены средние значения X, = X, / n,, X2 = X2 / n2,

-exp

Чп(х) = 1\1 2пп \ 2п(п +1)

[1 при п = 0.

Заключение

В работе представлен теоретико-игровой подход к асимптотической оценке минимаксного риска в стационарной среде. Согласно этому подходу мини-

максный риск численно равен байесовскому, вычисленному на наихудшем априорном распределении. Описаны свойства наихудшего априорного распределения — симметричность и асимптотическая однородность. Приведены интегро-разностные уравнения для вычисления бвйесовского риска относительно наихудшего априорного распределения методом динамического программирования.

L Срагович В.Г. Адаптивное управление. М.: Наука, !98!. 384 с.

2. Berry D.A., Fristedt B. Bandit Problems: Sequential Allocation of Experiments. L.; N.Y.: Chapman and Hall, ,985. 275 p.

3. Колногоров А.В. Асимптотические оценки байесовского риска для одного класса стационарных сред // Третья Междунар. конф. по проблемам управления: Пленарные докл. и избр. тр. М.: ИПУ РАН, 2006. С.24Ь248.

4. Vogel W. // Ann. Math. Stat. !960.V.3L P.444-45L

!

x

2

x

i Надоели баннеры? Вы всегда можете отключить рекламу.