Научная статья на тему 'Гауссовский однорукий бандит и оптимизация пакетной обработки'

Гауссовский однорукий бандит и оптимизация пакетной обработки Текст научной статьи по специальности «Математика»

CC BY
167
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / ЗАДАЧА ОБ ОДНОРУКОМ БАНДИТЕ / УПРАВЛЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / МИНИМАКСНЫЙ И БАЙЕСОВСКИЙ ПОДХОДЫ / ПАКЕТНАЯ ОБРАБОТКА / TWO-ARMED BANDIT PROBLEM / ONE-ARMED BANDIT PROBLEM / CONTROL IN A RANDOM ENVIRONMENT / MINIMAX AND BAYESIAN APPROACHES / BATCH PROCESSING

Аннотация научной статьи по математике, автор научной работы — Колногоров А.В.

В минимаксной постановке рассматривается задача об одноруком бандите, т.е. о двуруком бандите с известным распределением одношагового дохода за выбор первого действия. Распределение одношагового дохода за выбор второго действия предполагается нормальным (гауссовским) с неизвестным математическим ожиданием и дисперсией. Такая постановка задачи естественно возникает при оптимизации пакетной обработки, если для обработки имеются два альтернативных метода с известной априори эффективностью первого метода. Показано, что минимаксные стратегия и риск могут быть найдены как байесовские, вычисленные относительно наихудшего априорного распределения параметра, и получено рекуррентное интегро-разностное уравнение для их нахождения. Установлено, что пакетная обработка практически не влияет на величину минимаксного риска, если количество обрабатываемых пакетов достаточно велико.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GAUSSIAN ONE-ARMED BANDIT AND OPTIMIZATION OF BATCH PROCESSING

In the minimax setting, one-armed bandit problem is considered, i.e. the two-armed bandit problem with a known distribution of one-step income corresponding to the first action. Distribution of one-step income, corresponding to the second action, is assumed to be normal (Gaussian) with unknown mathematical expectation and variance. This setting naturally arises if the batch processing is optimized and there are two alternative processing methods available with a priori known efficiency of the first method. We show that minimax strategy and minimax risk can be determined as Bayesian ones calculated with respect to the worst-case prior distribution of the parameter, and obtain a recursive integro-difference equation for their determination. We prove that batch processing virtually does not influence the minimax risk if the number of batches is large enough.

Текст научной работы на тему «Гауссовский однорукий бандит и оптимизация пакетной обработки»

УДК 519.865

ГАУССОВСКИЙ ОДНОРУКИЙ БАНДИТ И ОПТИМИЗАЦИЯ ПАКЕТНОЙ ОБРАБОТКИ

А.В.Колногоров

GAUSSIAN ONE-ARMED BANDIT AND OPTIMIZATION OF BATCH PROCESSING

A.V.Kolnogorov

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

В минимаксной постановке рассматривается задача об одноруком бандите, т.е. о двуруком бандите с известным распределением одношагового дохода за выбор первого действия. Распределение одношагового дохода за выбор второго действия предполагается нормальным (гауссовским) с неизвестным математическим ожиданием и дисперсией. Такая постановка задачи естественно возникает при оптимизации пакетной обработки, если для обработки имеются два альтернативных метода с известной априори эффективностью первого метода. Показано, что минимаксные стратегия и риск могут быть найдены как байесовские, вычисленные относительно наихудшего априорного распределения параметра, и получено рекуррентное интегро-разностное уравнение для их нахождения. Установлено, что пакетная обработка практически не влияет на величину минимаксного риска, если количество обрабатываемых пакетов достаточно велико. Ключевые слова: задача о двуруком бандите, задача об одноруком бандите, управление в случайной среде, минимаксный и байесовский подходы, пакетная обработка

In the minimax setting, one-armed bandit problem is considered, i.e. the two-armed bandit problem with a known distribution of one-step income corresponding to the first action. Distribution of one-step income, corresponding to the second action, is assumed to be normal (Gaussian) with unknown mathematical expectation and variance. This setting naturally arises if the batch processing is optimized and there are two alternative processing methods available with a priori known efficiency of the first method. We show that minimax strategy and minimax risk can be determined as Bayesian ones calculated with respect to the worst-case prior distribution of the parameter, and obtain a recursive integro-difference equation for their determination. We prove that batch processing virtually does not influence the minimax risk if the number of batches is large enough.

Ключевые слова: two-armed bandit problem, one-armed bandit problem, control in a random environment, minimax and Bayesian approaches, batch processing

1. Введение

Задача о двуруком бандите, т.е. об игральном автомате с двумя рукоятками-действиями, вкратце может быть описана следующим образом. Имеются два действия, выбор каждого из которых сопровождается случайным доходом. Распределение этого дохода зависит только от текущего выбранного действия, фиксировано в процессе игры против двурукого бандита, но неизвестно игроку. Игрок играет N раз против двурукого бандита, и его цель состоит в максимизации математического ожидания полного полученного дохода. Задача имеет многочисленные применения в технике, обработке информации и в других сферах деятельности. Например, рассмотрим использование помехозащищенного кодирования для передачи данных. Предположим, что для этого могут использоваться два различных метода. Каждый из методов гарантирует безошибочную передачу пакета данных с некоторой вероятностью, которая зависит только от выбранного метода, но может меняться при изменении режима работы канала связи. Таким образом, в некоторых режимах работы канала связи более эффективным является первый метод, а в других режимах — второй. Требуется в каждом режиме определить более эффективный метод помехозащищенного кодирования и обеспечить его преимущественное применение.

Известны различные подходы к решению задачи. Минимаксный и, главным образом, байесовский подходы представлены в [1,2]. Подход, использую-

щий конечные автоматы для управления техническими системами и моделирования биологических систем, рассмотрен в [3]. Ряд других подходов, в том числе управление на основе оценок параметров среды, представлены в [4].

Особенностью анализируемой в статье постановки является то, что рассматривается задача об одноруком бандите, т.е. о двуруком бандите, для которого известно распределение случайного дохода за выбор первого действия. Применительно к рассмотренному выше примеру это означает, что эффективность первого метода помехозащищенного кодирования известна, а для второго надо только установить, является ли он более или менее эффективным, чем первый, а затем обеспечить преимущественное применение более эффективного метода. В байесовской постановке для бинарных доходов задача об одноруком бандите рассматривалась в [5,6], причем в [6] представлены главным образом асимптотические оценки. Минимаксный подход к задаче об одноруком бандите предложен в [7]. В этой статье предполагалось, что доходы имеют нормальное распределение с единичной дисперсией и неизвестным математическим ожиданием в случае выбора второго действия. В соответствии с основной теоремой теории игр было предложено искать минимаксные стратегию и риск как байесовские, соответствующие наихудшему априорному распределению параметра.

Поясним выбор нормального (гауссовского) распределения доходов. Задача рассматривается в

приложении к пакетной обработке, когда для обработки всех данных пакета используется один и тот же метод (действие), а затем для управления используется суммарный доход, полученный в результате обработки пакета. В силу центральной предельной теоремы для широкого класса распределений суммарные доходы в пакетах близки к гауссовским, и это определяет универсальность постановки задачи. Отметим, что в случае гауссовского двурукого бандита нахождение минимаксных стратегий и риска как байесовских, соответствующих наихудшему априорному распределению параметров, предложено в [8]. Несколько иной подход к оптимизации пакетной обработки, близкий к оптимальному, обсуждался в [9,10].

В данной статье рассматривается задача об одноруком бандите с гауссовскими доходами в предположении, что неизвестными являются и математические ожидания, и дисперсии доходов. Если количество обрабатываемых данных велико, то предположение о неизвестности дисперсии можно снять, так как характеристики управления мало меняются при малом изменении дисперсии. Поэтому дисперсия может быть оценена на начальном этапе, а затем полученная оценка использована для управления. Структура статьи следующая. В разделе 2 дается формальная постановка задачи. В разделе 3 представлены рекуррентные интегро-разностные уравнения, позволяющие вычислить байесовские стратегию, риск и потери. В разделе 4 представлены результаты по численному нахождению минимаксных стратегии и риска как байесовских, соответствующих наихудшему априорному распределению параметра. Раздел 5 содержит заключение.

2. Объект, стратегия и цель управления

Объектом управления является однорукий бандит, т.е. управляемый случайный процесс , п = 1,2,..., n, значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени действий уп ( уп е {1,2}) и имеют нормальные распределения с плотностью

fD(x\m2) = (2^)-1/2ехр(-(х-™2)2/ДО)), если известно, что уп = 2. Если же уп = 1, то математическое ожидание шг одношагового дохода известно, и без ограничения общности можно считать, что шг = 0 (в противном случае можно рассматривать процесс - ш1, п = 1,2,..., n). Более того, поскольку в задаче рассматривается максимизация математического ожидания полного дохода, вид распределения при уп =1 не является существенным; возможно даже, что доходы являются детерминированными. Таким образом, случайная среда полностью описывается векторным параметром 6 = (0, ш2). В качестве множества допустимых значений параметра выбрано следующее

© = {6 = (0, ш):\ш \< С}.

Рассматриваемая задача в байесовской постановке изучалась в [5,6], где было установлено, что оптимальная стратегия имеет следующий вид. Так

как выбор первого действия не приносит никакой новой информации об объекте управления, то, будучи однажды выбранным, оно будет применяться до конца управления. Поэтому оптимальная стратегия может вначале применять в течение некоторого времени второе действие для получения информации, но в случае переключения на первое действие уже не вернется ко второму никогда. Далее будем рассматривать стратегии только такого вида.

Определим функцию потерь. Если бы m2 было известно, то следовало бы всегда выбирать действие, соответствующее большему из mj = 0 и m2. Полный ожидаемый доход в этом случае был бы равен N(0vm2). Для фактически выбранной стратегии ст

N

ожидаемый доход равен J ECT,e|n , где через ECT,e

n=1

обозначено математическое ожидание по мере, порожденной стратегией ст и параметром e . В качестве функции потерь используем величину

N

¿„(ст,е) = N(0 vm2)-J £^e?»> (1)

n=1

которая характеризует потери полного дохода, возникающие вследствие неполноты информации.

Зададим на множестве параметров априорную плотность распределения X(m) и обозначим через

rM (0) = inf sup Ln (ст, e), (2)

{ст} 0

RB(X) = inf ГLn(CT,e)X(m)dm (3)

{ст}

0

минимаксный и байесовский риски. Соответствующие оптимальные стратегии называются минимаксной и байесовской стратегиями. Будем использовать основную теорему теории игр, согласно которой при широких предположениях выполнено равенство

< (0) = RN (X0) = sup RN (X), (4)

x

т.е. минимаксные стратегию и риск можно искать как байесовские, соответствующие наихудшему априорному распределению, для которого байесовский риск достигает максимального значения.

Отметим, что минимаксный подход является робастным, так как гарантирует ограниченность потерь на всем множестве параметров, т.е. выполнение неравенства

Ln (CT,e) < Rff (0)

при всех ee0. В то же время прямых методов для нахождения минимаксных стратегии и риска нет. С другой стороны, преимущество байесовского подхода состоит в том, что для любого априорного распределения параметра он позволяет написать рекуррентное уравнение динамического программирования и найти байесовские стратегию и риск численными методами.

3. Рекуррентные уравнения для нахождения байесовских стратегии, риска и потерь

Обозначим через fD (х | m) =

= (2tcD)-1 12 exp{-(x - m)2 /(2D)} плотность нормаль-

ного распределения с математическим ожиданием т и дисперсией D . Обозначим через Х(т) априорную плотность распределения на множестве параметров 0 . Будем предполагать, что выполнены условия 0 с

т | Х(т^т > 0, ^ mX(m)dm > 0. -с о

Предположим, что в момент времени п еще применялось второе действие и обозначим через (X, п) текущую предысторию к моменту времени п+1. Здесь п — есть полное число применений второго действия, а X — соответствующий полный доход. Положим п = пВ , М * = MD . Определим апостериорную плотность распределения

/*(X | тп)Х(т)

где

рп(Х,X,п) = ^/'п• (X | nm)X(m)dm . Справедлива

сле-

Х(т | X, п) =

^ | mn)X(m)dm

при п > 1. Если дополнительно считать, что X = 0 и /'(X | тп) = 1 при п = 0, то Х(т 10,0) = Х(т).

Наложим ограничения на выбираемые стратегии. Во-первых, будем рассматривать стратегии, которые меняют действие только после применения его М раз подряд. Именно такие стратегии допускают пакетную обработку. При этом предполагаем, что N кратно М . Во-вторых, ограничимся стратегиями следующего вида: вначале стратегия может применить к нескольким пакетам второе действие, однако, раз переключившись на первое действие, уже не вернется ко второму никогда. Как отмечено выше, в [5,6] показано, что оптимальная стратегия имеет именно такой вид.

Обозначим через RNLn (Х^, п) байесовский риск, вычисляемый на последних N - п шагах, если текущая предыстория равна (X, п). На классе рассматриваемых стратегий байесовский риск и байесовская стратегия вычисляются с помощью решения стандартного рекуррентного уравнения

RB-n(Х, X, п) = тш^^Х, X, п), Я<?-п(Х X, п)) (5)

где R01)(Х, X, N) = R02)(Х, X, N) = 0 и далее

с

R^)-n(Х, X, п) = ^ - п)| тХ(т | X, п^т, (6)

0

RN2- п(Х, X, п) =

0

= |(Мт | + Ег R^B-(n+M )(Х, X + 7, п + М ))Х(т | X, n)dm

при п < N . Здесь

ад

ErR(Y) = |R(Y)/м.(УЩт^У .

-ад

Байесовский риск (3) ищется по формуле

RN (Х) = RB (Х,0,0). (7)

Уравнения (5), (6) можно упростить. Определим риски R(Х,X,п) условиями

R(Х,X,п)/.(X) = RB-n(Х,X,п)рп(Х,X,п),

дующая теорема.

Теорема 1. Рассмотрим рекуррентное уравнение

R(Х, X, п) = тш(я(1)(Х, X, п), R(2)(Х, X, п)) (8) где R(1)(Х, X, N) = R(2)(Х, X, N) = 0 и далее

R(1)(Х,X,п) = N - п)я(1)(Х,X,п)

(9)

си

R(2)(Х, X ,п) = М^2)(Х, X, п) + ^(Х, X-7, п +М)/М.(7^Г

-ад

при 0 < п < N . Здесь

с

g(1)(Х,X,п) = |техрВ^т - 0,5nm2))Х(m)dm, (10)

0 0

g(2)(Х, X, п) = || т | ехр(вч(Лда - 0,5nm2))Х(m)dm.

Тогда байесовский риск (3) ищется по формуле

RN (Х) = R(Х,0,0). (11)

Теорема приводится без доказательства. При В = 1 вывод формул (8)-(11) из (5)-(7) приведен в [7]. Обобщение на случай произвольного В не представляет труда. Отметим, что решение уравнений (8), (9) ищется только в моменты времени кратные М .

Перейдем к вычислению функции потерь (1). Обозначим через

LN (ст, Х) = ^ LN (ст, 6)Х(m)dm (12)

0

функцию потерь, усредненную по априорной плотности распределения Х(т). При этом для вычисления функции потерь (1) следует выбрать априорную плотность распределения, сосредоточенную на параметре 6 . Обозначим стратегию через сте (X, п) = Рг(уп+1 = 11X, п). Предполагаем, что стратегия принадлежит рассматриваемому классу, т.е. может начинать со второго действия, но раз переключившись на первое, выполняет его до конца управления. Стандартное уравнение для вычисления функции потерь имеет вид

LN-п (ст, Х, X, п) = ст^, п^%>-п (ст, Х, X, п) + +СТ2(X, п)42-п (ст, Х, X, п),

где 4?(ст,Х, X, N) = L(02)(ст,Х, X, Щ = 0 и далее

с

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

L(v-n(ст, Х, X, п) = (N - п)| тХ(т | X, п^т, (13)

0

L(2-n (ст, Х, X, п) =

0

= Мт | + Ег LN-(п+М) (ст, Х, X + Г, п + М))Х(т | X, п^т

при п < N . Функция потерь (12) ищется по формуле LN (ст,Х) = LN (ст,Х,0,0). (14)

Как и в случае байесовских рисков, определим L(ст,Х, X, п) условиями L(ст, Х, X, п) //(X) =

= LN-n (ст, Х, X, п)рп (Х, X, п). Справедлива следующая теорема.

Теорема 2. Рассмотрим рекуррентное уравнение

Ь(а, А, X, п)=аY(X9 п)#(а, А, X, п)+а2(X, п)#(а, А, X, п),(15) где #(а, А, X, N = ¿(2)(а, А, X, N = 0 и далее

#(а, А,X, п) = N — n)g(1)(А,X, п), (16)

да

¿(2)(а, А, X, п) = М£(2)(А, X ,п) + |Да, А, X-7, п+М)/М*(7)

—да

при 0 < п < N . Тогда функция потерь (12) дается формулой

^ (а, А) = Да, А,0,0). (17)

Эта теорема также приводится без доказательства. Отметим, что решение уравнений (15), (16) ищется только в моменты времени, кратные М .

Следующая теорема позволяет ограничиться дисперсиями D = 1.

Теорема 3. Пусть при некотором к > 0 выполнены следующие преобразования: D = kD, т = к1/2т ,

С = к 1/2С , А(т) = к~тА(т), т = к1/2т , X = к1'2X,

п* = кп , а£ (X, п) = а^ (X, п). Тогда соответствующие байесовские риски и потери связаны равенствами

(А(т))=к1/2 ^^^ (А(т)), ^ (а, А(т))=к1/2^ (а, А(т)). (18)

Теорема доказывается выполнением указанных замен переменных в (8)-(11) и (15)-(17). Из теоремы 3 вытекает следующее следствие.

Следствие. Рассмотрим обработку N = МК данных К группами, содержащими по М данных,

на множестве ©н = (9:| т |< СМ_1/2} и К данных по одному на множестве ©К = (9:|т|<С}. Тогда справедливо равенство

М~т вМ( ю©) = К"1/2 ДМ(1)(©К), (19)

где в обозначениях ^М(К)(©N), ЯМ(1)(©К)явно указаны обработки группами по М данных и по одному данному. Равенство (19) означает, что соответствующие приведенные минимаксные риски зависят только от количества обрабатываемых групп.

Поскольку минимаксный риск имеет порядок

N1/2 (см., например, [1]), то из следствия вытекает, что групповая обработка практически не приводит к росту минимаксного риска, если число групп достаточно велико. Если же используются доходы, имеющие не гауссовские распределения, то в силу центральной предельной теоремы распределения суммарных доходов в достаточно больших группах также близки к гауссовским. Поэтому стратегии групповой обработки обеспечивают близкие значения минимаксного риска для широкого класса процессов с одинаковыми одношаговыми доходами и дисперсиями, т.е. являются универсальными

4. Нахождение минимаксных стратегии и риска

Численное нахождение минимаксных стратегии и риска выполнялось при N = 50 в предположении, что D = 1. Из следствия вытекает, что нормализованные байесовские риски и потери совпадают в этом случае с нормализованными байесовскими рис-

М

ками и потерями, возникающими при пакетной обработке данных, разбитых на 50 пакетов. Предполагалось, что наихудшее априорное распределение А(т)

сосредоточено в двух точках

т = N

1/2

—1/2

с вероятностями р и 1 — р соответст-

т = —й2 N

венно. В соответствии с равенством (4) наихудшее априорное распределение соответствует максимуму

нормализованного байесовского риска N ~т Явм (А), рассматриваемого как функция йх, й2 , р . В результате вычислений по формулам (8)-(11) оказалось, что этот максимум достигается при 4 «1,65 , й2 « 2,52 , р « 0,38 и приблизительно равен 0,37.

Как установлено в [7], оптимальная байесовская стратегия имеет пороговый характер. Обозначим

t = п/N, х = XN_1/2 . Пороговая стратегия продолжает применять второе действие, если х > Т (/) и переключается на первое действие до конца управления, если х < Т(/). Множество порогов (Т(/),0 < / < 1} представлено на рис. 1.

-0,1

-0,2

-0,3

-0,4

0,25

0,5

0,75

щ

Рис.1. Характеристики пороговой стратегии управления

Для данной пороговой стратегии были вычислены нормализованные потери ^1/2^(а,А) по формулам (15)-(17). При каждом й предполагалось, что априорная плотность распределения А(т) сосредоточена в точке т = dN_1/2 .

-10 о 10 (Л

Рис.2. График нормализованной функции потерь

Оказалось, что нормализованные потери действительно имеют два максимума при й«1,65 и й^—2,52, которые приблизительно равны 0,37, что

и

подтверждает справедливость сделанного предположения о виде наихудшего априорного распределения. График функции потерь, соответствующий минимаксной стратегии, представлен жирной линией на рис.2. Также здесь представлены тонкой линией 1 нормализованные потери, соответствующие фактической дисперсии В = 0,95, а тонкой линией 2 — нормализованные потери, соответствующие фактической дисперсии В = 1,05. Видно, что эти потери мало отличаются от тех, которые соответствуют В = 1. Если количество обрабатываемых данных достаточно велико, это означает, что дисперсия может быть оценена на начальном этапе, когда применяется только второе действие, а затем использована для управления.

5. Заключение

Предложена минимаксная стратегия управления в задаче об одноруком бандите, допускающая пакетную обработку. Задача рассматривается на сравнительно небольшом горизонте управления (например, численными методами исследован случай N = 50) и позволяет точно находить оптимальную стратегию и минимаксный риск. Установлено, что найденная стратегия обеспечивает одинаковую величину нормализованного минимаксного риска при пакетной обработке сколь угодно большого числа данных, если они разбиты на одинаковое количество пакетов (в рассмотренном примере — на 50).

Работа выполнена при поддержке Министерства науки и высшего образования Российской Федерации, проект 8.7367.2017/8.9.

1. Berry D.A., Fristedt, B. Bandit Problems: Sequential Allocation of Experiments. L., N.Y.: Chapman and Hall, 1985, 275 p.

2. Пресман Э.Л., Сонин И.М. Последовательное управление по неполным данным. М.: Наука, 1982. 256 с.

3. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.

4. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 c.

5. Bradt R.N., Johnson S.M., Karlin S. On Sequential Designs for Maximizing the Sum of n Observations // Ann. Math. Stat. 1956. V.27. P.1060-1074.

6. Chernoff H., Ray S.N. A Bayes Sequential Sampling Inspection Plan // Ann. Math. Statist. 1965. V.36. P.1387-1407.

7. Kolnogorov A.V. Robust Normal Two-Armed Bandit, One Arm Known, and Parallel Data Processing // IFAC Proceedings Volumes. 2013. V.46. Issue 11. P263-268.

8. Kolnogorov A.V. Determination of the Minimax Risk for the Normal Two-Armed Bandit // IFAC Proceedings Volumes. 2010. V.43. Issue 10. P.231-236.

9. Колногоров А.В., Мельникова С.В. Об оптимальной продолжительности начального этапа в двухэтапной модели целесообразного поведения в случайной среде // Вестник НовГУ. Сер.: Техн. науки. 2005. №34. С.73-75.

10. Kolnogorov A.V., Melnikova S.V. Minimax r-stage strategy for the multi-armed bandit problem // IFAC Proceedings Volumes. 2007. V.40. Issue 13. P.380-385.

References

1. Berry D.A., Fristedt B. Bandit Problems: Sequential Allocation of Experiments. London, New York, Chapman and Hall, 1985. 275 p.

2. Presman E.L., Sonin I.M. Sequential Control with Incomplete Information. New York, Academic Press, 1990. 266 p. (Russ. ed.: Presman E.L., Sonin I.M. Posledovatel'noe upravlenie po nepolnym dannym. Moscow, "Nauka" Publ., 1982. 256 p.).

3. Tsetlin M.L. Automation Theory and Modeling of Biological Systems. New York, Academic Press, 1973. 285 p. (Tsetlin M.L. Issledovaniia po teorii avtomatov i modelirovaniiu biologicheskikh sistem. Moscow, "Nauka" Publ., 1969. 316 p.).

4. Sragovich V.G. Mathematical Theory of Adaptive Control. Interdisciplinary Mathematical Sciences. New Jersey, London, World Scientific, 2006. Vol. 4. 492 p. (Sragovich V.G. Adaptivnoe upravlenie. Moscow, "Nauka" Publ., 1981, 384 p.).

5. Bradt R.N., Johnson S.M., Karlin S. On sequential designs for maximizing the sum of n observations. The Annals of Mathematical Statistics, 1956, vol. 27, no. 4, pp. 1060-1074.

6. Chernoff H., Ray S.N. A Bayes sequential sampling snspection plan. The Annals of Mathematical Statistics, 1965, vol. 36, no. 5, pp. 1387-1407.

7. Kolnogorov A.V. Robust normal two-armed bandit, one arm known, and parallel data processing. IFAC Proceedings Volumes, 2013, vol. 46, no. 11, pp. 263-268.

8. Kolnogorov A.V. Determination of the minimax risk for the normal two-armed bandit. IFAC Proceedings Volumes, 2010, vol. 43, no. 10, pp. 231-236.

9. Kolnogorov A.V., Mel'nikova S.V. Ob optimal'noi prodolzhitel'nosti nachal'nogo etapa v dvukhetapnoi modeli tselesoobraznogo povedeniia v sluchainoi srede [On the optimal duration of the first stage in two-stage model of expedient behavior in random medium]. Vestnik NovGU. Ser. Tekhnicheskie nauki - Vestnik NovSU. Issue: Engineering Sciences, 2005, no. 34, pp. 73-75.

10. Kolnogorov A.V., Melnikova S.V. Minimax r-stage strategy for the multi-armed bandit problem. IFAC Proceedings Volumes, 2007, vol. 40, no. 13, pp. 380-385.

i Надоели баннеры? Вы всегда можете отключить рекламу.