Научная статья на тему 'К предельному описанию минимаксного параллельного управления в случайной среде'

К предельному описанию минимаксного параллельного управления в случайной среде Текст научной статьи по специальности «Математика»

CC BY
92
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / РОБАСТНОЕ УПРАВЛЕНИЕ / ПАРАЛЛЕЛЬНОЕ УПРАВЛЕНИЕ / УРАВНЕНИЯ В ЧАСТНЫХ ПРОИЗВОДНЫХ / CONTROL IN RANDOM ENVIRONMENT / TWO-ARM BANDIT PROBLEM / ROBUST CONTROL / PARALLEL CONTROL / PARTIAL DIFFERENTIAL EQUATION

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В.

Получено предельное описание минимаксного параллельного управления в случайной среде с помощью дифференциального уравнения в частных производных второго порядка. Численные эксперименты показывают близость решений дифференциального уравнения и ранее полученного рекуррентного интегро-разностного уравнения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONTRIBUTIONS TO THE LIMITING DESCRIPTION OF THE MINIMAX PARALLEL CONTROL IN RANDOM ENVIRONMENT

A limiting description of the minimax parallel control in random environment by means of the second order partial differential equation is obtained. Numerical experiments show the similarity of the solutions to the partial differential equation and to previously obtained recurrence integral-difference equation.

Текст научной работы на тему «К предельному описанию минимаксного параллельного управления в случайной среде»

УДК 519.865

К ПРЕДЕЛЬНОМУ ОПИСАНИЮ МИНИМАКСНОГО ПАРАЛЛЕЛЬНОГО УПРАВЛЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ

А.В.Колногоров

CONTRIBUTIONS TO THE LIMITING DESCRIPTION OF THE MINIMAX PARALLEL CONTROL IN RANDOM ENVIRONMENT

A.V.Kolnogorov

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Получено предельное описание минимаксного параллельного управления в случайной среде с помощью дифференциального уравнения в частных производных второго порядка. Численные эксперименты показывают близость решений дифференциального уравнения и ранее полученного рекуррентного интегро-разностного уравнения. Ключевые слова: управление в случайной среде, задача о двуруком бандите, робастное управление, параллельное управление, уравнения в частных производных

A limiting description of the minimax parallel control in random environment by means of the second order partial differential equation is obtained. Numerical experiments show the similarity of the solutions to the partial differential equation and to previously obtained recurrence integral-difference equation.

Keywords: control in random environment, two-arm bandit problem, robust control, parallel control, partial differential equation

1. Введение

Рассматривается задача управления в случайной среде, продолжающая работу [1], в которой указаны также другие подходы и библиография. Опишем коротко результаты [1]. Пусть ^ , п = \...,Ы есть

управляемый случайный процесс, значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени вариантов и имеют нормальные распределения с плотностями

f (х | т|) = (2л)-1/ 2 ехр(- (х - т| )2 / 2), если выбран вариант с номером I (I = 1,2). Такая среда описывается векторным параметром 6 = (тр m2). Предполагается, что множество допустимых значений параметра имеет вид © = {(т^m2) :| m1 -m2|< 2}, где с > 0

— некоторая константа, т.е. рассматривается класс сред с близкими математическими ожиданиями.

Для управления используется стратегия, которая вначале применяет каждый вариант по М 0 = е0 N

раз, а затем осуществляет оптимальное управление с тем ограничением, что варианты могут меняться только после применения М = eN раз подряд. Поясним выбор такой стратегии. Мы рассматриваем задачу в приложении к обработке больших массивов данных, для обработки которых могут использоваться два альтернативных метода (варианта). Результат обработки является бинарным: 1 — если обработка успешная и 0 — если обработка неуспешная. Рассматриваемая стратегия может обрабатывать параллельно пакеты из М поступающих подряд данных, для обработки которых применяется один и тот же вариант. В силу центральной предельной теоремы количество успешно обработанных данных в одном пакете имеет приблизительно нормальное распределение, и этим оправдан выбор нормального распределения доходов. Причем полное время управления при параллельной обработке может быть сравнительно небольшим.

Отметим, что параллельная обработка была первоначально предложена применительно к задаче о лечении большой группы пациентов двумя альтерна-

тивными лекарствами. В байесовской постановке обсуждение и библиография имеются, например, в [2], в минимаксной — в [3].

Сформулируем цель управления. Если бы параметр 6 был известен, то следовало бы всегда применять вариант, которому соответствует большая из величин т1, m2, и полный ожидаемый доход был бы

равен в этом случае N(т1 V m2). Если же параметр

неизвестен, то функция

Ln (а, 6) = E,

( N \

а,6 Z ((mi Vm2) 'S«)

V п=1 У

характеризует потери дохода вследствие неполноты информации. Здесь Ест6 обозначает математическое

ожидание по мере, порожденной стратегией ст и параметром 6 .

При минимаксном подходе максимальные потери на множестве параметров © минимизируются по множеству стратегий {ст}, величина

RNM (©) = Мшр LN (ст, 6)

{ст} ©

называется минимаксным риском, а соответствующая стратегия (если она существует) — минимаксной стратегией. Минимаксная стратегия обеспечивает робастное управление, так как реальный ожидаемый доход для любой среды из множества © отличается от максимально возможного не более чем на величину минимаксного риска. В данной статье исследуется минимаксное управление. Отметим, что робастный подход впервые использован в работе [4], где получены оценки минимаксного риска, имеющие неулуч-

шаемый порядок ^/2. В нашей стране минимаксный подход возник независимо от [4] и получил значительное развитие (см., напр., [5]).

Мы используем результаты [1], где показано, что минимаксные стратегия и риск могут быть найдены как байесовские, соответствующие наихудшему априорному распределению, и дано рекуррентное интегро-разностное уравнение для вычисления байесовского риска. Основной результат статьи состоит в предельном описании байесовского риска дифференциальным уравнением в частных производных второго порядка. Даны результаты численных экспериментов, показывающие близость решений интегро-разностного и дифференциального уравнений.

2. Интегро-разностное уравнение

Приведем интегро-разностное уравнение, полученное в [1]. Пусть к моменту времени п = п1 + п2

оба варианта применены соответственно п1 и п2 раз, а Х1, Х2 — полные доходы за их применение. В [1] показано, что в качестве статистики можно использовать тройку (2, п1, п2) при Z = Х1п2 - Х2п1. Положим

т1 = и + о, т2 = и - и, тогда 6 = (и + и, и - и), -1/2>

© = {э : |и|< cN~1/2]. В

новых переменных асимптотически наихудшая плотность распределения имеет вид V (и, о) = k (и)ц(о), где k (и) — постоянная плот-

ность при \и\ < a, ц(и) = ц(-и) — симметричная плотность и a ^ ж .

Положим t = « / N, t2 = n2 / N, 5 = ZN

-3/2

^ = у^12, р(^) = 17 2. Для вычисления байе-

совского риска следует решать рекуррентное уравнение:

r^ tl, t2 ) = ШШ^ tl, t2 \ re(2) ^ tl, t2 )), (1) где r(1) (s, t1, t2 ) = r(2) (s, t1, t2 ) = 0 при t1 +12 = 1, r(1)(s, ti, t2 ) = eg (1)(s, ti, t2 )+

( ss — t x

+t—1 j rs(s + x, t1 + S t2 ^(^V^, t1

—ж 2

r(2)(s, tv t2 ) = sg (2) (s, tv t2 ) +

+Ж , .

+t—1 j Ф + x, ^ t2 +Sh{SS--2X, t2 fx

— Ж

при t1 +12 < 1, t1 > s0, t2 > sQ. Здесь

ж

g (i) (s, t1, t2 ) = j 2wg (s,(-1)i+1w, tp t2 jp(w)dw, i = 1,2

(2)

g(s, w, t1, t2 )= (2^t1t2(t1 +12))-1/2 exp

A(s, t)=(

eV ' y V2nts)

2 1 2 1/2 f

(s + 2wt1t2 ) 2t1t2 (t1 + 22 )

2

exp

2

v

2ts (t + s)

Оптимальная стратегия при t1 +12 < 2 в0 («1 + «2 < 2в 0N) применяет варианты по очереди. При t1 +12 > 2в0 («1 + «2 > 2в 0N) текущим оптимальным является тот вариант, которому соответствует меньшее значение r(i) (s, t1, t2), i = 1,2 . При этом байесовский риск относительно наихудшего априорного распределения вычисляется по формуле

жж

lim RB (p(w))= ..0,

а^ж J

V 0

4s0 j wp(w)dw + j Г (s, в 0, e0)ds

N1/2. (3)

3. Дифференциальное уравнение

Наша цель — получить дифференциальное уравнение при переходе к пределу по е ^ 0 в уравнениях (2). Покажем, что в этом случае справедливы уравнения

Л ^ Ч2 )= Г • Ч + ^ Ч2 ) +

+

+

22

(k + .s +12_.^Tl + g(1)(st t )

t + 5s t1 + 2 5s2 +g ^tl, ^

rв(2)(s, 112 ) = rв(s, tl, t2 +s) +

22

( rk + ^Tk. s + ,5_!k + g (2)(s t t )

t2 + 5s t2 + 2 5s2 +g stl, 2

+ O(s),

(4)

+ o(s).

Проверим это для первого уравнения (4). Предполагая, что ге (•, Ч2) имеет непрерывные производные требуемых порядков и выполняя замену переменных у = • - ^х)/-1, получим

Г® (s, tp t2 ) = sg (1) (s, tj, t2 ) +

1 i ^ + ,ti + s,t2J^^y.

Используя разложение в ряд Тейлора

( ss — у \ . . дге ss — у г | s +-1 = г + --

4 и ' ) дs й

ч

ч

1 д2г (ss-Ly(ss-^y + 2 ^ ' + 0|-^^

2

и учитывая, что

Jhs(x, t)dx=t+s, Jxhs(x, t)dx=0, Jx2hs(x, t)dx=ts(t+s)2

J xnhs(x, t )dx = o(s)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

при n > 3 , получим

1-1 J ^ + ^^, ti +s, t2 ДЫ ti)dy =

t1 +s

t

, ч drs ss d2rs st92(t. + s)A

v ITy

+ 0(s),

откуда легко следует справедливость первого уравнения (4). Справедливость второго уравнения (4) устанавливается аналогично. Продолжая рассуждения и предполагая, что можно переходить к пределу при е ^ 0, из (4) нетрудно получить дифференциальные уравнения

дг г дг s д2г П)/ ч „ , ^

Ъ + ^ +13? • X + Т^ + Л, 1,и2) = 0 при (s,4,У е 4,

дг г дг х й д2г (2)/ ч „ _ ^

дйГ + йТ • ^ + ^^ + Л й2) = 0 при & 4, й2) е Ц

где Ц1, Ц2 — области, в которых следует выбирать первый и второй варианты соответственно. Традиционный подход предполагает, что далее следовало бы описать границу между этими областями и условия на функцию г(х,й1,й2) на этой границе.

Вспомним, однако, что уравнения (4) следует дополнить уравнением (1), которое запишем в виде

т|п(г(|) ^ ^ й2) — г^ t1, й2 ))= 0, и тогда дифференциальное уравнение примет вид

тш

1=1,2

fdL+r+s•дГ+1•д2Г+gW(s t t)

^ + tt + tt ds + 2 ds2 + g (s,tl,

= 0 (5)

с начальными и граничными условиями

r(s,tj,t2) = 0 при tj +12 = 1, lim r(s,tj,t2) = 0

s ^ад

пРи tj +12 < tj t2 > S0 .

4. Численные эксперименты

Для численного моделирования решения дифференциального уравнения использовалось разностное уравнение

г(х, й1, й2) = тш(г (1)(х, й1, й2), г (2)(х, й1, й2)),

где г(1)(х, й1, й2 ) = г(2) (х й1, й2 )= 0 при й1 + й2 = 1, г(1)(х, й1, й2) = г(х, й1 + е, й2) +

" и

+ s

\ ' j 2' ^ ' 1 '2/

(r(s, t, + S, t2) s / ч

V 1t ^ + f • ^r(s, t1 +S, t2) +

+ ^ • D2r(s, t1 + s, t2) + g(1)(s, t1, t2)

r(2)(s, t1, t2)= r(s, t1, t2 + s) +

(r(s, t., L + s) s ^ / \

+ s • I 1 2-+ — • Dr(s, t1, t2 + s) +

V 2 2

t2

+ -2 • D2r(s, t1, t2 + s) + g(2)(s, t1, t2)

(6)

при t1 +12 < 1, t1 > s0, t2 > s0. Здесь

r(s + 5, t,, L) - r(s, t, tr,)

Dr(s, t, L) = —-^^-v 1 ^ при s > 0,

1 2 5

r(s, t, t~) - r(s -5, t, tr,) Dr(s,t,t2) = 1 27 v-при s < 0,

2 r(s + 5, t., t ) - 2r(s, t., tn) + r(s - 5, t., tn) D r(s,t1,t2) = --^^-^^--^^ .

Сравнительные результаты вычислений, если р(м) = 0,5 при

ш = ±1,7

Предполагалось также, что | х |< 5"тах . Отметим, что решение разностных уравнений часто приводит к неустойчивой вычислительной схеме. При этом предложенная схема оказывалась всегда устойчивой, если параметры е, 5 , е0, 5"тах выбраны так,

что после приведения подобных членов все коэффициенты в правых частях уравнений (6) являются положительными. После раскрытия выражений для

Уравнение (5) описывает не только изменение Цг(х,й1,й2), Ц г(х,й1,й2) можно установить, что это

функции г(х, й1, й2), но и области Ц1, Ц2, поскольку в условие всегда выполнено, если области Ц| минимальным является I -й член в левой части уравнения.

S s s

max + < 1

s05 52

На рисунке приведены сравнительные результаты вычислений, если p(w) = 0,5 при w = +1,7. Тонкими линиями даны значения r (s,e0,e0) = 0, жирными — значения r(s, е0,е0) = 0. Линиям 1 , 2 соответствуют е„ = 0,3:0,4. Везде S = 0,975; при вычислении

0 ' ' ' ^ max ' ' ^

r(s,60,e0) = 0 выбирались е = 2000Г1, 5 = 0,0075, удовлетворяющие (7); при вычислении re(s,e0,e0) = 0 выбирались е = 0,05 , шаг интегрирования 0,00056.

5. Заключение

Предложено предельное описание минимаксного параллельного управления в случайной среде с помощью дифференциального уравнения в частных производных второго порядка. Численные эксперименты показывают близость решений дифференциального уравнения и ранее полученного рекуррентного интегро-разностного уравнения. Однако требования устойчивости вычислительной схемы для дифференциального уравнения таковы, что существенного выигрыша по производительности вычислений достичь пока не удалось.

Работа выполнена при финансовой поддержке РФФИ, проект № 13-01-00334.

1. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2012. №4. С. 114-130.

2. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality) // Proc. Nati. Acad. Sci. USA. 1980. V.77. №6. P.3135-3138.

3. Колногоров А.В. Задача о двуруком бандите для систем с параллельной обработкой данных // Проблемы передачи информации. 2012. Т.48. №1. С.83-95.

4. Vogel W. An Asymptotic Minimax Theorem for the Two-Armed Bandit Problem II Ann. Math. Stat. 1960. V.31. P.444-451.

5. Назин А.В., Позняк А.С. Адаптивный выбор вариантов. М.: Наука, 1986. 288 с.

Bibliography (Transliterated)

1. Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchaynoy srede (zadache o dvurukom bandite) II Avtoma-tika i telemekhanika. 2012. №4. S.114-130.

2. Lai T.L., Levin B., Robbins H, Siegmund D. Sequential Medical Trials (Stopping Rules/Asymptotic Optimality) // Proc. Nati. Acad. Sci. USA. 1980. V.77. №6. P.3135-3138.

3. Kolnogorov A.V. Zadacha o dvurukom bandite dlya sistem s parallel'noy obrabotkoy dannykh // Problemy peredachi informatsii. 2012. T.48. №1. S.83-95.

4. Vogel W. An Asymptotic Minimax Theorem for the Two-Armed Bandit Problem II Ann. Math. Stat. 1960. V.31. P.444-451.

5. Nazin A. V., Poznyak A.S. Adaptivnyy vybor variantov. M.: Nauka, 1986. 288 s.

i Надоели баннеры? Вы всегда можете отключить рекламу.