Научная статья на тему 'Численная оптимизация параллельной обработки в стационарной случайной среде'

Численная оптимизация параллельной обработки в стационарной случайной среде Текст научной статьи по специальности «Математика»

CC BY
110
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОВЕДЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / РОБАСТНОЕ УПРАВЛЕНИЕ / ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА / BEHAVIOR IN RANDOM ENVIRONMENT / TWO-ARMED BANDIT PROBLEM / ROBUST CONTROL / PARALLEL PROCESSING

Аннотация научной статьи по математике, автор научной работы — Олейников Андрей Олегович

В задаче о поведении в случайной среде (также известной как задача о двуруком бандите) предложена стратегия, которая применяет варианты к группам данных на конечном заданном числе этапов. Предложен алгоритм оптимизации размеров групп обрабатываемых данных. Представлены результаты численной оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NUMERICAL OPTIMIZATION OF PARALLEL PROCESSING IN A STATIONARY ENVIRONMENT

A stategy which applies variants to data groups in a bounded number of stages is considered for the problem of control in a stationary environment (also known as the Two-armed bandit problem). An algorithm is suggested for group size optimization. The results of the algorithm application are presented.

Текст научной работы на тему «Численная оптимизация параллельной обработки в стационарной случайной среде»

Труды Карельского научного центра РАН № 1. 2013. С. 73-78

УДК 519.865

ЧИСЛЕННАЯ ОПТИМИЗАЦИЯ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ В СТАЦИОНАРНОЙ СЛУЧАЙНОЙ СРЕДЕ

А. О. Олейников

Новгородский государственный университет имени Ярослава Мудрого

В задаче о поведении в случайной среде (также известной как задача о двуруком бандите) предложена стратегия, которая применяет варианты к группам данных на конечном заданном числе этапов. Предложен алгоритм оптимизации размеров групп обрабатываемых данных. Представлены результаты численной оптимизации.

Ключевые слова: поведение в случайной среде, задача о двуруком бандите, робастное управление, параллельная обработка.

A. O. Oleynikov. NUMERICAL OPTIMIZATION OF PARALLEL PROCESSING IN A STATIONARY ENVIRONMENT

A stategy which applies variants to data groups in a bounded number of stages is considered for the problem of control in a stationary environment (also known as the Two-armed bandit problem). An algorithm is suggested for group size optimization. The results of the algorithm application are presented.

Key words: behavior in random environment, two-armed bandit problem, robust control, parallel processing.

Введение

Рассматривается задача о поведении в случайной среде [5], также известная как задача о двуруком бандите [4], [6] с нормально распределенными доходами на конечном числе шагов N [1]. Доходы при использовании различных вариантов имеют распределения с плотностями

f (x\m£) = (2п)-1/2exp {-(x - mi)2/2} ,

где £ - номер выбранного варианта, а mi -математическое ожидание этого варианта (в нашем случае £ = 1,2). Такой двурукий

бандит описывается векторным параметром в = (m1,m2).

Выбор варианта на следующем шаге осуществляется на основе информации о доходах на предыдущих шагах и описывается стратегией а. Множество, состоящее из всех возможных стратегий, обозначим £. Целью управления является получение наибольшего дохода.

При известном параметре в наилучшей стратегией является та, которая указывает всегда применять вариант, которому соответствует большая из величин ш\, ш2. В таком случае полный ожидаемый доход равен N(ш1 V ш2). Если же параметр неизвестен, то потери дохода вследствие неполноты информации описываются функцией

Ьм(а, в) = Ес$ ((Ш1 V Ш2) - £„)^ .

Здесь Ea$ - математическое ожидание по мере, порожденной стратегией а и параметром в. Множество допустимых значений параметра имеет вид 0 = {(m1,m2) : \m1 — m2\ ^ с}, где с - некоторая константа (0 < с < ж) [1].

При использовании минимаксного подхода, цель управления состоит в минимизации максимальных ожидаемых потерь на множестве параметров 0 по множеству стратегий £, величина

(0) = inf SUP (а, в)

s ©

называется минимаксным риском, а соответствующая стратегия - минимаксной стратегией. Эта постановка рекомендована в работе [7].

Одним из возможных видоизменений стратегии является разбиение шагов на несколько групп, таким образом, чтобы каждый шаг принадлежал какой-либо группе и в одной группе могут оказаться только шаги, расположенные подряд. В дальнейшим будем называть шаги пакетами данных, а выбор одного из вариантов на каждом шаге - выбором варианта обработки для пакета.

В данной работе рассмотрен класс стратегий, применяющих одинаковый вариант для всех пакетов в группе и позволяющих вследствие этого вести их параллельную обработку. Для такого класса стратегий предложен алгоритм оптимизации размеров групп и представлены результаты численной оптимизации.

Стратегия параллельного управления

В [1] установлено, что для описанного случая применима основная теорема теории игр (минимаксные стратегия и риск совпадают с байесовскими на наихудшем априорном распределении). Также в этой работе установлено, что наихудшее априорное распределение является симметрическим и асимптотически однородным, и получено рекуррентное уравнение для вычисления соответствующих байесовских стратегии и риска.

Положим ш1 = и + V, ш2 = и — V, тогда в = (и + v,u — V), & = {в : |VI ^ с}. В новых переменных асимптотически наихудшая плотность распределения может быть выбрана в виде иа(и,,и) = Ха(и)р^), где Ка(и) - постоянная плотность при |и| ^ а, р(V) = р(—у) -симметрическая плотность и а ^ ж. Соответствующий байесовский риск равен [1]:

ЯМ К (и,и)) (1)

= \п^ JJ Ьм(а, (и + v,u — и))иа(и,и)(1ш!и.

Обозначим через щ и П2 количество шагов, на которых применены первый и второй варианты соответственно, а через Х1, Х2 - полные доходы при их применении. При поиске байесовской стратегии на первых двух шагах оба варианта применяются по очереди, стратегию на следующих шагах можно найти, используя приведенные в [1] рекуррентные уравнения.

Далее рассмотрим стратегию, в которой используется разбиение шагов на к + 2 группы и управление ведется с тем ограничением, что для всех пакетов в группе применяется один вариант [2], [3]. В начале стратегия указывает применять каждый вариант по Мо раз (первые две группы), а затем осуществляет оптимальное управление с описанным выше ограничением. Размеры групп обозначим Мо для первых двух и М1, М2,..., М^ для оставшихся (таким образом, первые две группы всегда имеют одинаковый размер). Считаем, что 2Мо + М1 + М2 + ■ ■ ■ + Мк = N.

Такой вид управления позволяет производить параллельную обработку данных. Действительно, если в байесовской стратегии для выбора варианта для следующего пакета нужно знать результат обработки предыдущего, то для описанной стратегии возможно применение выбранного варианта ко всем пакетам в одной группе параллельно. В этом случае полное время управления равно времени обработки к + 1 пакетов данных (поскольку первые две группы могут быть обработаны одновременно).

В работе [2] описывается похожая стратегия, но предписывающая разбивать обработку на группы равного размера. Разбиение же на группы разного размера вызвано желанием уменьшить максимальные потери при использовании параллельной стратегии. Как будет видно из результатов оптимизации, уменьшение размеров первых групп ведет к уменьшению максимальных рисков.

Обозначим через (2) байесовский

риск на последних N — (п1 + п2) шагах относительно текущего апостериорного распределения, через ДЙП (2) - аналогичный риск, вычисленный при условии, что сначала Мг раз выбирается £-й вариант, а затем выполняется оптимальное управление, где

2 = Х1П2 — Х2П1, П1 ^ Мо, П2 ^ Мо,

£ = 1,2. Вычисления удобно выполнять

для рисков Кпип2 (2) = ,П2 (2)Рпг,п2 (2),

Я8,п* (2) = (2)Рп1,п2 (2), £ = 1, 2, где

рп1,п2 (2) - плотность распределения 2 при фиксированных п1,п2 [2].

При оптимизации использовалось следующее рекуррентное уравнение для вычисления байесовского риска, соответствующего стратегии параллельного управления [2], [3]:

Яп1,п2 (■) = тп(Яп},п2 ('), Е<п},п2 (■)), (2)

где Яп},п2 (2) = Яп},п2 (2) = 0 при П1 + П2 = N,

я^,п2(2) = Мг 9{п1ип2(2) + п2 1 (3)

1т, ггут , М. ( 2Мг — Щг \

X I Яп1+ыг,п2 (2 + г)НпимЛ---------------------------------—- ) аг,

Я^п (2 )= Мг д^п, (2)+ п—1

„ ( п /Г7 , „и (2Мг — п2г\ ^

Х ] Rnl,n2+Mi(2 + z}hn2,Mi \ п )

при п1 + п2 = 2Мо + ■ ■ ■ + Мг—1, п1 ^ Мо, п2 ^ Мо. Здесь

дЩп 2 (2)

сю V

= J 2vgn 1,п2 (2, (—1)е+1и)р(и)с1и, £ = 1,2,

о

дт,п2 (2^) = (2пщп2(п1 + п2 ))—1/2

(5)

X ехр —

(2 + 2vnln2)^ 2щп2(п1 + п2)] ’

. ( п + М у/2

Км (г) = {2Лш)

(6)

X ехр —

2пМ (п + М)

(7)

ЬПьП2 (2) = а1(2,п1,п2)Ьп1п2 (2) +а2(2,п1,п2)Ьп21,п2 (2),

где ьП111,п2 (2) = ьП11,п2 (2) = 0 при

п1 + п2 = N, а функция а^(2,п1 ,п2) равна единице, если найденная байесовская стратегия предписывает на данном шаге при данных доходах выбирать £-й вариант, и нулю - в противном случае.

41^2 (2 ) = Мгд^п2 (2)+ п—1

(10)

2Мг — п1

X I Ьп1+мг,п2(2 + г)НпимЛ ----------—-----) аг,

ьП1п2 (2 ) = Мгд(21иП2 (2)+ п—1

+ Ю

2Мг — п2

X / Ьп1,п2+мг(2 + г)Нп2,мЛ --------—----- ) аг

(11)

При этом байесовский риск (1) вычисляется по формуле:

Иш ЯМ(Ра(и, V))

(8)

/*<Ю /*<Ю 4 1

= 4Мо ир(и)с!и + / Ямо,Мо (г)йг.

^о }—ю

Запоминая для каждой тройки 2, п1, п2 минимальный риск Я£, мы находим соответствующую байесовскую стратегию.

Для произвольной стратегии параллельного управления {а^(г,п1,п2)} и плотности Vа(и,и) вычислить потери можно, используя следующее рекуррентное уравнение [2]:

при п1 + п2 = 2Мо + ■■■ + Мг—1, п1 ^ Мо, п2 ^ Мо. Тогда функция потерь вычисляется по формуле

1т Ьм(иа(и,-и))

а^ж (12)

= 4Мо ир(и)с!и + / Ьмо,мо (г)йг.

л о J — ю

Оптимизация размеров групп данных

Для оптимизации размеров групп использовалась показанная выше методика нахождения минимаксного риска ((2) - (8)) и потерь ((9) - (12)) для заданного разбиения данных Мо, М1,..., Мк. Этот риск зависит от с и от разбиения Мо,М]_,...,Мк. Задача состоит в поиске оптимального разбиения (для фиксированного с)

я(Моо,М°1,...,М°к)

= шт Я(Мо ,М1 ,...,Мк).

м0,м1 ,...,мк

Минимизация может выполняться численными методами, например, методом покоординатного спуска. Однако необходимо учитывать, что в данном случае переменные связаны между собой. Поэтому будем использовать следующую модификацию метода покоординатного спуска: будем поочередно находить оптимальные значения для каждого Мг, начиная с Мо. При этом все оставшиеся Мг будем считать равными (в случае, если оставшееся количество шагов не

75

2

г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

делится на количество оставшихся групп, необходимое количество последних групп увеличивается на единицу). Получившуюся подзадачу однопараметрической оптимизации будем решать прямым перебором. Полученное значение фиксируется, и оптимизация продолжается для следующей группы данных. Минимальное значение для Мг равняется единице, максимальное значение определяется в зависимости от г: для Мо ^ ^ — к)/2, для остальных

3=г—1

Мг ^ N — (к + 1 — г) — 2Мо — £ м .

3 = 1

Прямой перебор возможен для одного параметра благодаря небольшим рассматриваемым значениям N, в дальнейшем он может быть заменен другим методом. Начало оптимизации с Мо обусловлено тем, что данное значение сильно влияет на потери (так как каждый вариант, в том числе худший, должен быть применен Мо раз в начале управления), а также тем, что на начальных этапах управления информированность о параметрах среды меняется быстрее, чем на последующих.

Для того, чтобы убедиться, что найденное разбиение действительно соответствует минимуму функции, выбранной в качестве критерия, проверяются разбиения, полученные из найденного путем изменения размеров двух групп на единицу. Если в процессе проверок находилось лучшее разбиение, оно в дальнейшем проверялось по тем же правилам.

Оптимизация проводилась по предложенному алгоритму для N = 16, 30 и к = 6. Для а были использованы значения от 0,9 до 5,5 включительно с шагом 0,2 (параметр а характеризует априорное распределение: считается, что плотность р(и) сосредоточена в двух точках: V = ±dN21/2). Критерием для сравнений разбиений являлся минимаксный риск (производилась минимизация данного критерия). В результате оптимизации были получены разбиения со следующими размерами: для

N = 16: мо = 1, мо = 1, М2о = 1, М3о = 1, М4о = 3, мо = 1 и мо = 7. Для N = 30: моо = 1, мо = 3, мо = 2, мо = 4, мо = 2, мо = 5 и мо = 12.

Для получения результата при N = 16 потребовалось найти риски для 71 возможного разбиения, тогда как их общее количество для приведенного примера равняется:

2г^М—к £ = 1897.

г=1

В данном случае это количество равно количеству композиций числа N длины к + 2, у которых первые два слагаемых равны.

Для N = 30 общее число вариантов равняется 210574. При использовании предложенного алгоритма потребовалось перебрать 283 варианта (включая проверки).

Таким образом, нам удалось значительно сократить перебор. Однако из-за применения метода покоординатного спуска есть риск нахождения локального минимума.

На рис. 1 показаны приведенные риски г

ЛТ -| л / Я(м0,м1,...мк 1 \ 1

для N =16 (г = —— ——): линия 1 - для

разбиения с одинаковыми размерами групп Мг = 2, линия 2 - для найденного оптимального разбиения, линия 3 - для такого же числа шагов для стратегии, в которой выбор можно менять на каждом шаге. Как видно на рисунке, потери для полученного разбиения меньше, чем для разбиения с одинаковыми размерами групп. Однако они выше, чем потери для стратегии с последовательным управлением, что является платой за возможность параллельной обработки.

На рис. 2 показаны приведенные риски и потери для параллельной (линии 1 и 2) и обычной (линии 3 и 4) стратегий ^ = 30). На данном рисунке также видно, что применение параллельной стратегии увеличивает риски.

Заключение

Предложена стратегия параллельной обработки данных, предписывающая применять разные варианты обработки к группам последовательно поступающих пакетов. Минимаксный риск ищется с помощью рекуррентного уравнения как байесовский, соответствующий наихудшему априорному распределению, и зависит от разбиения групп обрабатываемых данных (для фиксированного с). Рассмотрена задача оптимизации разбиения данных для минимизации минимаксного риска.

В дальнейшем стратегия разбиения может быть развита добавлением ограничения на максимальный размер группы (например, для случая, когда максимальное количество одновременно обрабатываемых групп данных ограничено).

0,5

0.9 1.5 2.1 2.9 3.5 4.1 4.9 5.5

с1

Рис. 1. Результаты численной оптимизации для 16 пакетов

Рис. 2. Результаты численной оптимизации для 30 пакетов

Литература

промышленной математики. 2012. Т. 19, вып. 2. С. 210-211.

1. Колногоров А. В. Нахождение минимаксных стратегии и риска в случайной среде (задача о двуруком бандите) // АиТ. 2011. № 5. С. 127138.

2. Колногоров А. В. Робастное параллельное управление в случайной среде (задача о двуруком бандите) // АиТ. 2012. № 4. С. 114-130.

3. Колногоров А. В., Олейников А. О. Оптимизация параллельной многоэтапной обработки в случайной среде // Обозрение прикладной и

СВЕДЕНИЯ ОБ АВТОРЕ:

Олейников Андрей Олегович

аспирант

Новгородский государственный университет имени Ярослава Мудрого

ул. Большая Санкт-Петербургская, 41, Великий Новгород, Новгородская область, Россия, 173000 эл. почта: [email protected] тел.: (8953) 901 64 23

4. Пресман Э. Л., Сонин И. М. Последовательное управление по неполным данным. Байесовский подход. М.: Наука, 1982. 286 с.

5. Цетлин М. Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.

6. Berry D. A., Fristedt B. Bandit problems. London, New York: Chapman and Hall, 1985. 275 p.

7. Robbins H. Some aspects of the sequential design of experiments // Bulletin AMS. 1952. V. 58(5). Р. 527-535.

Oleynikov, Andrey

Novgorod State University

41 Bol. Sankt-Peterburgskaya St., Velikiy Novgorod,

Russia, 173000

e-mail: [email protected]

tel.: (8953) 901 64 23

i Надоели баннеры? Вы всегда можете отключить рекламу.