Научная статья на тему 'Способы получения упрощенных стратегий для параллельной обработки в случайной среде'

Способы получения упрощенных стратегий для параллельной обработки в случайной среде Текст научной статьи по специальности «Математика»

CC BY
79
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОВЕДЕНИЕ В СЛУЧАЙНОЙ СРЕДЕ / ЗАДАЧА О ДВУРУКОМ БАНДИТЕ / РОБАСТНОЕ УПРАВЛЕНИЕ / BEHAVIOR IN RANDOM ENVIRONMENT / TWO-ARMED-BANDIT PROBLEM / ROBUST CONTROL

Аннотация научной статьи по математике, автор научной работы — Олейников А. О.

В задаче о поведении в случайной среде для стратегий параллельной обработки предложены способы упрощения, а также показано, что данные стратегии являются симметричными.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS FOR DEVELOPING SIMPLIFIED STRATEGIES FOR PARALLEL PROCESSING IN RANDOM ENVIRONMENT

Some ways to develop simplified strategies for the problem of behavior in random environment are considered. It is shown that the strategies for parallel processing are symmetric.

Текст научной работы на тему «Способы получения упрощенных стратегий для параллельной обработки в случайной среде»

УДК 519.865

СПОСОБЫ ПОЛУЧЕНИЯ УПРОЩЕННЫХ СТРАТЕГИЙ ДЛЯ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ

В СЛУЧАЙНОЙ СРЕДЕ

А. О. Олейников

METHODS FOR DEVELOPING SIMPLIFIED STRATEGIES FOR PARALLEL PROCESSING

IN RANDOM ENVIRONMENT

A.O.Oleinikov

Институт электронных и информационных систем НовГУ, [email protected]

В задаче о поведении в случайной среде для стратегий параллельной обработки предложены способы упрощения, а также показано, что данные стратегии являются симметричными.

Ключевые слова: поведение в случайной среде, задача о двуруком бандите, робастное управление

Some ways to develop simplified strategies for the problem of behavior in random environment are considered. It is shown that the strategies for parallel processing are symmetric.

Keywords: behavior in random environment, two-armed-bandit problem, robust control

1. Введение

Рассматривается задача о целесообразном поведении в стационарной случайной среде [1], известная также как задача адаптивного управления [2] и задача о двуруком бандите [3], в следующей постановке: пусть ^ , п = 1,...,N есть управляемый случайный процесс, значения которого интерпретируются как доходы, зависят только от выбираемых в текущие моменты времени вариантов = I (£ = 1,2) и имеют нормальные распределения с математическими ожиданиями т/ и единичными дисперсиями. Тогда среда может быть описана векторным параметром 6 = (т1, т2).

Цель управления состоит в максимизации суммарного ожидаемого дохода. Для этого используется стратегия ст. Множество стратегий обозначим

I.

Если параметр 6 известен, то следует всегда применять вариант, которому соответствует большая из величин т1, т2; в этом случае полный ожидаемый

доход равен N(т V т2). Функция

( N \

^ ^6)=^ст,б|Е «т V т2)-у

и=1

характеризует потери дохода вследствие неполноты информации, если параметр 6 неизвестен. Здесь Ест 6 обозначает математическое ожидание по мере,

порожденной стратегией ст и параметром 6 . Множество допустимых значений параметра имеет вид © = {(трт2) :| т1 -т2 |< 2с^1/2}, где с — некоторая константа (0 < с < ю).

При минимаксном подходе величина

< (©) = Мшр LN (ст, 6)

Е ©

называется минимаксным риском, а соответствующая стратегия (если она существует) — минимаксной стратегией.

В работе [4] показано, что минимаксные стратегия и риск могут быть найдены как байесовские, соответствующие наихудшему априорному распределению, а также даны рекуррентные формулы для их нахождения. Стратегию, найденную при помощи этих формул, будем далее называть точной.

2. Стратегии

Стратегия, найденная при помощи описанных в [4] рекуррентных формул, имеет пороговый характер и может быть представлена при помощи треугольной матрицы. Номер строки и столбца в данной матрице будет обозначать количество сделанных шагов, на которых были выбраны первый и второй вариант соответственно. Для того чтобы определить,

какой вариант необходимо выбрать на данном шаге, используется значение 2 = Х1п2 - Х2п1, где X. — суммарный доход, полученный за все шаги, на которых был выбран вариант /', п. — количество шагов,

на которых был выбран вариант /'. Значение элемента матрицы — это пороговое значение, если оно меньше 2 для текущего состояния, стратегия предписывает выбирать первый вариант, в противном случае — второй.

Для визуализации данная матрица может быть представлена в виде набора графиков (по одному графику для каждого значения (п + п2). Для оси абсцисс можно выбрать п1 /(п1 + п2), для оси ординат —

граничное значение 2. Можно нормировать графики по количеству шагов. В таком случае будем использовать t = tl +12 для именования графиков, tl/1 и

Т(t1, t2) = 2 • N 3 2 — для координатных осей, здесь t. = п. /N . График будет задан набором точек, определяемых пороговыми значениями 2 для соответствующей диагонали матрицы.

Лемма 1 (приводится без доказательства). Вы-

полняются следующие равенства: Кп(2) = Кп '(-2); К— (2) = К(1п (-2), где К— (2) — потери в случае если при данных значениях п1 , п2 , 2 будет выбран

сначала -й вариант, а затем управление будет вестись оптимально.

Будем использовать представление в виде набора графиков и лемму 1 для получения упрощенных стратегий. Из леммы 1 следует, что каждый график симметричен относительно точки (0,5;0). Действительно, если точки принадлежат одному графику, то п1 + п2 = k для всех точек, где k — некоторая константа. При этом если п1 /(п1 + п2) = 0,5 + а, то п2 /(п1 + п2) = (к - п1)/(п1 + п2) = 1 - п1 /(п1 + п2) = 0,5 - а. Более того, при п1 + п2 пороговое значение для 2 равняется 0 в силу того, что это значение единственно. Если бы оно не равнялось 0, то по лемме 1 должно бы было быть симметричное значение, однако пороговый характер стратегии указывает на существование

только одного 2 такого, что (2) = К^ 'п (2). Это

означает, что для описания стратегии можно хранить только точки в диапазоне (0,5; 1).

Далее зададим следующее ограничение: будем искать стратегии, которые могут быть табулированы не более чем двумя точками для каждого значения t (таким образом, каждый график будет содержать не более пяти точек).

Будем использовать следующие три способа получения упрощенных стратегий: численно, аналитически и с использованием потерь в качестве критерия.

Опишем подробнее перечисленные методы. Для первых двух критерием оптимизации будет являться среднеквадратичное отклонение упрощенного графика от точного. При использовании численного метода будем находить наилучшие координаты точек, задающих стратегию, при помощи метода покоординатного спуска. Для первой точки будем оптимизировать обе координаты, для второй — только по оси ординат, так как для нас важен только угол наклона графика.

Аналитический метод представляет собой два похожих метода, также использующих среднеквадратичное отклонение в качестве критерия. Первый, упрощенный, задает график только одной точкой. Для данного случая будем просто искать наименьшее среднеквадратичное отклонение через производную. Отметим, что среднеквадратичное отклонение необходимо искать только в тех точках по оси абсцисс, в которых действительно будет производиться поиск граничного значения для стратегий. Во втором варианте выберем точку xr = (x - 0,5) / 2, где x —

* J 1 4 max ' ' ' max

максимальное значение абсциссы среди точек точной стратегии, индекс r обозначает, что эта точка задает упрощенную стратегию. Зафиксируем это значение и для оставшегося промежутка (x[; xmax] найдем значение ординаты тем же способом. В итоге получим формулу для вычисления координат точек упрощенной стратегии:

X(2xy - y,)

yr = (x - 0,5).

Vf/2xг

^фд xr ]

■v Л / r r r r\

y(xyt - уЛ - щ+ y^

y2 = + (x2 - x)• x'e(<;1] r,-,

где x. и y. — координаты точек, задающих точную стратегию.

Метод с использованием потерь в качестве критерия заключается в численной оптимизации также методом, например, покоординатного спуска. Однако для данного метода в качестве критерия оптимизации используется значение потерь, вычисленное при помощи рекурсивных формул из [4] по упрощенной стратегии. Этот метод требует больше вычислений из-за увеличения размерности задачи оптимизации. Если для предыдущих методов мы могли подбирать стратегии для каждого шага отдельно (несколько простых задач, по 3 переменных в каждой), то для данного необходимо оптимизировать стратегию целиком (3-(Ж - 2) переменных). Такой метод интересен также в том смысле, что позволяет проверить существование стратегии, отвечающей заданным ограничениям и имеющей меньшее значение минимаксного риска.

3. Результаты численной оптимизации

По первым двум описанным выше методам были найдены упрощенные стратегии для N = 15 и N = 30. Для N = 15 была найдена упрощенная стратегия по третьему методу. Для поиска точной стратегии использовались рекуррентные формулы из [4]. Плотность априорного риска предполагалась вырожденной и сосредоточенной в двух точках и = • N 1/2 с вероятностями 1/2. После этого по точной стратегии были найдены приближенные по описанным выше методам. Проведено моделирование методом Монте-Карло управляющих процессов с использованием полученных стратегий. Эти стратегии уже не являются минимаксными, но все же близки к ним.

На рис.1 показаны потери для N = 30. Жирной линией показаны потери для точной стратегии, тонкими линиями — потери для упрощенных стратегий (численно и двумя способами аналитически). Как видно из рисунка, потери для разных способов упрощения не очень сильно отличаются между собой.

На рис. 2 и 3 жирной линией показан один из графиков (п1 + п2 = 28) стратегии для N = 30. Точками

Рис.2. График стратегии для 29 шага, точный и упрощенный простым аналитическим методом

И/1

Рис.3. График стратегии для 29 шага, точный и упрощенный аналитическим методом

выделены значения, табулированные для точной стратегии. Тонкой линией показана приближенная стратегия, полученная при помощи аналитического метода (рис.3) и при помощи упрощенного аналитического метода (рис.2). На рисунках показана только половина симметричного графика. Внешний вид представления стратегии в виде графика можно найти в работе [5].

Для N = 15 получены следующие результаты: для того чтобы табулировать точную стратегию, потребуется хранить 42 точки (с учетом симметричности стратегий). Для того чтобы табулировать упрощенную стратегию, потребуется 26 точек (или 13 точек в случае простого аналитического метода). Разница между потерями для точной и упрощенных стратегий при моделировании методом Монте-Карло не превышала 0,4%.

Для N = 30 получены следующие результаты: для того чтобы табулировать точную стратегию, потребуется хранить 197 точек (с учетом симметричности стратегий). Для того чтобы табулировать упрощенную стратегию, потребуется 56 точек (или 28 точек в случае простого аналитического метода). Разница между потерями для точной и упрощенных

стратегий не превышала при моделировании 0,6% для численно упрощенной, 0,8% — для аналитически, 0,9% — для простого аналитического метода. При этом максимальные потери отличались не более чем на 0,3%.

4. Заключение

Описанные способы получения упрощённых стратегий позволяют табулировать стратегии с использованием меньшего количества информации и при этом получать приемлемое ухудшение результатов. Данные эксперименты показывают также, что найденные по рекуррентным формулам из [4] стратегии обладают устойчивостью к небольшим изменениям. Для N = 15 не найдено упрощенных стратегий, имеющих максимальные потери меньшие, чем у точной стратегии, что согласуется с теорией.

Автор выражает благодарность профессору А.В.Колногорову за постановку задачи и обсуждение результатов.

Работа выполнена при финансовой поддержке РФФИ, проект № 13-01-00334.

1. Цетлин М.Л. Исследования по теории автоматов и моделированию биологических систем. М.: Наука, 1969. 316 с.

2. Срагович В.Г. Адаптивное управление. М.: Наука, 1981. 384 с.

3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall, 1985. 275 р.

4. Колногоров А.В. Нахождение минимаксных стратегии и риска в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2011. №5. С.127-138.

5. Колногоров А.В. Робастное параллельное управление в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика. 2012. №4. С. 114-130.

Bibliography (Transliterated)

1. Tsetlin M.L. Issledovaniia po teorii avtomatov i modelirovaniiu biologicheskikh sistem. M.: Nauka, 1969. 316 s.

2. Sragovich V.G. Adaptivnoe upravlenie. M.: Nauka, 1981. 384 s.

3. Berry D.A., Fristedt B. Bandit Problems. L., N.Y.: Chapman and Hall, 1985. 275 p.

4. Kolnogorov A.V. Nakhozhdenie minimaksnykh strategii i riska v sluchainoi srede (zadache o dvurukom bandite) // Avtomatika i telemekhanika. 2011. №5. S.127-138.

5. Kolnogorov A.V. Robastnoe parallel'noe upravlenie v sluchainoi srede (zadache o dvurukom bandite) 11 Avtomatika i telemekhanika. 2012. №4. S.114-130.

i Надоели баннеры? Вы всегда можете отключить рекламу.