Научная статья на тему 'Модель адаптивного управления конечной цепью Маркова со слабо дисконтируемыми доходами'

Модель адаптивного управления конечной цепью Маркова со слабо дисконтируемыми доходами Текст научной статьи по специальности «Математика»

CC BY
97
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УПРАВЛЯЕМЫЕ ЦЕПИ МАРКОВА / АДАПТИВНОЕ УПРАВЛЕНИЕ / CONTROLLED MARKOV CHAINS / ADAPTIVE CONTROL

Аннотация научной статьи по математике, автор научной работы — Колногоров А. В., Федорук Р. С.

Для марковских цепей со слабо дисконтируемыми доходами предложена адаптивная модель управления, оценивающая неизвестные параметры и осуществляющая затем оптимальное управление в соответствии с алгоритмом Ховарда. Дана математическая оценка оптимального времени проведения испытаний для частного случая системы, когда принимаемое решение не зависит от состояния системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модель адаптивного управления конечной цепью Маркова со слабо дисконтируемыми доходами»

УДК 519.865

МОДЕЛЬ АДАПТИВНОГО УПРАВЛЕНИЯ КОНЕЧНОЙ ЦЕПЬЮ МАРКОВА СО СЛАБО ДИСКОНТИРУЕМЫМИ ДОХОДАМИ

А.В.Колногоров, Р.С.Федорук

Институт электронных и информационных систем НовГУ, Alexander.Kolnogorov@novsu.ru

Для марковских цепей со слабо дисконтируемыми доходами предложена адаптивная модель управления, оценивающая неизвестные параметры и осуществляющая затем оптимальное управление в соответствии с алгоритмом Ховарда. Дана математическая оценка оптимального времени проведения испытаний для частного случая системы, когда принимаемое решение не зависит от состояния системы.

Ключевые слова: управляемые цепи Маркова, адаптивное управление

Given Markov chain with slightly discounted incomes, an adaptive model which estimates the unknown parameters at the beginning of the control and then implements optimal control according to Howard's algorithm is proposed. The estimate of optimal test period for the case of the state-independent solutions is given.

Keywords: controlled Markov chains, adaptive control

Описание системы

Дадим определение конечной цепи Маркова с дисконтируемыми доходами. Рассмотрим систему, у которой пространство состояний £ содержит конечное число элементов. Пусть £ совпадает с множеством целых чисел £ = {1, 2, ..., Ы}. Каждому состоянию / е £ соответствует конечное множество К решений, элементы которого обозначим к = 1, 2, ..., К,. Пространством политик К назовем прямое произведение множеств решений, т. е. К = К1 х К2 х .х КЫ. Рассматривается задача принятия последовательных решений, состоящая в выборе решений при наблюдении текущих состояний в моменты п = 0, 1, 2,.

Пусть Е — множество всевозможных векторов со значениями в пространстве политик К и/1/2,.../,,... — элементы из Е. Тогда стратегия п определяется, как последовательность п = (/1,/2,...,/П,...), где / — вектор, /-й элемент которого, обозначаемый /ПО), является решением, принимаемым в состоянии / е £ в момент п.

Стратегия (//.../...) обозначается /ад, где / е Е , и называется стационарной. Стационарная стратегия

/ад

состоит из политик, не зависящих от времени.

Если система находится в состоянии / е £ и принимается решение к е К1, то система получает

к

доход Г/ и ее состояние в следующий момент вре-

к

мени определяется вероятностным законом ру

(/ е £), где рк — вероятность того, что система из состояния / при выборе решения к попадает в состояние /. Предполагается, что доход Г/к ограничен при всех / е £ и ке К/ . Допустимо использование случайных доходов, зависящих только от решений, выбираемых в данном состоянии, при этом следует потребовать ограниченности их математических

ожиданий, которые также обозначим г\ . Кроме того, X Рк = 1 Рр - 0 при '’ / е £’ к е К/.

/еЯ

Пусть в, 0 <Р< 1, — коэффициент переоценки (дисконтирования) доходов. Смысл его состоит в том, что единица дохода через время п будет стоить

вп единиц. Введение коэффициента переоценки с математической точки зрения ведет к ограниченности суммарного дохода. Обозначим через 4 п случайный доход, получаемый системой в момент времени п, через

ад

V(п,/,в) = Мп/Хвп4п — математическое ожидание

п=1

полного дохода системы, если ее начальное состояние равно /, а применяемая стратегия п. Цель управления состоит в определении такой стратегии п, которая максимизирует величину V (п,/,в).

Ховардом (см., напр., [1]) доказано, что оптимальная стратегия п* в цепях Маркова с дисконтируемыми доходами всегда является стационарной, причем максимизация V(п,/,в) обеспечивается одной *

и то же стратегией п при всех /, а также предложен и доказан алгоритм нахождения этой стратегии. Ниже рассматриваются цепи Маркова со слабо дисконтируемыми доходами, т.е. при в — 1. В этом случае зависимость от начального состояния исчезает, а

,• V (п*,/,в) . . £

именно 11т-------„ = 1 при всех / е £ , причем при

в— V(п*,в)

в , достаточно близких к 1, стратегия п* одинакова.

Приведем пример. Предположим, что некоторая компания занимается перевозкой грузов из одного города в другой — города являются состояниями системы. У компании есть возможность перевезти груз несколькими способами: автомобилем, поездом, по воде или по воздуху. В разных городах доступный набор способов доставки разный — это решения. Вероятностные законы определяют вероятность перевозки из одного города в другой, а доходы — это доход, получаемый компанией от перевозки груза из одного города в другой в зависимости

от вида транспорта. В разные времена года эти параметры могут различаться, и для определения оптимальной стратегии можно использовать рассмотренную модель.

Адаптивная модель управления системой в случае неизвестных параметров

Рассматриваемый далее подход предложен в [2]. Будем предполагать известными множество состояний системы и возможные решения в каждом из состояний, а неизвестными — переходные вероятности рк . Если доходы Гк являются детерминированными, то их также можно считать известными, так как для их определения достаточно один раз выбрать решение к в состоянии /. Если же они являются случайными, то они тоже считаются неизвестными.

Предложенная модель сначала оценивает неизвестные параметры системы, а затем осуществляет оптимальное управление в соответствии с алгоритмом Ховарда на основе этих оценок. Таким образом, управление подстраивается под любую конечную цепь Маркова, т. е. является адаптивным управлением. Отметим, что адаптация предполагает наличие двух процессов: идентификации параметров и оптимального управления, причем эти два процесса конкурируют друг с другом. Если оценивание выполняется долго, то оценки будут близки к точным, однако из-за обесценивания доходов вследствие дисконтирования не будет возможности получить достаточно большой полный доход. Если же оценивание выполняется не очень точно, но быстро, то дисконтирование незначительное, однако велика вероятность ошибки при определении оптимальной стратегии. Поэтому важным является условие слабой дисконти-руемости доходов: оно позволяет посвятить достаточно времени получению близких к точным оценок параметров системы.

В процессе функционирования системы выполняется подсчет переходов из состояния в состояние при применении различных решений, а также

полученных доходов. Обозначим через V/ (п) наблюдаемое к моменту времени п количество переходов системы из состояния / в состояние / при принятии в нем решения к, через Vik (п) = (П) —

/е£

наблюдаемое к моменту времени п количество принятий решения к в состояния /. Очевидно, V/к (1) = 0 при всех /, /, к. Если система в момент времени п находится в состоянии /, выполним сравнение

Vlk (п) при всех к. Выбрать следует решение, которому соответствует минимальное значение V/к (п) , а если таких значений несколько, то любое из них (например, с наименьшим номером к или равновероятно). Текущие оценки переходных вероятностей

Vк (п) > 0 . Если, кроме того, полный доход, полученный в состоянии / в ответ на выбор решения к, равен Хк (п), то оценкой математического ожида-

, хк (п)

ния дохода будет г/ (п) = —к--------•

Vik (п)

Пусть рк - 5 > 0 при всех /, /,к . В этом случае

система на каждом шаге попадает в каждое состояние

К/

с вероятностью не меньшей 5 . Тогда М(п) - 5п

к=1

и, следовательно, для любого £ > 0 можно указать такое п, что выполнится неравенство

рг{ V? > 5п

2К/

> 1-£.

Так как оценки состоятельны, то в этом случае для любых £1, £ > 0 можно указать такое п, что выполнится неравенство

рг{тах(рк (П) - рк (П)М гк (П) - гк (П) |)< £ | >1 - £. (1)

Модель управления состоит в том, что сначала на отрезке времени длины N выполняются подсчеты величин V/к (п), Хк (п) , затем в момент времени N вычисляются оценки параметров р к (N),

Гк (п), по ним с помощью алгоритма Ховарда определяется оптимальная стационарная стратегия, которая и будет затем применяться. Обозначим эту стратегию п*(N). Математическое ожидание полного дохода при применении этой стратегии, если начальное состояние равно /, обозначим через

V(п*(N),/,в).

Теорема 1. Для любого £ > 0 можно указать такое N, что выполнится предельное неравенство

ШтМ^-1-£.

(2)

следует выполнять по формулам ру (п) =

/и) Vk (и)

при

в-1 V (п*,в)

Доказательство. Множество стратегий цепи Маркова является конечным. При этом алгоритм Ховарда основан на сравнении выражений, которые непрерывно зависят от параметров цепи. Поэтому из (1) следует, что для достаточно большого N вероятность ошибочного определения лучшей стратегии Регг (N) может быть сделана сколь угодно малой. Как отмечено выше, при в, близких к 1, оптимальная стратегия одинакова, а зависимость полного ожидаемого дохода от начального состояния исчезает, т.е.

V(п*,/,в) = V(п*,в)(1 + £(в)) , где £(в) — 0 при в — 1. Поэтому

V(п*(N),/,в) - (1 - Регг (N))в^(п*,в)(1 + £(в)). Выполняя предельный переход в — 1 при фиксированном N, получаем

тК^т/в) - 1- (N),

в—1 V (п*,в)

где вероятность Регг (N) может быть сделана сколь угодно малой для достаточно больших N, что приведет к выполнению условия (2). Теорема доказана.

Более сложной является задача оптимального выбора N при заданном значении в , близком к 1. Эта задача решается точно в следующем разделе для цепей Маркова с одним состоянием. Для цепей общего вида она пока решается с помощью моделирования.

Оценка оптимального времени проведения испытаний в случае, если принимаемое решение не зависит от состояния системы

В данном разделе развиваются методы оптимального управления для систем с недисконтируе-мыми доходами на конечном отрезке времени, предложенные в [3]. Рассматривается система £ из одного состояния 50, в котором возможно принятие двух решений к = 1 и к = 2. При этом система получает в зависимости от принятого решения случайный доход гк, дисконтируемый на каждом шаге на коэффициент , близкий к 1. В ситуации случайных доходов требуется затратить определенное время на оценку параметров системы. Обозначим время проведения испытаний системы 2N. Пусть X1 и X2 — доходы системы, полученные от поочередного применения решений к = 1 и к = 2 на протяжении времени 2N, каждое по N раз.

Будем считать, что доход системы имеет нормальное распределение. Математическое ожидание доходов гк на шаге п и дисперсия соответствуют равенствам М(гПк) = тк , Б(гПк) = 1. Пусть система всегда начинает функционировать начиная с решения к = 1 и при этом т1 > т2 , тогда

М (X') = ш1

1-в2 * М(х2) = вш21-в2 *

1-в2

М (X 2) = вш2

1- 2

Сравнение величин X1 и X2/в покажет, какое из решений при их применении обеспечивает получение максимального дохода системы во время проведения испытаний. На этом основании будет делаться вывод о том, какое из решений выбрать для управления системой на оставшемся промежутке времени ее функционирования.

Обозначим потери на первом и втором этапах соответственно ^1(в, N, т1, т2) и Ц2(в, N, т1, т2), тогда целевой функцией при оценке оптимального времени проведения испытаний является Л(в) = т1птах(тах Ц (в, N, т1, т2),тах Ь2 (в, N, т1, т2)).

N т^т2 т^,т2

Теорема 2. Оптимальные значения Щв) и Я(в) при , близких к 1, имеют вид

N (в) =

ДМ (1 - в)

2 ______________________ 2

3, Я(в ) = ( СЛ(2-ДМ'і3, (4)

где с и 0,17.

Доказательство. Дадим оценку потерям дохода на первом и втором этапах. Пусть (т1 - т2) = Ат, 0 < Ат < АМ. При этом потери возможны на половине первого этапа длины 2N, т.е. за N шагов. Математическое ожидание потерь на первом этапе

ад N, Ш1, ш2)=Рі-Дшф0 + в1+ •••+в2 *-1)=

= р Дш1^ = Аш1^ егг 1-в 2 1-в ’

(5)

ы 1

где РеГГ = — — вероятность того, что применяемое на данном шаге решение не является оптимальным. Ма-

тематическое ожидание потерь на втором этапе

, o2N+1 , ч л2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в2*

^(Р, *,ш1,ш2) = РеггДш(в +в + + •••) = РеггДш1-в ’ (6)

где Р'егГ — вероятность того, что по итогам испытаний на первом этапе была принята неоптимальная стратегия. Оценим вероятность ошибки:

Ре1 = р| X1 -< 0 | = Р

X <-Дш

1 -в

2 N Л

1 -в 2

(7)

где X = | X1 - ш

-11 -в2

1 -в2

V

X2 2 1 -в2 1 С

-------ш2 ——— |. С уче-

в 1 - в2

том (3) нетрудно проверить, что

м (X) = м| X - т 1- м {— - т21-зЖ

1-в 2

в 1-в2

= 0,

1 - в4*

Б( X) = Б( X1) + 2) = в0 + в2 + к + в4*-2 =^~Г •

1-в2

Поэтому для (7) справедливо равенство

( 1 Г-в2* ^

р2 = ф

егг

- Дш.

(1 + в 2 * )(1-в 2)

где Ф( ) — функция стандартного нормального распределения. С учетом (6), (7)

(3) ^2(Р, ш1,ш2) =Дш

2*

1-

1-в

2*

ГФ -Дш^ ,2Н^ ~2. • (8)

(1+в2* )(1-в2)

Уточним оценки (5) и (8). Положим в = 1—~,

т

где т можно интерпретировать как эффективное время работы системы. Оценим (5) и (8) при больших

Д й й 1 - в™ т. Для этого наидем предел выражений ——— и

1 - в

в2 N при Ж — 0. Обозначим Ж как а, тогда тт

1-в

1-в

2* (

-= Т

1- I 1-11

2* Л

(

Т У

ж

а

(

1-

*\

2а Л

1-

а | а *

*(1-е2а)

При нахождении первого предела воспользуемся правилом Лопиталя:

. * (1 - е ~2а)

1ІШ

а^0

= * 1ІШ

. 1 - е

-2а

=* 1іш2е ~2а = 2 *.

а^0 а а^0

Второй предел

1іш в2 * = 1ІШ

а^0 а^0

1-

*

Обозначим ДшА— = а . Тогда 2

= 1іш—1— = 1.

а^0 е

а

а

Шаги

Изменение доходов в зависимости от времени проведения испытаний на примере матрицы 3*3 при различном количестве испытаний

Zj(P,N) = maxL1 (Р,N,m1,m2) = AMN,

ml5W2

L2 (P, N) = max L2 (P, N, mb m2) = cr J-2,

mj,m2 V N

где c = max аФ(-а) и 0,17. Легко видеть, что

й>0

L1(P, N), L2(P, N) являются соответственно возрастающей и убывающей функциями N. Поэтому minmax(L1(P, N), L2(P, N)) достигается при

N

L1(P,N) = L2(P,N). Соответствующие N(P) и ^(Р) даются формулой (4). Теорема доказана.

Результаты моделирования для цепей Маркова общего вида

В общем случае оптимальное время обучения может определяться посредством математического моделирования, выполняемого с помощью специально подготовленной программы [4]. По результатам моделирования оказывается, что до определенного этапа доход действительно увеличивается с увеличением точности оценки параметров системы и, соответственно, с увеличением точности нахождения оптимальной стратегии. Однако после определенного этапа доход начинает снижаться в связи с тем, что точность нахождения параметров достаточно высока для нахождения оптимальной стационарной стратегии, но происходит большая переоценка доходов.

На приведенном графике максимальные значения достигаются для 5 испытаний — на 54 шаге (доход 7483), для 20 испытаний — на 52 шаге (доход 7489), для 100 испытаний — на 64 шаге (доход 7428).

Заключение

В работе предложен метод определения неизвестных параметров функционирующей системы. Компьютерное моделирование на основании описанного метода показало, что оценить параметры функционирующей системы, а также определить оптимальное время проведения испытаний системы для оценки параметров возможно. В работе также дана математическая оценка данного времени для частного случая системы, когда принимаемое решение не зависит от состояния системы.

1. Майн Х., Осаки С. Марковские процессы принятия решений. М.: Наука, 1977. 176 с.

2. Колногоров А.В., Федорук Р.С. // Вестник НовГУ. Сер.: Техн. науки. 2009. №50. С.29-30.

3. Колногоров А.В. // Проблемы передачи информации. 2000. Т.36. №4. С.117-127.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Федорук Р. С. Программа для ЭВМ «Расчет оптимального времени испытаний в цепи Маркова». Свидетельство о государственной регистрации программы для ЭВМ №2010614952 от 29.07.2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.