Научная статья на тему 'Методы теории игр в задачах векторной динамической оптимизации процесса управления инфокоммуникационными системами со случайной скачкообразной структурой'

Методы теории игр в задачах векторной динамической оптимизации процесса управления инфокоммуникационными системами со случайной скачкообразной структурой Текст научной статьи по специальности «Математика»

CC BY
258
52
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Ненадович Дмитрий Михайлович

Предложен подход к решению задач оптимального управления современными инфокоммуникационными системами, функционирующими в условиях целенаправленного деструктивного воздействия и стохастической априорной неопределенности относительно статистик, протекающих в них процессов. В основу предложенного подхода положены методы динамического программирования Беллмана и теории игр.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Ненадович Дмитрий Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods of the theory of games in tasks of vector dynamic optimization of process of management info-kommunications by systems with casual spasmodic structure

In clause the approach to the decision of tasks of optimum control modern info-communications by systems functioning in conditions purposeful destructive of influence and stochastic aprioristic of uncertainty rather statistic of processes, proceeding in them is offered. In a basis of the offered approach the methods of dynamic programming Bellman and theory of games.

Текст научной работы на тему «Методы теории игр в задачах векторной динамической оптимизации процесса управления инфокоммуникационными системами со случайной скачкообразной структурой»

НА УЧНЫЙ ВЕСТНИК МГТУ ГА сер. Радиофизика и радиотехника

УДК 629.375

Методы теории игр в задачах векторной динамической оптимизации процесса управления инфокоммуникационными системами со случайной

скачкообразной структурой

Д.М. НЕНАДОВИЧ

Статья представлена доктором технических наук, профессором Шахтариным Б.И.

Предложен подход к решению задач оптимального управления современными инфокоммуникационными системами, функционирующими в условиях целенаправленного деструктивного воздействия и стохастической априорной неопределенности относительно статистик протекающих в них процессов. В основу предложенного подхода положены методы динамического программирования Беллмана и теории игр.

Решение задач оптимального управления современными инфокоммуникационными системами (ИКС) достаточно корректно может быть осуществлено на основе представления процесса функционирования систем в виде стохастических динамических моделей [1, 2].

Одним из походов адекватного описания ИКС, является моделирование процесса функционирования ИКС «разрывным» марковским процессом изменения состояния системы (или характеризующих ее параметров) дискретного как по времени, так и по состояниям (например: резкое изменение количества пакетов информации, находящихся в системе обслуживания ИКС в данный момент времени, скачкообразное изменение структуры системы наблюдаемое на уровне изменения ее индекса [3] и т.д.).

В этом случае, можно осуществить формирование стохастических разностных уравнений состояний ИКС, позволяющих адекватное описание процесса их функционирования. Основанием синтеза уравнений может служить лемма доказанная в работе [4] и являющаяся многомерным обобщением известной теоремы Дж. Дуба [5].

Уравнения состояния и наблюдения могут быть записаны в виде [6]:

Л (к) = С (к)0(к), (1)

0(к +1) = ПТ (к +1,к,и(к))0(к) + Г(к)¥(к), (2)

7 (к)= Н (к, л( к ))0 (к) + Ш (к), (3)

где С (к) - М-мерная матрица-строка возможных состояний процесса; л( к); 0( к) - М-мерный вектор состояний системы с элементами:

|0И = ^ при л( к )=Лт, т = м ,

I 0, в остальных случаях;

- матрица одношаговых переходных вероятностей

П( к +1, к, и (к)) = I + (к +1, к, и)

(ОПВ).

При этом взаимосвязь индикаторов состояния ТКС определяется в соответствии с выражением:

т-1 М

(к) = 1 -1в,(к) + ^ в,(к), (4)

г-1 ,=т+1

а уравнение состояния для любого m-го индикатора может быть представлено в виде:

м

вт (к + 1) = Птт (к + 1 к, и) + £ (в (к)(Пгт (к + 1 к, и) - ПМт (к + 1 к, и)) + Гт (к)Ут (к) , (5)

,=0

где Пы(к +1, к,и) ; m= 0, М - значения элементов матрицы ОПВ.

Значения элементов матрицы ОПВ зависят от принятых управлений и (к) и определяются на основе выражений (1)-(4) и в соответствии с соотношениями Пт1 (к +1,к,и(х)) = дпйТ, П тт = ЧттТ +1, Т - период изменения состояния; Г( к) - М-мерная диагональная матрица возбуждения процесса 0(к) с элементами Гтт (к) = Т^2о20т^тт / Мут, о20т - априорная дисперсия,

- спектральная плотность мощности белого шума возбуждения V (к) процесса 0(к);Н(к,л) - М-мерная диагональная матрица наблюдения за состоянием процесса

0( к); 2 (к) - М-мерный вектор наблюдения за состоянием процесса 0( к) ;Ж (к)- вектор белых шумов наблюдения.

Фундаментальную роль в синтезе оптимальных управлений для линейной постановки задачи и среднеквадратического критерия оптимальности имеет принцип разделения [2]. В соответствии с ним задача стохастического оптимального управления решается в два этапа: этап стохастического оценивания состояния объекта и этап поиска детерминированных управляющих воздействий, линейно связанных с оценками состояния.

При решении задач оценивания в такой постановке система рекуррентных уравнений алгоритма фильтрации Калмана, оптимального в смысле минимума среднеквадратической ошибки (МСКО), может быть представлена следующим образом [7]:

в„ (к +1) = хтт, Пт (к +1,к,и)6, (к)+Ктт(к)х[(к)-^ (к)Пт (к +1,к,и)0т(к)]; (6)

К,, (к)= Де1 V (к) (ПI, (к +1,к,и)хР, (Д6(к +1,к))(к)Л,т (V.(к))); (7)

Ртт (Д0( к + 1, к )) = П тт ( к + 1, к, И ) Р„щ (Д0( к )) + 4П 2 ( к + 1, к, И ) ^ (8)

Р,т (Д0( к )) = (1 - Ктт ( * ) ^ ( к )) Рщщ (Д0( к + 1, к )) , (9)

где Ктт (к) - элемент матрицы коэффициентов усиления фильтра Калмана; Ртт (Д0(к +1, к)) -элемент матрицы априорной дисперсии ошибок оценивания; Ртт (Д0(к)) - элемент апостериорной дисперсии ошибок оценивания; 8т - элемент матрицы наблюдения; Лтт (V. (к)) - символ алгебраического дополнения элементов матрицы V. (к); ёе1 - символ определителя матрицы.

Основными методами решения задачи на втором этапе являются итерационный метод Ховарда и методы многошагового линейного программирования, а также методы динамического программирования Беллмана [8]. Особенностями методов динамического программирования являются использование для их реализации принципов инвариантного погружения и оптимальности. Принцип инвариантного погружения предполагает замену общей задачи на эквивалентную совокупность более простых (пошаговых) задач. Принцип оптимальности определяет возможность получения глобально-оптимальных стратегий на основе решений пошаговых задач оптимизации. Методы динамического программирования позволяют существенно сократить число анализируемых вариантов решений в процессе определения глобально-оптимального решения за счет учета априорной информации о решениях, не являющихся допустимыми, и использования информации, полученной на предыдущих шагах оптимизации.

Процесс решения задачи методом динамического программирования включает два этапа. На первом этапе пошаговые задачи оптимизации приводят к условно-оптимальным по состояниям решениям и одному (конечному) безусловно-оптимальному решению. На втором этапе формируется окончательная безусловно-оптимальная стратегия (0°°™,..., 0°пт,..., 0,пт) путем учета

полученного на первом этапе конечного решения и обратного по шагам анализа условнооптимальных решений.

В этом случае функция Беллмана, подлежащая минимизации, имеет вид следующего рекуррентного уравнения:

® Т ® ® ®

VБ (к, 0(к)) = т 1п{0 (к^(к) 0(к) + иТ (к)Я1(к)и(к) + +М\УБ (к +1,0(к +1))/ 0(к), и (к)]} (10)

и (к)

с граничным условием -

® ®Т ®

VБ (К, 0(К)) = (3 (К)р0(К). где р и Q1 - неотрицательно определенные матрицы; Ю - положительная матрица. Остальные параметры имеют введенный выше смысл.

Можно показать [2], что использование данного подхода в линейном случае обеспечивает аналитический закон формирования оптимальных управляющих воздействий на к-м шаге:

иор (к) = -Щ) 0(к), (11)

где Ь(к) - матрица операторов управления (обратной связи).

Строгое решение задачи определения матричного оператора обратной связи для линейной и квадратичной целевой функции дано в работе [2]. При этом полученное выражение для оператора имеет следующий вид:

Щ) = Г-1 (к )Б (к +1) Л(к), (12)

где матрица Б(к) определяется рекуррентным уравнением

Я (к ) = Ql(k) + ПТ (к)£ (к +1) П (к) - ЬТ (к) Г (к)Ь(к); (13)

Г( к ) = Ях(к) + Я (к +1). (14)

Граничное условие для момента времени к = К имеет вид Я (к) = р .

Вместе с тем, учитывая, что процесс функционирования ИТС достаточно часто подвергаться целенаправленным деструктивным воздействиям, рассмотрим один из подходов к использованию методов теории игр при решении задач оптимального управления ИТС в векторной динамической постановке.

Методы теории игр позволяют проводить оптимизацию решений в условиях, когда классические методы управления оказываются малоэффективными, например, в случае большой инерционности контура управления объекта по сравнению с динамикой изменения стратегий противника или в условиях высокого уровня априорной неопределенности относительно статистик протекающих ИТС процессов. Полученные на основе игрового подхода компромиссные стратегии игроков обеспечивают гарантированный выигрыш в значении показателей качества функционирования объекта в любых условиях его функционирования. При этом инерционность и затраты ресурсов на реализацию стратегий оказываются несравненно ниже, чем для классических систем управления.

Следует отметить, что существующие методы векторной динамической оптимизации недостаточно развиты на случай дискретности процессов, реально протекающих в современных цифровых ИТС, и не учитывают особенностей решения задач оптимального управления ИТС в условиях конфликта. С другой стороны, существующие подходы к решению задач оптимизации показателей качества ИТС методами теории игр недостаточно адекватно учитывают особенности различных уровней стохастической априорной неопределенности и векторный характер цели функционирования [8].

Понимая под целью функционирования ИКС требуемый исход операции, определяя качество ИКС, как свойство или совокупность свойств системы, обусловливающих ее пригодность для использования по назначению, а показатель качества (ПК) функционирования ИТС как вектор, компоненты которого являются показателями отдельных свойств процесса функционирования системы, реализуем постановку задачи.

Задача векторной динамической оптимизации ПК функционирования ИТС в условиях конфликта достаточно корректно, на наш взгляд, может быть решена методами динамических, стохастических игр на основе минимаксной модели принятия решений.

В этом случае, если вектор состояния л(к) = {лп(к)}, п = 1,N включает К-подпроцессов с конечным числом состояний М, сформулирован векторный ПК функционирования ИТС У (к) = {Уп (к)}, I = 1, N, целевая функция Ь(к) = {(Уп (к) - Уптр )9}, q=1,2, вектор доходов в начальном состоянии ИТС Ь(0,л(0)) = {Ьп(0)} и матрица одношагового изменения доходов АЬп^(к, к -1, и (к), /(к)) = {АЦ^} то компромиссные стратегии управления ИТС могут быть определены на основе решения следующего уравнения Беллмана:

Вп [к, £ (л (к)), рГ (иор (к)), р? (/ор (к))] =

N

РГ (-Ж (/-(к )М (к' Л(к)’рп (и (к )' рп V (к )) - (15)

-1 пп (к, л(к), Рп (и* (к), Рп (/'(к))]9 у9 +

+Вп [к -1, £ (У (к -1)), рТ (иор (к -1)), рТ (/ор (к -1))]] / г (к)}, Бп [0; г (л (0)] = В_. здесь 1пп (.) и /пп*(.) - нормированные текущее и «идеальное» значения п-го компонента ПК; р°т (иор‘(к) и р0^(/ор‘(к)) - оптимизируемые вероятностные распределения антагонистических

управляющих воздействий и (к), / (к); М {.} - символ математического ожидания случайных процессов; 9 = 1,2 - показатель степени, при 9 = 2 функция (15) представляет евклидово расстояние между текущим значением компонент ПК и их экстремальными значениями, образующими «идеальную точку» 1*п п (.).

Значение каждой п-ой компоненты вектора 1*пп (.) может быть найдено на основе выражений (1-3, 6-9) в результате реализации игры в соответствии со следующим критерием:

гтп(к,л(кХр*т(и*(к)Хр*п(/*(к)) = тах т1п I 1^рп(/(к))х

рп (/(к)) рп (и (к)) ^=1 г=1

N

х£ Пп (к +1, к, и (к), /г (к))[ АЦ/ (к, л( к)) +

п =1

+1п п (к -1, л(к -1), р*п(и(к -1)), рт(/ (к - 1))]рп (и (к)) =

5 К N .

= тт тах II рп (и(кПпт(к +1, к, и6,(кX /г (к))[^ (к, л( к)) +

рп (и (к )) рп (/(к)) 5=1 Г=1 п=1

(16)

+Гпп(к-1,л(к-1),рт(и'(к-1)),рт(/'(к- 1))]рп(/(к)), Гпп(0) = Ц(0,л(0)).

Согласно теореме Нэша [9] игра в смешанных стратегиях всегда имеет «седловую точку» однако в некоторых случаях представляет интерес получение «седловой точки» при игре в чистых стратегиях. В этом случае, критерий оптимальности может быть сформулирована в следующем виде:

N п=1

N

=ткптахIпп(к+^)[АЬ^(к+1-к-л(*))+■>-(к-1,л(к-1)]. (°)=Ь™;(°.л(°)).

Вместе с тем, реализация игры в чистых стратегиях не гарантирует достижения «седловой точки» и, в случае ее отсутствия, в игре (17) просматривается целесообразность использования

Л, (к, л (к), «'(к),/ '(к))=тах топ I пп (к+1, к) х[АЫ;,;;(к, к-1,л (к))+тт,, (к-1, л (к-1))]=

и(к) /(к) ,шп ,шп

"= (17)

минимаксных стратегий управления процессом функционирования ИТС на основе оптимизации последних членов уравнения (17). В этом случае будет обеспечен гарантированный результат при любых стратегиях управления противоборствующей стороны.

При решения задач оптимизации, относящихся к классу ЛКГ задач (линейных квадратичных гауссовых [2]), может быть найден аналитический закон формирования стратегий управления из решения уравнения

[Птт (к +1, к, и (к), /(к), А0(к))Г А(к +1)[Птт (к +1, к, и (к), /(к), А0(к))] = 0, (18)

где А0(к) - вектор ошибок оценивания состояний ИТС,

А(к) = Q1 + ПТтп, (к +1, к, и (к), /(к)) А(к +1)П . (к +1, к, и (к), /(к)) ; Q1 - неотрицательно определенные симметричные матрицы весовых коэффициентов при составляющих потерь среднеквадратичного критерия.

Анализируя выражения (1-18) нетрудно видеть, что отправной точкой процесса формирования оптимальных управляющих ИТС воздействий является информация об истинных значениях элементов матрицы ОПВ. В этих условиях, решение задачи идентификации значений элементов матрицы ОПВ выглядит особенно актуальной.

В работе [10] представлены алгоритмы индентификации средних значении и параметров ковариаций на основе наблюдений за невязками измерений посредством вспомогательных фильтров калмановского типа. Однако, несмотря на достоинство предлагаемого подхода выполненного на единой методологической основе, практическая реализация «многоэтажного» фильтра выглядит весьма затруднительной главным образом из-за необходимости синхронизации работы системы фильтров и существенного увеличения времени сходимости.

Гораздо более конструктивной, на наш взгляд, выглядит реализация процедуры пошагового корректирования значений элементов матрицы ОПВ, по «незашумленным» значениям наблюдений за «невязкой» [1,10] измерений. В этом случае, выражения для определения и, при необходимости, коррекции значений элементов матрицы ОПВ на каждом шаге процесса фильтрации, могут быть представлено в виде:

Ая„,, (к +1, к, и) = -(2, (к) - в, (к)0п (к)) / в, (к)Ц [Кт,к (I - Кт (кК (к)]к-■ 0п (к); (19)

рт1, (к + 1 к ■ и) = Рт,к-1 (к + 1. к ■ и ) - Арт,к (к + 1. к ■ и) . (20)

На основе реализации процедуры коррекции значений элементов матрицы ОПВ (19-20) могут быть получены несмещенные оценочные значения за минимально необходимое для этого количество шагов наблюдения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отдельно следует остановиться на процессе нормализации элементов ПК. Процесс нормализации включает этапы перехода к единой размерности, сведения к одной точке отсчета и переход к одному масштабу. Достаточно полно все перечисленные этапы могут быть выполнены при использовании следующего линейного преобразования:

I,")(л(к);к) = с„1„ (л(к);к)+<, (21)

1 ^ 1,0(11 (к); к)

где сп = * _-----------——-----г - масштабный коэффициент; ап = -

(I* (л(к); к)-1,0 (л(к); к)) ’ " (I* (л; *)-Ю (л(к); к))

коэффициент сдвига, корректирующий начало отсчета; 1^),I*, 1° - нормированное, наибольшее и наименьшее значения элементов векторного ПК.

Использование преобразования (21) позволяет привести все элементы векторного ПК к нулевой точке отсчета, их изменение ограничивается отрезком [0,1], а также делает все элементы безразмерными.

Таким образом, объединение достоинств методов теории игр и векторной динамической оптимизации позволяет формировать оптимальные управляющие ИТС воздействия при высо-

кой динамике функционировании системы в условиях преднамеренного деструктивного воздействия и различного уровня априорной неопределенности (относительно статистик протекающих в системе процессов) стохастического характера.

ЛИТЕРАТУРА

1.Сейдж Э., Мелс Дж. Теория оценивания и ее применение в связи и управлении / Пер. с англ. Б.Р. Левина. М.: Связь, 1976.

2.Сейдж Э., Уайт Ч. Оптимальное управление системами / Пер. с англ. Б.Р. Левина. М.: Радио и связь, 1982.

3.Бухалев В.А. Распознавание, оценивание и управление в системах со случайной скачкообразной структурой. М.: Наука. Физматлит, 1996.

4.Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов (Нелинейная фильтрация и смежные вопросы). М.: Наука, 1974.

5.Тихонов В.И., Кульман Н.К. Нелинейная фильтрация и квазикогерентный прием сигналов. М.: Сов. Радио,

1975.

6.Ненадович Д.М., Терентьев В.М., Паращук И.Б. Математическая модель процесса функционирования и оценка состояния пакетной сети спутниковой связи. // Радиотехника, № 6, 1996.

7.Ненадович Д.М., Терентьев В.М., Паращук И.Б. Математическая модель процесса функционирования и оценка состояния пакетной сети спутниковой связи. // Радиотехника, № 6, 1996.

8.Терентьев В.М., Паращук И.Б. Теоретические основы управления сетями многоканальной радиосвязи. СПб.: ВАС, 1995.

9.Оуэн Г. Теория игр / Пер. с англ. А. А. Корбута. М.: УРСС, 2004.

10.Фильтрация и стохастическое управление в динамических системах; Под ред. К.Т. Леондерса. М.: Мир,

1980.

D^. NENADOVICH

Methods of the theory of games in tasks of vector dynamic optimization of process of management info-kommunications by systems with casual spasmodic structure

In clause the approach to the decision of tasks of optimum control modem info-communications by systems functioning in conditions purposeful destructive of influence and stochastic aprioristic of uncertainty rather statistic of processes, proceeding in them is offered. In a basis of the offered approach the methods of dynamic programming Bellman and theory of games.

Сведения об авторе

Ненадович Дмитрий Михайлович, 1961 г.р., окончил Ленинградское высшее военное инженерное училище связи им. Ленсовета (1984), Военную академию связи (1995), Российскую академию государственной службы при Президенте РФ (2004), кандидат технических наук, эксперт Главного управления экспертизы Центрального Банка России, автор более 40 научных трудов, область научных интересов - системы управления инфотелекоммуникаци-онными сетями.

i Надоели баннеры? Вы всегда можете отключить рекламу.