Научная статья на тему 'Информационные оценки в задаче идентификации переходной функции марковского процесса'

Информационные оценки в задаче идентификации переходной функции марковского процесса Текст научной статьи по специальности «Математика»

CC BY
74
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Карелин В. В.

Рассматриваются вопросы сходимости и устойчивости байесовских оценок при идентификации стохастических систем управления. Основным аппаратом при установлении факта сходимости является информационная мера рассогласования между оцениваемым распределением и оценкой. В качестве такой меры взято так называемое информационное число Кульбака-Лейблера. Установлена сходимость оценки переходной функции процесса к нестационарной переходной функции.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Information estimates in the identification problem of transitive function of a marcovian process

The convergence and stability problems of the Bayesian estimations are considered for identification of stochastic control systems. The main tools to prove the convergence is the information measure of the mismatch between the given distribution and the estimation. As a measure, the so-called information number of Kulbaka-Leiblera is taken. The convergence of the estimation of the transitive function to the process to the nonstationary transitive function is established.

Текст научной работы на тему «Информационные оценки в задаче идентификации переходной функции марковского процесса»

УДК 539.3 Вестник СПбГУ. Сер. 10, 2007, вып. 4

В. В. Карелин

ИНФОРМАЦИОННЫЕ ОЦЕНКИ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ПЕРЕХОДНОЙ ФУНКЦИИ МАРКОВСКОГО ПРОЦЕССА *>

Наблюдается последовательность случайных величин xt G X, условное распределение которых относительно xt~\ принадлежит заданному семейству V распределений, зависящих от Xt~i- Важной статистической задачей является восстановление переходной функции процесса Xt, т. е. определение состоятельной последовательности оценок Pt(dxt+i \xt), переходной вероятности P(dxt+\\xt). Цель статьи - изложение рекуррентной конструкции байесовского процесса оценивания и доказательство сходимости ее к «истинному» распределению.

Допустим, что семейство условных распределений V параметризовано параметром в £ 0, т. е. P(dxt+i \xt, 9) есть функция величины в. Относительно этого семейства предполагаются следующие условия регулярности.

1. Для каждого в € Э и xt £ X мера P{dx\xt,d) доминируется неотрицательной мерой m(dx) на X, т. е. существуют плотности P(x\xt,d) относительно m(dx).

2. 0 - измеримое пространство и P{x\xt,6) - измеримая функция при каждом х на измеримом пространстве X х 0.

Обозначим

P{xt+i\xt,v) = J P(xt+i\xt,9)dv{6), е

где v - конечная мера Fia 0. Существуют и конечны интегралы

-p(xt+1\xt,9Y

l(0,xt) = j

In

P{xt+\\xt,v).

P(xt+i\xt,e)m{dy).

Процесс XI, определяемый переходной функцией Р(х1+\в), можно трактовать как частично наблюдаемый марковский процесс в фазовом пространстве А' х 0 с переходной функцией для в : = Используя конструкцию, предложенную А. А. Юшкевичем **' для сведения задачи с неполной информацией к задаче с полной инфор-¡мацией, приходим к рассмотрению процесса в фазовом пространстве X х Н, где Н - пространство распределений на 0. Переходная функция этого процесса задается соотношениями

Р(х1+1 \хищ) = I Р{х1+1\хив)ч(в)п{сЮ), (1)

е

Р{х1+Х\х1,в)

= М (2)

с начальными распределениями Р\ (жх), (в) = dv\|dn.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (проект № 03-01-00668).

**' Дыпкин Е. Е., Юшкевич А. А. Управляемые марковские процессы и их приложения. М.: Наука, 1975. 338 с. © В. В. Карелин, 2007

Отметим одно важное свойство последовательности 9). Пусть ь(в) - произвольная функция, для которой существует интеграл

6 = / у(9)^(в)г^в).

Тогда существует (с вероятностью 1) интеграл

6+1 =

I ь(в)и1+1(в)п{<1в),

при этом выполняется равенство М(&+г|а:г, щ) = где М - символ усреднения для марковского процесса с переходной функцией (1), (2), т. е. последовательность является мартингалом (относительно {х(. г^'})-

Пусть Р\ (х) и Р2{х) - вероятностные меры на измеримом пространстве относительно неотрицательной меры т(йх).

Определение. Информационным числом Кульбака-Лейблера называют величину

= ¡[\пЩ^тх)т{<1Х). (3)

X

Если интеграл (3) существует, то

1(Р1(х);Р2(х))^ 0.

При этом 1{Р\ (х); Р2{х)) = 0 тогда и только тогда, когда почти всюду Р\ (х) = Р2(х). Здесь имеет место следующее утверждение. Теорема 1. Справедливо неравенство

1(Р1(х);Р2(х)) 2 I

I ¡Р^п^х)

Д о к а з а т е л ь с т в о. Разлагая функцию — 1п(а) в окрестности точки а = 1 в ряд Тейлора, имеем

-1п(а) = 1~а+2[1-^1а-а)]''

Полагая а — Р2/Р\, получим

1(Р М-РАХ)) = 1 /' [1-Р2(х)1Р{х)? {х) у

X

2

>\ \ ^Щг) Р1{х)т{(1х) + \ / ^(У)т(сгх),

Р1<Р2 Р1>Я2

где <р(х) ^ 0. (При установлении написанного неравенства применили неравенство 1 ^ 1 ~/3[1 — Р2{х)/Р1(х)}, если Рх > Р2.) Используя неравенство

!\Цх)\2Рх(х)т{<1х)>-щ I \!{х)\Рх{х)т{йх) , А А

в котором /х(Л) = / Рх{х)т{йх), находим А

КРЛхУЖх)) > / II- Щ\Рх(х)гп(<1х)}2 =

А

\Р2(х) - Рх(х)\т{с1х)\ ,

ЫА)

где множество А определяется неравенством Рх(х) > Р2(х). Очевидно, ц{А) ^ 1. Так как Рх{х) и Р2{х) - плотности вероятностей, то

J[Рх(х) -Р2{х)]т(<Ь) = 0. х

I[Рх(х) - Р2{х)]т{йх) = I [Рх(у) - Р2(у)]тШ.

Поэтому

Следовательно,

Р1<Р2

I \Рх{х) - Р2{х)\т{йх) = I [Рх(у) - р2(у))т((1у) = >2 РгУР-2

I |Рх(х) - Р2{х)\т{йх) = ^ |Рх(х) - Р2{х)\т{йх).

Рг>Р2

Окончательно имеем неравенство 1(Рх(х)-Р2(х)) >

ЫА)

| Р2{х) - Рх{х)\т{с1х)\ >

х

Г

! \Р2{х) - Рх{х)\т{йх)

Доказательство закончено.

Таким образом, метрику р можно оценить сверху величиной (81)2, т. е. для стремления р —» 0 достаточно, чтобы I —> 0.

В качестве примера вычисления 1(Рх;Р2) рассмотрим семейство нормальных распределений. Пусть X - п-мерное евклидово пространство, а функции Рх,Р2 ~ нормальные распределения со средними ах и а2 ковариационными матрицами VI и У2.

Вычислим I(P\\P2)

1 /2

I(P1-,P2) = \n^%- + \1[{х- а2)%-\х - а2) - {х - ах)%-1 {х - a1)]P1(x)dx.

detV. ' 2 J 1 x

Введем обозначения: у — х — ai, х = у + ai, Аа = а2 — ai. Тогда

I(Pi-,P2) = ln + k fa- АаУУ2~\у - Да) - y'Vrxy]Pi{y)dy-

detVy 2 J 1 Y

— 1/2

Если обозначить z = \\ y, то имеем

1 /2

I(Pi-,P2) = ln + ^ i[z'V~1/2V-1/2z)Pi(z)dz + Aa'V^Aa - n

detV.1 J

2 Y

и окончательно получим

I(Pi-P2) = |{lndetViVf1 + SpVflV2 -n + Aa'Vf1 До}.

Для семейства нормальных распределений выполняется еще одно свойство.

Теорема 2. Пусть Ро{х) - произвольное распределение в К" с центром в точке а и ковариациотюй матргщей V. Рассмотрим семейство Q нормальных распределений в R™, в котором go (х) - нормальная плотность с тем же центром в а и ковариационной матрицей V. Тогда для любого q(x) € <5 выполняется неравенство I(Pç>;qo) ^ I(Po',q). Равенство достигается тогда и только тогда, когда = до-

Доказательство . Ввиду того, что lngo/ç ~ квадратичная форма,

J ln{q0/q)P0dx = J \n(q0/q)q0dx. x x

Отсюда следует, что

I(Po',q) = I(Po;qo) + I(<lo;q)-

Так как

ДД>;?) = jHP0/q)P0dx, I(qo;q) = J \n(q0/q)P0dx,

x X

то

I(P0;q) = J \n(P0/q)P0dx + j \n(q0/q)P0dx.

X X

Поэтому I(Po;qo) ^ I(Po;q), причем равенство будет тогда и только тогда, когда I(lo;<?) = 0, т. е. q = q0.

Доказательство закончено.

Замечание. Изложенное выше перенесем на случай немарковских процессов. Переходная функция здесь становится функцией всей предыстории x1 = (xi, х2,..., Xt). Все формулы остаются справедливыми, если заменить Xt на символ х1. Пусть

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к=п

Xt = Y,ekf(xt~\t)+Vt, к=1

где Vt - последовательность независимых одинаково распределенных нормальных случайных величин. Обозначим

е* = в1,...,еи ztr = [/(®t_1,i),/(®t-2,0,/(®t-n,t)], At = oTzt.

Тогда Xt = втZt + vt = At + vt- В этом случае

Р{х1+1\х1,в) = P{xt+l\zu6) = <p(xt - At)

(tp(xt - A t) ~ плотность распределения vt). Выясним, как выглядит описанная конструкция в данном случае. Пусть vo (9) - нормальная плотность со средним значением ао и корреляционной матрицей S о. Тогда при всех t ^ О гн(в) также являются нормальными плотностями со средним значением at и корреляционной матрицей St., удовлетворяющими рекуррентным соотношениям

¿Г1 = sr~i + ZtZl/al, at = St[St2xat-1 + xtZt/cr2v}. Элементарные вычисления показывают, что

P{xt+i\х\в) = ехр{-^з(ж( -aJZt)},

где of = а2 + Zf StZt.

Рассмотрим асимптотические свойства последовательности и t. Определим переходную функцию процесса {г^Лг} соотношениями

P(®t+i|xt,At) = I Po(x,.+ï\xt)\t(0)n(d9), (4)

е

Предположим, что х/ наблюдается, но распределение Л¿(0) неизвестно. В качестве оценки функции At(9) выбираем распределение щ{9), определяемое рекуррентным соотношением (2) с произвольным начальным значением vi(9).

Установим, что при Т —> оо переходная функция P(xt+\\xt, Vt) становится близкой к «истинной» переходной функции P(xt+\\xt, Xt)-

Теорема 3. Пусть {х(,А(} - марковский процесс, определяемы!Ï соотношениями (4) и (5). Тогда выполняется следующее неравенство:

оо .

£(!>)< / t=i е

1п

Ai(0)

Ух{0)\

Ai (9)n(d9), (6)

h = I{P(-\xt),\t)-P{-\xt,vt)).

Доказательство. Введем последовательность случайных величин

! At(6>)

h, = I ln

©

A t(9)n(d9). (7)

Тогда

Ш

Ы+1 =

1п

МО)

А*(в)Р(х4+1|!В4Л)П(<19) +

В силу (1) имеем

МО)

Ы+1 = I 1п в

J Р(х1+1\х1,Х1) ' Р(хг+1|хг,Л4)

п /Р(а;|+1|г4>А() ^ Р(®4+1 |а4,А4)

Вычислим условное математическое ожидание при условии в силу соотно-

шений (1) и (2):

Е(/г(+1|хьАе) =

= I Р(х1+1\х1,\1)т(с1х1+1) ^п^Ш Х,+1 0

Аг(#). Р9(х4+1|Х4)

Р(Х1+\\Х1,\1)

п{(1в)-

- I 1п ^ Р(х1+1\хиХ1)гг^х1+1).

Из выражения (7) следует, что

Е{Ы+1\х1,\1) =

= /ш А((в)п(«Ю) I Ре(хь+:|®«,А4)т(сЬ!1+1),

в х1+1

т. е.

Е(/гг+1|х(, А() = /ге - /г.

Отсюда имеем соотношение

£/г =ЕЫ-ЕЫ+1.

Суммируя по 4 от 1 до Т, запишем

т

еС£2 Л) = Е1ц - ЯЛт+1 ^ £/¿1-1

Переходя к пределу при Т —> оо, получим (6).

Следствие. С вероятностью 1 справедливы соотношения

Ей ^ +оо; Нт = 0.

(—>оо

г=1

Распределение А1(#) - произвольное. Например, в качестве А1(#) может быть взято любое распределение, сосредоточенное в сколь угодно малой окрестности 1/о точки в0. Тогда и все распределения А^в) сосредоточены в этой окрестности.

Процесс г} можно трактовать следующим образом: - случайная вели-

чина с распределением - случайная величина с условным распределением

причем при всех £ ^ 1 выполняется включение Е [/о- Таким образом, процесс Ж; можно трактовать как процесс, переходная функция которого определяется параметром, подверженным «малым» возмущениям. Ввиду включения вг € 11о, можно ожидать, что для 6>( = во оценки Р^Хг+х щ) будут близки к «истинной» переходной функции Р((жг+1 \xu6q).

Если множество 0 конечно, то окрестность точки совпадает с точкой (можно выбрать дискретную топологию). В этом случае интегральные соотношения принимают вид конечных или бесконечных сумм, а функции превращаются в вероятностные последовательности г/г(г),г = 1,2,... . Тогда соотношение (6) принимает вид

оо

EiY.lt) ^ — 1п (¿о), (=1

где ¿о ~ номер переходной функции, определяющий процесс

оо

и = /(Р0;Ре), Р, = хьЫг).

Рассмотрим линейное разностное уравнение п-го порядка с нормальными возмущающими воздействиями:

к=п-1

Х1+1 = ^ ак%1-к+/1+1, (8)

к=О

здесь а к - постоянные коэффициенты, - последовательность независимых гауссов-ских величин с нулевым средним и дисперсией а2,щ - управление, /?о ф 0. Пусть а^ наблюдаются, коэффициенты а.к неизвестны. На процессе рассмотрим функцио-

1 т

J=: Ит -УЕх Т-юо Т ^ 1 г=1

Введем следующие обозначения: в' — (ао,ах,...,а„_1). Тогда

Х1+1 = в'гг + Л+ь г[ = {х1,хг-ь (9)

Переходная функция процесса, определяемая уравнением (8), имеет вид

РвОсц-хЫ =Р(*4+1 -0'г4)>

где Р(у) - плотность распределения случайной величины ft. Байесовскую конструкцию, связанную с семейством переходных функций Рд(х1+х представим следующим образом:

Р(ц+1 = I Р&+1-6'ъ)ц(0)п((Ю), в

Пусть 1^(0) - плотность нормального случайного вектора со средним значением и корреляционной матрицей Тогда 1/1+1(6) - плотность нормального вектора с корреляционной матрицей 5(+1 и средним значением 6^+1, причем справедливы рекуррентные соотношения, аналогичные соотношениям дискретного фильтра Калмана:

о-1

5, 1 Н--¿¡2^,

С ¡2 1

в1+1 = 5(+1[5Г^г +-(а^+хЫ

а ¡2

(П)

Из (11) вытекает, что в случае гауссовских величин /4 апостериорные плотности щ{в) распределения обладают интересным свойством - их корреляционные матрицы монотонно убывают: ^

Уравнение (9) представим в виде

г1+1 = Аг1 + Ъ(втг1 + ¡1+1)1

(12)

в котором

/ 00...00 \ ( 1 \

10...00 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

, ь =

\ 00...01 ) V 0 /

А =

Пусть У(г) - произвольная квадратическая форма вектора г.

Вычислим условное математическое ожидание щ}. Вследствие уже

сказанного, чтобы установить условное распределение вектора в байесовской конструкции, нужно в уравнении (12) считать в случайным вектором с распределением щ{в). Поэтому

Е{У{г1+1)\г1) = У(Ь)Е/?+1 + | У(Аг1 + Ъвт г^ЩсЮ =

0

= У{Ъ)Е}?+1 + + Ьвтг1) + У(Ь) у \(в -

в

е1 = I вщ(в)сю. ©

Очевидно, что

У 1(0 - вг)тг^{в)сЮ = г^г,, & = ^ (в - * (в - вг)тч(0)М. © ©

Обозначим через У(Ь) = ц, Е= сР. Окончательно запишем

Е{У{г1+1)\х1} = дсР + + У(Агь + Ьв?*). (13)

Пусть теперь квадратичная форма У(г) имеет вид

здесь

У{г1) = пх1 + (п - + ... + х\_

п+1-

Тогда

V{Azt +bv) + z2 = V{z) +nv2, V(b) = n. Перепишем соотношение (13):

E(V(zt+1)\xl) + (z2 - qzjstzt) = n(d2 + zt)2) + V{zt). (14)

Отсюда следует

Теорема 4. Использование байесовского процесса оценивания, определяемого формулами (10), минимизирует при каждом Т величину

Jr = ^ |Х>Г(/ -STn)zt + V{zT)^. (15)

При этом

inïJT = nTd2 + V(z0).

и

Следствие 1. Пусть при некотором t выполняется неравенство I — qSr > £о I-Тогда существует р, 0 < р < 1, при котором справедливо неравенство

E{V(zt+l)\zt,ut} ^ pV(zt) + nd2.

Следствие 2. Пусть Х(9) - априорная плотность, удовлетворяющая неравенству А(#) ^ Си(в). Тогда справедливо неравенство

Т т

t t

Теорема 5. Пусть щ(в) - последовательность апостериорных распределений, соответствующих нормальному априорному распределению щ{в), причем nSi < I. Пусть Х(в) - плотность распределения, сосредоточенного в ограниченной области, удовлетворяющая неравенству Х(9) < Си{9). Тогда выполняются неравенства

E{z2} ^ const, Е{и2} ^ const.

Доказательство. Ввиду неравенства Ez2 < CE\z2 для доказательства ограниченности последовательности Ezf достаточно показать ограниченность последовательности E\zf. Последовательность матриц St монотонно убывает при всех t ^ 1, поэтому выполняется неравенство

I - nSt ^ I - nS0 ^ ео I,

если величина ео достаточно мала. Следовательно,

EV{zt+l) < pEV(zt) + nd2,

где р < 1. Отсюда. EV(zt) < const, что эквивалентно ограниченности Ez2. Используем соотношение (14) для вычисления E{V(zt+\)\x1}. Получим

E{V(zt+1) - V(zt) + z2} = nd2 + E{zJStZt + пЩ - 9^)Tzt|2} + V(zt).

Вследствие ограниченности носителя распределения Л( (в) векторы 9t и матрицы St равномерно ограничены. Поэтому

E\(9t - 9f)TztI2 ^ const, E\zj9t\2 CE\zt\2 ^ const.

Отсюда E\0jzt\2 ^ const. Доказательство закончено.

Поясним смысл утверждений теоремы 5. Процесс (xt',ut), обусловленный переходной функцией P(xt+i IZf, fi), можно трактовать как процесс, определяемый уравнением

xt+1 = 9fzt + ft+i,

где 9t - случайный вектор с распределением Лt(9). Так как носитель распределения Лt(9) сосредоточен в окрестности точки во, то при Vi выполняется неравенство 19t — 9q\ < е. Таким образом, теорема утверждает, что байесовской процесс оценивания минимизирует величину (15) на решениях уравнения (9) с «малым» случайным возмущением вектора коэффициентов. Естественно, можно надеяться, что он будет минимизировать эту величину и для уравнения с невозмущенным вектором параметров 9t = во-

Summary

Karelin V. V. Information estimates in the identification problem of transitive function of a marcovian process.

The convergence and stability problems of the Bayesian estimations are considered for identification of stochastic control systems. The main tools to prove the convergence is the information measure of the mismatch between the given distribution and the estimation. As a measure, the so-called information number of Kulbaka-Leiblera is taken. The convergence of the estimation of the transitive function to the process to the nonstationary transitive function is established.

Статья принята к печати 24 мая 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.