Определение априорного распределения в байесовском анализе при наличии исходной информации, основанное на минимизации информационной метрики

Слуцкин Л.Н.

Прикладная эконометрика, 2015, 40 (4), с. 129-141. Applied Econometrics, 2015, 40 (4), pp. 129-141.

Л. Н. Слуцкин1

Определение априорного распределения в байесовском анализе при наличии исходной информации, основанное на минимизации информационной

метрики

В статье предлагается формальное правило, основанное на минимизации информационной метрики Кульбака-Лейблера, для определения априорного распределения при наличии информации, полученной из предыдущих наблюдений. В отличие от обычных предположений в эмпирическом байесовском анализе, в данной работе не требуется независимость параметров, рассматриваемых как случайные величины, соответствующие различным наблюдениям. Показано, что в случае, когда наблюдения, зависящие от параметра, и сам параметр распределены по нормальному закону, предлагаемое правило приводит к ML-II априорному распределению. Однако в случае регрессионного уравнения коэффициенты регрессии, полученные методом минимизации метрики Кульбака-Лейблера, отличаются от оценок, полученных при ML-II подходе. Также показано, что для нормальных распределений метрика Кульбака-Лейблера достигает асимптотически единственного минимума на истинном априорном распределении.

Ключевые слова: априорные распределения; байесовская методология; информационная метрика Кульбака-Лейблера; регрессионный анализ. JEL classification: C11.

1. Введение. Байесовская методология

Рассмотрим зависящее от параметра многомерное распределение с известной плотностью /(X, в), где X £ Я" — наблюдаемая многомерная величина, а в£ Я" — вектор ненаблюдаемых параметров. В то время как классическая теория считает в набором т фиксированных чисел, при байесовском анализе предполагается, что в является случайным вектором. При этом байесовская теория стоит на позиции исследователя, который до начала эксперимента субъективно оценил неопределенность своих знаний относительно в через некоторую, называемую априорной, вероятностную плотность р(в).

1 Слуцкин Лев Наумович — Институт экономики РАН; [email protected].

2 Основы байесовского анализа можно найти, например, в классической монографии (Jeffreys, 1961), а также в (Айвазян, 2008; Шемякин, 2012).

На следующем этапе, после того как произошло наблюдение Х1, исследователь уточняет первоначальную априорную вероятностную плотность р(в) с помощью формулы Байеса

р(в|Х = Х1) а L(в;Xl)■ р(в), (1.1)

где L(в;Х1) — функция правдоподобия при X = Х1. Вероятностная плотность р(в | X = Х1) (или, сокращенно, р(в | Х1)) называется апостериорной плотностью в (при X = Х1). При следующем наблюдении Х2 исследователь использует полученную апостериорную плотность р(в | Х1) как новую априорную плотность в правой части формулы (1.1) и получает в левой части апостериорную плотность р(в | Х1, Х2) и т. д. Формально, при условии, что наблюдения Х1,Х2,...,Хк условно независимы по в, процесс пересмотра вероятностей можно записать в следующем виде:

Х1 : р(в|Х1) аL(в;Х1 )■ р(в),

Х1,Х2: р(в|Х1,Х2) аL(в;Х1,Х2)• р(в) = L(в;Х1 )■ L(в;Х2)■ р(в) аL(в;Х2)■ р(в|Х1),

.................................. (1.2)

Х1,Х2,...,Хк : р(в | Х1,Х2,...,Хк) х L(в;X,,Х2,...,Хк) • р(в) = L(в;Xх) • L(в;Х2) •... ... • L(в■;Хк) • р(в) х L(в■;Хк) • рЩХ,,X2,...,Хк 1).

Предположим теперь, что значения параметра в могут меняться от наблюдения к наблюдению, при этом X1 зависит только от в,., т.е. Р(Х1 в1,в2,...,вк) = Р(Х11 вi) для всех /, 1 < i < к. В таком случае, последнюю строку в (1.2) можно записать в виде

Х1,Х2,...,Хк : р(0|Х,Х2,...,Хк) аL(©;Х1,Х2,...,Хк)■ р(0) =

= L(вl;Х1 )• L(в2;Х2)-...-L(вk;Хк)■ р(0), ( . }

где 0 = (в1 ,в2 ,...,вк ) ', а р(0) — плотность совместного распределения в1,в2,...,вк.

В том случае, когда в1, в2,..., в к .независимы, (1.3) принимает вид

Х1,Х2,...,Хк :р(0|Х1,Х2,...,Хк) аL(вl;Х1 )■ L(в2;Х2)-...-L(вk;Хк)■ р1 (в1 )■ Р2(в2)-... (14)

..." рк (вк ) а Р1 (в1 | Х1 )• Р2 (в2|Х2 )-...-рк (вк|Хк ), ( . } где р1 (в1), р2 (в2),. „, рк (вк) — маржинальные плотности для в1, в2,..., вк.

Из (1.4) следует, что

р (0|Х1, Х2,..., Хк ) = Р1 (в1 | Х1 )• Р2 (в2|Х2 )••• рк (в к | Хк ). (1.5)

Формулы (1.2) и (1.4) будут использованы в третьем разделе статьи при определении априорных распределений, основанных на предыдущих наблюдениях.

2. Эмпирический байесовский анализ3 |

Эмпирический байесовский подход в его параметрическом варианте стал систематиче- ^ ски применяться в работах Эфрона и Морриса, например (Efron, Morris, 1973; Morris, 1983). ^

При эмпирическом байесовском анализе априорное распределение оценивается исходя из маржинального распределения

P(X) = f L(0; X)■ p{G)dв. (2.1)

При этом обычно предполагается, что наблюденным значениям Xj,...,Xk соответствует выборка значений параметров в1,...,вк из распределения р(в). Как и в предыдущем разделе, считается, что Xi зависит только от вi, 1 < i < к. Также предполагается, что априорное распределение р(в) принадлежит некоторому семейству распределений, зависящему от набора параметров ^£QC Rm, который называется вектором гиперпараметров. В этом случае можно записать (2.1) в виде

P(X | r) = f L(e;X)• р(в | в. (2.2)

Из (1.4) следует, что

P(Xi,X2,...,Xk | r) = P(Xi | r) ■ P(X21 r) - ...-P(Xk | r). (2.3)

Поскольку наблюдения Xj,...,Xk представляют собой выборку из распределения p(X | r), можно воспользоваться одним из классических методов статистического вывода для определения вектора гиперпараметров r. Наиболее известным из них является метод максимального правдоподобия (ML). В эмпирическом байесовском анализе он называется ML-II, т. к. параметр r оценивается на втором этапе исследования после вычисления P(X | r) по формуле (2.2)4.

Априорное распределение р(в | r0 ), где r0 — значение, полученное методом ML-II, называется ML-II априорным распределением. Само значение r0 называется ML-II оценкой (гиперпараметра r)5.

Продемонстрируем метод ML-II на примере, когда f (X | в) и р(в) являются одномерными нормальными распределениями (Berger, 1985). Предположим, что X | в ~ Ы(в;oj) и параметр в ~ N(m; o2). Дисперсия oj предполагается известной, а m и а2 — гиперпараметры, которые требуется определить. Известно, что маржинальное распределение X является нормальным со средним m и дисперсией o2x = ojj +o2. В таком случае метод максимального правдоподобия для X | п, П = (М,а2 ), дает оценки

3 При изложении автор ограничился методами параметрического эмпирического байесовского анализа. Читателям, интересующимся непараметрическим подходом, можно рекомендовать статьи (Robbins, 1955, 1983).

4 Существуют другие методы оценки гиперпараметра r. Более подробное изложение методов эмпирического байесовского анализа приведено в монографии (Maritz, Lwin, 1989), которая также содержит много примеров практического применения.

5 Эмпирические априорные распределения рассматриваются многими авторами как приближения к иерархическим априорным распределениям (см., например, (Bernardo, Smith, 2004, p. 373)). Для анализа взаимосвязи между эмпирическими и иерархическими априорными распределениями можно рекомендовать статью (Ghosh, 1992).

mo = X;

0; -aj2 X,-X)2 / k

(2.4)

где X = 12 X,- выборочное среднее.

М^П априорное распределение определяется формулой

в ~ N

X; max

к

0; -a? +2(X, -X)2 /к)

(2.5)

П

Предположение о независимости параметров ,...,9к не является необходимым для применения метода максимального правдоподобия при оценке гиперпараметра Но тогда наблюдения Х1,...,Хк не будут больше представлять собой выборку из распределения р(X | п). Тем не менее, можно применить М^П подход к совместному распределению (Х1,..., Хк ;0):

P(Xi,X?,...,Xk | n) = f L(e,Xi) • L(ß,X2) • • • L(ß,Xk) • р(в)йв .

(2.6)

Отсюда следует, что совместное распределение P(Х1,Х2,...,Хк | является симметричным по отношению к переменным X1, X2,..., Xk, т. е. значение функции плотности распределения не меняется при перестановке переменных. Хотя метод максимального правдоподобия можно применить к распределению P(X1,X2,...,Xk | , он теряет ряд своих полезных асимптотических свойств.

В рассматриваемом случае из формулы (2.6) получим

P( Xi, X 2,..., Xk |? = ( m; a2))

a,

•y/aj2 + k a2

^exp

2(X, -X)2 ka22(X, -m)2

2a,

2(aj2 + k a2)

(2.7)

Нетрудно показать, что правая часть в (2.7) достигает максимума при

т = X, а02 = 0,

что совпадает с т0 в формуле (2.4), но, вообще говоря, отличается от а0.

(2.8)

k

1=1

ос

3. Априорные распределения, основанные на предыдущих наблюдениях, минимизирующие информационное расстояние

Как было сказано в предыдущем разделе, эмпирический подход обычно предполагает, что значения 01,..., 9к являются выборкой из некоторого распределения р(9), что не всегда соответствует экономическим реалиям, как, например, в случае временных рядов. Метод, который предлагается в данной статье для определения априорного распределения при наличии исходной информации, позволяет избавиться от этого допущения.

Предлагаемое определение априорного распределения основано на информационном расстоянии, метрике Кульбака-Лейблера (KL), между априорным и апостериорным распределениями. Эта метрика применяется в теории информации для определения расстоя-

ния между двумя вероятностными распределениями р и q, отличными от нуля почти всюду § в одной и той же области из К":

I

с;

KL( p; q) = f p(0)-ln[ p(0)/ q(d)]d в.

KL не является метрикой в строгом смысле этого слова. Так, например, она не будет симметричной. Тем не менее, КЬ > 0, при этом равенство имеет место только в том случае, когда р = q, за исключением, возможно, множества меры ноль.

Расстояние Кульбака-Лейблера

д(р; X о) = КЬ((р|Хо); р(в)) (3.1)

измеряет приобретенное количество информации о параметре в при переходе от распределения р(в) к р(в | Х0) при наблюденном Х0. Большее значение д говорит о том, что под влиянием информации, содержащейся в Х0, наше представление о р(в) изменилось значительно. С другой стороны, малые значения д свидетельствуют в пользу того, что распределение р(в) достаточно хорошо отражает вероятностный характер в. Распределение рХ^ (в), заданное формулой

Рхо (в) = а^шт КЬ(р(в|Хо); р(в)) = а^шт / р(в|Хо )1п Р(в'Х 0 ^ в, (3.2)

р (в)£Р р(в )£Р р(в)

назовем КЬ-минимальным априорным распределением (по отношению к Х0 на Р), где Р — множество рассматриваемых априорных распределений. Такой выбор при определении априорного распределения также связан с его асимптотическим свойством, представленным ниже в теореме 3. Соотношение (3.2) дает формальное правило для определения априорного распределения (обзор по формальным правилам такого рода можно найти в (Kass, Wasserman, 1996)).

Заметим, что из инвариантности KL-метрики при замене параметра следует инвариантность KL-минимального априорного распределения.

В том случае, когда в1 ,...,вк является выборкой из распределения р(в), из (1.5) и (3.2) имеем

Рх=( Х1,..., Хк )(в1,..., вк) = argшin КЬ( р(в1,..., вк|Х1,..., Хк); р(в1,..., в к)) =

p (в )eP

k

= argminfnр(в,1Х,)1п|П ^IX') K^ = (3.3)

p(в)^p J if I if Р(в,) )

kk

= argmin Jf р(в' |X' )ln pißt 'X') d вг = argmin J KL( p {в, |X,); р(в,)).

p(в)ер Р(в,) p(в)eP

Найдем KL-минимальные априорные распределения для некоторых наиболее часто встречающихся распределений.

1. Случайный вектор X £ Rn распределен по нормальному закону X ~ N(9; 21), а параметр 9 ~ N(m; 22) не меняется на протяжении всего времени наблюдений. Здесь ¡г<е Rn — неслучайный, не заданный a priori вектор, в то время как ковариационные матрицы 21 и Z2 известны. Таким образом, рассматривается следующее множество априорных распределений:

Р = {N(^22): те Rn}. (3.4)

Воспользуемся следующей формулой (Кульбак, 1967) для KL-расстояния между двумя «-мерными нормальными распределениями р1 = N (т1; Е1) и р2 = N (и2; Е2):

KL( Pj; Р2) = 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ln - n + tr (Е-%) + M - m )'2-J M - M)

I

(3.5)

1

Апостериорное распределение 9 задается формулой (Де Гроот, 1974):

р(в | Х1,..., Хк) = N ((к Е-1 + Е-1 )-1 (Е-12 к=1 X, + Е-и^кЕ-1 + Е-1 )-1). (3.6)

Из (3.5) и (3.6) следует, что КЬ((р | X);р(9)) достигает минимума, когда средние априорного и апостериорного распределений совпадают:

m

= (kE-1 + Е-1)-1 (Е-12k=!X* + 2-Jm). (3.7)

Легко видеть, что единственным решением уравнения (3.7) будет т0 = X , т. е. среднее арифметическое значений X1,...,Xk . Таким образом, KL-минимальным априорным распределением будет

Px=(x1 „..д-к )(9) = N (X; Е2). (3.8)

Из формулы (3.6) следует формула для апостериорного распределения соответствующего т0:

Px=(x1 „..^ )(91X) = N (X ;(к Е-"1 + Е"1 )-1). (3.9)

Полученные результаты можно суммировать в следующей теореме.

Теорема 1. Если X ~ N (9; Е1) и в ~ N (и; Е2), где Е1, Е2 — заданные положительно определенные п X п-матрицы, то МЬ-11 априорное распределение 9 ~ N(X;Е2) будет единственным КЬ-минимальным априорным распределением на множестве априорных распределений ^ (т;Е2): те Rn} • При этом N (X ;(кЕ-1 + Е-1 )-1) будет апостериорным распределением для в, а соответствующее минимальное значение КЬ-метрики равно

КЬ( N (X; (к Е-1 +Е-1 )-1; N(X; Е2)) = 1 [1п(| к Е2 Е-1 +11) - п + 1г(кЕ-1Е2 +1)-1 ], (3.10) где I — единичная матрица порядка п.

Замечание 1. Поскольку значения X1,...,Xk не представляют собой выборку из р(X | и), величина и0 = X не является несмещенной оценкой гиперпараметра т (за исключением случая, когда к = 1). В действительности, гиперпараметр т0, минимизирующий KL-метрику, совпадает с классической (не байесовской) оценкой максимального правдоподобия параметра 9.

В дальнейшем, с целью упрощения выкладок, будем рассматривать только одномерные распределения.

2. Случайная величинаXраспределена по нормальному закону X ~ N(в;&2), а параметр |

в ~ N(m; о2). Дисперсия о2 известна, а г/ = (и,о2) является гиперпараметром. Таким обра- ^

зом, множеством априорных распределений будет °

ас

P = {N(+i;o2): и е R, ст2 > 0} . (3.11) ^

В отличие от предыдущего случая, предположим, что параметры, соответствующие различным наблюдениям, независимы между собой. Из (3.5) и (3.6) следует, что

1 к

KL( р(в? ^JX?,..., Xk); р(в? ,...,вк)) = -£

2 i=i

k f „.2 , „.2 „.2 _ ,Л2 \

. (3.12)

In ^i2 - p a?2 (X, -M)

а?2 a?2 + a2 (a?2 + a2)2 ,

Из формулы (3.12) вытекает, что limKL(p(dJ,...,9k | Xj,...,Xk);p(dj,...,9k)) = 0. Так как дисперсии априорного и апостериорного распределений не совпадают всюду на P (см. (3.6)), то можно заключить, что не существует KL-минимального априорного распределения на множестве P. Однако, условно по а2, задача имеет решение и0 = X, которое совпадает с ML-II оценкой гиперпараметра и . Таким образом, имеем следующую теорему.

Теорема 2. Предположим, что случайная величина X распределена по нормальному закону X ~ N(0;CTj2), а параметр в~ N(иа\) • Дисперсии ст2 и а\ известны, а и является гиперпараметром. Если различным наблюдениям Xj,...,Xk соответствуют независимые параметры 0j,...,0k из N(иа2), тоML-IIоценка и0 = X гиперпараметра и будет единственным значением среднего KL-минимального априорного распределения на множестве априорных распределений {N(иа2): U е R} •

Замечание 2. В отличие от первого случая, значения Xj,...,Xk представляют собой выборку из p(X | m). Значение и0 = X является несмещенной оценкой гиперпараметра и .

Продолжим рассматривать случай, когда различным наблюдениям Xj,...,Xk соответствуют независимые параметры dj,...,вк с распределением 0 ~ N(m;о2). Предположим, что, не зная истинного значения параметра m , мы заменили его в формуле (3.12) на произвольное значение U . Тогда (3.12) можно записать следующим образом:

KL( р(в ,...,вк|Х?,..., Xk); р(в? ,...,вк)) =

/22 2 ^оцд-1 а

2 2 2 а? а? +а2 J

ka\ * (X t -M)

2(a? +a2 )2

' ^ . (3.13)

i=i

Воспользовавшись тождеством

(х, - т )2 = (X - т)2 + 2( X,. - т)( т - т)+(т - т)2,

применив закон больших чисел сначала к случайной величине (X - ¡и)2, а затем к (X -т), и учитывая тот факт, что маржинальная дисперсия X равна с2 + с^, получим следующую асимптотическую формулу:

i

lim 1 KL(р(в?,...,в* | X?,...,Xk);р(в?,...,вк)) = к k

(„.2.2 2 щЧ+а - 1 а

2 2 2 а? а? +а2 J

^22 [(а?2 +а2) + (m-m)2 ]

2(а?2 +а2 )2 .

(3.14)

2

Поскольку минимальное значение KL-метрики в формуле (3.13) достигается при m = X, из (3.13) получим:

lim1 argmin KL( p(9x ,...Д\Х,..., Xk); p{9x ,...,вк)) =

kk p(S)eP

.2

CT, + CT~ C

In 1 ' 2 -1

2 2 2 C1 C1 +C2 J

C22 (C12 +C22 ) = 1Jn C +C

(3.15)

2

2(c2 +C22 )2 2 C

2

что совпадает с (3.14) при т = т . Следующая теорема суммирует полученные результаты.

Теорема 3. Предположим, что случайная величина X распределена по нормальному закону X ~ N(6;о2), а параметр в ~ N(m; о2). Дисперсии о2 и а2 известны, т является гиперпараметром. Если различным наблюдениям Х1,...,Хк соответствуют независимые параметры 61,..., вк, то КЬ-метрика между апостериорным и априорным распределениями (в качестве априорного распределения берется в ~ N(т1; о2)), деленная на число наблюдений, асимптотически (при k ^ю) стремится к выражению, заданному правой частью

формулы (3.14). Оно достигает единственного минимума, равного 1-1п 01 ~~°2 , при ^,

совпадающим с истинным значением гиперпараметра т, и равного пределу (при k ^ да) минимального значения КЬ-метрики, деленному на число наблюдений к, для почти всех последовательностей Х1,..., Хк,....

3. Случайная величина X распределена по экспоненциальному закону:

X ~ Ехр(в) = 6>ехр(-£Х); X > 0, в > 0, (3.16)

а параметр в имеет гамма-распределение с гиперпараметрами а и Ь:

Ьа

в ~ Ga(a,Ь) =-ва—1е~Ьв; а,Ь > 0. (3.17)

Г(а)

Гиперпараметр а предполагается известным, а значение Ь требуется определить. Таким образом, множеством априорных распределений будет

Р = {Са(а,Ь): Ь > 0}. (3.18)

Апостериорное распределение р(в | X) является гамма-распределением с параметрами а1 и Ь , заданными формулами (Де Гроот, 1974)

а1 = а + к, Ь = Ь + кX . (3.19)

Нам потребуется следующая легко доказываемая формула для KL-расстояния между двумя гамма-распределениями:

КЬ^аЦ,Ь )^а(а,Ь)) = (а1 — а)Ф(а1) + 1п Г(а) — 1п Г(а1) + (3 20)

+а[1п(Ь1) — 1п(Ь)] + а1 (Ь)—1 (Ь — Ь), где Ф(а1) — логарифмическая производная гамма-функции в точке а1.

Из (3.20) получаем: _ _

КЬ(р(в | X);р(в)) = кФ(а + к) — 1п~ а 1пЬ~kX — (а + к. (3.21)

Г (а) Ь Ь + кл

Для фиксированного al выражение в правой части (3.21) принимает минимальное зна- § чение при

b0 = aX. (3.22) ¿

Легко проверяется, что, в отличие от случая, рассмотренного в п. 1, значение Ь0 не совпадает с небайесовской оценкой максимального правдоподобия параметра в (1/X), однако является ML-И оценкой гиперпараметра Ь . Действительно, согласно формуле (2.2),

Р^|Ь) = Г Ь(в; X )-р(в|Ь^ в = — Сва+к—1в-в(Ь+ш) d в= Г (а + к У . (3.23)

^ 17 3 У ' ' 1 ' Г(а) Г(а)(Ь + Ш)а+к К J

Выражение в правой части (3.23) достигает максимума при Ь0 = aX, что совпадает с формулой (3.22).

с;

4. Применение KL-минимальных априорных распределений для оценок коэффициентов регрессии

В (Berger, 1985, p. 173) приводится следующий пример получения ML-II оценки коэффициентов регрессии. Рассмотрим регрессию

Y =0,.+eil., i = 1,2,...,n , (4.1)

где

^=M,b + e2, (4.2)

Здесь M. — вектор известных значений регрессоров X1, X2,..., Xk. Случайные нормальные ошибки sli,s2j взаимно независимы для всех i и j. Уравнения (4.1) и (4.2) можно записать в виде

Y ~ N(0,.;а2и), (4.3)

0, ~ N (M b; а 2 , ), (4.4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 2 6 где ан, а2 i — дисперсии su и s2i соответственно .

Рассмотрим случайные векторы в = (в1 ,..,вп ) и Y = (Y1,...,Yn ). Имеем

Y ~ N(0;2i), (4.5) 0 ~ N(Mb;^2), (4.6)

где M — матрица, составленная из строк M1,M2,...,Mn ; E1,E2 — диагональные матрицы с элементами С на соответствующих диагоналях. Маржинальное распределение Y определяется формулой

p(Y ) = N (M в; E1 +Е2 ). (4.7)

6 В (Berger, 1985) значение дисперсии оне зависит от i

Отсюда следует, что ML-II оценка b для b будет МНК-оценкой регрессионного уравнения

Y =M b + e (4.8)

с весами

W =( о2 +о2 , )-1, (4.9)

b = argm1n2^Y-=^. (4.10)

b i 01/ +02 ,

Сравним оценку (4.10) с оценкой b, соответствующей KL-минимальному априорному распределению при наблюденном значении Y. В качестве множества априорных распределений P рассмотрим нормальные распределения вида N(Mв; Е2) с произвольным b^ Rk. Апостериорное распределение в задается формулой

Р (в | Y) = N(m;2), (4.11)

где i -я компонента вектора m равна

m, = (о-2 +о-2 )-1 ( o-2y +o-I2Mb), (4.12)

а i-й элемент диагональной матрицы 2 равен

о2 = (о-2 +о-2 )-1. (4.13)

Из (3.12) следует

KL(р(в | Y);p(в)) = /р(в | Y)lnв =

Р(в)

\ •

У in0 +о2 '-1+ 0 +у у о2 о2 +о2 +у

°1i О +02 i

(Y - Mi b)2 о2

(о2 +о2 )

2 \2

/

(4.14)

Таким образом, оценка Ь , соответствующая KL-минимальному априорному распределению, задается формулой

д„,„ = ^,„ 2^-^, (4.15)

что существенно отличается от ML-II оценки (4.10).

5. Заключение

При проведении байесовского анализа исследователь пытается наиболее полно использовать всю имеющуюся у него информацию, а отчасти и свою интуицию, для задания вероятностного распределения параметров статистической задачи. В статье предлагается в качестве формального правила для определения такого распределения при наличии информации, полученной из предыдущих наблюдений, минимизировать информационную метрику Кульбака-Лейблера между апостериорным и априорным распределениями.

В работе показано, что если случайная величина, зависящая от параметра (являющегося ее средним), и сам параметр распределены по нормальному закону, то минимизация приво-

дит к ML-И априорному распределению независимо от того, оставались ли значения пара- § метра неизменными во все время наблюдений, или представляли собой случайную выборку ^

1—г ^

из некоторого распределения. Последнее различие является существенным как для эмпири- ^

зс

ческого байесовского анализа, так и для байесовских методов в целом. При различных пред- ^ положениях о неизменности параметра ML-И оценки гиперпараметров могут различаться. Можно сделать вывод, что в случае нормальных распределений ML-II оценки минимизируют метрику Кульбака-Лейблера между апостериорным и априорным распределениями.

В то время как в эмпирическом байесовском анализе обычно предполагается, что значения параметра являются выборкой из некоторого распределения для различных наблюдений, что не всегда соответствует экономическим реалиям (например в случае временных рядов), метод минимизации метрики Кульбака-Лейблера может быть применен при любых соотношениях между параметрами. Важным свойством метода является инвариантность KL-минимального априорного распределения при замене параметра.

Показано, что в случае нормального распределения KL-расстояние между апостериорным и априорным распределениями, деленное на число наблюдений, достигает асимптотического минимума только для истинного априорного распределения. Этот минимум соответствует пределу KL-минимальных расстояний, деленных на число наблюдений, для почти всех последовательностей наблюдений.

Был рассмотрен случай экспоненциального распределения с соответствующим априорным гамма-распределением при неизменных значениях параметра. При этом ML-II априорное распределение также минимизирует метрику Кульбака-Лейблера между апостериорным и априорным распределениями. Однако при наличии дополнительных связей между параметрами, как, например, в случае линейной регрессии, результат отличается от ML-II оценок коэффициентов регрессии.

В статье совсем не рассматривается проблема робастности при выборе априорного распределения. В действительности KL-минимальные априорные распределения неустойчивы при малых выборках, но робастность резко возрастает с увеличением размера выборки.

Хотя полученные результаты носят достаточно общий характер и их можно применять для произвольных распределений, включая дискретные, автор при изложении ограничился наиболее изученными непрерывными распределениями: нормальным и экспоненциальным. Распространение метода минимизации информационной метрики на другие распределения может столкнуться с вычислительными трудностями, связанными с отсутствием аналитических формул для KL-минимальных априорных распределений.

Благодарности. Автор выражает благодарность рецензентам за ценные замечания и конструктивную критику, а также участникам семинара по многомерному статистическому анализу и вероятностному моделированию реальных процессов (под руководством С. А. Айвазяна и Ю. Н. Благовещенского), принявших активное участие в обсуждении первоначального варианта статьи.

Список литературы

Айвазян С. А. (2008). Байесовский подход в эконометрическом анализе. Прикладная эконометрика, 9 (1), 93-130.

Де Гроот М. (1974). Оптимальные статистические решения. М.: Мир.

Кульбак С. (1967). Теория информации и статистика. М.: Наука.

Шемякин А. Е. (2012). Новый подход к построению объективных априорных распределений: информация Хеллингера. Прикладная эконометрика, 28 (4), 124-137.

Berger J. O. (1985). Statistical decision theory andBayesian analysis. 2nd edition. New York: SpringerVerlag.

Bernardo J. M., Smith A. (2004). Bayesian theory. New York: John Wiley & Sons.

Efron B., Morris C. (1973). Stein's estimation rule and its competitors — an empirical Bayes approach. Journal of the American Statistical Association, 68 (341), 117-130.

Ghosh M. (1992). Hierarchical and empirical Bayes multivariate estimation. In: Current issues in statistical inference: Essays in honor of D. Basu. Hayward, CA, IMS, 151-177.

Jeffreys H. (1961). Theory of probability. 3rd edition. Oxford University Press, Oxford.

Kass R., Wasserman L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91 (435), 1343-1370.

Maritz J., Lwin T. (1989). Empirical Bayes methods with applications. 2nd edition. Chapman & Hall/ CRC, London.

Morris C. (1983). Parametric empirical Bayes inference: Theory and applications. Journal of the American Statistical Association, 78 (381), 47-65.

Robbins H. (1955). An empirical Bayes approach to statistics. In: Proceedings of the Third Berkeley Symposium on Mathematics, Statistics and Probability, Vol. 1, 157-164.

Robbins H. (1983). Some thoughts on empirical Bayes estimation. Annals of Statistics, 11 (3), 713-723.

Поступила в редакцию 04.11.2014; принята в печать 01.11.2015.

Slutskin L. Definition of a prior distribution in Bayesian analysis by minimizing Kullback-Leibler divergence under data availability. Applied Econometrics, 2015, 40 (4), pp. 129-141.

Lev Slutskin

Institute of Economics of Russian Academy of Sciences, Moscow, Russian Federation; [email protected]

Definition of a prior distribution in Bayesian analysis by minimizing Kullback-Leibler divergence under data availability

A formal rule for selection of a prior probability distribution based on minimization of the Kullback-Leibler divergence, when data obtained from previous observations are available, is suggested. Contrary to a usual requirement in empirical Bayesian analysis, parameters for different observations are not assumed to be independent. In the case when both observations and parameters are normal, the procedure is equivalent to the ML-II approach. However regression coefficients obtained by minimization of the Kullback-Leibler divergence are different from the ML-II estimates. Finally, it is shown that in the case of normal distributions Kullback-Leibler divergence achieves asymptotically its only minimum at the true prior distribution.

Keywords: prior probability distributions; Bayesian methodology; Kullback-Leibler divergence; regression analysis. JEL classification: C11.

References s

|

Aivazian S. A. (2008). Bayesian methods in econometrics. Applied Econometrics, 9 (1), 93-130 ^ (in Russian). ai

De Groot M. (1974). Optimal statistical decisions. Moscow: Nauka (Russian translation). ^

Kullback S. C. (1967). Information Theory and Statistics. Moscow: Nauka (Russian translation).

Shemyakin A. E. (2012). A new approach to construction of objective priors: Hellinger information. Applied Econometrics, 28 (4), 124-137 (in Russian).

Berger J. O. (1985). Statistical decision theory and Bayesian analysis, 2nd edition. New York: SpringerVerlag.

Bernardo J. M., Smith A. (2004). Bayesian theory. New York: John Wiley &Sons.

Efron B., Morris C. (1973). Stein's estimation rule and its competitors — an empirical Bayes approach. Journal of the American Statistical Association, 68 (341), 117-130.

Ghosh M. (1992). Hierarchical and empirical Bayes multivariate estimation. In: Current issues in statistical inference: Essays in honor of D. Basu. Hayward, CA, IMS, 151-177.

Jeffreys H. (1961). Theory of probability, 3rd edition. Oxford University Press, Oxford.

Kass R., Wasserman L. (1996). The selection of prior distributions by formal rules. Journal of the American Statistical Association, 91 (435), 1343-1370.

Maritz J., Lwin T. (1989). Empirical Bayes methods with applications, 2nd edition. Chapman & Hall/ CRC, London.

Morris C. (1983). Parametric empirical Bayes inference: Theory and applications. Journal of the American Statistical Association, 78 (381), 47-65.

Robbins H. (1955). An empirical Bayes approach to statistics. In: Proceedings of the Third Berkeley Symposium on Mathematics, Statistics and Probability, Vol. 1, 157-164.

Robbins H. (1983). Some thoughts on empirical Bayes estimation. Annals of Statistics, 11 (3), 713-723.

Received 04.11.2014; accepted 01.11.2015.

Аннотация научной статьи по математике, автор научной работы — Слуцкин Л. Н.

Похожие темы научных работ по математике , автор научной работы — Слуцкин Л. Н.

Definition of a prior distribution in Bayesian analysisby minimizing Kullback-Leibler divergence under data availability