Прикладная эконометрика, 2016, т. 43, с. 118-141. Applied Econometrics, 2016, v. 43, pp. 118-141.
Б. Б. Демешев, О. А. Малаховская1
Картографирование BVAR
Работа представляет собой обзор метода оценивания и прогнозирования с помощью BVAR. Предлагается классификация наиболее часто встречающихся априорных распределений и показывается, как параметры апостериорных распределений могут быть рассчитаны для каждого рассмотренного типа априорных распределений. Отдельный раздел описывает эндогенный выбор гиперпараметров априорных распределений, что в настоящее время является ключевым шагом при построении BVAR большой размерности. Одна из частей работы посвящена прогнозированию с помощью BVAR. Авторы рассматривают как точечное прогнозирование, так и прогнозирование плотности.
ключевые слова: BVAR; априорные распределения; точечное прогнозирование; прогнозирование плотности. JEL classification: C11; C32; C53.
1. введение
Значение точных прогнозов для проведения макроэкономической политики трудно переоценить. Существование лагов политики приводит к тому, что решения, принятые сегодня, могут повлиять на экономику через некоторое время, поэтому при принятии решений приходится ориентироваться не только на текущие, но и на ожидаемые показатели. Точный прогноз макроэкономических показателей, таким образом, является одним из ключевых факторов успешной политики.
В настоящее время основной моделью для прогнозирования макроэкономических временных рядов является модель векторной авторегрессии (VAR) и ее модификации. Использование векторных авторегрессий в макроэкономическом анализе явилось следствием критики активно использовавшихся прежде традиционных эконометрических моделей. В частности, Sims (1980) обратил внимание на необоснованность ограничений, вводимых в рамках традиционных моделей2, и предложил использовать более простую по построению динамическую модель VAR, основанную на разложении Вольда и не требующую введения никаких ограничений на взаимную динамику переменных.
1 Демешев Борис Борисович — Национальный исследовательский университет «Высшая школа экономики», Москва; [email protected].
Малаховская Оксана Анатольевна — Национальный исследовательский университет «Высшая школа экономики», Москва; [email protected].
2 Под традиционными понимаются модели, построенные в рамках подхода комиссии Коулза. Их прогнозная способность резко ухудшилась в начале 1970-х годов, т. е. примерно тогда же, когда «исчезла» базовая кривая Филлипса (подробнее об этом см. (Favero, 2001; Малаховская, Пекарский, 2012)).
Модели этого класса стали широко использоваться как для прогнозирования, так и для | структурного анализа благодаря своей логичности и относительной простоте. Однако для о того, чтобы правильно отражать динамику фактических временных рядов, VAR часто тре- | буется большое число лагов, что может привести к высоким ошибкам прогноза. Проблема усугубляется тем, что центральные банки развитых стран при проведении политики ориентируются на большое количество показателей, и VAR малой размерности не может отраз- Я. ить всей доступной им информации. Следовательно, использование моделей высокой раз- § мерности потенциально может улучшить качество прогноза. При этом увеличение числа g переменных в VAR приводит к тому, что число оцениваемых параметров растет нелинейно. ^ Это усугубляет проблему неэффективности оценивания и больших ошибок прогноза. Одним щ из решений этой проблемы стало использование априорной информации относительно распределения параметров и ковариационной матрицы ошибок, т. е. переход от обычных VAR к байесовским (Bayesian VAR, BVAR).
Исследователи выделяют несколько преимуществ байесовского подхода по отношению к частотному. Во-первых, он позволяет преодолеть численные трудности, связанные с максимизацией функции правдоподобия. В моделях с большим числом параметров или в тех, которые приходится оценивать на коротких выборках, функция правдоподобия может быть достаточно плоской или содержать много локальных максимумов. В этом случае стандартные процедуры поиска экстремума могут не дать желаемого результата. Байесовский подход позволяет заменить сложную, иногда нерешаемую задачу численной процедурой генерирования реализаций случайных величин. Во-вторых, введение априорных вероятностей позволяет снизить неопределенность в распределении параметров модели. В частности, распространенные в настоящее время априорные распределения отражают современные представления о долгосрочной динамике переменных, которые не могут быть проверены на коротких выборках, обычно используемых для анализа. Например, исследователь может предполагать наличие единичного корня во временном ряде или коинтегрированность нескольких временных рядов, при этом тесты на коротких выборках могут этого не обнаруживать. Добавление априорной информации, в явном виде учитывающей представления исследователя, может улучшить точность полученных прогнозов. В-третьих, байесовская оценка является более общей по отношению к оценкам МНК или метода максимального правдоподобия. Вопреки распространенному мнению, байесовский подход не более субъективен, чем частотный. Используя частотный подход, исследователь все равно неявно предполагает некоторое априорное распределение и модель для данных. В этой ситуации представляется более разумным задать такое априорное распределение, которое отражает представления исследователя о параметрах модели, или то, которое лучше теоретически обосновано.
К сожалению, несмотря на широкое распространение BVAR в научных статьях, число практических обзоров этого метода весьма ограничено. Существующие обзоры (Karlsson, 2013; Del Negro, Schorfheide, 2011) и изложение в учебнике (Canova, 2007) сильно математизированы и едва ли доступны для экономистов без специальной математической подготовки. При этом ни в одном из них не содержится достаточно подробной классификации априорных распределений, и к большинству из них не прилагается инструкций для реализации предложенных методов в эконометрическом пакете. Исключениями являются обзоры (Koop,
3 В англоязычной литературе обычные VAR (без априорных распределений) называются частотными — frequentist.
Korobilis, 2010) и (Blake, Mumtaz, 2012), к которым прилагаются коды в среде MATLAB4. Однако Koop, Korobilis (2010) не рассматривают ставший весьма популярным метод задания априорного распределения через добавление дополнительных наблюдений, в том числе априорное распределение суммы коэффициентов (sum-of-coefficients prior) и априорное распределение начального наблюдения (initial observation prior). В работе (Blake, Mumtaz, 2012) используется терминология, несколько отличающаяся от других работ, а код фактически содержит пример построения BVAR только с использованием семплирования по Гиб-бсу. При этом ни в одном из указанных обзоров не рассмотрен достаточно подробно вопрос о прогнозировании с помощью BVAR (а именно это и является обычно целью их построения, по крайней мере, BVAR в сокращенной форме). В российской научной литературе существуют обзоры общих принципов оценки моделей с помощью байесовского подхода (Айвазян, 2008; Слуцкин, 2010), но, насколько известно авторам, нет обзоров BVAR.
Нестандартное название настоящей работы вызвано тем, что приводимый в ней обзор представляет собой своеобразную «карту» априорных распределений для BVAR. Он содержит подробную классификацию априорных распределений, наиболее популярных при проведении макроэкономических исследований, и схему их взаимосвязей. Данная работа может быть полезна для экономистов, обладающих ограниченным опытом в области байесовского анализа. Кроме того, авторами написан пакет bvarr для R, в котором используются те же обозначения, что и в данном тексте, и который может быть использован как в учебных, так и в научных целях .
За рамками данного обзора остаются построение структурных BVAR (SBVAR), BVAR c меняющимися параметрами (TVP-BVAR), BVAR со стохастической волатильностью, а также проблемы выбора переменных при построении BVAR.
2. Оценивание ВУАЯ
2.1. Байесовская VAR: формулировка модели
Рассмотрим переменные6 уй, объединенные в вектор у( =(уи,у2(,...,ут1)' размерности т (г = 1,...,Т). Векторная авторегрессия в сокращенной форме записывается в виде
у г = Фсош +Ф1У-1 У-2 +- + Фр у- р , е - N (0,2), (1)
где Фсоя^ = (с1,...,ст)' — вектор констант размерности т , Фг — авторегрессионные матрицы размерности т X т , I = 1,., р . Вектор е, — т -мерный нормальный вектор ошибок, некоррелированный с объясняющими переменными. Группируя матрицы параметров в общую матрицу Ф = [Ф1...Фр ФсоШ]' и определяя новый вектор х{ = [у'-1...у'_ 1]', получаем VAR в более компактном виде
у, = Ф'х + £,. (2)
4 Находящиеся в открытом доступе известные авторам коды в различных пакетах для работы с BVAR описаны в Приложении 1.
5 См. Приложение 1, п. 8.
6 Для удобства читателя все обозначения дополнительно вынесены в Приложение 2.
Если сгруппировать переменные и шоки следующим образом:
У — [ у , у 2 Ут ] , X — [ , Х2 Хт ] , Е — [е!, е2 5] ' то VAR можно записать как
У = X Ф + Е. (3)
с:)
(О
Эта модель может быть записана и в векторизованном виде7 §
ф
уес(У) — уес(ХФ1т) + уес(Е) ^ (4)
^ у — (1т ® X)ф + е , (5) 2
где N(0,1т) и вектор ф = уес (Ф) имеет размерность кт XI. Матрицы 1т, 1т — единичные размерности т X т и Т ХТ соответственно. Константа к обозначает число параметров в отдельном уравнении и равна k = тр +1.
Задача байесовского оценивания заключается в поиске апостериорных распределений параметров р(Ф, 21 У) с использованием функции максимального правдоподобия р(У | Ф, 2) и априорного распределения р(Ф, 2). Для этого используется правило Байеса
р (фЛу )—р (Ф у-2). (6)
Так как р (У) не зависит от Ф и 2, то апостериорную плотность можно представить в виде
р(Ф, 21У) а Р(Ф, 2) р(У|Ф, 2), (7)
где символ а означает, что правая часть выражения равна его левой части с точностью до умножения на константу, не зависящую от аргументов функции, в данном случае от Ф и 2 . Поскольку е ~ N(0,2), то функция правдоподобия задается как
р(У | Ф,2) а| 2 -т/2 ек {-1[2-1(У - XФ) ' (У - XФ)(8)
где (•) — ехр(^г(•)). Другая форма записи функции правдоподобия:
р(У | Ф,2) а| 2 |-Т/2 е»ЕЕ] Xе1г{-2[2-1 (Ф -Ф) 'XX(Ф -Ф)(9)
где ЕЕ = У - X<Ф и Ф — (XX)-1 X У.
В двух следующих разделах будут разобраны наиболее известные априорные и построенные на их основе апостериорные распределения.
7 Уравнение (5) следует из тождества уес(АВС) — (С ® А)уес(В).
2.2. Оценка моделей с различными априорными распределениями
2.2.1. Априорное распределение Миннесоты
Решение проблемы избыточной идентификации на основе байесовских методов было предложено в работе (Litterman, 1979), где показано, что введение ограничений в форме априорных распределений параметров увеличивает точность оценок и прогнозов. Априорное распределение, получившее название «априорное распределение Миннесоты» (Minnesota prior), было предложено в работе (Litterman, 1986) и с некоторыми модификациями в (Doan et al., 1984).
Ковариационная матрица S вектора et предполагается диагональной и постоянной. Априорное распределение параметров предполагается многомерным нормальным, зависящим от нескольких гиперпараметров:
ф - N(ф, Е). (10)
Параметры ф предполагаются независимыми, следовательно, их ковариационная матрица S диагональна. Априорная плотность распределения ф может быть записана как
Р(Ф) = (2^J2|S f/2 exp{-2(Ф-Ф)'Г (ф-ф)[ (И)
Комбинируя ее с функцией правдоподобия (8), получаем, что апостериорное распределение параметров задается в следующем виде:
ф\У — N (ф, Ё), (12)
где Ё = [Ё-1 + 2-1 < (XX)]-1, ф = Ё[Ё-1 ф + (2-1 < X') у].
Если Ё имеет структуру кронекерова произведения Ё = 2 <<й, то формулы можно существенно упростить и обойтись обращением матриц меньшей размерности:
Ё = [ё-1 +2-1 << (XX)]-1 = [(2 << □г1 +2-1 << (XX)]-1 =
= [2-1 +2-1 «(ХХ)]-1 = 2®(^-1 + ХХ)-1 = 2®0, где Й = (д-1 + XX )-1. (13)
В результате получаем Ф \ У — N(Ф,2®о).
На практике в качестве матрицы 2 используют ее оценку 2, диагональные элементы которой равны ст2,<3*2,...,сг2 , где ст2 — оценка дисперсии случайной составляющей в AR(р) модели для ряда 1. При этом некоторые авторы для подсчета оценки дисперсии используют AR(1) модель, даже если сама VAR имеет большее число лагов.
Математическое ожидание априорного распределения параметров может быть записано с помощью матрицы ф = E(Ф) размерности k X т, где Ф = [Ф1 .. .Ф Ф_соп^]' и ф = vec (ф):
I \ [б , если / = у, / = 1,
(Ф/).. Ч' (14)
у—'у 10, в остальных случаях.
Распределение Миннесоты было задумано таким образом, чтобы учесть нестационарность многих макроэкономических временных рядов. В настоящее время широкое распространение получила практика назначать = 1 для нестационарных рядов и <1 для стационарных.
Распределение Миннесоты предполагает, что априорная ковариационная матрица параметров Н диагональна. Диагональ матрицы Н разбивается на блоки Н1,Н2,•..,Нт размерности к X к . В свою очередь, каждый блок Н , . — 1, •.., т может быть разбит на диагональные подблоки размерности т X т : Н^ — 1, I — 1,—, р с константой Нисотл в конце главной диагонали:
— 0
kxk
Jkxk —2
0kxk 0kxk \0kxk 0kxk
0
kxk
0
kxk
0kxk kxk — m /
—m—1 0
—i,lag =1 0mxm 0mxm —i,lag=2
0mxm 0mxm
\ 0lxm
0
—i,lag = p 0
0
mxl
lxm —i,const /
QQ Ф
Э
Ф §
щ ui
Диагональные элементы Н, г =1 определяются по формулам
'МI** )2,
(—i,lag=l ) j
(^hAon*, )У (lhag О j ) , j * i
J =i,
—i, const 1tight1constО i •
= ^tightKonstО2 • (15)
Как можно видеть из формулы (15), априорная дисперсия параметров зависит от нескольких задаваемых исследователем гиперпараметров. Проинтерпретируем гиперпараметры.
Параметр регуляризации отражает общую «жесткость» априорного распределения. Если ^ 0, то априорное распределение совпадает с апостериорным, и данные не играют никакой роли при оценке параметров. В этом случаем считается, что параметры точно известны, т. е.
Ф - N (Ф,0), Ф |У - N (Ф,0).
Если 1 и ы ^^ , то апостериорное математическое ожидание параметров сходится к МНК-оценке. В этом случае Н-1 — 0, поэтому Н — (0 + 2-1 ® (XX))-1 — 2 ® (XX)-1.
Отсюда
ф — (2® (XX)-1) • (2-1 ® X' ) • у — (1т ® ((XX)-1 X' )) • уес(У) —
— уес((XX)-1 X У -1т) — уес((XX)-1 X У). (16)
Параметр кросс-регуляризации 1ктп добавляет дополнительную жесткость лагам других переменных по сравнению с лагами зависимой переменной. Условие 1ктп <1 отражает предположение о том, что собственные лаги зависимой переменной помогают предсказывать значение переменной лучше, чем лаги других переменных. При этом коэффициенты при лагах других переменных оказываются распределены ближе к нулю.
При Хктп = 1 матрица Н имеет структуру кронекерова произведения и представима в виде Н = 2 где й — матрица размерности к X к, соответствующая отдельному уравнению. Кронекерово умножение слева на матрицу 2 для / -го уравнения означает умножение дисперсий, указанных в матрице й, на коэффициент о2. Сама матрица й представима в виде
— =
—lag =1 0mXm 0mXm —lag=2
V 01Xm 01Xm
0.
0.
—lag=p 0mX 01Xm — const /
(17)
имеет размерность m X m , и ее диагональные элементы опре-
При этом матрица й1а деляются по формулам
(й1а&=1)3} = ^ 03 ) , йсоп.« = ^Ы ^. (18)
Параметр Хсотг отражает относительную жесткость распределения константы, а параметр Х1а& отвечает за то, насколько быстро убывает априорная дисперсия с увеличением номера лага.
Алгоритм генерации случайной выборки непосредственно из апостериорного распределения использует метод Монте-Карло:
1) на 5 -м шаге сгенерировать очередную итерацию согласно <ф[5] ~ N (<ф, н) ;
2) увеличить 5 на единицу и перейти к п. 1.
Если Н имеет структуру кронекерова произведения Н = 2 ®й, то вместо вектора 5] можно генерировать матрицу Ф[ 5] численно более простым алгоритмом:
1) сгенерировать матрицу V[5] размера к X т из независимых стандартных нормальных величин;
2) вычислить матрицу Ф[5] по формуле Ф[5] = Ф + ско1 (й) • V[5] -ско1 (2)' , где ско1 (й) и Ско1 (2) — верхне-треугольные матрицы, полученные путем разложения Холецкого матриц й и 2[ 5] соответственно. Можно использовать теоретически эквивалентный, но численно менее устойчивый способ, а именно сгенерировать вектор vec (ф[5]) ~ N ^ес(Ф), 2®й) по формуле vec (Ф[ 5]) = vec (Ф) + ско1 (2®й) XV, где V — вектор независимых стандартных нормальных случайных величин.
Можно выделить несколько преимуществ априорного распределения Миннесоты. Прежде всего, оно просто задается и успешно применяется для решения различных задач. И наконец, получившееся апостериорное распределение является нормальным, а значит, можно легко получить значение любой функции параметров с помощью метода Монте-Карло. Однако существенным недостатком этого распределения является то, что оно не предполагает использования байесовской процедуры для оценки ковариационной матрицы 2.
2.2.2. Независимое нормальное — обратное Уишарта распределение
Обобщением распределения Миннесоты является независимое нормальное — обратное Уишарта априорное распределение (independent normal inverse Wishart prior). Оно предполагает, что ковариационная матрица параметров может быть произвольной формы:
где гиперпараметры апостериорного распределения задаются как
ф - N (ф, s), S - IW (S , v), ф, S — независимы. (19) §
О
о
Распределение Миннесоты получается из независимого нормального — обратного Уи- | шарта распределения при S = (v —m — 1) -S и . i
Можно показать (Karlsson, 2013), что условные апостериорные распределения имеют вид
ф|2,Y - N(ф,S), S | ф,Y - IW(S,V) , (20) |
ф §
v = v + T ,
_ "в
S = S + EE, где E = Y — ХФ,
S = (S—1 + S—1 <g> XX)-1, ф = S- (S-1 ф + vec( X Y S—1)).
Гиперпараметры априорного распределения могут быть выбраны точно так же, как и в априорном распределении Миннесоты, см. формулы (17) и (18). При необходимости неинформативное априорное распределение для коэффициентов при константе можно задать, обнулив соответствующее значение в матрице S 1. Использование произвольной ковариационной матрицы приводит к тому, что исследователю оказываются известны только условные апостериорные распределения для фи S . Это обуславливает необходимость использования алгоритма Гиббса для получения реализаций из совместного апостериорного распределения:
1) сгенерировать произвольно начальную матрицу S[0] (например единичную) и вектор ф[0] (например нулевой);
2) на 5 -м шаге сгенерировать очередную итерацию согласно формулам:
5 ] A r(HiS—1] ^iS—1]\ 1[ 1] ^ 1] V[ 5—1] /-TIN
ф J — N 1ф , s ), где ф , s рассчитываются через S J, (21)
S[5] — IW (S[ ], v), где S[ ] рассчитываются с помощью ф[5]; (22)
3) увеличить 5 на единицу и перейти к п. 2.
2.2.3. Сопряженное нормальное — обратное Уишарта априорное распределение
Недостатка априорного распределения Миннесоты, состоящего в отсутствии байесовской процедуры для оценки матрицы S , также можно избежать, если рассматривать сопряженное априорное распределение.
Сопряженное нормальное — обратное Уишарта априорное распределение (conjugate normal inverse Wishart prior) может быть записано как
S — IW(S,v), ф| S — N^SOQ). (23)
Распределение Миннесоты будет являться частным случаем (23), если ковариационная матрица параметров в уравнении (10) имеет кронекерову структуру S = S®Q, т. е. при 1kron, равной единице.
Гиперпараметры вектора математического ожидания ф и ковариационной матрицы й условного априорного распределения могут быть заданы точно так же, как и для распределения Миннесоты в случае Хкгоп =1 — см. формулы (14), (17) и (18). Матрица £ выбирается так, чтобы среднее 2 совпадало с фиксированной ковариационной матрицей 2 в априорном распределении Миннесоты. Так как математическое ожидание и дисперсия параметров имеют вид
E(ф) = ф, Уаг( ф) = (г-т -1)-1 (5 ®0), (24)
то диагональные элементы £ выбираются следующим образом:
(5)н = (V —т -1)0 2. (25)
Число степеней свободы обратного Уишарта распределения V выбирается так, чтобы
тах{т + 2, т + 2к —Т}, (26)
что обеспечивает существование как априорной дисперсии параметров, так и апостериорной дисперсии прогнозов на горизонте к, см. (Kadiyala, Каг^оп, 1997).
Можно показать, что с учетом функции правдоподобия (8) апостериорное распределение принадлежит тому же классу, см., например, (2е11пег, 1996):
21У - ТМ(£,V), Ф| 2,У - N(Ф,2®й), (27)
где гиперпараметры апостериорного распределения задаются как
V = Р + Г, й = (й-1 + XX)-1, Ф = й-(9—1Ф + ХУ), 5 = 5 + Е 'Е + Ф XX Ф + Ф ' й-1 Ф — Ф'й-1Ф = 5 + Е'Е + (Ф — Ф )'(й + (XX)-1)—1 (Ф — Ф),
Ф = (ХХ)-1X У , Е = У - XФ.
Как и в случае распределения Миннесоты, нет необходимости использовать алгоритм Гиббса, а можно генерировать случайную выборку непосредственно из апостериорного распределения. Например, можно применять такой алгоритм:
1) на 5-м шаге сгенерировать очередную итерацию согласно соотношениям
2[5] - ТМ (£, V), ф[5] - N (ф, 2[5] ®й);
2) увеличить 5 на единицу и перейти к п. 1.
На практике вместо вектора ф[ генерируют сразу матрицу Ф[ в два шага:
1) сгенерировать матрицу V[размера к X т из независимых стандартных нормальных величин; ___
2) вычислить матрицу Ф[по формуле Ф[= Ф + ско1 (й) • V[-ско1 (2[5]) ' .
Желание задать сопряженное нормальное — обратное Уишарта априорное распределение с помощью нескольких гиперпараметров приводит к тому, что моменты априорных распределений параметров для разных уравнений оказываются зависимыми друг от друга. В частности, все коэффициенты при первом лаге зависимой переменной априорно имеют
8 Правая часть (24) следует из того, что Уаг(ф) = Уаг^(ф 12)) + E(Уаг(ф 12)) = =Уаг(ф) + E(2 ®й) == E(2 ®й) = E(2) = (V - т -1)-15 ®й.
одну и ту же дисперсию . Хотя обычно эта предпосылка не является слишком ограни- | чительной, в реальности легко встретиться с задачами, в которых ковариационная матрица о априорного распределения не должна быть симметрично сформирована для разных урав- | нений. Например, довольно известным в литературе является следующий пример (Kadiyala, Каг^оп, 1997). Предположим, что исследователь хочет учесть в VAR наличие нейтральности денег. При построении модели эта предпосылка может быть учтена таким априорным Я, распределением, в котором все коэффициенты при лагах денег в уравнении для выпуска § имеют нулевое математическое ожидание и маленькую дисперсию. Однако это означает, что § и в других уравнениях дисперсия коэффициентов в априорном распределении будет отно- ^ сительно низкой. Это характеристика может быть нежелательной, и, чтобы этого избежать, щ априорное распределение можно задать как независимое нормальное — обратное Уишарта.
2.2.4. Добавление наблюдений и модификации сопряженного нормального — обратного Уишарта априорного распределения
Существует достаточно популярный альтернативный подход для подсчета апостериорных гиперпараметров для сопряженного нормального — обратного Уишарта априорного распределения.
Обнуляются матрицы S и Q 1, при этом матрица (Q + (XX)-1)—1 оказывается равной 0, а матрица Ф исчезает из формул. Чтобы компенсировать разницу, добавляем фиктивные наблюдения (dummy observations) в матрицу X и в матрицу Y :
X * = X , Y ' = 'у
X Y
При добавлении наблюдений матрицы скалярных произведений X 'X и X ' У разлагаются в сумму X* X* = Х+ Х+ + XX, X* У* = Х+ У+ + XУ. В частности, добавление нулевых фиктивных наблюдений никак не изменяет матрицы XX, XУ и У У . Матрицы X и У входят в гиперпараметры апостериорного распределения только в составе матриц XX, X У и У У, поэтому абсолютно не важно, в каком порядке и каким образом по отношению к матрицам X и У добавлять фиктивные наблюдения. Их можно добавить в конец матриц X и У, в начало или в середину.
Получим новые формулы для апостериорных гиперпараметров:
V = г + Г , □ = (X*'X*)-1 = ^+'X++ XX)-1, Ф = (X * ' У *) = (X+' У + + X У) = (X * ' X *)-1 X * ' У *,
5 = Ё ' Ё*, Ё* = У * - X * Ф.
Наблюдения добавляются так, чтобы гиперпараметры апостериорных наблюдений не изменились. Для этого необходимо, чтобы
X+'X + = ^-1, X+'У + = ^-1 Ф, (У +- X + Ф)'(У +- X+ Ф) = £ . (28)
Взаимосвязь «новых» формул с матрицами, определяющими априорное и апостериорное распределения, может быть представлена в виде табл. 1.
Таблица 1. Интерпретация параметров с помощью дополнительных наблюдений
Обозначение Интерпретация Формула
Ф Оценки коэффициентов регрессий У+ на X+ (X+' X +)—1 -(X+' Y + )=Ф
S Скалярные произведения остатков этих регрессий E+' E + , где E + = Y +— X +Ф
Q—1 Скалярные произведения регрессоров из X+ X+' X+
Ф Оценки коэффициентов регрессий У * на X * (X " X *)—1 -(X " Y *) = Ф
S Скалярные произведения остатков этих регрессий E" E', где E' = Y' — X * Ф
Q—1 Скалярные произведения регрессоров из X * X " X *
Чтобы реализовать структуру матрицы й, задаваемую уравнениями (17) и (18), можно
добавить фиктивные наблюдения по схеме
d101, 0 m )
Y NIW _
tight
0.
X NIW _
m( p—l)Xm
diag (o-i,..., о m) 0
diag (1,2hagp hag) ® diag (о i ,..., о m)
1
1 tight 0mXmp
lXmp
(29)
mpXl
(l tight1 const )
Однако ничто не мешает исследователю добавить фиктивные наблюдения по другой схеме. В работах (Doan et al., 1984) и (Sims, 1993) было предложено добавить к априорному распределению дополнительную характеристику, обусловленную возможным наличием во временных рядах единичных корней и коинтеграционных соотношений. Это позволяет исключить появление неправдоподобно большой доли внутривыборочной дисперсии, объясняемой экзогенными переменными (Carriero et al., 2015). Априорное распределение суммы коэффициентов (sum-of-coefficients prior) было предложено в работе (Doan et al., 1984). Это распределение отражает следующую идею: если переменные в VAR имеют единичный корень, то можно учесть эту информацию, задав априорное распределение, в котором сумма коэффициентов при всех лагах зависимой переменной равна единице, см. (Robertson, Tallman, 1999; Blake, Mumtaz, 2012). Другими словами, среднее значение лагированных значений какой-либо переменной является хорошим прогнозом для будущих значений этой переменной.
9 Аналогичные формулы, приведенные в работах (Banbura et al., 2010; Berg, Henzel, 2013) для задания сопряженного нормального — обратного Уишарта априорного распределения, являются частным случаем (29) для
¿lag = 1 и 1
Внедрение этого априорного распределения производится путем добавления фиктивных
1 t
10 Некоторые авторы для расчета m усредняют все наблюдения в выборке: m = — ^yt (Banbura et al., 2010;
T t=1
Carriero et al., 2015). Однако, в соответствии с работой (Sims, Zha, 1998), для расчета среднего следует использовать только первые p наблюдений.
£
наблюдений по следующей схеме: о
1 Л
YSC =y~ diag (di mi ,..., dmmm), (30) |
^ = 7" [W ® diag (di mi ,..., dmmm ) 0mXi ], (31)
«i
о
(0 Ф
Э
ф
где 11Xp — вектор-строка из единиц размера p, mi есть i -я компонента вектора m , который ¿ъ
1 p ■ 10 1 V Щ
состоит из средних начальных значений всех переменных : m = — / yt . ua
Р Tt
Априорное распределение фиктивного начального наблюдения (dummy initial observation prior), предложенное в работе (Sims, 1993), отражает априорную веру в то, что переменные имеют общий стохастический тренд. Для этого вводится единственное фиктивное наблюдение, так что значения всех переменных равны соответствующему среднему начальных значений mi с точностью до коэффициента масштаба 1io:
тю = -L [d m ,..., dmmm ], (32)
К
Xю = [1^ ® (d1 m1 ,..., dmmm) 1]. (33)
io
Это априорное распределение предполагает, что среднее по каждой переменной есть линейная комбинация всех остальных средних.
Гиперпараметр 1o отражает жесткость указанного априорного распределения. Когда 1o стремится к нулю, модель принимает вид, в котором либо все переменные стационарны со средним, равным выборочному среднему начальных условий, либо нестационарны без дрейфа и коинтегрированы.
Таким образом, к исходным наблюдениям добавляются три блока фиктивных наблюде-
~ VN1W VNIW VSC VSC v1O vlO ^ VN1W VN1W /-
нии: Y и X , Y и X , Y и X . Поскольку, помимо Y и X , добавлены еще
два блока наблюдений, структура получающейся матрицы Q оказывается модифицированной по сравнению с формулами (17) и (18).
2.2.5. Априорные распределения Джеффриса
В этих распределениях предполагают, что априорное распределение ковариационной матрицы ошибок не содержит гиперпараметров и имеет вид
S -12|"(m+1)/2. (34)
Различают независимое нормальное — Джеффриса априорное распределение (independent normal Jeffreys prior) и сопряженное нормальное — Джеффриса априорное распределение (conjugate normal Jeffreys prior).
1. Независимое нормальное — Джеффриса априорное распределение:
ф ~ N(ф,н), S ~ |S| (m+1)/2, ф, S — независимы. (35)
Это распределение получается из независимого нормального — обратного Уишарта при S = v1/m • I и 0. Функция плотности обратного Уишарта распределения имеет вид:
p(S) =-1-1 S |v/2| S |—(-v+m+1)/2 2—vm/2eirf—-SS—1 I,
Г„ (v /2) 11 I 2" J'
где Гm (•) обозначает m -мерную гамма-функцию.
Если S = v1m • I и то одновременно | S 1 и etr—SS—1 j ^ 1.
Поэтому p(S) ^const-l S |—(m+1)/2.
В данном случае распределение Джеффриса является несобственным, т. е. интеграл под всей функцией плотности невозможно отнормировать так, чтобы он равнялся единице. Тем не менее, апостериорное распределение будет собственным при достаточном (T > m — 1) числе наблюдений (Alvarez et al., 2014).
Для получения выборки из апостериорного распределения можно использовать схему Гиббса. Необходимые формулы для гиперпараметров апостериорного распределения получаются из общего случая независимого нормального — обратного Уишарта подстановкой S = 0, v = 0.
Распределение Миннесоты и независимое нормальное — Джеффриса распределение являются противоположными крайностями независимого нормального — обратного Уишарта распределения. В распределении Миннесоты матрица S предполагается известной, а в нормальном — Джеффриса матрица S имеет «размытое» неинформативное распределение.
2. Сопряженное нормальное — Джеффриса априорное распределение:
ф| N (ф, 2®Q), SHS|—( m+1)/2. (36)
Это распределение является частным случаем сопряженного нормального — обратного Уишарта распределения при S = v 'm " I и 0. Формулы для гиперпараметров апостериорного распределения получаются подстановкой v = 0 , S = 0 в общие формулы для сопряженного нормального — обратного Уишарта распределения.
Частным случаем двух указанных распределений Джеффриса является неинформативное — Джеффриса распределение (diffuse Jeffreys prior):
ф ~ 1, Е ~ |Е| (m+1)/2 5 ф,И — независимы. (37)
При задании этого априорного распределения не нужно указывать ни одного гиперпараметра. Оно получается из независимого нормального — Джеффриса при ф = 0, Н = a • I и a . Для получения выборки из апостериорного распределения можно использовать прямое симулирование по схеме Монте-Карло без алгоритма Гиббса. Распределение получается из общего случая независимого нормального — обратного Уишарта распределения подстановкой S = 0, v = 0, Н 1 = 0, ф = 0. При этом формулы существенно упрощаются, в частности, исчезает необходимость обращать матрицу размера km X km.
Также неинформативное — Джеффриса распределение получается из сопряженного нормального — Джеффриса при ф = 0 и □ = а-1 и а . Формулы для гиперпараметров апостериорного распределения получаются подстановкой ф = 0, = 0, у = 0, £ = 0.
Достоинство и недостаток априорных распределений Джеффриса состоит в том, что они зависят от малого числа гиперпараметров. С одной стороны, исследователю надо меньше думать о выборе гиперпараметров, с другой стороны, малое количество гиперпараметров означает негибкость данных априорных распределений.
2.3. Взаимосвязь априорных распределений
О ф
э
ф §
Щ LQ
Взаимосвязи всех упомянутых априорных распределений представлены на схеме: Minnesota--^ Minnesota
S = (v — m — 1)2, v ■ ю
iN — IW
1/m
S = v l, v ■ 0
S = (v — m — 1)2, v ■ »
cN — IW
S = v l, v ■ 0
,tit т ф=0, Q=al, _ _ ф=0, Q,=al, , T _
iN — J—=->- d — J<-=-cN — J
Minnesota — распределение Миннесоты,
Minnesota — ® — распределение Миннесоты при условии S = S , iN — IW — независимое нормальное — обратное Уишарта распределение, cN — IW — сопряженное нормальное — обратное Уишарта распределение, iN — J — независимое нормальное — Джеффриса распределение, cN — J — сопряженное нормальное — Джеффриса распределение, D — J — неинформативное — Джеффриса распределение.
Стрелки идут от более общих распределений к частным случаям, над стрелками указаны соответствующие ограничения.
2.4. Эндогеннное определение гиперпараметров: оценка BVAR большой размерности
2.4.1. Регуляризация с помощью неограниченной УЛЯ
В некоторых случаях гиперпараметры априорного распределения определяются эндогенно. В частности, это происходит при оценке модели большой размерности. Для решения ряда прикладных макроэкономических задач, связанных с прогнозированием и структурным анализом, исследователям требуется работать с выборками большой размерности. И хотя BVAR широко использовались в моделях малой размерности практически с момента их появления в начале 1980-х годов, их применение в моделях большой размерности до недавнего времени было весьма ограничено. Причина заключалась в существовании консенсуса о том, что байесовская регуляризация сама по себе недостаточна для решения проблемы избыточной параметризации в моделях большой размерности и требует введения дополнительных небайесовских ограничений.
Ключевую роль в развитии подхода сыграли работы (De Mol et al., 2008) и (Banbura et al., 2010), в которых было показано, что BVAR вполне могут быть применены к выборкам большой размерности без введения дополнительных ограничений. Однако использование большого числа временных рядов требует уменьшения параметра 1aght с увеличением размерности выборки, что означает введение более жесткого априорного распределения. На данный момент в литературе используется два подхода к определению оптимальной величины 1tight.
Первый алгоритм, предложенный в работе (Banbura et al., 2010), основан на идее о том, что регуляризация должна быть настолько жесткой, чтобы исключить возможность избыточной параметризации модели. При этом предполагается, что трехмерная VAR — достаточно простая модель, не содержащая слишком большого количества параметров, и поэтому она не требует дополнительной регуляризации. Это означает, что гиперпараметр XUght должен быть выбран таким образом, чтобы модель демонстрировала такую же внутривыборочную подгонку, как и VAR c тремя переменными. Другими словами, каждая модель регуляризу-ется до размера простой неограниченной VAR.
Приведем детальное описание процедуры. Обозначим фактическое значение переменной var в момент T + h как yvar T+h, а прогноз переменной var , осуществленный в момент T на горизонт h в модели с m переменными и параметром жесткости XUght, как yvamT+h|T (для краткости в формулах используется l вместо XUght). Схема выбора XUght состоит из следующих этапов.
1. С помощью BVAR строятся внутривыборочные однопериодные прогнозы на обучающей выборке и рассчитывается среднеквадратичная ошибка прогноза для M переменных, объединенных в набор M и представляющих особый интерес11:
1 T—1
MSFElm = — 2(у^ — У var ,t+1 )2. (38)
1 p t=p
2. Аналогично рассчитываются однопериодные прогнозы в соответствии с моделью случайного блуждания с дрейфом12 для тех же самых переменных (MSFE°ar1), и, кроме того, рассчитывается новый индикатор FIT ,m :
. 1 ^ MSFElm
FIT*,m = _ у -р1. (39)
M -¿MMSFEl,
varGM var ,1
3. Оценивается трехмерная VAR для тех же M переменных, представляющих особый интерес при прогнозировании13 и рассчитываются MSFE и индикатор FIT ",M:
11 В базовый набор переменных М , представляющих особый интерес, в статье (ВапЬига et а1., 2010) включается индекс промышленного производства, индекс потребительских цен и межбанковская процентная ставка, т. е. М = 3 .
12 MSFE для моделей BVAR и VAR нормализуются на MSFE, полученные с помощью модели RW, чтобы учесть тот факт, что различные временные ряды имеют разные единицы измерения. Для указания на модель RW используется надстрочный индекс 0, потому что RW может рассматриваться как частный случай BVAR для
V =0 и 8, =1, , = 1,...,к.
13 Для указания на неограниченную VAR используется надстрочный индекс оо, т. к. неограниченная VAR является частным случаем BVAR при 1 . В этом случае апостериорное распределение совпадает с функцией правдоподобия.
FIT_ ~
1 У MSFEf. (40)
MSFEL,1 |j
4. Оптимальным Xtight считается значение, минимизирующее абсолютную разность между FITKm и FIT",M: ^
Хт _ argmin FITKm - FIT. (41)
О
(0 <u Э
Ф §
I®
После того как выбрано оптимальное 1tight для каждой модели, происходит построение ¡т вневыборочных прогнозов на оценивающей выборке. щ
2.4.2. Регуляризация с помощью однопериодного прогноза
Второй алгоритм предложен в работе (Doan et al., 1984) и представляет собой выбор такого параметра l tiht, который максимизирует точность однопериодного вневыборочного прогноза на обучающей выборке. Этот выбор сводится к максимизации функции плотности (маржинальной функции правдоподобия, marginal likelihood):
l* = argmax ln p(Y). (42)
i
При этом функция плотности может быть получена путем интегрирования коэффициентов модели:
p(Y ) = /p(Y|0)p(0)d 0. (43)
Если априорное распределение является сопряженным нормальным — обратным Уишар-та, то плотность p(Y) может быть получена аналитически (Zellner, 1996; Bauwens et al., 2000; Carriero et al., 2015):
--I , I- ж ((v+T)/2)
p(Y) = jt 2 (I + XOX')- 2 |SI2 ' ^ ( '
Г - (VI2) (44)
v+T
• \s + (Y - X Ф)'(1 + X OX ')-1 (Y - X Ф)|.
Выбор числа лагов происходит аналогично путем максимизации по p функции плотности (44):
p* = argmax ln p(Y). (45)
p
2.4.3. Особенности кодирования
При практической реализации алгоритма Гиббса или Монте-Карло часто приходится обращать положительно определенные симметричные матрицы. Некоторые из этих матриц могут иметь определитель, близкий к нулю, что мешает практическому обращению этих матриц на компьютере. Если необходимо обратить матрицу А вида А = XX, то можно сразу получить обратную к А без вычисления самой А:
1) получить сингулярное разложение матрицы X, X = US V';
2) получить обратную к A = XX по формуле A—1 = VS—2V'.
Если матрица X неизвестна, то обратить матрицу A можно так:
1) получить разложение Холецкого матрицы A, A = U'U;
2) обратить верхне-треугольную матрицу U с помощью специального более устойчивого алгоритма;
3) получить A—1 по формуле A—1 = U—1U—1.
Однако данный способ сопряжен с численными трудностями, если обращаемая матрица плохо обусловлена. В таком случае оправдано использовать псевдообратную матрицу Мура-Пенроуза.
3. Прогнозирование с помощью BVAR
Основная цель оценки неструктурных байесовских VAR — это построение прогнозов. BVAR позволяют строить точечные прогнозы, интервальные прогнозы и прогнозы плотности. Если задача состоит не только в построении прогноза по определенной модели, но и в оценке качества этого прогноза, то модель оценивается на некоторой исторической выборке, и прогноз строится на такие моменты времени, по которым фактические данные уже есть. Оценка модели может происходить как по сдвигающейся выборке (rolling window scheme), так и по растущей выборке (recursive regression). В первом случае оценка происходит по фиксированному числу наблюдений, но на каждом шаге начало выборки и ее окончание сдвигаются на один шаг вперед. Прогнозы строятся на каждом шаге на выбранный горизонт. Так происходит до тех пор, пока не будут исчерпаны все наблюдения, по которым можно сопоставить прогнозы и фактические данные. В случае растущей выборки фиксируется ее начало, и на каждом шаге ее длина увеличивается на одно наблюдение.
Ключевой концепцией при построении прогноза с помощью байесовской модели является функция апостерионой прогнозной плотности (posterior predictive density), которую вслед за работой (Karlsson, 2013) будем обозначать р(yT+1T+H | YT). Эта запись означает, что прогноз строится на все моменты времени, начиная с момента T + 1 и заканчивая моментом T + H при известных наблюдениях до момента T . Здесь матрица yT+1T+H = (yT+1 • • •, yT+H)' — это все будущие наблюдения, а матрица YT = (y1..., yT)' — это все наблюдения, по которым оценивалась модель. Функция апостериорной прогнозной плотности может быть представлена как
p( y T +1T+H \YT ) = /p( y T+1:T+H \Yt , ф) р(ф\Гт Мф, (46)
где р(yT+1T+H \ YT, ф) — функция плотности будущих наблюдений при условии фиксированных параметров ф и данных вплоть до периода T , а р(ф \ YT) — апостериорная плотность параметров.
Как правило, функция апостериорной прогнозной плотности не выражается аналитически для прогнозирования дальше, чем на один период вперед. Однако ее расчет возможен по формуле (46) c помощью численных методов. Для этого необходимо для каждой реализации вектора параметров из апостериорного распределения р(ф \ YT) вычислить прогнозные
щ
значения переменных yT+h на горизонте h = 1,...,H c помощью функции условной плот- |
ности p(yT+VT+H | YT,ф) . При этом при построении прогноза на горизонт h прогнозы, по- о
строенные на горизонт h < h , становятся как будто известными значениями. Повторение | описанной процедуры большое число раз позволяет получить выборку из апостериорного прогнозного распределения для каждого h .
Другими словами, для BVAR построение прогнозной плотности происходит по следую- Я.
щей схеме (Karlsson, 2013, pp. 800, 811): §
\ ®
1) сгенерировать параметры апостериорного распределения; §
2) сгенерировать e^ из распределения e, - N(0,^) (в случае априорного 5
распределения Миннесоты S[ s ] = S) и вычислить рекурсивно:
h—1 p
yT! h = ФЦ, + 2°is1 yTsl h—■■ + X°is ] yTl h—, + 4s! h; (47)
i=1 i=h
3) увеличить s на единицу и перейти к п. 1.
Далее следует «забыть» о том, что разные прогнозы были сделаны для разных значений параметров. Для априорного распределения Миннесоты и сопряженного нормального — обратного Уишарта распределения следует рассматривать {y^,..., yTl H }f=1 как выборку независимых реализаций из совместного прогнозного распределения. В случае независимого нормального — обратного Уишарта распределения генерация e[ s 1 происходит только при s больше некоторого (заранее заданного) B, т. к. первые B реализаций апостериорных параметров используются для сходимости цепи (т. н. период прожига, burn-in). Соответственно,
прогнозные реализации также рассматриваются только для s > B, т. е. {y^,...,yT\H}f=B+1.
Прогноз на один шаг вперед представляет собой линейную функцию параметров, поэтому апостериорная прогнозная плотность для h = 1 может быть задана аналитически. Она принимает вид матричного t -распределения (MT), параметры которого зависят от конкретного используемого априорного распределения. Например, для случая сопряженного нормального распределения (Carriero et al., 2015, p. 54) прогноз имеет следующее многомерное t-распределение:
y'T+1 | x'T+1 - MT (х^Ф, (x;+1Qxt+1)—1, S, v). (48)
Точечные прогнозы рассчитываются после построения случайной выборки из апостериорного прогнозного распределения. Выбор конкретного типа точечного прогноза, например, мода или медиана прогнозной плотности, может быть сделан на основании функции потерь. С формальной точки зрения, существует функция потерь L(b, yT+1T+H), определяющая, какая матрица значений b будет выбрана в качестве точечного прогноза. Матрица значений b выбирается таким образом, чтобы минимизировать ожидаемые потери при условии доступных данных YT (Karlsson, 2013, p. 795):
E[L(b Ут+1:Т+Н ) 1 YT 1 = /L(b Ут+1:T+H )P(Ут+1:T+H 1 YT )<^Ут+1:T+H . (49)
При заданных функции потерь и прогнозной плотности решение задачи минимизации есть функция только доступных данных, b(YT). Для частных случаев функции потерь решение принимает простую форму. Например, для квадратичной функции потерь
L(b,yT+1T+H) = (b - yT+1T+H )'(b - yT+1T+H) решение принимает вид условного математического ожидания b(YT) = E(yT+1T+H | YT), а для функции потерь в виде абсолютного значения решение представляет собой медиану прогнозного распределения.
4. Заключение
Представленный обзор посвящен механизму оценки байесовских неструктурных векторных авторегрессий и их применению для построения прогнозов. Авторы подробно останавливаются на наиболее часто используемых в макроэкономических прикладных работах априорных распределениях и строят для них «карту», содержащую подробное представление их взаимосвязей.
Отдельный раздел работы посвящен заданию сопряженного нормального — обратного Уишарта распределения с помощью искусственных наблюдений — способу, часто применяемому на практике, но не затронутому во многих из существующих обзоров. В разделе, посвященном прогнозированию с помощью BVAR, рассмотрены как точечные прогнозы, так и прогнозы плотности.
Благодарности. Исследование осуществлено в рамках программы фундаментальных исследований НИУ ВШЭ в 2016 году.
Список литературы
Айвазян С. А. (2008). Байесовский подход в эконометрическом анализе. Прикладная эконометрика, 9 (1), 93-130.
Малаховская О. А., Пекарский C. Э. (2012). Исследования причинно-следственных взаимосвязей в макроэкономике: Нобелевская премия по экономике 2011 года. Экономический журнал Высшей школы экономики, 16 (1), 3-30.
Слуцкин Л. Н. (2010). Байесовский анализ, когда оцениваемый параметр является случайным нормальным процессом. Прикладная эконометрика, 20 (4), 119-131.
Alvarez I., Niemi J., Simpson M. (2014). Bayesian inference for a covariance matrix. ArXiv preprint. https://arxiv.org/abs/1408.4050.
Banbura M., Giannone D., Reichlin L. (2010). Large Bayesian vector auto regressions. Journal of Applied Econometrics, 25 (1), 71-92.
Bauwens L., Lubrano M., Richard J.-F. (2000). Bayesian inference in dynamic econometric models. Oxford University Press.
Berg T., Henzel S. (2013). Point and density forecasts for the euro area using many predictors: Are large BVARs really superior? Ifo Working Paper 155. https://www.cesifo-group.de/portal/page/portal/lang-en/ DocBase_Content/WP/WP-Ifo_Working_Papers/wp-ifo-2013/IfoWorkingPaper-155.pdf.
Blake A., Mumtaz H. (2012). Applied Bayesian econometrics for central bankers. Centre for Central Banking Studies, Bank of England.
Canova F. (2007). Methods for applied macroeconomic research. Princeton University Press.
Carriero A., Clark T., Marcellino M. (2015). Bayesian VARs: Specification choices and forecast accuracy. Journal of Applied Econometrics, 30 (1), 46-73.
De Mol C., Giannone D., Reichlin L. (2008). Forecasting using a large number of predictors: Is Bayes- „. ian shrinkage a valid alternative to principal components? Journal of Econometrics, 146 (2), 318-328. |
О
Del Negro M., Schorfheide F. (2011). Bayesian macroeconometrics. The Oxford Handbook of Bayes- |
ian Econometrics, 293-389. <5
§
Doan T., Litterman R., Sims C. (1984). Forecasting and conditional projection using realistic prior dis- «j;
tributions. Econometric reviews, 3 (1), 1-100. °
(0
Favero C. (2001). Applied macroeconometrics. Oxford University Press. §
<u
Kadiyala K., Karlsson S. (1997). Numerical methods for estimation and inference in Bayesian VAR- g models. Journal of Applied Econometrics, 12 (2), 99-132.
Karlsson S. (2013). Forecasting with Bayesian vector autoregressions. In: Handbook of Economic Fore- lja casting, vol. 2, Part B, 791-897.
Koop G., Korobilis D. (2010). Bayesian multivariate time series methods for empirical macroeconomics. Foundations and Trends (R) in Econometrics, 3 (4), 267-358.
Litterman R. (1979). Techniques of forecasting using vector autoregressions. Working Paper 115, Federal Reserve Bank of Minneapolis.
Litterman R. (1986). Forecasting with Bayesian vector autoregressions — five years of experience. Journal of Business and Economic Statistics, 4 (1), 25-38.
Robertson J., Tallman E. (1999). Vector autoregressions: Forecasting and reality. Economic Review, Federal Reserve Bank of Atlanta, 84 (1), 4.
Sims C. (1980). Macroeconomics and reality. Econometrica, 48 (1), 1-48.
Sims C. (1993). A nine-variable probabilistic macroeconomic forecasting model. Business Cycles, Indicators and Forecasting. University of Chicago Press, 179-212.
Sims C, Zha T. (1998). Bayesian methods for dynamic multivariate models. International Economic Review, 39 (4), 949-968.
Zellner A. (1996). An introduction to Bayesian inference in econometrics. Wiley Classics Library, Wiley.
Поступила в редакцию 02.06.2016; принята в печать 15.08.2016.
Приложение 1. Доступные реализации кода
1. Страница CReMFi — Центра исследований в макроэкономике и финансах Университета Лондона. Код в Матлаб. http://cremfi.econ.qmul.ac.uk/efp/info. php.
Фиктивные наблюдения вводятся как и для сопряженного нормального — обратного Уишарта распределения, но выполняется семплирование Гиббса; при этом Ф одно и то же, а S пересчитывается на каждом шаге в зависимости от предыдущего Ф. При плохо обусловленной матрице X 'X используется псевдообратная.
2. Страница Банка Англии с описанием работы (Blake, Mumtaz, 2012). Код в Матлаб. http://www.bankofengland.co.uk/education/Pages/ccbs/technical_handbooks/techbook4.aspx. Независимое нормальное — обратное Уишарта распределение названо Миннесотой. Код
для сопряженного нормального — обратного Уишарта распределения построен по тому же принципу, что и представленный на странице CReMFi, но добавлено две одинаковых строки для фиктивных наблюдений при определении коэффициента при константе.
3. Страница c кодами к работам D. Korobilis. Код в Матлаб. https://sites.google.com/site/ dimitriskorobilis/matlab.
Базовый код негибкий, без правки кода нет возможности прогнозировать больше чем на один шаг, базовые сопряженное и независимое нормальные — обратные Уишарта априорные распределения не содержат гиперпараметров и задаются через фиксированные матрицы.
4. Страница с кодами к работам T. Zha. Код в Матлаб. http://www.tzha.net/code.
На указанной странице можно найти коды для оценивания как BVAR в сокращенной форме, так и структурной BVAR.
5. Страница C. Sims с кодами для оценки VAR. Коды в R и Matlab. http://sims.princeton. edu/yftp/VARtools.
Недостаточно подробное описание. Для модификации необходимо прочитать весь код.
6. Страница пакета BMR. Код в R. http://bayes.squarespace.com/bmr/.
Симуляции реализованы в C++, также оценивает DSGE. Реализует TVP-BVAR. Отличная документация.
7. Страница пакета MSBVAR. Код в R. https://cran.r-project.org/web/packages/MSBVAR/.
Симуляции реализованы на Фортране и C++. Оценивает также марковские BVAR с переключением режимов.
8. Страница пакета bvarr. Код в R. https://github.com/bdemeshev/bvarr.
Основной целью написанного авторами пакета bvarr является максимально гибкая реализация сопряженного нормального — обратного Уишарта распределения. Данное распределение не реализовано в пакете BMR, а в пакете MSBVAR реализовано недостаточно гибко. Во-первых, используется сингулярное разложение матрицы X вместо прямого обращения матрицы X' X , как в MSBVAR. Это позволяет оценивать BVAR большей размерности. Во-вторых, пользователь bvarr может использовать любые блоки дополнительных наблюдений YNIW и XNIW, YSC и XSC, Yю и Xю, в то время как MSBVAR обязывает пользователя использовать все три блока. В-третьих, пакет bvarr содержит функции для подбора гиперпараметров с помощью максимизации маржинального правдоподобия. Кроме того, пакет bvarr содержит перевод матлабовского кода для Миннесоты и независимого нормального — обратного Уишарта из источника 3.
9. Страница пакета bvarsv. Код в R. https://cran.r-project.org/web/packages/bvarsv/.
Симуляции реализованы на C++. Оценивает TVP-BVAR со стохастической волатильно-
стью.
10. Eviews: встроенная функция.
Код игнорирует тот факт, что коэффициенты были оценены байесовскими методами, прогнозы делаются точно так же, как в обычной модели. Коэффициент l kron равен по умолчанию 0.99 и не может быть изменен. Большую свободу представляет прямое задание ковариационной матрицы. Математические ожидания коэффициентов при первых лагах могут быть заданы только одинаковыми для всех переменных.
11. Dynare: встроенная функция.
Функция позиционируется как BVAR a la Sims. Оценивается частный случай сопряженного нормального — обратного Уишарта распределения, близкий либо к неинформативному — Джеффриса распределению, либо к несобственному абсолютно плоскому распределению. Без модификации кода можно получить только прогнозы, но не выборку из апостериорного распределения параметров.
Приложение 2. Таблица обозначений
Обозначение Размерность Описание Формула д
p Скаляр Число лагов
m Скаляр Число эндогенных переменных
k Скаляр Число параметров в одном уравнении к-- = mp + 1
T Скаляр Число наблюдений
У, т XI Вектор эндогенных переменных У, = Ф 'x, +e,
x, к XI Вектор всех регрессоров x, = [ У',-1- У', - p 1] '
e, т XI Вектор случайных ошибок У, = Ф 'x, +e,
Y Т X т Матрица эндогенных переменных Y = [ У1, У 2 Ут] '
X Т X к Матрица регрессоров X [ x, Х2, * * *, Хт ]
E Т X т Матрица ошибок E II 1е е e
У > e тТ XI Векторизация Г и Е у'- = vec(Y), е = vec(E)
Ф/ т X т Коэффициенты VAR У, = ФЛ-1 + ■■■ + Фcon.st +е,
Ф const т X << Вектор свободных членов У, = Ф1У,-1 + ■■■ + Фcon.st +е,
Ф k X т «Упаковка» матриц ,... Ф = [ф, Ф Ф ] ' 1 p cons,
<Ф k X т МНК-оценка матрицы Ф Ф = ( X'X )-1 XY
E Т X т Остатки МНК-регрессии E = Y - X Ф
Ф, , Ф k X т Априорное и апостериорное математические ожидания Ф
ф, ф , ф йт XI Векторизация матриц Ф , Ф и Ф ф = vec(Ф) , ф = vec(ф) , . ф = vec (ф)
s = йт X йт Априорная и апостериорная ковариационные матрицы Ф = (S-1 + 2-1 ® XX)-1
V , V Скаляр Априорное и апостериорное число степеней свободы V --т +v
Q, , Q к X к Априорные и апостериорные масштабирующие коэффициенты ковариационной матрицы Ф Q = 2®Q, = (Q-1 + XX)-1, S = 2$ 5Q
2 т X т Ковариационная матрица ошибок
Demeshev B., Malakhovskaya O. BVAR mapping. Applied Econometrics, 2016, v. 43, pp. 118-141.
Boris Demeshev
National Research University Higher School of Economics, Moscow, Russian Federation; [email protected]
Oxana Malakhovskaya
National Research University Higher School of Economics, Moscow, Russian Federation; [email protected]
BVAR mapping
This paper reviews estimation and forecasting with Bayesian vector autoregressions (BVARs). In the first part of the paper, we propose a clear classification of the most frequently used prior distributions and we show how the parameters of posterior distributions can be computed for the priors we consider in the paper. A separate section describes the endogenous choice of prior hyperparameters that is currently a key step to estimate a BVAR in a data-rich environment. The second part of this paper is devoted to forecasting with BVARs. We review both point and density forecasting. Keywords: BVAR; prior distributions; point forecasting; density forecasting. JEL classification: C11; C32; C53.
References
Aivazian S. (2008). Bayesian methods in econometrics. Applied Econometrics, 9 (1), 93-130 (in Russian).
Malakhovskaya O., Pekarsky S. (2012). Causal relationship in macroeconomics: Nobel prize in economics of 2011. HSE Economic Journal, 16 (1), 3-30 (in Russian).
Slutskin L. (2010). Bayesian analysis in the case of an estimated parameter following a stochastic process. Applied Econometrics, 20 (4), 119-131 (in Russian).
Alvarez I., Niemi J., Simpson M. (2014). Bayesian inference for a covariance matrix. ArXiv preprint. https://arxiv.org/abs/1408.4050.
Banbura M., Giannone D., Reichlin L. (2010). Large Bayesian vector auto regressions. Journal of Applied Econometrics, 25 (1), 71-92.
Bauwens L., Lubrano M., Richard J.-F. (2000). Bayesian inference in dynamic econometric models. Oxford University Press.
Berg T., Henzel S. (2013). Point and density forecasts for the euro area using many predictors: Are large BVARs really superior? Ifo Working Paper 155. https://www.cesifo-group.de/portal/page/portal/lang-en/ DocBase_Content/WP/WP-Ifo_Working_Papers/wp-ifo-2013/IfoWorkingPaper-155.pdf.
Blake A., Mumtaz H. (2012). Applied Bayesian econometrics for central bankers. Centre for Central Banking Studies, Bank of England.
Canova F. (2007). Methods for applied macroeconomic research, Princeton University Press. Carriero A., Clark T., Marcellino M. (2015). Bayesian VARs: Specification choices and forecast accuracy. Journal of Applied Econometrics, 30 (1), 46-73.
De Mol C., Giannone D., Reichlin L. (2008). Forecasting using a large number of predictors: Is Bayes- „. ian shrinkage a valid alternative to principal components? Journal of Econometrics, 146 (2), 318-328. |
to
Del Negro M., Schorfheide F. (2011). Bayesian macroeconometrics. The Oxford Handbook of Bayes- |
ian Econometrics, 293-389. <5
§
Doan T., Litterman R., Sims C. (1984). Forecasting and conditional projection using realistic prior dis- «j;
tributions. Econometric reviews, 3 (1), 1-100. °
(0
Favero C. (2001). Applied macroeconometrics. Oxford University Press. §
<u
Kadiyala K., Karlsson S. (1997). Numerical methods for estimation and inference in Bayesian VAR- g models. Journal of Applied Econometrics, 12 (2), 99-132.
Karlsson S. (2013). Forecasting with Bayesian vector autoregressions. In: Handbook of Economic Fore- lja casting, vol. 2, Part B, 791-897.
Koop G., Korobilis D. (2010). Bayesian multivariate time series methods for empirical macroeconomics. Foundations and Trends (R) in Econometrics, 3 (4), 267-358.
Litterman R. (1979). Techniques of forecasting using vector autoregressions. Working Paper 115, Federal Reserve Bank of Minneapolis.
Litterman R. (1986). Forecasting with Bayesian vector autoregressions — five years of experience. Journal of Business and Economic Statistics, 4 (1), 25-38.
Robertson J., Tallman E. (1999). Vector autoregressions: Forecasting and reality. Economic Review, Federal Reserve Bank of Atlanta, 84 (1), 4.
Sims C. (1980). Macroeconomics and reality. Econometrica, 48 (1), 1-48.
Sims C. (1993). A nine-variable probabilistic macroeconomic forecasting model. Business Cycles, Indicators and Forecasting. University of Chicago Press, 179-212.
Sims C, Zha T. (1998). Bayesian methods for dynamic multivariate models. International Economic Review, 39 (4), 949-968.
Zellner A. (1996). An introduction to Bayesian inference in econometrics. Wiley Classics Librar, Wiley.
Received 02.06.2016; accepted 15.08.2016.