№ 3 (27) 2012
А. А. Цыплаков
Оценка качества вероятностных прогнозов: корректные скоринговые правила и моменты
В статье дается обзор вероятностного прогнозирования и обсуждается теоретический подход к оценке качества плотностных прогнозов, основанный на корректных скоринговых правилах и моментах. Данный подход опробован на условном примере прогнозирования в модели авторегрессии второго порядка, а также на примере прогнозирования фондового индекса РТС.
Ключевые слова: вероятностный прогноз; калибровка прогноза; вероятностное интегральное преобразование; скоринговое правило.
JEL classification: C53; C18.
1. Введение
В последние годы все больший акцент в литературе по прогнозированию делается на различные вероятностные прогнозы. Первоначальный толчок к развитию вероятностного прогнозирования дали исследования в области метеорологии. Привычный детерминистический или категорический прогноз (в форме «завтра будет дождь») имеет много недостатков, см., например, (Murphy, Winkler, 1984; Дмитриев, 2000). Желательно, чтобы прогнозист сообщал не только некоторый правдоподобный уровень прогнозируемого показателя (т. е. точечный прогноз), но и неопределенность, которая его сопровождает. Важность этого в метеорологии объясняется тем, что знание неопределенности помогает пользователям прогноза принимать более эффективные и информированные решения, продумывать все возможные варианты развития событий (Гилл, 2008). Это касается как простейших повседневных дел (например, как сегодня одеться), так и стихийных бедствий с катастрофическими последствиями. «Использование вероятностей является обычным способом выражения неопределенности и широко распространено на практике. Важно то, что вероятности основаны на объективных научных методах, что позволяет им быть надежными, заслуживающими доверия и хорошо откалиброванными по отношению к истинному вероятностному распределению изучаемых явлений» (Гилл, 2008). Подробный обзор развития вероятностного прогнозирования в метеорологии можно найти в статье (Murphy, Winkler, 1984).
Очевидно, что указанные соображения о том, что пользователям бывает важно владеть информацией о степени неопределенности прогноза и вероятностях различных вариантов развития событий, в полной мере относятся и к прогнозированию экономических показателей. Именно поэтому вероятностные прогнозы приобретают все большую популярность среди экономистов.
Пожалуй, самым известным плотностным прогнозом (т. е. в виде функции плотности) является прогноз инфляции Банка Англии (Britton et al., 1998; Clements, 2004). Такие прог-
№ 3 (27) 2012
нозы публикуются Банком Англии начиная с 1996 года. Прогнозы ежеквартальные, с горизонтом от одного квартала до двух лет. Плотностной прогноз имеет вид двухчастного нормального распределения, «склеенного» из двух половин обычного нормального распределения; подобный вид прогнозного распределения позволяет отразить асимметрию. Графически прогнозы Банка Англии публикуются в виде так называемых веерных диаграмм (fan charts), составленных из интервальных прогнозов. Подробное описание соответствующих процедур можно найти в (Britton et al., 1998).
Другой известный вероятностный прогноз — это «Опрос профессиональных прогнозистов» (SPF), проводимый Федеральным резервным банком Филадельфии (Engelberg et al., 2009; Diebold et al., 1999b). В рамках опроса эксперты в числе прочего оценивают и вероятности того, что прогнозируемый макроэкономический показатель попадет в указанные интервалы. Эта процедура не позволяет экспертам полностью указать функцию распределения и приводит к дискретизации прогнозов, т. е. прогнозы имеют вид гистограмм.
Практика использования точечных прогнозов без указания вероятностей и вида функции распределения пока доминирует, но постепенно приходит осознание того, что интерпретация и использование точечных прогнозов могут быть связаны с большими практическими сложностями. Особенно много проблем возникает в том случае, если перед прогнозистом не
¡2
и ставится конкретная задача, т. е. не указывается, на какую именно характеристику прогноз-
Is
о
S
S
ного распределения следует ориентироваться (математическое ожидание, моду, медиану) или, альтернативно, по какой скоринговой функции будет оцениваться успешность прогноза | (например, основанной на абсолютной величине ошибки прогноза или квадрате ошибки). ° Некоторые из этих проблем обсуждаются в (Engelberg et al., 2009; Gneiting, 2011). ® В данной статье рассматривается вопрос о том, каким образом можно сравнивать между £ собой разные вероятностные прогнозы и судить об их качестве.
■Е Простейшую схему принятия решений на основе вероятностных прогнозов можно опи-
s
сать следующим образом. Пользователь прогноза выбирает некоторые действия a, послед* ствия которых зависят от реализации y прогнозируемой случайной величины Y. Если пред-3 почтения пользователя прогноза описываются функцией полезности u(a, y), и имеется ве-* роятностный прогноз в форме функции распределения F, то оптимальные действия a(F) & задаются следующим образом:
X
о о п о
Е
о
^ см., например, (Pesaran, Skouras, 2002). Здесь и далее E — оператор математического ожи-^ дания, Y ~ F означает, что случайная величина Y имеет распределение F.
Можно утверждать, что прогноз Fj лучше, чем F2, если он обеспечивает более высокий уровень ожидаемой полезности:
a(F) £ argmaxEu(Y,a) при Y ~ F,
■а
iE
о о
iE «
о а
ф щ
Eu(Y,a(Fi)) > Ей (У,а(F2)).
Это дает экономическую основу для теории оценки качества вероятностных прогнозов. Заметим, что в этой формулировке прогнозы F1 и F2 имеют случайный характер. Часто 5 в теории прогнозирования вместо максимизации ожидаемой полезности рассматривается о минимизация ожидаемых потерь.
116
№ 3 (27) 2012
2. Основные понятия, определения и свойства §
I
2.1. Скоринговые правила ^
Под скоринговым правилом (scoring rule) понимается функция S(F,у), зависящая от 4 функции распределения F и значения прогнозируемой величины у. Предполагается, что согласно этому правилу начисляются условные баллы, отражающие качество или успешность прогноза. Если FJ,..., FN — серия реализаций прогнозных функций распределения, а yj,..., yN — серия фактически наблюдаемых значений прогнозируемой величины, то прогноз тем успешнее, чем выше средний балл, рассчитываемый как
J N
N Is (f, у-).
i=J
Обозначим через S (F2, FJ) математическое ожидание балла от прогнозного распределения F2 по скоринговому правилу S, если прогнозируемая величина распределена как FJ, т. е.
S(F2,FJ) = ES(F2,Y) при Y ~ FJ.
Согласно определению, скоринговое правило S является корректным (proper), если
S(Fj,FJ) > S(F2,FJ),
и строго корректным (strictly proper), если неравенство здесь строгое при F2 Ф FJ. Если прогноз оценивается по корректному скоринговому правилу, то прогнозисту невыгодно обманывать и сообщать прогнозное распределение, которое он сам считает неверным. Подробный обзор этой темы можно найти в (Gneiting, Raftery, 2007; Brocker, Smith, 2007).
Как объясняется в работе (Tsyplakov, 2011), за основу для оценки качества прогнозов в форме функции распределения логично взять понятие корректного скорингового правила, поскольку оно тесно связано с максимизацией ожидаемой пользователем прогноза полезности. Действительно, определим скоринговое правило S как полезность результата у при действии a(F):
S (F, y) = u (y, a( F)).
Такое основанное на полезности скоринговое правило будет корректным, поскольку
S(FJ,Fj) = Eu(Y,a(FJ)) > Eu(Y,a(F2)) = S(F2,FJ) при Y ~ FJ,
см., например, (Gneiting, Raftery, 2007). Поэтому, анализируя успешность вероятностных прогнозов, можно сосредоточиться на корректных скоринговых правилах и абстрагироваться от максимизации ожидаемой полезности.
Первое корректное скоринговое правило было предложено Г. Брайером для дискретных прогнозируемых величин (Brier, J950). Пусть переменная Y может принимать k значений (J,...,k), pj = PF{Y = j} — вероятность, которую прогнозное распределение F приписывает событию Y = j, и I{A} — индикаторная функция события (условия) A. Тогда скоринговое правило Брайера, называемое также квадратичным скоринговым правилом, задается формулой k
S(F,у) = 2(pj -1{у = j})2.
j=J
№ 3 (27) 2012
■X.
В эконометрике наибольшей популярностью пользуется логарифмическое скоринговое правило для плотностных прогнозов. Если прогнозное распределение F является абсолютно непрерывным, то F'(y) — соответствующая функция плотности, и логарифмическое скоринговое правило имеет вид
S (F, y) = ln F'(y).
Для дискретного распределения
S(F, y) = ln py.
Очевидна близкая связь логарифмического скорингового правила с логарифмической функцией правдоподобия.
Не столь популярное, но довольно естественное скоринговое правило — это правило непрерывной ранжированной вероятности (continuous ranked probability score, CRPS). Его исходное определение следующее:
S(F, y) = f(F(t) - I{t < y})2
По виду это квадрат расстояния в метрике 1} между прогнозной функцией распределения и эмпирической функцией распределения для одиночного наблюдения у. Gneiting и Яайегу (2007) предлагают альтернативное представление данного правила:
5 у) = Е | У - у | - 1е | У-У' | при независимых У ~ F и УF.
Это скоринговое правило привлекательно тем, что его можно рассматривать как обобщение функции потерь в виде абсолютного значения ошибки, ведь такая функция потерь является популярным критерием оценки качества точечных прогнозов.
о $
а о
* 2.2. Калибровка £
*
ф
& Для вероятностного прогноза важно выполнение свойства калибровки (Diebold е! а1.,
* 1999а; Gneiting е! а1., 2007). Под калибровкой понимается соответствие между вероятност-
о о
Безусловная калибровка
ными прогнозами и фактическим поведением прогнозируемой величины. На практике да-
Ё леко не всегда вероятностные прогнозы хорошо калиброваны. В частности, обычным яв-о
^ лением является чрезмерная уверенность е! а1., 1982). Например, рассмотрим
ситуацию, когда указаны центральные 90%-ные прогнозные интервалы. По замыслу, для таких интервалов в 5% случаев прогнозируемая величина по факту должна оказываться £ ниже нижней границы интервала, в 5% случаев — выше верхней границы, и в 90% случа-° ев — в границах интервала. На практике вполне может оказаться, что только в 50% случаев "о прогнозируемая величина попадает в интервал. Может также наблюдаться смещение прогнозного распределения вверх или вниз. Например, смещение вверх (в случае центрального 90%-ного интервала) может проявляться в том, что в 9% случаев прогнозируемая величина оказывается выше верхней границы и только в 1% случаев — ниже нижней границы. | Причиной таких несоответствий может быть то, что об успешности прогнозов судят не о по корректным скоринговым правилам, а по каким-то другим критериям. Например, чтобы
118
№ 3 (27) 2012
казаться более умелым прогнозистом, человек может сообщать слишком узкий прогнозный | интервал, преувеличивая степень своей уверенности. Также бывает, что прогнозисту более выгодно сообщать хорошие новости, чем плохие: скажем, при прогнозировании безработи- is цы давать заниженные прогнозы, а при прогнозировании темпов роста ВВП — завышенные. Некоторые люди, наоборот, склонны завышать вероятность неблагоприятного развития со- 4 бытий; возможно, при этом они осознанно или неосознанно стремятся оказаться в ситуации, когда можно будет сказать: «Ну вот, я же говорил, что нас ждет кризис».
Даже если субъективный фактор не играет большой роли, как при прогнозировании с помощью эконометрических моделей, неправильная калибровка прогнозов все равно встречается очень часто, поскольку все модели в той или иной степени являются несовершенными. Для совершенствования используемых в прогнозировании методов и моделей требуется уметь диагностировать неправильную калибровку, чтобы затем исправлять прогнозы, делая их «более калиброванными».
Для диагностирования калибровки прогнозов непрерывно распределенной прогнозируемой величины можно использовать так называемые значения вероятностного интегрального преобразования (ВИП-значения, probability integral transform, PIT-values). Это показатель, который наиболее часто используется для диагностики калибровки эконометрических прогнозов (например (Diebold et al., 1998; Mitchell, Wallis, 2011)). Если указано прогнозное распределение F, а фактически наблюдаемое значение прогнозируемой величины равно у, то соответствующее ВИП-значение по определению равно F (y). ВИП-значения P = F (Y) хорошо калиброванного прогноза величины Y должны быть равномерно распределены на отрезке [0, 1], т. е. P ~ U[0, 1]. Например, если F(у) = 1, то у — медиана прогнозного распределения, и при хорошей калибровке вероятность того, что Y не превышает у, равна 50%. Как следствие, вероятность того, что P не превышает F(у) = тоже должна быть равна 50%. Так же и для других квантилей, т. е. вероятность события P <а должна быть равна а. В данной статье будем называть такую калибровку безусловной1. Оценить правильность безусловной калибровки можно, в частности, с помощью гистограммы ВИП-значений на отрезке [0,1]: она должна быть почти плоской (Diebold et al., 1998; Gneiting et al., 2007; Mitchell, Wallis, 2011).
Калибровка относительно информационного множества
Предыдущие рассуждения не уделяют должного внимания условному характеру калибровки и полноте использования имеющейся у прогнозиста полезной информации2.
Предположим, что прогнозирование основано на некоторой имеющейся информации Q. Тогда F зависит от Q: F = F (•; Q). Использование условного относительно Q анализа позволяет усилить определение калибровки. Прогноз F = F(;й) калиброван относительно Q, если
F(у) = G(у | Q),
где G(у | Q) — функция распределения Y, условная относительно Q3. Такой прогноз можно назвать идеальным (среди всех прогнозов, основанных на Q).
1 В (Gneiting et al., 2007) данный аспект калибровки назван вероятностной калибровкой.
2 «Оценка качества вероятностных прогнозов по их калибровке игнорирует условный аспект» (Clements, Taylor, 2003, p. 446).
3 Понятия калибровки относительно информационного множества и автокалибровки введены в работе (Tsyplakov, 2011). Математически строгий вариант первого из этих определений был независимо предложен
№ 3 (27) 2012
Если У имеет непрерывное распределение, признаком идеальности вероятностного прогноза F относительно й является то, что соответствующее ВИП-значение Р = F(У | й) не просто равномерно распределено на отрезке [0, 1], а распределено так условно относительно й:
Р | Й~и[0, 1].
Важное свойство идеально калиброванного прогноза состоит в том, что он характеризуется максимальным ожидаемым баллом при использовании любого корректного скорин-гового правила4:
Е 5(в,У) > Е 5(F^).
Более того, при соответствующих дополнительных условиях неравенство здесь будет строгим, если скоринговое правило 5 является строго корректным. Таким образом, если прогноз неправильно калиброван, то имеется потенциальная возможность повышения его качества, измеряемого средним баллом по корректному скоринговому правилу. В определенном смысле в основе понятия калибровки лежит максимизация баллов по корректному скоринговому правилу.
Независимость и равномерность ВИП-значений
В случае, когда последовательно строятся одношаговые прогнозы некоторого временно-
ф §
о
| го ряда У по полной предыстории того же ряда, калибровку обычно проверяют с помощью
| анализа соответствующего ряда ВИП-значений. Рассмотрим последовательность Ft вероят-
° ностных прогнозов одномерного временного ряда У, основанных на его собственной пре-
® дыстории йм = о(У1,...,У_1), t = 1,2, — (для t = 1 прогноз безусловный). Определим соответствующие ВИП-значения следующим образом:
о
Л р = Ft(У), t = 1,2, — .
о Последовательность прогнозов является правильно калиброванной тогда и только тогда,
3 когда ВИП-значения Р{ независимы и распределены как и [0, 1].
* О независимости ВИП-значений можно судить, например, по автокорреляционной функ-
& ции самих ВИП-значений, ОНП-значений, о которых речь пойдет ниже (в конце п. 3.2),
о
о
и
о
£ о
а также по автокорреляционной функции различных функций от них, например, модулей ОНП-значений, степеней (Diebold et а1., 1998). Из независимости следует отсутствие серийной корреляции.
^ В общем случае равномерность и независимость ВИП-значений не является признаком ■5 идеального прогноза, поскольку прогнозист может использовать и дополнительную, в том
о
о .
£ несколько шагов вперед5 «
о а
ф щ
о ®
í 4
числе ненужную, информацию. Кроме того, это свойство не выполняется для прогнозов на несколько шагов вперед5.
в ^пейг^, Ranjan, 2011). Оно также похоже на определение эффективности интервальных прогнозов относительно информационного множества в (Christoffersen, 1998).
«...Если прогноз совпадает с истинным порождающим данные процессом, то этот прогноз будет предпочтительным для всех пользователей, каковы бы ни были их функции потерь» (Diebo1d et а1., 1998, р. 866),
í см. также (Granger, Pesaran, 2000).
у
О 5 См. обсуждение этого в (Tsyplakov, 2011).
120
I №
3 (27) 2012
Автокалибровка
Промежуточный между безусловной и идеальной калибровками вариант — это автока- |
е
либровка. Прогноз F называется автокалиброванным, если ^з
F (у)=GF (у), ;
где Ор-(у) = G(у | F) — функция распределения У, условная относительно F. Здесь информацией для оценки калибровки служит сам прогноз. Если прогноз автокалиброван, то он безусловно калиброван, а если прогноз идеальный, то он автокалиброван. Проще всего это свойство понять на примере прогнозирования дихотомической величины, принимающей значения 0 и 1. Среди случаев, в которых прогноз указывает вероятность р для события У = 1, это событие должно наблюдаться с той же самой вероятностью: Р(У = 1| р) = р6.
2.3. Калибровка и острота прогноза
Под остротой (sharpness) прогноза понимается характеристика, отражающая степень конкретности прогноза или концентрации прогнозного распределения (Gneiting et al., 2007). Один из способов наглядно представить эту характеристику — рассмотреть прогнозный интервал, соответствующий прогнозному распределению. Например, если эксперт говорит, что к концу года курс рубля наверняка будет в промежутке от 31 до 32 рублей за доллар, то он делает довольно острый прогноз. Если же называется промежуток от 10 до 100 рублей за доллар, то такой прогноз очень расплывчатый. С одной стороны, пользователю прогноза хотелось бы иметь как можно более острый прогноз, но с другой стороны не следует забывать о калибровке. Делая слишком острый прогноз, эксперт рискует преувеличить степень своей уверенности, о чем уже говорилось выше, что для пользователя прогноза чревато неожиданностями (зачастую не очень приятными).
В (Gneiting et al., 2007) выдвинут в качестве гипотезы тезис, что задачу поиска хорошего прогноза можно рассматривать как задачу максимизации остроты при условии калибровки. Как показано в (Tsyplakov, 2011), этот тезис оказывается верным, если под калибровкой понимать автокалибровку.
Во-первых, для корректного скорингового правила величина S (F, F) может рассматриваться как мера остроты прогноза F (поскольку для корректного скорингового правила —S (F, F) — это вогнутая функция7 и, согласно (DeGroot, 1962), может рассматриваться как мера неопределенности распределения вероятностей F). Так, для логарифмического скорингового правила S (F, F) будет энтропией Шеннона со знаком минус.
Во-вторых, для автокалиброванного прогноза E S (F ,Y) = E S (F, F), т. е. ожидаемый балл равен его ожидаемой остроте.
6 «Если, например, мы прогнозируем, что вероятность того, что в следующем квартале начнется спад, равна 20%, и если среди всех случаев, когда мы делаем такой прогноз, доля таких, что спад начнется, равна 20%, и если это соответствие имеет место для всех других возможных предсказанных вероятностей, то прогнозы правильно калиброваны» (Galbraith, van Norden, 2011).
7 Вогнутость функции —S (F,F) следует из линейности по второму аргументу и свойства корректности.
№ 3 (27) 2012
Следовательно, автокалиброванные прогнозы можно сравнивать на основе уровня их ожидаемой остроты. Идеальный прогноз является самым острым из всех автокалиброван-ных прогнозов, поскольку он характеризуется наибольшим ожидаемым баллом.
Еще одно интуитивно ожидаемое свойство правильно калиброванных прогнозов состоит в том, что чем более полной информацией владеет прогнозист, тем более острый прогноз он потенциально может сделать. Допустим, — более «богатое» информационное множество, чем й2, т. е. содержит всю информацию из 0,2 и, возможно, еще какую-то полезную информацию. Пусть О1 = О(• | й;) — идеальный прогноз на основе й1, а О2 = О(-1 й2) — идеальный прогноз на основе й2. Тогда
Е 5(О1, У) = Е 5 (О1, О1) > Е 5(О2, У) = Е 5 (О2, О2).
Если прогноз не автокалиброван, то его острота может быть обманчива. В общем случае имеет место следующее разложение ожидаемого балла для прогноза F (возможно, неправильно калиброванного):
Е 5 (F, У) = Е 5 О, ОF) - Е d (F, ОF).
Первое слагаемое интерпретируется как ожидаемая острота прогноза ОF = О(• | F), который как бы является «перекалиброванным» вариантом прогноза F, а второе слагаемое
•О
| связано с показателем расхождения между F и ОР, т. е. является измерителем неправильной | калибровки прогноза Р относительно информации, содержащейся в нем самом. Здесь че-| рез d обозначен показатель расхождения (обобщенное расстояние) между распределениями § Р1 и Р2, определяемый как
| d (Р,, р) = 5(РХ, Р) - 5 (р,, р).
С
Ф
Если правило 5 корректное, то соответствующий показатель расхождения d (Р2, Р;) неот-
■Е рицателен, и равен нулю, когда два распределения совпадают. Для логарифмического ско-
рингового правила d является расстоянием Кульбака-Лейблера. | Рассмотренный „ макс_д остро™ „ж условии калибровки трудно ^
¡о нять на практике, потому что достижение идеальной автокалибровки прогноза может оказаться
* слишком сложной задачей. Однако данный принцип способствует пониманию сущности веро-& ятностного прогнозирования. В частности, становится понятным, что преимущество исполь-У зования корректных скоринговых правил состоит в том, что они обеспечивают правильный ° баланс остроты и калибровки при сравнении прогнозов. Использование для оценки прогнозов Е других скоринговых правил, не отвечающих этому требованию, может подтолкнуть прогнози-^ ста к предоставлению неправильно калиброванных, например слишком острых, прогнозов.
Й
л £
о
Ц 3. Тестирование калибровки на основе моментов
«
о а
« 3.1. Общая идея тестирования калибровки на основе моментов
сч
¡5
о
® На практике удобно выразить условия калибровки в виде некоторых условий на момен-
* ты. Теоретические моменты можно заменить выборочными, основанными на серии прогно-| зов, и посмотреть, насколько результат далек от того, что должно быть в теории. Предполо-о жим, теория гласит, что при правильной калибровке математическое ожидание величины
№ 3 (27) 2012
g должно быть нулевым: Eg = 0. Рассчитаем эту величину для серии реализаций прогноз- §
1 '
g = N 2 gi ■
¿=1
Если £ сильно отличается от нуля, то можно сделать вывод, что прогноз плохо калиброван.
Для тестирования условий на моменты можно использовать обычные ^отношения вида
t = - *
se( g )'
ных функций F1, — , FN и серии фактически наблюдаемых значений прогнозируемой вели- ^ чины у1,—, yN и найдем соответствующий выборочный момент ^
1
N
е
N ^
«Ï
Самый тонкий аспект здесь — корректное вычисление стандартной ошибки se( g )■ Если все сделано правильно, и прогноз калиброван, то асимптотически такая статистика распределена как N (0, 1). Ниже в примерах использованы устойчивые к гетероскедастичности и автокорреляции (heteroskedasticity and autocorrelation consistent, HAC) стандартные ошибки.
3.2. Безусловная калибровка
Когда У имеет непрерывное распределение, ВИП-значения безусловно калиброванного прогноза F равномерно распределены на отрезке [0, 1]: F^) ~ и[0, 1]. Проверять безусловную калибровку можно, сравнивая выборочные моменты для ВИП-значений с соответствующими (безусловными) моментами распределения и [0, 1]. Рассмотрим функцию к = к (р), зависящую от вероятности р £ [0, 1], и определим
к = Е к(Р) при Р ~ и[0,1].
Если прогноз F — безусловно калиброванный, то
Е k (F (У)) _к = 0.
В частности, в этих обозначениях можно записать условие, что вероятность события F^) <а равна а, о чем говорилось выше при обсуждении безусловной калибровки. Для этого следует взять
k = 1{р <а}, к = а. (1)
Ранее также обсуждалась калибровка интервальных прогнозов. Рассмотрим центральный прогнозный интервал уровня 3. Если F — прогнозная функция распределения, то интервал будет иметь вид
^(1/2_3/2), F_1(1/2 + 3/2)].
При безусловной калибровке вероятность попадания У в этот интервал равна 3. Попадание У в данный интервал равносильно попаданию ВИП-значения F(У) в интервал 1р =[0.5 _ 0.53, 0.5 + 0.53]. Поэтому здесь можно взять
k = 1{р £ Iз}, к = 3. (2)
№ 3 (27) 2012
Если F(У) имеет распределение и[0, 1], то обратное нормальное преобразование (ОНП) этой величины будет распределено в соответствии со стандартным нормальным распределением:
Ф_1(F(У)) ~ N(0, 1),
где Ф_1 (•) — функция, обратная к стандартной нормальной функции распределения. Вместо моментов ВИП-значений можно использовать моменты ОНП-значений. Например, ОНП-значения должны иметь нулевое среднее:
k = Ф_1(F(У)), к = 0.
3.3. Автокалибровка
Из теории точечного прогнозирования (см., например, обзор (Цыплаков, 2006)) известно, что оптимальным в среднеквадратическом смысле точечным прогнозом является математическое ожидание, условное относительно информационного множества й, на основе которого делается прогноз. Для такого прогноза выполнено условие ортогональности: ошибка прогноза
•О
| не коррелирует с любой величиной, полученной на основе й. В статье (Mitchell, Wallis, 2011) § была выдвинута идея о том, что контролировать калибровку вероятностных прогнозов тоже | можно за счет проверки аналогичных условий ортогональности. Как показано в (Tsyplakov, | 2011), эта идея поддается дальнейшему обобщению, что позволяет разрабатывать различные ° виды диагностических тестов для калибровки прогноза. Многие тесты и критерии калибров® ки/эффективности, предложенные в литературе, подпадают под этот подход. £ Пусть k и к имеют тот же смысл, что и выше, и l(F) — некоторая функция от функции ■Е распределения F. Если прогноз F является автокалиброванным, то имеет место условное ограничение на моменты
о
E[k(F(Y)) — к | F] = 0 .
* откуда следует условие ортогональности
Е ([^(У))_к] т) = 0 (3)
для любой функции I. Это означает, что любая функция к от ВИП-значения не коррелирует £ с любой функцией I от прогнозной функции распределения. В качестве I можно взять ка-
^ кую-нибудь характеристику прогнозного распределения, такую как математическое ожи-
■5 дание или медиану.
о о
iE
Для проверки автокалибровки прогноза можно использовать и более общие ограничения на моменты. Для функции г = г (у, F), зависящей от исхода у и функции распределения Ц F, определим
р = р(р) = Е г (У, F) при У ~ F.
| Автокалибровка вероятностного прогноза F эквивалентна условию
| Е[г (У, F) _р( F)] = 0
си
о для любой г, т. е. величинар должна быть несмещенным точечным прогнозом г.
124
№ 3 (27) 2012
Можно рассмотреть следующий пример. Если Р — функция распределения случайной |
величины У, то Р(у0) — вероятность события У < у0. Выполнение аналогичного условия ^
на моменты можно проверить на основе ¿3
г=1{у < у0}, р=р(Уо), ;
что соответствует маргинальной калибровке в (СпеШ^ et а1., 2007).
3.4. Калибровка относительно информационного множества
Идеальная калибровка Р относительно й является более сильным свойством и требует условной несмещенностир в качестве прогноза г:
Е[г ^, Р) -р( Р )|й] = 0.
Эта условная несмещенность эквивалентна следующей безусловной ортогональности:
Е ([г ^, Р) -р( Р )]д) = 0
для любой д, зависящей от й. Тем самымр должна быть несмещенным точечным прогнозом г, и ошибки прогноза не должны коррелировать с любой величиной д, построенной на основе доступной информации й.
В частности, имеем следующее условие ортогональности для ВИП-значений:
Е ([к (Р (У)) -к]д ) = 0.
Например, можно взять
к = 1{ р <а}, к = а
и тестировать идеальность калибровки относительно й, проверяя отсутствие корреляции между индикаторной функцией 1{Р^) <а} и любой функцией д, зависящей только от имеющейся информации й, для каждого аЁ[0, 1]. В (Christoffersen, 1998) аналогичное условие предложено для тестирования условного покрытия прогнозного интервала.
Чтобы обобщить этот подход, рассмотрим функцию т = т(у, й), зависящую от исхода у и прогнозной информации й. Пусть
ц = ц(й) = Е[т^,й)] при Y ~ Р = Р(■;й).
Калибровка Р относительно й эквивалентна следующему условию на моменты:
Е[( т^, й) -Мй))] = 0
для любого т.
Рассмотрим пример применения этого более общего типа условий. Идея заключается в тестировании калибровки одного метода прогнозирования относительно другого8. Предположим, требуется проверить, что р = Р1(-;й) правильно калиброван, и Р2 = Р2(-;й) —
8 В этом примере можно найти параллели с тестом на равную точность прогноза, основанным на разнице баллов по логарифмическому скоринговому правилу (или на информационном критерии Кульбака-Лейблера, KLIC), см. (Amisano, Giacomini, 2007; Mitchell, Wallis, 2011).
№ 3 (27) 2012
альтернативный прогноз. Пусть т = S (F2, Y) — S (Е1, У) для некоторого корректного скорин-гового правила 5". В этом случае
^ = £ (F2, — 5 (
Соответственно, для прогноза F¡, калиброванного относительно й, имеем
Е (, У) — ОД, Y)] — [S(F2, — ОД, = 0. (4)
Далее будем называть это условие на моменты относительной калибровкой прогноза (ОКП). Основанный на нем тест будет обладать мощностью против альтернативы, что F2 калиброван относительно й, потому что тогда
Е(т — = Е[5F2) — 5(^2)] + Е[5(¿¡) — 5(F2,¿¡)] > 0,
если скоринговое правило является строго корректным.
Пара взаимных ОКП-тестов «F1 против F2» и против F1» может помочь в оценке возможных выгод от объединения двух прогнозов.
4. Пример: прогнозирование процесса авторегрессии
! Чтобы проиллюстрировать изложенные выше идеи, рассмотрим сначала искусственно I сконструированный имитационный пример, основанный на примере из статьи (Mitchell, I Wallis, 2011). Рассматривается прогнозирование процесса AR(2): Yt = <1Yt_1 + <2Yt_2 + et с не° зависимыми гауссовскими возмущениями et ~ N(0,1). В таблице 1 приведены формулы для ® шести конкурирующих между собой прогнозов:
ig • Ideal, идеальный прогноз, учитывающий всю доступную информацию, т. е. Yt_1 и Yt_2; ■Е • Climt, климатологический прогноз, который не использует Yt _1 и Yt_2, а представляет
собой безусловное распределение; о • AR1, использующий только Yt _1; ¡5 • AR2, использующий только Yt_2;
* • Combo, комбинированный прогноз, являющийся выпуклой комбинацией AR1 и AR2 & с одинаковыми весами;
У • Unfocus, несфокусированный прогноз, содержащий посторонний шум tt.
° Фактический порождающий данные процесс представлен идеальным прогнозом. В этом
iE примере нет необходимости оценивать параметры, поскольку они известны. Рассмотрим о
^ здесь только случай < = 0.15, <2 = 0.29. Если не указано иное, длина ряда берется равной
* T = 150.
¡3 Приводимая ниже табл. 2 основана на 5000 экспериментов. Цифры, которые указаны для £ тестов — это частоты отклонения для 5%-го асимптотического уровня значимости при ис-° пользовании стандартных нормальных квантилей. Тестовые статистики — это t-отношения о с робастными стандартными ошибками Ньюи -Уэста и лагом усечения 4. Функции S(F2, F1) S для смесей нормальных распределений, требуемые для расчета ОКП-статистик, вычисляет лись методом Монте-Карло по 100 экспериментам.
О 9 Этот случай рассматривался в (Mitchell, Wallis, 2011). 126 j= =
3 (27) 2012
Таблица 1. Определения шести прогнозов для AR(2)
О §
§
«Í «Í
Ideal
Climt
AR1
AR2
Combo
Unfocus
N(PlYl_1 + <р2^,_2, 1) N(0, a¡ ) N(PiY,_i, a 2 ) N( p2Y,_2, a 2 ) 0.5N( plY,_l, a 2 ) + 0.5N( p2Y,-2, a 2 ) 0.5N( ppiY,_i + pY-2, 1) + 0.5N( pYY-1 + p2Yt_2 + tt, 1), где t, = -1 или 1 с равными вероятностями
Примечание. pt = pt /(1 - р2), p2 = ptpt + p2, a2 = 1 /(1 - ptpt - p2p2), aj = (1 - pj )aa2 = (1 - p2)a2 Таблица 2. Статистики для шести прогнозов AR(2)
Ideal Climt AR1 AR2 Combo Unfocus
Ожидаемый балл -1.418 -1.456 -1.438 -1.430 -1.425 -1.529
% лучший 66.5 1.2 6.8 12.2 13.2 0.1
% лучший, 1500 98.6 0.0 0.0 0.1 1.3 0.0
Тест z х mean 4.5 - 4.5 4.3 17.4 99.8
Тест Л/, Ideal - 45.7 32.5 25.4 16.9 90.9
Тест ОКП, Ideal - 92.6 78.3 62.4 25.8 100.0
Тест ОКП, Climt 5.5 - 4.9 5.0 0.7 100.0
Тест ОКП, AR1 4.7 62.7 - 40.2 3.3 100.0
Тест ОКП, AR2 3.4 86.6 58.6 - 9.4 100.0
Тест ОКП, Combo 4.2 86.8 48.6 31.3 - 100.0
Тест ОКП, Unfocus 3.9 37.0 17.8 9.9 6.0 -
В таблице 2 строка «Ожидаемый балл» показывает приближенное значение математического ожидания балла по логарифмическому скоринговому правилу, полученное методом Монте-Карло. Как и следовало ожидать, идеальный прогноз имеет наивысший ожидаемый балл. Несфокусированный прогноз Unfocus демонстрирует наихудший результат, за ним идет климатологический прогноз Climt. Прогнозы AR1 и AR2 в среднем хуже своей комбинации Combo.
Ожидаемый балл показывает асимптотический потенциал прогноза, проявляющийся при стремлении количества наблюдений к бесконечности, и не может быть доступен в практической ситуации прогнозирования. Если серия прогнозов не очень длинная, то неидеальные прогнозы могут получить более высокий средний балл, чем идеальный.
Строка «% лучший» показывает долю экспериментов, в которых соответствующая модель имела наивысший средний балл по логарифмическому правилу при использовании T = 150 наблюдений. Идеальный прогноз был лучшим с вероятностью около 2/3. Это «умеренно большое» значение объясняется малыми значениями двух коэффициентов авторегрессии (< = 0.15, <2 = 0.2), что делает истинный порождающий данные процесс довольно близким к вариантам AR1, AR2 и Combo с точки зрения ожидаемого балла по логарифми-
№ 3 (27) 2012
ческому правилу. При T = 1500 (строка «% лучший, 1500») идеальный прогноз стабильно опережает конкурирующие прогнозы. Видно, что средний балл по корректному скоринго-вому правилу является неплохим критерием выбора вероятностного прогноза, и что он ведет себя предсказуемым образом.
Следует обратить особое внимание на несфокусированный прогноз Unfocus. В безусловном смысле он является калиброванным, и поэтому ВИП-значения имеют равномерное распределение. Кроме того, ряды ВИП-значений серийно независимы. Здесь не приведены результаты соответствующих тестов, см. табл. II, табл. III и рис. 2 в (Mitchell, Wallis, 2011). В то же время данный прогноз не автокалиброван, что несложно обнаружить с помощью теста на ортогональность между ОНП-значениями zt = Ф_1 (Ft (yt)) и средним прогнозного распределения mean(Ft). В таблице 2 он помечен как «Тест z X mean ». Для автокалибро-ванного прогноза имеем E (mean( Ft) zt) = 0 — условие ортогональности вида (3) для автокалибровки. Таблица показывает, что данное ограничение отклонялось почти в 100% экспериментов в случае несфокусированого прогноза.
Комбинированный прогноз Combo, который представляет собой взвешенную комбинацию прогнозов AR1 и AR2, не обладает свойством безусловной калибровки (как часто бывает для составляемых подобным образом комбинированных прогнозов (Gneiting, Ranjan, 2011)) и, как следствие, не автокалиброван. Результаты теста z X mean подтверждают, что
•О
i этот прогноз не автокалиброван (хотя частота отклонения нулевой гипотезы не очень вели-§ ка). В то же время для других прогнозов свидетельств неправильной калибровки нет. Дей-I ствительно, прогнозы Ideal, AR1 и AR2 являются автокалиброванными. I Для проверки калибровки прогнозных моделей друг относительно друга используем ° тест на относительную калибровку прогноза, основанный на свойстве ОКП (4). Исполь-® зуем логарифмическое скоринговое правило. Для увеличения мощности теста он сде-üg лан односторонним, поскольку ожидается, что тестовая статистика будет положительной ■Е в ситуациях, когда альтернативные прогнозы потенциально могут быть использованы для улучшения прогноза, калибровку которого требуется проверить. Примечательны резуль-о таты сравнения AR1 с AR2 и AR2 с AR1. Тесты часто должны будут указывать на полез-3 ность объединения этих двух моделей. Видно, что тест против идеального прогноза имеет
* высокую мощность. Можем сравнить его с тестом на равенство предсказательной силы
& в духе (Amisano, Giacomini, 2007), основанном на разности полученных средних баллов
У DLt = S(Gt,yt) _ S(Ft,yt) (он помечен как «Тест DL , Ideal»). Последний тест также реа-
° лизован как односторонний для увеличения его мощности и для сопоставимости с ОКП-
£ тестом. Сравнение однозначно отдает предпочтение ОКП-тесту как инструменту выявле-о
^ ния неидеальных прогнозов.
Й л
iE
о
Ц 5. Пример: прогнозирование фондового индекса
«
0 а
"о Второй пример призван показать, как изложенные выше идеи могут использоваться для
сч
S оценки качества прогнозов реальных временных рядов. Данные — ежедневные значения
® индекса РТС (RTSI) на момент закрытия. Они охватывают период с 01.09.1995 по 13.07.2012 гг.
* Ряд значений индекса приводится к стационарности путем перехода к темпам прироста
1 в процентах: Rt = (ln RTSIt _ ln RTSIt_1) X100 . Получается ряд из 4209 наблюдений. Про-о гнозируемая переменная — темп прироста на 10 периодов вперед. Таким образом, в мо-
№ 3 (27) 2012
мент ( строится прогноз величины уЖ0 = Rí+1 Н-----Ь Rí+10 = (1п RTSIt+ю — 1пRTSIt) Х100 на |
основе информации о R1,...,(горизонт в десять периодов соответствует примерно двум ^ неделям физического времени). Рассматриваются следующие прогнозы10. ^
1) Исторический прогноз на основе полной истории Ист(0 использует все прошлые наблюдения темпов прироста за 10 периодов: у10,..., у{. Исторические наблюдения ресемпли- 4 рованы с целью получения ансамбля размера 1000.
2) Ист(200) — тоже исторический прогноз в виде ансамбля точек, но использует только сдвигающийся отрезок из 200 последних наблюдений у——199,...,у( и не использует ресем-плирование.
3) Прогноз ЭС основан на экспоненциальном сглаживании волатильности о 2+1 = (1 —Я) + Яо2 с множителем затухания Я = 0.95, см. (RiskMetrics, 1996). Прогнозное распределение имеет вид N (0,10о 2+1). Рекуррентное вычисление волатильности начинается с выборочной дисперсии первых 200 наблюдений.
4) Прогноз GARCH основан на стандартной модели GARCH с распределением Стью-дента GARCH(1,1)-t с ненулевым средним (Росси, 2010). Модель оценивается рекурсивно11 методом максимального правдоподобия. Прогнозное распределение представлено ансамблем из 1000 будущих траекторий, полученных методом Монте-Карло.
Все прогнозы строятся последовательно для прогнозного периода, начинающегося с 200-го наблюдения. Они сравниваются по наблюдаемым средним баллам CRPS. Данный показатель можно рассчитать за О^ 1п S) операций, необходимых для осуществления сортировки, если Ft представлено выборкой объема S (СпеШ^, Raftery, 2007). Одно из преимуществ CRPS по сравнению с логарифмическим скоринговым правилом заключается в том, что его можно применить к прогнозу непрерывной случайной величины, имеющему вид дискретного распределения, что как раз и имеется в данном случае.
В таблице 3 приведены следующие статистики.
1) CR.PS — средняя величина CR.PS.
2) Тест а — статистика для безусловной калибровки, основанная на (1) с а = 0.5. Данная статистика связана с местоположением, характеризуемым медианой прогнозного распределения.
3) Тест Ь — статистика для безусловной калибровки, отражающая покрытие центрального 50%-го интервала (2).
4) Тест ОКП, [метод] — односторонний ОКП-тест против указанного метода, такой же, как в предыдущем примере, но основанный на CRPS.
Выбор тестов на калибровку здесь достаточно произволен. Описанная выше схема позволяет разработать множество различных тестов, включая другие разновидности тестов на безусловную калибровку. Такие тесты являются формальными аналогами визуального анализа ВИП-гистограмм, метода, который часто используется для оценки качества плот-ностных прогнозов12.
10 Темпы прироста индекса РТС характеризуются значимой серийной корреляцией первого порядка, но ее влияние на 10-периодном горизонте прогноза несущественно, поэтому прогнозы ее не учитывают.
11 Используются все наблюдения, известные к тому моменту времени, когда производится прогноз, поэтому длина ряда с каждым шагом увеличивается на единицу.
12 Проблема с гистограммами заключается в том, что потенциально они могут вводить в заблуждение, если не снабжены доверительной полосой, робастной к гетероскедастичности и автокорреляции.
№ 3 (27) 2012
Таблица 3. Прогнозы индекса РТС
Ист(Г) Ист(200) ЭС GARCH
CRPS -5.164 -5.168 -5.047 -5.038
Тест а -0.006 -0.003 -0.084*** 0.005
(0.019) (0.019) (0.020) (0.019)
Тест Ь 0.131*** 0.039** -0.026 0.005
(0.018) (0.017) (0.015) (0.016)
Тест ОКП, Ист(Г) - 0.366*** 0.261*** 0.123***
(0.084) (0.054) (0.037)
Тест ОКП, Ист(200) 0.357*** - 0.324*** 0.264***
(0.077) (0.083) (0.077)
Тест ОКП, ЭС 0.493*** 0.566*** - 0.189***
(0.059) (0.096) (0.048)
Тест ОКП, GARCH 0.374*** 0.525*** 0.207*** -
(0.046) (0.093) (0.047)
ф §
о §
ГС §
Щ
ГС
£ 2 о о
^Е
■
о
£
2 £
*
ф
■ ■
§ Щ
о
и
о
Е
о £
о
о £
о
■
ф Щ
Примечание. В скобках приведены робастные стандартные ошибки Ньюи-Уэста с лагом усечения 10. ***, **, * — значимость на 1, 5, 10%-ном уровне соответственно. ОКП-тесты основаны на CRPS.
Пример относится к типичной для практики ситуации, когда ни один из сравниваемых прогнозов нельзя назвать идеальным. Все прогнозы в той или иной степени неправильно калиброваны (см. табл. 3). Например, Ист(0, имея (безусловно) корректное местоположение, о чем говорит тест а, демонстрирует заметный недостаток остроты, о чем говорит тестЬ: фактические значения слишком редко попадают в хвосты распределения. ЭС предполагает фиксированное нулевое среднее, а это не подтверждается данными наблюдений, и поэтому тест а указывает на отрицательное смещение; заметна также скошенность гистограммы на рис. 1а.
1.2 1
0.8 0.6 0.4 0.2 0
1.2 1
0.8 0.6 0.4 0.2 0
0 0.2 0.4 0.6 0.8
0 0.2 0.4 0.6 0.8
а) б)
Рис. 1. Гистограммы ВИП-значений: а) экспоненциальное сглаживание, б) GARCH
В целом GARCH выглядит почти как правильно калиброванный прогноз, если судить о калибровке, исходя из обычных критериев на основе ВИП. Гистограмма ВИП-значений на рис. 1б не является идеально ровной, но ее неровности не очень серьезны, что подтверждается двумя тестами на безусловную калибровку из табл. 3. Кроме того, нет заметных признаков автокорреляции после лага 10 как в ^ =Ф_1(^ (у)), так и в | ^ |. Например,
, с асимптотиче-
11-й коэффициент автокорреляции равен 0.078 для ^ и —0.039 для скими стандартными ошибками 0.044 и 0.034 соответственно13.
£
ф ао
13 Здесь используется приближение Бартлетта для дисперсии ги, которое исходит из отсутствия автокорре-
ляции после 10-го лага и задается формулой (1 + 2г1 -
.+ 2г10) / Т, где гк — к-й коэффициент автокорреляции.
1
№ 3 (27) 2012
Модель GARCH лидирует по среднему уровню CRPS, близко за ней следует экспоненци- |
альное сглаживание. Однако все методы в парных сравнениях по ОКП-тестам показывают ^
с
значимую неправильность калибровки. Например, и это примечательно, GARCH не в со- ¿3 стоянии объяснить показатели экспоненциального сглаживания, которое можно рассматривать как его «более дешевый» заменитель. Результаты указывают на возможность усовер- 4 шенствования прогнозов путем их объединения.
Вероятностные прогнозы предоставляют гораздо больше информации для принятия экономических решений, чем обычные точечные прогнозы, поэтому они имеют хорошие перспективы. Следует более широко внедрять вероятностные прогнозы в практику экономического прогнозирования. При использовании вероятностного прогнозирования желательно опираться на основные понятия и теоретические свойства. Некоторые из таких понятий и свойств рассмотрены в данной статье.
С помощью приведенных примеров:
• подтверждены известные из литературы полезные характеристики корректных ско-ринговых правил;
• проведена проверка работоспособности подхода к тестированию калибровки вероятностных прогнозов на основе теоретических ограничений на моменты;
• проверена работоспособность введенного автором понятия автокалибровки, продемонстрирована важность проверки этого свойства в случае, когда прогноз может содержать посторонний шум;
• проведена проверка разработанного автором теста на относительную калибровку прогноза, обнаружена высокая мощность этого теста при взаимной проверке калибровки пары вероятностных прогнозов.
Гилл Дж. (2008). Уведомление поставщиков услуг о неопределенностях в прогнозах. Бюллетень Всемирной метеорологической организации, 57 (4), 237-243.
Дмитриев В. Г. (2000). О возможности представления категорических прогнозов в вероятностной форме. Метеорология и гидрология, 11, 31-38.
Росси Э. (2010). Одномерные GARCH-модели: обзор. Квантиль, 8, 1-67.
Цыплаков А. (2006). Введение в прогнозирование в классических моделях временных рядов.
Квантиль, 1, 3-19.
Amisano G., Giacomini R. (2007). Comparing density forecasts via weighted likelihood ratio tests. Journal of Business and Economic Statistics, 25 (2), 177-190.
Brier G. W. (1950). Verification of forecasts expressed in terms of probability. Monthly Weather Review, 78 (1), 1-3.
Britton E., Fisher P., Whitley P. (1998). The inflation report projections: Understanding the fan chart.
Bank of England Quarterly Bulletin, 30-37.
6. Заключение
Список литературы
№ 3 (27) 2012
Bröcker J., Smith L. A. (2007). Scoring probabilistic forecasts: The importance of being proper. Weather and Forecasting, 22, 382-388.
Christoffersen P. F. (1998). Evaluating interval forecasts. International Economic Review, 39 (4), 841862.
Clements M. P. (2004). Evaluating the Bank of England density forecasts of inflation. The Economic Journal, 114, 844-866.
Clements M. P., Taylor N. (2003). Evaluating interval forecasts of high-frequency financial data. Journal of Applied Econometrics, 18 (4), 445-456.
DeGroot M. H. (1962). Uncertainty, information, and sequential experiments. The Annals of Mathematical Statistics, 33 (2), 404-419.
Diebold F. X., Gunther T. A., Tay A. S. (1998). Evaluating density forecasts with applications to financial risk management. International Economic Review, 39 (4), 863-883.
Diebold F. X., Hahn J., Tay A. S. (1999a). Multivariate density forecast evaluation and calibration in financial risk management: High-frequency returns on foreign exchange. Review of Economics and Statistics,, 81 (4), 661-673.
Diebold F. X., Tay A. S., Wallis K. F. (1999b). Evaluating density forecasts of inflation: The survey of professional forecasters. In: Engle R. F., White H. (eds.). Cointegration, Causality and Forecasting: A Festschrift in Honour of Clive Granger. Oxford: Oxford University Press, 76-90. I Engelberg J., Manski C. F., Williams J. (2009). Comparing the point predictions and subjective probability distributions of professional forecasters. Journal of Business and Economic Statistics, 27 (1), 30-41.
§
o §
s Galbraith J. W., van Norden S. (2011). Kernel-based calibration diagnostics for recession and inflation §
to
probability forecasts. International Journal of Forecasting, 27 (4), 1041-1057. c^ Gneiting T. (2011). Making and evaluating point forecasts. Journal of the A merican Statistical Associa® tion, 106 (494), 746-762.
SS Gneiting T., Balabdaoui F., Raftery A. E. (2007). Probabilistic forecasts, calibration and sharpness. Jours a
§ Gneiting T., Raftery A. E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of u
® the American Statistical Association, 102, 359-378. ^
iE
<u &
o
nal of the Royal Statistical Society: Series B, 69, 243-268.
Gneiting T., Ranjan R. (2011). Combining predictive distributions. ArXivpreprint, arXiv: 1106.1638v1 [math. ST].
§ Granger C. W. J., Pesaran M. H. (2000). A decision-theoretic approach to forecast evaluation. In: Chan W.-S., Li W. K., Tong H. (eds.). Statistics and Finance: An Interface. Imperial College Press.
Lichtenstein S., Fischhoff B., Phillips L. D. (1982). Calibration of probabilities: The state of the art to 1980. In: Kahneman D., Slovic P., Tversky A. (eds.). Judgment under Uncertainty: Heuristics and Biases.
a о n о
iE
о &
Й Cambridge, UK: Cambridge University Press, 306-334.
л
iE
о о
iE «
о а
<u щ
Mitchell J., Wallis K. F. (2011). Evaluating density forecasts: Forecast combinations, model mixtures, calibration and sharpness. Journal of Applied Econometrics, 26 (6), 1023-1040.
Murphy A. H., Winkler R. L. (1984). Probability forecasting in meterology. Journal of the American Statistical Association, 79 (387), 489-500.
Pesaran M. H., Skouras S. (2002). Decision-based methods for forecast evaluation. In: Clements M. P., Hendry D. F. (eds.). A Companion to Economic Forecasting. Blackwell Publishing, 241-267. RiskMetrics (1996). RiskMetrics (TM) — technical document (4th ed.). J. P. Morgan / Reuters. I Tsyplakov A. (2011). Evaluating density forecasts: A comment. University Library of Munich, Germany. о http://mpra.ub.uni-muenchen.de/32728/.
132 j- =
Теория и методология •