cтатистические методы оценки качества прогнозов экономической деятельности
оценка качества прогнозов: простейшие методы
__Аннотация
Статья посвящена анализу качества прогнозирования показателей экономической деятельности. Рассмотрены простейшие статистические методы, при помощи которых можно сравнить несколько прогнозов конкретного показателя, и набор тестов, позволяющих ответить на вопрос о статистической значимости разницы между этими прогнозами.
_Ключевые слова: прогнозирование, оценка качества прогнозов, эко-
_номическая деятельность, экономические показатели
Турунцева Марина Юрьевна
ст. научный сотрудник, Институт экономической политики им. Е.Т. Гайдара, и. о. зав. лабораторией краткосрочного прогнозирования m.turuntseva@gmail.com
Прогнозирование показателей экономической деятельности является неотъемлемой составляющей экономического процесса. Существует много методов прогнозирования, в частности, экспертные оценки, обследования потребителей и предпринимателей, экстраполирование, модели временных рядов, эконометрические системы. В этой связи встает вопрос об оценке качества прогнозов, полученных различными способами. Существует стандартный набор простейших статистик качества прогнозов и ряд довольно простых тестов, позволяющих ответить на вопрос о значимости различий между прогнозами того или иного показателя, если их было несколько. Необходимо отметить, что предложенные методы не зависят от того, каким из перечисленных выше способов получены прогнозы.
Простейшие статистики качества прогнозов
К простейшим статистикам качества прогнозов относятся средняя абсолютная процентная ошибка прогнозирования (Mean Absolute Percent Error -MAPE), средняя абсолютная ошибка прогнозирова-
ния (Mean Absolute Error - MAE), корень квадратный из средней квадратичной ошибки прогнозирования (Root Mean Squared Error - RMSE)1. Средняя абсолютная процентная ошибка прогнозирования является абсолютной мерой качества прогнозов в том смысле, что позволяет оценить его независимо от других прогнозов: достаточно выбрать некий уровень средней ошибки (например, 5%) и сравнивать рассчитанное по статистике значение с этим тестовым уровнем. Если расчетное значение меньше тестового, то прогноз считается хорошим, если больше - плохим. Две другие меры качества прогнозов (MAE и RMSE) являются относительными, то есть могут быть использованы для сравнения двух (или более) различных прогнозов одного и того же показателя между собой: лучшим считается тот прогноз, у которого значение МАЕ или RMSE меньше. При этом, очевидно, этот лучший прогноз может быть хорошим или плохим с точки зрения МАРЕ. Обычно все эти статистики не противоречат друг другу, то есть выбирают в качестве лучшего один и тот же прогноз, но наиболее часто для сравнения прогнозов используется RMSE.
Главными достоинствами всех перечисленных выше статистик является простота их расчета и независимость от свойств ошибок прогнозирования, главным недостатком - то, что они не позволяют получить ответ на вопрос о том, являются ли два прогноза показателя разными со статистической точки зрения. Поясним, что мы имеем в виду. Пусть у нас есть два различных прогноза одного и того же показателя. Например, эти прогнозы получены по двум разным моделям А и В. Мы знаем, что модель А является довольно простой (например, с точки зрения методов ее оценки), а модель В, напротив - сложной. Рассчитав простейшие статистики качества получаем, что модель В обладает чуть лучшими характеристиками, например, ее МАРЕ равно 4,9%, а МАРЕ модели А - 5,3%. На первый взгляд, модель В лучше. Но мы знаем, что для ее оценки требуется гораздо больше усилий по сравнению с моделью А. Соответственно, возни-
1 Здесь и далее все необходимые для расчетов статистик формулы приведены в Приложении.
средняя абсолютная процентная ошибка прогнозирования является абсолютной мерой качества прогнозов в том смысле, что позволяет оценить его независимо от других прогнозов
кает вопрос: а стоит ли тратить много усилий на оценку модели, прогноз по которой получается не намного лучше, чем при использовании с гораздо более простой модели?
Для ответа на этот вопрос можно использовать специальные тесты: F-тест, тест Моргана -Грейнджера - Ньюболда, тест Миза - Рогоффа, тест знаков и ранговый тест знаков Вилкоксона, которые позволяют выяснить (проверить гипотезу) являются ли множества прогнозов, полученных двумя разными способами, различными с формальной (статистической) точки зрения. Отметим актуальность проблемы: многие эмпирические исследования показывают, что прогнозы по простым моделям очень часто оказываются лучше с точки зрения простейших статистик ачества, чем прогнозы, полученные более ыми методами.
ьнос
меры качества
_прогнозов
_(MAE и RMSE)
_являются
„относительными, то есть могут быть
_использованы
„для сравнения двух \ли более) различных „прогнозов одного того же показателя
Тесты для проверки. о совпадении прогнозов
Самым простым способом проверки гипотезы о совпадении прогнозов, полученными двумя различными способами (А и В), является Р-тест, который рассчитывается как отношение выборочной ковариации между ошибками прогнозирования, полученными по различным моделям, к выборочной дисперсии ошибки прогнозирования, полученной по модели В. Для возможности применения теста необходимо, чтобы ошибки прогнозирования удовлетворяли всем стандартным требованиям, то есть имели нулевой средний уровень, являлись нормальными, а также серийно и одновременно некоррелированными. Такие серьезные ограничения являются главным недостатком теста, поскольку сильно ограничивают возможности его корректного использования применительно к реальным данным.
В тесте Моргана - Грейнджера - Ньюболда можно ослабить предположение об одновременной кор-релированности ошибок прогнозирования. Более того, Диболд и Мариано показали, что единственным предположением, которое не может быть ослаблено по сравнению с Р-тестом, является необходимость использования в качестве базовой статистики ЛМЖ.
Тест Миза - Рогоффа можно использовать, если ошибки прогнозирования являются и серийно, и одновременно коррелированными. И он совпадает с тестом Моргана - Грейнджера - Ньюболда, если ряды ошибок не являются серийно коррелированными.
Диболд и Мариано предложили тест, являющийся устойчивым к различным отклонениям от стандартных предположений о свойствах ошибок прогнозирования - они ослабили все предположения классического Р-теста. С этой точки зрения, данный тест является универсальным инструментом проверки гипотезы об отсутствии значимых различий между прогнозами.
Главным недостатком всех рассмотренных тестов, является то, что они дают хорошие результаты, если в наличии имеются длинные ряды прогнозов. Но чаще всего это условие не выполняется. В таком случае можно использовать тест знаков и ранговый тест знаков Вилкоксона, который является более мощным тестом (то есть при прочих равных условиях дает более достоверные результаты) по сравнению с тестом знаков.
..многие эмпирические исследования показывают, что прогнозы по простым моделям очень часто оказываются лучше.., чем прогнозы, полученные более сложными методами
Вывод
Все рассмотренные тесты хорошо работают при большом количестве наблюдений и при выполнении необходимых условий дают адекватные со статистической точки зрения результаты. Понятие большой выборки определить довольно сложно и для разных тестов пороговые значения могут быть различными. Например, для теста Миза - Рогоффа Диболд и Мариано определено, что достаточный размер выборки достигается при числе прогнозных точек больше 64.
Нарушение различных предположений тестов ведет к различным потерям, и мы не будем останавливаться на этом подробно. При наличии малого числа наблюдений лучше использовать тесты знаков, поскольку в этой ситуации они дают более адекватные результаты по сравнению с другими рассмотренными тестами.
Приложение
Пусть ут+1 - фактическое значение показателя в момент - прогноз этого показателя в момент
Т на г шагов вперед, в?!, = ут+г -/тч - ошибка прогноза в момент Т на г шагов вперед, Ь - горизонт прогнозирования.
1. МЛРЕ = 100% -У
Ут+.
= 100% -У
Угм
4. .-тест. Тестовая статистика выглядит следующим
образом:
где
Ь - горизонт прогнозирования; е, = : и е,= : - Ах]
(с ^ (е \ ВТ. 1
уелт.>ч
-векторы ошибок прогнозирования по моделям А и В, соответственно.
5. Тест Моргана - Грейнджера - Ньюболда. Тестовая статистика:
АЮА< =
- А,
'(А-1)
А 1
где рхг - выборочный коэффициент корреляции между суммой (х) и разностью (г) ошибок прогнозирования различных моделей.
6. Тест Миза - Рогоффа. Тестовая статистик:
ш
где ухг - выборочный коэффициент ковариации между суммой и разностью ошибок прогнозирования моделей А и В; £ - состоятельная оценка ковариационной матрицы.
7. Тест знаков. В предположении о симметричности распределения разности функций потерь число положительных наблюдений в выборке размера h имеет биноминальное распределение с параметрами /1 и12. Тогда тестовая статистика имеет вид:
где/+(4)=|*' j d,=g(eA7()-g(eEri) -
разность функций потерь прогнозов А и В, g (y т+i , fkTi ) - функция потерь, характеризующая отклонения прогнозных значений показателяyt в момент Т на i шагов вперед, оцененных на основе модели k (например, по модели А, либо В), от истинного значения yT+i в этот момент времени. В случае больших выборок используется статистика:
В случае отсутствия значимых различий прогнозных свойств моделей, статистика S2 должна быть приблизительно равна 0,5h , а S2a тогда принимает значение около нуля.
8. Ранговый тест знаков Вилкоксона. Можно использовать, если выполняются условия симметричности разности функций потерь ошибок прогнозирования различных моделей и разность функций потерь ошибок прогнозирования является независимой одинаково распределенной случайной величиной. В этом случае тестовая статистика может быть рассчитана как:
где rank \di |- ранг абсолютной величины значения разности функций потерь ошибок прогнозирования различных моделей в момент времени i = 1 ,..., h. Тогда S3 - сумма рангов положительных значений разности функций потерь ошибок прогнозирования разных моделей. Критические значения для небольших выборок (h - мало) можно найти в специальных таблицах, для больших выборок (асимптотически) статистика имеет стандартное нормальное распределение.
Литература
1. Diebold F.X. Elements of Forecasting. - 4th ed. -Thomson South-Western, 2007.
2. Diebold F.X., Mariano R.S. Comparing Predictive Accuracy // Journal of Business and Economic Statistics. -1995. - № 13 (3). - pp. 253-263.
3. Granger, C.W.J., Newbold P. // Forecasting Economic Time Series, Orlando, Florida: Academic Press, 1997.
4. Meese, R.A., Rogoff K. Was it Real? The Exchange Rate -Interest Differential Relation Over the Modern FloatingRate Period // Journal of Finance. - 1997. - 43. - pp. 933948.
5. Morgan, W.A. A test for the Significance of the Difference Between the two variances in a Sample From Normal Bivariate Population // Biometrika. - 1939-1940. - 31. - pp. 13-19.
6. Stock, J.H. and M.W. Watson (1998а) A Comparison of Linear and Non-Linear Univariate Models for Forecasting Macroeconomic Time Series, NBER WP #6607, June.
7. Wilcoxon, F. Individual Comparisons by Ranking Methods // Biometrics Bulletin. - 1945. - 1 (6). - pp. 80-83.
8. Турунцева М., Юдин А., Дробышевский С., Кадочников П., Трунин П., Пономаренко С. Некоторые подходы к прогнозированию экономических показателей. - М.: ИЭПП, 2005.
9. Турунцева М., Киблицкая Т. Качественные свойства различных подходов к прогнозированию социально-экономических показателей РФ. - М.: ИЭПП, 2010.
Marina Yu. Turuntseva
Senior Researcher, Institute of Economic Policy named after E.T. Gaidar, Executive Head of Laboratory for Short-Term Forecasting
Assessment of Forecast Quality: the Simplest Methods
_Abstract
Tlhe article is devoted to the quality analysis of economic performance forecasting. The author considers the simplest statistical techniques which are used to compare several predictions of a given indicator, as well as a set of tests that allow answering the question about the statistical significance of differences between these forecasts.
Keywords: forecasting, assessment of forecast quality, economic activity, economic indicators