Научная статья на тему 'Прогнозирование макроэкономических показателей российской экономики с помощью моделей понижения размерности'

Прогнозирование макроэкономических показателей российской экономики с помощью моделей понижения размерности Текст научной статьи по специальности «Математика»

CC BY
199
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ / ОЦЕНКА КАЧЕСТВА ПРОГНОЗОВ / РОССИЙСКИЕ МАКРОЭКОНОМИЧЕСКИЕ ПОКАЗАТЕЛИ / LASSO / СЛУЧАЙНЫЙ ЛЕС / FORECASTING / FORECAST EVALUATION / RUSSIAN MACROECONOMIC TIME SERIES / RANDOM FOREST

Аннотация научной статьи по математике, автор научной работы — Скроботов Антон Андреевич, Царев Алексей Викторович

Статья посвящена сравнительному анализу прогнозной силы моделей понижения размерности на примере макроэкономических показателей российской экономики. Обозреваются и обсуждаются различные подходы и методы моделирования и прогнозирования макроэкономических показателей высокой размерности. Рассмотренные подходы применяются к российским данным по 29 показателям за период с января 2000 г. по июнь 2019 г. Сравнительный анализ полученных результатов указывает на то, что в половине случаев модель случайного леса оказывается наилучшей с точки зрения прогнозной силы и ее использование в среднем позволяет улучшить качество построенных прогнозов на 5, 25 и 30% для кратко-, средне- и долгосрочного периодов соответственно. Полученные результаты могут быть полезны экономическим агентам и представителям органов власти в целях улучшения качества прогнозирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORECASTING MACROECONOMIC INDICATORS OF THE RUSSIAN ECONOMY USING DIMENSION REDUCTION MODELS

This study is devoted to the analysis of forecast power of dimension reduction models for Russian macroeconomic time series. Various approaches and methods for modeling and forecasting high-dimensional macroeconomic time series are reviewed and discussed. The approaches considered are applied to Russian data on 29 time series for the period from January 2000 to June 2019. A comparative analysis of the results indicates that in half of the cases, the random forest model is the best in terms of predictive power, and its use on average improves the quality of the constructed forecasts by 5%, 25%, and 30% for the short, medium, and long-term periods, respectively.

Текст научной работы на тему «Прогнозирование макроэкономических показателей российской экономики с помощью моделей понижения размерности»

Эконометрическое моделирование

ПРОГНОЗИРОВАНИЕ МАКРОЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ РОССИЙСКОЙ ЭКОНОМИКИ С ПОМОЩЬЮ МОДЕЛЕЙ ПОНИЖЕНИЯ РАЗМЕРНОСТИ1

А. А. СКРОБОТОВ А. В. ЦАРЕВ

Статья посвящена сравнительному анализу прогнозной силы моделей понижения размерности на примере макроэкономических показателей российской экономики. Обозреваются и обсуждаются различные подходы и методы моделирования и прогнозирования макроэкономических показателей высокой размерности. Рассмотренные подходы применяются к российским данным по 29 показателям за период с января 2000 г. по июнь 2019 г.

Сравнительный анализ полученных результатов указывает на то, что в половине случаев модель случайного леса оказывается наилучшей с точки зрения прогнозной силы и ее использование в среднем позволяет улучшить качество построенных прогнозов на 5, 25 и 30% для кратко-, средне- и долгосрочного периодов соответственно. Полученные результаты могут быть полезны экономическим агентам и представителям органов власти в целях улучшения качества прогнозирования.

Ключевые слова: прогнозирование, оценка качества прогнозов, российские макроэкономические показатели, LASSO, случайный лес.

Введение

В современной экономике вопрос прогнозирования экономических и финансовых показателей имеет очень важное значение. В настоящее время исследователи обладают большими массивами данных, которые они могли бы использовать для улучшения качества прогнозов. Однако большие массивы данных могут затруднять анализ, поскольку становится непонятно, как их использовать максимально эффективно для получения наилучших прогнозов. Кроме того, поскольку данных может быть намного больше, чем числа наблюдений в регрессии, на основе которой мы прогнозируем, это делает невозможным ее оценивание и последующее прогнозирование.

Статистические методы, которые позволяют учитывать большие массивы данных и непараметрически описывать нелинейные взаи-

мосвязи, получили название методов машинного обучения. Многие из этих методов в результате сокращают размерность оцениваемой модели, используемой впоследствии для прогнозирования. В последнее время эти методы получили большое распространение в макроэкономическом анализе и прогнозировании (см. работу [2] и ссылки в ней). Преимущество методов сокращения размерности было показано, среди прочих, в недавних работах [8; 12; 13]. В работе Медейроса и др. [13] исследуются качество прогнозов инфляции в США с использованием регрессии LASSO и Ridge, факторные модели, методы, основанные на ансамбле (где прогнозы строятся на основе взвешенного среднего прогнозов ансамбля моделей), и методы, основанные на деревьях. Авторы приходят к выводу, что наилучшие прогнозы дает метод случайного леса, объяс-

Скроботов Антон Андреевич, научный сотрудник РАНХиГС при Президенте Российской Федерации, канд. экон. наук (Москва), е-таН: antonskrobotov@gmail.com; Царев Алексей Викторович, младший научный сотрудник РАНХиГС при Президенте Российской Федерации (Москва), е-таУ: tsaryov.alexey.v@gmail.com

1 Авторы выражают признательность Н.В. Макеевой и А.В. Полбину за ценные замечания и идеи, высказанные в процессе работы над статьей.

няя это возможной нелинейностью между ключевыми макроэкономическими переменными и инфляцией.

В работе Джианноне и др. [10] обсуждается вопрос, действительно ли экономические данные являются разреженными и обосновано ли тем самым использование методов на основе регуляризации (LASSO) в различных экономических и финансовых задачах. В работе Куломба и др. [8] авторы исследуют свойства методов сокращения размерности, выясняя причину того, почему одни методы прогнозируют лучше других, экспериментируя с различными процессами порождения данных и используя разные настраиваемые параметры применяемых методов. Кроме того, авторы используют различные подвыборки и различные горизонты прогнозирования. С точки зрения прогнозирования российских макроэкономических показателей следует отметить обзор Пестовой и Мамонова [1], в котором, кроме сравнения различных моделей, рассматриваются вопросы прогнозирования в России.

В настоящей работе мы анализируем свойства прогнозов 29 российских макроэкономических временных рядов, построенных на основе нескольких типов моделей сокращения размерности, и сравниваем полученные качественные свойства прогнозов с простой моделью ARIMA. Мы получаем, что модель случайного леса в более чем половине случаев превосходит все другие рассматриваемые модели с точки зрения прогнозной силы, причем на всех горизонтах прогнозирования. Кроме того, модель случайного леса часто является второй наилучшей моделью, что позволяет использовать ее без комбинаций с другими прогнозными методами.

Модели прогнозирования

Рассмотрим задачу прогнозирования переменной y в модели типа

y=f(x) + e

на основе аппроксимации функции f(x) некоторой функцией /(x)=y. В данном случае пе-

ременную у можно называть прогнозным значением для переменной у. Ошибка предполагается имеющей нулевое математическое ожидание и дисперсию а2=Уаг(е). Согласно дилемме смещения-дисперсии, которая была подробна описана, например, в работе Дже-мана и др. [9], среднеквадратичную ошибку прогноза по модели можно разложить на сумму квадрата смещения прогноза, дисперсии прогнозных значений и дисперсии ошибки прогноза, т.е.:

Е[(у-у)2] = (Е[у-Е(у)])2 + Уаг(у) + а2, (1)

где (Е[у— Е(у)]) - смещение прогноза; Уаг(у) - дисперсия прогнозных значений, полученных по данной модели, и а2 - неустранимая дисперсия ошибки в истинной модели порождения данных. В данном случае первое слагаемое можно воспринимать как квадрат ошибки, которая вызвана упрощением предположений, принятых в модели. То есть чем сложнее модель, тем больше наблюдений она может охватить и тем меньше будет это смещение. Второе слагаемое представляет собой дисперсию прогнозных значений модели, т.е. чем более сложна модель, тем больше наблюдений она может охватить и тем больше будет дисперсия.

Заметим, что отбор объясняющих переменных, т.е. понижение размерности оптимизационной задачи, приводит к увеличению смещения, но к уменьшению дисперсии. Следовательно, какие-то способы понижения размерности будут приводить к уменьшению среднеквадратичной ошибки прогноза по модели за счет сильного падения дисперсии прогнозных значений.

Мы сравниваем современные методы понижения размерности с классическими подходами, такими как АШМА-модель, рассмотренная в работе Бокса и Дженкинса [3], и обычная линейная регрессионная модель вида

У=Хв + е, (2)

где Упх1 - вектор объясняемой переменной размерности (лх1); Хгхк -матрица объясняю-

щих переменных размерности (nxk); Pkxl -вектор коэффициентов в модели размерности (kxl); ет1-вектор случайных ошибок размерности (nxl); n - количество наблюдений; k -количество регрессоров. Оценка параметров модели сводится к решению задачи минимизации суммы квадратов отклонений прогнозных значений от фактических методом наименьших квадратов (МНК, OLS - Ordinary Least Squares), так что полученная оценка будет иметь вид ¡5OLS=(XTX)-1+XTY.

LASSO ( Least Absolute Shrinkage and Selection Operator)-регрессия была впервые предложена в работе Тибширани [14]. В LASSO-рег-рессии накладывается ограничение на сумму модулей коэффициентов модели. В общей постановке задача построения LASSO-регрес-сии имеет следующий вид:

0^О(Х) = ащтЩЦУ-ХвЦ+ти, (3)

где ||У-Хв||22 = ЕП=1(у-(в1+в2^,+...+вк^к))2; | |в| | 1=^Jk=1 |ej и Я >0 -параметр степени штрафа за высокие значения коэффициентов. Заметим, что чем выше параметр Я, тем больше коэффициентов полагаются равными нулю и тем сильнее снижается размерность рассматриваемых данных. Если параметр Яравен нулю, то задача сводится к обычной минимизации методом наименьших квадратов. Следовательно, данный метод может использоваться для отбора объясняющих переменных. Переменные, при которых коэффициенты не оцениваются равными нулю методом LASSO, можно использовать для построения дальнейших моделей.

Данная оптимизационная задача не является гладкой и будет решаться с помощью численных оптимизационных методов (например, с помощью алгоритма Нелдера-Мида). Стоит отметить, что, несмотря на изобилие численных методов негладкой оптимизации, наиболее предпочтительным для LASSO-регрессий является метод наименьших углов, который был предложен в работе Эфрона и др. [4].

Для так называемой post-LASSO-регрессии сначала производится отбор объясняющих переменных на основе результатов оценивания LASSO-регрессии, после чего оценивается стандартная линейная модель с помощью МНК для отобранных регрессоров.

Шде-регрессия (или гребневая регрессия) накладывает ограничения на сумму квадратов коэффициентов модели. Следовательно, можно сформулировать оптимизационную задачу для построения ШСде-регрессии следующим образом:

= агдтт(\\У-Хр\\22+Щ\22), (4)

где \ \в\ \ \ = Ц=в 2.

Данная задача является гладкой и выпуклой. Решив ее относительно вектора параметров в, получим

$шд<!(Х) = (ХТХ+Л1)-1ХТУ, (5)

где 1кхк - единичная матрица размерности к.

Заметим, что ^Сде-регрессия не обладает свойством занулять коэффициенты модели при некоторых объясняющих переменных, а делает эти коэффициенты очень маленькими по абсолютному значению.

Стоит отметить также некоторые особенности применения LASSO-регрессии, которые не всегда бывают удобны при работе с реальными данными. Во-первых, в случае, когда п<<к, LASSO-регрессия имеет свойство отбирать не более п объясняющих переменных, что не всегда бывает удобно. Во-вторых, если есть набор объясняющих переменных, которые сильно коррелированы между собой, то LASSO-регрессия имеет свойство выбирать одну из этих переменных, игнорируя другие. В работе Зу и Хасти [15] была предложена модель эластичной сети, которая является обобщением LASSO-регрессии и позволяет решать имеющиеся у нее ограничения. Эластичная сеть представляет собой комбинацию ШСде-и LASSO-регрессий, т.е. линейную модель с двумя регуляризаторами. Оптимизационная

задача эластичной сети выглядит следующим образом:

PEN(X) = argmm(\\Y-XPWl +Х, \\в\\+Х2 ||в||22),(6)

где Х1 > 0 и Х2> 0 - параметры регуляризации данной модели.

В результате добавления 72-регуляризации в качестве дополнительного штрафа эластичная сеть перестает ограничиваться выбором не более n объясняющих переменных и выбирать только одну объясняющую переменную из группы переменных, которые между собой высоко коррелированы.

Наконец, рассмотрим алгоритм случайного леса, который был представлен в работе Бреймана [7]. Случайный лес - это ансамбль решающих деревьев, предложенных в исследовании Бреймана и др. [5] и построенных на бутстрапированных выборках и по случайным наборам регрессоров. С точки зрения машинного обучения алгоритм случайного леса представляет собой сочетание метода бэггинга, который был предложен в работе Бреймана [6], и метода случайных подпространств, предложенного в работе Хо [11].

Рассмотрим поэтапную реализацию данного алгоритма. На первом шаге случайным образом извлекается бутстрапированная выборка того же объема, что и исходная. Далее начинается процесс построения дерева. В каждой вершине дерева выбирается [ _ ] регрессо-ров или [Vk ] регрессоров для задачи регрессии или классификации соответственно. Затем с полученными регрессорами строится разветвление в решающем дереве на основе минимизации целевой функции при помощи жадного алгоритма (greedy algorithm), т.е. в каждой вершине каждого дерева выбираются такой регрессор и такой порог, которые локально минимизируют целевую функцию в результате построения разбиения. Для непрерывной объясняемой переменной этой функцией является сумма квадратов остатков, а для дис-

2 Источники: Росстат, Банк России.

3 Полный перечень рассмотренных рядов см. в приложении.

кретной - кросс-энтропия. Дерево строится до тех пор, пока в его терминальных вершинах не останутся представители только одного класса или по одному наблюдению. Однако в современных реализациях есть параметры, которые ограничивают высоту дерева, число объектов в листьях и число объектов в подвы-борке, при котором проводится расщепление. В результате у нас получается случайное дерево. Повторяем эту процедуру В раз и строим В случайных деревьев, тем самым создавая случайный лес.

Прогноз по случайному лесу определяется как среднее арифметическое прогнозов по всем В деревьям, т.е. У=_'ЕВЬ=1УГЬ, где Уь - прогноз, построенный по Ь-му случайному дереву.

Прогнозирование российских макроэкономических временных рядов

Были рассмотрены 29 макроэкономических временных рядов основных макроэкономических показателей РФ2 следующих категорий: уровень качества жизни населения, международная торговля, транспортные тарифы, товарооборот, показатели денежного рынка, рынка труда, а также индексы цен на различные категории товаров и услуг3. Все данные рассматривались в период с января 2000 г. по июнь 2019 г. Выбор такого временного промежутка обусловлен доступностью месячных данных в официальных статистических агентствах на момент написания статьи. В качестве дополнительных объясняющих переменных, которые использовались для прогнозирования всех макроэкономических рядов, но не прогнозировались сами, были выбраны цены фьючерсов на природные ресурсы: нефть, никель, алюминий, медь, золото.

Для дальнейшего прогнозирования мы проводили преобразование данных следующим образом. Для каждого ряда было проведено тестирование на наличие единичного корня с помощью расширенного теста Дики-

Фуллера с количеством запаздывающих разностей, выбранным на основе информационного критерия Шварца (В1С)4. Также мы учитывали возможную интегрированность второго порядка, тестируя на наличие единичного корня временной ряд в разностях5. Дальнейшее построение прогнозов проводилось для полученных стационарных временных рядов (в уровнях, разностях или двойных разностях).

В качестве критериев сравнения качества прогнозной силы различных моделей использовались такие показатели, как корень квадратный из средней квадратичной ошибки прогноза (ЯМБЕ):

RMSE =

(7)

и средняя абсолютная ошибка прогноза (MAE): X" ,|У — Y |

i = 11 T+ i T+i1

MAE = ■

h

(8)

где YT+. - прогнозное значение ряда Yt на момент времени T+i; h - горизонт прогнозирования.

Заметим, что, поскольку в RMSE все ошибки сначала возводятся в квадрат, а потом усредняются, получается, что чем больше ошибка, тем больший вес она имеет в итоговом критерии (например, одна ошибка в 10 условных единиц весит больше, чем две по пять). Это нельзя назвать недостатком данного критерия -такой результат может быть полезным, если одна крупная ошибка в конкретном случае гораздо хуже нескольких более мелких. В свою очередь, в критерии MAE, благодаря модулю, все ошибки имеют одинаковый вес, что решает проблему, которая возникает с RMSE.

Были построены прогнозные модели для каждого из рассмотренных временных рядов. Оценивание всех моделей производилось итеративно с января 2000 г. до июня 2018 г. включительно с последующим добавлением по од-

ному наблюдению до декабря 2018 г. На каждом шаге построение прогнозов осуществлялось на 6 месяцев вперед. Для структурных моделей в качестве объясняющих переменных рассматривались первые лаги всех имеющихся временных рядов. При построении прогнозов подставлялись фактические значения объясняющих переменных.

В качестве базовой неструктурной модели была выбрана модель ARIMA. Параметры p и q подбирались на основе методологии Бокса-Дженкинса [3], после чего производились оценивание выбранной модели и построение прогнозов. Обычная линейная модель оценивалась с помощью МНК, после чего также строились прогнозы. Для моделей LASSO, Ridge и EN изначально подбирались параметры штрафа на основе кросс-валидации для временных рядов с растущим (и скользящим) окном. Первоначальная ширина окна была равна 75% от рассматриваемой выборки. В качестве минимизируемого критерия была выбрана средняя квадратичная ошибка прогноза на 6 периодов. После этого с полученными параметрами производилось построение соответствующих моделей. Для post-LASSO-регрессии сначала производился отбор объясняющих переменных на основе результатов оценивания LASSO-регрес-сии, после чего оценивалась обычная линейная модель с помощью МНК для отобранных регрессоров. Модель случайного леса строилась на основе 250 решающих деревьев. При построении каждого узла выбиралось [ _ ] случайных регрессоров, так как рассматривалась задача регрессии. В качестве минимизируемого критерия также была выбрана средняя квадратичная ошибка прогноза, поскольку объясняемая переменная непрерывна6. Стоит отметить, что для всех структурных моделей прогнозы строились как YT+h = f(XT+h1).

Полученные прогнозы сравнивались между собой на основе мер качества RMSE и MAE и трех горизонтов прогнозирования (1 месяц,

4Максимальное количество запаздывающих разностей определялось равным к[(7—1)3 ]

5 Все промежуточные расчеты и выкладки доступны по запросу у авторов.

6 В качестве критерия для дискретной объясняемой переменной использовалась бы информационная энтропия.

3 месяца и 6 месяцев). Рассматривались средние значения всех критериев качества прогнозов по всем периодам, после чего проводился сравнительный анализ прогнозной силы данных моделей. Стоит отметить, что для горизонта прогнозирования в 1 месяц строился только критерий MAE, так как в данном случае критерии RMSE и MAE в точности равны друг другу.

В табл. П1 и П2 приложения представлены относительные критерии качества MAE (нормированные на значения этих критериев для ARIMA-модели) прогнозной силы различных моделей для случаев растущего и фиксированного окна для кросс-валидации в моделях с регуляризацией соответственно. Все последующие результаты и интерпретации приводятся для случая растущего окна, так как результаты инвариантны. Промежуточные результаты для критерия качества RMSE не приводятся, так как полученные результаты устой-

чивы относительно выбранного критерия. Интерпретация относительной меры заключается в том, во сколько раз в среднем данная модель хуже (больше 1) или лучше (меньше 1) ARIMA-модели при заданных критерии качества и горизонте прогнозирования. Итеративное построение прогнозов и усреднение критериев обеспечивают робастность полученных результатов.

В табл. 1 представлены усредненные относительные критерии качества прогнозной силы различных моделей для всех рассматриваемых временных рядов.

Наилучшей моделью для прогнозирования рассматриваемых временных рядов является модель случайного леса. Ее использование позволяет увеличивать качество прогнозной силы в среднем на ( 1) х 100% ° 5%, 25% и 30% для кратко-, средне- и долгосрочного прогнозирования соответственно. Наихудшей моделью является линейная модель. Из-за

Таблица 1

Усредненные относительные критерии качества для всех временных рядов

Модель H = 1, МАЕ H = 3, RMSE H = 3, МАЕ H = 6, RMSE H = 6, MAE

ARIMA 1 1 1 1 1

Линейная модель 1,9764 1,544 1,579 1,3745 1,3461

LASSO 0,9924 0,8608 0,8443 0,8139 0,8049

post-LASSO 1,3144 1,0957 1,1004 0,983 0,9898

Ridge 1,448 1,2002 1,2208 1,0456 1,0267

EN 1,237 1,0165 1,011 0,9157 0,9117

RF 0,9534 0,7889 0,8036 0,7691 0,7797

Источник: расчеты авторов.

Таблица 2 Количество рядов, для которых данная модель оказалась наилучшей

Модель H = 1, МАЕ H = 3, RMSE H = 3, МАЕ H = 6, RMSE H = 6, MAE

ARIMA 4 4 4 4 5

Линейная модель 3 1 1 0 0

LASSO 0 1 1 2 1

post-LASSO 2 3 3 3 4

Ridge 7 5 5 3 3

EN 3 1 1 3 2

RF 10 14 14 14 14

Источник: расчеты авторов.

большого количества объясняющих переменных и небольшого количества наблюдений она, без предварительного отбора регрессоров, склонна к переобучению, т.е. хорошо описывает данные, на которых строится, но показывает плохую прогнозную способность. В частности, предварительный отбор объясняющих переменных (например, в post-LASSO-регрес-сии) позволяет увеличить прогнозную силу модели. Также отметим, что все без исключения модели показывают более высокую прогнозную силу на средне- и долгосрочном периодах, чем на краткосрочном.

В табл. 2 представлены частоты случаев, когда конкретная модель оказывалась наилучшей с точки зрения прогнозной силы.

В половине случаев модель случайного леса оказывается наилучшей с точки зрения прогнозной силы. Использование линейной модели с предварительным отбором объясняющих переменных предпочтительнее обычной линейной модели. Несмотря на низкую усредненную меру качества для модели LASSO, она в редких случаях оказывается наилучшей с точки зрения прогнозной силы, что свидетельствует о том, что у остальных моделей есть аномально большие относительные критерии качества прогнозной силы. Так, например, для численности занятого в экономике населения (млн. человек) относительные критерии Ridge-модели примерно равны 17, 14 и 9 для кратко-, средне- и долгосрочного горизонта прогно-

зирования соответственно. При этом имеются три временных ряда, для которых ARIMA-мо-дель оказывается наилучшей с точки зрения прогнозной силы для любого горизонта прогнозирования и любого критерия качества прогнозной силы: индексов тарифов на грузовые перевозки автомобильным транспортом (в % к предыдущему месяцу), численности занятого в экономике населения (млн. человек), золотовалютных резервов (млн. долл.). Использование же случайного леса для прогнозирования макроэкономических показателей дает стабильно лучшее качество для, как минимум, половины временных рядов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

В настоящей работе мы предприняли анализ прогнозных свойств различных моделей сокращения размерности на примере российских макроэкономических временных рядов. Было получено, что в среднем метод случайного леса дает лучшие прогнозы, чем другие методы, на различных горизонтах прогнозирования, что согласуется с результатами работ по прогнозированию международных временных рядов. Поэтому данный метод можно рекомендовать использовать на практике исследователями, экономическими агентами и представителями органов власти в целях улучшения качества моделирования и прогнозирования российских макроэкономических показателей. ■

U1 KJ

UJ a

0

1

о

ПРИЛОЖЕНИЕ

Сравнительные критерии качества различных моделей

Таблица П1

Относительные критерии качества МАЕ для случая растущего окна

Ряд Н = 1, МАЕ, H = 1, MAE, H = 1, MAE, H = 1, MAE, H = 3, MAE, H = 3, MAE, H = 3, MAE, H = 3, MAE, H = 6, MAE, H = 6, MAE, H = 6, MAE, H = 6, MAE,

fb model fb score sb model sb score fb model fb score sb model sb score fb model fb score sb model sb score

Реальная начисленная

заработная плата одного работника, в % RF 0,4895 LASSO 0,9167 RF 0,4908 Ridge 0,9642 RF 0,584 ARIMA 1

к предыдущему месяцу

Экспорт товаров - всего, млн. долл. RF 0,6482 LASSO 0,712 RF 0,5902 Ridge 0,6277 RF 0,6348 Ridge 0,6792

Экспорт товаров со

странами дальнего RF 0,6428 Ridge 0,7066 RF 0,5994 Ridge 0,6385 RF 0,6735 Ridge 0,6994

зарубежья, млн. долл.

Импорт товаров - всего, млн. долл. Ridge 0,396 LASSO 0,4195 RF 0,3646 Ridge 0,4014 RF 0,5189 EN 0,5351

Импорт товаров со

странами дальнего Ridge 0,4071 RF 0,4205 RF 0,3546 Ridge 0,4047 RF 0,5167 EN 0,5268

зарубежья, млн. долл.

Индексы тарифов на

грузовые перевозки, в % RF 0,9636 ARIMA 1 RF 0,7216 EN 0,8011 RF 0,6414 LASSO 0,6917

к предыдущему месяцу

Индексы тарифов на

грузовые перевозки ж/д транспортом, в % RF 0,3239 LASSO 0,4498 RF 0,2213 EN 0,357 RF 0,2119 EN 0,3388

к предыдущему месяцу

Индексы тарифов

на грузовые перевозки

автомобильным ARIMA 1 Ridge 2,5287 ARIMA 1 Ridge 1,4995 ARIMA 1 LASSO 1,4308

транспортом,в %

к предыдущему месяцу

Индексы тарифов на

грузовые перевозки на трубопроводный транспорт, RF 0,7084 LASSO 0,9413 RF 0,668 LASSO 0,9636 RF 0,6638 LASSO 0,9296

в % к предыдущему месяцу

Оборот розничной торговли - всего, млрд. руб. RF 0,6294 EN 0,6984 RF 0,6566 EN 0,7195 RF 0,6507 EN 0,7262

Численность занятого

в экономике населения, ARIMA 1 LASSO 2,5851 ARIMA 1 LASSO 2,2131 ARIMA 1 LASSO 1,5222

млн.человек

п а О

>

LU

О п п

о

о

NJ

о

Общая численность

безработных в возрасте OLS 0,8988 Ridge 0,972 Ridge 0,9813 ARIMA 1 ARIMA 1 Ridge 1,0207

15-72лет, млн. человек

п о г о S п о

m

<

m

I—

О

< о

U1 W

Численность официально

зарегистрированных

в службе занятости Ridge 0,5511 post-LASSO 0,5891 LASSO 0,4258 Ridge 0,4479 LASSO 0,4013 Ridge 0,4378

безработных на конец

месяца, млн. человек

Назначено пособий по безработице, млн. шт. Ridge 0,374 post-LASSO 0,4953 Ridge 0,3945 RF 0,4495 Ridge 0,4531 RF 0,4798

Курс рубля к доллару OLS 0,7277 EN 0,7631 OLS 0,8285 EN 0,8424 RF 0,899 EN 0,9415

Курс доллара к евро Ridge 0,9271 LASSO 0,9375 ARIMA 1 LASSO 1,0114 ARIMA 1 LASSO 1,0278

Денежная база, млн. руб. RF 0,372 OLS 0,451 RF 0,3271 OLS 0,3603 RF 0,3723 EN 0,4018

Резервные деньги, млрд. руб. EN 0,9692 LASSO 0,9931 Ridge 0,7533 LASSO 0,7662 Ridge 0,7047 EN 0,7178

Денежная масса М1, млн. руб. RF 0,3218 EN 0,5586 RF 0,3778 EN 0,4482 EN 0,4643 RF 0,4746

Денежная масса М2, млн. руб. post-LASSO 0,5252 OLS 0,5669 post-LASSO 0,3536 OLS 0,3679 post-LASSO 0,3191 OLS 0,3311

Золотовалютные резервы, млн. долл. ARIMA 1 RF 2,1277 ARIMA 1 RF 1,7152 ARIMA 1 RF 1,21

Реальный обменный курс OLS 0,2291 Ridge 0,4779 Ridge 0,4157 post-LASSO 0,4401 post-LASSO 0,3787 Ridge 0,3902

Индекс потребительских

цен, в % к предыдущему Ridge 0,6672 RF 0,7097 RF 0,5823 Ridge 0,62 Ridge 0,5803 RF 0,6418

месяцу

Индекс потребительских цен

на продукты питания, в % Ridge 0,7221 RF 0,7662 Ridge 0,6136 RF 0,6157 RF 0,6657 LASSO 0,6874

к предыдущему месяцу

Индекс потребительских цен

на алкогольные напитки, EN 0,7768 Ridge 0,8587 post-LASSO 0,5276 EN 0,5509 post-LASSO 0,5314 EN 0,5666

в % к предыдущему месяцу

Индекс потребительских цен

на непродовольственные товары, в % к предыдущему post-LASSO 0,6509 RF 0,6901 post-LASSO 0,4933 EN 0,6581 post-LASSO 0,476 EN 0,6448

месяцу

Индекс потребительских цен

на платные услуги, в % RF 0,4036 Ridge 0,9252 RF 0,2932 Ridge 0,5722 RF 0,2958 Ridge 0,6037

к предыдущему месяцу

Индекс цен в капитальном

строительстве, в % EN 0,2801 Ridge 0,3333 EN 0,3101 Ridge 0,3593 EN 0,3328 Ridge 0,365

к предыдущему месяцу

Стоимость минимального

набора продуктов питания на одного человека в месяц, ARIMA 1 RF 1,1612 RF 0,8798 ARIMA 1 RF 0,7811 post-LASSO 0,8402

руб.

Примечание: fb model (first best model) - первая наилучшая модель; sb model (second best model) - вторая наилушчая модель; fb score (first best model score) - показатель первой

наилучшей модели; sb score (second best model score) - показатель второй наилучшей модели.

Источник: расчеты авторов.

U1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

UJ a

0

1

о

n

A

о

>

UJ

О n n

о

Таблица П2

Относительные критерии качества МАЕ для случая фиксированного окна

Ряд Н = 1, МАЕ, H = 1, MAE, H = 1, MAE, H = 1, MAE, H = 3, MAE, H = 3, MAE, H = 3, MAE, H = 3, MAE, H = 6, MAE, H = 6, MAE, H = 6, MAE, H = 6, MAE,

fb model fb score sb model sb score fb model fb score sb model sb score fb model fb score sb model sb score

Реальная начисленная

заработная плата одного работника, в % RF 0,506 LASSO 0,9462 RF 0,5228 Ridge 0,9642 RF 0,5912 ARIMA 1

к предыдущему месяцу

Экспорт товаров - всего, млн. долл. RF 0,6508 LASSO 0,712 RF 0,5775 Ridge 0,6277 RF 0,6314 Ridge 0,6792

Экспорт товаров со

странами дальнего RF 0,6473 Ridge 0,7066 RF 0,5989 Ridge 0,6385 RF 0,6591 Ridge 0,6994

зарубежья, млн. долл.

Импорт товаров - всего, млн. долл. Ridge 0,396 RF 0,4133 RF 0,3664 Ridge 0,4014 RF 0,5093 Ridge 0,5388

Импорт товаров со

странами дальнего RF 0,4014 Ridge 0,4071 RF 0,3465 Ridge 0,4047 RF 0,5004 Ridge 0,5317

зарубежья, млн. долл.

Индексы тарифов на

грузовые перевозки,в % RF 0,9678 ARIMA 1 RF 0,7011 EN 0,8011 RF 0,6469 EN 0,7258

к предыдущему месяцу

Индексы тарифов на

грузовые перевозки ж/д транспортом,в % RF 0,298 LASSO 0,5384 RF 0,2206 EN 0,4463 RF 0,239 EN 0,447

к предыдущему месяцу

Индексы тарифов

на грузовые перевозки

автомобильным ARIMA 1 Ridge 2,6404 ARIMA 1 LASSO 1,5034 ARIMA 1 LASSO 1,4278

транспортом, в %

к предыдущему месяцу

Индексы тарифов на

грузовые перевозки на трубопроводный транспорт, RF 0,643 LASSO 0,9476 RF 0,6482 LASSO 0,9643 RF 0,6599 LASSO 0,9307

в % к предыдущему месяцу

Оборот розничной торговли - всего, млрд. руб. RF 0,6178 EN 0,6984 RF 0,624 EN 0,7195 RF 0,6339 EN 0,7262

Численность занятого

в экономике населения, ARIMA 1 LASSO 2,5851 ARIMA 1 LASSO 2,2131 ARIMA 1 LASSO 1,5222

млн.человек

Общая численность

безработных в возрасте OLS 0,8988 LASSO 0,9548 LASSO 0,9461 Ridge 0,9813 LASSO 0,9586 ARIMA 1

15-72 лет, млн. человек

Численность официально

зарегистрированных

в службе занятости Ridge 0,5511 post-LASSO 0,5512 post-LASSO 0,3514 Ridge 0,4479 post-LASSO 0,3234 LASSO 0,4162

безработных на конец

месяца, млн.человек

о

NJ О

п о

~Z-

о

п о

m

<

гп

I—

О

< о

Назначено пособий по безработице, млн. шт. Ridge 0,374 post-LASSO 0,4381 Ridge 0,3945 RF 0,4343 Ridge 0,4531 RF 0,4834

Курс рубля к доллару OLS 0,7277 Ridge 0,7973 OLS 0,8285 Ridge 0,8645 RF 0,9092 Ridge 0,9435

Курс доллара к евро Ridge 0,9271 LASSO 0,9375 ARIMA 1 LASSO 1,0114 ARIMA 1 LASSO 1,0278

Денежная база, млн. руб. RF 0,3663 OLS 0,451 RF 0,3299 LASSO 0,35 RF 0,3733 LASSO 0,3818

Резервные деньги, млрд. руб. EN 0,9763 LASSO 0,9931 EN 0,7311 Ridge 0,7533 EN 0,6984 Ridge 0,7047

Денежная масса М1, млн. руб. RF 0,3704 EN 0,5684 RF 0,3822 EN 0,4595 EN 0,4681 RF 0,4716

Денежная масса М2, млн. руб. post-LASSO 0,5252 OLS 0,5669 post-LASSO 0,3536 OLS 0,3679 post-LASSO 0,3191 OLS 0,3311

Золотовалютные резервы, млн. долл. ARIMA 1 RF 2,1316 ARIMA 1 RF 1,7773 ARIMA 1 RF 1,2386

Реальный обменный курс OLS 0,2291 Ridge 0,4778 Ridge 0,4168 post-LASSO 0,4401 post-LASSO 0,3787 Ridge 0,391

Индекс потребительских цен, в % к предыдущему месяцу RF 0,6337 Ridge 0,6697 RF 0,6115 Ridge 0,6172 Ridge 0,5779 RF 0,6578

Индекс потребительских цен на продукты питания, в % к предыдущему месяцу Ridge 0,736 RF 0,7431 Ridge 0,6214 RF 0,6281 RF 0,6792 LASSO 0,6831

Индекс потребительских цен на алкогольные напитки, в % к предыдущему месяцу EN 0,7768 Ridge 0,8587 post-LASSO 0,5276 EN 0,5509 post-LASSO 0,5314 EN 0,5666

Индекс потребительских цен на непродовольственные товары, в % к предыдущему месяцу post-LASSO 0,5765 RF 0,6576 post-LASSO 0,4851 EN 0,6581 post-LASSO 0,5182 EN 0,6448

Индекс потребительских цен на платные услуги, в % к предыдущему месяцу RF 0,4001 Ridge 0,9252 RF 0,3637 Ridge 0,5722 RF 0,3525 Ridge 0,6037

Индекс цен в капитальном строительстве, в % к предыдущему месяцу EN 0,2801 Ridge 0,3333 EN 0,3101 Ridge 0,3593 EN 0,3328 Ridge 0,365

Стоимость минимального набора продуктов питания на одного человека в месяц, руб. ARIMA 1 RF 1,1771 RF 0,8708 ARIMA 1 RF 0,7847 post-LASSO 0,8402

Примечание: fb model (first best model) - первая наилучшая модель; sb model (second best model) наилучшей модели; sb score (second best model score) - показатель второй наилучшей модели. Источник: расчеты авторов. - вторая наилушчая модель; fb score (first best model score) - показатель первой

VI VI

Литература / References

1. Пестова А.А., Мамонов М.Е. Обзор методов макроэкономического прогнозирования: в поисках перспективных направлений для России // Вопросы экономики. 2016. Т. 6. С. 45—75 / Pestova А.А., Mamonov М.Е. A survey of methods of macroeconomic forecasting: looking for perspective directions in Russia // Voprosy Ekonomiki. 2016. Vol. 6. Pp. 45-75.

2. Athey S. The Impact of Machine Learning on Economics. The Economics of Artificial Intelligence: An Agenda (forthcoming). University of Chicago Press, January 2018.

3. Box G.E.P., Jenkins G.M. Time series analysis: Forecasting and control Holden-Day. San Francisco. 1970.

4. Efron B., Hastie T., Johnstone I. et al. Least angle regression // The Annals of Statistics. 2004. Vol. 32. No. 2. Pp. 407-499.

5. Breiman L.F., Friedman J.H., Olshen R.A., Stone C. Classification and regression trees. Pacific Grove, Kalifornien. 1983.

6. Breiman L. Bagging predictors // Machine Learning. 1996. Vol. 24. No. 2. Pp. 123-140.

7. Breiman L. Random forests // Machine Learning. 2001. Vol. 45. No. 1. Pp. 5-32.

8. Coulombe P.G., Leroux M., Stevanovic D., Surprenant S., Efron B., Hastie T., Johnstone I., Tibshirani R. How is Machine Learning Useful for Macroeconomic Forecasting? CIRANO, 2019. No. 2019s-22.

9. Geman S., Bienenstock E., Doursat R. Neural networks and the bias/variance dilemma // Neural Computation. 1992. Vol. 4. No. 1. Pp. 1-58.

10. Giannone D., Lenza M., Primiceri G. Macroeconomic prediction with big data: the illusion of sparsity. Technical report / Federal Reserve Bank of New York. 2017.

11. Ho T.K. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. Vol. 20. No. 8. Pp. 832-844.

12. Kotchoni R., Leroux M., Stevanovic D. Macroeconomic forecast accuracy in a data rich environment // Journal of Applied Econometrics. 2019. Vol. 34. No. 7. Pp. 1050-1072.

13. Medeiros M.C., Vasconcelos G.F.R., Veiga A., Zilberman E. Forecasting Inflation in a data-rich environment: the benefits of machine learning methods // Journal of Business & Economic Statistics. 2019. Pp. 122.

14. Tibshirani R. Regression shrinkage and selection via the lasso // Journal of the Royal Statistical Society: Series B (Methodological). 1996. Vol. 58. No. 1. Pp. 267-288.

15. Zou H., Hastie T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society: Series B (Statistical Methodology). 2005. Vol. 67. No. 2. Pp. 301-320.

Forecasting Macroeconomic Indicators of the Russian Economy Using Dimension Reduction Models

Anton A. Skrobotov - Researcher of the Russian Presidential Academy of National Economy and Public Administration, Candidate of Economic Sciences (Moscow, Russia). E-mail: antonskrobotov@gmail.com Aleksey V. Tsarev - Younger Researcher of the Russian Presidential Academy of National Economy and Public Administration (Moscow, Russia). E-mail: tsaryov.alexey.v@gmail.com

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

This study is devoted to the analysis of forecast power of dimension reduction models for Russian macroeconomic time series. Various approaches and methods for modeling and forecasting high-dimensional macro-economic time series are reviewed and discussed. The approaches considered are applied to Russian data on 29 time series for the period from January 2000 to June 2019. A comparative analysis of the results indicates that in half of the cases, the random forest model is the best in terms of predictive power, and its use on average improves the quality of the constructed forecasts by 5%, 25%, and 30% for the short, medium, and long-term periods, respectively.

Key words: forecasting, forecast evaluation, Russian macroeconomic time series, LASSO, random forest.

i Надоели баннеры? Вы всегда можете отключить рекламу.