Научная статья на тему 'Прогнозирование инфляции на основе интернет-запросов'

Прогнозирование инфляции на основе интернет-запросов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
459
90
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / ИНФЛЯЦИЯ / GOOGLE TRENDS / ПРОГНОЗИРОВАНИЕ / МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ / СЕЗОННОСТЬ / ОЖИДАНИЯ / ПОИСКОВЫЕ ЗАПРОСЫ / BIG DATA / INFLATION / FORECASTING / MACHINE LEARNING METHODS / SEASONALITY / EXPECTATIONS / SEARCH QUERIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Петрова Диана Абдумуминовна

В настоящее время доступность большого объема данных увеличивается за счет использования Интернета. Одна из крупнейших поисковых систем Google регулярно предоставляет статистику по поисковым запросам. В настоящей работе исследуется пригодность интенсивности поисковых запросов Google Trends, как прокси-переменной ожиданий экономических агентов, для прогнозирования уровня инфляции в период с января 2004 г. по июль 2019 г. В анализе рассматриваются интернет-запросы, связанные с финансовыми рынками, инфляционными ожиданиями и макроэкономическими условиями. Результаты показывают, что использование поисковых запросов Google и методов машинного обучения при прогнозировании улучшает качество прогноза инфляции по сравнению с эталонной моделью.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Inflation Forecasting Based on Internet Search Queries

In recent times the accessibility of big data has risen with the increase of internet usage. The largest internet search engine Google provides statistics about the search activity. This study examines the usefulness of Google Trends intensity search queries data as a measure of economic expectations in predicting inflation during the period between January 2004 and July 2019. I use search queries related to financial markets, inflation expectations and macroeconomic conditions. The results show that the addition of Google search queries and machine learning methods improve inflation forecasting over benchmark model.

Текст научной работы на тему «Прогнозирование инфляции на основе интернет-запросов»

Инновационная экономика

ПРОГНОЗИРОВАНИЕ ИНФЛЯЦИИ НА ОСНОВЕ ИНТЕРНЕТ-ЗАПРОСОВ

Д. А. ПЕТРОВА

В настоящее время доступность большого объема данных увеличивается за счет использования Интернета. Одна из крупнейших поисковых систем Google регулярно предоставляет статистику по поисковым запросам. В настоящей работе исследуется пригодность интенсивности поисковых запросов Google Trends, как прокси-переменной ожиданий экономических агентов, для прогнозирования уровня инфляции в период с января 2004 г. по июль 2019 г. В анализе рассматриваются интернет-запросы, связанные с финансовыми рынками, инфляционными ожиданиями и макроэкономическими условиями. Результаты показывают, что использование поисковых запросов Google и методов машинного обучения при прогнозировании улучшает качество прогноза инфляции по сравнению с эталонной моделью.

Ключевые слова: большие данные, инфляция, Google Trends, прогнозирование, методы машинного обучения, сезонность, ожидания, поисковые запросы.

Данные о поведении пользователей в Интернете становятся ключевым источником информации о предпочтениях и ожиданиях экономических агентов. В связи с этим за несколько последних десятилетий стало популярным исследование данных, доступность которых повысилась за счет усовершенствованных технологий сбора, хранения и обработки информации.

Раскрытие статистики правительством и центральным банком во всех странах происходит с запаздыванием от нескольких недель до нескольких месяцев, и экономические агенты получают доступ к данным по экономическим показателям в основном на ежемесячной или ежеквартальной основе. В свою оче-

редь, интенсивность поисковых запросов в системе Google по экономической и финансовой тематике можно анализировать на еженедельной и ежемесячной основе. По этой причине актуальность приобретает использование данных по интернет-запросам1 с целью получения прокси-переменной для выявленных ожиданий экономических агентов относительно экономических показателей и применения соответствующей переменной при анализе и прогнозировании экономической динамики.

Прогнозирование инфляции является важной задачей при принятии экономическими агентами решений относительно потребления,

Петрова Диана Абдумуминовна, научный сотрудник РАНХиГС при Президенте Российской Федерации (Москва), е-mail: [email protected]

1 Сервис Google Trends публикует временные ряды интенсивности поисковых запросов по различным ключевым словам в поисковой системе Google для заданного географического местоположения. Индекс поискового запроса сервиса Google Trends по определенному ключевому слову дан не в абсолютном выражении, а строится в виде интенсивности в диапазоне от 0 до 100 баллов, измеренной как

GSVL

YKm.t с

где GSVIK , (Google Search Volume Index) — относительная популярность запросов; S — число поисковых запросов по определенному ключевому слову/фразе на момент времени t; — совокупный объем поисковых запросов в момент времени t и для заданного местоположения. Полученные результаты ранжируются по стобалльной шкале, отражающей уровень интереса к определенной теме по отношению к другим интернет-запросам: 100 баллов присваивается максимальному значению интенсивности GSVIK,, 50 баллов — интенсивности поискового запроса вдвое ниже, чем в первом случае, 0 — в случае отсутствия интереса к определенной тематике (не превышает 1% от максимума).

инвестиций и сбережений. Статистические данные по инфляции на ежемесячной основе публикуются с временным лагом. На основании имеющихся данных экономические агенты могут делать вывод о возможных в будущем краткосрочных колебаниях экономических показателей. Для проверки гипотезы об изменении цен экономические агенты предъявляют спрос на информацию в Интернете, причем это происходит еще до того, как им станут доступны данные о фактической инфляции. В такой ситуации данные об интенсивности интернет-запросов могут служить прокси-переменной для инфляционных ожиданий.

Как показывает международный опыт, использование интернет-данных дает возможность получать оперативную информацию о текущем состоянии экономики, а также отслеживать настроения и ожидания экономических агентов. В работе Гусман [6] впервые был проведен анализ «предсказательной» способности поисковых запросов при прогнозировании инфляции в США в период с февраля 2004 г. по октябрь 2008 г. с помощью модели ARX. Автор предположила, что в случае повышения обеспокоенности населения относительно роста цен на текущий момент или в будущем будет происходить увеличение интернет-запросов по ключевому слову «инфляция». Это означает, что усиление интереса к инфляции в Интернете отражает пересмотр инфляционных ожиданий. По этой причине, по мнению автора, поисковый запрос «инфляция» может рассматриваться как мера инфляционных ожиданий. Результаты показали, что поисковый запрос «инфляция» дает наилучший прогноз этого показателя по сравнению с 37 другими типами инфляционных ожиданий, включая полученные на основе опросов Мичиганского университета и профессиональных аналитиков.

В работе Ли и др. [8] был предложен альтернативный подход к отбору ключевых слов с выделением позитивных и негативных ключевых слов на основе анализа новостных статей для прогнозирования инфляции в Китае в те-

чение 2004-2012 гг. Авторы использовали модель со смешанной периодичностью данных (MIDAS) с еженедельными данными по поисковым запросам и модель распределенных лагов (ADL). Для снижения размерности поисковых запросов применялся метод главных компонент. Авторы показали, что MIDAS в целом характеризуется более высокой предсказательной силой по сравнению с ADL на большинстве прогнозных горизонтов.

Сиболд и Коппола [9] проанализировали поисковые запросы в Google Trends, исходя из предположения о том, что на инфляцию в Коста-Рике, Сальвадоре и Гондурасе оказывают влияния потребительские настроения населения. Результаты показали повышение точности прогноза инфляции при добавлении поисковых запросов по сравнению с эталонной моделью.

В целом международный опыт говорит о том, что на основе поисковых запросов появляется возможность улучшения регулярно обновляемых прогнозов инфляции. Для российской экономики также актуальным является вопрос о том, содержится ли в поисковых интернет-запросах информация, позволяющая повысить качество прогнозирования инфляции.

В рамках настоящего исследования для учета информации из поисковых запросов и решения проблемы высокой размерности [5], как и в работе Байбузы [1], для прогнозирования инфляции в период с января 2004 г. по июль 2019 г. были использованы следующие методы машинного обучения: лассо, метод наименьших, углов, гребневая регрессия, эластичная сеть, случайный лес, градиентный бус-тинг и линейная модель с главными компонентами. Рассмотрим эти методы более подробно.

Метод лассо [10] предполагает включение в модель штрафа, накладывающего ограничения на абсолютные значения коэффициентов и позволяющего получить разреженную матрицу объясняющих переменных (исключить из модели факторы с небольшой предсказательной способностью). Оптимизационная функция со штрафом для модели лассо имеет вид

ПРОГНОЗИРОВАНИЕ ИНФЛЯЦИИ НА ОСНОВЕ ИНТЕРНЕТ-ЗАПРОСОВ

min

|y-Xß||2 + a||ß|

где y-исходный ряд, или сезонно скорректированная инфляция к предыдущему месяцу; X - интенсивность поисковых запросов Google Trends; а - коэффициент регуляризации, подбираемый на основе перекрестной проверки со скользящим окном2, ß - оцениваемые коэффициенты в модели.

LARS (метод наименьших углов) [3] -метод выбора такого набора факторов, который имел бы наиболее значимую статистическую связь с зависимой переменной.

Гребневая регрессия определяется следующим образом:

min

2п

|y-Xß||2 + a||ß||2

Введение в данную модель штрафа накладывает ограничения на оцениваемые параметры так, что они могут принимать большие значения при пропорциональном снижении среднеквадратичной ошибки. Как и в случае метода лассо, происходит приближение коэффициентов к нулю, но не полное их обнуление. Кроме того, гребневая регрессия позволяет учитывать взаимную информацию из коррелирующих факторов, в то время как метод лассо отбирает лишь один из них.

Эластичная сеть [11] представляет собой линейную комбинацию 1^-регуляризатора (лассо) и 12-регуляризатора (гребневой регрессии) и характеризуется целевой функцией:

min

1

271

ly-Xß^ + apIlßH^ + ^a(l-p) ||ß|

к/ II к 112 •

где гиперпараметры а и р выбираются при перекрестной проверке на скользящем окне.

Случайный лес [2] представляет собой ансамблевый алгоритм3 с решающими деревь-

ями и призван снизить дисперсию прогноза, а также решить проблему переобучения базовой модели. Для этого на основе фактической выборки X генерируется N искусственных подвыборок длины исходной выборки. В искусственную подвыборку входят не все признаки, а только их случайный набор. Далее по каждой получившейся искусственной выборке строится решающее дерево Ь(х).

Итоговым прогнозом алгоритма является среднее значение результатов построения отдельных решающих деревьев:

а(х) = ^^=1Ь1(х).

Градиентный бустинг [4] представляет собой модель, в рамках которой на первом шаге оценивается дерево решений на всей выборке:

Ь,(х)=агдтт1| (Ь(х;) -у.)2, Ь

где Ь(х) — обученная на первом шаге модель.

На втором шаге происходит дообучение модели на остатках, полученных на предыдущем этапе. Итоговый прогноз модели принимает вид

а(х) = Е2171.Ь1.(х) .

Однозначный вывод о том, какая из моделей (с регуляризацией или ансамблевые алгоритмы) позволит получить лучший прогноз, сделать нельзя. Однако предполагается, что ансамблевые методы хорошо «работают» при нелинейных связях между факторами и объясняющей переменной.

В рамках нашего эмпирического анализа рассматриваются 75 поисковых запросов, связанных с финансовыми рынками, интересом населения к текущей экономической ситуации

2 При перекрестной проверке на скользящем окне оцениваются различные модели для подбора наилучших гиперпараметров, минимизирующих заданную функцию потерь.

3 Основная цель применения ансамблевых алгоритмов — создание более устойчивой модели для снижения смещения и/или дисперсии.

и инфляционными ожиданиями, отобранных из числа наиболее популярных запросов на основе тестов на значимую корреляцию с инфляцией: курс доллара, курс рубля, евро, ММВБ, акция, девальвация, санкции, ОФЗ, цена на нефть, brent, котировка, Московская биржа, курс валют, нефть, рост доллара, девальвация рубля, падение доллара, доллар, банк, ЦБ, взять кредит, залог, дефолт, зарплата, импорт, экспорт, рецессия, сбережения, облигации, трудовое законодательство, банкомат, налог, экономика России, процентная ставка, НДФЛ, ипотека, банкротство, Сбербанк, ВТБ, деньги, оклад, безработица, инфляция, продажа, купить, розничная торговля, интернет-магазин, смартфон, цена на газ, сеть магазинов, компьютер, услуги, оборудование, обслуживание, страхование, транспорт, ОСА-ГО, кино, квартира, авиабилет, билет на поезд, билет, аренда, товар, косметика, отель, ресторан, кафе, овощи, цены на квартиры, ЖКХ, дизель, бензин, рост цен и повышение цен.

Временные ряды поисковых запросов, содержащих сезонность, были скорректированы с помощью процедуры X-13 ARIMA-

SEATS. В дальнейшем все поисковые запросы были стандартизированы4.

Временной ряд инфляции имеет выраженную сезонность. (См. рисунок.) По этой причине строятся модели двух типов: с включением сезонных дамми-переменных для исходного ряда или с сезонно скорректированной инфляцией к предыдущему месяцу. Кроме того, каждая модель машинного обучения включает авторегрессионную компоненту.

Результаты оценки точности прогноза для исходного временного ряда и сезонно скорректированной инфляции представлены соответственно в табл. 1 и 2. В качестве эталонной модели рассматривается наивный прогноз. Вневыборочный прогноз строился с июля 2016 по июль 2019 гг. В последнем столбце табл. 1 и 2 представлены результаты проведенного теста Харви и др. на одинаковую предсказательную способность [7] для сравнения качества моделей наивного прогноза и наилучших по RMSFE моделей машинного обучения.

Как видно из табл. 1, линейная модель с пятью главными компонентами имеет более высокую предсказательную способность (отношение RMSFEменьше 1) по сравнению с эта-

Временной ряд инфляции к предыдущему месяцу в 2004-2019 гг.

-1,0

i^-r^oooooicioo opooooirsr

(NrNrnm^j- ^[льлюю

n со ю oi m

о О

о о Б

о О о о

Источник, составлено автором.

' Интенсивности поисковых запросов были центрированы и нормированы на стандартное отклонение.

Таблица 1

Отношение /?М5Я£-методов машинного обучения к наивному прогнозу при прогнозировании инфляции с января 2004 по июль 2019 гг.

п о г о

п о

m

<

m i—

О

< о

Шаг Наивный прогноз Случайный лес Градиентный бустинг Лассо Метод наименьших углов Эластичная сеть Гребневая регрессия Модель с главными компонентами D-M-stat

1 1,00 1,25 1,15 0,68 0,89 0,70 0,88 0,79 2,16**

2 1,00 0,99 0,75 1,18 1,20 1,18 0,83 0,68 4,38***

3 1,00 1,23 1,05 0,66 0,98 0,76 0,87 0,63 5,32***

4 1,00 1,18 0,94 0,74 0,85 0,76 1,11 0,71 6,30***

5 1,00 0,78 1,03 0,53 0,80 0,53 1,03 0,73 3,83***

6 1,00 0,96 0,645 1,62 0,81 1,74 1,54 0,76 3,31***

7 1,00 1,06 0,80 1,65 0,96 1,74 1,55 0,76 5,36***

8 1,00 1,33 1,27 1,23 0,92 1,36 1,95 0,73 4,84***

9 1,00 1,00 1,13 0,73 0,94 0,79 1,70 0,72 5,29***

10 1,00 0,95 0,92 1,08 1,04 1,08 1,50 0,66 6,51***

11 1,00 0,66 0,53 1,03 0,99 1,03 1,34 0,66 4,18***

12 1,00 0,53 0,496 0,94 0,91 0,94 1,03 0,71 4,30***

Примечания.

1. Уровень значимости: * -10%, ** - 5%, *** - 1%.

2. Р-М^а! - ^статистика теста Харви и др.

3. Выделение полужирным - наилучшая модель, которая определяется по минимальному отношению ЯМЭЯЕ (корень из среднеквадратичной ошибки прогноза). Источник: расчеты автора.

О <

U1 <0

; Градиентный бустинг и линейная модель с главными компонентами имеют одинаковую предсказательную способность согласно тесту Харви и др. ! Случайный лес и градиентный бустинг имеют одинаковую предсказательную способность согласно тесту Харви и др.

О)

о

О) А

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0

1

о

п

А

о

>

ии

О п п

о

Таблица 2

Отношение /?М5ЯЕ методов машинного обучения к наивному прогнозу при прогнозировании сезонно скорректированной инфляции с января 2004 по июль 2019 гг.

Шаг Наивный прогноз Случайный лес Градиентный бустинг Лассо Метод наименьших углов Эластичная сеть Гребневая регрессия Модель с главными компонентами 0-М-з1а1

1 1,00 1,35 1,63 1,44 1,39 1,51 2,02 0,78 2,34**

2 1,00 1,12 1,43 1,51 1,16 1,51 1,41 0,56 6,84***

3 1,00 2,77 2,47 1,21 1,23 1,20 1,27 0,52 8,57***

4 1,00 1,53 1,37 1,21 1,17 1,20 1,57 0,58 11,19***

5 1,00 1,13 1,29 1,11 1,13 1,11 1,05 0,61 11,66***

6 1,00 1,22 1,48 1,09 1,09 1,09 1,43 0,66 11,21***

7 1,00 0,66 0,78 1,11 1,11 1,11 1,73 0,62 9,71***

8 1,00 0,96 0,82 1,10 1,10 1,10 1,65 0,57 10,02***

9 1,00 0,95 1,16 0,99 1,12 1,00 1,54 0,59 12,25***

10 1,00 0,94 0,86 1,13 1,13 1,13 1,61 0,58 10,91***

11 1,00 0,437 0,44 1,02 1,02 1,02 1,39 0,51 10,80***

12 1,00 0,51 0,52 0,89 0,89 0,89 1,22 0,50 12,08***

Примечания.

1. Уровень значимости: * -10%, ** - 5%, *** - 1%.

2. Р-М^а! - ^статистика теста Харви и др.

3. Выделение полужирным - наилучшая модель, которая определяется по минимальному отношению ИМБРЕ (корень из среднеквадратичной ошибки прогноза). Источник: расчеты автора.

О

7 Дополнительно были проведены тесты Харви и др. для прогноза на следующие 11 месяцев. В результате гипотеза об одинаковой предсказательной способности не была отвергнута для случайного леса, градиентного бустинга и линейной модели с главными компонентами.

ПРОГНОЗИРОВАНИЕ ИНФЛЯЦИИ НА ОСНОВЕ ИНТЕРНЕТ-ЗАПРОСОВ

лонной моделью на горизонтах прогноза 1-12 месяцев. Если за критерии качества принимать только показатель ИМБЕЕ, то можно увидеть, что для прогноза на следующий месяц наилучшими моделями являются лассо и эластичная сеть. Однако тест Харви и др. показал, что значимого отличия в предсказательной способности эталонной модели и лассо/эластичной сети нет. По этой причине в качестве наилучшей модели рассматривается линейная модель с пятью главными компонентами.

Более точный прогноз инфляции на следующие пять месяцев получается на основе модели лассо, которая оказывается по качеству прогноза примерно такой же, как и эластичная сеть. Градиентный бустинг показывает хороший результат при прогнозе на 6 и 12 месяцев.

Для сезонно скорректированной инфляции наилучшей по качеству прогноза (см. табл. 2) на всех горизонтах оказалась линейная модель с главными компонентами. Результаты показывают, что при прогнозе на 1-12 месяцев гребневая регрессия характеризуется наихудшей предсказательной способностью из-за проблем с переобучением. Аналогичная ситуация наблюдалась и для других моделей с регуляризацией: лассо, метода наименьших углов и эластичной сети. Случайный лес и градиентный бустинг также были склонны к переобучению на горизонтах прогноза на 1-6 месяцев.

Таким образом, результаты проведенных тестов Харви и др. на одинаковую предсказательную способность и отбор наилучших моделей по отношению к НМБРЕ показали, что регрессионная модель с главными своими

моментами характеризуется более высокой предсказательной способностью по сравнению с наивным прогнозом и такими методами отбора переменных, как лассо, гребневая регрессия, метод наименьших углов, градиентный бустинг и случайный лес.

В нашем анализе были рассмотрены различные методы отбора и выделения переменных при больших объемах поисковых запросов для прогнозирования инфляции. Из-за сезонности временного ряда инфляции было построено два типа моделей: с исходным временным рядом и с сезонными дамми-пере-менными, а также с сезонно сглаженным рядом инфляции. Было выявлено, что практически на всех горизонтах прогнозирования гребневая регрессия и метод наименьших углов имели невысокую предсказательную способность по сравнению с эталонной моделью из-за проблем переобучения. Лассо и эластичная сеть показали одинаковую предсказательную способность на всех горизонтах прогноза для исходного ряда и сезонно скорректированной инфляции.

В целом результаты показали эффективность использования линейной модели с главными компонентами для прогнозирования инфляции на 1-12 месяцев для обоих типов показателей по сравнению с наивным прогнозом и методами отбора переменных. Это обусловлено способностью метода главных компонент извлекать наиболее важную информацию из большого числа объясняющих факторов, особенно в случае с сильно коррелирующими объясняющими переменными. ■

Литература / References

1. Baybuza, I. Inflation Forecasting Using Machine Learning Methods // Russian Journal of Money and Finance. 2018. Vol. 77. No. 4. Рр. 42-59.

2. Breiman, L. Random Forests // Machine Learning. 2001. Vol. 45. No. 1. Рр. 5-32.

3. Efron B., Hastie T., Johnstone J., Tibshirani R. Least Angle Regression // The Annals of Statistics. 2004. Vol. 32. No. 2. Рр. 407-499.

4. Friedman, J. Greedy Function Approximation: A Gradient Boosting Machine // The Annals of Statistics. 2001. Vol. 29. No. 5. Рр. 1189-1232.

5. Friedman J., Hastie T., Tibshirani R. The elements of statistical learning. - New York: Springer series in statistics, 2001. Vol. 1. No. 10.

6. Guzman, G. Internet search behavior as an economic forecasting tool: the case of inflation expectations // Journal of Economic and Social Measurement. 2011. Vol. 36. No. 3. Pp. 119—167.

7. Harvey, D., Leybourne, S., Newbold, P. Testing the equality of prediction mean .squared errors // International Journal of forecasting. 1997. Vol. 13. No. 2. Pp. 281-291.

8. Li, X., Shang, W., Wang, S., Ma, J. A MIDAS modelling framework for Chinese inflation index forecast incorporating Google search data // Electronic Commerce Research and Applications. 2015. Vol. 14. Pp. 112-125.

9. Seabold, S., Coppola, A. Nowcasting Prices Using Google Trends. An Application to Central America // World Bank Group, Policy Research Working Paper 7398, 2015.

10. Tibshirani R. Regression shrinkage and selection via the lasso // Journal of the Royal Statistical Society: Series B (Methodological). 1996. Vol. 58. No. 1. Pp. 267-288.

11. Zou, H. Hastie, T. Regularization and variable selection via the elastic net // Journal of the Royal Statistical Society. 2005. Vol. 67. No. 2. Pp. 301-320.

Inflation Forecasting Based on Internet Search Queries

Diana A. Petrova — Researcher of the Russian Presidential Academy of National Economy and Public Administration (Moscow, Russia). E-mail: [email protected]

In recent times the accessibility of big data has risen with the increase of internet usage. The largest internet search engine Google provides statistics about the search activity. This study examines the usefulness of Google Trends intensity search queries data as a measure of economic expectations in predicting inflation during the period between January 2004 and July 2019. I use search queries related to financial markets, inflation expectations and macroeconomic conditions. The results show that the addition of Google search queries and machine learning methods improve inflation forecasting over benchmark model.

Key words: big data, inflation, Google Trends, forecasting, machine learning methods, seasonality, expectations, search queries.

i Надоели баннеры? Вы всегда можете отключить рекламу.