Научная статья на тему 'Big Data и волатильность на финансовых рынках: исследование корреляции с использованием данных о поисковой активности'

Big Data и волатильность на финансовых рынках: исследование корреляции с использованием данных о поисковой активности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
35
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
big data / google trends / IMOEX / adrl / adrl model / финансовые рынки / прогнозирование временных рядов / волатильность / модели волатильности / big data / big data analytics / google trends / IMOEX / adrl / adrl model / financial markets / predicting time series / volatility / volatility models

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чернышова Марина Витальевна, Шавкутенко Евгения Николаевна

Целью статьи является изучение проблемы использования больших данных на финансовых рынках и возможности определения корреляции между поисковой активностью пользователей в сети Интернет и изменением цен на финансовые активы. В статье рассматривается методика проведения исследования, а также обзор существующих работ в этой области. Автор анализирует выборку больших данных, исследует корреляцию и строит модель статистической оценки. В статье показано, что существует связь между поисковой активностью и изменением цен на финансовые активы, что может быть полезно для прогнозирования изменений на рынке. Эти результаты имеют важное значение для инвесторов и специалистов в области финансов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIG DATA AND VOLATILITY IN FINANCIAL MARKETS: A CORRELATION STUDY USING SEARCH ACTIVITY DATA

The aim of the article is to investigate the use of big data in financial markets and the potential for identifying correlations between internet users’ search activity and changes in financial asset prices. The article discusses the research methodology and provides a review of existing literature in this field. The author analyzes a dataset of big data, explores correlations, and constructs a statistical estimation model. The article demonstrates the existence of a relationship between search activity and changes in financial asset prices, which can be valuable for predicting market fluctuations. These findings hold significant importance to investors and experts in finance.

Текст научной работы на тему «Big Data и волатильность на финансовых рынках: исследование корреляции с использованием данных о поисковой активности»

Big Data и волатильность на финансовых рынках: исследование корреляции с использованием данных о поисковой активности

Чернышова Марина Витальевна,

к.э.н., доцент Департамента финансовых рынков и финансового инжиниринга Финансового университета при Правительстве Российской Федерации E-mail: mvchernyishova@fa.ru

Шавкутенко Евгения Николаевна,

магистрант Финансового университета при Правительстве Российской Федерации E-mail: jane@shavkutenko.ru

Целью статьи является изучение проблемы использования больших данных на финансовых рынках и возможности определения корреляции между поисковой активностью пользователей в сети Интернет и изменением цен на финансовые активы. В статье рассматривается методика проведения исследования, а также обзор существующих работ в этой области. Автор анализирует выборку больших данных, исследует корреляцию и строит модель статистической оценки. В статье показано, что существует связь между поисковой активностью и изменением цен на финансовые активы, что может быть полезно для прогнозирования изменений на рынке. Эти результаты имеют важное значение для инвесторов и специалистов в области финансов.

Ключевые слова: big data, google trends, IMOEX, adrl, adrl model, финансовые рынки, прогнозирование временных рядов, волатильность, модели волатильности.

Введение

Современные финансовые рынки характеризуются высокой динамикой и нестабильностью, что создает сложности для анализа и прогнозирования цен на активы. В связи с чем все более популярными в качестве инструмента для оценки волатильности на финансовых рынках становятся методы анализа больших данных (Big Data).

Анализа больших данных на финансовых рынках позволяет предсказывать изменения на рынке, принимать более обоснованные инвестиционные решения и управлять рисками. Большие данные могут помочь выявить скрытые закономерности и тренды на рынке, которые не видны при обычном визуальном анализе.

Волатильность рынков может быть связана с экономическими показателями, такими как ВВП, инфляция и безработица, новостями, такими как политические события и крупные экономические сделки, а также с настроениями населения, такими как оптимизм или пессимизм.

Фактическое настроение населения отражается и в том, что в определенный момент пользователи ищут в интернете, какие материалы изучают. Невозможно знать точно, как поисковая активность пользователей в сети Интернет связана с изменением цен на финансовые активы. Некоторые исследования показывают, что существует корреляция между этими факторами, но не все результаты однозначны [6, 11].

Ключевая гипотеза данного исследования заключается в определении корреляция между поисковой активностью пользователей в сети Интернет и изменением цен на финансовые активы, где поисковая активность базируется на основе запросов определенных словосочетаний в поисковой системе.

Задачи исследования:

• определить и подготовить необходимые наборы данных;

• выявить и подтвердить наличие или отсутствие корреляции между исследуемыми наборами данных;

• построить модель статистической оценки. Для этого рассматриваются существующие методики использования Big Data для оценки волатильности на финансовых рынках, а также существующие исследования в этой области.

Изучение методик использования Big Data на финансовых рынках проводится учётными довольно давно, что подтверждается большим количеством научных статьей, публикаций в СМИ и дру-

сз о

со £

m Р сг

СТ1 А

гих авторитетных источниках информации. В ходе исследования был проведен анализ существующих исследований в этой области и выделены наиболее перспективные направления.

Методики использования Big Data для оценки волатильности на финансовых рынках

Термин Big Data или «большие данные» появился сравнительно недавно, предположительно между 2008 и 2013 годами и до сих пор не имеет единого научного определения. Первое упоминание словосочетания «big data» в отношении большого количества информации принадлежит Чарльзу Тилли, ученому из университета Мичигана, который употреблял это словосочетание в своей публикации в 1980 году, однако первое появление термина в Оксфордском словаре относится лишь к 2013 году [10]. Оксфордский словарь определяет «большие данные» как: «данные очень большого размера, обычно в такой степени, что их обработка и управление представляют значительные логистические вызовы; (также) отрасль вычислительной техники, связанная с такими данными» [9].

В последующие годы можно встретить множество вариаций этих определений, например, Янн Алган в своей работе «Показатели благосостояния с использованием больших данных: данные индекса благосостояния Google в США» [1] определяет «большие данные» как большое количество данных, часто доступных бесплатно в открытых источниках, например, социальных сетях или публичных сервисах, например, Google Trends [1]. Однако, помимо информации в понятие «большие данные» включаются и особенности обработки этих данных, поскольку их слишком много для ручной обработки. Для этого необходимо разрабатывать специальные методики, такие как, например, описывает в своей работе «Big Data в определении социального самочувствия населения России» Деан Фан-таццини [15].

Исходя из анализа термина «большие данные» можно определить, что Big Data - это технология, которая позволяет анализировать большой объем данных с использованием вычислительных мощностей и алгоритмов машинного обучения. В контексте финансовых рынков Big Data может быть использована для оценки волатильности цен на активы.

Одной из методик использования Big Data для оценки волатильности является анализ новостных потоков. Новости могут оказывать значительное влияние на цены активов, поэтому анализ новостных потоков может помочь в прогнозировании изменений цен. Для анализа новостных потоков могут быть использованы методы машинного обучения, такие как анализ тональности текста и клас-— сификация новостей по категориям. £ Существует множество исследований, посвя-Ц щенных использованию Big Data для оценки вола-Sä тильности на финансовых рынках. Так, например, S Янн Алган в своей работе «Показатели благосо-Ц стояния с использованием больших данных: дан-

ные индекса благосостояния Google в США» [1] использовал открытые большие данные из сервиса Google Trends (Гугл Трендс). Русскоязычные исследователи также применяют данные Google Trends в своих исследованиях. Так, например, Деан Фан-таццини в своей работе «Big Data в определении социального самочувствия населения России» [15] прогнозирует индексы социального настроения с помощью данных Google Trends. Эти исследования показывают, что анализ новостных потоков может быть использован для прогнозирования волатильности на фондовых рынках. Авторы использовали методы машинного обучения для анализа новостных потоков и выявления связи между новостями и изменением цен на активы.

Google Trends - сервис для отслеживания и измерения уровня заинтересованности тем или иным вопросом в определенный момент времени1. Большие данные, которые хранит этот сервис были применены в работах Чжао Лу-Тао, Чжэн Чжи-И, Вэй И-Мин «Прогнозирование изменений запасов нефти с помощью Google Trends: Гибридный вейвлет-декомпозер и ансамблевая модель ARDL-SVR» [12] и Лоуренс Мадзива, Малликарджун Пиллаламар-ри, Снехамой Чаттерджи «Прогнозирование цен на золото с использованием многомерной стохастической модели» [6]. Результат этих работ говорит о том, что с помощью сервиса Google Trends можно получить открытые и актуальные данные по множеству вопросов и использовать их для анализа цен финансовых активов.

Еще одной методикой использования Big Data для оценки волатильности является анализ социальных сетей. Социальные сети являются площадкой для обсуждения различных тем, в том числе и финансовых рынков. Анализ социальных сетей может помочь выявить тренды и настроения инвесторов, что может быть полезно при прогнозировании изменений цен на активы. Такой подход применяет Арианна Лацини в своей работе «Эмоции, настроения и гиперреальность: социальные сети и фондовый рынок во время первой фазы пандемии COVID-19» [5], Аншул Миттал в работе «Прогнозирование акций с использованием анализа настроений в Twitter» [7].

Еще одно исследование, проведенное Дэвидом Валле-Крузом «Влияет ли Twitter на решения фондового рынка? Анализ финансовых настроений во время пандемий: сравнительное исследование периодов H1N1 и COVID-19» [11], показало, что анализ социальных сетей может быть использован для прогнозирования волатильности на фондовом рынке. Авторы исследования использовали методы машинного обучения для анализа сообщений в социальной сети Twitter (Твиттер) и выявления связи между сообщениями и изменением цен на рынках.

Особенность прогнозирования на анализе данных социальных сетей заключается в том, что полу-

1 Что такое Google Trends? Справка Google. - [сайт]. - URL: https://trends.google.com/trends/?geo=RU&hl=ru (дата обращения: 15.09.2023).

ченные данные из публикаций пользователей требуют дополнительной обработки: пословный анализ, разметка и маркировка фраз, обработка сленга и так далее. В то время как данные, полученные из Google Trends представлены в виде шкалы относительных значений. Они обозначают уровень интереса к теме по отношению к наиболее высокому показателю в таблице для определенного региона и периода времени. 100 баллов означают наивысший уровень популярности запроса, 50 - уровень популярности запроса, вдвое меньший по сравнению с первым случаем. 0 баллов означает местоположение, по которому недостаточно данных о рассматриваемом запросе1.

Большие данные - дополнительная возможность для оценки определенного параметра, которая может быть использована в дополнение к официальным индексам. Гибкость этого инструмента дает неоспоримые преимущества, например, можно создавать собственный индикатор из необходимых параметров.

Статистическое моделирование оценки волатильности

Прогнозирование цен на финансовых рынках является одной из ключевых задач в экономике. Для этого используются различные методы, включая анализ временных рядов, машинное обучение и статистические модели. Существует множество статистических моделей оценки. Однако, не все из них подойдут для оценки и прогнозирования именно в области финансов, поскольку эти данные имеют отличительные особенности: стационарность, часто - отсутствие тренда, сезонность и т.д. В данном исследовании рассматриваются три показателя, которые чаще всего используются в прогнозировании на финансовых рынках.

Авторегрессионные модели могут быть применены для анализа временных рядов, которые могут быть стационарными (AR), иметь тренд (ARIMA) или сезонную компоненту (SARIMA) [2].

Обобщенная авторегрессионная условная гете-роскедастичность, или GARCH, является расширением модели ARCH, которая включает компонент скользящего среднего и компонент авторегрессии [2].

Эта модель включает в себя слагаемые дисперсии от предыдущих значений (например, остаточные ошибки белого шума другого процесса), а также остаточные ошибки от среднего процесса.

Кроме того, введение компонента скользящего среднего позволяет учитывать изменения условной дисперсии во времени и зависимость от времени.

Еще одной моделью оценки волатильности является модель ARMA, которая является линейной, где в качестве переменных используются предыдущие их значения, а также скользящие средние.

1 Как сравнивать популярность запросов в Google Trends - Справка. - URL: https://support.google.com/ trends/ans wer/4359550? hl = ru&ref_topic=4365530&sj id=18014931287803076939-EU (дата обращения: 07.09.2023).

Модель подразумевает, что текущие значения ряда полностью зависят от линейной комбинации прошлых значений этого ряда и белого шума [2].

Третьей, наиболее подходящей для прогнозирования на финансовых рынках является Autoregressive Distributed Lag (ARDL) Model - авторегрессионная модель с распределенным лагом, в которой значения ряда находятся в зависимости как от прошлых значений этого ряда, так и от текущих и прошлых значений других, включенных в эту модель, временных рядов. Таким образом эта модель позволяет прогнозировать цены на основе коррелирующих между собой экономических и финансовых данных [2].

ARDL модель является статистической моделью, которая используется для анализа связи между зависимой переменной и набором независимых переменных. В отличие от других авторегрессионных моделей, ARDL модель позволяет учитывать как краткосрочные, так и долгосрочные эффекты независимых переменных на зависимую переменную. Это достигается путем включения в модель авторегрессии и разностей.

ARDL модель может быть использована для прогнозирования цен на финансовых рынках на основе различных экономических и финансовых данных. Одним из таких источников данных являются данные Google Trends. Например, если определенный запрос связан с исследуемой отраслью, то изменение популярности этого запроса может быть связано с изменением цен на акции компаний из этой отрасли. О наличии связи заявляли Деан Фантаццини в своей работе «Big Data в определении социального самочувствия населения России» [15], а также Белла и Тигран Григорян в работе «Прогнозирование индекса VIX как показателя волатильности рынка с помощью запросов Google» [4].

Примеры использования ARDL модели

ARDL модель была успешно применена для моделирования поведения инвесторов Беллой и Тиграном Григорян в своей работе [4] на основе анализа запросов с ключевым словом «нефть» и связанными с ней терминами. Результаты исследования показывают, что существует статистически значимая взаимосвязь между запросами в поисковой системе Google о нефти и волатильностью рынка.

В другом исследовании Имрана Мухаммада Хана «Влияние цен на нефть на развитие фондового рынка в Пакистане: доказательства с использованием нового подхода ARDL с динамическим моделированием» была использована ARDL модель для поиска зависимости и прогнозирования влияния цен на нефть и макроэкономических факторов на развитие фондового рынка в Пакистане с использованием новой динамической авторегрессионной модели с распределенным запаздыванием для годовых временных рядов данных, начиная с 1985 по 2017 год [8]. Это исследование показывает, что ADRL модель оптимальна для анализа

сз о со от m Р от

от А

временных рядов, не имеющих сильном корреляции и применима в тех случаях, когда предыдущее значение временного ряда может оказывать влияние на следующие за ним значения.

Уровень точности ARDL модели, а также любой другой применяемой в исследовании модели, зависит от многих факторов, включая качество данных, выбор независимых переменных, структуру модели и методы оценки параметров.

Однако, результаты исследований показывают, что использование ARDL модели с данными Google Trends может значительно улучшить точность прогнозирования цен на финансовых рынках.

Построение модели для прогноза данных индексов

Для демонстрации применения ARDL модели для прогнозирования цен на финансовых рынках на основе данных Google Trends рассмотрим пример прогнозирования цены закрытия индекса IMOEX.

Пошаговый алгоритм построения ARDL-модели.

1. Сбор данных. Для построения ARDL модели необходимо собрать данные о цене закрытия индекса IMOEX за выбранный период1 и соответствующие этой периодичности данные Google Trends2. Для этого можно использовать библиотеку Pandas для загрузки данных [13].

2. Подготовка данных. После загрузки данных произведена их предварительная обработка, включающая удаление пропущенных значений, нормализацию данных и разделение данных на обучающую и тестовую выборки.

3. Построение модели. На основе подготовленных данных значения индекса IMOEX и Google Trends строится модель ARDL. Для этого используются модуль Statsmodels, который предоставляет классы и функции для оценки различных статистических моделей и библиотека Scikit-learn, предназначенная для машинного обучения [13]. Необходимо определить структуру модели (выбрать переменные для включения в модель) и определить порядок авторегрессии и разностей, а далее оценить параметры модели с помощью метода наименьших квадратов.

4. Оценка точности модели. После построения модели оценивается ее точность, для этого используются средняя абсолютная ошибка (MAE) или коэффициент детерминации (R2).

5. Формирование прогноза. После оценки точности модель используется для прогнозирования цены закрытия индекса IMOEX в будущем, для чего на вход модели подаются новые данные Google Trends.

Подбор входных данных для построения модели

Индекс IMOEX является основным индикатором российского фондового рынка и отражает изменения цен на акции крупнейших российских компаний, торгующихся на Московской бирже3. Онегова Я.В. в своей работе «Современное состояние фондового рынка в России» показывает, что данные индекса можно использовать и для оценки экономического состояния России, поскольку в индекс входят котировки системообразующих предприятий [14].

Поэтому, изменения индекса IMOEX могут служить индикатором настроения российского фондового рынка и отражать общую тенденцию роста или падения рынка.

Оценка настроений осуществляется по 2 параметрам:

1) один из ключевых индикаторов организованного рынка ценных бумаг России (IMOEX);

2) индекс данных о поисковой активности пользователей в сети Интернет - Google Trends. Первым элементом станут данные сервиса

Google Trends. Для эксперимента были взяты данные в период с 01.01.2018 по 31.12.2022, понедельно по теме «инфляция» по России4. Этот период затрагивает время введения некоторых экономических санкций, пандемию COVID-19 и начало СВО.

По определению Google Trends, темы - это выражения на любом языке, за которыми стоит одно и то же понятие5. В теме «инфляция» за основу берутся такие поисковые запросы как: «повышение курса валют», «рост цен», «уровень инфляции в рф» и другие близкие по смыслу словосочетания.

Корреляция больших данных по теме «инфляция» проводится с индексом ММВБ. Этот индекс дает представление о настроении на рынке и активности в экономике страны. Период аналогичен6.

Ход исследования

Рассмотрим данные за 5 выбранных лет. Для проверки гипотезы о наличии корреляции и влияния между интересами пользователей сети Интернет и данными индекса IMOEX, ограничимся темой «инфляция», поскольку анализ проводится в плоскости финансов и финансовых рынков.

Собранные данные из сервиса Google Trends с разбивкой по неделям необходимо обработать и представить в виде графика, с использованием модели байесовского усреднения, по результатам

а.

е

со см о см

1 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

2 Инфляция - Анализ - Google Trends. - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

3 Московская Биржа I Индексы. - URL: https://www.moex. com/ru/index/IMOEX (дата обращения: 26.09.2023).

4 Инфляция - Анализ - Google Trends. - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

5 Инфляция - Анализ - Google Trends. - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

6 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

чего осуществляется поиск корреляции с данными индекса IMOEX.

Обработка данных

Для построения модели была взята только цена закрытия индекса IMOEX. Данные из Google Trends это дата начала недели (GWEEK) и уровень интереса к теме «инфляция» (GINFLATION).

Перед обработкой проводится ручная корректировка данных, с целью удаления данных за 3 недели в начале 2022 года: в период с 28.02.2022 по 27.03.2022, в связи с отсутствием данных в указанный временной промежуток из-за приостановки торгов на бирже. Убраны именно понедельные данные, поскольку в Google Trends нет возможности выбора другой разбивки периодов.

Для начала выгрузки данных собираются в csv-файл и имеют следующий табличный вид (рис. 1):

DATE 20130103

2 1' 151' 115 20180122 20160129 201Е0205

OPEN 2212.ьЕ

2 2 6 Е . 01 22 55. 53 22 95..31 2272.67

HIGH 2262.33 230 6.75 232 5.43 2313.21 2251.97

LOW 2212.63

2231.70

2231.71 2264.16 2151.56

CLOSE 22 62.35 22 it.33 2253.26 2251.54 2157.12

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

GWEEK

37.Ol.2013 14.01.20ie 21.01.2013 23.01.2013 04.02.201S

GINFLATION

Рис. 1. Визуальное представление таблицы данных с помощью датафрейма Pandas DataFrame

Источник: составлено автором на основании данных Google Trends1 и данных о стоимости индексов Мосбиржи2.

Следующим шагом уменьшаем таблицу, оставив только нужные для работы колонки (рис. 2).

DÄLE

2Qieoioe

20150115 2 515 0122 2 515512 9 2 51552 55

CLOSE

2 2 t2 ..3 5 22 5 t..55 2295.26 22 51.54 2157.12

i?WEEI-í 57.51.2515 14.51.2515 21.51.2515 2 5.51.2515 54.52.2515

i? INFLATION

22 2 t> 25 22 24

Рис. 2. Визуальное представление таблицы данных с помощью датафрейма Pandas DataFrame

Источник: составлено автором на основании данных Google Trends3 и данных о стоимости индексов Мосбиржи4.

Для того, чтобы привести данные в единую систему учета для дальнейшей работы, переводим данные из колонок CLOSE и GINFLATION в логарифмическую шкалу и добавляем два новых столбца в таблицу (рис. 3).

После перевода данных в единую шкалу построим корреляционную матрицу с помощью с помощью датафрейма Pandas DataFrame (рис. 4).

DA7E 20130103 20130115 201Е0122 20130125 20130205

CLOSE 2262.35 2236.33 2255.26 2251.54 2157.12

GWEEK 07.01.2013 14.01.2013 2 1.01.2013 2 5.01.2013 04.02.2015

GINFLATION

InGINFLATION 3. 051042 3.253057 .3.215576 3. 051042 3.175054

InCIOSE 7.72 4173 7.734703 7.735601 7.732737 7.654503

Рис. 3. Визуальное представление таблицы данных после проведения логарифмирования с помощью датафрейма Pandas DataFrame

Источник: составлено автором на основании данных Google Trends5 и данных о стоимости индексов Мосбиржи6.

InGINFLATION lnCLOSE

InGINFLATION I. О О О О О О О . О55.3ti

InCLC.SE О . О55.3ti 1.00 О О О О

Рис. 4. Визуальное представление таблицы корреляции данных

Источник: составлено автором на основании данных Google Trends7 и данных о стоимости индексов Мосбиржи8.

Корреляция считается стандартным методом Пирсона. Коэффициент Пирсона принимает значение в диапазоне от -1 до 1, которые расшифровываются как:

• -1 - это полностью противоположные значения переменных, не имеют линейной корреляции;

• 0 - это отсутствие линейной корреляции между двумя значениями переменных;

• 1 - это наличие полной линейной корреляции между двумя значениями переменных [3].

Мы видим, что слабая корреляция данных имеется, она неотрицательна и ближе к 1 чем к -1.

Следующим этапом будет проверка данных на стационарность. Временной ряд имеет свойство стационарности, если он не имеет тренда, демонстрирует постоянную дисперсию во времени, а также имеет постоянную структуру автокорреляции во времени.

Для этого необходимо выполнить расширенный тест Дики-Фуллера, в котором используются нулевая и альтернативная гипотезы.

1. H0: Временной ряд является нестационарным. Он имеет некоторую структуру, зависящую от времени, и не имеет постоянной дисперсии во времени.

2. HA: временной ряд является стационарным. Основываясь на уровне значимости 0,05

и p-значении теста Дики-Фуллера, нулевая гипоте-

1 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

2 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

3 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

4 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

5 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

6 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

7 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date=2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

8 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

сз о со от m Р от

от А

сь

е

за не может быть отклонена. Следовательно, ряд нестационарен (рис. 5).

Результаты теста Дики-Фуплера: Статистика теста -1.173202

р-значение 0.685016

Число значений 250.000000

Критическое значение (1%) -3.456781

Критическое значение (5%) -2.873172

Критическое значение (10%} -2.572969

Результаты теста Дики-Фуллера: Статистика теста -2.101967

р-значение 0.243724

Число значений 240.000000

Критическое значение (1%} -3.457894

Критическое значение (5%} -2.873659

Критическое значение (10%) -2.573229

Рис. 5. Данные расширенного теста Дики-Фуллера для lnCLOSE (слева) и для lnGINFLATION (справа)

Источник: составлено автором на основании данных Google Trends1 и данных о стоимости индексов Мосбиржи2.

Из полученных данных, мы видим, что оба временных ряда не являются нестационарными. Для подтверждения этой гипотезы выполним тест Квятковского-Филлипса-Шмидта-Шина (KPSS), который подразумевает в качестве гипотезы H0 то, что ряд стационарен (рис. 6).

Результаты KPSS-теста Статистика теста р-значение Lag

Критическое значение (10%) Критическое значение (5%) Критическое значение [2.5%) Критическое значение (1%) dtype: float64

Результ

KPSS-

теста Кбятковского-Филлипса-Шмидта-Шина) 0.658189 0.017346 10.000000 0.347000 0.463000 0.574000 0.739000

Квятковского-Филлипса-Шмидта-Шина) :

Warning (from warnings module}:

File "С: \Users\j ane2\AppData\Local\Programs\Python\Python311\I.it>\si"te warnings .warn (

InterpolationWarning: The test statistic is outside of the range of p-v loofc-up table. Tbe actual p-value is smaller than the p-value returned.

Статистика теста 1.167717

p-значение 0.010000

Lag S.000000

Критическое значение [10%) 0.347000

Критическое значение (5%) 0.463000

Критическое значение (2.5%) 0.574000

Критическое значение (1%) 0.73S000 dtype: float64

Рис. 6. Данные расширенного теста Квятковского-Филлипса-Шмидта-Шина (KPSS) для CLOSE (слева) и для GINFLATION (справа)

Источник: составлено автором на основании данных Google Trends3 и данных о стоимости индексов Мосбиржи4.

1 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date = 2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

2 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

3 Инфляция - Анализ - Google Trends - URL: https:// trends.google.ru/trends/explore?date = 2018-01-01%20 2022-12-31&q=%2Fm%2F09jx2&hl=ru (дата обращения: 07.09.2023).

4 Статистическая информация ММВБ. - Investing.com -URL: https://ru.investing.com/indices/mcx-historical-data (дата обращения: 07.09.2023).

Нулевая гипотеза подтверждается, поэтому можно строить модель. Для исследования взаимосвязи между индексом IMOEX и запросами Google Trends была использована авторегрессионная модель с распределенным лагом (ARDL).

Значения временного ряда, используемого при построении модели, находятся в зависимости как от прошлых значений этого ряда, так и от текущих и прошлых значений других, включенных в эту модель, временных рядов. Выбор был сделан в пользу данной модели, поскольку для исследования взяты временные нестационарные ряды, находящиеся в корреляции между собой.

Для построения модели использовались модуль Statsmodels, который предоставляет классы и функции для оценки различных статистических моделей и библиотека Scikit-learn, предназначенная для машинного обучения (рис. 7).

Рис. 7. Результат построения модели. График модели (синий) и фактические данные (красный) по неделям за период c 08.01.2018 по 31.12.2022

Источник: составлено автором.

Выводы

В результате проведенного исследования о наличии взаимного влияния данных Google Trends и изменением стоимости индекса IMOEX можно говорить о наличии значительной корреляции между этими данными. Что подтверждается независимыми тестами Дики-Фуллера и Квятковского-Филлипса-Шмидта-Шина.

Визуальное представление построенной модели также подтверждает наличие сильной зависимости между поисковой активностью пользователей и изменением цен на активы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Построенный прогноз на основе предыдущих значений вполне точен даже без дополнительной отладки, но в те моменты, когда на цену начинают влиять внешние факторы, модель не может оперативно предсказать подобные случаи. Этот тезис подтверждается заметным сдвигом на максимальных и минимальных значениях графика, т.е. в периоды сильной волатильности на рынке, а также в моменты изменения ценового тренда (рис. 8).

Проведенное исследование подтверждает возможность использования данных сервиса Google

Trends для анализа поисковой активности пользователей и влияния этой активности на финансовые рынки, а также построение дальнейших движений цен активов на основе этих данных. Правда, построить точную модель движения цены в будущем пока никому не удавалось. В текущем авторском исследовании прогноз также не строился, поскольку первостепенной целью данного исследования являлся поиск и выявление корреляции между поисковой активностью потенциальных и действующих инвесторов и движением цен активов.

Рис. 8. Расхождения между фактическими и прогнозными данными

Источник: составлено автором.

Заключение

Данные Google Trends являются бесплатным доступным источником Big Data, что позволяет беспрепятственно использовать их для проведения независимых исследований после предварительной подготовки и обработки. Такой подход может снизить стоимость некоторых исследований, однако оценка степени точности полученных результатов может варьироваться.

Построение точных моделей на основе подобных данных также возможно, но они скорее всего будут работоспособны на короткие промежутки времени, поскольку на длинном горизонте от 1 года поисковая активность и настроения пользователей могут начать сильно меняться на фоне каких-либо внешних процессов. Поэтому подобные модели требуют постоянного мониторинга и актуализации.

Методики применения больших данных на финансовых рынках - важный инструмент для прогнозирования изменений на рынке, принятия обоснованных инвестиционных решений и управления рисками. Несмотря на то, что уже проведены исследования, связывающие поисковую активность пользователей в сети Интернет с изменением цен на финансовые активы, не все результаты однозначны. Для дальнейшего развития этой области требуется проведение дополнительных исследований и анализа данных. Однако уже сейчас можно сделать вывод о том, что использование Big Data в анализе финансовых рынков является перспективным направлением и имеет большой потенциал для дальнейшего развития.

Литература

1. Algani Y., Beasleyii E., Guyot F. Big Data Measures of Well-Being: Evidence from a Google Well-Being Index in the US [Электронный ресурс] // OECD Statistics Working Papers. - 2016. - № 3. -

С. 1-38. - URL: https://read.oecd-ilibrary.org/eco-nomics/big-data-measures-of-well-being_5jlz9hp-g0rd1-en#page1 (дата обращения: 07.09.2023).

2. Brownlee J. How to Model Volatility with ARCH and GARCH for Time Series Forecasting in Python [Электронный ресурс] // Time Series. -2018. - August. - URL: https://machinelearning-mastery.com/develop-arch-and-garch-models-for-time-series-forecasting-in-python/ (дата обращения: 15.09.2023).

3. Carol J.B. The nature of the data, or how to choose a correlation coefficient // Psychometrika - 1961. -№ 4. - С. 347-370.

4. Grigoryan B., Grigoryan T.G., Forecasting VIX index as a measure of market volatility by the use of Google queries model [Электронный ресурс] // Alternative quarterly academic journal. - 2022. -№ 1. - С. 242-246. - URL: https://tert.nla.am/ar-chive/NLA%20AMSAGIR/ailyntranq/2022(1).pdf (дата обращения: 07.09.2023).

5. Lazzini A., Lazzini S., Balluchi F. Emotions, moods and hyperreality: social media and the stock market during the first phase of COVID-19 pandemic [Электронный ресурс] // Accounting, Auditing &Accountability Journal. - 2022. - № 35(1). -С. 199-215. - URL: https://www.researchgate.net/ publication/353805828_Emotions_moods_and_ hyperreality_social_media_and_the_stock_mar-ket_during_the_first_phase_of_COVID-19_pan-demic (дата обращения: 07.09.2023).

6. Madziwa L., Pillalamarry M., Chatterjee S. Gold price forecasting using multivariate stochastic model [Электронный ресурс] // Resources Policy. -2022. - № 76. - URL: https://www.sciencedirect. com/science/article/abs/pii/S0301420721005511 (дата обращения: 07.09.2023).

7. Mittal A. Stock Prediction Using Twitter Sentiment Analysis [Электронный ресурс] // Standford University. - 2011. - URL: http://cs229.stanford.edu/ proj2011/GoelMittal-StockMarketPredictionUsing TwitterSentimentAnalysis.pdf (дата обращения: 07.09.2023).

8. Muhammad Imran K., Jian-Zhou T., Muhammad Kamran K. The impact of oil prices on stock market development in Pakistan: Evidence with a novel dynamic simulated ARDL approach [Электронный ресурс] // Resources Policy. - 2021. -№ 70. - URL: https://www.sciencedirect.com/sci-ence/article/abs/pii/S0301420720309302 (дата обращения: 07.09.2023).

9. Oxford English Dictionary «Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data». [Электронный ресурс] - URL: http:// www.oed.com/view/Entry/18833#eid301162177 (дата обращения: 15.09.2023).

10. Tilly C. Old new social history and new old social history - CRSO Working Paper. - 1980. - № 21810, с. 8

11. Valle-Cruz D., Fernandez-Cortez V., López-Chau A., Sandoval-Almazán R. Does Twitter Af-

o о

00 £

m Р O"

ет А

fect Stock Market Decisions? Financial Sentiment Analysis During Pandemics: A Comparative Study of the H1N1 and the COVID-19 Periods [Электронный ресурс] // Springer Nature. - 2022. -№ 14(1). - С. 372-387. - URL: https://www.ncbi. nlm.nih.gov/pmc/articles/PMC7825382/ (дата обращения: 07.09.2023).

12. Zhao L., Zheng Z., Wei Y. Forecasting oil inventory changes with Google trends: A hybrid wavelet decomposer and ARDL-SVR ensemble model [Электронный ресурс] // Energy Economics. -2023. - № 120. - URL: https://ideas.repec.org/a/ eee/eneeco/v120y2023ics0140988323001019. html (дата обращения: 07.09.2023).

13. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение // СПб.: Питер,. - 2017. - C. 215216, 234-239.

14. Онегова Я.В. «Современное состояние фондового рынка в России» [Электронный ресурс] // Современные тенденции в науке, технике, образовании. Сборник научных трудов по материалам VII Международной научно-практической конференции. - 2019. - С. 134137

15. Фантаццини Д., Шаклеина М.В., Юрас Н.А. Big Data в определении социального самочувствия населения России [Электронный ресурс] // Прикладная эконометрика. - 2018. - № 50. -С. 43-66 [сайт]. - URL: https://cyberleninka. ru/article/n/big-data-v-opredelenii-sotsialnogo-samochuvstviya-naseleniya-rossii (дата обращения: 07.09.2023).

BIG DATA AND VOLATILITY IN FINANCIAL MARKETS: A CORRELATION STUDY USING SEARCH ACTIVITY DATA

Chernyshova M.V., Shavkutenko E.N.

Financial University under the Government of the Russian Federation

The aim of the article is to investigate the use of big data in financial markets and the potential for identifying correlations between internet users' search activity and changes in financial asset prices. The article discusses the research methodology and provides a review of existing literature in this field. The author analyzes a dataset of big data, explores correlations, and constructs a statistical estimation model. The article demonstrates the existence of a relationship between search activity and changes in financial asset prices, which can be valuable for predicting market fluctuations. These findings hold significant importance to investors and experts in finance.

Keywords: big data, big data analytics, google trends, IMOEX, adrl, adrl model, financial markets, predicting time series, volatility, volatility models.

References

1. Algani Y., Beasleyii E., Guyot F. Big Data Measures of Well-Being: Evidence from a Google Well-Being Index in the US [Digital resource] // OECD Statistics Working Papers. - 2016. -№ 3. - P. 1-38. - URL: https://read.oecd-ilibrary.org/econom-ics/big-data-measures-of-well-being_5jlz9hpg0rd1 -en#page1 (date of access: 07.09.2023).

2. Brownlee J. How to Model Volatility with ARCH and GARCH for Time Series Forecasting in Python [Digital resource] // Time Series. - 2018. - August. - URL: https://machinelearningmas-tery.com/develop-arch-and-garch-models-for-time-series-forecasting-in-python/ (date of access: 15.09.2023).

3. Carol J.B. The nature of the data, or how to choose a correlation coefficient // Psychometrika - 1961. - № 4. - P. 347-370.

4. Grigoryan B., Grigoryan T.G., Forecasting VIX index as a measure of market volatility by the use of Google queries model [Digital resource] // Alternative quarterly academic journal. - 2022. -№ 1. - P. 242-246. - URL: https://tert.nla.am/archive/NLA%20 AMSAGIR/ailyntranq/2022(1).pdf (date of access: 07.09.2023).

5. Lazzini A., Lazzini S., Balluchi F. Emotions, moods and hyper-reality: social media and the stock market during the first phase of COVID-19 pandemic [Digital resource] // Accounting, Auditing &Accountability Journal. - 2022. - № 35(1). - P. 199-215. -URL: https://www.researchgate.net/publication/353805828_ Emotions_moods_and_hyperreality_social_media_and_the_ stock_market_during_the_first_phase_of_COVID-19_pandem-ic (date of access: 07.09.2023).

6. Madziwa L., Pillalamarry M., Chatterjee S. Gold price forecasting using multivariate stochastic model [Digital resource] // Resources Policy. - 2022. - № 76. - URL: https://www.science-direct.com/science/article/abs/pii/S0301420721005511 (date of access: 07.09.2023).

7. Mittal A. Stock Prediction Using Twitter Sentiment Analysis [Digital resource] // Standford University. - 2011. - URL: http://cs229. stanford.edu/proj2011/GoelMittal-StockMarketPredictionUsing TwitterSentimentAnalysis.pdf (date of access: 07.09.2023).

8. Muhammad Imran K., Jian-Zhou T., Muhammad Kamran K. The impact of oil prices on stock market development in Pakistan: Evidence with a novel dynamic simulated ARDL approach [Digital resource] // Resources Policy. - 2021. - № 70. -URL: https://www.sciencedirect.com/science/article/abs/pii/ S0301420720309302 (date of access: 07.09.2023).

9. Oxford English Dictionary «Data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data». [Digital resource] - URL: http://www.oed.com/ view/Entry/18833#eid301162177 (date of access: 15.09.2023).

10. Tilly C. Old new social history and new old social history - CR-SO Working Paper. - 1980. - № 218-10, P. 8.

11. Valle-Cruz D., Fernandez-Cortez V., Lopez-Chau A., Sandoval-Almazan R. Does Twitter Affect Stock Market Decisions? Financial Sentiment Analysis During Pandemics: A Comparative Study of the H1N1 and the COVID-19 Periods [Digital resource] // Springer Nature. - 2022. - № 14(1). - P. 372-387. -URL: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7825382/ (date of access: 07.09.2023).

12. Zhao L., Zheng Z., Wei Y. Forecasting oil inventory changes with Google trends: A hybrid wavelet decomposer and AR-DL-SVR ensemble model [Digital resource] // Energy Economics. - 2023. - № 120. - URL: https://ideas.repec.org/aZeee/ eneecoZv120y2023ics0140988323001019.html (date of access: 07.09.2023).

13. Brink H., Richards J., Feverolf M. Machine Learning // St. Petersburg: Piter,- 2017. - P. 215-216, 234-239.

14. Onegova Y.V. «Current State of the Stock Market in Russia» [Digital resource] // Modern Trends in Science, Technology, and Education. Collection of scientific works based on the materials of the 7th International Scientific and Practical Conference. -2019. - P. 134-137

15. Fantaccini D., Shakleina M.V., Yuras N.A. Big Data in Determining the Social Well-being of the Population in Russia [Digital resource] // Applied Econometrics. - 2018. - № 50. - P. 43-66 -URL: https://cyberleninka.ru/article/n/big-data-v-opredelenii-sotsialnogo-samochuvstviya-naseleniya-rossii (date of access: 07.09.2023).

Q.

e

CO CM

о

CM

i Надоели баннеры? Вы всегда можете отключить рекламу.