Управление данными для моделирования оценок волатильности
Пастухов Семён Игоревич,
аспирант направления подготовки «Экономика», Университет Правительства Москвы E-mail: pastukhov.se@gmail.com
Качество входных данных является достаточно важным фактором для чистоты и корректности дальнейшего управления процессом построения моделей. Так, для моделирования с помощью GARCH подхода необходимы входные данные, свободные от автокорреляции их значений. При этом, как правило, самые популярные наборы данных для моделей условной ге-тероскедастичности имеют признаки автокорреляции. Обычно в исследовании участвуют финансовые временные ряды: валютные пары, акции, облигации и другие инструменты. Для использования этих данных в качестве инпута GARCH моделей их приводят к виду простых линейных доходностей. Зачастую, после такой предобработки данных посредством статистических тестов выявляется наличие автокорреляции в исследуемом временном ряду, что не дает далее использовать их в построении GARCH модели. В данной статье предлагается способ решить эту проблему, и независимо от типа и вида исследуемого набора данных всегда иметь возможность повышать его качество, а также качество GARCH модели на его основе. Для этого предлагается использовать достаточно известный подход Бокса-Дженкинса и их интегрированную модель авторегрессии и скользящего среднего (ARIMA). Данная модель позволяет упорядочить временной ряд доходностей и получить ее остатки, в которых не будет признаков автокорреляции значений. Именно этим остаткам, вместо простых линейных доходностей будет отдаваться предпочтение при выборе входных данных для GARCH моделирования.
Ключевые слова: временные ряды; финансовые временные ряды; авторегрессионные модели; количественная аналитика; ARIMA; GARCH.
LQ S Ое
со см о см
03
Одним из самых важных этапов управления процессом моделирования является предобработка и анализ качества входных (инпут) данных. В GARCH подходе можно использовать как простые линейные доходности, так и остатки от других авторегрессионных моделей, в которых участвовали эти доходности. Задачей исследователя будет определить, какие данные являются более качественными, ведь от этого выбора будет зависеть качество прогноза и модели в целом.
Для корректного построения GARCH модели и прогнозирования оценок волатильности необходим временной ряд данных, в котором будет отсутствовать автокорреляция его значений. При этом исследуемый ряд должен иметь признаки наличия условной гетероскедастичности, о чем может свидетельствовать автокорреляция значений дисперсии.
Как правило, ряд простых линейных доходностей финансового инструмента закономерно является автокоррелированным, и его нельзя использовать в качестве входных данных. Чтобы решить эту проблему достаточно провести дополнительное моделирование временного ряда посредством авторегрессионной модели по методологии Бокса-Дженкинса. Таким образом, при корректном подборе параметров модели можно получить ее остатки, свободные от автокорреляции, а их в свою очередь использовать в качестве входных данных для GARCH модели.
В качестве примера можно рассмотреть временной ряд линейных доходностей валютной пары за определенный период. Так, при первичном анализе этих данных была выявлена автокорреляция (Рисунок 1).
На графике, который представлен выше можно отметить, что достаточно большое количество лагов превышают заданный уровень доверия, что в свою очередь может свидетельствовать о наличии автокорреляции значений исследуемого временного ряда. Для того, чтобы удостовериться в этом, необходима классическая проверка - тест Люинга-Бокса. По результатам теста его статистика равна 99,41, а р^а!ие теста равно 0. Соответственно, нулевая гипотеза об отсутствии автокорреляции отвергается в пользу альтернативной - линейные доходности автокоррелированны.
Для решения этой проблемы была построена авторегрессионная модель ARIMA в соответствии с методологией Бокса-Дженкинса. Посредством этого шага временной ряд доходностей упорядочивается, и доля его случайной составляющей сокращается, конечно, только при условии значимости коэффициентов модели и значимости модели в целом.
Таблица 1. Сравнение автокорреляции доходностей и остатков модели.
Рис. 1. Автокорреляционная функция простых линейных доходностей валютной пары
Следующий этап - это повторная проверка на автокорреляцию - анализ остатков от модели ARIMA на предмет того, подходят ли они для использования в качестве входных данных для GARCH модели. Так, для полученных остатков были проведены ровно те же проверки и тесты, что и для ряда простых линейных доходностей исследуемого инструмента.
На графике автокорреляционной функции остатков модели ARIMA (Рисунок 2) можно заметить, что большая часть лагов не выходит за пределы доверительного интервала, что может говорить о качестве исследуемого временного ряда.
Рис. 2. Автокорреляционная функция остатков модели ARIMA
Статистика Люинга-Бокса в этом случае равна 58,21, p-value теста равно 0,031. Соответственно, на 1% уровне значимости нулевая гипотеза о некоррелированности временного ряда не отвергается. Другими словами, на 1% уровне доверия в остатках от модели ARIMA отсутствует автокорреляция, что, как уже было сказано, является важным фактором при выборе данных для последующего моделирования через ARCH модели.
Для наглядности целесообразности использования остатков модели ARIMA была построена таблица со сравнительной характеристикой исследуемых временных рядов (Таблица 1). В качестве дополнительной меры сравнения были посчитаны значения средней абсолютной ошибки (MAE) и средней квадратичной ошибки (MSE).
Данные Статистика Люинга-Бокса P-value Люинга-Бокса MAE MSE
Доходности 99,41 0,000 0,0059 7,95e-05
Остатки 58,21 0,031 0,0058 7,79e-05
Таким образом, остатки модели ARIMA в отличии от линейных доходностей инструмента являются временным рядом без признаков автокорреляции, а также обладают более высоким качеством ввиду низких показателей средних ошибок. Соответственно, для последующего моделирования оценок волатильности с помощью GARCH подхода целесообразно использовать в качестве входных данных именно остатки от авторегрессионной модели вместо простых линейных доходностей исследуемого финансового инструмента.
Заключение
Как уже было сказано ранее, качество входных данных является достаточно важным фактором для чистоты и корректности дальнейшего процесса построения моделей. Конкретно для GaRch подхода необходимы входные данные, свободные от автокорреляции их значений. В данной статье нам удалось показать на актуальном примере способ исключить автокорреляцию из исследуемого временного ряда.
Для этого необходимо ввести дополнительный этап обработки данных посредством авторегрессионной модели. А в результате этого шага можно получить некоррелированные остатки, которые далее будут использоваться в качестве входных данных для GARCH модели.
На релевантном примере было показано, как методология Бокса-Дженкинса помогает справиться с этой задачей. Действительно, остатки от модели ARIMA не обладают признаком автокорреляции, в отличие от ряда простых линейных доходностей финансового инструмента. Также, стоит отметить, что показатели средней абсолютной и средней квадратичной ошибки у остатков авторегрессионной модели ниже, чем у временного ряда доходностей, что дополнительно может свидетельствовать о более высоком качестве этих данных.
Таким образом, для GARCH моделирования оценок волатильности целесообразнее использовать именно остатки от авторегрессионной модели вместо ряда линейных доходностей, даже при условии отсутствия в нем признаков автокорреляции его значений.
Литература
1. Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, 31(3), 307-327.
C3
о
CO £
m Р СГ
CT1 А
IE
2. Hansen, P. R., & Lunde, A. (2012). Forecasting volatility using high frequency data.
3. Ho S. L., Xie M. The use of ARIMA models for reliability forecasting and analysis //Computers & industrial engineering. - 1998. - T. 35. - № . 1-2. -C. 213-216.
4. Kumar, M., & Thenmozhi, M. (2014). Forecasting stock index returns using ARIMA-SVM, ARI-MA-ANN, and ARIMA-random forest hybrid models. International Journal of Banking, Accounting and Finance, 5(3), 284-308.
5. Makridakis S., Hibon M. ARMA models and the Box-Jenkins methodology //Journal of forecasting. - 1997. - T. 16. - № . 3. - C. 147-163.
6. Shumway R. H. et al. ARIMA models //Time Series Analysis and Its Applications: With R Examples. -2017. - C. 75-163.
7. Yaziz S. R. et al. The performance of hybrid ARIMA-GARCH modeling in forecasting gold price //20th international congress on modelling and simulation, adelaide. - 2013. - C. 1-6.
SELECTION OF INPUT DATA FOR GARCH MODELING OF VOLATILITY ESTIMATES
Pastukhov S.I.
Moscow Government University
The quality of the input data is quite an important factor for the purity and correctness of the further process of building models. So, for modeling using the GARCH approach, input data are required that are free from the autocorrelation of their values. At the same time, as a rule, the most popular data sets for conditional heteroscedasticity models have signs of autocorrelation. Usually, financial time series
are involved in the study: currency pairs, stocks, bonds, and other instruments. To use these data as inputs to GARCH models, they are reduced to simple linear returns. Often, after such preprocessing of data through statistical tests, the presence of autocorrelation in the studied time series is revealed, which prevents them from being further used in building a GARCH model. This article proposes a way to solve this problem, and regardless of the type and type of dataset under study, always be able to improve its quality, as well as the quality of the GARCH model based on it. To do this, it is proposed to use the well-known Box-Jenkins approach and their autoregression integrated moving average model (ARIMA). This model allows you to streamline the time series of returns and obtain its residuals, in which there will be no signs of autocorrelation of values. It is these residuals, instead of simple linear returns, that will be given preference when choosing input data for GARCH modeling.
Keywords: time series; financial time series; autoregressive models; quantitative analytics; ARIMA; GARCH.
References
1. Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of econometrics, 31(3), 307-327.
2. Hansen, P. R., & Lunde, A. (2012). Forecasting volatility using high frequency data.
3. Ho S. L., Xie M. The use of ARIMA models for reliability forecasting and analysis //Computers & industrial engineering. -1998. - T. 35. - № . 1-2. - C. 213-216.
4. Kumar, M., & Thenmozhi, M. (2014). Forecasting stock index returns using ARIMA-SVM, ARIMA-ANN, and ARIMA-random forest hybrid models. International Journal of Banking, Accounting and Finance, 5(3), 284-308.
5. Makridakis S., Hibon M. ARMA models and the Box-Jenkins methodology //Journal of forecasting. - 1997. - T. 16. - № . 3. -C. 147-163.
6. Shumway R. H. et al. ARIMA models //Time Series Analysis and Its Applications: With R Examples. - 2017. - C. 75-163.
7. Yaziz S. R. et al. The performance of hybrid ARIMA-GARCH modeling in forecasting gold price //20th international congress on modelling and simulation, adelaide. - 2013. - C. 1-6.
a.
e
CM 03