Методика построения модели ARIMA для прогнозирования динамики временных рядов

Трегуб А.В.; Трегуб И.В.

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

Библиографический список

1. Савиных, В.П. Информационные технологии в системах экологического мониторинга / В.П. Савиных, В.Ф. Крапивин, И.И. Потапов. - М.: Гео-дезкартиздат, 2007. - 388 с.

2. Mkrtchyan F.A., Krapivin V.F., Kovalev V.I., and Klimov V.V Spectroellipsometric technology for ecological monitoring of the aquatic environment. / Proceedings of the First Mediterranean Photonics Conference, 25-28 June 2008, Ischia, Napoli, Italy, pp. 333-335.

3. Бурков, В.Д. Экономичность адаптивно-эволюционного синтеза информационно-измерительных систем / В.Д. Бурков, В.Ф. Крапивин, И.И. Потапов / Экономика природопользования. - 2007. - № 5. - С. 42-48.

4. Mkrtchyan F. A., Krapivin V F., Kovalev VI., Klimov VV, Rukovishnik A. I., and Golovachev S.P. An adaptive spectroellipsometric technology for the ecological monitoring of the aquatic environment. Proceeding of 25-th ACRS, Chiang-Mai, Thailand, 2004, pp. 13-15.

5. Weis R., Suk-Ho Hong, Ransch J., and Winter J. Rayleigh-Mie scattering ellipsometry as an in situ diagnostic for the production of “smart nanoparticles”./ Phys. Stat. Sol., 2008, vol. 205, No. 4, pp. 802-805.

6. Giovanni Bruno. Spectoscopic ellipsometry: a tool for the real time monitoring at the nanoscale of surface processing./ http://www.nanotec.it/metrologia/ Giovanni Bruno.PDF

7. Baklanov M. R. and Mogilnikov K. P.Non-destructive characterisation of porous low-k dielectric films. / Microelectronic Engineering, 2002, Vol. 64, No. 1, pp. 335-349.

8. Chun Ye. Photopolarimetric measurement of single, intact pulp fibers by Mueller matrix imaging polarimetry./ Applied Optics, 1999, Vol. 38, No. 10, pp. 1975-1985.

9. Perov P.I., Kovalev VI., Rukovishnikov A.I., Rossukanov N.M., and Johnson W.H. Hydrogen-sensitive film study with precise and fast ellipsometers./ IUnt. J. Electronics, 1994, vol. 76, No. 5, pp. 797-803.

10. Бурков, В.Д. Научные основы создания устройств и систем волоконно-оптической техники. Изд-во Московского государственного университета леса / В.Д. Бурков, Г.А. Иванов. - М., 2008. - 332 с.

11. Бурков, В.Д. Экоинформатика: алгоритмы, методы и технологии / В.Д. Бурков, В.Ф. Крапивин. - М.: МГУЛ, 2009. - 432 с.

12. Kondratyev K.Ya., Krapivin V.F., and Varotsos C.A. Natural disasters as interactive components of global ecodynamics. - Springer/Praxis, Chichester.-2006. - 580 pp.

МЕТОДИКА ПОСТРОЕНИЯ МОДЕЛИ ARIMA ДЛЯ ПРОГНОЗИРОВАНИЯ динамики временных рядов

А.В. ТРЕГУБ, доц. каф. высшей математики МГУЛ, канд. физ.-мат. наук,

И.В. ТРЕГУБ, доц. каф. математического моделирования экономических процессов Финансового университета при Правительстве РФ, д-р экон. наук

Широкий круг социально-экономических, технических и физических процессов часто представляется в виде набора последовательных значений некоторого показателя Y Y ..., Y зафиксированных в равноудаленные друг от друга моменты времени. Подобный набор значений Y t = 1,2, ..., n именуется временным рядом, который представляет собой дискретный временной процесс. В зависимости от свойств различают стационарные и нестационарные временные ряды различных порядков. Так, стационарность второго порядка (слабая стационарность или стационарность в широком смысле) наблюдается, если моменты первого и второго порядка (математическое ожидание, дисперсия и

[email protected]

автоковариация) инвариантны по отношению к сдвигу временного аргумента.

При обработке информации о поведении финансовых временных рядов необходимо учитывать, что методы анализа нестационарных случайных процессов существенно отличаются от приемов работы со стационарными случайными временными рядами. Однако в рамках системы фондового рынка существует множество приемов, описывающих его динамику, которые обладают так называемой однородной нестационарностью и могут быть описаны при помощи подходов, применимых к стационарным рядам. К числу таких методов относится применение линейной стохастической модели авторегрессии и

ЛЕСНОЙ ВЕСТНИК 5/2011

179

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

проинтегрированного скользящего среднего (AutoRegressive Integrated Moving Average, ARIMA). Для построения модели ARIMA достаточно использовать информацию, содержащуюся в самих анализируемых данных временного ряда.

В настоящей работе рассматриваются финансовые временные ряды, имеющие стационарность второго порядка. Именно эта степень стационарности, определяемая условиями инвариантности взаимного распределения вероятностей наблюдений, является жестким условием для построения модели ARIMA.

Составляющие модели

Авторегрессионные модели. Авторегрессионная модель [1] порядка p имеет вид

Y = Фо + ФЛ1 + W-2 + ... + (1)

где Yt - уровень временного ряда в момент времени t (зависимая переменная); Yt-1, Yt_2, ..., Y- уровни временного ряда в моменты времени t - 1, t - 2 ,..., t -p, соответственно (независимые переменные);

Ф0, ф1, ф2, ..., фр - оцениваемые коэффициенты; st - случайное возмущение, описывающее влияние переменных, не учтенных в модели (1).

Коэффициент ф0 определяет постоянный уровень ряда и связан с математическим ожиданием д соотношением

ф0 = Д(1 - ф1 - Ф2 - ... - фр).

Модели со скользящим средним. Модель со скользящим средним порядка q задается уравнением

Y = в, - ш,8,, - o,s,, - ... - os, , (2)

где Yt - уровень ряда в момент времени t;

s - значения остатков i временных периодов назад (независимые переменные);

o1, o2, ..., oq. - оцениваемые коэффициенты.

Модели скользящего среднего MA дают прогноз значений функции Yt на основе линейной комбинации ограниченного числа q остатков, в то время как авторегрессионные модели AR дают прогноз значения Yt на основании линейной функции аппроксимации ограниченного числа p прошлых значений Y

Использование понятия скользящего среднего в данном случае означает, что отклонение зависимой переменной от своего среднего, т.е. величина Yt - д, является линейной комбинацией текущих и прошлых значений вектора случайных возмущений.

Модели с авторегрессией и скользящим средним. Авторегрессионную модель и модель со скользящим средним можно скомбинировать. При описании подобной комбинации используется обозначение ARMA (p,q), где p - порядок авторегрессионной части модели, q - порядок части скользящего среднего. Модель ARMA (p,q) имеет общий вид

Yt = Фо + Ф/t-! + Ф2 Yt-2 + ... + ФА, +

+ s, - o,s,, - oSi - .. - os, . (3)

Данная модель позволяет составлять прогноз, зависящий как от текущего и прошлого значений зависимой переменной, так и от текущих и прошлых значений величины случайного возмущения.

Модели типа ARIMA и методология Бокса-Дженкинса. Бокс и Дженкинс предложили выделить класс нестационарных рядов, которые взятием последовательных разностей можно привести к стационарному виду типа ARMA. Если ряд после взятия d последовательных разностей сводится к стационарному, то для прогнозирования его уровней можно применить комбинированную модель авторегрессии и скользящего среднего, обозначаемую как ARIMA(p,d,q). Сокращение I в данной аббревиатуре означает «интегрированный» [2].

Методология Бокса-Дженкинса подбора ARIMA -модели для конкретного ряда наблюдений состоит из четырех этапов:

- идентификация модели - процесс выбора модели, в наилучшей степени соответствующей рассматриваемому реальному процессу;

- оценивание модели - использование регрессионных методов для получения оценок параметров, включенных в модель;

- тестирование модели - проверка основных предпосылок использования регрессионного анализа, проверка адекватности модели с использованием тестов на нормальность остатков (тест Жарка-Бера), на автокор-

180

ЛЕСНОЙ ВЕСТНИК 5/2011

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

реляцию остатков (тест Дарбина-Уотсона), на постоянство дисперсий случайных остатков (критерии Кохрана и Голдфалда-Квандта), на качество спецификации модели (F-тест);

- использование модели для прогнозирования.

Идентификация модели

В первую очередь необходимо выяснить, обладает ли изучаемый ряд свойством стационарности. Оценка стационарности исходного временного ряда осуществляется с использованием формальных тестов, например при помощи расширенного критерия Дикки-Фуллера. Кроме этого, при идентификации смешанной модели проводится анализ коррелограммы ряда, для чего строится график выборочной автокорреляционной функции (ACF). Коррелограмма стационарного временного ряда быстро убывает с ростом порядка к за пределами нескольких первых значений. Если график убывает достаточно медленно, есть основания считать ряд нестационарным; если же не убывает, то исследуемый ряд определенно не стационарен.

Определение порядка преобразования ряда. Реальные процессы могут не обладать свойством стационарности, однако с помощью несложных процедур часто можно привести наблюдаемый ряд к стационарному процессу. К числу таких преобразований можно отнести:

- взятие конечных разностей вида

X = 6Yt = Y - Yt_v где X - первая разность,

Z = ^t=Xt - Xi = Yt - 2 Y« + Yt-2 = AY (Zt - вторая разность);

- логарифмирование цепных индексов

вида

Xt=MY / Yt-i) = lnYt - lnYt-i;

- расчет темпов прироста вида

Xt=(Yt - Yt-i) / Yt-i = (Yt / Yt-i) - 1;

- логарифмирование ряда вида

Xt = lnYt;

- расчет темпов роста вида

Xt = (Yt / Yt-i) и тп

При выборе процедуры преобразования для получения стационарного ряда необходимо исходить из вида графика временного

ряда X Корректный выбор должен обеспечивать приблизительное выполнение условия

Xt =fY) * const.

Последовательность значений исходного ряда Yt является ARIMA(p,d,q) моделью, если последовательность значений проинтегрированного ряда AdY = (AdYt) образует ARMA (р^)-модель [3].

Выбор оптимальной модели. После определения параметра интегрирования d, отражающего количество шагов, требуемых для приведения ряда к стационарному виду, структурная идентификация оптимальной модели в выбранном классе моделей ARIMA происходит на основании анализа автокорреляционной функции и частной автокорреляционной функции с использованием формальных критериев, например, информационных критериев Акаике и Шварца.

При построении ARIMA (p, d, q)-моде-ли временного ряда Yt необходимо стремиться к минимизации числа ее параметров. Это правило известно как «принцип экономии» и заключается в предпочтении простой модели более сложной. Параметры моделей типа ARIMA оцениваются на основе коэффициентов автокорреляции исходного процесса. С увеличением числа параметров в модели для определения их значений необходимо использовать в качестве исходных данных большее число выборочных коэффициентов автокорреляции (с большими «шагами»). Точность их оценки с ростом шага падает, что снижает надежность оценок коэффициентов моделей временных рядов высоких порядков и качество этих моделей.

Задача состоит в определении общего вида модели из класса моделей ARMA(p,q) c наименьшим числом параметров по сравнению с другими возможными вариантами, без потерь в точности описания исходного процесса. Этот процесс сопровождается процедурами оценки параметров альтернативных вариантов моделей и выбора наилучшего из них на основе критериев качества.

Идентификация модели ARMA(p,q) возможна только для стационарых временных рядов. Крайне важная информация о порядке p модели авторегрессии AR содержится в час-

ЛЕСНОЙ ВЕСТНИК 5/2011

181

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

тной авторкорреляционной функции PACF. Для процесса, описываемого моделью AR(p), ее значениями являются последние значения коэффициентов моделей авторегрессии порядков, не превосходящих р.

Для модели AR(p) значения частной автокорреляционной функции являются значимыми (отличными от нуля) до лага p включительно и равными нулю при сдвигах, превышающих порядок модели. Частная автокорреляционная функция модели AR(p) обрывается после задержки р. Если значения частной автокорреляционной функции, рассчитанной для реального процесса, становятся нулевыми, начиная со сдвига р + 1, то модель авторегрессии р-го порядка соответствуют свойствам рассматриваемого процесса.

Аналогичные рассуждения относительно поведения частной автокорреляционной функции справедливы для модели MA(q). Как и для моделей типа AR, частные автокорреляционные функции могут быть построены для моделей скользящего среднего любых порядков.

В рамках анализа графиков ACF и PACF используются следующие закономерности, связывающие параметры модели и поведение ее автокорреляционной и частной автокорреляционной функций:

1. р = 1, q = 0 (ARMA(1,0)): ACF экспоненциально затухает. При отрицательном значении параметра авторегрессии она экспоненциально затухает, меняя знак, при положительном - не меняя. PACF имеет выброс на лаге 1, для прочих лагов корреляции нет.

2. р = 1, q = 0 (ARMA(2,0)): ACF затухает экспоненциально или синусоидальной волной, в зависимости от знаков параметров. При отрицательном значении параметра авторегрессии она экспоненциально затухает, меняя знак, при положительном - не меняя. PACF имеет выброс на лагах 1 и 2, для прочих лагов корреляции нет.

3. р = 0, q = 1 (ARMA(0,1)): ACF имеет выброс на лаге 1, для прочих лагов корреляции нет. PACF затухает экспоненциально, монотонно или меняя знак.

4. р = 0, q = 2 (ARMA(0,2)): ACF имеет выброс на лагах 1 и 2, для прочих лагов кор-

реляции нет. PACF затухает экспоненциально или синусоидальной волной.

5. р = 1, q = 1 (ARMA(1,1)): ACF экспоненциально затухает, начиная с первого лага, причем затухание может носит монотонный или колебательный характер. PACF затухает экспоненциально, монотонно или колебательно.

Данный принцип служит для обоснования выбора некоторой пробной модели из группы моделей типа ARMA(p,q), которая является «начальной точкой» построения оптимальной модели рассматриваемого процесса на основе использования более точных процедур диагностики и методов оценки параметров модели.

Рассмотрим критерии выбора оптимальной модели в сформированном на основании анализа графиков ACF и PACF портфеле моделей. Применение формальных критериев необходимо в первую очередь потому, что визуальная оценка этих графиков зачастую дает весьма субъективные результаты. Кроме того, не одна, а несколько моделей могут довольно точно соответствовать структуре выборочных ACF и PACF - но выбор необходимо остановить лишь на одной.

Первый из критериев выбора оптимальной модели - информационный критерий Акаике (AIC). Согласно ему, выбирается модель, минимизирующая значение статистики

AIC = lnc2 + (2 / n)r,

где с2 - остаточная сумма квадратов, деленная на количество наблюдений; n - число наблюдений (остатков); r - число оцененных параметров модели.

Разработанный Шварцем Байесовский информационный критерий (BIC) предполагает, что выбрать стоит ту модель, которая минимизирует выражение

BIC = lnc2 + (ln n / n)r.

Данные критерии не могут быть самостоятельно использованы для выбора оптимальной модели и должны базироваться на результатах анализа выборочных ACF и PACF, поскольку он, помимо прочего, позволяет выделить некий портфель моделей и сузить тем самым диапазон моделей для сравнения.

182

ЛЕСНОЙ ВЕСТНИК 5/2011

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Оценивание модели

После структурной идентификации, проведенной на предыдущем шаге, осуществляется параметрическая идентификация модели. Как правило, применение метода наименьших квадратов для этих целей в моделях ARIMA (p,d,q) дает хороший результат.

Оптимальный выбор модели подразумевает, что случайный остаток et, t = 1,2,..., n по своим свойствам достаточно близок к белому шуму. Математическое ожидание остатков должно быть равно нулю, дисперсия постоянна на любом участке измерения, а между уровнями ряда случайных остатков не должно быть автокорреляционной зависимости. Фактическая ошибка модели должна быть достаточно случайна, чтобы ее невозможно было уточнить какой-либо иной моделью.

Желательно также, чтобы дисперсия ошибки о2 была существенно меньше дисперсии самого процесса, т.е. о2 << о2. В этом случае модель, описывающая процесс Y, снимает значительную часть неопределенности в его изменчивости, что позволяет с большей обоснованностью предсказывать его значения.

Тестирование модели

Проверим основные предпосылки использования регрессионного анализа: случайный характер остатков модели, равенство нулю математического ожидания остатков, отсутствие автокорреляционной зависимости в остатках, гомоскедастичность дисперсии остатков, подчинение остатков нормальному закону распределения. При выполнении этих предпосылок оценки коэффициентов регрессии будут обладать свойствами несмещенности, эффективности и состоятельности.

Тест Жарка-Бера. Тест Жарка-Бера представляет собой процедуру определения отклонения от нормальности и основан на значениях выборочного эксцесса и асимметрии. Тестовая статистика JB вычисляется по формуле

JB = (n / 6)(A2 + Ex2 / 4), где n - количество наблюдений;

А - асимметрия;

Ex - эксцесс.

Статистика JB имеет асимптотическое X2- распределение с двумя степенями свободы и используется для проверки нулевой гипотезы о том, что данные принадлежат нормальному распределению. Нулевая гипотеза, подлежащая проверке, в свою очередь, является составной - о равенстве нулю асимметрии и эксцесса. Как видно из определения статистики JB, любое отклонение от этих значений увеличивает ее значение.

F-тест. Общая процедура проверки гипотезы о постоянстве математического ожидания может быть организована так. Если количество наблюдений достаточно велико, то интервал наблюдений делится на N > 2 частей, не обязательно одинаковой размерности. Для каждой из частей определяются оценки среднего и дисперсии. Проверяется гипотеза о равенстве оценок средних значений ряда, рассчитанных на этих частях. Для этого может быть использован критерий Фишера. Его расчетное значение определяется по формуле

F = ■

N _ _

£ n ■ (у, - г )2

i i=1

N -1

где N - число частей разбиения интервала; n - число измерений переменной Yt на i-й части, i = 1,..., N;

2

s

Y - среднее значение временного ряда в целом;

s2 - средняя дисперсия, значение которой рассчитывается как 1 N

s 2 =-----£ (n, -1) • s,2 ,

n - N ^ i 1

- 2 1=1 . й

где s, - дисперсия, рассчитанная на i-й части интервала. Если справедливо соотношение F < F*(p, v1, v2), где F*(p, v1, v2) - табличное значение критерия Фишера для выбранного уровня значимости и числе степеней свободы v1 = N - 1, v2 = n1 + n2 + ... nN - N, то гипотеза о постоянстве математического ожидания временного ряда на всем интервале принимается.

Тестирование дисперсии. Для проверки гипотезы о постоянстве дисперсий может быть использован критерий Кохрейна, основанный на распределении Фишера. Обычно

ЛЕСНОИ ВЕСТНИК 5/2011

183

Методика построения модели ARIMA для прогнозирования динамики временных рядов Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Трегуб А. В., Трегуб И. В.

Похожие темы научных работ по математике , автор научной работы — Трегуб А. В., Трегуб И. В.

Текст научной работы на тему «Методика построения модели ARIMA для прогнозирования динамики временных рядов»