Научная статья на тему 'Самообучающийся алгоритм краткосрочного прогнозирования временных рядов'

Самообучающийся алгоритм краткосрочного прогнозирования временных рядов Текст научной статьи по специальности «Математика»

CC BY
152
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ВРЕМЕННЫЕ РЯДЫ / АЛГОРИТМ ПРОДОЛЖЕНИЯ / ГЛАВНЫЕ КОМПОНЕНТЫ / САМООБУЧЕНИЕ / TIME SERIES / ALGORITHM / PROLONGATION / MAIN COMPONENTS / SELF-LEARNING

Аннотация научной статьи по математике, автор научной работы — Павлов Виктор Николаевич, Павлов Антон Викторович

В статье предлагается описание самообучающегося алгоритма краткосрочного прогнозирования временных рядов на основе вычисления сингулярного спектра матрицы вторых моментов «гусеничного» представления этих рядов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELF-LEARNING ALGORITHM OF SHORT-TERM FORECASTING OF TIME SERIES

In article the description of self-learning algorithm of short-term forecasting of time series on the basis of the calculation of singular spectrum of a matrix of second moments of «caterpillar» representation of these numbers is offered.

Текст научной работы на тему «Самообучающийся алгоритм краткосрочного прогнозирования временных рядов»

СТАТИСТИЧЕСКИЕ ИЗМЕРЕНИЯ И ЭКОНОМЕТРИЧЕСКИЙ АНАЛИЗ

УДК 519.237 + 512.64

В. Н. Павлов, А. В. Павлов

Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

Институт экономики и организации промышленного производства СО РАН пр. Акад. Лаврентьева, 17, Новосибирск, 630090, Россия

E-mail: ami@ieie.nsc.ru

САМООБУЧАЮЩИЙСЯ АЛГОРИТМ КРАТКОСРОЧНОГО ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ

В статье предлагается описание самообучающегося алгоритма краткосрочного прогнозирования временных рядов на основе вычисления сингулярного спектра матрицы вторых моментов «гусеничного» представления этих рядов.

Ключевые слова: временные ряды, алгоритм продолжения, главные компоненты, самообучение. Постановка задачи

Числовой ряд fu = f (tu), u = 1,..., N, который получен в результате регулярных наблюдений (tu = tu _1 + А) за вещественным показателем f, называется временным. Пусть имеется 5 временных рядов:

fi, (u = 1,..., N), i = 1,..., 5. (1)

Проблема заключается в построении алгоритма оценки следующего значения fN+ +1, i = 1,..., 5, каждого из рассматриваемых рядов.

«Гусеничные» главные компоненты

Введем обозначения F = {f, (u = 1,..., Ni), i = 1,..., 5}, и для любой пары чисел l и p, таких что выполнено неравенство 0 < l < p, положим F(p, l) = {fj, (u = l,..., Ni _ p +1 _ 1), i = 1,..., 5}. Будем предполагать, что при выбранных l иp множество F(p, l) не пусто. Согласно методике, описанной в [1], определим преобразование X(F; m, n, p, l) временных рядов (1) в матрицу

х (l )=( ** с::,

состоящую из m строк и n столбцов, предполагая n < min Nt _ p и m > 5 . Здесь m = ms, где

1<i <5

mt = mi_1 +(Nt _ n _ p +1) при i = 1,..., 5, m0 = 0, а через xtJ при mk_1 < i < mk, 0 < к < 5, обозначен элемент x.. = fl+.+. m 2.

ij Ji+1+j _ mk_1 _2

Такое представление временных рядов F назовем «гусеничным» с обучением. Очевидно, если такое представление возможно при заданных m, n, и p, то оно единственно. Число m называется длиной гусеницы, число n - временем жизни гусеницы, p - периодом обучения алгоритма прогнозирования. «Гусеничное» представление позволяет применить стандартные статистические методы для совместного исследования нескольких временных рядов (1) различной длины.

ISSN 1818-7862. Вестник НГУ. Серия: Социально-экономические науки. 2009. Том 9, выпуск 4 © В. Н. Павлов, А. В. Павлов, 2009

Обозначим через

С(0 = 1х(1)х(1)т [с, =

матрицу вторых моментов для X (1) . Здесь через X (1)т обозначена транспонированная матрица.

Известно, что матрица С (1) симметричная, положительно определенная, имеет неотрицательные собственные числа и простые Жордановы клетки (см. [2]). Следовательно, собственные вектора матрицы С (1) могут быть выбраны ортонормированными. Перенумеруем

собственные числа X, (1) матрицы С (1) так, чтобы выполнялись неравенства:

X (1 )>Х2 (1 )>... > Хт (1 )>0. Обозначим через V, (1) вектор-столбец единичной длины, являющийся собственным вектором матрицы С (1) , соответствующим X, (1) (будем считать V, (1) и vk (1) взаимно перпендикулярными при , Ф к), а через

^ (1 )=( V, с.::

квадратную матрицу, столбцами которой являются вектора V, (1) . Легко показывается, что

в этом случае V (1 )Т = V (1) 1 .

Обозначим через Л(1) Жорданову форму матрицы С(1) . Так как все Жордановы клетки С(1) простые, то матрица Л(1) диагональная, а по диагонали стоят собственные числа Х1 (1) > Х2 (1) > ... > Хт (/) . Отметим, что для всякого 1 справедливо равенство

Л(1 ) = V(1 )тС(1 у (1) . Строки О{ (1), 1 = 1,..., т, матрицы

^ (1Р

а (1 ) = V (1 )тх (1 ) =

^2 (1) я- (1)

в статистических исследованиях интерпретируются как «гусеничные» главные компоненты (см. [3]) матрицы X (1), соответствующие собственным числам Х; (1).

Ясно, что исходная матрица X (1) однозначно восстанавливается по матрице «гусеничных» главных компонент О (1), так как справедливо равенство X (1) = V (1) О (1) , из которого вытекает разложение исходной матрицы

т т

X (1 ) = &. (1) О, (1) = XX (1) . (2)

,=1 ,=1

Здесь X, (1) - матрица, порожденная , -й главной компонентой.

Восстановление временных рядов ^ (р, 1) по матрице X (1) выполняется отображением:

Н :X(1 ^(р, 1), в котором ^, при 0 < к < 5 и 1 < w < Ык - р +1, вычисляется по формуле

/:=

1

„ -1+1

+1

-У X

1 тк-1 1 j=1

+,„-1 -+ 2, 1 - „ - 1 - 1 + - тк-1

1 тк-тк-1

У Хтк-1 +■ ,„-1 ■ 2, тк - тк-1 + 1 - „ - И + 1 - 1

т- т-1 ■=1

Ык - р +1 -„+1

1 N- р+'--

Г1-77 У Хт* -;+1,■+„-1 -тк +тк 1 , И + 1 - „ - - Р + 1

1-1 - „ + 1 к

Ык - р +1 - „ +

Отображение Н часто называется ганкелизацией матрицы X(1). Частичное восстановление исходных временных рядов

Частичное восстановление матрицы X (1) выполняется по формуле

Х(1 ) = 5Х (1)^ (1 №^ (1), (3)

к =1 к =1

где, в отличие от (2), складываются не все матрицы X■ (1) .

С прикладной точки зрения наибольший интерес представляет восстановление по главным компонентам, соответствующим первым г наибольшим собственным числам [4]. Поэтому в дальнейшем в (3) будем считать ■ = к .

Частичное восстановление исходных рядов Р выполняется ганкелизацией матриц X (1),

таким образом:

р ( p,1 ) = Н (х (1)) . Обобщенное продолжение временных рядов

В соответствии с методикой, описанной в [1], через Q(1) обозначим 5-мерный вектор-столбец

Q (1) = ( Д-р+1+1, /ы2-р+1+1,..., -р+1+1), через Я (1) - (т - 5 ) -мерный вектор-столбец

Я (1) = ( fn+1, fn+1+1, ..., fn+1 + т1-то - 2, ..., fn+1, fn+1+1, ..., fn+1+т5 - т5-1 - 2 ) ,

через У (1) - матрицу, столбцами которой являются вектора V (1), у = 1,..., г . Далее, из строк матрицы У (1) с номерами тi (1 = 1,..., 5) сформируем матрицу Е (1) , состоящую из 5 строк и г столбцов, затем вычеркнем эти строки из матрицы У (1) и новую матрицу, состоящую из (т - 5) строк и г столбцов, обозначим через У1г (1) .

Теперь оценкой <2 (г, 1) вектора 2 (1) , являющегося продолжением рядов Р (р, 1) по г первым главным компонентам, будем считать вектор

<2 (г, 1) = Е (1 ){уг (1 )т уг (1 ))-1 уг (1 )т я (1) = р (г,1) я (1).

Оптимальный самообучающийся алгоритм

Построение самообучающегося алгоритма (ОЗЛ) заключается в следующем. Для каждого г (0 < г < т - 5) вычисляем показатель

p-1 p У, d Q (r, i)-Q (i) 2

pi=0 lj коэф( ициенты.

Обозначим через F 5-мерный вектор-столбец

F = (Д +1'--' /ы„ +1 ) •

Далее выбираем r0 из условия

5(Г),Р)= min 8(r,p) (4)

0<r <m-S

и по определению полагаем

OS A (F) = P(Г),p)R(p) = Q(Г),p) = FF .

Определенный таким образом оператор

OSAm,p : F ^ F

и назовем оптимальным самообучающимся алгоритмом продолжения рядов F. Обучение здесь заключается в выборе числа r0 через решение задачи (4).

Численное исследование свойств оптимального самообучающегося алгоритма

В данном разделе выполнены численные исследования следующих свойств оператора зависимость краткосрочного прогноза от длительности периода обучения

OSA_

(параметр р), зависимость краткосрочного прогноза от длины «гусеницы» (параметр т), устойчивость зависимости прогноза от длины гусеницы на краткосрочном периоде.

Исследование зависимости краткосрочного прогноза от длительности периода обучения. Для расчетов были выбраны два ряда: ряд значений индекса ММВБ и ряд объемов торгов на площадке за период: 2.07.2007-4.03.2009. Прогнозировалось значение индекса на 05.03.2009. Зависимость прогноза от периода обучения изображена на следующих рисунках.

1000 950 900 850 800 750 700 650 600

С

СМСОО^ТООСМСОО^ТООСМСОО т-т-т-СМСМСОСОСО^Т^ТЮ

Рис. 1. Зависимость прогнозного значения индекса ММВБ от длительности периода обучения р при т = 10

На рис. 1, так же как и на рис. 2, 3, по горизонтальной оси откладывалась длительность периода обучения, а по вертикальной - рассчитанное значение индекса ММВБ на 05.03.2009.

Как видно из рис. 1-3, рассчитанное значение индекса значительно менялось только при малых периодах обучения, а при р > 10 дальнейшее увеличение периода обучения практически не приводило к изменению вычисленного значения индекса. Вычисленное при больших р значение индекса ММВБ на 05.03.2009 при т = 10приблизительно оказалось равным 663, при т = 20 - 675, при т = 30 - 653, в то время как фактическое значение равно 671,91.

1000 950 900 850 800 750 700 650 600

смсоо-^оосмсоо-^оосмсоо

т-т-т-СМСМСОСОСО-^-^Ю

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 2. Зависимость прогнозного значения индекса ММВБ от длительности периода обучения р при т = 20

1000

950 900 850 800 750 700 650 600

СМСОО^СОСМСОО^СОСМСОО Т-Т-Т-СМС^ГОГОГО^-^Ю

Рис. 3. Зависимость прогнозного значения индекса ММВБ от длительности периода обучения р при т = 30

Исследование зависимости краткосрочного прогноза от длины «гусеницы». Результаты вычислительного эксперимента по зависимости прогноза индекса ММВБ на 05.03.2009 оператором 08Лт р от параметра т при различных периодах обучения содержатся в табл. 1.

Таблица 1

Зависимость прогноза с использованием оптимального самообучающегося алгоритма индекса ММВБ на 05.03.2009 (параметру) от длины «гусеницы» т при различных периодах обучения р

Длина гусеницы т Значения у

р = 10 р = 20 р = 30

4 756,07 756,4627 756,2925

6 668,6848 669,5759 670,1696

8 661,3044 662,1822 662,571

10 662,6614 659,3686 659,614

12 658,9663 660,6747 659,7249

14 663,1757 670,5522 656,4031

16 709,4351 680,3931 653,8667

18 710,3846 674,7322 674,9182

20 673,2971 673,9528 673,9248

22 671,8798 672,9513 672,8643

24 675,9259 670,4287 670,5476

26 690,8356 661,1793 661,5153

28 689,8419 653,0124 653,3512

30 682,763 651,9785 652,4628

32 683,3395 645,879 646,9962

34 683,5077 642,3821 644,53

36 688,0535 642,948 643,7668

38 661,49 648,7866 651,5342

40 669,8116 651,7169 665,1691

42 675,9574 645,826 649,3235

44 685,4242 645,6444 644,333

46 694,5234 648,4682 649,0421

48 697,5265 648,7452 646,6538

50 644,1713 652,2803 654,661

Далее при каждом р была построена модель линейного тренда у = а х т + Ь, характеризующего зависимость прогноза от длины «гусеницы». Статистические характеристики построенных моделей содержатся в табл. 2.

Из табл. 2 следует, что отрицательная зависимость прогнозируемого значения индекса ММВБ от длины «гусеницы» при периоде обучения, большем 10, является значимой на уровне значимости больше 0,005.

Далее было выполнено исследование устойчивости выявленной зависимости на краткосрочном периоде.

Таблица 2

Статистические характеристики моделей линейного тренда

Период обучения Уравнение регрессии Статистические характеристики уравнения тренда

р = 10 У =-0,258т + 688,6 Коэффициент Ь Значение: 688,6 Станд. ошибка: 10,2 Г-статистика: 67,496 Уровень значимости: [0,000] Коэффициент а Значение: -0,258 Станд. ошибка: 0,336 Г-статистика: -0,769 Уровень значимости: [0,4503] Я2 = 0,026

р = 20 У =-1,054т + 693,5 Коэффициент Ь Значение: 693,5 Станд. ошибка: 8,115 Г-статистика: 85,099 Уровень значимости: [0,000] Коэффициент а Значение: -1,054 Станд. ошибка: 0,267 Г-статистика: -3,94 Уровень значимости: [0,0007] Я2 = 0,414

р = 30 У =-0,890т + 685,5 Коэффициент Ь Значение: 685,5 Станд. ошибка: 8,528 Г-статистика: 80,378 Уровень значимости: [0,000] Коэффициент а Значение: -0,890 Станд. ошибка: 0,281 Г-статистика: -3,166 Уровень значимости: [0,0045] Я2 = 0,313

Для численного исследования устойчивости в дополнение к табл. 2 была построена зависимость от длины «гусеницы» прогноза индекса ММВБ на 5, 6 и 11 марта 2009 г. при периоде обучения р = 20.

Полученные результаты отражены в табл. 3.

Таблица 3

Оценка зависимости однодневного прогноза индекса ММВБ от длины «гусеницы» при изменении даты прогноза

Дата прогноза Вид зависимости Уровень значимости

5 марта 2009 У =-1,054т + 693,5 Г-статистика для т: [0,0007] -3,94

6 марта 2009 У =-0,850т + 703,0 Г-статистика для т: [0,0000] -5,74

11 марта 2009 У =-0,912т + 731,3 Г-статистика для т: [0,0000] -5,83

Приведенные в табл. 3 результаты подтверждают устойчивый характер зависимости однодневного прогноза индекса ММВБ от длины «гусеницы».

Вывод

Предлагаемый самообучающийся алгоритм дает возможность для каждого временного ряда определить длину «гусеницы», обеспечивающую наилучший краткосрочный прогноз. Так, для индекса ММВБ, как это следует из табл. 1, 2, 3, наиболее подходящей является «гусеница», имеющая длину 18 < m < 24. Устойчивость построенной зависимости при переходе к следующему дню является обоснованием использования для прогноза наилучшего значения длины «гусеницы», вычисленного на предыдущую дату.

Список литературы

1. Главные компоненты временных рядов: Метод «Гусеница» / Под ред. Д. Л. Данилова, А. А. Жиглявского. СПб.: Изд-во СПбГУ, 1997.

2. Курош А. Г. Курс высшей алгебры. М.: Наука, 1968.

3. Hotelling H. Analysis of a Complex Statistical Variables into Principal Components // J. Educ. Phych. 1933. Vol. 24. P. 417-441; 498-520.

4. Рао С. Р. Линейные статистические методы и их применение. М.: Наука, 1968.

Материал поступил в редколлегию 02.06.2009

V. N. Pavlov, A. V. Pavlov

SELF-LEARNING ALGORITHM OF SHORT-TERM FORECASTING OF TIME SERIES

In article the description of self-learning algorithm of short-term forecasting of time series on the basis of the calculation of singular spectrum of a matrix of second moments of «caterpillar» representation of these numbers is offered. Keywords: time series, algorithm, prolongation, main components, self-learning.

i Надоели баннеры? Вы всегда можете отключить рекламу.