ЧАСТОТНАЯ СЕПАРАЦИЯ ДАННЫХ В ПРОГНОЗИРОВАНИИ ДИНАМИЧЕСКИХ ПРОЦЕССОВ
Моисеев А.А., к.т.н., ГосНИИ химмотологии, [email protected]
Ключевые слова:
динамический процесс, прогнозирование, регрессионная экстраполяция, линейная регрессия, авторегрессия, обучающие данные, сепарация данных, временной ряд, статистические выборки, исторический тренд, сезонный тренд.
АННОТАЦИЯ
Методы прогнозирования динамических процессов могут базироваться:
• на причинно - следственных моделях процесса, настраиваемых по обучающей выборке;
• на экстраполяции регрессионной зависимости, построенной по обучающей выборке;
• на рекурсивном сглаживании обучающих данных;
• на использовании авторегрессии с параметрами, выбранными по обучающей выборке.
Существенным ограничением первого подхода является сложность, а то и отсутствие адекватных моделей прогнозируемого процесса. В качестве прогноза в рамках третьего метода используется сглаженное значение оценки процесса. Интуитивно ясно, что глубина прогнозирования будет порядка постоянной сглаживания. Что касается четвертого подхода, то, поскольку в качестве прогноза используется случайная функция, ошибка прогнозирования всегда будет достаточно велика. В этих условиях работа ограничивается анализом второго подхода. Как показывает практика, построению прогноза полезно предпослать предварительную сепарацию обучающих данных - временную или частотную. Применение методов временной сепарации оправдано в ситуации, когда поведение статистических данных имеет ясно выраженный циклический характер. Эти методы базируются на предварительном разбиении статистических данных на статистические выборки, соответствующие, определенному временному периоду и анализируемые независимо. Поскольку прогноз при этом формируется для указанного периода, временная сепарация является инструментом средне - и долгосрочного прогнозирования. Достаточно часто используется так же процедура прогнозирования динамического процесса, базирующаяся на экстраполяции линейной регрессии с обучающего интервала на интервал прогнозирования. Аппроксимация исторических данных представляет собой сумму исторического и сезонного трендов, а также функции авторегрессии, аппроксимирующей остаточный процесс. При этом применение функции авторегрессии оправдано только при сильно коррелированных исторических данных. В противном случае авторегрессионная составляющая может быть заменена скользящей оценкой математического ожидания или проигнорирована. Построенная таким образом аппроксимация экстраполируется на интервал прогнозирования и интерпретируется как точечный прогноз. Рассчитываемая в ходе формирования аппроксимации величина среднеквадратичной ошибки используется в дальнейшем для построения интервального прогноза. Особенностью процедуры, рассмотренной в работе, является независимое формирование исторического и сезонного трендов по результатам предварительной частотной сепарации статистических данных.
Множество методов прогнозирования динамических процессов условно можно разделить на четыре основные группы [1 - 3]:
• базирующиеся на причинно - следственных моделях процесса, настраиваемых по обучающей выборке;
• базирующиеся на экстраполяции регрессионной зависимости, построенной по обучающей выборке;
• базирующиеся на рекурсивном сглаживании обучающих данных;
• базирующиеся на использовании авторегрессии с параметрами, выбранными по обучающей выборке.
Существенным ограничением первого подхода является сложность, а то и отсутствие адекватных моделей прогнозируемого процесса. В качестве прогноза в рамках третьего метода используется сглаженное значение оценки процесса. Интуитивно ясно, что глубина прогнозирования будет порядка постоянной сглаживания. Что качается четвертого подхода, то, поскольку в качестве прогноза используется случайная функция, ошибка прогнозирования всегда будет достаточно велика. Ограничимся в этих условиях анализом второго подхода. Как показывает практика, построению регрессионной функции полезно предпослать предварительную сепарацию обучающих данных - временную или частотную.
Применение методов временной сепарации оправдано в ситуации, когда поведение статистических данных имеет ясно выраженный циклический характер, например, в случае метеорологических данных. Методы временной сепарации базируются на предварительном разбиении статистических данных на временные ряды или выборки, соответствующие, например, определенному месяцу и анализируемые независимо. Прогноз при этом формируется для соответствующего периода следующего цикла, например, года. Таким образом, временная сепарация является инструментом средне - и долгосрочного прогнозирования.
Примером применения временной сепарации является разбиение исходных данных на частные временные ряды, схема которого приведена на рисунке 1. Построение прогноза на соответствующий месяц следующего года осуществляется, например, с использованием регрессионных методов, базирующихся на аппроксимации тренда степенным полиномом. Пример аналогичного разбиения статистических данных приведен на рисунке 2. Здесь, однако, используется не временная привязка данных, а только факт их принадлежности к определенной статистической выборке, которая предполагается однородной. Статистические характеристики этих выборок используются для построения интервального прогноза. Достоинством процедур временной сепарации является то, что они позволяют достаточно простыми средствами осуществить средне - и долгосрочное прогнозирование. Их общий недостаток - отсутствие учета поведения данных в периоды, предшествующие периоду прогнозирования.
Рассмотрим регрессионное прогнозирование более подробно. Оно осуществляется на интервале прогноза путем продолжения на него аппроксимации, сформиро-
ванной на интервале обучения, как это указано на рисунке 3. Схема прогнозирования отображена на рисунке 4. Ему предшествует частотная сепарация статистических данных на аддитивные составляющие:
- низкочастотную часть - исторический тренд, отображающий базовую тенденцию входного временного ряда;
- среднечастотную часть - сезонный тренд, отображающий циклическую тенеденцию временного ряда;
- высокочастотную часть - остаточный случайный процесс, отображающий колебания данных относительно суммарного тренда.
Эта операция осуществляется блоком рекурсивных фильтров, схема которого приведена на рисунке 5. Исторический тренд формируется на выходе рекурсивного фильтра с максимальным временным параметром Ть, соответствующим длительности интервала обучения. Сезонный тренд представляет собой разницу между выходом фильтра с временным параметром Т5, соответствующим сезонному тренду, и историческим трендом. Остаточный процесс представляет собой разницу между исходным процессом и выходом рекурсивного фильтра с временным параметром Т5. Схема реализации рекурсивного фильтра описана в [4].
^ years
years
Рис.1. Разбиение на частные временные ряды
us
RESEARCH
years
October November December
Рис.2. Разбиение на статистические выборки
Рис.3. Разбиение временной оси
интервал прогноза Рис. 4. Регрессионное прогнозирование
исходные данные
остаточный процесс
сезонный тренд
исторический тренд
Рис. 5. Частотная сепарация
Основным достоинством метода частотной сепарации является его универсальность: он может быть использован как для долгосрочного, так и для краткосрочного прогнозирования. Основные недостатки - сложность и значительная погрешность долгосрочного прогноза. Тем не менее, как инструмент долгосрочного прогнозирования, метод представляется вполне конкурентоспособным.
Аппроксимация составляющих, выделенных сепаратором, осуществляется независимо. Исторический тренд аппроксимируется экспоненциальным полиномом вида [5]:
п
y=X
ae
ti Th
i =0
а сезонный - тригонометрическим полиномом:
п
У = bo + X
j=i
. 2щ 2nj Л
a . sin-1 + b. cos-1
J rp j T
У 1h h J
я t j
X (y i -X aj exP(-TP") 2 ^ main
T ъ a
J =0
X7 чЪ / • 2nt j 2nt:i 2
(У i - bo - X (a j sin ^—^ + bj cos—) ^ m in
i j=0 Th Th aj 'b'
(1)
Предполагая авторегрессионный процесс стационарным, находим из (2) соотношения, связывающие статистические характеристики этого процесса с параметрами авторегрессии:
т = а + Ьг
(3)
а2 = Ь2а2 + с2 га2 = Ьа2
где т, а - математическое ожидание и СКО процесса; г - коэффициент корреляции процесса.
Разрешая (3) относительно параметров авторегрес сии, находим:
m
a = -
1 - r c = <7л11 -¡ b = r
(4)
Коэффициенты полиномов определяются методом наименьших квадратов, который для экспоненциального и тригонометрического полиномов эквивалентен следующим задачам минимизации [3]:
Используя необходимое условие минимума, соотношения (1) сводят к системам линейных уравнений относительно искомых коэффициентов. При этом обеспечивается минимальная среднеквадратичная ошибка аппроксимации полиномом заданной степени.
При необходимости для аппроксимации остаточного процесса используется функция авторегрессии [1] с параметрами, обеспечивающими соответствие статистических характеристик авторегресии и аппроксимируемого процесса. Оценивание статистических характеристик исторических данных осуществляется по временному ряду на интервале обучения. В предположении, что статистические параметры исторических данных не изменяются на интервале прогнозирования, осуществляется расчет параметров авторегрессии по оценкам статистических характеристик и строится авторегресионная функция, интерпретируемая как прогноз остаточного процесса.
Настройка параметров авторегресии осуществляется следующим образом. Простейшая функция авторегрессии имеет вид [1]:
х{ = а +Ьх;_1 + сг (2)
где х - функция авторегрессии а, Ь, с - параметры авторегрессии
г - случайная величина со стандартным нормальным распределением.
Аппроксимация исторических данных представляет собой сумму исторического и сезонного трендов, а также функции авторегрессии, аппроксимирующей остаточный процесс. При этом применение функции авторегрессии оправдано только при сильно коррелированных исторических данных. В противном случае авторегрессионная составляющая может быть заменена скользящей оценкой математического ожидания или проигнорирована. Построенная таким образом аппроксимация экстраполируется на интервал прогнозирования и интерпретируется как точечный прогноз. Рассчитываемая в ходе формирования аппроксимации величина среднеквадратичной ошибки используется в дальнейшем для построения интервального прогноза.
Результаты интервального прогнозирования с доверительной вероятностью 0.95 приведены на рисунках 6 - 8. Длина интервала обучения, на котором формировалась регрессионная аппроксимация (верхние графики), во всех случаях составляла 365 дней. Глубина прогноза (нижние графики) менялась от 20 до 100 дней. Качественный анализ результатов показывает, что, как и следовало ожидать, качество прогнозирования снижается с глубиной.
Работа выполнена в технологическом центре GE Rus в 2007 году.
Литература
1. Андерсон Т. Статистический анализ временных рядов, М., Мир, 1976, 746 с.
2. Ashenfelter O Statistics and econometrics, Wiley, 2006, 320 P.
3. Статистические методы для ЭВМ, п/ред. К. Энслейна, М., Наука, 1986, 464 с.
4. Моисеев А.А. Преобразование и генерация динамических процессов встроенными средствами ТПТС // Контроль. Диагностика, №3 (117), 2008, с 51.
5. Справочник по теории вероятности и математической статистике, п/ред Королюка В.С., Киев, Наукова думка, 1978, 584 с.
2
us
RESEARCH
approximation
forecast
I I I I I I I -historical data -low forecast limit -high forecast limit -
I I I I I I I I I
qI_I_I_I_I_I_I_I_I_I_
1200 1202 1204 1206 1208 1210 1212 1214 1216 1218
days
Рис. 6. Глубина прогноза - 20 дней
approximation
days
forecast
I I I I I I -historical data -low forecast limit -high forecast limit -
I I I I I I I
□_I_I_I_I_I_I_I_
1200 1205 1210 1215 1220 1225 1230 1235
days
Рис.7. Глубина прогноза - 40 дней НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ
approximation
Рис. 8. Глубина прогноза - 100 дней
FREQUENCY SEPARATION IN DYNAMICAL PROCESSES PREDICTION
Moiseev A., PhD, National Research Institute of Chemmotology, [email protected]
Abstrart
Forecasting methods can be based on the following approaches:
• application of dynamical processes causation models, adjusted on training data;
• regression extrapolation of regression approximation, formed on training data;
• recursive smoothing of training data,
• using of auto - regression with parameter, adjusted on training data etc.
First approach restricted with complexity or even absence of adequate causation model. In frames of third approach smoothed process value is used as forecast. It's evident that forecast horizon has the same order as relaxation value of used smoothing filter. As regards of forth approach it has low precision because of stochastic character of forecast. In such conditions the analysis concentrated on second approach. As a rule it's useful to apply preliminary data separation of training data. Time separation can be applied for cyclic processes. These methods based on forming of statistical samples, which correspond to specific time periods and analyzed independently. In this situation forecast formed for corresponding period and time separation can be considered as procedure of long - or medium - term forecasting.
Regression approximation formed on training data and can be extrapolated on prediction interval. This procedure includes the
forming of additive historical and season trends, and may be auto - regression. The last one can be used in case of strong correlation of training data. Otherwise autoregression replaced with moving average or ignored. Formed approximation extrapolated on forecast interval and interpreted as point forecast. Calculated at this mean-square error can be used for interval forecast forming. Its distinctive feature is independent trends forming on results of preliminary recursive filtration of training data. Block of inertial elements is used as separator here. Keywords: dynamical process, prediction, regression extrapolation, linear regression, auto - regression, training data, data separation, time series, statistical sample, historical trend, season trendfl.
References
1. Anderson T. The statistical analysis of time series, NY, Wiley, 1971, 746 P.
2. Ashenfelter O. Statistics and econometrics, Wiley, 2006, 320P.
3. Statisticheskie metody dlya EVM [Statistical methods for computer], M., publishing house "Nauka" ["Science"], 1988, 432P.
4. Moiseev A. Preobrazovanie i generatsiya vstroennymi sredst-vami TPTS [Convertion and generation with embedded means] // Kontrol. Diagnostika [Controls. Diagnostics], № 5 (117), 2008, P 51.
5. Spravochnik po teorii veroyatnosti I matematicheskoy statis-tike [Hand - book on probability theory and mathematical statistics], Kiev, publishing house "Naukova dumka" ["Scientific idea"], 1978, 584 P.