Научная статья на тему 'Анализ воздействия выбросов на результат сезонной корректировки временных рядов'

Анализ воздействия выбросов на результат сезонной корректировки временных рядов Текст научной статьи по специальности «Экономика и бизнес»

CC BY
591
140
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Губанов Вячеслав Анатольевич

В статье проведен анализ проблем, возникающих при инерционном прогнозировании рядов с аномальными значениями уровней. На основе простой модели одномерного временнóго ряда проанализирован механизм воздействия выбросов на скорректированный ряд и сезонные колебания. Показано, что импульсная реакция скорректированного ряда и сезонных колебаний определяются функциональным критерием разделения этих двух составляющих.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Time Series Seasonal Adjustment and Outliers: Influence Estimation

The article is devoted to analysis of mechanical forecasting in case of outliers. Based on the simple one-dimensional time series model the author analyzes principle of outliers' influence on seasonally adjusted data and seasonal trend. He shows that corrected data and seasonal trend impulse reaction is determined by the functional way these two features are separated from each other.

Текст научной работы на тему «Анализ воздействия выбросов на результат сезонной корректировки временных рядов»

Ъ-^~ Тубанов

АНАЛИЗ ВОЗДЕЙСТВИЯ ВЫБРОСОВ НА РЕЗУЛЬТАТ СЕЗОННОЙ КОРРЕКТИРОВКИ ВРЕМЕННЫХ РЯДОВ

Одна из основных целей анализа временн>х рядов макроэкономических показателей связана с построением прогноза их будущих значений. Наиболее простой метод прогнозирования значений ряда - это экстраполяция или инерционный прогноз. Применение экстраполяции для построения краткосрочного прогноза динамики отдельных временн>х рядов справедливо при следующих предположениях: динамика показателя имеет эволюционный характер; основные тенденции развития в прошлом сохраняются и на краткосрочную перспективу [1].

Большинству показателей свойственны несколько типов изменений, аналогично тому, как движения можно разделить на поступательные, колебательные и нерегулярные. Поэтому исходный временной ряд представляют в виде нескольких составляющих, которые формируют динамическую модель показателя. Естественно, что отдельные компоненты временного ряда должны экстраполироваться по-своему.

Качество инерционного прогноза, в основном, зависит от двух факторов -от качества процедуры декомпозиции ряда на составляющие и от наличия «аномальных» значений в исходном ряде. Точки динамического ряда, в которых уровни значительно превышают среднее значение по всему ряду, или те точки, в которых первые разности значительно (в разы) превышают дисперсию ряда, в дальнейшем будем называть аномальными точками.

Элементарными методами диагностируются только явные искажения уровней, например, пропуск значения в исходных данных. Выделение аномальных точек нельзя реализовать чисто алгоритмически и здесь всегда должна присутствовать экспертная оценка возможных изменений показателей. С одной стороны, для каждого экономического показателя существуют ограничения на рост уровней, которые определяются, например, ресурсными возможностями сектора. С другой стороны, темпы спада показателя также ограничены по абсолютной величине, поскольку любое кардинальное изменение экономического объекта происходит за конечное, характерное для этого показателя

время. Поэтому резкое уменьшение показателя свидетельствует либо о глубокой структурной перестройке экономического объекта, либо об ошибках при формировании уровней.

Учет влияния выбросов при выделении сезонного колебания и тренда составляет основу сценарного прогнозирования динамики одномерных временн>х рядов. Действительно, меняя отдельные уровни ряда или, другими словами, подавая пробный импульс, можно проследить распределение этих изменений между сезонным колебанием и трендом, а также учесть влияние пробного импульса (шока) и на нерегулярную составляющую. Таким образом, определим импульсный отклик системы представленной моделью временного ряда.

Начальным этапом исследования динамики показателя должен быть предварительный анализ исходных данных. Цель этого этапа - разделить случайные ошибки (например, пропуски в данных) и критические явления, связанные с резким изменением показателей, имеющих экономический смысл.

Важность этого этапа анализа связана с тем, что в той или иной степени все алгоритмы обработки временн>х рядов чувствительны к наличию таких аномальных точек как выбросы (пропуск в данных тоже можно определить как выброс с нулевым минимальным значением). Ложный выброс (пропуск) в исходных данных, после процедуры декомпозиции искажает «периодическое» сезонное колебание и порождает ложные выбросы в тренде во всех точках отстоящих от точки с выбросом на кратное число периодов. Например, если выброс был в феврале, то во всех февралях временного ряда значения показателя будут искажены [3]. В свою очередь, искаженные выбросом значения выделенного тренда могут привести к неверной оценке текущей конъюнктуры и построению недостоверного прогноза.

Декомпозиция временных рядов. В качестве первого этапа разложения временного ряда на составляющие используем сезонную корректировку исходного ряда на основе выделения динамического сезонного колебания [4]. Рассмотрим аддитивную модель месячного временного ряда макроэкономического показателя - у,:

У, = X + ^ + £,, (1)

где х, - эволюционная составляющая динамики показателя (тренд); - ко-

лебательная составляющая (сезонное колебание) с периодом 7=12; е,-нерегулярная составляющая изменений показателя (шум), статистические характеристики которой нам не известный

1 Мультипликативная модель временного ряда (уі=Хі $ еЕ для показателей в виде цепных индексов сводится к аддитивной логарифмированием. Тогда нулевому суммарному изменению за период аддитивного сезонного колебания соответствует единичный базисный индекс за тот же период. Поэтому в дальнейшем будет рассматриваться только аддитивная модель.

Динамическое сезонное колебание - st при іє [0; п] і є [0; п], состоит из множества циклов 5(к), каждый из которых определяется на своем ком периоде; 5(к) - это вектор, составляющие которого 5(к), где

і є [к -1)Т +1) кТ], определяют форму циклов (график ^) на к-ом периоде). Поскольку колебание динамическое, то форма циклов может меняться от периода к периоду.

Динамическим циклом будем называть компоненту разложения исходного ряда - 5(к) на к-ом периоде, которая удовлетворяет двум условиям:

^ )= $1к+1), (2)

кТ

1/,,]=

1,и = 0. (3)

г=( к-1)т+1

Из определения и условий (2) и (3) можно видеть основные отличия динамических циклов от «периодического» сезонного колебания [3].

Первое условие, фактически, означает непрерывность динамических циклов на «стыках» периодов - там, где предыдущий цикл заканчивается, а текущий цикл начинается. Для «периодических» циклов условие, аналогичное (3), было менее жестким - началом цикла можно было считать любую точку периода.

Условие (3) привязывает динамический цикл к определенному периоду, поскольку только для него сумма составляющих равна нулю. Если суммировать составляющие динамического цикла за период, начиная с произвольной точки ряда, то в общем случае сумма будет отлична от нуля, поэтому динамическое сезонное колебание может быть определено только на целом числе периодов и с заданным началом отсчета. Ограничение связано с тем, что на последнем, неполном периоде, нам не известна частичная сумма составляющих цикла и невозможно сформулировать условие (3) или его аналог для части периода.

Если все циклы определены, то известно и динамическое сезонное колебание:

^(к-1)Т+^ “ ^ ) . (4)

Индексы изменяются следующим образом: /=1, ... Т, а к=1, ... К, где К - число полных периодов.

В основе сезонной корректировки временн>х рядов с выделением динамического сезонного колебания лежат два предположения:

• исключение динамической волны из исходного ряда приводит к более гладкому скорректированному ряду;

и

• форма цикла для данного периода (года) в наибольшей степени определяется исходными данными за тот же период и, в меньшей степени, исходными данными за другие периоды.

Вторая гипотеза о динамическом сезонном колебании фактически утверждает, что не все данные одинаково важны при определении сезонного цикла на заданном к-ом периоде. Это предположение можно ввести в критерий наибольшей «гладкости» (минимума суммарной кривизны) скорректированного ряда с помощью последовательности весов а ^к - ^, где ає[0;і], к - номер периода, на котором определяется динамический цикл 5к), I - номер периода, влияние которого на 5(к) оценивается. По первой гипотезе, вычитание сезонного цикла 5(к) из исходного ряда на том же периоде должно

в наибольшей степени «сглаживать» его, поэтому ак-к =а0 =1. Остальные периоды влияют на выделение к-ого цикла в меньшей степени - пропорционально удаленности от анализируемого периода.

Исходный ряд для целого числа лет на к-ом периоде (годе) - У?) можно представить в виде

У (к) = у , (5)

Уі У(к-1)Т+і ^ '

где іє(1;Т), к є (1;К +1) и К = [(п +1)/Т], а квадратные скобки означают целую часть числа. Такой выбор пределов изменения индексов связан с тем, что анализируемый ряд содержит целое число лет плюс последний год, месячные данные за который могут быть известны лишь частично. Аналогично определяем Х(к) - сезонно корректированный ряд и 5(к) - динамический сезонный цикл на том же периоде. Верхний индекс фиксирует период (год), на котором определяется сезонное колебание.

Определить і'ґк) из (3), (4) можно в соответствии с первой гипотезой,

используя критерий наибольшей «гладкости» сезонно корректированного ряда х(к) на к-ом периоде:

ф(к)((к))=ЕЕ[а'М(Ут(-1)+і+1 -Ут(і-1)+і -5+! + 5-(к))| ~—тіп. (6)

і=1 і=1

Все циклы •5(к)(а) будут зависеть от а. Минимизируя функционал (6), выделяется однопараметрическое (по а) семейство динамических циклов.

Теперь из всего семейства динамических колебаний нужно выбрать одно оптимальное колебание, то есть необходимо определить оптимальный весовой коэффициент а, который обеспечивает наибольшую «гладкость» корректированному ряду и, одновременно, наименьшие изменения динамического колебания. Его можно определить из комбинированного критерия оптимальности выделения сезонных циклов:

Р(а)= ЕЕ( -х«)2 + ЕЕ((> -5«)2тіп , (7)

к=1 і=1 і=1 к=1

при этом выбирается такое значение а, при котором динамическое колебание и корректированный ряд имеют одновременно наименьшую суммарную кривизну.

Рассмотрим выражение для комбинированного критерия более подробно. Первая двойная сумма в (7) фиксирует «гладкость» тренда. Вторая сумма в (7) характеризует изменчивость циклов от периода к периоду (верхние пределы суммирования поменялись местами), поскольку определяется квадратами разностей январских, февральских и остальных компонент колебания между соседними периодами. Если колебание не меняется от периода к периоду (случай статического колебания), то второе слагаемое в (7) становится равным нулю. Таким образом, этот критерий включает в себя как частный случай критерий выделения статического колебания (колебания с неизменной формой циклов).

Минимум функционала (7) - это критерий оптимального выбора весового коэффициента а. Оптимальный выбор параметра, с одной стороны, позволяет наблюдать изменения циклов от года к году, а, с другой -фиксировать отклонения тренда от линейного закона внутри периода. В экономических терминах, позволяет определять внутригодовую смену тенденций в корректированном ряде. Действительно, если а=1, то выделяется статическое колебание, и никаких изменений формы циклов не происходит. При а=0 наблюдается противоположная ситуация: вся «изменчивость» исходного ряда переходит в изменения циклов (сохраняя нулевую сумму значений за период), но тренд может меняться только при переходе с одного периода к другому, поэтому представляет собой кусочнолинейную функцию. Никаких отклонений тренда от линейной зависимости на периоде (внутри года) при а=0, мы наблюдать не можем. При 0<а<1 могут наблюдаться как изменения волны, так и изменения в тренде.

Таким образом, из критерия минимума кривизны корректированного ряда (6) можно определить K векторов (сезонных циклов), составляющих динамическое сезонное колебание с точностью до неизвестного параметра а. В свою очередь, параметр а определяется из комбинированного критерия (7) - критерия эволюционного изменения волны и тренда.

Решение задачи о выделении динамического сезонного колебания описано в работах [4, 5]. На основе полученного решения разработан численный алгоритм сезонной корректировки временных рядов. Алгоритм верифицирован на модельных и реальных рядах макроэкономических показателей. Он показал лучшее качество корректированных рядов, чем известная процедура сезонной корректировки Census X12 [6].

Для определения доли сезонных эффектов в общей динамике показателей удобно ввести коэффициент сезонности П:

п = ( £о1/2/( Ё*,2)1/2 t = 0 t = 0

как отношение евклидовой нормы сезонного колебания к норме сезонно скорректированного ряда2.

В качестве примеров действия алгоритма сезонной корректировки на ряды макроэкономических показателей в натуральном выражении рассмотрим корректировку двух рядов: месячных рядов производства электроэнергии (ряд с сильными сезонными эффектами) и объемов добычи нефти (непрерывное производство без сезонных эффектов).

Для производства электроэнергии коэффициент сезонности п=0,154, а для показателя добычи нефти в натуральном выражении п=0,0034. Поскольку добыча нефти - непрерывный процесс, то сезонные эффекты в месячных рядах этого показателя практически полностью объясняются календарными эффектами. Для проверки этого предположения достаточно построить ряд, уровни которого составляют число дней в месяцах («календарный ряд») и провести его сезонную корректировку. Для сопоставимости сезонных эффектов в «календарном ряде» и в показателе объемов добычи нефти достаточно нормировать сезонное колебание к значениям корректированного ряда в том и другом случае и сравнить их.

На рис. 1 приведены графики производства электроэнергии и объемов добычи нефти с января 1998 г. по декабрь 2002 г. как примеры вре-менн>х рядов с сильными и слабыми сезонными эффектами.

Производство электроэнергии

100000

80000

60000

40000

20000

\ААААУ

Период

Период

Млн. кВт-ч

Рис. 1. Производство электроэнергии и объемы добычи нефти в России с января 1998 г. по декабрь 2002 г. в натуральном выражении:

— исходный ряд; — сезонные колебания; — скорректированный ряд

На рис. 2 представлены нормированные сезонные колебания s' = ^ / х( для объемов добычи нефти и «календарного ряда» за два го-

2 Коэффициент сезонности, определенный в [7] как отношение уровня исходного ряда к некоторому сглаженному в процентах, носит локальный характер и не может служить интегральной характеристикой влияния сезонных эффектов на динамику показателей. Кроме того, неопределенность в выборе процедуры сглаживания приводит к неопределенности в вычислении коэффициента сезонности.

да. Фактическое совпадение сезонных и календарных составляющих фиксирует тот факт, что эффективная процедура сезонной корректировки устраняет календарные эффекты и позволяет обойтись без дополнительной календарной корректировки рядов макроэкономических показателей.

Рис. 2. Сравнение нормированного сезонного колебания объемов добычи нефти (—) и нормированного календарного колебания (—)

Таким образом, описанный алгоритм сезонной корректировки на основе выделения динамического сезонного колебания определяет простейшую динамическую систему, реакция которой на внешнее возмущение может быть определена численными методами.

Влияние выбросов на результат декомпозиции временных рядов. Анализ реакции системы на воздействие стандартного возмущения широко применяется в естествознании (метод функций Грина) и технике (определение импульсной реакции системы) [8]. Если система описывается линейными дифференциальными уравнениями, то метод функций Грина позволяет получить общее решение задачи при произвольной правой части. В экономике, аналогичный подход развит для систем, поведение которых можно удовлетворительно описать структурной моделью векторной авторегресии [9]. В такой модели шоки рассматриваются как внешние возмущения. Однако влияние шоков на сезонное колебание, как правило, не исследуется.

Декомпозиция ряда на составляющие - это тоже определенная идентификация системы и ее реакция на внешнее возмущение сводится к оценке изменения формы сезонных колебаний и динамики корректированного ряда. В нашем случае в качестве стандартного возмущения используется выброс.

Определить выброс можно с помощью первых разностей исходного ряда - Ду. Обобщенный показатель скорости изменения значений ряда -это среднеквадратическое значение первых разностей по всей реализа-

п

ции -

(Ду)=)1/:

. Аномальные точки исходного ряда, то есть точки,

в которых ряд изменяется слишком быстро, можно определить по пороговому критерию. Точки, где значения первых разностей превышают значение ^Ду в k раз, будем считать разрывами траектории показателя.

Число k определяется экспертно для каждого отдельного ряда. Превышение первой разностью исходного ряда порогового значения (м ^ k •(Ду)) фиксирует точку с аномальным значением показателя.

Превышение порога k • (Ду) двумя последовательными первыми разностями с разными знаками будем считать выбросом. Понятно, что в эту схему укладываются и пропуски данных, если они учитываются как нули.

Точки с аномальными значениями показателя - это редкие события по определению. Если аномальные точки непрерывно появляются в течение длительного времени, скажем, квартала, то это уже не аномальные значения, а смена динамики уровней показателя. Естественно предположить, что максимальная длина последовательности аномальных точек не должна превышать следующую за исходной, единицу шкалы временного масштаба (например, для месячных рядов - это квартал). Поэтому максимальную длительность выброса можно выбрать равной трем.

Ниже, в качестве стандартного возмущения системы, используется выброс в одной точке ряда. Это самый простой, но и наиболее важный случай при анализе и прогнозировании одномерных рядов.

Разные процедуры декомпозиции исходного ряда по-разному реагируют на наличие аномальных точек в исходном ряде. Например, наличие значительного выброса порождает ложные выбросы на всех периодах (годах) тренда при сезонной корректировке исходного ряда с выделением статического сезонного колебания. В этом случае импульсная реакция системы может быть выражена аналитически [3], а гипотеза о периодичности (неизменности формы циклов по периодам) сезонного колебания позволяет исключать из анализа подозрительные точки. Конечно, любое изменение исходных данных меняет результат декомпозиции, но в «статическом» случае за счет усреднения исходных данных по периодам это влияние невелико и позволяет оценивать значения тренда и сезонного колебания в аномальных точках.

При сезонной корректировке рядов с выделением динамического сезонного колебания исключать «подозрительные» точки из исходного ряда нельзя, поскольку форма циклов предполагается переменной, и отсутствие даже одного уровня драматически скажется на конечном результате. Рассмотрим «механизм» реакции алгоритма на выброс качественно, так как процедура сезонной корректировки реализована в виде алгоритма.

Начальное значение весового коэффициента а принимается равным единице. В этом случае выделяется статическое колебание, его «дисперсия» (второе слагаемое в (7)) равна нулю и большая часть выброса переносится в ту точку скорректированного ряда (тренда), где в исходном

был выброс. Меньшая доля выброса транслируется на все остальные периоды. «Изрезанность» тренда увеличивается, поэтому процедура не может остановиться на этом этапе и а принимает меньшее значение. Когда весовой коэффициент становится меньше единицы, часть изменений тренда перераспределяется в изменение колебания. Второе слагаемое («дисперсия» колебания) в (7) становится отличным от нуля. Дальнейшее уменьшение а позволяет изменить колебание так, чтобы компенсировать увеличение «дисперсии» тренда за счет выброса. Изменения ряда, связанные с выбросом, теперь приписываются изменению колебания, причем наибольшие изменения происходят с циклом, расположенным на том же периоде, что и выброс.

Процесс перераспределения изменений между колебанием и трендом останавливается, когда функционал (7) принимает наименьшее значение при некотором а<1. В таком случае возмущение в тренде экспоненциально затухает пропорционально параметру а. Динамика тренда на периоде с центром в точке выброса линеаризуется3 из-за уменьшения весового коэффициента, а абсолютные значения уменьшаются или увеличиваются в зависимости от знака выброса в силу условия (3).

Примеры влияния выбросов на процедуру декомпозиции временн>х рядов показаны на рис. 3 и рис. 4. В качестве исходных рядов взяты те же данные, что и ранее - производство электроэнергии и объемы добычи нефти.

Выброс моделировался изменением исходных уровней рядов на 25% в одной точке - декабре 2000 г. Из графика тренда ряда с выбросом видно, что выброс в декабре 2000 г. транслируется во все другие декабри ряда с противоположным знаком, при этом амплитуда выброса экспоненциально затухает. Если в качестве базы прогноза -интервала времени, на котором по «сглаженным» данным строится полиномиальная экстраполяция тренда (чаще всего линейная),- выбрать последний год, то возникает неопределенность. Неопределенность связана со сменой тенденции динамики показателя в последней точке ряда. Статистические методы в этом случае неприменимы, так как имело место только одно событие. Более того, ложные выбросы по декабрям всех периодов существенно искажают статистические оценки параметров тренда - среднеквадратическую ошибку и доверительный интервал прогнозных значений [1].

На рис. 4 показана реакция алгоритма сезонной корректировки на отрицательный выброс в ряде показателя с малым коэффициентом сезонности.

3 Тренд становится кусочно-линейной функцией по обе стороны от выброса.

218

Млн. кВт-ч

Рис. 3. Влияние положительного выброса на тренд ряда показателя производства электроэнергии:

— тренд ряда с выбросом; — тренд исходного ряда

Объем добычи нефти

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тыс. т

|о§|о§|о§|о§|о

Рис. 4. Влияние отрицательного выброса на тренд ряда показателя объемов добычи нефти -- тренд ряда с выбросом; --- тренд исходного ряда

Как и на рис. 4, выброс в исходном ряде приводит к появлению ложных выбросов противоположного знака в тренде. Однако, для рядов с малым коэффициентом сезонности, ложные выбросы затухают быстрее, чем для рядов с большими сезонными эффектами. Поэтому они меньше искажают данные на базовом интервале прогноза. Тем не менее, даже из рис. 4 видно, что линейный коэффициент экстраполированного тренда

будет завышен при выборе последнего года в качестве базового интервала (последняя точка отбрасывается).

Анализ влияния выбросов на результаты сезонной корректировки рядов макроэкономических показателей позволяет сформулировать некоторые рекомендации для повышения качества краткосрочного инерционного прогноза.

Для рядов со значительными сезонными эффектами п > 0,065 (соответствует, приближенно, размаху сезонного колебания более 25% от среднего значения тренда) вид процедуры выделения сезонного колебания в большей степени определяет качество прогноза, чем процедура экстраполяции колебания и тренда.

Учет аномальных значений показателя не только на базовом интервале прогноза, но и в точках, отстоящих от выброса на целое число периодов, позволяет повысить надежность прогноза и «нормализовать» нерегулярную составляющую ряда.

Описанная процедура сезонной корректировки позволяет раздельно прогнозировать трендовую и сезонную составляющие ряда, в простейшем случае, полиномиальной регрессией по времени.

Литература и информационные источники

1. Четыркин ЕМ. Статистические методы прогнозирования. М.: Статистика, 1977.

2. КендэлМ. Временн>еряды. М.: Финансы и статистика, 1981.

3. Губанов В.А., Ковальджи А.К. Выделение сезонных колебаний на основе вариационных принципов// ЭММ, т. 37, №1, 2001.

4. Губанов ВА. Непараметрическое выделение динамических сезонных циклов: Препринт WP2/2002/01. М.: ГУ-ВШЭ, 2002.

5. Губанов ВА. Выделение нестационарной циклической составляющей из времен>х рядов // ЭММ, т. 39, № 1, 2003.

6. Butter F.A.G. den, Fase MM.G. Seasonal adjustment as a practical problem. N.-Y.: Elsevier, 1991.

7. Методологические положения по статистике. Вып. 1. М.: Госкомстат России, 1996г.

8. Зельдович Я.Б., Мышкис А.Д. Элементы прикладной математики. СПб.: Издательство «Лань», 2002.

9. Watson M.W. Vector Autoregressions and Cointegration. Handbook of Econometrics, vol. IV. Amsterdam: Elsevier, 1994.

i Надоели баннеры? Вы всегда можете отключить рекламу.