Научная статья на тему 'Математическая модель сглаживания временного ряда при решении задач прогнозирования'

Математическая модель сглаживания временного ряда при решении задач прогнозирования Текст научной статьи по специальности «Математика»

CC BY
718
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВРЕМЕННОЙ РЯД / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / ОШИБКА АППРОКСИМАЦИИ / ИТЕРАЦИОННЫЙ АЛГОРИТМ СГЛАЖИВАНИЯ СЛУЧАЙНОЙ СОСТАВЛЯЮЩЕЙ ВРЕМЕННОГО РЯДА / TIME SERIES / METHOD OF THE LEAST SQUARES / APPROXIMATION ERROR / ITERATIVE ALGORITHM OF SMOOTHING OF A CASUAL COMPONENT OF TIME SERIES

Аннотация научной статьи по математике, автор научной работы — Наумов Владимир Николаевич, Наумов Сергей Владимирович

В СТАТЬЕ РАССМОТРЕНА МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СГЛАЖИВАНИЯ НЕСТАЦИОНАРНОГО ВРЕМЕННОГО РЯДА ДЛЯ РЕШЕНИЯ ЗАДАЧ ПРОГНОЗИРОВАНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПРОЦЕССОВ. МОДЕЛЬ ОСНОВАНА НА ИСПОЛЬЗОВАНИИ ИТЕРАЦИОННОГО АЛГОРИТМА ОЦЕНКИ ПАРАМЕТРОВ ТРЕНДА, А ТАКЖЕ ПАРАМЕТРОВ МОДЕЛИ СЛУЧАЙНОЙ СОСТАВЛЯЮЩЕЙ С ПОМОЩЬЮ ИСПОЛЬЗОВАНИЯ КЛАССИЧЕСКОГО МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ И ОПЕРАТОРА ЛАГА.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Наумов Владимир Николаевич, Наумов Сергей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MATHEMATICAL MODEL OF TIME SERIES SMOOTHING FOR SOLVING THE PROBLEMS OF FORECASTING

THE ARTICLE DESCRIBES A MATHEMATICAL MODEL OF SMOOTHING OF NON-STATIONARY TIME SERIES TO MEET THE CHALLENGES OF FORECASTING THE SOCIAL AND ECONOMIC PROCESSES. THE MODEL IS BASED ON THE USE OF AN ITERATIVE ALGORITHM OF ESTIMATION OF THE PARAMETERS OF A TREND, AS WELL AS THE PARAMETERS OF THE MODEL OF THE RANDOM COMPONENT BY USING THE CLASSICAL METHOD OF LEAST SQUARES AND THE OPERATOR OF A LOG.

Текст научной работы на тему «Математическая модель сглаживания временного ряда при решении задач прогнозирования»

Власть и экономика

В. Н. НАУМОВ, С. В. НАУМОВ

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ СГЛАЖИВАНИЯ ВРЕМЕННОГО РЯДА ЗАДАЧ ПРОГНОЗИРОВАНИЯ

V. N. NAUMOV, S. V.NAUMOV

THE MATHEMATICAL MODEL OF TIME SERIES SMOOTHING FOR SOLVING THE PROBLEMS OF FORECASTING

Ключевые слова:

временной ряд, метод наименьших квадратов, ошибка аппроксимации, итерационный алгоритм сглаживания случайной составляющей временного ряда

Key words:

time series, method of the least squares, approximation error, iterative algorithm of smoothing of a casual component of time series

В статье рассмотрена математическая модель сглаживания нестационарного временного ряда для решения задач прогнозирования социально-экономических процессов. Модель основана на использовании итерационного алгоритма оценки параметров тренда, а также параметров модели случайной составляющей с помощью использования классического метода наименьших квадратов и оператора лага.

The article describes a mathematical model of smoothing of non-stationary time series to meet the challenges of forecasting the social and economic processes. The model is based on the use of an iterative algorithm of estimation of the parameters of a trend, as well as the parameters of the model of the random component by using the classical method of least squares and the operator of a log.

Основным инструментом при решении задач прогнозирования социальноэкономических процессов являются временные ряды, отражающие динамику анализируемых процессов. Пусть, например, уровнями временного ряда являются ежедневные объемы розничных продаж в течение сезона. Такой ряд предусматривает, что нет сезонных и циклических составляющих. Модель ряда состоит только из двух компонент: детерминированной и случайной. Для выделения детерминированной составляющей временного ряда, используемого для решения задач прогнозирования, как правило, используется классический метод наименьших квадратов [2].

Данный метод позволяет оценить коэффициенты уравнения регрессии, вид которых определяется во время структурной идентификации тренда. В соответствие с теоремой Гаусса-Маркова, оценки коэффициентов уравнения регрессии с помощью метода наименьших квадратов являются эффективными

02471418

при выполнении следующих условий относительно случайной составляющей £; для каждого измерения (уровня временного ряда /):

1. Величины е; являются случайными.

2. Математическое ожидание случайных составляющих равно нулю: М(е) = 0.

3. Возмущения е. и е. не коррелированы: М(е. • е ) = 0 для любых пар измерений IФ ..

4. Дисперсия возмущения е. постоянна для каждого г. Б (е.) = а2.

5. Величины е. взаимно независимы со значениями объясняющих переменных.

6. Совместное распределение случайных величин е.,..., еп является нормальным.

Такая идеализация ошибок, а также предположение, что модель ошибки известна, как правило, не соответствует действительности. Нарушение каких-либо из перечисленных условий приводит к следующим ситуациям:

— Математическое ожидание ошибки не равно нулю. Таким образом, оценка становится смещенной.

— Дисперсии ошибок не являются постоянными. Возникает проблема гетеро-скедастичности. Дисперсия ошибок, например, пропорциональна величине фактора. В этом случае оценки ошибок становятся неэффективными. Поэтому проверяемые статистические тесты качества оценок могут быть ошибочными и приводить к неверным заключениям по построенной модели, а также к неверному прогнозированию социально-экономических процессов.

— Ошибки автокоррелированы, коэффициент автокорреляции значимо отличается от нуля. Последствия автокорреляции во многом схожи с последствиями гетероскедастичности.

— Ошибки не подчинены нормальному закону распределения. Поэтому решение задач экстраполяции, на которых строится сопровождение целей, основанное на построении эллипса возможных ошибок, распределенных по нормальному (многомерному нормальному) закону распределения, неправомочно.

Такая ситуация может возникнуть, во-первых, при невыполнении предельных теорем теории вероятностей, в частности, неравнозначности вклада отдельных случайных составляющих в суммарную случайную составляющую, во-вторых, при наличии систематической ошибки измерения. Систематическая ошибка может возникнуть, например, при желании «приукрасить результаты», скрыть существующие проблемы. К сожалению, существует желание приукрасить реальную статистику или представить вымышленные результаты вместо реальных данных. Не случайно Марк Твен говорил, что «Есть ложь, есть большая ложь и есть статистика».

Наумов В. Н., Наумов С. В. Математическая модель сглаживания временного ряда при решении задач...

Власть и экономика

Если рассматривать последовательность измерений как временной ряд, то для построения математической модели может быть использована аддитивная или мультипликативная модель временного ряда [1]. Аддитивная модель временного ряда представляет собой сумму детерминированной составляющей (тренда) и стохастической составляющей, а также возможных интервенций (аномальных измерений). Некоторые проблемы аномальных измерений и устранения ее влияний рассмотрены в исследовании А. А. Большакова и Р. Н. Каримова [2]. Такие модели основаны на использовании робастной и непараметрической регрессии, что позволяет уменьшить влияние аномальных измерений. Поэтому будем предполагать, что такие измерения отсутствуют или их влияние компенсировано. Таким образом, задача определения математической модели временного ряда может быть декомпозирована на две частные задачи:

— выявления детерминированной составляющей и определения параметров регрессионной модели тренда при различных допущениях о характере модели (линейной, нелинейной второго или третьего порядка);

— определения модели случайной компоненты (авторегрессии, скользящего среднего или их комбинации).

Решение данных задач классическим методом наименьших квадратов невозможно при невыполнении условий Гаусса-Маркова. Следовательно, необходимо выполнить преобразования временного ряда для выполнения данных условий. В данном случае возможны два пути:

— преобразование уровней временного ряда;

— преобразование уровней случайной составляющей ряда с целью приведения ряда случайной составляющей к стационарному.

Выберем второй путь, т. к. детерминированную составляющую сглаживать не нужно. С этой целью необходимо перейти от исходного ряда к ряду остатков, получаемому из исходного вычитанием детерминированной составляющей.

Для формирования модели случайной составляющей могут быть использованы две основные модели ошибок:

— авторегрессионная модель ошибки е. = р1 е;1 + ... + рк е-к + v¡ , где е;, е;1,... — значения случайной составляющей временного ряда на . и . — 1 и т. д. уровнях ряда соответственно; v¡ — значения стационарного ряда ошибки.

На практике, как правило, если автокорреляция присутствует, то наибольшее влияние оказывает результат предыдущего наблюдения — так называемая автокорреляция первого порядка. Именно такой тип автокорреляции мы будем рассматривать при построении модели ошибки.

Отсутствие корреляции между соседними наблюдениями чаще всего служит достаточно надежным основанием считать, что корреляция отсутствует в целом и классический метод наименьших квадратов даст адекватные и эффективные результаты. Данный вывод позволяет выдвинуть требование к со-

держанию метода наименьших квадратов, суть которого состоит в контроле автокоррелированности ошибок, например, с помощью критерия Дарбина-Ватсона.

— Модель скользящего среднего е. = V. + 0^ + 0^_2 + ... . Данная модель напрямую не связана с автокррелированностью ошибок. Однако, известно, что указанные две модели (авторегрессии и скользящего среднего) являются двойственными. Следовательно, она также связана с проблемой авто-коррелированности.

Композиция указанных моделей используется в методологии Бокса-Дженкинса [1]. Ее основу составляют процедуры выбора одной из типовых моделей авторегрессии — скользящего среднего, которую можно рассматривать как модель случайной составляющей.

В общей постановке можно представить задачу построения математической модели временного ряда как последовательность шагов итерационного алгоритма. На каждом шаге циклического процесса происходит решение двух задач оценки параметров с помощью классического метода наименьших квадратов: для оценки параметров тренда и для оценки параметров случайной составляющей. Алгоритм состоит из следующих шагов.

Шаг 1. Использование классического метода наименьших квадратов для определения модели детерминированной составляющей — модели тренда с преобразованной моделью ряда.

где У , У — сглаженные значения уровней временного ряда на і, і — 1 шагах алгоритма. Данные значения получают после удаления случайной составляющей е , значение которой вычислено с помощью модели случайной составляющей по результатам предыдущего шага алгоритма. На первом шаге алгоритма модель случайной составляющей еще не получена. Поэтому данная составляющая равна нулю. Следовательно, на первом шаге решается задача оценки параметров тренда на основе исходного временного ряда У. У— = у = У; Т — моменты временного ряда; БУл — параметры уравнения регрессии, вычисленные на і-м шаге алгоритма; У. — аппроксимированные значения модели тренда, полученные на і-м шаге алгоритма.

Шаг 2. Формирование временного ряда остатков:

(1)

(2)

Наумов В. Н., Наумов С. В. Математическая модель сглаживания временного ряда при решении задач...

Власть и экономика

Шаг 3. Построение модели случайной составляющей ряда с помощью соотношений:

Данная модель базируется на использовании модели авторегрессии первого порядка. Информационную матрицу, используемую для расчета коэффициентов, образует ряд остатков, лагированный на единицу.

При применении модели скользящего среднего, модель случайной составляющей принимает вид:

Шаг 4. Анализ условий завершения цикла. Переход к первому шагу алгоритма при необходимости повторения циклического процесса или переход к пятому шагу в случае завершения циклического процесса. Критерием завершения алгоритма является относительная величина изменения ошибки. Процесс заканчивается, когда очередная итерация мало отличается от предыдущей.

Шаг 5. Вычисление прогнозируемых значений уровней временного ряда на основе применения двух моделей, полученных в результате циклического повторения первых шагов алгоритма.

В дальнейшем рассматривалась только одна модель случайной составляющей — модель авторегрессии первого порядка, что обусловлено простотой ее применения, основанного на знании коэффициента корреляции, который используется в качестве параметра модели авторегресии. С целью оценки данного коэффициента применяется процедура Кохрейна-Оркатта [3], также основанная на итерационном алгоритме. Процедура предусматривает несколько шагов итерации, уточняющим оценку коэффициента автокорреляции при условии, что существует автокорреляционный процесс первого порядка, т. е. ошибка удовлетворяет соотношению:

где V. — значение случайной величины, полученной с помощью генератора белого шума.

На первом шаге процедуры с помощью классического метода наименьших квадратов вычисляется приближенное значение коэффициента автокорреляции р = г. На втором шаге выполняется преобразование для решения модели у1 — ру-х = (х — рх?1)'Р + V,, находятся оценки коэффициентов модели и вновь вычисляется новый вектор остатков е = у — Хр. Процесс завершается, когда очередная итерация мало отличается от предыдущей.

(3)

(4)

Данная процедура позволяет сформулировать состав обобщенного алгоритма сглаживания, основанного на итерационном алгоритме. В его состав входят две процедуры: уточнения оценки коэффициента автокорреляции и уточнения оценки параметров уравнения тренда.

Для проверки предложенного алгоритма сформированы следующие модели случайной составляющей:

1. Модель с математическим ожиданием ошибки, не равным нулю М(е.) Ф 0.

е, = + М(е,),

где ¥~\К) — обратная функция для стандартизированной нормальной величины Z N (0,1); Я — равномерно распределенная случайная величина в диапазоне от 0 до 1.

2. Модель с автокоррелированными ошибками для соседних уровней ряда

е, = Г1(К) + ре (_1, р — заданный коэффициент автокорреляции.

3. Модель, для которой случайная величина распределена по закону общего вида

е, = ^ЧЯ),

где Г0~1(К) — обратная функция для функции распределения общего вида. В частности при проведении экспериментов использовались равномерно распределенная случайная величина, а также случайная величина, распределенная по закону Хи2 с различными степенями свободы.

4. Композиция указанных моделей.

На рис.1 приведена структура стенда для проверки работоспособности и качества предложенной модели сглаживания.

Генератор тренда

Генератор шума Порождающий генератор

белого шума

Рис. 1. Структура стенда для проверки модели сглаживания

Наумов В. Н., Наумов С. В. Математическая модель сглаживания временного ряда при решении задач...

Власть и экономика

В приведенной структуре используются генераторы для создания детерминированной и стохастической составляющих временного ряда. Применение аддитивной модели временного ряда предусматривает суммирование этих составляющих. Полученный суммарный ряд в дальнейшем используется для решения задачи сглаживания. С целью построения математической модели случайной составляющей используется порождающий генератор белого шума. Предложенная структура позволяет в качестве эталона для проверки сглаживания использовать детерминированную составляющую. Поэтому качество сглаживания оценивается с помощью соотношения:

(5)

где Ур. — детерминированная составляющая /-го уровня временного ряда.

В ходе экспериментов использовалась линейная модель тренда, а также модель шума ЛЛ(1). Аддитивная модель ряда имеет вид:

Г = Ь0 + Ь. + V. ,

/ 0 1/ / ’

где / — номер наблюдения (номер уровня временного ряда).

При применении данной модели варьировались значения уровней временного ряда, а также виды моделей ошибок. На рис. 2 приведены результаты эксперимента для модели ошибки, подчиненной равномерному закону распределения. На рис. 3 приведены результаты эксперимента для модели ошибки, распределенной по закону Хи2 с различными степенями свободы.

*6ез сглаживания со сглаживанием

математическое ожидание случайной составляющей

Рис. 2. Зависимость ошибки оценки от параметров равномерного закона распределения случайной составляющей для несглаженного и сглаженного временного ряда

25 ■

20 ■

15 •

10 ■

5 •

0 ■

0

Число степеней свободы

Рис. 3. Зависимость ошибки оценки SY от числа степеней свободы (математического ожидания) случайной составляющей

Следует отметить, что, несмотря на то, что качество аппроксимации повышается, однако данное повышение незначительно. Это обусловлено следующим:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— В данных экспериментах была использована только модель авторегрессии первого порядка, и. = р1м._1 + V. , что приводит к незначительному улучшению качества модели. Проведенные эксперименты, основанные на построении кореллограммы, показывают, что порядок авторегрессии следует увеличивать.

— Существенным также является то, что в качестве генератора шума выбирался шум с единичным средним квадратическим отклонением. Целесообразно при построении модели шума оценивать его параметры по имеющейся выборке и генерировать «белый шум» нужной интенсивности.

— При оценке качества использовался только один шаг итерационного алгоритма.

Экспериментально доказано, что алгоритм оценки параметров тренда сходится. На рис. 4 приведены результаты оценки эффективности предложенного метода при использовании ошибки, распределенной по равномерному закону распределения для различного числа шагов алгоритма. В приведенном рисунке представлен график аппроксимации зависимости ошибки оценки уровней временного ряда от числа шагов итерации. Приведенная аппроксимация показывает, что алгоритм имеет высокую сходимость. Зависимость нелинейная.

При подборе экспоненциальной зависимости модель имеет вид:

£ = 0,52е-°,69п,

У ’ ’

где п — число шагов аппроксимации в предложенном алгоритме оценки.

Наумов В. Н., Наумов С. В. Математическая модель сглаживания временного ряда при решении задач...

Власть и экономика

Шаг итерации

Рис. 4. Зависимость ошибки аппроксимации от числа шагов итерационного алгоритма

Таким образом, сглаживание исходного временного ряда позволяет повысить качество построения его математической модели, а, следовательно, повысить качество решения задач прогнозирования социально-экономических процессов. Применение таких моделей наряду с другими моделями обработки может повысить эффективность принимаемых решений. При этом следует учитывать, что структурная идентификация детерминированной и случайной составляющих зависит от характера временного ряда. В статье рассмотрена наиболее простая модель временного ряда. Поэтому был выбран отрезок временного ряда продаж, что позволило выбрать простую (линейную) модель тренда, а также модель АР(1) случайной составляющей. При решении других прикладных задач структурная идентификация может привести к другим моделям. Однако существо предложенного алгоритма не изменится.

1. БоксДж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. М., 1974.

2. Большаков А. А., Каримов Р. Н. Методы обработки многомерных данных и временных рядов. М., 2007.

3. Плохотников К. Э. Основы эконометрики в пакете Statistica. М., 2010.

References

1. Box J., Jenkins G. Analiz vremennykh ryadov. Prognoz i upravlenie. M.: Mir, 1974.

2. Bolshakov A. A., Karimov R. N. Metody obrabotki mnogomernykh dannykh i vremennykh ryadov. M.: Goryachaya liniya-Telekom, 2007.

3. Plokhotnikov K. E. Osnovy ekonometriki v pakete Statistica. M., 2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.