УПРАВЛЕНИЕ В СОЦИАЛЬНО- / ЭКОНОМИЧЕСКИХ СИСТЕМАХ /
УДК 519.24
АВТОПРОГНОЗИРОВАНИЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ПОКАЗАТЕЛЕЙ ПОСРЕДСТВОМ СОВОКУПНОСТИ СПЕЦИАЛИЗИРОВАННЫХ МОДЕЛЕЙ
Л. А. Осипов,
доктор техн. наук, профессор М. А. Смирнов,
аспирант
Санкт-Петербургский государственный университет аэрокосмического приборостроения
Предлагается подход к кратко- и среднесрочному прогнозированию социально-экономических показателей развития региона с помощью набора моделей класса авторегрессии и проинтегрированного скользящего среднего (АРПСС). Каждая модель используется для прогнозирования ровно на к шагов вперед. Параметры модели определяются в результате решения задачи минимизации невязки модельных значений, получаемых при «эмуляции» прогнозирования на к шагов вперед на обучающей выборке. При этом используется метод минимизации Гаусса-Ньютона. Отмечается повышение точности прогноза на несколько процентов относительно базовых моделей АРПСС для представительной группы показателей развития Санкт-Петербурга.
This paper proposes an approach to short- and intermediate-term forecast of socio-economic indicators of a region using a group of AutoRegressive Integrated Moving-Average (ARIMA) models. Each model is used to forecast only a k-th future value at given instant. The parameters of a models is estimated by solving minimization problem of model’s residuals, which are calculated for a learning sample set by “emulating” the forecasting of the-th future values. The Gauss-Newton method for minimizing the objective function is used. It is noted the improvement of forecast precision by a few per cents relative to the common ARIMA models for a representative set of Saint-Petersburg development indicators.
Введение
Прогнозирование показателей социально-экономических процессов региона используется в системах поддержки принятия решений как в государственном управлении,так и в управлении крупной коммерческой организацией. Вопрос получения эффективного автопрогноза, при котором используется только ретроспективная информация о поведении прогнозируемого показателя, актуален как для задач вычисления прогнозных значений отдельных показателей в краткосрочной перспективе, так и для задач комплексного прогноза социально-экономического развития. В последнем случае автопрогнозирование в сочетании с экспертными оценками применяется при формировании сценариев развития системы.
Прогнозные значения вычисляются исходя из модели, сформированной для временного ряда
показателя. Параметры модели определяются в результате решения задачи обеспечения наиболее точного по заданному критерию соответствия модельной кривой и траектории имеющегося временного ряда. Как правило, данная задача явно формулируется как оптимизационная. Обычно роль критерия оптимизации выполняет невязка между фактическим значением ряда у(/') и модельным у(/), вычисленным на основании знания предыдущих значений у(/-1), у(/- 2).... Таким образом, модель настраивается (идентифицируется) в режиме прогноза на один шаг вперед, поскольку предполагается знание у(/-1). В статье описаны результаты эксперимента по использованию моделей, настроенных на прогноз на определенное количество шагов вперед, для предсказания показателей социально-экономического развития Санкт-Петербурга. Применялись модели класса авторегрессии и проинтегрированного скользя-
щего среднего. Было отмечено повышение точности прогноза на несколько процентов относительно базовых моделей, идентифицированных в режиме прогноза на один шаг вперед.
Краткая характеристика моделей авторегрессии и проинтегрированного скользящего среднего
Поведение временных рядов социально-экономических показателей определяют четыре вида факторов: долговременные (определяющие тенденцию, или тренд), сезонные, циклические и случайные. Большинство показателей имеют нестационарный временной ряд, который в случае отсутствия сильных возмущений приводится к стационарному посредством взятия последовательных (цепных) разностей значений. Иначе говоря, типичные ряды показателей демонстрируют нестационарность на уровне первых моментов, объясняемую наличием долговременной неслучайной компоненты f(t) полиноминал ьного вида. Взаимосвязи элементов такого нестационарного временного ряда обычно могут быть описаны удовлетворительным образом с помощью моделей класса авторегрессии и проинтегрированного скользящего среднего (АРПСС), или моделей Бокса-Дженкинса [1, 2]. При использовании АРПСС ряд y(t), преобразованный с помощью d- кратного взятия разностей значений в последовательность разностей Aay(t), описывается процессом авторегрессии порядка р со скользящим средним порядка q в остатках. В общепринятых обозначениях модель записывается кратко как АРПСС(р, d, q) и имеет вид
yd(t) = $ + a1yd(f - 1) + a2yd{t -2) + ... + apyd(t - p) + +є(ґ) - Q^(t - 1) - 02e(f - 2) - ... - 0 e(t - q),
1
где у (?) - величина, полученная из исходного у(£) после применения d- кратной процедуры взятия последовательных разностей с лагом (задержкой) 1, ус'(?) = Дйу(0, Д1у(0 = У(0-У(*-1);
£, - константа (свободный член авторегрессии или среднее значение ряда);
а, - параметры авторегрессии, /'= 1,р; с(Г) - случайная компонента (остаток), т. е. разница между уд^) и ее модельным значением ус/(0;
Эу - параметры скользящего среднего, у = 1,д, В сокращенном виде выражение (1) часто записывается как
yd(t) = ii + ^-8(t), А(В)
(2)
% .
где (.і - среднее значение, ,и = -т?Ьг>
А(В)
В - оператор сдвига, 8у(ґ) = у(ґ - 1), д1 = 1 - 8; 0(8) - оператор скользящего среднего, 0(8) = 1-018-...-0с78<7;
/4(8) - оператор авторегрессии, А(В) = 1-- а-\В-... - арВр.
В случае наличия в ряде весомой сезонной или циклической компоненты с периодом т в модель АРПСС вводятся мультипликативные операторы, позволяющие описать данные компоненты таким же образом,как долговременную и случайную составляющие. Это достигается применением процедуры О- кратного взятия разностей значений исходного ряда с лагом Т, а также модели процесса авторегрессии порядка Р со скользящим средним порядка О в остатках для значений с лагом Т. Сезонная разность порядка О берется после разности с лагом 1 порядка d. Полная модель с учетом периодической составляющей кратко описывается в виде АРПСС(р, d, q)(P, О, 0)ги выражается как
A?Ady(t) = Ll + Q}B2 ' e(t),
А(В)АТ(В)
где
Т\D.
(3)
0Г(Є) = 1 - 0Г8' - ,..-0го8та;
АТ(В) - 1 - АТВ
АТРВ
ТР
Характерные проблемы при прогнозировании социально-экономических показателей
Сложности при прогнозировании социально-экономических показателей часто определяются малым объемом имеющейся выборки и наличием сильных возмущающих воздействий, или интервенций. Это имеет место и в отношении Санкт-Петербурга. Значения большинства социально-экономических показателей отслеживаются органами государственной статистики не чаще, чем ежемесячно. Экономический кризис 1998 года привел к существенным изменениям в динамике многих социально-экономических процессов. Поэтому в настоящее время надежную базу для построения прогностической модели составляют наблюдения лишь за 4 года, что соответствует ряду длиной 48 значений для вычисляемых ежемесячно показателей. В условиях такой малой выборки ненадежно работают статистические критерии, опирающиеся на закон больших чисел, поэтому сложно гарантировать состоятельность оценок [3].
При идентификации (оценке параметров) моделей временных рядов широко используется метод моментов, при котором неизвестные параметры выводятся из выборочных значений различных моментов ряда — дисперсии а2, автокорреляций г(к) и т. д. Из экспериментальных исследований известно, что оценки автокорреляционной функции часто медленно сходятся к истинным значениям, поэтому ненадежны для коротких рядов из нескольких десятков наблюдений [1].
Действительно, оценки автокорреляционных функций искусственно сгенерированных рядов существенно отличаются от истинных функций при малой длине п ряда. На рис. 1 представлен график частных коэффициентов автокорреляции гч, вычисленных для реализаций длины п процесса авторегрессии
y(t) = 0,7y(t - 1) + e(f),
(4)
0,8
0,7
0,6
0,5
0,4
0,3
0,2 0,1
О
-0,1
-0,2
-0,3
Лаг
Рис. 1. Графики частных коэффициентов автокорреляции гч: га-истинно; КЗ- п = 100; ка - п = 50
п = 1000;
где случайная величина с(£) распределена по нормальному закону с нулевым математическим ожиданием и единичной дисперсией, е(?) е N(0,1).
Из рис. 1 видно, что для практически интересующих длин временного ряда п<100 частные коэффициенты автокорреляции на десятки процентов меньше истинных значений. Например, при п = 50 коэффициент гч(1) = 0,37. Поэтому при описании реализации процесса(4)уравнением у(?) = а1 ■ у(£- 1) + с(£) посредством идентификации по методу моментов коэффициент а-| получит значение 0,37, что почти в два раза меньше истинного значения, равного 0,7. При небольшом значении коэффициента а-| и малом значении п выборочные функции автокорреляции для процесса авторегрессии и белого шума часто становятся статистически неотличимыми.
Вышеизложенное предопределяет необходимость выполнения большого объема работ по экспериментальной оценке точности модели в режиме прогноза. Если модель предназначена для получения прогноза, а не для анализа наблюдаемого процесса, то в качестве критерия оптимизации естественно выбрать ошибку прогноза для интересуемого горизонта прогнозирования. Определение вероятностных характеристик оценок параметров модели в зависимости от размера выборки требует отдельного исследования.
Предлагаемый подход к построению совокупности прогностических моделей
Прогнозные оценки, как правило, требуется определять в пределах достаточно длинного горизонта прогнозирования /. Для кратко- и среднесрочного прогнозирования / часто составляет до 6 тактов (шагов). Модель АРПСС идентифицируется исходя из критерия минимизации ошибки £(/) между текущим значением у(/) и модельным значением у(/'), вычисленным на основании у(у), у < / [1]. Это ошибка е(Г + 1|0 при прогнозе на один шаг вперед на основании значений, известных в момент времени t. Соответственно ошибку при прогнозе на к шагов вперед на основании значений, известных в момент времени t, можно обозначить как с(£ + к | ?)■
Представляется целесообразным практически оценить точность предсказания с помощью
набора из / моделей М{к), идентифицированных на основании минимизации критерия с(? + /с|?) и используемых для прогнозирования ровно на к шагов вперед, к < I . Действительно, прогнозы у(£ + 1|£) и у(? + 11 ? — 1) суть оценки одной и той же величины у(£ + 1) , но представляют собой решения разных задач с отличающимися исходными данными.
Описание эксперимента
Для проведения эксперимента по оценке точности прогнозирования была отобрана группа из 40 показателей социально-экономического развития Санкт-Петербурга, охватывающая различные сферы жизнедеятельности города. Описание показателей представлено в табл. 1. По данным органов государственной статистики были построены временные ряды показателей. Все ряды носили месячный характер и состояли из 50 отсчетов. Начальное значение соответствовало ноябрю 1998 г., конечное — декабрю 2002 г.
Таблица 1
Сфера Показатель
Производство товаров и услуг Балансовая прибыль организаций, млн руб. Объем отгруженной продукции по крупным и средним промышленным организациям, по отраслям, млн руб. (всего 18 показателей)
Потребление товаров и услуг Объем розничного товарооборота, по видам товаров, млн руб. (всего 4 показателя) Оборот общественного питания, млн руб. Объем бытовых услуг населению, тыс. руб.
Цены Индекс потребительских цен, % Стоимость минимального набора продуктов питания, тыс. руб. Индекс цен производителей промышленной продукции, %
Налоги Задолженность по налоговым платежам на 1-е число месяца, млн руб.
Строительство Объем работ, выполненных по договорам строительного подряда, млн руб. Ввод зданий жилого назначения, тыс. кв. м.
Транспорт Грузооборот предприятий транспорта, млрд т-км. Пассажирооборот крупных и средних организаций транспорта, млрд пасс.-км. Количество дорожно-транспортных происшествий, ед.
Доходы населения Денежные доходы на душу населения, тыс. руб. Реальная среднемесячная начисленная заработная плата, %
Занятость Заявленная предприятиями и организациями потребность в работниках, тыс. чел. Численность безработных, тыс. чел.
Демография Коэффициент смертности. Коэффициент рождаемости
Построение моделей осуществлялось в два этапа. Для выполнения расчетов использовались средства программного комплекса SAS System.
На первом этапе для каждого временного ряда была подобрана наиболее эффективная модель М(1) (р, d, q)(P, D, 0)12 путем построения всех возможных моделей АРПСС с p,d,q,P,D,Q = 0,2 и выбора наилучшей по критерию среднеквадратического отклонения. Принятие в качестве периода сезонности 12 месяцев обусловлено типовым предположением о наличии именно годичной цикличности в социально-экономических показателях, а также отрицательными результатами проверки гипотезы о незначимости г (12) для основной массы рядов. Идентификация проводилась по методу наименьших квадратов, в качестве процедуры оптимизации использовался метод Гаусса-Ньютона. Вектор изменения искомых параметров в методе Гаусса-Ньютона определяется как [4]
У = (ХтХ)Хтг, (5)
где Т[1: К] - вектор изменения, вектор текущих значений искомых параметров; Х[п : К] - матрица значений частных производных целевой функции относительно параметров; г[п\ 1] - вектор невязок целевой функции; п - объем обучающей выборки; К - число искомых параметров.
Вектор 4^ вычисляется в конце каждой итерации. В начале следующей итерации исходя из определяется значение целевой функции. Если в результате изменения У не происходит уменьшения целевой функции, то Ч7 уменьшается вдвое и целевая функция перевычисляется. Данное действие (подытерация) повторяется либо заданное количество раз, либо пока значение целевой функции не улучшится. В первом случае процесс оптимизации считается завершенным, во втором случае осуществляется переход к следующей итерации.
В качестве первоначальных значений параметров в выражении (5) принимались значения, полученные по методу моментов из оценок коэффициентов корреляции [1]. В обучающую выборку были включены данные с ноября 1998 г. по июнь 2002 г. Данные с июля 2002 г. по декабрь 2002 г, были оставлены в качестве тестовой выборки. В результате первого этапа были получены модели М^\ соответствующие решению задачи
min^£(f + 11 tf.
t
На втором этапе для каждого ряда производилось пять повторных идентификаций модели /^(1) ( р, d, q )(Р, D, 0)12 с целью настройки модели для эффективного прогноза ровно на к шагов вперед, к = 2,6. Роль обучающей выборки также играли данные с ноября 1998 г. по июнь 2002 г. В результате второго этапа были получены модели М{к), к = 2,6, для которых выполнялось условие
min^e(f + к 11)2. (6)
Время
■ Рис. 2. Графики реальных и прогнозных значений работ выполненных по договорам строительного
подряда в 2002 г. : —о---------реально; - к = 1;
-д- - к = 2; ~о~ - к = 6
Результаты эксперимента
Сравнение эффективности М(1) и набора М^к\ к = 1,6, проводилось на тестовой выборке данных с июля по декабрь 2002 г. В качестве критериев точности прогноза использовались средняя ошибка предсказаний
1 6
А = ^ ХИ44 + /)~у(44 + ')| ь /=1
и среднеквадратичная ошибка предсказаний
а = ^Ё(^44 + /)-у(44 + /'))2.
где у (44) соответствует июню 2002 г., поскольку первый отсчет У(1) отвечает ноябрю 1998 г.
Усредненные результаты сравнения моделей всех 40 временных рядов на тестовой выборке представлены в табл. 2. За единицу приняты значения критериев Лид при прогнозе у(£ + к | £) только с помощью модели /М(1) {р,_с[, q){P, О, 0)12 вне зависимости от значения к = 1,6 ■
На рис. 2 приведен график реальных значений объема работ, выполненных по договорам строительного подряда, млн руб., график прогнозных значений для обычной модели М(1) (1,0,0) (1,1,0)12 (к = 1 ), график прогнозных значений для комбинации М(1) (1,0,0)( 1,1,0)12 и М{2) (1,0,0)( 1,1,0)12 ( к = 2 ), а также график прогнозных значений для набора М(/<) (1,0,0)(1,1,0)12, к = |6 ( к = 6 ).
Из рис. 2 видно, что с увеличением значения к точность прогнозов в целом возрастает. Значения критериев Д и Д в предельных случаях приведены в табл. 3.
■ Таблица 2
Модель
Критерий М°\ к = 1,6 j /W(1), к = 1 \м(2\ к = 2Гб { М(к\ к = 1,3 \м{4), к = 4^6 М{к\ к = 1,6
Д 1 0,97 0,95 0,94
д 1 0,98 0,97 0,96
Таблица 3
Критерий Модель объема работ, выполненных по договорам строительного подряда
М(1), к = 1,6 § X; II 05 I
317,0 295,8
Д (1,00) (0,93)
474,2 466,3
д (1,00) (0,98)
Таблица 4
к Обозначение модели Модельное уравнение
1 М(1) (1,0,0)(1,1,0)12 у1(ґ) =109,3 + + тр- т (1 + 0,432В)(1 - 0,608В )
2 М(2) (1,0,0)(1,1,0)12 у У) = 80,7 + + тг £(f) (1 + 0,576В)(1 - 0,602В )
6 М(6) (1,0,0)(1,1,0)12 y\t) = 56,8 + + 1 то" Ф (1 + 0,771В)(1- 0,053В12)
В качестве базовой модели М(1) при этом использовалась АРПСС (1,1,0)( 1,0,0)12 как наилучшая по критерию среднеквадратического отклонения среди всех возможных моделей АРПСС(р, с1, д)(Р, О, 0)12 СдоГ1д1Р,ЦО = 0,2. Для АРПСС (1,1,0)(1,0,0)12
y\t) = ц +
1
12
(1 - а1в)(1 - а12В
Поэтому, например, для к = 2 ошибка е(ґ + 2 | ґ), сумма квадратов которой составляет целевую функцию, с учетом (3) имеет вид:
є(ґ + 2 І і) = є(ґ |ґ - 2) = у\і) - у1(ґ \і - 2) =
= У1(0 ~ (М-0 - аі)(1 - а-|2) + а-|У1(ґ -11Г - 2) + +а12у1(? — 12 | ґ — 2) — а-,а12у1(£ - 13 | Г - 2)); у\ї ~ 1~ 2) = ц(1 - а^І - а-|2) + ЗіУ V ~ 2) +
+аА 2у\і - 13) - а^ 2У V - 14); у1(ґ-12 Іґ-2) = у1(ґ - 12); у1(ґ - 13 и-2) = у1(ґ -13).
В табл. 4 приведен вид модели, идентифицированной для разных значений к в выражении (5). С увеличением к значения параметров модели существенно меняются.
В рамках исследованных рядов и их моделей ухудшение точности прогноза при использовании набора моделей М{к\ «натренированных» для прогноза ровно на к = 1,6 шагов вперед, отмечено только для ряда показателей объема отгруженной продукции по крупным и средним промышленным организациям. Это можно объяснить тем, что многие отрасли промышленности Санкт-Петербурга зависят от крупных заказов, которые невозможно спрогнозировать на основании ретроспективной динамики объема отгруженной продукции.
Заключение
Проведенные исследования свидетельствуют о перспективности подхода. За счет использования предложенного критерия оптимизации можно на несколько процентов повысить точность автопрогноза на определенное количество шагов вперед при неизменном количестве параметров модели. Аналогично уменьшается совокупная ошибка прогноза для всего горизонта прогнозирования. Необходимость многократного проведения процедуры идентификации и, следовательно, поиска оптимума в общем случае нелинейной функции приводит к многократному увеличению машинного времени вычислений. С другой стороны, вследствие небольших длин временных рядов показателей и низкой частоты поступления новых значений, это не является препятствием для использования подхода в автоматизированных системах управления, содержащих подсистемы социально-экономического моделирования и прогнозирования состояния региона. Представляется возможным успешное использование описанного подхода в сочетании с другими прогностическими моделями, отличными от АРПСС.
Литература
1. Box G.E.P., Jenkins G.M., Reinsei G.C. Time Series Analysis: Forecasting and Control. Third Edition. -Englewood Cliffs, NJ; Prentice Hall, 1994. 598 p.
2. Лукашин Ю.П. Анализ временных рядов по методу интегрированной авторегрессии-скользящей средней. - М.: АН СССР. Институт мировой экономики и международных отношений, 1975. Серия «Статистические методы анализа (алгоритмы и программы)». Вып. 5. 80 с.
3. Айвазян С.А., ЕнюковИ.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. -М.: Финансы и статистика, 1985. 488 с.
4. SAS Institute Inc-, SAS OnlineDoc®, Version 8, Cary,
NC: SAS Institute Inc., 1999. http://v8doc.sas.com/
sashtml/