Низамитдинов Ахлитдин Илёситдинович,
старший преподаватель кафедры программного обеспечения информационной технологии Политехнического института ТТУ им. акад. М. С. Осими
ИСПОЛЬЗОВАНИЕ ШТРАФНОГО СПЛАЙНА (P-SPLINE) И КУБИЧЕСКОГО СГЛАЖИВАЮЩЕГО СПЛАЙНА В ПРОГНОЗИРОВАНИИ ВРЕМЕННЫХ РЯДОВ Введение
Анализ финансовых временных рядов является важным в экономической науке. В этой статье рассматривается анализ финансовых временных рядов, основной целью которого является выявление характеристик динамических рядов и их прогнозирование. Прогнозирование будущего состояния показателей имеет наибольшую заинтересованность во временных рядах, так как, если можно прогнозировать завтрашние показатели с какой-то степенью точности, данную информацию можно использовать уже в сегодняшних показателях.
К сожалению, не всегда получается найти точное прогнозирование для временных рядов. Финансовые временные ряды часто показывают нелинейные характеристики. Для этой цели в данной статье используются нелинейные модели, основанные на непараметрической регрессии.
Хотя финансовая теория не обеспечивает большие мотивации использования нелинейных моделей, проведение анализа с нелинейными инструментами представляется целесообразным.
Существуют различные методы в непараметрической статистике, такие как регрессионные сплайны [8], сглаживающие сплайны [5], B-сплайны [2],[4], штрафные сплайны (P-splines) [1], обобщенные аддитивные модели. Все данные методы направлены на создание модели с наиболее точным прогнозом.
Непараметрическая регрессия используется в различных областях науки. Ниже приводятся некоторые из них: сглаживание и прогнозирование показателя смертности с помощью штрафных сплайнов (P-splines) [7], прогнозирование спроса на потребление почасовой электроэнергии с использованием нестационарных сплайнов [9], локальное линейное прогнозиро-
вание с использованием кубических сглаживающих сплайнов [10], прогнозирование осадков с помощью многомерных адаптивных регрессионных сплайнов [11], прогнозирование концентрации озона по функциональным непараметрическим методам [12], обобщенные аддитивные модели в исследовании временного ряда загрязнения воздуха и здоровья [13], применение многомерных адаптивных регрессионных сплайнов для имитации температуры почвы [14].
В данной работе проведен непараметрический анализ с помощью штрафных сплайнов (P-splines) и кубических сглаживающих сплайнов во временном ряде ежедневного обменного курса валют: турецкой лиры/доллара США на протяжении 2005-2009 гг. Выбор оптимального сглаживающего параметра сделан с помощью обобщенной кросс-проверки (Generalized Cross Validation (GCV)) и критерия Акаике (Akaike Information Criteria (AIC)).
В статье проведен сравнительный анализ используемых методов. Для этого используются следующие критерии: среднеквадратическая ошибка (Mean Squared Error (MSE)), среднеабсолютная ошибка (Mean absolute error (MAE)), среднеабсолютная процентная ошибка (Mean absolute percentage error (MAPE)).
Основная идея регрессионного анализа и использованных методов приводится в разделе 1. Проведенный анализ сгруппирован в разделе 2. И наконец, в разделе 3. приводится заключение статьи.
1. Основы регрессионного анализа
В общем виде при исследовании экономического временного ряда используется модель вида:
yt =Ut + Vt + Ct+Et (1)
Где Щ - тренд, Vt - сезонная компонента, С£ - циклическая компонента, ■Г г - случайная компонента.
Наряду с использованием параметрических методов прогнозирования, также применяются непараметрические регрессионные модели, в моделях которых вид зависимости заранее неизвестен.
К непараметрическим регрессионным методам относятся различные виды функций, одной из которых является сплайн. Сплайновая функция аппроксимации имеет следующий вид:
У- = f(xi) + £i a < x < ... < xn < b (2)
где f e C2 (a, b) - неизвестная сглаживающая функция, , i = 1,...,n наблюдаемые значения переменной отклика у, xt, i = l^..^n наблюдаемые
значения переменной х и st, i = 1,...,n нормально распределенные случайные
ошибки с нулевым средним значением и общей вариацией (Г2 .
Основной проблемой непараметрической регрессии является оценивание
неизвестной функции f G C2 (a, b) (всех функций f с непрерывными первыми и вторыми производными) в модели (1).
Оценка сглаживающего сплайна (Green and Silverman, 1994) возникает как решение следующей минимизационной задачи: нахождение
f g C2 (a, b) , при которой минимизируется штрафные остаточные суммы квадратов
S (f ) = Ё b - f ( X )}2 + 4V '( X)Y dx (3)
i=1
для определенного значения X > 0 , и где Xi, yi - наблюдаемые значения.
Первое слагаемое в уравнении (3) обозначает штрафные остаточные суммы квадратов.
Второе слагаемое, которое определяется через X, означает штраф кривизны (roughness penalty) и называется сглаживающим параметром.
Для более подробной информации о сглаживающих сплайнах смотрите
[5].
В этой статье используются также В-сплайны [2],[4] с штрафами, известными как штрафные сплайны (P-splines) [1]. Eilers and Marx (1996) показываются как штрафные сплайны (P-splines) и могут быть использованы в различных контекстах и иллюстрируют свои заметки с примерами относительно оценки плотности и непараметрического сглаживания.
2. Эмпирический анализ
В данной работе использованы программы Econometric Views и R Software для создания моделей и выбора сглаживающего параметра. Выбор параметра осуществляется посредством обобщенной кросс-проверки (Generalized Cross Validation (GCV)) и критерия Акаике (Akaike Information Criteria (AIC)).
Представление модели связано с тем, как близко приближены прогнозируемые значения тестируемых данных и наблюдаемых значений. Три различных критериях прогнозирования использованы для сравнения полученных штрафных сплайнов (P-splines) и кубических сглаживающих сплайнов: среднеквадратическая ошибка (Mean Squared Error(MSE)), среднеабсолютная ошибка (Mean absolute error(MAE)), среднеабсолютная процентная ошибка (Mean absolute percentage error(MAPE)). Эти критерии определяются следующими формулами:
1 " 2
MSE = -£(^ - у,)
П ,=1
1 П МАЕ = “У|Уг - У
п г=1 МАРЕ =1
п г =1 У г
В данном разделе анализируется временной ряд: ежедневный обменный курс валют - турецкой лиры/доллара США на протяжении 2005-2009 гг. (смотрите, www.tcmb.gov.tr).
Для проведения анализа данные сгруппированы по годам, каждый год включает п=254, п=251, п=252, п=251, п=252, для каждого года
соответственно, где ^количество наблюдений. Так как для моделей параметрических методов или линейных функций должно удовлетворяться условие стационарности временных рядов, временной ряд разделен на 5 частей, в данном случае на 5 лет.
Далее описывается прогнозирование с помощью штрафных сплайнов (?-splines) и кубических сглаживающих сплайнов данных каждого года. Для наглядности на рисунке 1. приводится подгонка функций для 2005 года и выбранные сглаживающие параметры.
А) Б)
Рисунок 1. а) Кубический сплайн и б) штрафной сплайн (P-sphnes) при выборе
оптимального сглаживающего параметра
Также ниже приводится таблица выбора оптимального сглаживающего параметра для данных 2005 года, для модели кубического сглаживающего сплайна.
Таблица 1
Выбор сглаживающего параметра для данных 2005 года
lambda (X) 10 1 0.1 0.01 0.001 0.0001
GCV SCORE 0.000392573 0.00025247 0.00023947 0.00023989 0.00023998 0.00023999
MSE 6.17091Е-05 3.60254Е-05 3.58771Е-05 3.99356Е-05 4.02177Е-05 4.02469Е-05
МАЕ 0.006462954 0.004489338 0.004362963 0.00491404 0.004932619 0.00493452
МАРЕ 0.004751818 0.003300648 0.003203944 0.003615565 0.003629288 0.003630692
Как видно из таблицы, оценивающие критерии уменьшаются до значения Х=0.1, после этого данные критерии увеличиваются. Эта таблица отображает критерии только 2005 года для модели кубического сглаживающего сплайна. Также выбраны оптимальные сглаживающие параметры для других годов и для штрафных сплайнов соответственно.
Ниже приводятся таблицы, отображающие оптимальные сглаживающие параметры для временных рядов всех годов для кубических сглаживающих сплайнов и штрафных сплайнов (P-splines) соответственно.
Таблица 2
Оптимальные сглаживающие параметры для штрафных сплайнов (P-splines)
Год 2005 2006 2007 2008 2009
Lambda(X) 0.01 0.001 0.001 0.001 0.001
А1С 40.24979 44.9459 44.85606 44.97705 45.02775
MSE 2.28396Е-05 6.59451Е-05 0.000137297 0.003140973 0.00008702
МАЕ 0.003855977 0.006476622 0.008887651 0.03836037 0.007544393
МАРЕ 0.002837251 0.004455262 0.007425854 0.02421543 0.005069921
Таблица 3
Оптимальные сглаживающие параметры для кубических сглаживающих
сплайнов
Год 2005 2006 2007 2008 2009
Lambda(X) 0.1 0.01 0.1 0.1 0.001
GCV 0.00023947 0.00049092 0.0002932 0.0012766 0.00059921
MSE 3.58771Е-05 0.000273267 0.000195523 0.003831583 0.000144035
МАЕ 0.004362963 0.01353002 0.01114861 0.04259783 0.00946508
МАРЕ 0.003203944 0.00929093 0.009315323 0.02671627 0.006371917
Как видно из вышеприведенных таблиц, оптимальный сглаживающий параметр выбирается относительно каждого временного ряда или наблюдаемых значений. Сглаживающий параметр зависит в основном от поведения данных на графике. Чем больше разброс данных, тем больше
сглаживающий параметр стремится к нулю, т.е. уменьшается. При увеличении сглаживающего параметра наша функция отображает линейность.
Теперь необходимо сравнить эти регрессионные методы, чтобы выяснить, какой из них лучше описывает подогнанные значения к наблюдаемым значениям. Для этого вычислим среднее значение критерия оценки, т.е. среднеквадратической ошибки (Mean Squared Error(MSE)), среднеабсолютной ошибки (Mean absolute error (MAE)) и среднеабсолютной процентной ошибки (Mean absolute percentage error (MAPE)).
Таблица 4
Средние значения критерия оценки для штрафных сплайнов (P-splines)
Год 2005 2006 2007 2008 2009 Среднее значение
MSE 2.28396E-05 6.59451E-05 0.000137297 0.003140973 0.00008702 0.000690815
MAE 0.003855977 0.006476622 0.008887651 0.03836037 0.007544393 0.013025003
MAPE 0.002837251 0.004455262 0.007425854 0.02421543 0.005069921 0.008800744
Таблица 5
Средние значения критерия оценки для кубических сглаживающих сплайнов
Год 2005 2006 2007 2008 2009 Среднее значение
MSE 3.58771E-05 0.000273267 0.000195523 0.003831583 0.000144035 0.000896057
MAE 0.004362963 0.01353002 0.01114861 0.04259783 0.00946508 0.016220901
MAPE 0.003203944 0.00929093 0.009315323 0.02671627 0.006371917 0.010979677
Как видно из этих таблиц, средние значения критерия оценки, полученные с помощью штрафных сплайнов (P-splines), меньше, чем результаты кубических сглаживающих сплайнов. Следовательно, можно сказать, что штрафные сплайны (P-splines) производят лучшую аппроксимацию, чем кубические сглаживающие сплайны для прогнозирования временных рядов.
4. Заключение
В данной статье были рассмотрены две непараметрические регрессионные модели, основанные на штрафных сплайнах (P-splines) и кубических сглаживающих сплайнах. Вывод определялся прогнозированием временного ряда с помощью данных моделей. Результаты, полученные с помощью штрафных сплайнов (P-splines), были сравнены с кубическими сглаживающими сплайнами. В итоге мы можем сделать следующие заключения:
• Согласно значениям критерия оценки МБЕ, МАЕ и МА?Е для временного ряда, непараметрическая модель, основанная на штрафных сплайнах, показывает лучший результат.
• Но, в то же время, результат, полученный с помощью кубических сглаживающих сплайнов, не так сильно отстает от штрафных сплайнов.
Данные результаты показывают, что оценки, основанные на штрафных сплайнах, лучше, чем кубические сглаживающие сплайны.
Следует отметить, что сделанные выводы относятся к классам задач временных рядов. В дальнейших исследованиях мы попробуем анализировать многомерные наборы данных.
Список литературы:
1. P.H.C. Eilers and B.D. Marx (1996). Flexible smoothing using B-splines and penalized likelihood (with comments and rejoinders). Statistical Science, 11(2), 89-121.
2. C. De Boor (1978). A Practical Guide to Splines, Springer, New York.
3. B.D. Marx and P.H.C. Eilers (1998). Direct generalized additive modeling with penalized likelihood, Computational Statistics and Data Analysis, 28, 193-209.
4. P. Dierckx, Curve and surface fitting with splines, Clarendon Press, Oxford, 1993.
5. P.J. Green and B.W. Silverman, Nonparametric regression and generalized linear models. Chapman and Hall, London, 1994.
6. I.D. Carry and M. Durban. Flexible smoothing with P-splines: a unified approach. Statistical Modelling, 4, 333-349, 2002.
7. I.D. Carry, M. Durban and P.H. Eilers, Smoothing and forecasting mortality rates. Statistical Modelling, 4, 279-298, 2004
8. Wood, S.N. (2006), Genelalized additive models: an introduction with R, Chapman and Hall.
9. Andrew Harvey and Siem Jan Koopman (1993). Forecasting Hourly Electricity Demand Using Time-Varying Splines, Journal of the American Statistical Association, Vol. 88, No. 424, pp. 1228-1236002E
10. Rob J. Hyndman, Maxwell L King, Ivet Pitrun and Baki Billah (2002). Local Linear Forecasts Using Cubic Smoothing Splines, working paper.
11. Ajith Abraham, Dan Steinberg and Ninan Sajeeth Philip (2003). Rainfall Forecasting Using Soft Computing Models and Multivariate Adaptive Regression Splines.
12. German Aneiros-Perez , Herve Cardot, Graciela Estevez-Perez and Philippe Vieu (2004). Maximum ozone concentration forecasting by functional non-parametric approaches, Environmetrics, No.15, 675-685.
13. Francesca Dominici, Aidan McDermott, Scott L.Zeger, and Jonathan M. Samet (2002). Generalized additive models in time-series studies of air pollution and health, American Journal of Epidemiology Vol.3(3): 193-203.
14. C.-C. Yang, S. O. Prasher, R. Lacroix, S. H. Kim (2004). Application of multivariate adaptive regression splines (mars) to simulate soil temperature. American Society of Agricultural and Biological Engineers, St. Joseph, Michigan, Vol. 47(3): 881-887.
А.И. Низамитдинов
Использование штрафного сплайна (P-spline) и кубического сглаживающего сплайна в прогнозировании временных рядов
Ключевые слова: непараметрическая регрессия, временной ряд, штрафной сплайн (P-spline), кубический сглаживающий сплайн.
Различные сглаживающие сплайны используются в задачах непараметрической регрессии для создания аппроксимации различных экспериментальных данных и временных рядов. В этой статье обсуждаются два метода непараметрической регрессии, называемые штрафным сплайном (P-spline) и кубическим сглаживающим сплайном.
Основной целью данной статьи является сравнение этих методов использованных для прогнозирования непараметрических регрессионных моделей. Для сравнения данных методов в исследовании используется набор данных ежедневного обменного курса валют -турецкой лиры/доллара США на протяжении 2005-2009 гг. Результаты проведенного анализа показали, что модели штрафных сплайнов (P-spline) определяют лучшую аппроксимацию, чем модели кубических сглаживающих сплайнов.
АЛ. Nizamitdinov
The Usage of Penalized P-Spline and Cubic Smooothing Spline in Prognostication
of Time Series
Keywords: nonparametric regression, time series, penalized spline, cubic smoothing spline
Various types of smoothing splines are used in nonparametric regression sums to make approximation of different experimental data and time series. The article dwells on two methods of nonparametric regression called penalized spline (P-spline) and cubic smoothing spline.
The main purpose of this paper is to compare these methods used for prognostication of nonparametric regression models. For comparison of the methods in question we took a set of data of daily exchange rate of Turkish Liras/US Dollars during 2005-2009. The results of the analysis conducted showed that penalized spline models make (P-splines) better approximation than those ones of cubic smoothing spline.