_ВЕСТНИК ПНИПУ_
2015 Электротехника, информационные технологии, системы управления № 13
УДК 519.246.85
А.Л. Кернога, Т.И. Бурак
Белорусский государственный университет информатики и радиоэлектроники, г. Минск, Республика Беларусь
СРАВНЕНИЕ ПОДХОДОВ К ПРОГНОЗИРОВАНИЮ МЕТОДОМ БЛИЖАЙШИХ СОСЕДЕЙ
Приводится сравнение различных подходов к прогнозированию временных рядов с использованием метода ближайших соседей.
Ключевые слова: временные ряды; предсказание; метод ближайших соседей; авторегрессионный анализ.
A.L. Kernoga, T.I. Burak
Belorussian State University of Informatics and Radioelectronics, Minsk, Republic of Belarus
COMPARISON OF FORECASTING APPROACHES FOR NEAREST NEIGHBORS METHOD
This article compares different approaches to time series forecasting using Nearest Neighbors method.
Keywords: time series; forecasting; Nearest Neighbors method; autoregression.
Анализ временных рядов - это совокупность математико-статис-тических методов анализа, предназначенных для выявления структуры временных рядов и их прогнозирования. В сфере моделирования на основании данных системы анализ позволяет получить представление об её структуре, а также спрогнозировать будущие состояния.
Одним из подходов к анализу временных рядов является использование метода ближайших соседей. Идея этого метода заключается в поиске наиболее близких участков данных согласно некоторой функции близости. Метод ближайших соседей относится к локальным методам анализа временных рядов, так как использует не всю историю ряда, а выбирает только наиболее существенные для прогнозирования данные.
Задача прогнозирования временного ряда Z состоит в том, чтобы по известному отрезку данных {Z^Z-l, ... ,Zr] предсказать следующие п значений {Zr+1,Zr+2,... ,Zr+n}. Алгоритм поиска ближайших соседей состоит из следующих шагов:
1. Обозначим Z™ вектор-историю длиной m, состоящую из следующих значений:
Zt" = {Zt-m+1'Zt-rn+2, .",Zt-1»Zt}- (1)
Разобьём ряд Z на множество векторов-историй Z™, где t = (т,...,Г). В таком случае вектор Z™ будет последней доступной историей для ряда Z.
2. Среди векторов-историй Z™ выберем к векторов, являющихся ближайшими соседями вектора Z™. Для определения близости векторов в данной работе будем использовать евклидово расстояние (2). Ближайшие соседи обозначим как пп, при этом коэффициент i показывает степень близости соседа к предыстории Z™: чем меньше индекс, тем меньше расстояние до предыстории.
рЕ (Z?\ ZD = Jlf=-01(Zr-y-Zt-y)2. (2)
3. Полученные векторы пп4 = {Zt.-m+i,Zt.-m+2,... ,Zt.-i,Zt.}, где i = (1,...,%), используются для прогноза будущих значений ряда. Существует несколько подходов использования ближайших соседей для предсказания значений ряда:
а) в работе [1] предлагается использовать значения, следующие за ближайшими соседями пп^, для получения значения следующим образом:
7 _ ^i^l'tj+i /оч
ZT+1 = - . (3)
В этом случае пункты 1-3 повторяются для предсказания каждого из значений {ZZr+1,ZZr+2,... ,Zr+n}. Обозначим этот подход как (от англ. simple average - простое среднее);
б) другой подход, описанный в работах [1] и [2], основывается на авторегрессионном анализе ближайших соседей и последней предыстории ряда. Предполагается,
что значения зависит от последней предыстории Z™ следующим образом:
Zr+i = ао • Zr + ai • Zr-i + + аш-1 • Zr-m+i + аш. (4)
Для определения неизвестных коэффициентов (а0,а1, ...,ат} строится и решается система уравнений:
_Zt1 + 1~ rZ4 _Zt1-1~
Zt2 + 1 Zf2 + а1 • Zt2-1
= ао •
-Ztfe+1- -Ztfc-1-
+ - + а
ш-1
-ш+1
Zt2-m+1
LZf;fe-m+1J
+ а^
(5)
Аналогично подходу пункты 1-3 повторяются для предсказания каждого из значений {Zj+^Zj+2, ...,Zr+n}. Обозначим этот подход как L/fí (от англ. local autoregression - локальная авторегрессия);
в) в работе [3] описан подход долгосрочного предсказания. Для каждого ближайшего соседа nn¿ = {Zt.-m+1,Zt.-m+2, .,Zt¡-1,Zt.} определим векторы-продолжения p¿ = {Zt.+1,Zt.+2, ...JZt.+n-1jZt.+n} и вычислим весовые коэффициенты, характеризующие близость этого соседа к вектору Z™ :
? (l (рВСППП1'Е)) ) '
W.
W; =
1 Z+UW/
Вектор предсказаний Z"+n = {^т+1»^т+2»-следующим образом:
ZZn+n = lf=0H¿ •nní.
(6)
(7)
,., Zr+n } получается
(8)
Преимуществом данного подхода является то, что предсказания всех необходимых значений получаются за одну итерацию. Обозначим этот подход как LTP (от англ. long-time prediction - долгосрочное предсказание).
Проанализируем описанные выше подходы (SA, LAR, LTP) с точки зрения точности предсказания. Для этого протестируем методы на различных данных: на значениях среднемесячной температуры /i(£) (рис. 1), показателях содержания углекислого газа в атмосфере /2(0 (рис. 2) и показателях розничной торговли в ЕС /3(t) (рис. 3). Временной ряд /1(£) обладает строгой периодичностью, у ряда /2(t) присутствует тренд, ряд /3(£) не обладает видимым трендом и периодичностью.
<и
"сЗ >
50
100 150
Time, t
200
250
300
Рис. 1. Данные о среднемесячной температуре
Time, t
Рис. 2. Данные о содержании углекислого газа в атмосфере
Time, t
Рис. 3. Данные о показателях розничной торговли в ЕС
Тестируемые ряды содержат по Т = 300 значений. Зафиксируем длину предыстории m = 30 и получим предсказания для последних п = 40 значений ряда. Оптимальное количество ближайших соседей % будем выбирать для каждого метода и ряда таким образом, чтобы оно минимизировало значение ошибки MAE (9).
MAE =1 • X
n
7 - 7
^T +i ^T +1
1
MAPE =-• ХП=1
n
7 - 7
i^T+i T+1
7
T+i
• 100%,
(9)
SMAPE =1 • Xn-! n i
7 - 7
T + i T +1
•100%.
+1 + +1)/2
Результаты тестирования методов приведены в табл. 1-3.
Таблица 1 Результаты тестирования для ряда Д (£)
SA LAR LTP
k 4 60 14
MAE 1,832979 2,06220552 1,831438
MAPE, % 15,07885 14,0776146 10,39049
SMAPE, % 6,298938 10,1293612 6,048118
Таблица 2 Результаты тестирования для ряда /2 (£)
SA LAR LTP
k 19 65 96
MAE 0,193325 0,16309 0,298683
MAPE, % 0,050095 0,042267 0,077396
SMAPE, % 0,050113 0,042274 0,077439
Таблица 3 Результаты тестирования для ряда /3 (£)
SA LAR LTP
k 6 70 6
MAE 1,84180654 3,140744901 2,358595
MAPE, % 13,68217444 23,03360718 18,1913
SMAPE, % 12,6814555 20,68496811 15,79495
Для периодического ряда /i(£) лучшие результаты показали подходы LTP и SA (рис. 4). Функционала этих подходов достаточно для выявления закономерностей у периодических рядов, при этом они просты в реализации, а подход LTP имеет значительно меньшее время выполнения.
(U
ja
"сЗ >
270
Time, t
Рис. 4. Прогноз /i(t) для методов SA, LAR, LTP
Для ряда с трендом /2 (£) лучшие результаты показал подход LAR (рис. 5). Используемый в нем авторегрессионный анализ позволяет определить тенденции значений ряда и построить более точный прогноз.
e
"сЗ >
305,7
Л/ mi и
YJn
250 260 270 200 290
Time, t
-Z -5А - LAR -LTP
Рис. 5. Прогноз /2(t) для методов SA, LAR, LTP
Для ряда /з(£) лучшие результаты показал подход SA (рис. 6). Можно сделать вывод, что показатели подходов LAR и LTP значительно ухудшаются при наличии шума, в то время как подход SA относительно устойчив к шумам.
21
13
<и
.3 15
а
>
12
9
258 268 278 288 298
Time, t
-Z -SA -LAR -LTP
Рис. 6. Прогноз f3(t) для методов SA, LAR, LTP
Из результатов таблиц следует, что ни одна из метрик одновременно не дает на всех исследуемых рядах оптимальный результат. По полученным в работе данным можно оценить качество прогнозирования различных временных рядов при помощи метода ближайших соседей. Отметим, что в данном анализе длина предыстории m считалась фиксированной, что, однако, может повлиять на оптимальность использования того или иного алгоритма.
Библиографический список
1. Scherer Perlin M. Nearest neighbor method // Revista Е1ес№ошса de Administracao. - 2007. - Vol. 13, № 2. - 15 p.
2. Fernandez-Rodriguez F., Sosvilla-Rivero S., Andrada-Felix J. Nearest-Neighbour Predictions in Foreign Exchange Markets // Fundacion de Estudios de Economia Aplicada. - 2002. - № 5. - 36 p.
3. Варфоломеева А. А. Локальные методы прогнозирования с выбором метрики // Машинное обучение и анализ данных. - 2012. -№ 1(3). - Р. 367-375.
References
1. Scherer Perlin M. Nearest neighbor method. Revista Eletronica de Administracao, 2007, vol. 13, no. 2. 15 p.
2. Fernandez-Rodriguez F., Sosvilla-Rivero S., Andrada-Felix J. Nearest-Neighbour Predictions in Foreign Exchange Markets. Fundacion de Estudios de Economia Aplicada, 2002, no. 5. 36 p.
3. Varfolomeeva A.A. Lokal'nye metody prognozirovaniia s vyborom metriki [Local forecasting methods with a metrics choice ]. Mashinnoe obuchenie i analiz dannykh, 2012, no. 1(3), pp. 367-375.
Сведения об авторах
Кернога Анастасия Леонидовна (Минск, Республика Беларусь) -магистрантка кафедры электронных вычислительных машин Белорусского государственного университета информатики и радиоэлектроники (220013, Республика Беларусь, г. Минск, ул. Петруся Бровки, 6, e-mail: a.kernoga@gmail. com).
Бурак Тимофей Игоревич (Минск, Республика Беларусь) - магистрант кафедры электронных вычислительных машин Белорусского государственного университета информатики и радиоэлектроники (220013, Республика Беларусь, г. Минск, ул. Петруся Бровки, 6, e-mail: timburik@gmail. com).
About the authors
Kernoga Anastasia Leonidovna (Minsk, Republic of Belarus) - the master student of Electronic Computing Machines Department of the Bela-rusian State University of Informatics and Radioelectronics (220013, Republic of Belarus, Minsk, Piatrusia Brouki St., 6, e-mail: a.kernoga@gmail. com).
Burak Timofey Igorevich (Minsk, Republic of Belarus) - the master student of Electronic Computing Machines Department of the Belarusian state university of Informatics and Radioelectronics (220013, Republic of Belarus, Minsk, Piatrusia Brouki St., 6, e-mail: timburik@gmail.com).
Получено 20.02.2015