Научная статья на тему 'Сравнение подходов к прогнозированию методом ближайших соседей'

Сравнение подходов к прогнозированию методом ближайших соседей Текст научной статьи по специальности «Математика»

CC BY
762
187
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВРЕМЕННЫЕ РЯДЫ / TIME SERIES / ПРЕДСКАЗАНИЕ / МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ / NEAREST NEIGHBORS METHOD / АВТОРЕГРЕССИОННЫЙ АНАЛИЗ / FORECASTING / AUTOREGRESSION

Аннотация научной статьи по математике, автор научной работы — Кернога А.Л., Бурак Т.И.

Приводится сравнение различных подходов к прогнозированию временных рядов с использованием метода ближайших соседей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кернога А.Л., Бурак Т.И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF FORECASTING APPROACHES FOR NEAREST NEIGHBORS METHOD

This article compares different approaches to time series forecasting using Nearest Neighbors method.

Текст научной работы на тему «Сравнение подходов к прогнозированию методом ближайших соседей»

_ВЕСТНИК ПНИПУ_

2015 Электротехника, информационные технологии, системы управления № 13

УДК 519.246.85

А.Л. Кернога, Т.И. Бурак

Белорусский государственный университет информатики и радиоэлектроники, г. Минск, Республика Беларусь

СРАВНЕНИЕ ПОДХОДОВ К ПРОГНОЗИРОВАНИЮ МЕТОДОМ БЛИЖАЙШИХ СОСЕДЕЙ

Приводится сравнение различных подходов к прогнозированию временных рядов с использованием метода ближайших соседей.

Ключевые слова: временные ряды; предсказание; метод ближайших соседей; авторегрессионный анализ.

A.L. Kernoga, T.I. Burak

Belorussian State University of Informatics and Radioelectronics, Minsk, Republic of Belarus

COMPARISON OF FORECASTING APPROACHES FOR NEAREST NEIGHBORS METHOD

This article compares different approaches to time series forecasting using Nearest Neighbors method.

Keywords: time series; forecasting; Nearest Neighbors method; autoregression.

Анализ временных рядов - это совокупность математико-статис-тических методов анализа, предназначенных для выявления структуры временных рядов и их прогнозирования. В сфере моделирования на основании данных системы анализ позволяет получить представление об её структуре, а также спрогнозировать будущие состояния.

Одним из подходов к анализу временных рядов является использование метода ближайших соседей. Идея этого метода заключается в поиске наиболее близких участков данных согласно некоторой функции близости. Метод ближайших соседей относится к локальным методам анализа временных рядов, так как использует не всю историю ряда, а выбирает только наиболее существенные для прогнозирования данные.

Задача прогнозирования временного ряда Z состоит в том, чтобы по известному отрезку данных {Z^Z-l, ... ,Zr] предсказать следующие п значений {Zr+1,Zr+2,... ,Zr+n}. Алгоритм поиска ближайших соседей состоит из следующих шагов:

1. Обозначим Z™ вектор-историю длиной m, состоящую из следующих значений:

Zt" = {Zt-m+1'Zt-rn+2, .",Zt-1»Zt}- (1)

Разобьём ряд Z на множество векторов-историй Z™, где t = (т,...,Г). В таком случае вектор Z™ будет последней доступной историей для ряда Z.

2. Среди векторов-историй Z™ выберем к векторов, являющихся ближайшими соседями вектора Z™. Для определения близости векторов в данной работе будем использовать евклидово расстояние (2). Ближайшие соседи обозначим как пп, при этом коэффициент i показывает степень близости соседа к предыстории Z™: чем меньше индекс, тем меньше расстояние до предыстории.

рЕ (Z?\ ZD = Jlf=-01(Zr-y-Zt-y)2. (2)

3. Полученные векторы пп4 = {Zt.-m+i,Zt.-m+2,... ,Zt.-i,Zt.}, где i = (1,...,%), используются для прогноза будущих значений ряда. Существует несколько подходов использования ближайших соседей для предсказания значений ряда:

а) в работе [1] предлагается использовать значения, следующие за ближайшими соседями пп^, для получения значения следующим образом:

7 _ ^i^l'tj+i /оч

ZT+1 = - . (3)

В этом случае пункты 1-3 повторяются для предсказания каждого из значений {ZZr+1,ZZr+2,... ,Zr+n}. Обозначим этот подход как (от англ. simple average - простое среднее);

б) другой подход, описанный в работах [1] и [2], основывается на авторегрессионном анализе ближайших соседей и последней предыстории ряда. Предполагается,

что значения зависит от последней предыстории Z™ следующим образом:

Zr+i = ао • Zr + ai • Zr-i + + аш-1 • Zr-m+i + аш. (4)

Для определения неизвестных коэффициентов (а0,а1, ...,ат} строится и решается система уравнений:

_Zt1 + 1~ rZ4 _Zt1-1~

Zt2 + 1 Zf2 + а1 • Zt2-1

= ао •

-Ztfe+1- -Ztfc-1-

+ - + а

ш-1

-ш+1

Zt2-m+1

LZf;fe-m+1J

+ а^

(5)

Аналогично подходу пункты 1-3 повторяются для предсказания каждого из значений {Zj+^Zj+2, ...,Zr+n}. Обозначим этот подход как L/fí (от англ. local autoregression - локальная авторегрессия);

в) в работе [3] описан подход долгосрочного предсказания. Для каждого ближайшего соседа nn¿ = {Zt.-m+1,Zt.-m+2, .,Zt¡-1,Zt.} определим векторы-продолжения p¿ = {Zt.+1,Zt.+2, ...JZt.+n-1jZt.+n} и вычислим весовые коэффициенты, характеризующие близость этого соседа к вектору Z™ :

? (l (рВСППП1'Е)) ) '

W.

W; =

1 Z+UW/

Вектор предсказаний Z"+n = {^т+1»^т+2»-следующим образом:

ZZn+n = lf=0H¿ •nní.

(6)

(7)

,., Zr+n } получается

(8)

Преимуществом данного подхода является то, что предсказания всех необходимых значений получаются за одну итерацию. Обозначим этот подход как LTP (от англ. long-time prediction - долгосрочное предсказание).

Проанализируем описанные выше подходы (SA, LAR, LTP) с точки зрения точности предсказания. Для этого протестируем методы на различных данных: на значениях среднемесячной температуры /i(£) (рис. 1), показателях содержания углекислого газа в атмосфере /2(0 (рис. 2) и показателях розничной торговли в ЕС /3(t) (рис. 3). Временной ряд /1(£) обладает строгой периодичностью, у ряда /2(t) присутствует тренд, ряд /3(£) не обладает видимым трендом и периодичностью.

"сЗ >

50

100 150

Time, t

200

250

300

Рис. 1. Данные о среднемесячной температуре

Time, t

Рис. 2. Данные о содержании углекислого газа в атмосфере

Time, t

Рис. 3. Данные о показателях розничной торговли в ЕС

Тестируемые ряды содержат по Т = 300 значений. Зафиксируем длину предыстории m = 30 и получим предсказания для последних п = 40 значений ряда. Оптимальное количество ближайших соседей % будем выбирать для каждого метода и ряда таким образом, чтобы оно минимизировало значение ошибки MAE (9).

MAE =1 • X

n

7 - 7

^T +i ^T +1

1

MAPE =-• ХП=1

n

7 - 7

i^T+i T+1

7

T+i

• 100%,

(9)

SMAPE =1 • Xn-! n i

7 - 7

T + i T +1

•100%.

+1 + +1)/2

Результаты тестирования методов приведены в табл. 1-3.

Таблица 1 Результаты тестирования для ряда Д (£)

SA LAR LTP

k 4 60 14

MAE 1,832979 2,06220552 1,831438

MAPE, % 15,07885 14,0776146 10,39049

SMAPE, % 6,298938 10,1293612 6,048118

Таблица 2 Результаты тестирования для ряда /2 (£)

SA LAR LTP

k 19 65 96

MAE 0,193325 0,16309 0,298683

MAPE, % 0,050095 0,042267 0,077396

SMAPE, % 0,050113 0,042274 0,077439

Таблица 3 Результаты тестирования для ряда /3 (£)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

SA LAR LTP

k 6 70 6

MAE 1,84180654 3,140744901 2,358595

MAPE, % 13,68217444 23,03360718 18,1913

SMAPE, % 12,6814555 20,68496811 15,79495

Для периодического ряда /i(£) лучшие результаты показали подходы LTP и SA (рис. 4). Функционала этих подходов достаточно для выявления закономерностей у периодических рядов, при этом они просты в реализации, а подход LTP имеет значительно меньшее время выполнения.

(U

ja

"сЗ >

270

Time, t

Рис. 4. Прогноз /i(t) для методов SA, LAR, LTP

Для ряда с трендом /2 (£) лучшие результаты показал подход LAR (рис. 5). Используемый в нем авторегрессионный анализ позволяет определить тенденции значений ряда и построить более точный прогноз.

e

"сЗ >

305,7

Л/ mi и

YJn

250 260 270 200 290

Time, t

-Z -5А - LAR -LTP

Рис. 5. Прогноз /2(t) для методов SA, LAR, LTP

Для ряда /з(£) лучшие результаты показал подход SA (рис. 6). Можно сделать вывод, что показатели подходов LAR и LTP значительно ухудшаются при наличии шума, в то время как подход SA относительно устойчив к шумам.

21

13

.3 15

а

>

12

9

258 268 278 288 298

Time, t

-Z -SA -LAR -LTP

Рис. 6. Прогноз f3(t) для методов SA, LAR, LTP

Из результатов таблиц следует, что ни одна из метрик одновременно не дает на всех исследуемых рядах оптимальный результат. По полученным в работе данным можно оценить качество прогнозирования различных временных рядов при помощи метода ближайших соседей. Отметим, что в данном анализе длина предыстории m считалась фиксированной, что, однако, может повлиять на оптимальность использования того или иного алгоритма.

Библиографический список

1. Scherer Perlin M. Nearest neighbor method // Revista Е1ес№ошса de Administracao. - 2007. - Vol. 13, № 2. - 15 p.

2. Fernandez-Rodriguez F., Sosvilla-Rivero S., Andrada-Felix J. Nearest-Neighbour Predictions in Foreign Exchange Markets // Fundacion de Estudios de Economia Aplicada. - 2002. - № 5. - 36 p.

3. Варфоломеева А. А. Локальные методы прогнозирования с выбором метрики // Машинное обучение и анализ данных. - 2012. -№ 1(3). - Р. 367-375.

References

1. Scherer Perlin M. Nearest neighbor method. Revista Eletronica de Administracao, 2007, vol. 13, no. 2. 15 p.

2. Fernandez-Rodriguez F., Sosvilla-Rivero S., Andrada-Felix J. Nearest-Neighbour Predictions in Foreign Exchange Markets. Fundacion de Estudios de Economia Aplicada, 2002, no. 5. 36 p.

3. Varfolomeeva A.A. Lokal'nye metody prognozirovaniia s vyborom metriki [Local forecasting methods with a metrics choice ]. Mashinnoe obuchenie i analiz dannykh, 2012, no. 1(3), pp. 367-375.

Сведения об авторах

Кернога Анастасия Леонидовна (Минск, Республика Беларусь) -магистрантка кафедры электронных вычислительных машин Белорусского государственного университета информатики и радиоэлектроники (220013, Республика Беларусь, г. Минск, ул. Петруся Бровки, 6, e-mail: a.kernoga@gmail. com).

Бурак Тимофей Игоревич (Минск, Республика Беларусь) - магистрант кафедры электронных вычислительных машин Белорусского государственного университета информатики и радиоэлектроники (220013, Республика Беларусь, г. Минск, ул. Петруся Бровки, 6, e-mail: timburik@gmail. com).

About the authors

Kernoga Anastasia Leonidovna (Minsk, Republic of Belarus) - the master student of Electronic Computing Machines Department of the Bela-rusian State University of Informatics and Radioelectronics (220013, Republic of Belarus, Minsk, Piatrusia Brouki St., 6, e-mail: a.kernoga@gmail. com).

Burak Timofey Igorevich (Minsk, Republic of Belarus) - the master student of Electronic Computing Machines Department of the Belarusian state university of Informatics and Radioelectronics (220013, Republic of Belarus, Minsk, Piatrusia Brouki St., 6, e-mail: timburik@gmail.com).

Получено 20.02.2015

i Надоели баннеры? Вы всегда можете отключить рекламу.