Научная статья на тему 'Прогнозирование на основе новостного потока посредством ассоциативных правил'

Прогнозирование на основе новостного потока посредством ассоциативных правил Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
315
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ценовое прогнозирования ARIMA экспоненциальное сглаживание ассоциативные правила / цінове прогнозування ARIMA експонентний згладжування асоціативні правила / price forecasting ARIMA exponential smoothing / association rules

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — И. А. Черенков

Рассмотрены методы краткосрочного ценового прогнозирования на примере рынка полимеров, которые могут быть применены к рынку электроэнергетики. Экспериментально подтверждено превосходство методов ценового прогнозирования на основе новостного потока посредством ассоциативных правил над регрессионными методами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PRICE FORECASTING BASED ON NEWS FLOW THROUGH ASSOCIATION RULES

Subject of this paper are methods of short-term price forecasting on the example of polymer market appliable to the electricity market. Experimentally confi rmed the superiority of the methods of price forecasting based on news fl ow through association rules over regression methods.

Текст научной работы на тему «Прогнозирование на основе новостного потока посредством ассоциативных правил»

УДК 004.6

И. А. ЧЕРЕНКОВ

Национальный технический университет «Харьковский политехнический институт»

ПРОГНОЗИРОВАНИЕ НА ОСНОВЕ НОВОСТНОГО ПОТОКА ПОСРЕДСТВОМ АССОЦИАТИВНЫХ ПРАВИЛ

Рассмотрены методы краткосрочного ценового прогнозирования на примере рынка полимеров, которые могут быть применены к рынку электроэнергетики. Экспериментально подтверждено превосходство методов ценового прогнозирования на основе новостного потока посредством ассоциативных правил над регрессионными методами.

Ключевые слова: ценовое прогнозирования; ЛЯІМЛ; экспоненциальное

сглаживание; ассоциативные правила.

Розглянуто методи короткострокового цінового прогнозування на прикладі ринку полімерів, що можуть бути застосовані до ринку електроенергетики. Експериментально підтверджено перевагу методів цінового прогнозування на основі новинного потоку за допомогою асоціативних правил над регресійними методами.

Ключові слова: цінове прогнозування; ЛЯІМЛ; експонентний згладжування; асоціативні правила.

Введение

В динамически меняющейся рыночной среде актуальным является решение проблемы прогнозирования данных, представленных в виде временных рядов, в частности, прогнозирования цен. Задача анализа и прогнозирования временных рядов заключается в определении регулярной составляющей, включающей тренд и сезонную компоненту. Тренд является некоторой линейной или нелинейной зависимостью, отображающей главную закономерность в данных. Сезонная компонента отображает влияние циклических процессов на данные. Наибольший интерес для краткосрочного прогнозирования представляет периодическая, сезонная компонента. Эта компонента выражается зависимостью порядка к между каждым і-м и каждым (і-к)-м элементом. Не существует универсального способа определения регулярной составляющей временного ряда.

Постановка задачи

Сравним существующие способы краткосрочного прогнозирования, базирующиеся на математическом аппарате временных рядов, с подходами прогнозирования на основе новостного потока посредством поиска ассоциативных правил на примере рынка полимеров.

Основная часть

Среди существующих методов решения задачи ценового прогнозирования наибольшее распространение получили методы математической статистики, в частности экспоненциального сглаживания и авторегрессионные модели. Для этих методов характерно, что прогнозирование осуществляется на основе значений цены продукта, при этом факторы, влияющие на формирование цены, включается в прогноз опосредственно через исторические ценовые значения, что негативно сказывается на качестве прогноза, поскольку разные наборы внешних и внутренних факторов могут приводить к одинаковому значению цены.

Опишем группу методов экспоненциального сглаживания. В основе этих методов лежит построение экспоненциально взвешенных, усреднённых значений по всему временному ряду.

Так для исходного ряда метод экспоненциального сглаживания подразумевает построение ряда по следующей реккурентной формуле [1]:

Е =

|х, х=1,

1 ах(_1 + Е1_1 (1 -а), х >1,

(1)

где ¥{ - сглаженный ряд, а - коэффициент сглаживания а е (0,1), который задаёт

уровень подавления колебаний и шума исходного ряда.

Метод экспоненциального сглаживания довольно часто используется для задач краткосрочного прогнозирования временных рядов, однако, у данного метода есть существенный недостаток. Область его применения сводится исключительно к краткосрочному прогнозированию, т. к. в модели не учитываются сезонные колебания и тренд.

Для учёта этих двух составляющих используют, среди прочих методов, модель Хольта-Уинтерса [2]. Для временного ряда X = {х1,..., хт} будущее значение определяются по формуле:

^(+ш = (( + тЪ( (шоа Ь)) ,

= = —— = (1 -а )(^_1 + ъ= 1X

С - Ь

Ъг== ( = —) + (1 -/?)), (2)

X С= =7— + (1 - =(С= =

где - сглаженное значение прогноза, Ъ( - составляющая тренда, сх - сезонная

компонента, а - параметр сглаживания модели а е (0,1), /3 - параметр сглаживания тренда

Р* (0,1), у - параметр сезонного сглаживания у е (0,1).

Правильный подбор параметров (а, Д у) определяет качество функционирования модели и её прогнозов.

Другая часто используемая группа методов включает подходы, основанные на авторегрессионных моделях, для которых построение будущих значений ряда

осуществляется по формуле:

Хх = с + Х(PгXt+ ег , (3)

2-1

где (р1 - параметры модели, с - константа, а - белый шум. Задача исследователя

заключается в расчете параметров.

Для моделирования случайных ошибок ряда используют модель скользящего среднего:

Хх =Е -2 +£‘ , (4)

2-1

где - параметры модели, а £(_д,...,^х - ошибки.

Производными моделями от вышеописанных являются авторегрессионные модели скользящего среднего АШМА(р^) и АШМА (р,ё,д), содержащих р авторегрессионных составляющих и q скользящих средних:

Хх = С + X ПХ1 -г +Е ^-1 + £1 • (5)

2=1 1=1

Модель АШМА (р, ё, q) предназначена для моделирования нестационарных процессов, так что разности временного ряда порядка ё подчиняются модели АШМА (р, q) [2]:

На данном этапе развития информационных технологий, эффективнее будет построение ценовых прогнозов, основанных на новостном потоке, в результате чего сохраняется причинно-следственная связь между событием и его влиянием на цену. Подобное решение задачи прогнозирования на основе новостного потока может быть реализовано с помощью подходов на основе ассоциативных правил [3].

К недостаткам подходов на основе новостных потоков посредством ассоциативных правил следует отнести невозможность явного учёта тренда в прогнозах. Также подход прогнозирования с помощью ассоциативных правил предполагает предварительную добычу множества правил, что связано с дополнительными затратами. На данный момент существует довольно много алгоритмов поиска ассоциативных правил, главное отличие которых в быстродействии и эффективности используемой памяти.

Опишем подход прогнозирования на основе новостных потоков посредством ассоциативных правил. Для множества добытых правил {г2 }, г2 е R, г е I, где г2 - есть

последовательность (набор) событий, предшествующая изменению цены, задача краткосрочного ценового прогнозирования на основе множества ассоциативных правил формулируется как задача правильной идентификации сложившейся рыночной ситуации, в виде соответствующей ей правила г2 . Каждому добытому правилу г2 в процессе добычи

данных ставятся в соответствие два атрибута: si - поддержка, характеризующая абсолютную частоту появления правила в исходной выборке; ci - достоверность, в данном случае вероятность возникновения ценового изменения при появлении набора событий из г . Проблематика данного подхода заключается в следующем: при идентификации

сложившейся ситуации и выборе правила может возникнуть неопределённость, т.к. добываемые ассоциативные правила г2 обладают разной достоверностью и поддержкой, что

делает определение сложившейся ситуации нетривиальной задачей. Правило может иметь как очень высокую поддержку, т.е. быть очевидным правилом, так и напротив иметь очень низкую, являясь неочевидным правилом. Как следствие качество прогнозов напрямую зависит от используемого алгоритма идентификации сложившейся ситуации. Предлагается использовать следующий алгоритм:

Для заданного уровня достоверности C и поддержки £ отобрать все правила, для которых с2 > С, si > £ соответственно. Для выбранного времени (дня) X е Т найти наиболее

подходящее правило на основе следующей последовательности.

1. Задать п = 1.

2. Отобрать множество правил {г2 }П, удовлетворяющих текущей ситуации на рынке в момент времени X е Т .

3. Если найдено только одно правило, то сформировать прогноз.

4. Если найдено больше одного правила, сравнить прогнозные значения, если прогноз направлен одну сторону (вверх/вниз), то сформировать суммарный прогноз

5. Если найдено больше одного правила и прогнозные значения противоречивы, то сформировать из множества {г2 }х множество {г2 }С путём исключения менее достоверных правил в соответствие с условием:

где сгшах - правило с наибольшим параметром достоверности в текущем множестве правил, АС = «егшах - допустимая погрешность, а - коэффициент погрешности.

~тах

(7)

Аналогично сформировать множество правил {ri } путём исключения менее неочевидных правил в соответствие с условием:

~max - st <AS, (8)

где Дтах - правило с наибольшим параметром поддержки в текущем множестве правил, AS - Щmax - допустимая погрешность, /3 - коэффициент погрешности.

6. Задать n=n+1, сформировать новое множество {гг. }nt = {гг. } U {гг.} .

7. Если {гг.}П ^ {гг.}П_1 перейти к п.3. Иначе в соответствии с принципом бритвы Окамма выбрать наиболее очевидное правило с сгшах из {гг. } и сформировать прогноз.

Следует отметить, что значения C и S непосредственно влияют на качество прогнозов, и определение их оптимальных значений является отдельной исследовательской задачей..

Экспериментальная часть

Вышеописанные методы краткосрочного прогнозирования были применены к временным рядам цен рынка полимеров Российской Федерации. В качестве входной информации использовались выборка ценовых значений по ПВХ за 2010-2011 г.г. и соответствующий ей новостной поток. Размер выборки ценовых значений составил 800 записей, новостной выборки - 2700, при этом в качестве обучающей выборки были взяты первые 600 значений цены и соответствующие им 2100 новостных событий. Из оставшихся значений были сформированы две контрольные выборки. В рамках краткосрочного прогнозирования горизонт прогноза цены составлял +1 день.

Качество работы методов прогнозирования оценивалось на основе моделей, построенных с минимизированным значением функции правдоподобия. Множество ассоциативных правил было получено с помощью алгоритма SPADE [4]. Для метода прогнозирования на основе ассоциативных правил были использованы следующие значения C = 80% и S = 7.

Для оценки качества прогнозов использовался критерий MAPE, отражающий усреднённую абсолютную величину ошибок в процентах, в соответствии с формулой:

MAPE = — Y Р ~ Р • 100% , (9)

N " Рг

где pi - оригинальное значение ряда, Д. - прогнозируемое значение, N - размер ряда.

Полученные значения ошибок прогнозов MAPE позволяют оценить качество работы методов прогнозирования. Экспериментальные значения MAPE приведены в табл.1.

Таблица 1

Экспериментальные значения MAPE

Выборки

Метод Контрольная 1 Контрольная 2

Экспоненциальное сглаживание 2,2 % 21,5 %

ARIMA 19,4 % 19,1 %

Ассоциативные правила 12,9 % 13,2 %

Выводы

1. Таким образом, прогнозы, получаемые на основе ассоциативных правил на 6 % точнее, чем прогнозы на основе методов регрессионного анализа. Большая точность достигается благодаря тому, что прогнозы на основе новостных потоков посредством ассоциативных правил позволяют непосредственно включать события, влияющие на формирование цены, в прогнозное значение, в то время как регрессионные методы, включают эти события опосредственно.

2. Точность прогнозов может быть повышена как за счёт оптимизации алгоритма

прогноза на основе ассоциативных правил, так и за счёт оптимизации методов идентификации событий в новостном потоке.

3. В целом, метод прогнозирования на основе новостного потока посредством ассоциативных правил является перспективным и требует дальнейших исследований. Его применение целесообразно в тех случаях, когда необходима максимальная точность прогнозов, т.к. суммарные затраты на прогноз, включая формирование множества ассоциативных правил, значительно больше, чем для регрессионных методов.

Список литературы

1. Афанасьев В. Н. Анализ временных рядов и прогнозирование / В. Н. Афанасьев, М. М. Юзбашев // М. - Инфра-М, 2010. - 320 с.

2. Керимов А. К. Анализ и прогнозирование временных рядов / А. К. Керимов // Издательство Российского Университета дружбы народов: М. - 2005. - 140 с.

3. Черенков И. А.. Автоматический поиск данных из новостей на примере рынка полимеров / И. А. Черенков // Системы обработки информации: Харьков. - 2011. - №

8. - С. 156 - 159.

4. Zaki M. Spade: an Efficient Algorithm for Mining Frequent Sequences / М. Zaki // Machine Learning.: Kluwer Academic Publishers. - 2001. - Vol. 42. - P. 31 - 60.

PRICE FORECASTING BASED ON NEWS FLOW THROUGH ASSOCIATION RULES

I. A.CHERENKOV National Technical University «Kharkov Polytechnic Institute»

Subject of this paper are methods of short-term price forecasting on the example of polymer market appliable to the electricity market. Experimentally confirmed the superiority of the methods ofprice forecasting based on news flow through association rules over regression methods.

Keywords: price forecasting; ARIMA; exponential smoothing, association rules.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 07.09 2012 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.