УДК 004:519.2 А.Ю. БЕРЗЛЕВ
РАЗРАБОТКА КОМБИНИРОВАННЫХ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ С КЛАСТЕРИЗАЦИЕЙ ВРЕМЕННЫХ РЯДОВ ПО МЕТОДУ БЛИЖАЙШЕГО СОСЕДА
Рассматривается проблема разработки комбинированных моделей прогнозирования временных рядов. Предлагаются комбинированные модели прогнозирования селективного и гибридного типов с предварительной кластеризацией временных рядов по методу ближайшего соседа. Предложенные модели могут быть составными информационных прогнозных систем, а также использоваться для повышения точности и эффективности управления процессом прогнозирования в части учета преимуществ конкурирующих прогнозов.
1. Введение
Принято считать, что на сегодняшний день развитие экономических систем характеризуется высокой степенью изменчивости, которое происходит в условиях неопределенности, неустойчивости и риска. Предпосылкой этого являются тенденции глобализации, усложнение хозяйственных взаимосвязей, рост темпов развития национальных рынков и т.д. В условиях нестабильности экономических рынков применение классических статистических прогнозных моделей и соответствующих методов прогнозирования временных рядов, которые представляют собой экономические показатели, довольно ограничено. Это объясняется также тем, что подавляющее большинство временных рядов не только экономической природы, для которых возникает задача прогнозирования, характеризуется нелинейностью, нестационарностью и неустойчивостью относительно среднего уровня. Многие прогнозные модели, в частности экспоненциальные [1,2], линейные регрессионные [3,4], авторегрессионные типа ARIMA [5] не предназначены для прогнозирования таких временных рядов, так как ограничены требованиями стационарности, нормальности и независимости остатков рядов. Модификации приведенных моделей для прогнозирования нелинейных процессов также имеют недостатки. Нелинейная регрессионная модель характеризуется сложностью идентификации функциональных зависимостей, а применение модели ARIMAX ограничено сложностью расчета многочисленных параметров. Все это обусловливает необходимость разработки новых и модификации известных методов и моделей прогнозирования временных рядов. Для их прогнозирования на финансовом рынке такие модели должны характеризоваться необходимой точностью, гибкостью и прозрачностью в оценке параметров, должны экономить время и преодолевать ограничения, наложенные на классические статистические модели, а также своевременно реагировать на изменения в динамике развития рынка.
В последнее время в области разработки систем прогнозирования сформировались два основных направления исследований:
- создание адаптивных комбинированных и многоуровневых моделей прогнозирования [4-6];
- разработка и использование методов интеллектуального анализа временных рядов [8-10].
Комбинированные модели применяются для повышения точности прогнозирования. Целью управления процессом прогнозирования комбинированных моделей является учет в оценке прогноза особых преимуществ и «полезных» характеристик каждой из прогнозных моделей, которые составляют их основное множество, т. е. отобранных для построения прогноза на определенном шаге. Недостатками комбинированных моделей являются сложность разработки и необходимость компенсации недостатков каждой из моделей основного множества, при этом не теряя их преимуществ.
На сегодняшний день также пользуется популярностью интеллектуальный анализ временных рядов или Time-Series Data Mining, который представляет собой набор инновацион-
ных методов, предназначенных для идентификации скрытых или ассоциативных правил в данных временных рядов, методы нелинейной динамики [11], оптимизации на основе генетических алгоритмов и программирования генетических выражений [12] и т.д. С момента возникновения интеллектуального анализа временных рядов разработано множество специальных методов, которые касаются задач индексации, кластеризации, классификации [8-10], идентификации выбросов и т.п. В последние годы появляется понимание того, что для многих задач интеллектуального анализа данных необходимо применять не быстрый и приблизительный, а медленный, но точный и подробный поиск [13], предлагается использовать методы, которые могут быть максимально легко практически применимы.
Автором предложен подход, который базируется на применении в комплексе адаптивных комбинированных моделей прогнозирования и кластеризации временных рядов по методу ближайшего соседа.
Актуальность этих исследований имеет не только практическое значение для прогнозистов, инвесторов и аналитиков, но и теоретическое: разработка концепций и математического инструментария, которые могут составить основу для дальнейших научных исследований.
Целью является рассмотрение основных понятий кластеризации временных рядов, способов представлений кластеров и формул расчета мер близости между ними, а также разработка адаптивных комбинированных моделей прогнозирования, механизмы селекции и гибридизации в которых корректируются на основе предварительной кластеризации временных рядов по методу ближайшего соседа.
2. Постановка задачи прогнозирования временных рядов
Пусть Б - дискретное множество. Дискретным временным рядом
(7;>П=1 = (71,72, = (г^)^),... 2^)}
будем называть конечную последовательность измерений, проводимых в дискретные моменты времени 1; е Б , \ = 1, п и фиксирующих определенные характеристики изменения состояний исследуемого процесса или явления, 11 - начальный момент времени. Будем считать, что измерения проводятся через определенные временные интервалы: минута, час, день, неделя, месяц, квартал и т.д. Результаты измерений действительны и могут представлять собой однородные экономические показатели (уровень инфляции, объем выпущенной продукции), финансовые показатели и т.д. В эконометрике часто рассматривают временной ряд как частичную реализацию стохастического процесса, который представляется бесконечной случайной последовательностью. Но в отличие от элементов случайной выборки, значения временного ряда не являются независимыми и одинаково распределенными.
Выделяют следующие основные задачи прогнозирования временных рядов: прогнозирование будущих значений, прогнозирования знаков приростов временных рядов, идентификация моментов локальных экстремумов. В данной работе будем ограничиваться первой задачей. Сформулируем ее так: на основе ретроспективных значений 7п,7п_1,7п_т+1, т < п ряда (7; }П=1, наиболее точно оценить его поведение в будущем в моменты 1п+1,1п+2,. Дп+е , т.е. построить последовательность прогнозных значений
}п=+п+1 = (7п+1,7п+2,.,7п+е},
где е - горизонт прогнозирования, а т - объем ретроспективной выборки. Обозначим через 7т (п) - прогноз, который рассчитывается в момент 1п (в точке п) на т точек вперед, т = 19 .
Такая функциональная зависимость f , которая позволяет описать поведение временного ряда, называется моделью прогнозирования. Прогноз временного ряда }п=1 на одну точку вперед можно формально записать в виде 7п+1 = %(п) = _т+1,7п_т+2,...,7п). В случае прогнозирования с горизонтом е > 1 применяется итерационный подход:
7п+1 = (п) = f (7п_т+1 > 7п_т+2 > - • > 7п ) ,
2п+2 - 22(п) - ^п-т+2,2п-ш+3,к ,гп,2п+!),
2п+е -2е(п)--т+е+е-2,2п+е-1)5 т<п.
Необходимо отметить, что разные модели прогнозирования могут иметь различные механизмы расчета прогнозов, к примеру, в них могут учитываться внешние факторы, которые определенным образом влияют на моделируемый процесс. Кроме того, модель может иметь ряд параметров, требующих отдельного оценивания. К таким моделям относятся регрессионные, авторегрессионные, экспоненциальные, адаптивные полиномиальные модели [3,4]. Еще одной важной характеристикой каждой из моделей является объем ретроспективной выборки, используемой для реализации прогнозов.
Построить наиболее точный прогноз означает построить такую модель, которая удовлетворяет соответствующие критерии оценки качества прогнозирования. Для данной задачи такими критериями могут быть среднее абсолютное отклонение, средняя квадратичная погрешность, стандартное отклонение, относительная погрешность и т. д.
3. Основные понятия кластеризации временных рядов
Пусть задан временной ряд }п=1 как конечная последовательность действительных чисел. Кластером длины ш временного ряда ^¡^ будем называть подпоследовательность ^-1 данного ряда с ш элементов, п > ш, ^+1 - , +1 для j -1, ш -1. Иными словами, кластеры любого временного ряда представляют собой его ретроспективные подпоследовательности с ш элементов, причем порядок следования элементов в них такой, как и во временном ряду. Для задания кластера необходимо указать индекс начального элемента ряда и длину. Будем обозначать кластеры через где N - индекс начального элемента ряда, включенного в кластер, или порядковый номер, а ш - длина. Тогда кластеры временного ряда ^¡^ можно определить таким образом:
(1,ш) - кластер - ^ш) - {\1,2к1 • • ,2к1 } - {\1 }™1, к]+1 - к] +1, j - 1,ш-1, - ,
1 2 ш j 1
(2,ш) - кластер - 22ш) - {г2 ,^2 ,-"^2 } - {2 2^-Ь к?+1 - к22 +1, j - 1,ш -1 , \2 - 22,
к1 к2 кш ^ к1
п-ш-1 _ г 1 _ г ^ш
(П - m - 1,m) - кластер - z^m)"1 1 = {z,n-m-1,Z,n-m-1,K,Z,n_m-1} = {z,n
1 k2 km kj
kn—Ш —1 1 n —Ш—1 . л • л л 7 , — 7 ,
j+1 = kj +1, j = 1,m - 1, zkn-m-1_zn-m-1,
(n - m,m) - кластер - ^m" = {zkn - m,zkn-">••• ,zkn-m} = {zkn - m }j=1 , kn+1m = kn m +1, - 1 2 _m_ j
j = 1, m -1, zk n-m = zn-m, т.е. (s, m) - кластер для s = 1 n - m в целом определяется так: k1
z(m) = {zks'zks2'K'zkm} = {Zks}m=1, kS+1 = kS +1, j = t"-1, zkS = ^ (1)
(n - m,m)- кластер ряда {zi }n=1 будем называть опорным. Все другие кластеры будем называть неопорными.
Число неопорных кластеров длины m, построенных на основе временного ряда с n элементов, равно n - m .
Следует отметить, что существует некоторая неопределенность в терминологии. Термин кластер (pattern) временного ряда, которым в дальнейшем будем пользоваться, применяется в работе [9]. В работе [10] используют термин vector, встречается также термин кусочки (pieces), set и т.д. Для определения опорного кластера применяют также термины последний пригодный вектор (last available vector), история ряда. Введем следующие представления кластеров:
1. Кластеры могут представляться непосредственно как подпоследовательности элементов входного временного ряда (1).
2. Представление кластеров с помощью знаковой последовательности. На основе ряда (7;}п=1 построим знаковый ряд (х; }п=2, где X; = sgn(zi _ г;_1), 1 = 2, п. Тогда знаковые неопорные кластеры будут иметь вид:
х2т) = (хк2' хк2'.' хк2} = (хк2}т=1, к2+1 = к? +1, 3 = , хк2 = X 2,
Х(т) = (хкз> хкз.к = хкт} = (хкз}т=1, к3+1 = к3 +1, 3 = 1,т _ 1, Хкз =Хз,
Х(т) (х. п_т_1,х. п_т к1 к2
х, п_т_1 = хп_т_1 к1
х, п_т_1 } (х,п_т_1}3=1
к^ _1 = кп _ т _1 +1:
Знаковый опорный кластер будет иметь вид
х(т) = (х1 п_т,х< п_т,к,х.п_т} = (х.п_т }3=1 кп
3+1
= кп
3 = 1,т _ 1
+1, 3 = 1,т _ 1, хк п_т =хп_
1 2 — ^ Очевидно, что число знаковых неопорних кластеров длины т , построенных на основе временного ряда с п элементов, равно п - т -1 .
3. Третий тип представления основан на введении расстояния между элементами кластеров. Пусть построены кластеры первого типа. В каждом кластере вычислим минимальное и максимальное значения и построим нормированные кластеры по правилу:
7 _ 7
« '' п
7гпах = тах(\8 }тт=1 , 7гшп = т1п(7,8 }т=1 , тогда 8 ? = -
б = 1, п _ т
причем
8
к5
[0,1].
Таким образом, для каждого б = 1, п _ т получим нормированные неопорные кластеры и нормированный опорный кластер:
8(т) = (8,.?>8
кГ к5
'8кт} = ^к, к3+1 = к3 +1, 3 = !=т_Ь 8к?
7 _ 7 ■
8 = ? к?
Число нормированных неопорных кластеров длины т, построенных на основе временного ряда с п элементов, равно п - т .
Введем понятие меры близости между кластерами, что в случае количественной оценки выражается на основе определенной метрики. Подобие между двумя кластерами определяется на основе метрического расстояния между ними. Каждый кластер может быть представлен точкой в т -мерном пространстве. В зависимости от представления кластеров можно выделить различные метрические расстояния или меры близости. В данной работе ограничимся первым типом представления (1). Пусть заданы множество 7(т), V = 1,п _ т _ 1 и опорный кластер 7пт)" ряда }п=1, тогда меры близости между опорным и всеми неопорными кластерами могут быть определены по известным формулам:
1. ¿О^т^^тр = 1 Е
3=1
(
кп" V 3
Л2
_ 7
3
расстояние эвклида.
2 й1(7пт)П,7(т)) = Е
3=1
7 _ 7
кп_т к(
( р 1
т
Е 3=1 7 _ 7 кп_т к(
33
- манхэттенская (городская) метрика.
1 р
- расстояние Минковского.
т
7 _ 7 ^тах 'тт
4. d3(z(m)"'z(m)) =
ние Махаланобиса.
Лт
- z
-1
- z
(
S; = COV
- z
расстоя-
z
z
z
(m
(m
k
k
n—m
k
5. d4(z(1m)m'z(m)) = ЁIV, где l( j=1
- z
< 6
- расстояние Журавлева.
>6
Моделирование временных рядов на основе кластеризации [8, 10] базируется на том, что любой временной ряд может быть представлен как конечная последовательность кластеров одинаковой длины, использующихся в целях прогнозирования и анализа динамики. Для прогнозирования временного ряда сначала на основе некоторой степени близости находят кластер, подобный (closest match) опорному, последний элемент которого представляет собой точку, в которой рассчитывается прогноз. Далее предполагается, что поведение временного ряда, которое наблюдалось после подобного кластера, будет повторяться и после опорного кластера. Недостатком методики является неоднозначность зависимости результатов прогнозирования от выбора меры близости. Кроме того, данный подход для большинства временных рядов, в том числе тех, которые представляют собой экономические процессы, не отмечается высокой точностью.
4. Адаптивные комбинированные модели прогнозирования с кластеризацией
временного ряда по методу ближайшего соседа
Постановка задачи. Пусть задано программное множество 3ps моделей прогнозирования fi,f2,...,fK, на основе которых для ряда {z;}(=1 в точкеn могут быть построены оценки будущих элементов временного ряда {zp+^zp+2,...,zp+е}. На основе множества 3ps и ретроспективных значений временного ряда {z; }(=1 построить наиболее точную последовательность прогнозных значений 2 = {zi}n=+ne+1 = {zn+bzn+2,...,zn+е} .
Решение задачи. Пусть для временного ряда {z; }(=1 по правилу (1) построено множество неопорных кластеров одинаковой длины m :
z(m) {zkv,zkv
} = {zkV}m=1, k(+1 = k( +1, j = 1,m - 1,V = 1,n - m -1, z = zv . (2)
Обозначим его через Ш . Прогноз, который реализуется на основе каждой модели fp из программного множества Зр8 ,р = 1,К в точках ряда т,т +1,..., п-1, т<п, соответствую-
щих последним элементам неопорних кластеров 2(т) (2), V = 1,п - т -1 длины т на т = 1,6 точек вперед, обозначим через:
= fP
w+1
k^ V j
{z,v }j=1 , w = v + m -1, kj+1 = k( +1, j = 1,m -1.
7 = 7
v = 1,n - m -1,
= fP
w+2
{zkv}m
m -p
kr
V j
w+1 /
, w = v + m -1, k(+1 = k( +1, j = 1,m -1, zkv = zv,v = 2,n - m -1,
= fP
w+e
{v^
w+1
w +1
w+e-1
w = v + m -1,
kv+1=kv +1
j = 1,m -1
v = e,n - m -1
1
z
z
n—m
k
k
0,
z
n - m
k
z
k
P
p
P
P
P
z „ = z
v
k
где 2ру - прогнозное значение элемента w +т V -го кластера, полученное на основе р -й
^ +т
прогнозной модели. Запись fp
к
V J
означает, что для построения прогноза по модели
fp использован соответствующий V -й неопорный кластер. Для упрощения записей будем считать, что = ^+т = 2р^), где 2P(w) - прогноз, рассчитывающийся в точках w
^+т
на т точек вперед по р -й модели, которая для построения прогнозного значения использует
кластер Ч(т), V = т,п - т -1 из множества неопорных кластеров ш . Построим опорный кластер
2п-т =2 2 } = }т
'■(т) п-т 'Л п—п—т / г.п-т Л=1
к1 к2 кт к1 '
1 п-т 1 п-т . 1 • 1-г „ _ „
к1+1 = ^ +1, 1 = 1,т -1, 2кп-т = 2п-т (3)
и на основе некоторой меры близости, например, с помощью расстояния Евклида по методу ближайшего соседа найдем из множества неопорных кластеров ш подобный опорному.
Неопорный кластер е Ш называется подобным опорному кластеру ^т)", если не существует других неопорных кластеров чкт), к е[1,п - т -1], к ф х, для которых ^(2(1т)П, 2(т)) < ^(2(1т)П, 2(т)) .
Согласно принципам построения комбинированных моделей есть два принципа расчета прогнозов: селективный и гибридный.
Селективный подход заключается в отборе для каждого значения т из программного множества Зр8 единственной модели, которая обеспечивает высокую точность прогнозирования по определенному критерию селекции: В- [4], Я-критерий [7]. Параметры критериев селекции, как правило, имеют адаптивный характер. Кроме того, часто для повышения точности прогнозирования критерии отбора применяют не к программному, а к так называемому основному множеству . Это множество состоит из моделей, дающих наиболее
точные прогнозы на определенном участке временного ряда, с Зр8 . Отбор моделей в основное множество может осуществляться, например, на основе Б-критерия [4].
Прогноз по гибридному подходу рассчитывается как взвешенная сумма прогнозов по
всем моделям, составляющим основное множество .
Построим прогноз на основе этих подходов, используя результаты кластеризации временного ряда. Пусть на основе определенной меры близости был определен кластер
2хш)"+1 еШ, х е[т,п - 6-1], подобный опорному кластеру. Последним элементом кластера
2(х1")п+1 будет элемент чХ .
Построим основное множество моделей прогнозирования, используя Б-критерий. Значение Б-критерия в момент 1Х можно рассчитать по формуле:
БР (Т) = ^-Сл Д (2р (Х - т - - -1^ , (4)
где т - период прогноза; с - период предыстории; 2р (х - т -1) - прогноз, который рассчитывается в момент 1Х-т-1 (в точке х-т-1) на т точек вперед за модельюfp,p = 1,К. Тогда основное множество моделей для фиксированного т определяется так:
^ = ^р еЗр^Бр(т) <ХБт|п(х),р = 1К}, Бт1п(т) = т1пОр(х), (5)
'р*
р=1,к
здесь X - действительный параметр, который определяется экспериментальным путем. Обозначим модели, включенные в множество через Д2, Ьт - количество
моделей в множестве т = 1,6, Ьт< К.
Для каждой модели из основного множества рассчитаем значения В-критерия:
ВХТт = (1 -ав)ВХх_1,х е?т (х-т), (6)
- абсолютная ошибка
где 0 < а в < 1 - параметр сглаживания; а ехх (х-х) = 2ХХ (х-х)- zx
« -рт
прогноза, который рассчитывается в момент tx-T на т точек вперед по моделям fqт ,
т = 1,8, qт = 1, LT . Тогда самой точной моделью для фиксированного т по В-критерию будет считаться такая модель f т*, для которой обеспечивается минимальное значение
критерия, min вХтт. Прогнозы, рассчитывающиеся на основе моделей fт* в точке n на
q т=1^ т
т точек вперед, обозначим через z* (n). Тогда прогноз по комбинированной модели селективного типа по В-критерию селекции (6) с кластеризацией временного ряда по методу ближайшего соседа будет рассчитываться по формуле:
zт (n) = а zj (n) + (1 -a)Zx+т , (7)
где zx+т - значение временного ряда, которое следует после кластера ¿Хп-)"+1, подобного опорному; а е [о, 1] - параметр, указывающий на важность учета прогнозных значений отобранной модели в прогнозе.
Применим гибридный подход. Пусть после проведенной кластеризации в точке х для каждого т были сформированы основные множества 3Bs и рассчитаны значения В-критериев вХ^, qT = 1, LT . Обозначим через zqт (n) - прогноз, который рассчитывается в точке n на т точек вперед по моделям f^ из основного множества 3BS, qт = 1, Lт, т = 1,8 . Тогда прогноз по комбинированной модели гибридного типа с кластеризацией по методу ближайшего соседа определяется по формуле:
L т
zт(n) = аЗДт zqт (n) + (1 -a)zx+т , (8)
q т=1
где ае[о,1], веса ®qт определяются на основе B-критерия (6) с учетом коэффициента
L т
пропорциональности, находящегося из равенства суммы всех весов единице, т = 1,
q т=1
например, как в работе [4]:
1 ВХ,т 2 ВХ, т
для Lт = 2 ют=~1-, -
ВХ,т+ ВХ,т ВХ,т+ ВХ,т
т , 1 _ВХ,т ВХ,т_
для Lт = 3 ®т = 1-2-1-3-2-
ВХ,т ВХ,т + ВХ,т ВХ,т + ВХ,т ВХ,т 2 = ВХ,т ВХ,т з ВХ т ВХ т
Ют = В В В + В2 В3 , ют=—[-2-\-3-2-Г" и тд.
ВХ,т ВХ,т + ВХ,т ВХ,т + ВХ,т ВХ,т Вхт Вх т + Вхт Вх т + Вхт Вхт
После расчета прогноза прогнозная точка z1 (n) используется для построения нового
n-m+1 = {z
опорного кластера z(mm = {zkn-m+1,zkn-m+1'K,zkn-m+1,z1(n)}, zkn-m+1 = zn-m+1, а ста-
рый опорный кластер ^П)" становится неопорным, т.е. включается в множество Ш, и процесс расчета начитается сначала: находится на основе определенной меры близости подобный опорному кластер, формируются множества для каждого т, рассчитываются значения В-критерия для каждой прогнозной модели, которая использует подобную неопорную последовательность в качестве ретроспективной информации. Дальше строится прогноз согласно селективному или гибридному принципу.
6. Выводы и численные результаты
Описанная методика была реализована в программной среде. На основе программного множества из простых экспоненциальных моделей сглаживания (8Е8М) или адаптивных полиномиальных моделей Брауна 0-го, 1-го и 2-го порядков с параметрами сглаживания 0,2 были построены обычные адаптивные комбинированные модели гибридного типа и селективного типа по В- (6) и Я-критериям [7], а также построены модификации данных моделей с предыдущей кластеризацией временного ряда по методу ближайшего соседа. В качестве меры близости было выбрано расстояние Евклида. В каждой точке для каждого т автоматически формировалось основное множество моделей (5) по Б-критерию (4) с параметром X = 1,9. Параметр сглаживания в В-критерии (6) а в = 0,6 , период предыстории для построения значений В-критерия равен 10. Для тестирования моделей выбраны ежедневные временные ряды цен на сырье: алюминий, бензин, серебро и т. д. за последние 3 года.
Всего по 700 измерений. Были рассчитаны средние ошибки прогнозов на т = 1,10 точек вперед по описанным методикам (7,8). Точность комбинированных моделей определяется тем, на сколько точнее их прогноз в сравнении с моделью-лидером, т. е. такой моделью из программного множества, для которой в среднем для фиксированного т получается минимальная ошибка, в данном случае относительная. Так, простая адаптивная комбинированная селективная модель по В-критерию улучшила самую точную модель из программного
множества (модель-лидер) только для т = 1,3 в среднем на 8,52%, а предложенная модификация данной модели с предыдущей кластеризацией временного ряда (а = 0,95, т = 20) улучшила модель-лидер только для т = 8,10 в среднем на 2,59 %. Подобные результаты получаются и в случае использования Я-критерия. Простая адаптивна гибридная модель улучшает модель-лидер для всех т = 1,10 : для т = 1,5 в среднем на 4,71% по сравнению с результатом модели-лидера, для т> 5 в среднем на 1,62%. Адаптивная гибридная модель с кластеризацией (а = 0,95) улучшает модель-лидер для т> 5 в среднем на 1,97% и простую гибридную модель в среднем на 0,45%.
Научная новизна. В целях повышения точности прогнозирования временных рядов разработана адаптивная комбинированная модель прогнозирования с предыдущей кластеризацией временного ряда по методу ближайшего соседа. Отличие обыкновенной адаптированной комбинированной модели от предложенной отличается тем, что в последней отбор лучших моделей для расчета прогноза по селективному или гибридному принципу осуществляется не по результатам прогнозирования на участке ряда, предшествующего точке прогноза, так называемом опорном кластере, а по результатам прогнозирования моделей на другом участке (кластере) ряда, который подобный опорному, т.е. метрическое расстояние которого к опорному кластеру минимально.
Практическая ценность работы в том, что предложенные модели могут использоваться в качестве составляющих информационных прогнозных систем, для повышения точности прогнозирования комбинированных моделей с периодом т > 5 и для повышения эффективности управления процессом прогнозирования в части учета преимуществ конкурирующих прогнозов. Проведенный сравнительный анализ результатов прогнозирования временных рядов цен на сырье с помощью обыкновенных адаптивных комбинированных моделей и комбинированных моделей с предварительной кластеризацией ряда позволяет сделать вывод, что предложенный подход дает возможность добиться более высокой точности в случае прогнозирования с периодом т > 5 .
Список литературы: 1. Brown Robert G. Statistical forecasting for inventory control. US: McGraw-Hill Inc., 1959. 223 p. 2. Holt Charles C. Forecasting trends and seasonal by exponentially weighted averages // International Journal of Forecasting. 1957. Vol.20, no.1.P.5-10. 3. Vercellis Carlo Business intelligence: data mining and optimization for decision making. John Wiley & Sons, Ltd., Publication, 2009. 417 p. 4. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов: Учеб. пособие. М.: Финансы и статистика, 2003. 416 с. 5. Box G.E.P., Jenkins G.M. Time series analysis: forecasting and control. San Francisco: Holden-Day, 1976. 575 p. 6. Берзлев О.Ю., Маляр М.М., Школенко В.В. Адаптивт комбшоваш моделi прогнозування бiржових показнишв // Вюник Черкаського держ. технолог. ун-ту. Серiя: техшчт науки. 2011. № 1. С. 50-54. 7. Берзлев А.Ю. Оценка эффективности прогнозирования и принятия решений на финансовом рынке // «Problems of Computer Intellectualization», V.M. Glushkov Institute of Cybernetics of NAS of Ukraine. Kyiv-Sofia: ITHEA, 2012. C. 249-257. 8. Keogh E., PazzaniM. An enhanced representation of time series which allows fast and accurate classi?cation, clustering and relevance feedback // 4th Int'l Conference on Knowledge Discovery and Data Mining. 1998 Aug 27-31. New York. Р. 239-241. 9. Singh S. Pattern Modeling in Time-Series Forecasting // Cybernetics and Systems. An International Journal. 2000. Vol. 31, no. 1. P. 49-65. 10. Fern6ndez-RodrHguezF., Sosvilla-Rivero S., Andrada-Fйlix J. Nearest-Neighbour Predictions in Foreign Exchange Markets // Fundacion de Estudios de Economia Aplicada. 2002. no.5. 36 p. 11. PetersE. E. Fractal market analysis: applying chaos theory to investment and economics. John Wiley & Sons, Inc, 1994. 336 p. 12. СнитюкB.C. Прогнозування. Моделг Методи. Алгоритми: Навчальний поабник. К.: Маклаут, 2008. 364 с. 13. Chang C.L.E., Garcia-Molina H., Wiederhold G. Clustering for approximate similarity search in high-dimensional spaces // IEEE Transactions on Knowledge and Data Engineering. 2002. Vol 14, no.4. P. 792 -808.
Поступила в редколлегию 12.11.2012 Берзлев Александр Юрьевич, аспирант каф. кибернетики и прикладной математики математического ф-та ГВУЗ «УжНУ». Научные интересы: прогнозирование и интеллектуальный анализ временных рядов. Адрес: Украина, Ужгород, ул. Университетская, 14, к. 313. Email: [email protected]
УДК 519.7 Ю.С. НОВИКОВ
СТРУКТУРИЗАЦИЯ СОСТАВНЫХ ОБЪЕКТОВ ПРИ ФОРМИРОВАНИИ ПРОЦЕССНОГО ПРЕДСТАВЛЕНИЯ ЗНАНИЙ
Предлагается подход к выполнению структуризации составных объектов как элементов процессного представления знаний. При структуризации выполняется последовательное сравнение простых атрибутов объектов и их совокупности на основе их типов и значений, сравнения уникальных атрибутов на основе специализированных алгоритмов, сравнения вложенных объектов.
1. Актуальность
Процессное представление знаний формируется на основе анализа наборов последовательностей событий, имеющих временные метки, и выявление на основе такого анализа структурированных объектов и последовательностей действий, составляющих процесс, а также причинно-следственных зависимостей между такими действиями. Для решения указанных задач анализа традиционно используются методы data mining и, в последние годы, методы бурно развивающегося направления process mining (интеллектуального анализа процессов). Исходными данными при решении таких задач являются наборы последовательностей событий, фиксирующих поведение некоторых объектов и связанных с ними процессов. Интеллектуальный анализ процессов направлен на выявление последовательности взаимодействия таких объектов с учетом скрытых причинно-следственных связей между ними. Результатом данного анализа является процессное представление знаний, отражающее не просто возможные наборы действий в предметной области, но и зависимости между ними, что создает возможность организации логического вывода на процессных знаниях. В то же время выявленные причинно-следственные связи между действиями процесса отражают лишь «внешнюю» природу процессных знаний. Данные зависимости в значительной степени зависят от природы и структуры объектов, с которыми оперирует процесс. Следовательно, структура таких объектов отражает «внутренние» закономернос-