7. Krzanowski W. A criterion for determining the number of groupsin a dataset using sum of squares clustering [Text] / W. Krzanowski, Y. Lai // Biometrics. - 1985. - № 44. - pp. 23-34.
8. Sugar C. Finding the number of clusters in a data set: An information theoretic approach [Text] / C. Sugar, G. James // J. of the American Statistical Association. - 2003. - № 98. - pp. 750-763.
9. Calinski, R. B. Dendrite method for cluster analysis [Text] / R. B. Calinski, J. A. Harabasz // Communications in Statistics. - 1974.
- № 93. - pp. 1-27.
10. Семенкин, Е. С. Методы оптимизации в управлении сложными системами [Текст]: учебное пособие / Е.С. Семенкин, О.Э. Семенкина, В.А. Терсков; Россия. Министерство внутренних дел. - Красноярск: Сибирский юридический институт, 2000.
- 254 с. - ISBN 5-93182-008-6.
11. Статюха Г.О. Вступ до планування оптимального експерименту [Текст]: навч. посіб. / Г.О. Статюха, Д.М. Складанний, О.С. Бондаренко. - К.: НТУУ «КПІ», 2011. - 124 с. - 300 пр. ISBN 978-966-622-408-1.
--------------------------□ □-----------------------------
У роботі пропонується метод прогнозування знаків приростів часових рядів, який базується на застосуванні в комплексі комбінованих моделей селективного типу, складовими яких є індикатори плинних середніх, та попередньої кластеризації часових рядів за методом К-най-ближчих сусідів
Ключові слова: часовий ряд, прогнозування, знак приросту, кластеризація, метод найближчих сусідів, комбінована модель прогнозування, плинна середня
□------------------------------------□
В работе предлагается метод прогнозирования знаков приростов временных рядов, который базируется на применении в комплексе комбинированных моделей селективного типа, составляющими которых являются индикаторы скользящих средних, и предварительной кластеризации временных рядов по методу К-ближай-ших соседей
Ключевые слова: временной ряд, прогнозирование, знак прироста, кластеризация, метод ближайших соседей, комбинированная модель прогнозирования, скользящая средняя
--------------------------□ □-----------------------------
УДК 004:519.2
МЕТОД ПРОГНОЗУВАННЯ ЗНАКІВ ПРИРОСТІВ ЧАСОВИХ РЯДІВ
О. Ю. Берзлев
Аспірант
Кафедра кібернетики і прикладної математики
Ужгородський національний університет вул. Університетська 14, м. Ужгород, Україна, 88000 E-mail: berzlev@gmail.com
1. Вступ
Відомо, що більшість часових рядів, для яких виникає задача прогнозування, зокрема рядів економічної природи, як правило, характеризуються нестаціонар-ністю і нестійкістю відносно їх середнього рівня. Переважна більшість класичних статистичних моделей та відповідних методів (експоненціальні, лінійні регре-сійні, авторегресійні типу ЛШМЛ [1-4]) не призначені для прогнозування нестаціонарних часових рядів, а ті, які для цього призначені (ЛШМЛХ, нелінійні регре-сійні тощо) характеризуються складністю оцінювання численних параметрів та ідентифікації функціональних залежностей. З огляду на це, окрім задачі прогнозування майбутніх значень рядів, застосовуються інші специфічні задачі, серед яких: ідентифікація моментів локальних екстремумів [5], прогнозування знаків приростів рядів. Остання розглядається в даній роботі.
На фінансовому і валютному ринках часто виникає задача передбачення короткочасної динаміки часового ряду без розрахунку безпосередньо прогнозних значень. Тобто управління процесом прогнозування
в даному випадку передбачає вибір або побудову такої моделі, яка б розраховувала прогноз знаку приросту значення часового ряду на одну точку вперед з необхідною максимальною точністю. Моделі такого типу зазвичай застосовуються для визначення напрямку руху ціни валютних пар і можуть використовуватися для визначення екстремальних точок або точок розвороту ринку, тобто таких точок, які вказують на подальший напрямок руху ціни. На практиці для підвищення точності прогнозування знаків приростів застосовують специфічні моделі та методи.
Питання розробки моделей та методів прогнозування знаків приростів висвітлені в роботі [6], зокрема в ній пропонується модель прогнозування знаків приростів рядів з нестабільним характером коливань. Але на сьогоднішній день не розроблено універсальної методики вирішення цієї задачі, яка б повністю задовольняла цілі прогнозиста, аналітика або інвестора в частині забезпечення необхідної точності прогнозів незалежно від структури часових рядів.
Для вирішення даної задачі автором пропонується метод, який базується на використанні в комплексі
З
©
комбінованих моделей прогнозування та попередньої кластеризації часових рядів. Також автором запропоновані деякі критерії оцінки якості прогнозування для даної задачі.
Актуальність цих досліджень має як практичне, так і теоретичне значення для розробки математичного інструментарію, що може бути використаний в подальших дослідженнях.
2. Ціль і задачі дослідження
Ціллю дослідження є розробка методу прогнозування знаків приростів часових рядів, який базується на використанні в комплексі попередньої кластеризації рядів за методом К-найближчих сусідів та комбінованих моделей, складовими яких є математичні інструменти технічного аналізу для прогнозування динаміки, а саме індикатори плинних середніх.
3. Постановка задачі прогнозування знаків приростів
Скінчену послідовність вимірювань, які фіксуються в дискретні моменти часу ^ єS, і = 1,п, S - деяка дискретна множина, будемо називати дискретним часовим рядом = ^1^2,...^п} = ^(^)^(^),...^(^)},
^ - початковий момент часу.
Розглянемо формальну постановку задачі прогнозування знаків приростів часового ряду. На основі ряду ^}“= побудуємо ряд, який складається з перших різниць {^^п^, де Дzi = zi - zi-1, і = 2,п . Позначимо через {Хі}“=2 знаковий ряд, де Хі = sgn(Дzi). Прогноз знаку приросту, який розраховується в точці п на т точок вперед позначимо через %т(“). Функціональну залежність, на основі якої прогнозується короткострокова динаміка часового ряду, в даній роботі знак приросту часового ряду на одну точку вперед ( т = 1), назвемо моделлю прогнозування знаків приростів і позначимо через F. Формально її можна записати так:
Xп+1 = Х 1(п) = ^п-т+1, ^-т+2,'• ■ ■ ^ .
Якщо існує достатньо історичних даних спостережень часового ряду, то перед реалізацією прогнозу доцільно оцінити якість моделей прогнозування на даному часовому ряді. Оцінки можуть бути використані для уточнення моделей або для побудови довірчих інтервалів прогнозів. Для побудови критеріїв оцінки якості прогнозування, розрахуємо прогнози знаків приростів для ряду Z/= ^}П=п-т+1 довжини т на основі
ряду ^і}П=птт-ч+1 довжини я:
Х1(п - т) = F(zn-m-q+1 ^п-т^ • ■ ■ ^п^ ,
Х1(п - т + 1) = F(zn-m-q+2, ^-т^+3, ■, ^-т+1 ) ,
Для побудови критеріїв оцінки якості прогнозування необхідно визначити, які з отриманих прогнозних значень послідовності X , слід врахувати в цільовій функції критерію. Підпослідовність послідовності X, яка використовується для оцінки точності прогнозування назвемо оцінювальною і позначимо через
X = =б. ЦФ -т,п -1]^ < т т < n, V
- кількість елементів послідовності X . Послідовність X може бути побудована з найбільш значимих прогнозів за допомогою експертного оцінювання.
Можна визначити такі критерії оцінки якості прогнозу для задачі прогнозування знаків приростів:
- I1 = І1^', X ) = — £ Юк.х^п^к ),
; і=і
де Д2к = zk - zk -1 - прогнозні прирости.
Тут і далі к. є[п - т,п -1], V < т , т < п , £юк = 1;
J=l
I2 = №X )= -£ю цк,
v “ J J
J=l
^k =i
1,(XkJAZkJ > О) v(XkJ = О л AZkJ = О)
0, XkJAzkJ < О
h, (Xk. = О л Az, * О) v (Xk. * О л Az, = О),
де Ь є [0,1) - поріг, який дозволяє врахувати прогноз нульового приросту На практиці рекомендується обирати Ь є [0.2,0.5] ;
- оскільки на практиці випадок, коли одночасно Xк = 0 і Д2к = 0 виникає рідко, то І2 можна замінити оцінкою, яка використовує функцію Хевісайда:
I3 = I3(Z', X *) = 1 j ю Hh(X kAz),
v j=i
Hh(x) =
0, x < О
h, x = О , xє! .
1, x > О
(1)
(2)
Нехай потрібно оцінити якість L моделей прогнозування типу F, які були протесторані на ретроспективному ряді. Позначимо через Xp - оцінювальний ряд, який був отриманий за p -ю моделлю при прогнозуванні ретроспективного ряду {zi}”=n-m+1 на 1 крок вперед. Тоді оптимальною буде вважатися та модель, якій відповідає максимальне значення наведених критеріїв IJ(z',Xp ) ——max або 1 -IJ(z',Xp ) —min , J = 1,3,
p = 1l.
Х1(п -1) = ^А-я, ^+1, •, ^-1) , т + я - п ,
де Х1(і) - прогноз знаку приросту, який реалізується в момент ^ (в точці і ) на 1 точку вперед, і = п - т, п -1. Послідовність таких прогнозів ретроспективного ряду позначимо через X = {х1 (і)}п=п1-т .
4. Основна частина дослідження
Постановка задачі. Нехай задана множина моделей прогнозування ^Д2,...Дк , на основі яких в точці п ряду можуть бути розраховані оцінки знаків приростів Хі(п), Р = 1,Ь. На основі множини даних моделей та ретроспективного ряду в точці п розраху-
F
вати найбільш точну прогнозну оцінку знаку приросту на одну точку вперед.
Розв’язання задачі. Запропонований метод прогнозування базується на послідовному виконанні взаємопов’язаних алгоритмів: алгоритм кластеризації часового ряду [7-9] та алгоритм реалізації комбінованої моделі прогнозування [6,1О].
Кластеризація часового ряду на основі методу K - найближчих сусідів. Кластером довжини m часового ряду {zi}”=1, який представляється скінченою послідовністю дійсних чисел, будемо називати підпослідовність {zk}m=1 з m елементів, m < n,
,j+1 = k +1 для J = 1,m-1 (порядок слідування елементів у підпослідовностях такий же, як і у часовому ряді). Кластери можуть представлятися безпосередньо як підпослідовності елементів вхідного часового ряду або шляхом введення відстаней між елементами в середині кластерів. В даному методі будемо розглядати представлення кластерів на основі знакових послідовностей. Якщо {хІ}|=2 - знакова послідовність часового ряду {zi}”=1, тоді знакові кластери будуть мати вигляд: x(m) = {Xk;,Xk.,---,ХкЛ = {Xk(}jml , J = k( +1, Xks =Xs , s = 2,n - m , де x(m) - кластер, що складається з m елементів, s - індекс початкового елемента ряду. Кластер Xnmm будемо називати опорним, всі інші кластери X(m), s = 2,n -m -1 будемо називати не-опорними. Очевидно, що число знакових неопорних кластерів з m елементів, що побудовані на основі ряду з n елементів рівне n - m-1.
Слід зазначити, що термін кластер (pattern), яким послуговуємося в даній роботі, використовується в [7]. У роботі [8] використовується термін vector, також у різних авторів зустрічаються терміни set, pieces тощо. Для визначення опорного кластеру використовуються також терміни останній придатний вектор (last available vector), історія ряду тощо.
Оскільки кожен кластер може бути представлений точкою в m - вимірному просторі, можемо розрахувати міри близькості або метричні відстані між опорним та всіма неорними кластерами. В якості мір близькості можуть бути використані: відстані Евкліда, Мінковсь-кого, Махаланобіса, або у випадку представлення кластерів на основі знакових послідовностей: міри подібності Хеммінга, Роджерса-Танімото тощо. В результаті застосування алгоритму кластеризації за методом K - найближчих сусідів, отримаємо K неопорних кластерів, подібних до опорного (відстань яких до опорного кластеру мінімальна). Позначимо їх через Xymm1 є X, y є^ + 1,n -1], X - множина K кластерів, подібних до
n-m
опорного кластеру X(m) .
Реалізація комбінованої моделі прогнозування на основі плинних середніх. Враховуючи специфіку поставленої задачі, будемо формувати множину моделей прогнозування на основі моделей, які базуються на математичних інструментах технічного аналізу, а саме трендових індикаторах плинних середніх, які призначені для прогнозування динаміки часового ряду. Для побудови множини моделей можуть бути обрані такі індикатори:
Xl(n) = sign
- j z ptl
Xl(n) = sign
vp
на плинна середня;
1
—j (p - i + 1)z„-
.=! і
- Xl(n) = sign редня;
- Xl(n) = sign
p' I>
геометрична плинна се-
n(zn-i+1)
p-i+1
.=! і
і - зважена
геом. плинна середня.
Ціллю управління процесом прогнозування в комбінованих моделях є врахування в оцінці прогнозу особливих «корисних» характеристик кожної прогнозної моделі.
Виділення цих характеристик здійснюється в першу чергу завдяки механізмам селекції та гібридизації моделей.
В даному методі обмежимося селективним принципом побудови прогнозу.
Нехай на основі деякої міри близькості в точці zn було визначено К кластерів ХІЦГ"1 єХ , у є[т + 1,п-1], сагІ(Х) = К , подібних опорному кластеру Х(Птт . Останнім елементом кожного з кластерів Хутт+1 будуть елементи zy . В якості критерію селекції (відбору найбільш точних моделей) в точках zy скористаємося оцінкою (1), з функцією Хевісайда з параметром Ь = 0 і оцінювальними послідовностями, які представляються кластерами ХІЦГ"1 єХ . Для спрощення в точках zy будемо відбирати з множини моделей єдину модель, для якої критерій I3 максимальний. Позначимо прогнози знаків приростів відібраних моделей на одну точку вперед, які розраховуються в точках zy через ХіЧу), d = 1,К. Підрахуємо в кожному з кластерів Х^т^1 єХ кількість додатних приростів, позначимо її через у+ і кількість від’ємних приростів - у- .
Тоді прогноз знаку приросту на одну точку вперед, який розраховується в точці zn можна визначити за формулою:
K +1
Xl(n) = signl фі -
Фі, =jHh(x4d(y)) + H,(Y+ -Y-) ,
(3)
(4)
прогноз знаку приросту
на основі простої плинної середньої з періодом p > О ;
де НЬ - функція Хевісайда з параметром Ь (2).
Отже, запропонований метод складається з таких кроків:
1. Передпрогнозний аналіз часового ряду, побудова опорного кластеру і множини неопорних кластерів. Знаходження К неопорних кластерів, подібних до опорного на основі певної міри близькості за методом К - найближчих сусідів.
2. Реалізація комбінованої моделі прогнозування на основі плинних середніх, механізм селекції в якій виконується на основі деякого критерію селекції, наприклад, за правилом (2).
3. Реалізація прогнозу за формулами (3),(4).
v
V
v
=1
2
d=1
n-i+1
з
5. Висновки і чисельні результати
Описана методика була протестована і реалізована в програмному середовищі. Для тестування було обрано ряди валютних пар: EUR-USD, ЕиЯ^Р^ ЕиЯ^ВР за останні 5 років (щоденні дані). Кожен ряд по більш ніж 3000 вимірювань. Були реалізовані окремо плинні середні (прості, зважені, геометричні, зважені геометричні) та комбінована модель на основі даних плинних середніх з періодом р = 5 . Кла-стеризація часових рядів відбувалась за методом К
- найближчих сусідів, в якості міри близькості було обрано відстань Евкліда (т = 2, К = 5). Були розраховані середні похибки прогнозування (на основі критерію I3 (1), (2) у відсотках) знаків приростів на одну точку вперед на ділянках ряду в 500 точок згідно з запропонованим методом Ь = 0 (3), (4). Для вказаних часових рядів описана методика дозволила в середньому підвищити точність прогнозування знаків приростів відносно наївного алгоритму на 7%, відносно алгоритму Лукашина на 3%, відносно середнього показника по плинним середнім на 1%. Наприклад, для раду EUR-USD точність запропоно-
ваного методу складає 53,07%, в той час як точність наївного алгоритму, в якому застосовується гіпотеза про те, що знак приросту в попередній точці збережеться і в наступній, складає 45,65%.
Наукова новизна. Для підвищення точності прогнозування знаків приростів часових рядів запропоновано метод, який базується на комбінованій моделі, в основі якої лежать плинні середні, з попередньою кластеризацією часового ряду за методом К - найближчих сусідів.
Практична цінність роботи в тому, що запропонована методика може використовуватися в якості складової інформаційних прогнозних систем, зокрема таких, які використовуються на валютному ринку для підвищення точності прогнозування знаків приростів часових рядів на одну точку вперед. Проведений порівняльний аналіз результатів прогнозування запропонованого методу з наївним підходом, алгоритмом Лукашина, звичайною комбінованої моделлю на основі плинних середніх (без попередньої кластеризації) дозволяє зробити висновок, що запропонований підхід дає можливість підвищити точність прогнозування знаків приростів.
Література
1. Vercellis C. Business intelligence: data mining and optimization for decision making / C. Vercellis. - John Wiley & Sons, Ltd., Publication, 2009. - 417 p.
2. Box G.E.P. Time series analysis: forecasting and control / G.E.P. Box, G.M. Jenkins. - San Francisco: Holden-Day, 1976. -575 p.
3. Brown Robert G. Statistical forecasting for inventory control [Текст] / R.G. Brown. - US: McGraw-Hill Inc., 1959. -223 p.
4. Holt Charles C. Forecasting trends and seasonal by exponentially weighted averages [Текст] / C. Holt // International Journal of Forecasting. - 1957. - Vol.20, no.l. - P. 5-10.
5. Берзлев, А.Ю. Оценка эффективности прогнозирования и принятия решений на финансовом рынке [Текст] / А.Ю. Берзлев // «Problems of Computer Intellectualization», V.M. Glushkov Institute of Cybernetics of NAS of Ukraine. - Kyiv-Sofia: ITHEA, 2012. - C. 249-257.
6. Лукашин, Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов [Текст] / Ю.П. Лукашин. - М.: Финансы и статистика, 2003.- 416 с.
7. Singh S. Pattern Modeling in Time-Series Forecasting [Текст] / S. Singh // Cybernetics and Systems. An International Journal. - 2000. - Vol. 31, no. 1. - P. 49-65.
8. Fernandez-Rodriguez F. Nearest-Neighbour Predictions in Foreign Exchange Markets [Текст] / F. Fernandez-Rodriguez, S. Sosvilla-Rivero, J. Andrada-Felix // Fundacion de Estudios de Economia Aplicada. - 2002. - no.5. - Э6 p.
9. Keogh, E. An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback [Текст] / E. Keogh, M. Pazzani // 4th Int’l Conference on Knowledge Discovery and Data Mining. 1998 Aug 27-31. -New York. - Р. 239-241.
10. Берзлев, О.Ю. Адаптивні комбіновані моделі прогнозування біржових показників [Текст] / О.Ю. Берзлев, М.М. Маляр, В.В. Ніколенко // Вісник Черкаського держ. технолог. ун-ту. Серія: технічні науки. - 2011. - № 1. - С. 50-54.
£