УДК 519.6:311 Краковский Юрий Мечеславович,
д. т. н., профессор кафедры «Информационные системы и защита информации», Иркутский государственный университет путей сообщения, e-mail: [email protected]
Лузгин Александр Николаевич,
аспирант кафедры «Информационные технологии», Евразийский лингвистический институт (филиал МГЛУ в г. Иркутске),
тел. +79025159719, e-mail: [email protected]
АДАПТИВНАЯ ВЕРОЯТНОСТНО-СТАТИСТИЧЕСКАЯ КЛАСТЕРНАЯ МОДЕЛЬ ИНТЕРВАЛЬНОГО ПРОГНОЗИРОВАНИЯ НЕСТАЦИОНАРНЫХ ДИНАМИЧЕСКИХ ПОКАЗАТЕЛЕЙ
Y. M. Krakovsky, A. N. Luzgin
ADAPTIVE PROBABILISTIC STATISTICAL CLUSTER MODEL FOR INTERVAL PREDICTION OF NON-STATIONARY DYNAMIC INDICATORS
Аннотация. Разработан и протестирован алгоритм интервального прогнозирования нестационарных динамических показателей на основе адаптивной вероятностно-статистической кластерной модели. Предложенная модель позволяет качественно оценить будущие «значения» нестационарного динамического показателя на основе вероятности того, что они превысят (не превысят) заранее установленное значение порогового уровня на момент прогнозирования. Так как при подобном прогнозировании не определяется само будущее значение нестационарного динамического показателя, а оценивается, в каком интервале оно будет находиться, то это прогнозирование названо интервальным. Накопление статистики и расчет вероятностей основывается на идентификации подобных кластеров по заданным условиям. С учетом коммерческого характера производственно-финансовых показателей организаций в качестве подходящих и общедоступных примеров нестационарных динамических показателей при тестировании были выбраны ежедневный курс евро в рублях и ежедневный курс доллара США в рублях, предварительно сглаженные простым скользящим средним. Результаты тестирования подтвердили состоятельность и практическую значимость созданной адаптивной вероятностно-статистической кластерной модели интервального прогнозирования.
Ключевые слова: прогнозирование, динамические показатели, адаптивная вероятностно-статистическая кластерная модель.
Abstract. The algorithm of interval prediction of non-stationary dynamical indicators based on adaptive probabilistic statistical cluster model is developed and tested. The model allows to assess future «values» of non-stationary dynamic indicators based on the likelihood that they will exceed (will not exceed) a predetermined threshold value at the time of prediction. Since for such a prediction not the future value of non-stationary dynamic indicator is determined, but the interval in which it will be, this prediction is called the interval prediction. The accumulation of statistics and probability calculation is based on the identification of similar clusters on specified conditions. Considering the commercial nature of production and financial indicators of the organizations, as suitable and public examples of non-stationary dynamic indicators during testing daily rate of euro in rubles and a daily rate of U.S. dollars in rubles, pre-smoothed with simple moving average were chosen. The operability and practical significance of the developed adaptive probabilistic statistical cluster model of interval prediction are confirmed by test results.
Keywords: prediction, dynamic indicators, adaptive probabilistic statistical cluster model.
Введение
В современной экономике большинство организаций и предприятий осуществляют свою деятельность в условиях неопределённости, где принятие эффективных решений по управлению производственными, технологическими и финансовыми процессами напрямую зависит от качества оценки базовых динамических показателей. Ввиду стохастической нестационарной природы этих показателей, актуальным исследовательским направлением является разработка новых и совершенствование существующих методов прогнозирования динамических показателей [1].
В статье для задачи прогнозирования предлагается адаптивная вероятностно-статистическая кластерная модель (АВСКМ), позволяющая качественно оценить будущие «значения» нестационарного динамического показателя (НДП) на основе вероятности того, что они превысят (не превысят) заранее установленное значение порогового уровня на момент прогнозирования. Так как
при подобном прогнозировании не определяется само будущее значение НДП, а оценивается, в каком интервале оно будет находиться, то это прогнозирование названо интервальным.
С учетом коммерческого характера производственно-финансовых показателей организаций в качестве подходящих и общедоступных примеров НДП для проверки предложенного алгоритма АВСКМ выбраны ежедневный курс евро в рублях и ежедневный курс доллара США в рублях, предварительно сглаженные простым скользящим средним.
Исходные данные и постановка задачи интервального прогнозирования на основе АВСКМ
Обозначим НДП через 8 = е т}. Здесь st - значения НДП, доступные в дискретные моменты времени ^, где ^ принимает значения из множества Т = {0,..., п -1} .
Информатика, вычислительная техника и управление
Введём величину dt, которую назовем пороговым уровнем, и будем рассчитывать ее для последнего значения НДП так:
dt = 1 +а-1, (1)
где , = п -1, 5 = -
л п -1 — |
п-1 Е'
Зг-1
- среднее ариф-
ш
чениями двух кластеров и основан на коэффициенте линейной корреляции Пирсона [2]
(N)/Д^Э! )) .
В работе этот коэффициент предложено определять следующим образом:
метическое модулей разности соседних значений в = {у: е т}, ае[-1;1] — коэффициент, который задается заранее.
При интервальном прогнозировании НДП в момент времени , = п -1 необходимо провести
оценку вероятности р++ того, что будущее значение НДП +р > dt, или оценку вероятности р~+ р того, что будущее значение НДП +р < dt, где р = 1,...,# есть время упреждения, а р+_р + р-+ = 1 (рис. 1). Если оценки вероятностей р++р = р~-+р = 12 (ситуация неопределённости), то прогноз не делается.
)=
N(^ )/Дв^к),) Ф 0,
1,б ф) = дв«), ) = о, 0,Б(в[) Ф Б(вк),) = о.
¿-1 ¿-1 1-1
"к+;,
N (вМвк ) = / 8г+; ■ 8к+;
г=0
• Е • Е 5 г-
Б (в[) =
Г-1
¿■Е
г=о
/-1 Е
V г=0
г=0
Л2
г=0
(2)
1 -1 «■ Е
г=0
8к+г
)(вк)= Дв^к) = 7 Б (в[) • Б(вк)
V
1-1 Е 8к+г
V г=0 у
у
2
Рис. 1. Графическая интерпретация задачи интервального прогнозирования при а = 0
Условия кластерного подобия
Под кластером = ,...,1г+^-1} будем понимать выборку последовательных значений из в = е т} с позиции г е Т и с количеством значений / = 1,...,п, так чтобы (г + / -1) е Т.
Выберем из в = {¿у, е Т} два произвольных
кластера и в к . Кластеры и в к называются подобными, если выполняются условия (У-1):
1) Кластеры содержат одинаковое количество значений, т. е. / = 1.
2) Значение коэффициента «линейного сопряжения» Л(в[,8к)>Rd, где Rd е[0;1] - допустимое значение (это значение определяется заранее).
Коэффициент «линейного сопряжения» определяет «степень» линейной связи между зна-
Способ расчета и название коэффициента предложены авторами данной статьи. Фактически значение коэффициента «линейного сопряжения» можно интерпретировать как численную «меру» подобия двух кластеров. Допустимое значение такой «меры» определяется через параметр Rd .
Значения величин ))) или Дв^) в (2) равны нулю только в том случае, если все значения соответствующего кластера или равны между собой.
На рис. 2 приведен пример двух подобных кластеров, обозначенных как А и В, при Rd = 0,75 .
43,5 43,0 42,5 42,0 41,5 4:1,0 40,5 40,0 39,5 39,0
! \
1*4 Л
А Г — 1
■ 1 1
1 \ | К N ч
\ /! Л \
г 1 1- 1 V, А V/ / V
У _ и
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
Рис. 2. Пример двух подобных кластеров А и В
Интервальное прогнозирование на основе АВСКМ
Выделим из 8 = е т} кластер 8[ = {si,...,si+/-1} при г = п-/ и назовем его базовым кластером, где / е [1; п].
Предположим, что в 8 = е Т} найден
кластер Sk = {зк,...,$к-1}, подобный базовому
кластеру 8[, для которого выполняется условие к < п - § - р (У-2).
Так как между значениями базового кластера 8[ и значениями кластера 8| существует линейная связь, можно линейно аппроксимировать значения базового кластера 8[ посредством значений кластера 8| следующим образом:
(3)
5г+5 = а1,к ' 5к+5 + Ь1,к •
1, ад)=о,
кк =
Г/-1
V г=0
я-1
^ - аг,к 'X 5
к У
/ •
% =■
Здесь 5к+5 - значения кластера 8|, ~г+5 -аппроксимированные значения базового кластера 8[, 5е[0; / -1], аг,к, Ьг,к - коэффициенты уравнения (3). Подобный подход был использован в работе [3].
Используя метод наименьших квадратов и обозначения, используемые в формуле (2), коэффициенты уравнения (3) можно вычислить так:
М (8[,8- )/ ОД), ОД) * 0,
(4)
Когда величина О (8|) в (4) равна нулю, коэффициент аг к = 1 (в этом случае все значения
кластера 8^ равны между собой).
Вычислив коэффициенты аг к и Ь1к, найдем оценку ~+/-1+р будущего (неизвестного) значения +р следующим образом:
~г+/-1+р = аг,к ' 5к+/-1+р + Ьг,к • (5)
Напомним, что г = п - /, а момент прогнозирования t = п -1. Тогда I = г + / -1 и (5) можно переписать в виде:
~ + р = аг,к ■ 5к+/-1+ р + Ьг,к • (6)
Сравнение величин dt и ~+р будем проводить следующим образом:
(7)
Здесь % - признак, характеризующий результат сравнения. При % = 1 оценка ~+р будущего значения больше dt, а при % = -1
меньше либо равна.
Рассчитав значения коэффициентов (4) и признака (7) для всех кластеров, найденных в Б и
подобных базовому кластеру 8[ , можно провести оценку искомых вероятностей р++р и р-р .
Введем следующие переменные: М+ - количество случаев, когда % = 1, а М- - количество случаев, когда % = -1.
Алгоритм интервального прогнозирования на время упреждения р на основе АВСКМ содержит следующие этапы (А-1):
1) Подготовка исходных данных: 8 = {$' е т}, задание Rd, а, р, / .
2) Подготовка вспомогательных данных: расчет dt при t = п -1 (1).
3) Определение базового кластера 8[ = {5+/-,} .
4) Выбор начальных значений к = 0, М+ = 0, М- = 0 .
5) Определение из 8 кластера 8| = {5к ,•••,5к+я-1} согласно (У-2) и сравнение его с
базовым кластером (У-1).
6) Если кластеры подобны, то рассчитываем коэффициенты аг,к и Ьг,к (4) и значение признака % (7). При % = 1, = +1, а при % = -1, М-= М- +1.
7) Если к < п - / -1, то к = к +1 и возвращаемся на этап 5; иначе этап 8.
8) Оценка вероятностей:
+ , М+/ (М;+ м- ),(М;+ М- ) * 0,
Pt+ р =
[1/2,( м;+ м- ) = 0,
[М;/ ( М;+ М- ),( М;+ М- ) * 0
(8)
р +р = '[1/2, ( м;+ м- ) = 0.
9) Проведение прогноза:
а) будущее значение 5 + больше dt, если
Р++р ^ р ;
Информатика, вычислительная техника и управление
ш
б) будущее значение ^ меньше, либо рав-
но
d,
t, если pt+р < pt+р;
в) прогноз не делается, если pt++ p = pt—+ .
Таким образом, АВСКМ имеет четыре параметра Rd, а, p, f . Их значения подбираются эмпирически или на основании экспертного оценивания.
Тестирование АВСКМ по ретроспективным данным
Тестирование АВСКМ проводилось следующим образом.
Исходные значения НДП S = {st:t е T} разбивались на две части. Первая часть с количеством значений n — p — w использовалась для построения АВСКМ и прогнозирования на его основе, вторая часть с количеством значений w + p использовалась для проверки результата прогнозирования; w - объем выборки при тестировании. После каждого прогноза количество значений во второй части сокращалось, а в первой части увеличивалось на единицу.
Для оценки результатов тестирования АВСКМ были использованы показатели из работы [4]:
L - число оправдавшихся прогнозов по модели;
M - число ошибочных прогнозов по модели;
PL = L x100/(L+M) - процент оправдавшихся прогнозов по модели;
PM = M x100/(L + M) - процент ошибочных прогнозов по модели.
Также было введено два дополнительных показателя:
PS - число случаев, когда прогноз по модели не делался;
PPS = PS x100/(L+M + PS) - процент случаев, когда прогноз по модели не делался.
При этом L + M + PS = w, PL + PM = 100 , PPS < 100 .
Чем выше процент оправдавшихся прогнозов PL , тем адекватнее модель и точнее прогнозирование. Если PL < 50, модель нужно признать неадекватной. Вместе с тем желательно, чтобы процент случаев, когда прогноз не делался, был равен либо стремился к нулю.
Для программной реализации всех алгоритмов был выбран свободно распространяемый язык программирования для статистической обработки данных «R» [5].
В качестве доступных и подходящих примеров НДП были выбраны предварительно сглаженные простым скользящим средним с периодом, равным 3:
1) Ежедневный курс доллара США в рублях (ШВЯШ_Б) с 22.08.2011 по 10.09.2014 год:
— количество значений НДП — 1062;
— минимальное значение НДП — 28,8 руб.;
— максимальное значение НДП — 37,3 руб.;
— среднее значение НДП 32,2 руб.;
— стандартное отклонение НДП — 1,94 руб.;
— значение параметра 5 = 0,08 .
2) Ежедневный курс евро в рублях (БиККиЯ_Б) с 22.08.2011 по 10.09.2014 год:
— количество значений НДП — 1062;
— минимальное значение НДП — 38,4 руб.;
— максимальное значение НДП — 50,8 руб.;
— среднее значение НДП 42,8 руб.;
— стандартное отклонение НДП — 3,2 руб.;
— значение параметра 5 = 0,09.
Данные по курсам были получены через Интернет посредством сервиса холдинга «ФИНАМ» [6].
Пример неполного графика БиККиЯ_Б представлен на рис. 3.
Рис. 3. Пример неполного графика ЕиККЦ^Б
Для тестирования АВСКМ были заданы: ^ = 100 (тестовый интервал в 100 дней), р = 1 (прогнозирование осуществлялось на 1 день вперед), параметр Rd = 0,70 (выбран экспертным путем), а = 0 (пороговый уровень dt равен последнему значению НДП на момент прогнозирования), параметр / варьировался.
В табл. 1 приведены результаты тестирования АВСКМ по данным ШВЯШ_Б.
Из этой таблицы видно, что наилучшая точность интервального прогнозирования обеспечивается при числе элементов в кластере / = 3.
Т а б л и ц а 1 Результаты тестирования АВСКМ по данным USDRUR D
f L M PS PL PM PPS
2 72 28 0 72,0 28,0 0,0
3 74 26 0 74,0 26,0 0,0
4 71 29 0 71,0 29,0 0,0
твердил свою состоятельность и возможность практического применения.
2. Наилучшие результаты интервального прогнозирования для выбранных исходных данных получаются при числе элементов в кластере 2 или 3.
В табл. 2 приведены результаты тестирования АВСКМ по данным ЕиКЯиЯ_Б.
Из этой таблицы видно, что наилучшая точность интервального прогнозирования обеспечивается при числе элементов в кластере / = 2.
Т а б л и ц а 2 Результаты тестирования АВСКМ по данным
EURRUR D
f L M PS PL PM PPS
2 74 26 0 74,0 26,0 0,0
3 71 29 0 71,0 29,0 0,0
4 62 38 0 62,0 38,0 0,0
Во всех экспериментальных случаях АВСКМ продемонстрировала свою адекватность (значение показателя PL > 50) и хорошую точность интервального прогнозирования (минимальное значение PL = 62 ), при этом процент случаев, прогноз по которым не делался, был равен 0 .
Заключение
1. Предложенный алгоритм интервального прогнозирования НДП на основе АВСКМ под-
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Краковский Ю.М., Лузгин А.Н. Прогнозирование стохастических нестационарных динамических показателей на основе математических моделей // Вопросы естествознания. 2014. № 2 (3). С. 42-50.
2. Корреляция [Электронный ресурс] // Википедия -свободная энциклопедия : сайт. URL: http://wikipedia.org. (Дата обращения: 20.05.2014).
3. Чучуева И.А. Модель экстраполяции по максимуму подобия (ЭМП) для временных рядов цен и объемов на рынке на сутки вперед ОРЭМ (Оптовом рынке электроэнергии и мощности) [Электронный ресурс] // Наука и образование. 2010. № 1. URL: http://technomag.edu.ru /doc/135870.html (Дата обращения: 26.05.2014).
4. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. М. : Финансы и статистика, 2003. 416 с.
5. Язык программирования для статистической обработки данных «R» [Электронный ресурс] // R Foundation : сайт. URL: http://www.r-project.org (Дата обращения: 17.02.2013).
6. Финам : официальный сайт инвестиционного холдинга «ФИНАМ» [Электронный ресурс]. URL: http://www.finam.ru. (Дата обращения: 25.05.2014).
УДК 519.1 + 681.5 Кузьмин Олег Викторович,
д. ф.-м. н., профессор, заведующий кафедрой теории вероятностей и дискретной математики ИМЭИ, Иркутский государственный университет,
тел. (3952)242226, e-mail: [email protected] Чернигова Анна Геннадьевна, магистрант ИМЭИ, Иркутский государственный университет, e-mail: [email protected]
АВТОМАТИЗАЦИЯ КОМБИНАТОРНОГО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ
КОРНЕВЫХ ДЕРЕВЬЕВ
O. V. Kuzmin, A. G. Chernigova AUTOMATION OF COMBINATORIAL ENCODING AND DECODING OF ROOTED TREES
Аннотация. Теория графов находит применение в решении задач не только в математике и традиционных приложениях в химии и электротехнике, но и в социологии, лингвистике, экономике, генетике: транспортные задачи, в которых вершинами графа являются пункты, а ребрами — дороги и/или другие транспортные маршруты; сети снабжения, в которых вершинами являются пункты производства и потребления, а ребрами — возможные маршруты перемещения; социологические задачи, в которых модели коллективов и групп основываются на представлении людей или их групп в виде вершин, а отношений между ними — в виде ребер или дуг.
Поскольку графы встречаются в сотнях разных задач, в том числе прикладного характера, очень важны алгоритмы их обработки. Еще в период становления теории графов в ней возникало немало таких задач, решение которых предполагало построение некоторых алгоритмов (достаточно вспомнить, например, задачу Э. Эйлера о Кёнигсбергских мостах или задачу У. Гамильтона об обходе вершин додекаэдра). На сегодняшний день существует множество алгоритмов решения задач из самых разных областей человеческой деятельности.
В данной работе представлены разработанные авторами алгоритмы перевода матричного представления деревьев, в комбинаторные слова и обратно. Предложенные авторами алгоритмы позволяют сократить объем данных для дальнейшего