ПРИМЕНЕНИЕ МЕТОДА K-NEAREST NEIGHBOURS К ПРЕДСТАВЛЕНИЮ ГИСТОГРАММНЫХ ВРЕМЕННЫХ РЯДОВ
© Пяткова А.А.*
Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск
В работе рассмотрено применение гистограммного временного ряда, который определяется как последовательность (ряд) плотностей вероятности, представленных в виде гистограмм. Приведены описания гис-тограммных временных рядов с применением метода k-Nearest Neighbours. Показано, что данный подход позволяет поднять точность прогнозов, и работает хорошо.
Ключевые слова: гистограммные временные ряды, метод k-Nearest Neighbours, численный вероятностный анализ.
Введение
Временной ряд - это последовательность чисел; его элементы - это значения некоторого протекающего во времени процесса. Они измерены в последовательные моменты времени, обычно через равные промежутки.
Временные ряды представляют большую практическую важность и востребованность в различных сферах человеческой деятельности: прогнозирование погоды в метеорологии, анализ функционирования организма человека в биомедицине, прогноз ценовых рядов на финансовых и сырьевых рынках, корректная обработка результатов социологических опросов и др.
В статье рассматриваются гистограммные временные ряды с использованием метода k-Nearest Neighbours (k-NN). Возможность к прогнозированию и простота метода k-NN является подходящей к представлению гисто-граммных временных рядов. Другой сильной стороной метода k-NN является многосторонность: может быть применено к оценке плотности, классификации, функции приближения, и также к прогнозированию временного ряда.
Понятие гистограммного временного ряда
Использование гистограммных временных рядов обусловлено, прежде всего, тем, что они позволяют достаточно точно представлять произвольные распределения. Вторая причина - развитая арифметика для работы с гисто-граммными переменными [1]. В символическом анализе данных и Data Mining гистограммы используются для исследования множества различных процессов и применяются для описания изменчивости количественных признаков.
* Магистрант.
Понятие гистограммный временной ряд тесно связано с процессом построения гистограмм для временных рядов. Возможны несколько подходов. Каждый подход построения ГВР обусловлен целями исследования и спецификой исходной информации, которая, как правило, представляет собой числовой временной ряд, характеризующийся частотой и числом измерений [1].
Такие ряды возникают во многих приложениях, включая экономику, финансы, метеорологию и так далее, когда распределение значений действительно в каждый момент времени. В этих случаях, гистограммы представляют краткий анализ данных, который является более информативным, в отличие от других статистических вычислений таких, как вычисление среднего значения.
Для снижения сложности, привносимой в исследования группами факторов: первая группа характеризуется внутренней сложностью системы как таковой; вторая - внешней сложностью явлений и процессов, влияющих на систему и взаимодействующих с ней; третья - недостаточностью информации и знаний о предыстории процесса функционирования системы; четвертая группа факторов связана с разрабатываемыми и применяемыми технологиями анализа систем, которые в настоящее время отличаются чрезвычайной сложностью, расширением круга решаемых задач и диапазоном эксплуатационного использования. Разрабатывается технология изучения сложных систем на основе численного вероятностного анализа (ЧВА), который представляет собой эффективный инструмент в условиях неопределенности и риска. Предметом ЧВА является решение различных задач со стохастическими неопределенностями в данных с использованием численных операций над плотностями вероятностей случайных величин и функций со случайными аргументами [2].
Гистограммный временной ряд, который представляет собой последовательность плотностей вероятности {кХ{} наблюдаемых во время t = 1, ..п где каждое распределение представляется в виде гистограммы {кХ1}. ГВР является удобным способом управления такого рода информацией, как одновременные и пространственные данные, особенно, если для каждого момента времени доступно огромное число наблюдений. Это интересный случай, который показывает, что в некоторых ситуациях, гистограммы удобнее, чем средние или итоговые значения. Для того чтобы прогнозировать гисто-граммные временные ряды, используем метод к-№Ы".
Ошибка меры гистограммных временных рядов
В классических временных рядах, точность меры основана на разнице между наблюдаемыми и прогнозируемыми значениями. Формула, определяющая точность меры:
= У - У
где У/; - является наблюдением;
У/; - прогнозируемое значение.
Однако, из-за сложности гистограмм, ГВР требуют иного подхода к количественной оценке различий между гистограммами. В плотности прогнозирования, в одном из подходов предложено использовать тесты, чтобы оценить, насколько плотность прогноза соответствует истинной плотности или не соответствует вообще [4]. Но этот подход не является полезным для точности измерений ГВР, так как он не подходит для количественного расхождения между двух плотностей.
Другой подход, Кульбака-Лейблера (KLIC) [5]. Несхожесть меры объективных значений, представляющих отклонение между плотностью, кажется более подходящими для точности измерений ГВР. Тем не менее, KLIC не подходит для ГВР.
Рассмотрим расстояние Wasserstein и Mallows [6], которые связаны между собой. С учетом двух функций плотности, fx) и g(x) на R, Wasserstein и Mallows расстояния между fx) и g(x) определятся по формуле:
Dw (f, g) = j] F -\t) - G -\t) ft
<
l
DM (f, g ) =
j( F-\t) - G -\t ))2dt
где F\t) и G_1(t) с t e [0, 1];
fx) и g(x) - обратные функции распределения.
Для ГВР предполагают следующие меры ошибки. Пусть {hXt} будет наблюдаемым ГВР, и пусть jhXt | будет прогноз этого ГВР, где t = 1, ..., n.
Средняя ошибка расстояния (MDE) определяется как:
i \ 1 п
MDE({hx }\hXt}) = - X D(hXt, hXt) n t=i
где D(hx , hx ) является Wasserstein или Mallows расстоянием.
Метод k-nearest neighbours к прогнозированию гистограммных временных рядов
В применении метода k-NN, для классических временных рядов, прогнозирование обычно вычисляется как среднее из последующих значений k-соседних последовательностей. Для того чтобы адаптировать метод k-NN, для ГВР, процедура усреднения может быть заменена оценкой барицентра (barycenter). Барицентр это момент, который минимизирует сложение квадратов Евклидовых расстояний между собой и частицами каждой системы, т.е. барицентр является средним значением координат частиц.
Учитывая это, в методе k-NN для прогнозирования ГВР, кажется разумным, заменить процесс усреднения получением барицентрической гистограммы, которая минимизирует добавление расстояний между собой и каждой из последующих гистограмм k-соседних последовательностей, обозначенных ,p = 1,...,к . Прогнозирование hx i будет оптимальным в том
смысле, что это будет решением:
arg min к
где D(hX , hX ) Mallows или Wasserstein расстояние hX является
n +1 Ip+1 IP+1
последующей гистограммой соседней последовательности h^ и юр вес,
'ip
к
присвоен на каждого соседа, и удовлетворяет юр > 0 и = 1. Если все
p=i
соседи имеют одинаковый вес, тогда ю = -1, Vp . Можно рассмотреть более
к
сложные схемы [3].
Заключение
В качестве примеров использования прогнозирования гистограммных временных рядов методом k-NN были рассмотрены [3] задачи в двух различных контекстах: метеорология и финансы. В первом примере ГВР создается пространственной агрегацией, и во втором, временной агрегацией. Функции полученных ГВР очень отличаются, но будет показано, что алгоритм k-NN выполняется хорошо в обоих случаях. В каждом примере, алгоритмы k-NN основанные на Mallows и Wasserstein расстоянии, были применены. Приведенный пример показывает, что применение гистограммных временных рядов с использованием метода k-NN позволяет поднять точность прогнозов и приводит к многообещающим результатам. Развитие предложенного метода может быть очень полезным в различных сферах человеческой деятельности. Поскольку ГВР находится на своих ранних стадиях, есть много возможностей для будущего исследования, в частности с использованием численного вероятностного анализа [2].
Список литературы:
1. Добронец Б.С., Попова О.А., Гистограммные временные ряды // Труды Х международной ФАМЭБ'2011 конференции. - 2011.
2. Добронец Б.С., Попова О. А. Численный вероятностный анализ для исследования систем в условиях неопределенности // Вестник Томского государственного университета. - 2012.
3. Javier Arroyo, Carlos Mate, Forecasting histogram time series with k-nearest neighbours methods // International Journal of Forecasting. - 2009. - № 25.
4. Diebold F.X., Gunther T.A., Tay A.S., Evaluating density forecasts with applications to financial risk management // International Economic Review. -1998.
5. Hall S.G., Mitchell J. Combining density forecasts // International Journal of Forecasting. - 2007.
6. Gibbs A.L., Su F.E. On choosing and bounding probability metrics // International Statistical Review. - 2002.
ФАКТОРЫ, ВЛИЯЮЩИЕ НА ВЫБОР МЕТОДА ИЛИ КОМБИНАЦИИ МЕТОДОВ ПРИ ОЦЕНКЕ РИСКОВ
© Тетянечко М.И.*
Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск
В работе рассмотрены методы оценки рисков и проведен сравнительный анализ каждого из них. Выявлены преимущества, а также и недостатки, которые можно устранить с помощью объединения двух или нескольких методов.
Ключевые слова Вероятностный анализ, p-box, предел достоверности, численный вероятностный метод (ЧВА), непараметрический подход.
Оценка риска - это совокупность аналитических мepoприятий, позволяющих спрогнозировать возможность получения дополнительного дохода или определенной величины ущерба от возникшей рисковой ситуации и несвоевременного принятия мер по предотвращению риска.
В последние годы возникало много разнообразных кризисов и противоречий, в том числе, касающихся безопасности пищевых продуктов, здоровья животных, экологических и экономических рисков. Это привело к признанию того, что оценка рисков должна стать более точной и адекватной рассматриваемой проблеме. Существует несколько подходов к оценке таких рисков. Среди них выделяются вероятностный, который полностью соответствует классическому определению понятия риска, и детерминированный.
Вероятностный подход позволяет учесть вариабельность распределения исходных данных и неопределенности [1], связанные с имеющимися ограничениями. Для оценки вероятностного риска используются распределения показателей (например, концентраций пестицида в воде и его токсичности
* Магистрант.