Научная статья на тему 'Применение метода k-nearest neighbours к представлению гистограммных временных рядов'

Применение метода k-nearest neighbours к представлению гистограммных временных рядов Текст научной статьи по специальности «Математика»

CC BY
143
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГИСТОГРАММНЫЕ ВРЕМЕННЫЕ РЯДЫ / МЕТОД K-NEAREST NEIGHBOURS / ЧИСЛЕННЫЙ ВЕРОЯТНОСТНЫЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Пяткова А. А.

В работе рассмотрено применение гистограммного временного ряда, который определяется как последовательность (ряд) плотностей вероятности, представленных в виде гистограмм. Приведены описания гистограммных временных рядов с применением метода k-Nearest Neighbours. Показано, что данный подход позволяет поднять точность прогнозов, и работает хорошо.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение метода k-nearest neighbours к представлению гистограммных временных рядов»

ПРИМЕНЕНИЕ МЕТОДА K-NEAREST NEIGHBOURS К ПРЕДСТАВЛЕНИЮ ГИСТОГРАММНЫХ ВРЕМЕННЫХ РЯДОВ

© Пяткова А.А.*

Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск

В работе рассмотрено применение гистограммного временного ряда, который определяется как последовательность (ряд) плотностей вероятности, представленных в виде гистограмм. Приведены описания гис-тограммных временных рядов с применением метода k-Nearest Neighbours. Показано, что данный подход позволяет поднять точность прогнозов, и работает хорошо.

Ключевые слова: гистограммные временные ряды, метод k-Nearest Neighbours, численный вероятностный анализ.

Введение

Временной ряд - это последовательность чисел; его элементы - это значения некоторого протекающего во времени процесса. Они измерены в последовательные моменты времени, обычно через равные промежутки.

Временные ряды представляют большую практическую важность и востребованность в различных сферах человеческой деятельности: прогнозирование погоды в метеорологии, анализ функционирования организма человека в биомедицине, прогноз ценовых рядов на финансовых и сырьевых рынках, корректная обработка результатов социологических опросов и др.

В статье рассматриваются гистограммные временные ряды с использованием метода k-Nearest Neighbours (k-NN). Возможность к прогнозированию и простота метода k-NN является подходящей к представлению гисто-граммных временных рядов. Другой сильной стороной метода k-NN является многосторонность: может быть применено к оценке плотности, классификации, функции приближения, и также к прогнозированию временного ряда.

Понятие гистограммного временного ряда

Использование гистограммных временных рядов обусловлено, прежде всего, тем, что они позволяют достаточно точно представлять произвольные распределения. Вторая причина - развитая арифметика для работы с гисто-граммными переменными [1]. В символическом анализе данных и Data Mining гистограммы используются для исследования множества различных процессов и применяются для описания изменчивости количественных признаков.

* Магистрант.

Понятие гистограммный временной ряд тесно связано с процессом построения гистограмм для временных рядов. Возможны несколько подходов. Каждый подход построения ГВР обусловлен целями исследования и спецификой исходной информации, которая, как правило, представляет собой числовой временной ряд, характеризующийся частотой и числом измерений [1].

Такие ряды возникают во многих приложениях, включая экономику, финансы, метеорологию и так далее, когда распределение значений действительно в каждый момент времени. В этих случаях, гистограммы представляют краткий анализ данных, который является более информативным, в отличие от других статистических вычислений таких, как вычисление среднего значения.

Для снижения сложности, привносимой в исследования группами факторов: первая группа характеризуется внутренней сложностью системы как таковой; вторая - внешней сложностью явлений и процессов, влияющих на систему и взаимодействующих с ней; третья - недостаточностью информации и знаний о предыстории процесса функционирования системы; четвертая группа факторов связана с разрабатываемыми и применяемыми технологиями анализа систем, которые в настоящее время отличаются чрезвычайной сложностью, расширением круга решаемых задач и диапазоном эксплуатационного использования. Разрабатывается технология изучения сложных систем на основе численного вероятностного анализа (ЧВА), который представляет собой эффективный инструмент в условиях неопределенности и риска. Предметом ЧВА является решение различных задач со стохастическими неопределенностями в данных с использованием численных операций над плотностями вероятностей случайных величин и функций со случайными аргументами [2].

Гистограммный временной ряд, который представляет собой последовательность плотностей вероятности {кХ{} наблюдаемых во время t = 1, ..п где каждое распределение представляется в виде гистограммы {кХ1}. ГВР является удобным способом управления такого рода информацией, как одновременные и пространственные данные, особенно, если для каждого момента времени доступно огромное число наблюдений. Это интересный случай, который показывает, что в некоторых ситуациях, гистограммы удобнее, чем средние или итоговые значения. Для того чтобы прогнозировать гисто-граммные временные ряды, используем метод к-№Ы".

Ошибка меры гистограммных временных рядов

В классических временных рядах, точность меры основана на разнице между наблюдаемыми и прогнозируемыми значениями. Формула, определяющая точность меры:

= У - У

где У/; - является наблюдением;

У/; - прогнозируемое значение.

Однако, из-за сложности гистограмм, ГВР требуют иного подхода к количественной оценке различий между гистограммами. В плотности прогнозирования, в одном из подходов предложено использовать тесты, чтобы оценить, насколько плотность прогноза соответствует истинной плотности или не соответствует вообще [4]. Но этот подход не является полезным для точности измерений ГВР, так как он не подходит для количественного расхождения между двух плотностей.

Другой подход, Кульбака-Лейблера (KLIC) [5]. Несхожесть меры объективных значений, представляющих отклонение между плотностью, кажется более подходящими для точности измерений ГВР. Тем не менее, KLIC не подходит для ГВР.

Рассмотрим расстояние Wasserstein и Mallows [6], которые связаны между собой. С учетом двух функций плотности, fx) и g(x) на R, Wasserstein и Mallows расстояния между fx) и g(x) определятся по формуле:

Dw (f, g) = j] F -\t) - G -\t) ft

<

l

DM (f, g ) =

j( F-\t) - G -\t ))2dt

где F\t) и G_1(t) с t e [0, 1];

fx) и g(x) - обратные функции распределения.

Для ГВР предполагают следующие меры ошибки. Пусть {hXt} будет наблюдаемым ГВР, и пусть jhXt | будет прогноз этого ГВР, где t = 1, ..., n.

Средняя ошибка расстояния (MDE) определяется как:

i \ 1 п

MDE({hx }\hXt}) = - X D(hXt, hXt) n t=i

где D(hx , hx ) является Wasserstein или Mallows расстоянием.

Метод k-nearest neighbours к прогнозированию гистограммных временных рядов

В применении метода k-NN, для классических временных рядов, прогнозирование обычно вычисляется как среднее из последующих значений k-соседних последовательностей. Для того чтобы адаптировать метод k-NN, для ГВР, процедура усреднения может быть заменена оценкой барицентра (barycenter). Барицентр это момент, который минимизирует сложение квадратов Евклидовых расстояний между собой и частицами каждой системы, т.е. барицентр является средним значением координат частиц.

Учитывая это, в методе k-NN для прогнозирования ГВР, кажется разумным, заменить процесс усреднения получением барицентрической гистограммы, которая минимизирует добавление расстояний между собой и каждой из последующих гистограмм k-соседних последовательностей, обозначенных ,p = 1,...,к . Прогнозирование hx i будет оптимальным в том

смысле, что это будет решением:

arg min к

где D(hX , hX ) Mallows или Wasserstein расстояние hX является

n +1 Ip+1 IP+1

последующей гистограммой соседней последовательности h^ и юр вес,

'ip

к

присвоен на каждого соседа, и удовлетворяет юр > 0 и = 1. Если все

p=i

соседи имеют одинаковый вес, тогда ю = -1, Vp . Можно рассмотреть более

к

сложные схемы [3].

Заключение

В качестве примеров использования прогнозирования гистограммных временных рядов методом k-NN были рассмотрены [3] задачи в двух различных контекстах: метеорология и финансы. В первом примере ГВР создается пространственной агрегацией, и во втором, временной агрегацией. Функции полученных ГВР очень отличаются, но будет показано, что алгоритм k-NN выполняется хорошо в обоих случаях. В каждом примере, алгоритмы k-NN основанные на Mallows и Wasserstein расстоянии, были применены. Приведенный пример показывает, что применение гистограммных временных рядов с использованием метода k-NN позволяет поднять точность прогнозов и приводит к многообещающим результатам. Развитие предложенного метода может быть очень полезным в различных сферах человеческой деятельности. Поскольку ГВР находится на своих ранних стадиях, есть много возможностей для будущего исследования, в частности с использованием численного вероятностного анализа [2].

Список литературы:

1. Добронец Б.С., Попова О.А., Гистограммные временные ряды // Труды Х международной ФАМЭБ'2011 конференции. - 2011.

2. Добронец Б.С., Попова О. А. Численный вероятностный анализ для исследования систем в условиях неопределенности // Вестник Томского государственного университета. - 2012.

3. Javier Arroyo, Carlos Mate, Forecasting histogram time series with k-nearest neighbours methods // International Journal of Forecasting. - 2009. - № 25.

4. Diebold F.X., Gunther T.A., Tay A.S., Evaluating density forecasts with applications to financial risk management // International Economic Review. -1998.

5. Hall S.G., Mitchell J. Combining density forecasts // International Journal of Forecasting. - 2007.

6. Gibbs A.L., Su F.E. On choosing and bounding probability metrics // International Statistical Review. - 2002.

ФАКТОРЫ, ВЛИЯЮЩИЕ НА ВЫБОР МЕТОДА ИЛИ КОМБИНАЦИИ МЕТОДОВ ПРИ ОЦЕНКЕ РИСКОВ

© Тетянечко М.И.*

Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск

В работе рассмотрены методы оценки рисков и проведен сравнительный анализ каждого из них. Выявлены преимущества, а также и недостатки, которые можно устранить с помощью объединения двух или нескольких методов.

Ключевые слова Вероятностный анализ, p-box, предел достоверности, численный вероятностный метод (ЧВА), непараметрический подход.

Оценка риска - это совокупность аналитических мepoприятий, позволяющих спрогнозировать возможность получения дополнительного дохода или определенной величины ущерба от возникшей рисковой ситуации и несвоевременного принятия мер по предотвращению риска.

В последние годы возникало много разнообразных кризисов и противоречий, в том числе, касающихся безопасности пищевых продуктов, здоровья животных, экологических и экономических рисков. Это привело к признанию того, что оценка рисков должна стать более точной и адекватной рассматриваемой проблеме. Существует несколько подходов к оценке таких рисков. Среди них выделяются вероятностный, который полностью соответствует классическому определению понятия риска, и детерминированный.

Вероятностный подход позволяет учесть вариабельность распределения исходных данных и неопределенности [1], связанные с имеющимися ограничениями. Для оценки вероятностного риска используются распределения показателей (например, концентраций пестицида в воде и его токсичности

* Магистрант.

i Надоели баннеры? Вы всегда можете отключить рекламу.