УДК 519.242.33
Ю. Н. Орлов, С. Л. Федоров Институт прикладной математики им. М.В. Келдыша РАН
Генерация нестационарных траекторий временного ряда на основе уравнения Фоккера—Планка
Разработан метод генерации ансамбля траекторий нестационарного временного ряда, выборочные плотности распределения которого эволюционируют в соответствии с уравнением Фоккера-Планка. Параметры сноса и диффузии в этом уравнении оцениваются по фактическим выборкам фрагментов временного ряда. Построен численный алгоритм, позволяющий тестировать функционал распознавания локального состояния временного ряда для оптимизации решающего правила в условиях нестационарных вероятностей состояний.
Ключевые слова: нестационарный временной ряд, моделирование траекторий, тестирование решающей функции.
Y. N. Orlow, S. L. Fedorov
Keldysh Institute of Applied Mathematics
Nonstationary time series trajectories generation on the basis of the Fokker-Planck equation
The method of nonstationary timeseries trajectory generation is proposed in accordance with the Fokker-Plank equation for the empirical distribution function density. Trend and diffusion parameters are estimated on timeseries samples. The numerical algorithm for pattern recognition functional testing in the nonstationary probability conditions is constructed.
Key words: nonstationary timeseries, trajectories modeling, pattern recognition functional testing.
1. Введение
В работе излагается методика тестирования функционала управления, заданного на траектории нестационарного случайного процесса. Такая задача возникает при построении алгоритма распознавания, к которой сводятся многие задачи прикладного статистического анализа [1]. Часто оказывается, что, когда изучаемая система, представляемая в виде временного ряда, находится в том или ином состоянии, измеряемые значения случайной величины, через которые и проявляется это состояние, имеют характерные именно для этого состояния функции распределения. Тогда идентификация состояния формулируется как задача распознавания выборочной функции распределения (ВФР). Задача распознавания ВФР как принадлежащей определенной генеральной совокупности решается в статистике либо путем оценивания значений параметров распределения известного функционального вида, либо в рамках непараметрического подхода, когда используется критерий Колмогорова-Смирнова. Большое количество критериев применительно к задачам распознавания собрано в монографии [2]. Однако применение классических критериев корректно только в стационарном случае, когда есть оценки скорости сходимости выборочных распределений к генеральной совокупности. Если функция распределения нестационарна, то обучение алгоритма распознавания на прошлых данных часто оказывается несостоятельным. В таком случае для более надежного распознавания надо тестировать решающую функцию на нестационарных временных рядах. Например, при разработке биржевой торговой
стратегии тестируется решающая функция распознавания текущей ситуации как «благоприятной» для входа в рынок в соответствии с некоторым априорным представлением о том, что такое «благоприятная ситуация». Но по факту для тестирования имеется только одна траектория, которая в силу нестационарности не позволяет использовать достаточно большой объем выборки. В результате возникает необходимость тестирования тех или иных индикаторов локального поведения временного ряда с целью оценки вероятности их правильного срабатывания.
Индикаторы представляют собой определенные функционалы, заданные на фрагментах траектории случайного процесса [3-5]. Чтобы оценить эмпирическую условную вероятность того, что определенный интервал значений индикатора отвечает ожидаемому исследователем поведению ряда в настоящем или будущем, нужно иметь много реализаций изучаемого процесса. Для этого требуется сгенерировать пучок возможных траекторий временного ряда, выборочная функция распределения которого эволюционирует определенным образом, и проверить на нем устойчивость срабатывания индикатора.
В настоящей работе в качестве модельного уравнения для описания эволюции нестационарных распределений используется уравнение Фоккера-Планка относительно выборочной плотности функции распределения (далее ВПФР) временного ряда. Подход к моделированию нестационарных траекторий на основе решения кинетического уравнения относительно ВПФР был предложен в [6], где в качестве такого уравнения использовалось уравнение Лиувилля. В работе [7] было обосновано уравнение Фоккера-Планка для ВПФР нестационарного временного ряда. Тем самым стало возможным корректное моделирование ансамбля траекторий временного ряда с помощью уравнения типа диффузии со сносом.
2. Генерация нестационарных траекторий
Будем для удобства нормировки считать, что изучаемая случайная величина равномерно ограничена по времени, так что все ее значения принадлежат отрезку [0; 1].
Пусть х(Ь) есть значение случайной величины в дискретный момент времени ¿, где шаг по времени считается единичным, а ¡т(х,Ь) есть ВПФР выборки длины Т с окончанием в момент времени ¿, т.е. выборки фрагмента ряда х(Т — £ + 1),..., х(Ъ).
Выборочная плотность строится по равномерному разбиению гистограммы в соответствии с методикой, описанной в [8], при котором статистическая неопределенность в часто-
1
тах равна точности, с которой значения ряда различаются одно от другого, т.е. —, где п
п
есть число классовых интервалов.
Число классовых интервалов п в зависимости от длины выборки Т и конкретной получающейся формы распределения определяется численно как решение уравнения
уДт)
П=1>/!т (¿)(1 — Ш)
= пЪл
(1)
где ¿-г есть квантиль распределения Стьюдента порядка 1--с Т — 1 степенью свобо-
1 2п 2п
ды. По кусочно-непрерывной гистограмме ВПФР ¡т(х, ¿) можно построить непрерывную функцию распределения:
г-х
Рт(х,1)= Ь(уЛ1у. Jo
Поскольку гистограмма ВПФР имеет вид
~3 — 1 3
/ (х) = Д, хе
3 '
п п
то соответствующая ВФР определяется формулой
3
,3 = 1,
,п,
^(х) = (пх — э)!з+1 + Д, хе
к= 1
3 — 1 3_
п ' п
,3 = 1,...,п.
(2)
(3)
1
Чтобы имитировать процесс, близкий к реальным наблюдениям, например, за динамикой цен на бирже на какой-либо финансовый инструмент (цена акции, индекс набора ценных бумаг, курс валюты и т.п.), предлагается следующая схема действий. На первом этапе по имеющимся историческим данным строятся выборочные распределения приростов х(Ь) цен на этот инструмент за тот промежуток времени Т, который представляет интерес. Например, строятся распределения приростов цен закрытия с определенным интервалом по времени (минута, 5 минут и т.п.) для какого-нибудь инструмента за два соседних месяца по скользящей выборке длиной в месяц. Тем самым в каждый момент времени определена ВПФР ¡т(х,Ь) (2) эквидистантных приростов и соответствующая ей Рт(х,Ь) согласно (3). Затем генерируется стационарный равномерно распределенный на [0; 1] ряд чисел {ук} длиной Т. Пусть ¿о есть начальный момент времени, в который ВПФР ¡т(х,^) известна. Тогда в последующие моменты времени одна из возможных траекторий случайного процесса, для которого ВПФР меняется от /т(х,10) до /т(х,Ь + Т), строится по формуле обращения соответствующей локальной по времени функции распределения, движущейся в скользящем окне длины Т:
Ук = РТ (хк,Ь + к). (4)
Подчеркнем, что, согласно (4), в каждый момент времени £ из распределения Рт(х, Ь) генерируется только одно значение ряда. Сама же Рт(х, Ь) выступает в этот момент времени как генеральная совокупность. Тем самым имитируется процесс наблюдения за динамикой нестационарного временного ряда.
Задавая различные равномерно распределенные ряды {ук,,] = 1,..., Ы, можно получить пучок из N траекторий, ассоциированных с двумя ВПФР: ¡т(х, Ь) и ¡т(х, ¿о + Т), согласно наблюдаемой эволюции этих распределений. Каждая -я траектория из набора траекторий построенного пучка порождает на отрезке [¿0 + 1, ¿0 + Т] ВПФР ft({y}j;х, ¿0 + Т), отличную, вообще говоря, от наблюденной ¡т(х, ¿0 +Т). Однако по построению все эти выборочные траектории являются реализациями одного и того же нестационарного распределения вероятностей.
По совокупности сгенерированных траекторий можно оценить, насколько значимо отклонение модельного и фактического распределений. Используем для этого расстояние между функциями распределения в норме С:
Р= \\Рт({у},;х, ¿0 +т) -Рт(х, и + т)||. (5)
Рассмотрим также все попарные расстояния между ВПФР для сгенерированных траекторий:
Р = \\Рт ({у}, ;х, ¿0 + т) -Рт ({у1 Ъ- ;ж, ¿0 + т)\\. (6)
Если бы распределения Рт(х, ¿) были стационарны, то расстояния (6) подчинялись бы статистике Колмогорова-Смирнова: Р {р^^ < г} ^ К (г), Т ^ то, где К (г) - функция Колмогорова [9]. В нашем случае этот критерий неприменим из-за нестационарности процесса, и для оценки близости между распределениями используется следующая процедура [10].
На первом этапе анализируется статистика расстояний между так называемыми встык-выборками, т.е. между ВФР Рт(х, Ь) и Рт(х,Ь + Т), сдвинутыми одна относительно другой на величину окна выборки:
р(Т ;1) = \\РТ (х,1 -РТ (х,1 + Т)\\. (7)
По имеющимся историческим данным строится функция распределения С(р, ¿) расстояний (7), которая представляет эмпирическую вероятность того, что расстояние между распределениями не больше р. Определим далее согласованный уровень стационарности (СУС) р*(Т) так, что соответствующее расстояние равно значимости критерия, т.е. является решением уравнения
С(р,Т ) = 1 -р. (8)
В стационарном случае уравнение (8) переходит в уравнение
К (е ]/12) = 1 — £, (9)
которое определяет функцию е(Т), обладающую тем свойством, что при проведении бесконечно большого числа экспериментов по вычислению расстояний между двумя выборочными распределениями длины Т в доле е случаев будет наблюдаться превышение расстояния,
Р*
равного е. Если оказалось, что для некоторой длины Т выборки отношение — больше единицы, то ряд нестационарный. Величина
^ (Т) = (10)
называется индексом нестационарности ряда [5]. Если же на некоторых длинах выборки величина ■](Т) < 1, то ряд стационарный, и тогда можно считать, что его выборочные распределения не эволюционируют.
Для реального применения кинетического уравнения к описанию эволюции ВПФР следует определить такие длины, на которых .](Т) > 1. Во многих практических случаях [5, 10] зависимость .](Т) имеет четко выраженный локальный максимум, а на больших длинах ряды часто оказываются стационарными. Тогда интерес представляет моделирование ансамбля траекторий на длинах выборок с максимальным индексом нестационарности.
В результате моделирования по формуле (4) получается ансамбль траекторий временного ряда, который обладает следующими свойствами. Во-первых, СУС расстояний (5) приближенно равен СУС расстояний (6). Во-вторых, если сравнить сгенерированные выборки в окне [¿о + 1, ¿о + Т] с исходной ВФР Рт(х, ¿о), то соответствующий СУС будет приблизительно равным р*(Т) в соответствии с (8).
Описанный подход позволяет построить численный алгоритм моделирования нестационарного временного ряда с определенными непараметрическими свойствами его ВПФР, эволюционирующей в соответствии с уравнением Фоккера-Планка (или иным модельным уравнением, которое описывает эволюцию ВПФР рассматриваемого ряда).
3. Эволюция выборочной плотности распределения
Считаем, что анализ индекса нестационарности позволил определить длину Т выборки, по которой строится ВПФР /т(х, £), так что далее эта длина фиксирована. В том же окне длины Т строим совместную плотность распределений Фт (х, V, Ь) значений временного ряда х(1) и его приращений и(1) = х(1 + 1) — х(1). При этом справедлива формула
/(х, I) = ! 1 Фт(х,и, г)с1и, (11)
где в пределах интегрирования учтено, что х € [0;1], так что V € [—1;1]. В качестве модельного уравнения эволюции используем уравнение Фоккера-Планка относительно ВПФР /т (х, ■£):
% + I^) — IШ = 0 (12)
где параметры сноса (средняя скорость и(х, ¿)) и диффузии \{Ъ) определяются формулами [8]:
и(х, г) = 1 I Рт(х,и, г)(1и,
!т(Х, £ и (13)
Х(ь) = —2со°2(1) = ^0>(х — х)2&(х, ь)г1х.
В [7] доказано утверждение о том, что оценка величины Л по выборке длины Т в соответствии с дискретными аналогами дисперсии и ковариации имеет вид
1 4 1
Л(^ = ^ Е (х(к) — х(к + 1))2 - ^ (х^ + 1) -Т + 1)) (14)
к=-Т+1
и при Т > 1 строго положительна. Параметр сноса и(х, Ь) определяется согласно (13).
Заметим теперь, что величины Л(Ь) и и(х, ¿) формально определяются по будущим значениям ряда относительно текущего времени ¿, поэтому в уравнении (12) они, строго говоря, неизвестны, и для них также надо написать уравнения эволюции. В [10,11] представлены некоторые варианты таких уравнений, но на практике достаточно хорошие результаты прогнозирования получаются в простейшей модели, когда указанные параметры берутся с предыдущего шага по времени. Тогда дискретная форма записи уравнения Фоккера-Планка (12) с явной разностной схемой для эволюции по времени с единичным шагом и
шаблоном левой разностной производной по пространству с шагом к = -, где п опре-
100п
деляется в (1), имеет вид
/т (X, * + 1) = /т (х, I) + /т (х, *)и(х,* - 1 - /т(Х + 1, *)и(х + М - 1 +
ха-1) к (15)
+ (/т(Х + 2,Ь) - 2/т(Х + 1, Ь) + /т(Х,Ь)).
Здесь, однако, следует учесть, что явные схемы при решении уравнений диффузионного типа неустойчивы, в связи с чем они имеют сравнительно малый горизонт прогнозирования. Для повышения устойчивости мы далее использовали схему, в которой, во-первых, каждый классовый интервал разбит еще на 100 ячеек (с учетом равномерности в них, по построению, выборочной плотности), и, во-вторых, аппроксимация второй производной делается в леворазностном шаблоне, в котором значение функции в ячейке х берется со следующего шага по времени. Описанная процедура приводит к разностному уравнению (для краткости нижний индекс Т опущен):
/(X + 1, *) = /Т(X, *) + (х,Ь)и(х,* - 1 - к(х + 1,1)и(х + М - 1 + +^^(2^Х - 1, *) - ;^í + 1) (Х - 2, *)). Разрешая его относительно ¡'(х,Ь + 1), получаем схему расчета:
г (х, I (х, t)и(x, 1 - 1) - (х + ^ 1)и(х + 1,г - 1) I
дм + 1) = ¡т(х, +-к х(I -1)-+
+ 2к2 к + 2к (16)
+ Щ(1)%Ъ2 Ш (Х - 1, $ - ЛХ, 1 + 1) - - 2,1)).
Одновременно с пошаговым решением уравнения (12) по схеме (16), когда величины Л(Ь) и и(х, Ь) пересчитываются на каждом шаге по времени по формулам (13), строится и ансамбль соответствующих траекторий согласно методике п. 2.
4. Тестирование на ансамбле нестационарных траекторий
Описанная методика представляет собой инструмент, позволяющий тестировать функционалы, заданные на случайной траектории, не по единственной ее реализации, а по набору траекторий, имеющих близкие статистические свойства. Сам процесс тестирования функционала состоит в следующем.
Пусть на выборке длины Т задан некоторый функционал Ф{х(Ь — Т + 1),..., х(Ь)}. Это может быть, например, статистика в виде скользящей средней, а может быть и некоторая сложная конструкция в виде управления другой случайной траекторией. Последняя задача наиболее востребована при анализе торговых стратегий, оперирующих с биржевыми рядами.
При тестировании функционала Ф требуется определить, во-первых, его статистические свойства на выборках, отвечающих данной модели эволюции ВПФР, и, во-вторых, изучить устойчивость функционала при изменении параметров уравнения эволюции или при разладке динамики ВПФР.
Первая задача решается следующим образом. Пусть выбран интересующий нас фрагмент временного ряда и на нем построен пучок виртуальных траекторий числом N. Обозначим Ф ^ значение функционала на ]-й траектории. Его статистические свойства полностью определяются выборочным распределением, которое строится по имеющимся N значениям на траекториях. В частности, можно определить среднее, дисперсию, нормированное среднее (коэффициент Шарпа):
1 и 1 и Ф
Ф = N £ ф, = N Е(Ф — ф)2, = ^, (17)
3 = 1 3 = 1
а также выборочные моду, медиану, меньшие квантили и тому подобные величины.
Формула (17) дает корректный ответ на вопрос, какова, например, средняя доходность торговой системы на определенном промежутке времени. На практике может не быть достаточного количества данных, чтобы доходность, построенная по единственной реализации, могла быть достаточно полно протестирована на независимых встык-выборках. Управляющий функционал следует оптимизировать не на одной фактической длинной траектории, уходящей в прошлое, которое в силу нестационарности процесса потеряло актуальность в настоящем, а на пучке относительно небольших выборок, которые отвечают текущим свойствам ряда.
Вторая задача решается посредством вариации параметров уравнения Фоккера-Планка, в результате которой тренд и(х, Ь) и диффузия Х(Ь) меняются определенным образом. Вычисляя статистику (17) функционала управления на новых траекториях, можно определить допустимые пределы, внутри которых управление устойчиво. Чувствительность функционала определяется как его логарифмическая производная по параметру, например:
д 1пФ , Л
Л* = дых ■ (18)
Задавая допустимые границы вариации (18), можно в численном эксперименте получить допустимые границы вариации параметров уравнения Фоккера-Планка, т.е. выяснить, предположим, при какой предельной волатильности торговая стратегия на бирже имеет положительное математическое ожидание (17).
5. Заключение
Итак, в работе описан метод генерации траекторий нестационарных временных рядов, имитирующий временной ряд, возникающий на практике в процессе наблюдения за случайной величиной, распределение которой не является стационарным. Моделирование ряда основано на решении эмпирического уравнения Фоккера-Планка, что позволяет задавать скользящее среднее, дисперсию, размах и аналогичные величины изменяющимися во времени в соответствии с требованиями статистического эксперимента, причем выборочные распределения остаются в классе распределений, характерных для данного ряда.
Описанный метод позволяет тестировать индикаторы-предикторы изменения какого-либо свойства временного ряда и функционалы распознавания состояний ряда в широком диапазоне изменения его выборочных статистик. К его достоинствам следует отнести
то, что он позволяет провести стресс-тест на работоспособность индикатора в пределах, контролируемых исследователем. Исторический же ряд данных не предоставляет таких возможностей. Кроме того, для квалифицированного тестирования ряд прошлых данных требует предварительного выявления интересных ситуаций, кластеризации их, определения ошибок при кластеризации, что весьма трудоемко и не дает полного представления об имеющихся локальных паттернах ряда. Таким образом, численный код, генерирующий по фрагменту траектории нестационарного ряда ансамбль его нестационарных же реализаций, представляет практическую важность.
Теоретический аспект исследования состоит в использовании согласованного уровня стационарности ряда, что позволило формализовать точность оценки нестационарной ВФР и выбрать адекватный уровень значимости критерия близости распределений. Если задать уровень значимости априори, то может оказаться, что ряд на выборке данного объема не способен в среднем удовлетворить критерию, что приведет к ошибочному отклонению верной гипотезы.
Представляется важным с помощью построенного метода провести оптимизацию решающих правил, распознающих локальные состояния (паттерны) временных рядов.
Литература
1. Вапник В.М., Червоненкис А.Я. Теория распознавания образов. М.: Наука, 1974.
2. Кобзарь А.И. Прикладная статистика. М.: Физматлит, 2006.
3. Орлов Ю.Н., Шагов Д.О. Индикативные статистики для нестационарных временных рядов // Препринты ИПМ им. М.В. Келдыша. 2011. № 53. С. 1-20.
4. Орлов Ю.Н., Федоров С.Л., Давидько В.А. К вопросу классификации нестационарных временных рядов: состав индекса РТС // Препринты ИПМ им. М.В. Келдыша. 2014. № 54. С. 1-18.
5. Орлов Ю.Н., Федоров С.Л. Моделирование и статистический анализ функционалов, заданных на выборках из нестационарного временного ряда // Препринты ИПМ им. М.В. Келдыша. 2014. № 43. С. 1-26.
6. Босов А.Д., Кальметьев Р.Ш., Орлов Ю.Н. Моделирование нестационарного временного ряда с заданными свойствами выборочного распределения // Математическое моделирование. 2014. № 3. С. 97-107.
7. Босов А.Д., Орлов Ю.Н. Эмпирическое уравнение Фоккера-Планка для прогнозирования нестационарных временных рядов // Препринты ИПМ им. М.В. Келдыша. 2013. № 3. С. 1-30.
8. Орлов Ю.Н. Оптимальное разбиение гистограммы для оценивания выборочной плотности распределения нестационарного временного ряда // Препринты ИПМ им. М.В. Келдыша. 2013. № 14. С. 1-26.
9. Королюк В.С., Портенко Н.И., Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. М.: Наука, 1985.
10. Орлов Ю.Н. Кинетические методы исследования нестационарных временных рядов. М.: МФТИ, 2014.
11. Орлов Ю.Н., Осминин К.П. Нестационарные временные ряды: методы прогнозирования с примерами анализа финансовых и сырьевых рынков. М.: Эдиториал УРСС, 2011.
References
1. Vapnik V.M., Chervonenkis A.Ya. Pattern recognition theory. M.: Nauka, 1974. (in Russian).
2. Kobzar A.I. Applied statistics. M.: Fizmatlit, 2006. (in Russian).
3. Orlov Yu.N., Shagov D.O. Indicative statistics for non-stationary time series. Keldysh Institute preprints. 2011. N 53. P. 1-20. (in Russian).
4. Orlov Yu.N., Fedorov S.L., Davidko V.A. To the classification of non-stationary time series: RTS index composition. Keldysh Institute preprints. 2014. N 54. P. 1-18. (in Russian).
5. Orlov Yu.N., Fedorov S.L. Modeling and statistical analysis of functional, defining on the sampling from non-stationary time series. Keldysh Institute preprints. 2014. N 43. P. 1-26. (in Russian).
6. Bosov A.D., Kalmetev R.Sh., Orlov Yu.N. Simulation of non-stationary time series with the specified properties of the sampling distribution. Matematicheskoe modelirovanie. 2014. N 3. P. 97-107. (in Russian).
7. Bosov A.D., Orlov Yu.N. Empirical Fokker-Planck equation for the prediction of non-stationary time series. Keldysh Institute preprints. 2013. N 3. P. 1-30. (in Russian).
8. Orlov Yu.N. Optimal histogram interval for non-stationary time-series distribution function density estimation. Keldysh Institute preprints. 2013. N 3. P. 1-26. (in Russian).
9. Korolyuk V.S., Portenko N.I., Skorohod A.V., Turbin A.F. In probability theory and mathematical statistics reference. M.: Nauka, 1985. (in Russian).
10. Orlov Yu.N. Kinetic methods for studying non-stationary time series. M.: MIPT, 2014. (in Russian).
11. Orlov Yu.N., Osminin K.P. Non-stationary time series: recognition techniques with examples of financial and commodity markets. M.: Editorial URSS, 2011.
Поступила в редакцию 22.04.2016