ВЕСТН. МОСК. УН-ТА. СЕР. 15. ВЫЧИСЛ. МАТЕМ. И КИВЕРН. 2024. № 2. С. 31-37 Lomonosov Computational Mathematics and Cybernetics Journal
УДК 519.246.2
В. Ю. Королев1, Сюй Ланьсяо2
РЕКОНСТРУКЦИЯ НЕИЗВЕСТНЫХ КОЭФФИЦИЕНТОВ СТОХАСТИЧЕСКИХ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ И ИНТЕЛЛЕКТУАЛЬНОЕ ПРОГНОЗИРОВАНИЕ СЛУЧАЙНЫХ ПРОЦЕССОВ С НАПРАВЛЕННЫМ ОБУЧЕНИЕМ*
Описан метод интеллектуального прогнозирования случайных процессов, основанный на более полном использовании информации о статистических закономерностях эволюции наблюдаемого процесса. В рамках предлагаемого подхода на этапе обучения прогнозирующего алгоритма признаковое пространство обогащается параметрами смешанных вероятностных моделей, позволяющих реконструировать коэффициенты стохастического дифференциального уравнения, описывающего исследуемый случайный процесс. Использование дополнительной статистической информации накладывает дополнительные условия на область поиска и потому сужает множество рассматриваемых вариантов и делает обучение направленным, заранее исключая невозможные или маловероятные варианты, и стало быть, позволяет сделать его более эффективным, а прогнозы — более точными.
Ключевые слова: временной ряд, стохастическое дифференциальное уравнение, смесь нормальных распределений, статистическое разделение смеси, прогнозирование.
Б01: 10.55959/М8и/0137-0782-15-2024-47-2-31-37
Данная заметка посвящена описанию метода интеллектуального прогнозирования случайных процессов, который основан на обогащении признакового пространства параметрами смешанных вероятностных моделей. Известно очень много подходов к расширению признакового пространства на этапе обучения интеллектуальных алгоритмов. Целью такого расширения является более полное использование исходной информации. Однако в большинстве случаев рекомендации носят искусственный (субъективный) характер. В данной заметке предлагается такой подход, который опирается на использование дополнительной объективной информации о статистических закономерностях эволюции наблюдаемого процесса. Использование дополнительной статистической информации по сути накладывает дополнительные условия на область поиска и потому позволяет сузить множество рассматриваемых вариантов и сделать обучение направленным, заранее исключая невозможные или маловероятные варианты, и стало быть, сделать его более эффективным, а прогнозы — более точными.
Во многих областях прикладной математики рассматриваются случайные процессы X (¿), задаваемые стохастическим дифференциальным уравнением вида
где W(t) — стандартный винеровский процесс. Коэффициенты a(t) и b(t) — случайны и, вообще говоря, неизвестны. В частности, уравнения вида (1) широко используются в задаче ассимиляции данных при анализе разномасштабной изменчивости геофизических переменных [1]. В финансовой математике популярны специальные версии уравнения (1). В частности, модель геометрического броуновского движения
dX (t) = a(t)dt + b(t)dW,
(1)
dX (t) = aX (t)dt + bX (t)dW,
1 Факультет BMK МГУ, проф., д.ф.-м.н., e-mail: vkorolevQcs.msu.ru
2 Факультет BMK МГУ, acn., e-mail: xulanxiaoQyandex.com
* Работа выполнена при финансовой поддержке РНФ, грант № 22-1Ю0212.
2
где а € М, Ь > 0. Известно много обобщений модели (2) с конкретными видами зависимости а и Ь от X(¿) и других случайных процессов, например, модели Леланда [2], Барлса-Сонера [3], Хестона [4], Кокса-Ингерсолла-Росса [5], Халла-Уайта [6] и другие так называемые модели стохастической волатильности (см. также [7-9]).
При отсутствии априорной информации о структуре процесса X (¿) для успешного изучения и прогнозирования его эволюции первостепенную важность приобретает задача определения коэффициентов а(£) и Ь(£), т.е. задача статистической реконструкции этих коэффициентов. Различным аспектам решения этой задачи посвящены многие десятки работ (см., например, [10-15] и дальнейшие ссылки в этих работах). Однако в большинстве работ, посвященных этой задаче, коэффициенты стохастического дифференциального уравнения (1) трактуются как известные функции от времени и самого процесса, зависящие от неизвестных числовых параметров.
Здесь же мы трактуем эти коэффициенты как неизвестные случайные процессы. В силу случайности этих функциональных коэффициентов задача их реконструкции допускает как минимум две разные формулировки: 1) можно пытаться найти (случайные же) приближения к значениям самих функций а(£) и Ь(£), т.е. найти их точечные аппроксимации и 2) можно пытаться найти (статистически оценить) распределения случайных величин а(£) и Ь(£). Во втором случае, зная какие-либо свойства этих коэффициентов, например, структуру их функциональной зависимости от исходного процесса X(¿) (скажем, как в моделях Леланда, Барлса-Сонера, Хестона, Кокса-Ингерсолла-Росса или Беляева и др.), можно найти оценки числовых параметров, входящих в эти модели.
Сначала рассмотрим вторую задачу. Пусть п ^ 1 и ¿о = 0 <¿1 < ... < ¿п — моменты времени, в которые наблюдается процесс X(¿). Для простоты предположим, что — ¿»_1 = 1 для любого г ^ 1. Обозначим XI = X(¿»), г = 1,... ,п. Таким образом, анализируется временной ряд XI,..., Xn. Поскольку приращения винеровского процесса имеют нормальные распределения, из вида уравнения (1) вытекает, что распределение приращения X» — X»— процесса X(¿) можно аппроксимировать распределением вида
Р(^ — X»— <х) « ВФ(, (3)
где Ф(х) — стандартная нормальная функция распределения,
то
Ф(х) = —= I е_у2х € М,
—то
А» € М и В» > 0 — случайные величины. В свою очередь, для распределений случайных величин А» и В», по отношению к которым берется математическое ожидание в (3), можно использовать дискретную аппроксимацию. Тогда вместо (3) для распределения приращения X» — X»— можно применить приближение вида конечной смеси нормальных распределений
к
Р(X» — X»—! < X « £Ркф(, (4)
к= 1 к
где К € N Рк ^ 0 к = 1,..., К, Р1 +... + рк = 1. Очевидно, параметры рк, а^ и Ьк зависят также от г и изменяются при переходе от ¿»к ¿»+1-
Для статистического оценивания параметров рк, а^ и Ьк можно использовать метод скользящего разделения смесей, описанный в [16]. Статистические закономерности поведения рассматриваемых процессов X(¿), а(£), Ь(£) изменяются во времени, вообще говоря, нерегулярным образом, результатом чего является отсутствие универсального смешивающего закона. Таким образом, чтобы изучить динамику изменения статистических закономерностей в поведении исследуемого процесса, задача статистического разделения конечных смесей нормальных законов должна быть последовательно решена на интервалах времени, постоянно сдвигающихся в направлении "астрономического" времени. Тем самым параметры смесей (параметры сдвига (дрейфа) ак, масштаба (диффузии) Ьк и веса компонент рк) оцениваются как функции времени.
Аппроксимация (4) позволяет осуществить декомпозицию волатильности процесса X(t) на "динамические" и "диффузионные" компоненты [16]. Динамические компоненты связаны с поведением коэффициента a(t) уравнения (1), тогда как диффузионные компоненты порождаются коэффициентом b(t).
Для решения задачи оценивания параметров сдвига (дрейфа) ak, масштаба (диффузии) bk и весов компонент pk на каждом окне как правило используется EM-алгоритм, реализующий метод максимального правдоподобия [16]. Но EM-алгоритм обладает несколькими недостатками (невысокое быстродействие, неустойчивость по исходным данным, необязательная глобальность найденного максимума и др.). Поэтому целесообразно применять иные методы оценивания pk ak bk
в каждое окно (отрезка временного ряда), как независимой однородной выборки, по которой строится эмпирическая функция распределения Ft,n(x). Здесь t — параметр, характеризующий положение (например, номер) окна, n — число наблюдений, попавших в окно ("ширина окна"). Затем решается задача минимизации какого-либо расстояния (например, равномерного, Ь\ или L2) между этой Ft,n(x) и смесью, стоящей в правой части (4), по параметрам а^ bk и pk■ Для этого можно использовать любую процедуру поиска экстремума из включенных в стандартные программы. Цель — добиться адекватности результата и быстродействия такого метода оценивания. Вместо указанных выше метрик можно использовать модули разностей между Ft,n(x) и смесью, стоящей в правой части (4), в каких-либо произвольно выбранных точках xi,..., хм, где M — произвольно выбираемое число, удовлетворяющее соотношению M ^ 3K — 1 (точек должно быть больше, чем оцениваемых параметров). Как показывает практика, точки x\,... ,xm имеет смысл выбирать так, чтобы
Ft,n(xr+i) — Ft,n(xr ) = Ft,n (xr ) — Ft,n(xr-i), r = 1,...,M — 1.
Также вместо указанной задачи можно минимизировать расстояние между плотностью смеси в правой части (4) и какой-либо эмпирической оценкой плотности.
Особо следует отметить, что выбор ширины окна определяется исследователем. Окно (в данном случае объем выборки, считающейся однородной) не должно быть слишком малым, чтобы содержать число наблюдений, обеспечивающее достаточную точность статистических процедур. С другой стороны, окно не должно быть слишком большим, чтобы итоговые выводы не были "пересглажены". Также очевидно, что ширина окна связана с горизонтом прогнозирования.
Первая из упомянутых выше задач может быть решена путем использования оценок распределений коэффициентов уравнения (1), полученных в результате решения второй задачи, для построения оценок самих коэффициентов. В качестве таких оценок берутся математическое ожидание и средиеквадратическое отклонение оцененного распределения:
K K
a(t) и a(t) = £pkak, b2(t) и b2(t) = J]pk(b\ + a\) — (a(t))2. (5)
k=i k=i
t ak bk pk
At = ti — ti-i = 1, то вместо оценок (5) надо использовать "масштабированные" оценки
KK Ata(t) = £ pk ak, At t (t) = pk (bk + ak ) — (a(t))2. k=i k=i
Такие оценки дают наилучший (минимизирующий среднеквадратический риск) прогноз значе-
a(t) b(t)
полупараметрические оценки коэффициентов являются более точными, нежели непараметрические оценки, получаемые по методу, который был применен при решении задач анализа процессов теплообмена между атмосферой и океаном в работах [18] и [19]. В указанных работах задача
a(t) b(t)
условных переходных вероятностей, сводящегося к усреднению "по пространству", что в ситуациях с нестационарной неопределенностью (в частности, в задачах финансовой математики) малоэффективно. Фактически во второй '-¡адаче предлагается подход, при котором сглаживание но пространству заменяется сглаживанием по времени (за счет интерпретации наблюдений, попадающих в окно, как однородной выборки). Как уже было отмечено, ширина окна не должна быть слишком малой, чтобы обеспечить приемлемую точность при решении задачи разделения смесей (определения оценок параметров смеси (4)). и не должна быть слишком большой, чтобы упомянутое выше сглаживание не стало чрезмерным и чреватым потерей информации о довольно быстрых изменениях исходного процесса. В связи с этим традиционные постановки задач статистического оценивания, связанные с исследованием состоятельности получаемых оценок, в которых подразумевается возможность неограниченного объема выборки, что в рассматриваемом случае эквивалентно неограниченному увеличению ширины окна, в определенном смысле противоречат цели достижения приемлемой точности реконструкции изменяющихся (возможно, довольно быстро) коэффициентов стохастического дифференциального уравнения (1).
Таким образом, в результате описанной выше реконструкции коэффициентов уравнения (1) в дополнение к исходному временному ряду Х\,..., Хп возникает (ЗА' — 1)-мерный временной ряд параметров смеси (4). оцененных на каждом окне. За счет этого дополнительного векторного временного ряда в большей степени учитывается информация о статистических закономерностях поведения исходного случайного процесса X(t). Эту информацию следует использовать для обогащения признакового пространства на этапе обучения прогнозирующего алгоритма. Например. векторной авто регрессии или нейронной сети. Для точного прогнозирования процесса X(t) но временному ряду Xi,...,Хп большое значение имеет правильный выбор архитектуры нейронной сети. Практика показывает, что лучшие результаты можно получить с помощью LSTM-нейронных сетей. В дополнение к (ЗА' — 1)-мерному (векторному) временному ряду параметров смеси (7) признаковое пространство можно еще более обогатить коэффициентами авторегрессионной м од ели. и од г о н я е м о й к временному ряду X j,..., X п на каждом окне. Тогда обучение прогнозирующего алгоритма будет в большей степени ориентировано на статистические закономерности поведения рассматриваемого процесса.
Возможны также и другие подходы к расширению признакового пространства без привлечения информации, являющейся "внешней" по отношению к исследуемому процессу. В частности, вместо (ЗА' — 1)-мерного дополнительного временного ряда параметров смешанной вероятностной модели (4) признаковое пространство можно пополнять двумя рядами реконструкций a(t) и b(t) коэффициентов a(t) и b(t) уравнения (1). которые, в свою очередь, можно пополнить рядами коэффициентов автогререссий. подгоняемых к процессам a(t) и b(t).
Рис. 1. Стержень ков ые графики: а - ■ динамических компонент вол гниль ногти (локальных трендов) и соответствующих весов, К = 3, ширина окна 150; б — диффузионных компонент волги ил lii ост и и соответствующих весов. К = 3, ширина окна 150
Рис. 2. Прогнои временного ряда с помощью ЬЙТМ. горизонт прогнозирования 1: а — беи обогащения признакового пространства; б........с обогащением признакового пространства
а б
Рис. Прогнои временного ряда с помощью ЬЙТМ. горизонт прогнозирования 2: а — без обогащения признакового пространства; б........с обогащением признакового пространства
Рис. '1. Прогноз временного ряда с помощью ЬЙТМ. горизонт прогнозирования 5: а — без обогащения признакового пространства; б........с обогащением признакового пространства
Рис. й. Прогноз временного ряда с помощью LSTM, горизонт прогнозирования 10: а — без обогащения признакового пространства; б с обогащением признакового пространства
Описанный метод был протестирован на временном ряде еженедельных розничных цен на бензин всех марок и всех составов в США (долларов за галлон) с апреля 1993 г. по август 1999 г. Для пополнения признакового пространства использовались ряды оценок параметров смеси (4). Графики, приведенные на рис. 1 5. иллюстрируют результаты применения описанного выше метода к указанному временному ряду.
На графиках отчетливо видно, что точность прогнозов на 1. 2. 5 и 10 шагов вперед заметно возрастает, если на этане обучения нейронной сети признаковое пространство обогащается параметрами смешанных вероятностных моделей.
СПИСОК ЛИТЕРАТУРЫ
1. В el у а е v К.. Kuleshov A.. Tuchkova N.. Tanajura C.A.S. An optimal data assimilation method and its application ro the numerical simulation of the ocean dynamics // Mathematical and Computer Modelling of Dynamical Systems. 2017. 24. N 1. P. 1 14.
2. L e 1 a n d H.E. Option pricing and replication with transactions costs // Л. Finance. 1985. 40. P. 1283 1301.
В а г 1 e 8 G.. S о n e г H.M. Option pricing with transaction coats and a nonlinear Black.....Scholes equation
//' Finance and Stochastics. 1998. 2. P. 369-397. 4. H e s t on S.L. A closed-form solution for options with stochastic volatility, with application to bond and
currency options // Review of Financial Studies. 1993. 6. P. 327-343. й. Cox .I.C.. Ingersoll .I.E.. II о s s S.A. A theory of the term structure of interest rates // Economctrica. 198й. 53. P. 38Й-407.
6. Hull Л.. W hire A. The pricing of options on assets with stochastic volatilities // .1. Finance. 1987. 42. P. 281-308.
7. D с г in an E.. К a n i .1. Riding on a smile //' Risk. 1994. 7. P. 32-39.
8. D up i re B. Pricing with a smile //' Risk. 1994. 7. P. 18—20.
9. Ширяев A.H. Основы стохастической финансовой математики. Т 1. Факты. Модели. М.: Фазис. 1998.
10. Yoshida N. Estimation for diffusion processes from discrete observation // .1. Multivariate Analysis. 1992. 41. P. 220 242.
11. Florens-Zmirou D. On estimating the diffusion coefficient from discrete observations // .1. Appl. Prohab. 1993. 30. N 4. P. 790-804.
12. Genon-Catalot, V.. Л а с о d -I. On the estimation of the diffusion coefficient for multi-dimensional diffusion processes // Annales de Г Institute Henri Poincare. Ser. B. 1993. 29. N 1. P. 119-151.
13. Genon-Catalot V.. .la с о d Л. Estimation of the diffusion coefficient for diffusion processes: random sampling //' Scandinavian Л. Statist. 1994. 21. N 3. P. 193- 221.
14. La in о игочх D.. L e h n e r t z K. Kernel-based regression of drift and diffusion coefficients of stochastic processes // Physics Letters A. 2009. 373. P. 3507-3512.
15. Wei С., Shu Н. Maximum likelihood estimation for the drift parameter in diffusion processes // Stochastics. 2016. 88. N 5. P. 699-710.
16. Королев В.Ю. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. М.: Изд-во Московского университета, 2011.
17. Belyaev К.P., Gorshenin А.К., Korolev V.Yu., О sip ova A. A. Comparison of statistical approaches for reconstructing random coefficients in the problem of stochastic modeling of air-sea heat flux increments // Mathematics. 2024. 12. N 2. Art. 288.
18. Беляев К.П., Королев В.Ю., Горшенин А.К., Антипов А.И., Имеев М.А., Кирюшки н II.II.. Лобовский М.А. Некоторые особенности внутригодовой изменчивости потоков тепла в Северной Атлантике // Известия РАН. Физика атмосферы и океана. 2021. 57. Вып. 6. С. 707720.
19. Беляев К.П., Горшенин А.К., Королев В.Ю., Плеханов А.Д. Статистический анализ внутри- и межгодовой изменчивости экстремальных значений явных и скрытых потоков тепла в Северной Атлантике за 1979-2021 гг. // Известия РАН. Физика атмосферы и океана. 2022. 58. Вып. 6. С. 720-736.
Поступила в редакцию 02.11.23 Одобрена после рецензирования 14.11.23 Принята к публикации 14.11.23