i i v v v
Нейронные сети долгой краткосрочной памяти и их использование для моделирования финансовых временных рядов
Лабусов Максим Владимирович
аспирант, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации», [email protected]
Основной целью, поставленной перед началом работы, была оценка возможностей использования нейронных сетей долгой краткосрочной памяти в качестве эффективного инструментария для исследования финансовых временных рядов. В работе рассматриваются фундаментальные основы нейронных сетей долгой краткосрочной памяти ^ТМ - сети) и анализируется практика применения таких сетей для изучения финансовых данных в виде временных рядов. В начале статьи описывается архитектура LSTM - сети и ряда альтернативных нейронных сетей, а также приводятся основные направления их использования. Затем делается обзор преимуществ и недостатков каждой из представленных нейронных сетей. В продолжение работы изучаются результаты работы представленных сетей с финансовыми временными рядами. В заключении делается вывод по итогам проведенного исследования и определяются возможные варианты модификации LSTM -сетей для повышения качества получаемых результатов моделирования и прогнозов по финансовым данным. Ключевые слова: искусственный интеллект в финансах; нейронная сеть долгой краткосрочной памяти ^ТМ - сеть); многослойный персептрон; нейронная сеть радиальных базисных функций; финансовые временные ряды; финансовое моделирование.
На сегодняшний день технологии искусственного интеллекта всё чаще применяются для исследования финансовых данных. В отличие от традиционных эко-нометрических моделей они способны «обучаться» на исходных данных посредством многократных итераций, что ведет к снижению ошибки моделирования. Многие из таких алгоритмов являются непараметрическими, что упрощает процесс их практической реализации и избавляет исследователя от необходимости вводить какие-либо допущения при построении соответствующих моделей. Дополнительным преимуществом использования алгоритмов машинного обучения при работе с финансовыми данными является способность таких алгоритмов точнее выявлять нелинейную структуру временных рядов, представляющих эти данные [1,2,3].
В данной работе были исследованы нейронные сети - одна из наиболее распространенных технологий искусственного интеллекта, применяющаяся для изучения финансовых временных рядов. В качестве основополагающей модели сети была выбрана нейронная сеть долгой краткосрочной памяти. На данный момент эта нейронная сеть ввиду специфичной архитектуры не так широко применяется для моделирования финансовых временных рядов. При этом с её помощью можно получать более точные результаты и делать устойчивые прогнозы будущих значений данных. Для сравнения с ней в работе были рассмотрены 2 другие нейронные сети, которые чаще используются при изучении финансовой информации - нейронная сеть многослойного персептрона и нейронная сеть радиальных базисных функций.
Нейронная сеть долгосрочной краткосрочной памяти ^ТМ) была разработана С. Хохрайтером и Ю. Шмидхубером в 1997 г. Она представляет собой рекуррентную нейронную сеть, обучаемую на основе принципа обратного распространения ошибки. LSTM - сеть хранит информацию, полученную по результатам распознавания структур (паттернов) данных и их последующего анализа. Её архитектура представляет собой последовательную модель, аргументами которой являются состояния и элементы.
Особенность архитектуры этой сети заключается в том, что в слоях этой сети находятся не нейроны, а т.н. «блоки памяти». В каждом таком блоке содержатся элементы, которые регулируют его состояние и отклик. Их можно классифицировать следующим образом:
1) Элемент «забывания», определяющий, какую информацию необходимо удалить из блока;
2) Входной элемент, определяющий, какая входная информация будет использована для обновления памяти;
X X
о
го А с.
X
го т
о
2 О
м о
3) Выходной элемент, определяющий содержание выходной информации как результат обработки входной информации в блоке памяти.
о
CS
о
CS
со
о ш m
X
3
<
m о х
X
Рис. 1. Архитектура нейронной сети долгосрчоной крат-кочрочной памяти
Источник: Wei, Li. Multi-Channel LSTM with Different Time Scales for
Foreign Exchange Rate Prediction //International conference on Advanced Information Science and System. 2019. Примечание: Wi -весовые коэффициенты; xt - входная информация в момент времени t; ht - выходная информация в момент времени t; ct - состояние в момент времени t; N - нейрон;
a, tanh - функции активации (сигмоида и гиперболический тангенс)
Рис. 2. Пример блока нейронной сети долгосрочной краткосрочной памяти
Источник: Alonso-Monsalve, Suarez-Cetrulo, Cervantes, Quintana. Convolution on Neural Networks for High-Frequency Trend Prediction of Cryptocurrency Exchange Rates Using Technical Indicators
// Expert Systems with Applications. 2020. №149. p.4. Примечание: xt - входная информация в момент времени t; ht - выходная информация в момент времени t; g - функция активации
Наличие этих элементов позволяет LSTM - сети решать задачу распознавания краткосрочных и долгосрочных тенденций, присутствующих в данных [4]. Элемент «забывания» определяет информацию, которую необходимо оставить в долгосрочной памяти; входной элемент отвечает за поиск информации, которую можно добавить в долгосрочную память, а с помощью выходного элемента подсчитывается объем информации, являющийся результатом работы нейронной сети. В отличие от типовых рекуррентных
нейронных сетей при проведении обучения LSTM -сети исследователь не сталкивается с проблемами, присущими обучению таких рекуррентных нейронных сетей [5,6]. Сущность обучения LSTM - сети состоит в том, что каждый из описанных элементов имеет определенный вес, значение которого подвергается корректировке вследствие применения механизма обратного распространения ошибки. В результате проведения корректировки весов сеть становится способной запоминать большие последовательности данных и точно моделировать их, а также давать адекватные прогнозы будущих значений последовательности.
Процедура обучения нейронной сети проводится в 3 этапа. На 1 этапе в каждом слое определяется, какая информация должна быть удалена из блока памяти в его предыдущем состоянии st-1. Значения функции активации в момент времени 1 вычисляются на основе текущей входной информации х^ выходной информации в предыдущий момент времени 1ы и свободного члена Ь. Во входном элементе сети используются 2 функции активации - сигмоида и гиперболический тангенс. Сигмоида применяется для определения тех значений, которые будут обновлены. Гиперболический тангенс используется в процессе создания нового вектора значений, который будет храниться в блоке памяти.
На 2 этапе определяется, какая информация должна быть добавлена в блок памяти. При этом сначала выделяется новая информация, которая может быть добавлена в блок памяти, а затем рассчитываются значения функции активации.
На 3 этапе вычисляются новые значения информации в блоках памяти на основе информации, полученной по итогам 2 предыдущих этапов. На заключительном 4 этапе определяются выходные значения информации из блоков памяти. В ряде современных статей приводится более детальное описание LSTM - сетей и принципов их работы [7,8].
Нейронные сети долгосрочной краткосрочной памяти применяются для решения таких задач как:
1) Распознавание рукописного текста [9];
2) Прогнозирование валютных пар и криптовалют [10, 4];
3) Прогнозирование доходности акций и фондовых индексов [11,12].
В качестве нейронной сети, являющейся одной из альтернатив LSTM - сети, рассматривается нейронная сеть радиальных базисных функций. Она представляет собой стандартную рекуррентную нейронную сеть, в которой в качестве функций активации выступают т.н. радиальные базисные функции. Радиальная базисная функция имеет следующий вид:
Г№= Ф Ох - вектор входных сигналов нейрона; а - ширина окна функции; ф (у) - некоторая убывающая функция Типовая архитектура нейронной сети радиальных базисных функций включает в себя входной слой, 1 промежуточный слой и выходной слой. Промежуточный слой сети имеет 3 основных параметра: • веса;
• ширина;
• центры.
Обучение нейронной сети на основе радиальных базисных функций осуществляется на основе восста-
новления плотности каждого из классов ру(х) с использованием метода максимального правдоподобия. Обучение проводится в 2 этапа. На первом этапе осуществляется поиск центров промежуточного слоя и их ширины на основе некоторого алгоритма кластеризации, такого как метод к - средних или дерево решений. На 2 этапе осуществляется поиск значений весов между промежуточным и выходным уровнями. Поиск весов осуществляется с помощью метода наименьших квадратов, ортогонального метода наименьших квадратов или алгоритма градиентного спуска.
Архитектура нейронной сети на основе радиальных базисных функций не обладает высокой степенью сложности. При этом такая нейронная сеть имеет следующий явный недостаток: обрабатываемые сетью выборки данных должны быть полными, что снижает эффективность сети радиальных базисных функций при работе с динамически изменяющимися данными, в т.ч. с финансовыми временными рядами [13].
Сети радиальных базисных функций используются для решения таких задач, как регрессия, классификация, прогнозирование финансовых временных рядов, распознавание образов.
Нейронная сеть многослойного персептрона изначально была одним из первых видов нейронных сетей. Эта модель была предложена Ф. Розенблаттом в 1957 г. [14]. Однако, ещё до появления работы Розенблатта, в 1943 г. У. Маккалок и У. Питтс предложили понятие «искусственная нейронная сеть» и описали основные составляющие этой технологии [15]. Составными элементами сети - многослойного персептрона являются:
• датчики (А - элементы);
• ассоциативные элементы ^ - элементы);
• реагирующие элементы ^ - элементы).
Механизм работы такой сети следующий: датчики,
воспринимая внешние сигналы, приходят в активное состояние и передают сигналы ассоциативным элементам. Ассоциативные элементы активизируются, как только количество сигналов, поступающих с датчиков, превысит некое пороговое значение. Затем от ассоциативных элементов сигналы поступают на реагирующие элементы. Реагирующие элементы воспринимают сигналы от ассоциативных элементов, суммируют их и преобразовывают с использованием соответствующей функции активации.
В то же время нейронная сеть, представленная многослойным персептроном, имеет ряд ограничений. Так, например, если изменение весов в сети осуществляется на основе алгоритма градиентного спуска, то возможна ситуация попадания алгоритма в точку локального, а не глобального минимума, что приведет к неверно определенным значениям весов. В 1968 г. исследователи искусственного интеллекта М. Мински и С. Паперт в своей совместной работе показали, что модель персептрона сталкивается с трудностями в процессе решения поставленных перед нею задач [16]. В частности, некоторые типы задач (например, распознавание символов) нельзя полностью решить с использованием технологии параллельных вычислений, которая используется в сети - персептроне. В то же время при решении отдельных задач персептрону может потребоваться большой объем памяти или длительное время.
Несмотря на ощутимые недостатки нейронной сети многослойного персептрона, эта модель сети имеет
довольно широкое применение. Она используется для прогнозирования, распознавания образов, составления адаптивных систем (агентов).
Изучив теоретические основы вышеуказанных нейронных сетей, обратимся к практике их применения при исследовании финансовых данных.
Анализ и прогнозирование финансовых временных рядов являются одними из наиболее важных и актуальных задач эконометрики. Примерами таких задач являются моделирование динамики цен инструментов на фондовой бирже, прогнозирование валютного курса и т.д. Большинство финансовых временных рядов являются нестационарными, следовательно, к ним не могут быть применимы традиционные методы прогнозирования. Использование нейронных сетей в качестве инструмента прогнозирования позволяет решить эту проблему и не принимать каких-либо допущений относительно характеристик входных данных.
При решении задачи моделирования финансовых временных рядов входными данными для нейронной сети выступают временные ряды цен/доходностей финансовых инструментов (акций, фондовых индексов, валютных пар и т.д.) Данные, полученные по индикаторам и осцилляторам, применяемым в рамках технического анализа, также могут быть использованы в качестве входной информации для сети. В качестве основных показателей, применяемых для оценки точности моделирования данных нейронной сетью, выступают среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE), индекс Вильмотта (WI), коэффициент Нэша - Сатклиффа (Ens) и коэффициент Ле-гатеса и Маккейба. Проверочным способом оценки точности прогнозирования может стать вычисление кросс-энтропии [17].
Как показывают результаты исследований, применение сетей с LSTM - архитектурой дает более точные результаты при моделировании финансовых временных рядов по сравнению с обычными нейронными сетями или такими методами машинного обучения, как метод опорных векторов [18]. При прогнозировании значений индекса S&P 500 LSTM - сеть дала более точные прогнозы, чем глубинная нейронная сеть, модель логистической регрессии, а также такая разновидность модели машинного обучения, как случайный лес [17]. При прогнозировании значений валютной пары EURUSD LSTM - сеть превзошла нейронную сеть многослойного персептрона, случайный лес и алгоритм машинного обучения на основе метода опорных векторов [4] как по показателям статистической точности прогноза, так и по значению доходности соответствующих торговых операций с данной валютной парой. LSTM - сети дают достаточно точные прогнозы в то числе на высокочастотных финансовых временных рядах: при прогнозировании минутных доходностей криптовалют (Bitcoin, Litecoin, Ether) результаты, полученные по итогам работы этих сетей, были точнее результатов, полученных при работы нейронной сети-многослойного персептрона и нейронной сети на основе радиальных базисных функций [19].
Таким образом, нейронные сети долгой краткосрочной памяти обладают преимуществами при работе с финансовыми данными по сравнению с нейронными сетями радиальных базисных функций и нейронными сетями, представленными многослойным персептро-ном. Это подтверждает увеличение масштабов использования LSTM - сетей при исследовании финансовых
X X
о
го А с.
X
го m
о
2 О
м о
о сч о сч
о ш m
X
3
<
m О X X
временных рядов, начавшееся относительно недавно. При этом данные сети могут быть усовершенствованы для получения ещё более точных результатов при моделировании финансовых данных и учета специфических особенностей, присущих таким данным (положительная связь между риском и доходностью, «эффект левериджа» и т.д.).
Литература
1. Dixon, M., Klabjan D., Bang, J. H. Implementing Deep Neural Networks for Financial Market Prediction on the Intel Xeon Phi. Proceedings of the 8th workshop on high-performance computational finance. 2015. p. 1-6.
2. Huck, N. Pairs Selection and Outranking: an Application to S&P 100 Index // European Journal of Operational Research. 2009. №196 (2). p. 819 - 825.
3. Huck, N. Pairs Trading and Outranking: the Multi-step-ahead Forecasting Case // European Journal of Operational Research. 2010. №207 (3). p. 1702 - 1716.
4. Wei, W., Li, P. Multi-Channel LSTM with Different Time Scales for Foreign Exchange Rate Prediction. Proceedings of the international conference on Advanced Information Science and System. 2019.
5. Bengio, Y., Simard, P., Frasconi, P. Learning Long-term Dependencies with Gradient Descent // IEEE Transactions on Neural Networks. 1994. №2. p. 157 - 166.
6. Sak, H., Senior, A. W., Beaufays, F. Long Short-term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition // Fifteenth Annual Conference of the International Speech Communication Association. 2014.
7. Britz, D. Recurrent Neural Networks Tutorial, part 4
- Implementing a GRU/LSTM RNN with Python and Theano [электронный ресурс] // URL: http://www.wildml.com/2015/10/recurrent-neural-network-tutorial-part-4-implementing-a-grulstm-rnn-with-python-and-theano (дата обращения: 01.03.2020).
8. Olah, C. Understanding LSTM Networks [электронный ресурс] // URL: https://colah.github.io/posts/2015-08-Understanding-LSTMs (дата обращения: 28.02.2020).
9. Graves, A., Liwicki, M., Fernandez, S., Bertolami, R., Bunke, H., Schmidhuber, J. A Novel Connectionist System for Unconstrained Handwriting Recogntion // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009. №31 (5). p. 855 - 868.
10. Bekiros, S., Lahmiri, S. Cryptocurrency Forecasting with Deep Learning Chaotic Neural Networks // Chaos, Solitons & Fractals, 2019, №118, p. 35-40.
11. Borovkova, S., Tsiamas, I. An Ensemble of LSTM Neural Networks for High - Frequency Stock Market Classification // Journal of Forecasting. 2019. №3. p. 1 -27.
12. Nelson, D. M., Pereira, A. C., De Oliveira, R. A. Stock Market's Price Movement Prediction wit LSTM Neural Networks. Proceedings of the International Joint Conference on Neural Networks. 2017. p. 1419 - 1426.
13. Аюев В. Метод динамической реконфигурации и обучения сети на основе радиальных базисных функций // Прикладная информатика. 2011. №5 (35). С. 118
- 126.
14. Розенблатт Ф. Принципы нейродинамики: пер-цептроны и теория механизмов мозга. - М.: Мир, 1965. 480 с.
15. McCulloch, W. S., Pitts, W. H. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics. 1943. №7. p. 115-133.
16. Мински М., Паперт С. Персептроны. - М.: Мир, 1971. 261 c.
17. Fischer, T., Krauss, C. Deep Learning with Long Short-Term Memory Networks for Financial Market Predictions // European Journal of Operational Research.
2018. №270. p. 654 - 669.
18. Preeti, S., Bala, R., Singh, R. Financial and Non-Stationary Time Series Forecasting using LSTM Recurrent Neural Network for Short and Long Horizon [электронный ресурс] // 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT).
2019. URL: https://doi.org/10.1109/ICCCNT45670.2019.8944624 (дата обращения: 28.02.2020).
19. Alonso-Monsalve, S., Suarez-Cetrulo, A., Cervantes, A., Quintana, D. Convolution on Neural Networks for High-frequency Trend Prediction of Cryptocurrency Exchange Rates using Technical Indicators // Expert Systems with Applications. 2020. №149. p. 1 -11.
Application of long short-term memory neural networks to
modelling financial time series Labusov M.V.
Financial University under the Government of the Russian Federation
The main goal, set before the start, was to carry out the assessment of the long short - term memory neural network as an efficient tool for financial time series research. In the article the essential basics of long short-term memory neural networks are considered, and the practice of studying financial data, represented by time series, is analyzed. In the beginning of the article the architecture of the LSTM - networks as well as other alternative neural networks is described, and the main directions of their application are shown. Then the review of advantages and disadvantages of each of the presented neural networks is made. After that the results of applying the presented networks to financial time series are studied. In conclusion the inference, stemming from the results of the conducted survey, is deduced, and the potential ways of modifying LSTM - networks in order to increase the modelling and forecasting outcomes are determined. Keywords: artificial intelligence in finance; long short - term memory neural network (LSTM - network); multilayer perceptron; radial basis functions neural network; financial time series; financial modelling. References
1. Dixon, M., Klabjan D., Bang, J. H. Implementing Deep Neural Networks for Financial Market Prediction on the Intel Xeon Phi. Proceedings of the 8th workshop on highperformance computational finance. 2015. p. 1-6.
2. Huck, N. Pairs Selection and Outranking: an Application to S&P 100 Index // European Journal of Operational Research. 2009. №196 (2). p. 819 - 825.
3. Huck, N. Pairs Trading and Outranking: the Multi-step-ahead Forecasting Case // European Journal of Operational Research. 2010. №207 (3). p. 1702 - 1716.
4. Wei, W., Li, P. Multi-Channel LSTM with Different Time Scales for Foreign Exchange Rate Prediction. Proceedings of the international conference on Advanced Information Science and System. 2019.
5. Bengio, Y., Simard, P., Frasconi, P. Learning Long-term Dependencies with Gradient Descent // IEEE Transactions on Neural Networks. 1994. №2. p. 157 - 166.
6. Sak, H., Senior, A. W., Beaufays, F. Long Short-term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition // Fifteenth Annual Conference of the International Speech Communication Association. 2014.
7. Britz, D. Recurrent Neural Networks Tutorial, part 4 -Implementing a GRU/LSTM RNN with Python and Theano
[электронный ресурс] // URL:
http://www.wildml.com/2015/10/recurrent-neural-network-tutorial-part-4-implementing-a-grulstm-rnn-with-python-and-theano (дата обращения: 01.03.2020).
8. Olah, C. Understanding LSTM Networks [электронный ресурс] // URL: https://colah.github.io/posts/2015-08-Understanding-LSTMs (дата обращения: 28.02.2020).
9. Graves, A., Liwicki, M., Fernandez, S., Bertolami, R., Bunke, H., Schmidhuber, J. A Novel Connectionist System for Unconstrained Handwriting Recogntion // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2009. №31 (5). p. 855 - 868.
10. Bekiros, S., Lahmiri, S. Cryptocurrency Forecasting with Deep Learning Chaotic Neural Networks // Chaos, Solitons & Fractals, 2019, №118, p. 35-40.
11. Borovkova, S., Tsiamas, I. An Ensemble of LSTM Neural Networks for High - Frequency Stock Market Classification // Journal of Forecasting. 2019. №3. p. 1 - 27.
12. Nelson, D. M., Pereira, A. C., De Oliveira, R. A. Stock Market's Price Movement Prediction wit LSTM Neural Networks. Proceedings of the International Joint Conference on Neural Networks. 2017. p. 1419 - 1426.
13. Ajuev V. Metod dinamicheskoj rekonfiguracii i obuchenija seti na osnove radial'nyh bazisnyh funkcij // Prikladnaja
informatika, 2011, №5 (35), S. 118 - 126.
14. Rozenblatt F. Principy nejrodinamiki: perceptrony i teorija mehanizmov mozga. - M.: Mir, 1965. - 480 s.
15. McCulloch, W. S., Pitts, W. H. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics. 1943. №7. p. 115-133.
16. Minski M., Papert S. Perseptrony. - M.: Mir, 1971. - 261 s.
17. Fischer, T., Krauss, C. Deep Learning with Long Short-Term Memory Networks for Financial Market Predictions // European Journal of Operational Research. 2018. №270. p. 654 - 669.
18. Preeti, S., Bala, R., Singh, R. Financial and Non-Stationary Time Series Forecasting using LSTM Recurrent Neural Network for Short and Long Horizon [электронный ресурс] // 10th International Conference on Computing, Communication and Networking Technologies (ICCCNT). 2019. URL: https://doi.org/10.1109/ICCCNT45670.2019.8944624 (дата обращения: 28.02.2020).
19. Alonso-Monsalve, S., Suarez-Cetrulo, A., Cervantes, A., Quintana, D. Convolution on Neural Networks for High-frequency Trend Prediction of Cryptocurrency Exchange Rates using Technical Indicators // Expert Systems with Applications. 2020. №149. p. 1 - 11.
X X О го А С.
X
го m
о
О
м о