АРХИТЕКТУРА МОДЕЛИ LSTM ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ РЕДКИХ СОБЫТИЙ

В.В. Якименко; И.Л. Савостьянова

УДК 004.9

АРХИТЕКТУРА МОДЕЛИ LSTM ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ РЕДКИХ СОБЫТИЙ

В.В. Якименко Научный руководитель - И. Л. Савостьянова

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: vv.yakimenko@yandex.ru

В статье приведена информация об особой разновидности архитектуры рекуррентных нейронных сетей - LSTM. Были рассмотрены структуры этих нейронных сетей, их основные идеи и вариации.

Ключевые слова: рекуррентные нейронные сети, временные ряды, прогнозирование, LSTM, AI.

LSTM MODEL ARCHITECTURE FOR PREDICTING TIME SERIES OF RARE EVENTS

V.V. Yakimenko Scientific supervisor - I.L. Savostyanova

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: vv.yakimenko@yandex.ru

The article provides information about a spécial kind of recurrent neural network architecture -LSTM. The structures of these neural networks, their main ideas and variations were considered.

Keywords: recurrent neural networks, time series, forecasting, LSTM, AI.

Анализ временных рядов относится к анализу изменения тренда данных за определенный период времени. Анализ временных рядов имеет множество применений, от прогнозирования будущей стоимости товара на основе его прошлых значений до более сложных экономических и информационных явлений [1].

Долгая краткосрочная память (LSTM) - особая разновидность архитектуры рекуррентных нейронных сетей (РНС), способная к обучению долговременным зависимостям. Они могут решать ряд разнообразных задач и в настоящее время обширно используются.

LTSM сети были представлены и разработаны З. Хохрайтер и Ю. Шмидхубером в 1997 году специально, для того, чтобы избегать проблем долговременной зависимости. Их специализация - запоминание информации в течение длительных периодов времени, поэтому они не нуждаются в долгом обучении.

Все рекуррентные нейронные сети имеют форму цепочки повторяющихся модулей нейронной сети. В стандартных РНС этот повторяющийся модуль имеет простую структуру, например, один слой tanh[2].

На приведенной выше диаграмме каждая линия является вектором. Розовые круги обозначают поточечные операции, например, суммирование векторов. Желтые ячейки - это слои нейронной сети. Совмещение линий - это объединение векторов, а знак разветвления -копирование вектора с последующим хранением в разных местах.

Актуальные проблемы авиации и космонавтики - 2022. Том 2

Ключевым понятием ЬБТМ является состояние ячейки (горизонтальная линия, проходящая через верхнюю часть диаграммы).

)

с ч

А и

Г

| |;дпЬ _+

Г

/

А

_V

Рис. 2. Структура ЬТ8М

Состояние ячейки похоже на конвейерную линию. Оно проходит через всю цепочку, подвергаясь незначительным линейным преобразованиям.

В ЬБТМ уменьшает или увеличивает количество информации в состоянии ячейки, в зависимости от потребностей. Для этого используются гейты - структуры, которые тщательно настраиваются.

Гейт - это «ворота», пропускающие или не пропускающие информацию. Гейты состоят из сигмовидного слоя нейронной сети и операции поточечного умножения.

Но не все ЬБТМ одинаковы. Существует много вариаций ЬБТМ. Отличия между ними незначительны, но о некоторых из них стоит упомянуть.

Одна из популярных вариаций ЬБТМ, характеризуется добавлением так называемых "смотровых глазков". С их помощью слои фильтров могут видеть состояние ячейки.

Рис. 3. Структура ЬТ8М с добавлением "смотровых глазков"

Другие модификации включают объединенные фильтры "забывания" и входные фильтры. В этом случае решения, какую информацию следует забыть, а какую запомнить, принимаются не отдельно, а совместно. Мы забываем какую-либо информацию только тогда, когда необходимо записать что-то на ее место. Мы добавляем новую информацию с состояние ячейки только тогда, когда забываем старую.

Немного больше отличаются от стандартных ЬБТМ управляемые рекуррентные нейроны. В ней фильтры «забывания» и входа объединяют в один фильтр «обновления». Кроме того, состояние ячейки объединяется со скрытым состоянием, есть и другие небольшие изменения. Построенная в результате модель проще, чем стандартная ЬБТМ.

Это лишь несколько самых примечательных вариаций ЬБТМ. Существует множество других модификаций.

ЬБТМ - большой шаг в развитии РНС. При этом возникает вопрос, каким будет следующий большой шаг. По общему мнению исследователей, следующий шаг заключается в использовании механизма внимания. Идея состоит в следующем: каждый шаг РНС берет данные из более крупного хранилища информации. Например, если мы используем РНС для генерации подписи к изображению, то такая РНС может рассматривать изображение по частям и на основании каждой части генерировать отдельные слова. Последние несколько лет - время расцвета рекуррентных нейронных сетей, и следующие годы обещают принести еще большие плоды.[3]

1. Brownlee J. Deep learning for time series forecasting: predict the future with MLPs, CNNs and LSTMs in Python. - Machine Learning Mastery, 2018.

2. Understanding LSTM Networks - colah's blog [Электронный ресурс]. URL: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ (дата обращения: 04.04.2022)

3. Долгая краткосрочная память // Википедия. URL: https://ru.wikipedia.org/?curid=6768734&oldid=116692933 (дата обращения: 04.04.2022).

Рис. 4. Структура LTSM с фильтрами "забывания'

Рис. 5. Структура LTSM с управлемыми рекуррентными нейронами

Библиографические ссылки

АРХИТЕКТУРА МОДЕЛИ LSTM ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ РЕДКИХ СОБЫТИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В.В. Якименко, И.Л. Савостьянова

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В.В. Якименко, И.Л. Савостьянова

LSTM MODEL ARCHITECTURE FOR PREDICTING TIME SERIES OF RARE EVENTS

Текст научной работы на тему «АРХИТЕКТУРА МОДЕЛИ LSTM ДЛЯ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ РЕДКИХ СОБЫТИЙ»