Научная статья на тему 'ПРОГНОЗИРОВАНИЕ ТЕХНОЛОГИЧЕСКИХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ МЕХАНИЗМА ВНИМАНИЯ В НЕЙРОННЫХ СЕТЯХ'

ПРОГНОЗИРОВАНИЕ ТЕХНОЛОГИЧЕСКИХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ МЕХАНИЗМА ВНИМАНИЯ В НЕЙРОННЫХ СЕТЯХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
129
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕХАНИЗМ ВНИМАНИЯ В ГЛУБОКИХ НЕЙРОННЫХ СЕТЯХ / ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дли Максим Иосифович, Пучков Андрей Юрьевич, Рысина Екатерина Ивановна

Предложен метод прогнозирования переменных киберфизической системы, реализующей технологический процесс производства фосфора, представленных в виде многомерного временного ряда. В основе метода содержится применение глубокой нейронной рекуррентной сети, имеющей структуру автоэнкодера, в которую добавлен механизм внимания. В нем информация о промежуточных внутренних состояниях энкодера доступна для декодера и используется им для формирования выходной последовательности прогнозных значений переменных технологического процесса. Представлены результаты модельного эксперимента в среде MatLAB, показавшие более высокую точность прогноза нейронной сети с механизмом внимания по сравнению с нейронной сетью без его применения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дли Максим Иосифович, Пучков Андрей Юрьевич, Рысина Екатерина Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PREDICTION OF TECHNOLOGICAL SYSTEMS USING THE MECHANISM OF ATTENTION IN NEURAL NETWORKS

A method is proposed for predicting the variables of a cyber-physical system that implements the technological process of phosphorus production; the variables are presented as a multidimensional time series. The method is based on the use of a deep neural recurrent network with an autoencoder structure, to which an attention mechanism is added. In it the information about the intermediate internal states of the encoder is available to the decoder and is used by it to form an output sequence of predictive values of process variables. The results of a model experiment in the MatLAB environment are presented, which showed a higher prediction accuracy of a neural network with the attention mechanism compared to a neural network without its use.

Текст научной работы на тему «ПРОГНОЗИРОВАНИЕ ТЕХНОЛОГИЧЕСКИХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ МЕХАНИЗМА ВНИМАНИЯ В НЕЙРОННЫХ СЕТЯХ»

II. ИНФОРМАЦИОННЫЕ СИСТЕМЫ.АВТОМАТИЗАЦИЯ И СИСТЕМЫ

УПРАВЛЕНИЯ

УДК 004.896

Maksim I. Dli, Andrey Yu. Puchkov, Ekaterina I. Rysina

PREDICTION OF TECHNOLOGICAL SYSTEMS USING THE MECHANISM OF ATTENTION IN NEURAL NETWORKS

Smolensk Branch of National Research University "MPEI",

Smolensk, Russia

[email protected],

A method is proposed for predicting the variables of a cyber-physical system that implements the technological process of phosphorus production; the variables are presented as a multidimensional time series. The method is based on the use of a deep neural recurrent network with an autoencoder structure, to which an attention mechanism is added. In it the information about the intermediate internal states of the encoder is available to the decoder and is used by it to form an output sequence of predictive values of process variables. The results of a model experiment in the MatLAB environment are presented, which showed a higher prediction accuracy of a neural network with the attention mechanism compared to a neural network without its use.

Keywords: attention mechanism in deep neural networks, time series forecasting.

DOI 10.36807/1998-9849-2022-61-87-67-72

Введение

Применение киберфизических систем для реализации различных технологических процессов предполагает использование в них комплекса технических средств (агрегатов, устройств), отвечающих за проведение различных стадий этих процессов. Примером такого комплекса является сложная химико-энерготехнологическая система (chemical and energy technology system, CETS) переработки фосфора из отходов апатит-нефелиновых руд, разрабатываемая в рамках концепции циркулярной экономики (экономики замкнутого цикла). В ее состав входит три последовательно расположенных технологических агрегата: гранулятор, многокамерная обжиговая машина конвейерного типа (conveyor type multi-chamber calcining machine, CTMCM) и рудно-термическая печь (OTF - ore thermal furnace) [1]. Характерной особенностью CETS являются большие объемы потребляемой мощности (порядка нескольких десятков мегаватт), что обуславливает актуальность задачи оптимизации энергопотребления CETS, так как даже небольшие в процентном выражении цифры экономии энергоресурсов приводят к большим значениям в абсолютном выражении.

В рамках решения задачи оптимизации энергопотребления CETS необходимы данные о текущем состоянии технологического процесса, а также прогноз его изменения на различные временные горизонты. Текущее состояние оценивается по информации, поступающей от контрольно-измерительной аппаратуры, а функции прогнозирования выполняет информационно-аналитическое обеспечение системы

Дли М.И., Пучков А.Ю., Рысина Е.И.

ПРОГНОЗИРОВАНИЕ ТЕХНОЛОГИЧЕСКИХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ МЕХАНИЗМА ВНИМАНИЯ В НЕЙРОННЫХ СЕТЯХ

Смоленский филиал Национального исследовательского университета «МЭИ», Смоленск, Россия [email protected],

Предложен метод прогнозирования переменных киберфизической системы, реализующей технологический процесс производства фосфора, представленных в виде многомерного временного ряда. В основе метода содержится применение глубокой нейронной рекуррентной сети, имеющей структуру автоэнкодера, в которую добавлен механизм внимания. В нем информация о промежуточных внутренних состояниях энкодера доступна для декодера и используется им для формирования выходной последовательности прогнозных значений переменных технологического процесса. Представлены результаты модельного эксперимента в среде MatLAB, показавшие более высокую точность прогноза нейронной сети с механизмом внимания по сравнению с нейронной сетью без его применения.

Ключевые слова: механизм внимания в глубоких нейронных сетях, прогнозирование временных рядов.

Дата поступления - 12 апреля 2022 года

интеллектуального мониторинга, совершенствование которого позволяет повышать качество прогноза применением новых методов и алгоритмов [2-4]. Их разработка для различных прикладных применений и предметных областей в настоящее время осуществляется стремительно благодаря большим перспективам, которые дает глубокое обучение (Deep learning, DL) как ветвь машинного обучения (machine learning, ML) и искусственного интеллекта. Сейчас DL считается основной технологией Четвертой промышленной революции [5], предусматривающей широкое внедрение киберфизических систем в обслуживание человеческих потребностей и производство.

Целью исследования являлось усовершенствование метода прогнозирования переменных CETS на основе применения глубокой искусственной нейронной сети (Deep neural network, DNN) реализацией механизма внимания (attention mechanism, AM). Этот механизм обеспечивает поиск взаимосвязей между участками последовательностей входных и выходных данных [6].

Термин «внимание» в этом контексте является метафорой - AM способствует большей «концентрации» на отдельных элементах последовательности данных, наиболее важных при выработке ответа DNN. Первоначально нейронные сети с AM ориентированы на обработку естественного языка, сейчас технологии AM превратились в архитектуру общего назначения для ML - это следует из выводов 4-го ежегодного отчета о состоянии искусственного интеллекта, недавно опубликованного Н. Бенаичем, генеральным партнером Air Street Capital, венчурной компании,

специализирующейся на стартапах, связанных с искусственным интеллектом (https://www.stateof.ai/). Архитектура общего назначения предполагает, что AM обеспечивает возможность работать с любой входной информацией, если для нее можно подобрать нейронную архитектуру, возвращающую набор аннотационных векторов. Архитектура нейронной сети «трансформер», представленная исследователями из Google Brain в 2017 году и основанная на механизме внимания, стала главным трендом в системах искусственного интеллекта в 2021 году - она используется в наиболее эффективных современных моделях, таких как BERT и GPT.

Превращение технологии AM в архитектуру общего назначения можно подтвердить большим количеством публикаций, в которых описывается ее применение в различных прикладных областях, не связанных с обработкой текста, например: для обнаружения вторжений в информационные системы [7]; в системах визуального отслеживания [8]; в фармацевтике [9, 10]; сейсмологии [11]; в системах распознавания поведения [12]; медицине [13]; для прогнозирования пассажирского потока [14] и других. Во всех этих работах отмечается, что модели на основе AM обеспечивает лучшую точность прогнозирования по сравнению с другими подходами, в том числе на основе DNN, не использующих AM.

Научную новизну исследования составляет разработанный метод прогнозирования переменных CETS, в основе которого использована идея, что данные в технических системах можно обрабатывать на основе выявления взаимосвязанной организации в их последовательностях, аналогичной естественному языку. Такое предположение может в определенной мере быть обосновано взглядами панпсихизма, выводами теории сознания Пенроуза-Хамероффа [15], распространением принципов когнитивных семантик на описание процессов в неодушевленных объектах. В поддержку высказанной идей можно привести работу [16], в которой рассматривается применение архитектуры Transformer из [6] к таймсериям временных рядов вместо естественного языка.

Материалы и методы

В поддержку высказанной идеи свидетельствует,

что в CETS отдельные агрегаты расположены последовательно: гранулятор, CTMCM и OTF. В грануляторе проводится окомковывание поступающего рудного сырья, в результате получают сырые окатыши. В обжиговой машине из них удаляется излишняя влага, и готовые окатыши подвергаются плавлению в OTF, в процессе которого выделяется газообразный фосфор, являющийся целевым продуктом этого технологического процесса. Такое расположение приводит к тому, что выходные переменные одного агрегата являются входными для другого, поэтому в последовательностях значений переменных должна наблюдаться взаимосвязь, аналогичная с предопределенным расположением слов в предложениях. Ожидается, что эту взаимосвязь способна выявить DNN с AM, обеспечив более высокую точность в решении задач классификации состояния CETS и регрессии.

Архитектура автоэнкодера содержит энкодер и декодер (Encoder-Decoder Model) и в предложенном методе использует модель данных «последовательность-последовательность» (Sequence-to-Sequence), которая отражает форму переменных CETS в виде многомерного временного ряда. В предлагаемой архитектуре автоэнкодер состоит из двух глубоких рекуррентных dNn (рис. 1):

- кодировщика (Encoder), который принимает входную последовательность переменных CETS;

- декодера (Decoder), который генерирует выходную последовательность прогнозов переменных CETS и в который добавлен AM.

На рис. 1 обозначено: Sequencelnput - слой, принимающий входную последовательность и подготавливающий ее для подачи на вход LSTM (Long Short-Term Memory) - рекуррентный слой долгой краткосрочной памяти; Stacked LSTM - стек слоев рекуррентной DNN LSTM; Concatenate - слой, объединяющий несколько входных векторов в один; Fully Connect - полносвязный слой; Softmax - слой, преобразующий входной вектор, содержащий произвольные значения, в распределение неотрицательных весов, сумма которых равна единице.

Входная последовательность формируется из векторов G(t.), S(ti) и R(t.), содержащих результаты измерений переменных CETS в дискретные моменты времени t.. В состав вектора G входят: g1 - массовый

R(t\ +delay) S(t,+delay) G(tt+delay) <Stop" Рис. 1. Рекуррентная модель кодер-декодер с применением AT

расход воды; g2 - массовый расход рудного сырья на входе в гранулятор; g3 - угол наклона тарелок гранулятора; g4 - напряжение питания электродвигателей привода тарелок. В состав вектора S входят: s1 - массовый расход окатышей на входе в CTMCM; s2 - средняя температура газа-теплоносителя, на входе в вакуум-камеры; s3 -средняя температура воздуха на выходе из вакуум-кам3ер; s4 - суммарный расход воздуха в вакуум-камерах. В состав вектора R входят: r1 - средний диаметр окатыша; r2 -массовый расход готовых окатышей; r3 - массовый расход фосфора; r4 - степень чистоты фосфора. Состав векторов может быть изменен в соответствии с необходимой детализацией процессов в CETS.

В обучающей выборке целевые значений выходной последовательности смещены по времени относительно входной последовательности на интервал прогноза delay, что обеспечивало тренировку DNN для выработки прогнозных значений G(t+delay), S(t+delay) и R(t.+delay). Повышение точности прогноза достигается за счет того, что AM должен давать более богатый контекст от энкодера к декодеру и декодер «узнает» на что следует обращать внимание при прогнозировании каждого временного шага выходной последовательности. При этом AM устраняет ограничение архитектуры энкодера-декодера для длинных последовательностей и в целом повышает навыки модели в задачах прогнозирования.

Апробация предложенного метода прогнозирования переменных CETS проведена на основе разработанной программы в среде MatLAB-2021b. Эта среда обладает большим инструментарием для построения DNN различной архитектуры: многослойных перцептронов, рекуррентных, сверточных и других, а также предоставляет большое количество примеров их реализации, которые использованы в исследовании [17].

Для реализации AM создана отдельная вычислительная конструкция, которая внедрена в программную архитектуру энкодер-декодер, известную и применяемую относительно давно [18-20] для решения различных задач обработки информации. В архитектуре энкодер-декодеор без AM энкодер запоминает входную последовательность U=(G(t.), S(t.), R(t.)) в одном выходном скрытом состоянии, передаваемом декодеру, который не может посмотреть на всю входную последовательность. Применение AM позволяет декодеру устранить это ограничение и при формировании элементов выходной последовательность обращаться к различным состояниям энкодера, формируемым на основе входной последовательности.

С точки зрения программной реализации AM представляет функцию, которая при формировании элемента выходной последовательности берет на вход одно из скрытых состояний энкодера, декодера и выдает некоторую оценку, которая характеризует то, насколько важно сейчас посмотреть декодеру на скрытое состояние энкодера, чтобы правильно сформировать текущий элемент выходной последовательности. Таким образом, AM предоставляет нейронной сети механизм, который указывает декодеру на сколько ему важно обратить «внимание» на конкретный элемент входной последовательности.

Обозначим скрытые состояния декодера: H =

(h^ hd^ V hd3) и энкодера: He = ^ h

начальный момент декодер имеет состояние hd0 и должен получить на выходе следующий элемент выходной последовательности (в начальный момент это G(t+de-lay)). Здесь «AM прогоняет через себя» hd0 и he0, he1, he2, he3 и выдает оценки W = (w0, w1, w2, w3), отражающие «важность» элементов входной последовательности (рис. 2). После получения оценок W они подаются на слой Soft-max, с выхода которого получаем нормированные оценки P = (p0, p1, p2, p3), сумма которых равна единице.

На основе H и P формируется вектор контекста

C = He ◦ P, где ◦ - обозначение матричного произведения Адамара.Векторконтекстаиспользуетсядляформирования выхода декодера: D = f([y1,C], hd0,), где [.] - обозначение конкатенацию векторов; y1 - вход декодера (вначале это BOS - begin of sequence), чтобы он сгенерировал первый элемент выходной последовательности. В результате распределение вероятностей на выходе декодера учитывает не только hd0 и y1, но и вектор контекста C. Вектор C передает декодеру информацию, которая позволяет ему наилучшим образом рассчитать первый элемент выходной последовательности, в данном случае вектор G(t.+delay).

Рис. 2. Структура AM

При поступлении нового элемента последовательности U формируется новый вектор контекста С, на вход декодеру подается его предыдущий выход D и новый контекст C и т.д - в результате декодер будет поэтапно генерировать всю последовательность: G(t+delay), S(t+delay) и R(t+delay).

Функция Att(hei, hdj), реализующая AM, может быть разной, например, это может быть матричное умножение и тогда для hd0 будет представлена вектром-строкой:

(< heo, h

d0 < he^ hd0 >,< he2, hd0 >,<

предлагаемой рекуррентной архитектуре для Att(hei, hdj) используется однослойная полносвязная нейронная сеть, для создания которой применен слой fullyConnectedLayer из пакета Deep Network Designer MatLAB. Эта сеть на вход принимает конкатенации состояний энкодера и декодера и выдает нормированные оценки: P = A tt(hei, hdj) = fullyConnectedLayer(hei, hdj). После совместного обучения энкодера, декодера и полносвязной сети элементы P отражают степень важности определенного элемента входной последовательности при формировании элемента выходной последовательности.

Описание энкодера, декодера и AM в программе на языке MatLAB выполнено следующими функциями:

- modelEncoder принимает входную последовательность U и возвращает скрытые состояния;

- modelDecoder принимает выходные данные энкодера, вектор контекста, начальное скрытое состояние, а возвращает обновленный вектор контекста, выход декодера, обновленное состояние и веса AM.

- attention на каждом временном шаге возвращает оценки весов AM.

Для предотвращения резкого увеличения или исчезновения выходов активаций во время обучения глубокой DNN использовались различные методы инициализации весов слоев, представленные в MatLAB. В этом случае для AM применялся метод initializeGlorot, реализующий инициализацию Глорота [21].

Применение и результаты

Для генерации обучающих примеров создана модель в Simulink, структура которой показана на рис. 3. Учитывая, что математическое описание CETS как многомерного

объекта управления представляет совокупность большого количества интегро-дифференциальных уравнений в частных производных, получить значения переменных для их применения в обучении DNN представляет отдельную сложную задачу. Поэтому в модельном эксперименте использовался упрощенный подход, рассматривающий динамические модели лишь по одному каналу, отражающему материальный баланс процесса в CETS по входному рудному сырью и выходу готового продукта - фосфора.

Для этого канала применялась аппроксимация

разгонных характеристик [22] отдельных агрегатов: гранулятора s1(g2), обжиговой машины г^) и руднотермической печи г3(г2) с целью получения их передаточных функций, с использованием которых получены обучающие выборки. Обучение DNN в модельном эксперименте с разработанной программой прогнозирования переменных CETS выполнялось на основе сгенерированной выборки, содержащей 30000 пар {ии^^е1ау)}, из которых 22000 отдано под тренировочный набор и по 4000 на тестирующую и валидационную выборки.

Рис. 3. Модель в среде Simulink для генерации обучающих данных

Передаточные функции были получены в виде инерционных звеньев с запаздыванием вида

W(p)=ke-Tp/(1+pT), где p - комплексная переменная Лапласа, k, T, т -параметры, определяемые по разгонной характеристике соответствующего объекта. Для остальных переменных в последовательностях U(ti) применены простые пропорциональные модели. Пропорциональная модель по каналу s3(s2) учитывала также время прохождения теплоносителя по вакуум-камерам, что отражено применением звена транспортного запаздывания на время т из библиотеки среды Simulink: s3=k -s2-1(t-r), где k - коэффициент передачи объекта.

Входная переменная g2 представлена в виде линейно возрастающего сигнала с гармонической составляющей, переменные g1, g3 и g4 заданы постоянными. Все эти переменные нормализованы к диапазону [0; 1]. Для имитации шума измерений на все переменные аддитивно накладывался случайный равномерно распределенный сигнал из диапазона £].

Обучение DNN проводилось в течении 80 эпох на ноутбуке с процессором AMD Ryzen 7 3750H 2.3ГГц и видеокартой NVIDIA GeForce GTX 1650. На рис. 4 отражено изменение метрики потерь DNN в одном из экспериментов, отражающее поведение данной метрики, характерное для всех экспериментов.

Рис. 4. Изменение метрики потерь в процессе обучения

Проверка качества предложенной модели DNN проводилась на валидационной выборке на основе расчета среднеквадратической ошибки (Root Mean Square Error, RMSe). На рис. 5 отражены зависимости RMSE от delay для трех значений переменной

Визуальный анализ зависимостей показывает, что DNN с AM обеспечивает меньшую ошибку по сравнению с DNN без AM, что особенно заметно на больших интервалах прогноза. Это может служить экспериментальным подтверждением высказанного предположения, что механизм внимания в нейронных сетях способен выявлять взаимосвязанную организацию данных в последовательностях значений переменных технологического процесса, представленных в виде многомерных временных рядов, и обеспечивать более высокую точность прогноза по сравнению с DNN без AM.

В предложенном варианте AM декодер учитывает только скрытые состояния энкодера, однако возможны и более сложные реализации этого механизма, например Self-Attention и Multi-head-Attention, которые также обеспечивают более высокое качество прогноза временных рядов по сравнению с другими методами [23, 24].

0.2 I—г

О1—'-1-1-1-'-1-1-'-

4 6 8 10 12 14 16 18 20

delay

Рис. 5. Зависимость ошибки прогноза от delay и ^

Отметим, что различные варианты AM находят применение и в анализе изображений, обеспечивая более полное извлечение обширной семантической информации, заключенной в них, что значительно повышает эффективность рекомендательных систем [25].

Заключение

В результате проведенного исследования предложен метод прогнозирования переменных технологического процесса производства фосфора из отходов апатит-нефелиновых руд на основе применения архитектуры автоэнкодера с использованием одного из вариантов механизма внимания. В представленной архитектуре информация о промежуточных внутренних состояниях энкодера доступна для декодера и используется им для формирования выходной последовательности прогнозных значений переменных процесса.

Результаты модельного эксперимента в среде MatLAB показали более высокую точность прогноза на основе предложенного метода для различных временных горизонтов по сравнению с автоэнкодером без применения механизма внимания. Предложенный метод прогнозирования переменных технологического процесса может найти применение в алгоритмическом и программном обеспечении рекомендательных

систем и систем интеллектуального мониторинга для различных прикладных областей после учета их специфики, в частности, за счет адаптации размерностей обрабатываемых последовательностей.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта №20-37-90062 «Аспиранты».

Литература

1. Meshalkin V.P., Puchkov A.Y., Dli M.I. et al. Generalized Model for Engineering and Controlling a Complex Multistage Chemical Energotechnological System for Processing Apatite-Nepheline Ore Wastes // Theor Found Chem Eng. 2019. V. 53, pp. 463-471. https://doi.org/10.1134/ S0040579519040237.

2. Solopov R.V., Samulchenkov A.S., Ziryukin V.I. Genetic algorithm as a tool for modeling calculations of electric power systems // Journal of Applied Informatics 2021. Vol. 16. no. 6 (96). pp. 43-53. https://doi.org/10.37791/2687-0649-2021-16-6-43-53

3. Dli M.I., Vlasova E.A., Sokolov A.M., Morgunova E.V. Creation of a chemical-technological system digital twin using the Python language // Journal of Applied Informatics. 2021. Vol. 16. no 1 (91), pp. 22-31. https:// doi.org/10.37791/2687-0649-2021-16-1-22-31

4. Okunev B.V., Lazarev A.I., Kharlamov P.S. Virtualization of information object vulnerability testing container based on dex technology and deep learning neural networks // Journal of Applied Informatics. 2021. Vol. 16. no. 4 (94), pp. 96-109. https://doi.org/109. 10.37791/2687-06492021-16-4-96-109

5. Sarker I.H. Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions // SN COMPUT. SCI. 2021. V. 2, pp. 420. https:// doi.org/10.1007/s42979-021-00815-1

6. Vaswani A., Shazeer N., Parmar N. et al. Attention Is All You Need // last revised 6 Dec 2017. arX-iv:1706.03762.

7. Laghrissi F., Douzi S., Douzi K. et al. IDS-attention: an efficient algorithm for intrusion detection systems using attention mechanism // J Big Data 2021. V. 8, pp. 149. https://doi.org/10.1186/s40537-021-00544-5

8. Fan S., Wang R., Wu Z. et al. High-speed tracking based on multi-CF filters and attention mechanism // SIViP 2021. V. 15, pp. 663-671. https://doi.org/10.1007/ s11760-019-01527-z

9. Ye Y., Wang J., Xu Y. et al. MATHLA: a robust framework for HLA-peptide binding prediction integrating bidirectional LSTM and multiple head attention mechanism // BMC Bioinformatics. 2021. V. 22, p. 7 https://doi. org/10.1186/s12859-020-03946-z

10. Keming Kang Tian S. & Yu L. Drug Adverse Reaction Discovery Based on Attention Mechanism and Fusion of Emotional Information // Aut. Control Comp. Sci. 2020. V. 54, pp. 391-402 https://doi.org/10.3103/S0146411620050053

11. Tang S., Wang J. & Tang C. Identification of Microseismic Events in Rock Engineering by a Convolution-al Neural Network Combined with an Attention Mechanism // Rock Mech Rock Eng. 2021. V. 54, pp. 47-69 https://doi. org/10.1007/s00603-020-02259-0

12. Chen L., Liu R., Zhou D. et al. Fused behavior recognition model based on attention mechanism // Vis. Comput. Ind. Biomed Art. 2020. V. 3, p. 7 https://doi. org/10.1186/s42492-020-00045-x

13. Junlong Cheng Tian, S., Yu L. et al. Multi-Attention Mechanism Medical Image Segmentation Combined with Word Embedding Technology. Aut. Control Comp. Sci. 54, 560-571 (2020). https://doi.org/10.3103/ S0146411620060024

14. Yu J. Short-term Airline Passenger Flow Prediction Based on the Attention Mechanism and Gated Recurrent

Unit Model. Cogn Comput (2022). https://doi.org/10.1007/ s12559-021-09991-x

15. Hameroff S. Consciousness and Quantum State Reduction—Which Comes First?. Act Nerv Super 61, 31-40 (2019). https://doi.org/10.1007/s41470-019-00053-0

16. Ntakouris T. Timeseries classification with a Transformer model // Keras documentation. Date created: 2021/06/25. URL: https://keras.io/examples/timeseries/ timeseries_transformer_classification/ (дата обращения 10.01.22).

17. Sequence-to-Sequence Translation Using Attention // Help Center MathWorks. URL https://www.mathworks. com/help/deeplearning/ug/sequence-to-sequence-transla-tion-using-attention.html (дата обращения 10.01.2022).

18. Nakayama H., Nishida N. Zero-resource machine translation by multimodal encoder-decoder network with multimedia pivot // Machine Translation. 2017. V. 31, pp. 4964.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. Nie Yp., Han Y., Huang Jm. et al. Attention-based encoder-decoder model for answer selection in question answering // Frontiers Inf Technol Electronic Eng. 2017. V. 18, pp. 535-544 https://doi.org/10.1631/FI-TEE.1601232

20. Sun Y., Mao H., Guo Q. et al. Learning a good representation with unsymmetrical auto-encoder //

Neural Comput & Applic. 2016. V. 27, pp. 136-1367 https:// doi.org/10.1007/s00521-015-1939-3

21. Glorot X. & Bengio Y. Understanding the difficulty of training deep feedforward neural networks., in Yee Whye Teh & D. Mike Titterington, ed., 'AISTATS' , JMLR.org, , 2010, pp. 249-256 .

22. Alikov A.Y., Kovaleva M.A., Rutkovskiy A.L.j Tedeeva N.V. Automation of optimal identification of dynamic element transfer functions in complex technical objects based on acceleration curves // Herald of Dagestan State Technical University. Technical Sciences. 2017, V. 44(2), pp. 97-106. (In Russ.) https://doi.org/10.21822/2073-6185-2017-44-2-97-106

23. Gao C., Zhang N., Li Y. et al. Self-attention-based time-variant neural networks for multi-step time series forecasting // Neural Comput & Applic. 2022. https:// doi.org/10.1007/s00521-021-06871-1

24. Abbasimehr H., Pak R. Improving time series forecasting using LSTM and attention models // J Ambient Intell Human Comput. 2022. V. 13, pp. 673-691 https://doi. org/10.1007/s12652-020-02761-x

25. Zhong T., Zhang S., Zhou F. et al. Hybrid graph convolutional networks with multi-head attention for location recommendation // World Wide Web. 2020. V. 23, pp. 3125-3151 https://doi.org/10.1007/s11280-020-00824-9

Сведения об авторах

Дли Максим Иосифович, д-р техн. наук, профессор, Смоленский филиал Национального исследовательского университета «МЭИ»; Maksim I. Dli, Dr Sci. (Eng.), Professor, Smolensk Branch of National Research University "MPEI", [email protected] Пучков Андрей Юрьевич, канд. техн. наук, доцент, Смоленский филиал Национального исследовательского университета «МЭИ»; Andrey Yu. Puchkov, Ph.D (eng.), Associate Professor, Smolensk Branch of National Research University "MPEI", [email protected]

Рысина Екатерина Ивановна, Смоленский филиал Национального исследовательского университета «МЭИ»; Ekaterina I. Rysina Smolensk Branch of National Research University "MPEI", [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.